Manuskript
Manuskript
Manuskript
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
Wahrscheinlichkeitstheorie II<br />
von Peter Pfaffelhuber<br />
Version: 8. Februar 2009
Inhaltsverzeichnis<br />
1 Wahrscheinlichkeitstheorie I 1<br />
1.1 Wiederholung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1<br />
1.2 Nachtrag . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4<br />
2 L p -Räume 7<br />
2.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7<br />
2.2 L p -Konvergenz (oder Konvergenz im p-ten Mittel) . . . . . . . . . . . . . . . 8<br />
2.3 Der Raum L 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13<br />
2.4 Lebesgue’scher Zerlegungssatz und Satz von Radon-Nikodym . . . . . . . . . 15<br />
3 Die bedingte Erwartung 18<br />
3.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18<br />
3.2 Definition und Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . 19<br />
3.3 Der Fall F = σ(X) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22<br />
3.4 Reguläre Version der bedingten Verteilung . . . . . . . . . . . . . . . . . . . . 24<br />
4 Einführung in stochastische Prozesse 27<br />
4.1 Definition und Existenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27<br />
4.2 Beispiel: der Poisson-Prozess . . . . . . . . . . . . . . . . . . . . . . . . . . . 30<br />
4.3 Filtrationen und Stoppzeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . 32<br />
5 Martingale 35<br />
5.1 Definition und Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . 35<br />
5.2 Stochastisches Integral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38<br />
5.3 Optional Stopping und Optional Sampling . . . . . . . . . . . . . . . . . . . . 39<br />
6 Martingalkonvergenzsätze 44<br />
6.1 Die Doob’sche Ungleichung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44<br />
6.2 Konvergenzsätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48<br />
6.3 Rückwärtsmartingale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51<br />
7 Ergodentheorie 53<br />
7.1 Begriffe und einfache Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . 53<br />
7.2 Ergodensätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54<br />
7.3 Anwendung: Markov-Ketten . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56<br />
1
INHALTSVERZEICHNIS 2<br />
8 Schwache Konvergenz 59<br />
8.1 Definition und einfache Eigenschaften . . . . . . . . . . . . . . . . . . . . . . 59<br />
8.2 Der Satz von Helly . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63<br />
8.3 Der Satz von Prohorov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65<br />
8.4 Anwendung: Der Satz von deFinetti . . . . . . . . . . . . . . . . . . . . . . . 67<br />
9 Charakteristische Funktion 71<br />
9.1 Einführung: Separierende Funktionenklassen . . . . . . . . . . . . . . . . . . . 71<br />
9.2 Definition und einfache Eigenschaften . . . . . . . . . . . . . . . . . . . . . . 73<br />
9.3 Charakteristische Funktionen und Momente . . . . . . . . . . . . . . . . . . . 75<br />
9.4 Der Zusammenhang mit schwacher Konvergenz . . . . . . . . . . . . . . . . . 77<br />
10 Schwache Grenzwertsätze 80<br />
10.1 Poisson-Konvergenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80<br />
10.2 Der zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83<br />
10.3 Mehrdimensionale Grenzwertsätze . . . . . . . . . . . . . . . . . . . . . . . . 87
Kapitel 1<br />
Wiederholung und Nachtrag<br />
Wahrscheinlichkeitstheorie I<br />
Oft werden wir es mit einem Messraum (Ω, A) und einem Maßraum (Ω, A, µ) zu tun haben.<br />
Hierbei ist Ω eine Menge, A ⊆ P(Ω) eine σ-Algebra und µ ein Maß auf A. Oft wird µ = P<br />
ein Wahrscheinlichkeitsmaß sein.<br />
1.1 Wiederholung<br />
Maßtheorie<br />
Definition 1.1. 1. Ein Mengensystem A ⊆ P(Ω) heißt σ-Algebra, falls<br />
(a) Ω ∈ A<br />
(b) A ∈ A =⇒ A c ∈ A<br />
(c) A1, A2, ... ∈ A =⇒ �<br />
n≥1 An ∈ A.<br />
2. Für ein beliebiges Mengensystem E ist σ(E) := � {A ⊇ E : A ist σ-Algebra} die von E<br />
erzeugte σ-Algebra.<br />
3. Für einen topologischen Raum (Ω, T ) bezeichne B(Ω) := σ(T ) die Borel’sche σ-Algebra<br />
auf Ω. Ist (Ω, r) ein metrischer Raum, so erzeugt die Metrik r eine Topologie T (r) und<br />
wir setzen B(Ω) := σ(T (r)).<br />
4. Eine Abbildung µ : A → [0; ∞) auf dem Mengensystem A heißt Prämaß, falls<br />
(a) µ(∅) = 0<br />
(b) Sind A1, A2, ... ∈ A disjunkte Mengen mit �<br />
n≥1 An ∈ A, so ist<br />
� � �<br />
µ = �<br />
µ(An).<br />
n≥1<br />
An<br />
Die zweite Eigenschaft heißt σ-Additivität. Ist A eine σ-Algebra, so heißt µ Maß.<br />
5. Gibt es Mengen E1, E2, ... ∈ A mit En ↑ Ω und µ(En) < ∞, n = 1, 2, ..., so heißt das<br />
Maß σ-endlich. Gilt µ(Ω) < ∞, so ist das Maß endlich. Ein Maß mit µ(Ω) = 1 heißt<br />
Wahrscheinlichkeitsmaß.<br />
1<br />
n≥1
KAPITEL 1. WAHRSCHEINLICHKEITSTHEORIE I 2<br />
Um Maße zu konstruieren, ist es meist am einfachsten, ein Prämaß auf einem Erzeuger, d.h.<br />
einem Mengensystem R mit σ(R) = A, zu definieren und diesen dann auf A fortzusetzen.<br />
Wie dieses Vorgehen funktioniert, beschreibt der folgende Satz.<br />
Theorem 1.2 (Maßfortsetzungssatz). Jedes Prämaß auf einem Ring R (d.h. ∅ ∈ R, A, B ∈<br />
R =⇒ A \ B ∈ R, A1, ..., An ∈ R =⇒ �n i=1 Ai ∈ R) lässt sich auf eindeutige Weise zu einem<br />
Maß auf σ(R) fortsetzen.<br />
Für die Eindeutigkeit der Fortsetzung ist hierbei folgendes Resultat wichtig.<br />
T:eindDurch Theorem 1.3 (Eindeutigkeit und durchschnittstabile Erzeuger). Seien µ1, µ2 zwei Maße auf<br />
der σ-Algebra A, E durchschnittstabil mit σ(E) = A und µ1(E) = µ2(E) für alle E ∈ E. Sind<br />
entweder µ1, µ2 Wahrscheinlichkeitsmaße, oder es existieren E1, E2, ... ∈ E mit En ↑ Ω und<br />
µi(En) < ∞, i = 1, 2; n = 1, 2, .... Dann ist µ1 = µ2.<br />
Definition 1.4 (Messbare Abbildungen). 1. Für Messräume (Ω, A), (Ω ′ , A ′ ) heißt eine Abbildung<br />
f : Ω → Ω ′ (A − A ′ −)messbar, falls f −1 (A ′ ) ∈ A für alle A ′ ∈ A ′ .<br />
2. Sei f ≥ 0 messbar. Dann heißt f∗µ das Bildmaß von f unter µ und ist definiert durch<br />
f∗µ(A ′ ) := µ(f −1 (A ′ )) = µ{f ∈ A ′ }.<br />
3. Eine messbare Abbildung f : Ω → R heißt einfach, falls sie sich schreiben lässt als<br />
f =<br />
n�<br />
i=1<br />
αi1Ai<br />
mit n ∈ N, α1, ..., αn ∈ R und A1, ..., An ∈ A mit Ai ∩ Aj = ∅ für i �= j. Wir definieren<br />
für einfache Funktionen das Integral<br />
�<br />
µ[f] :=<br />
fdµ :=<br />
n�<br />
αiµ(Ai).<br />
4. Ist µ = P ein Wahrscheinlichkeitsmaß, so schreiben wir E[f] := P[f] = µ[f].<br />
Um das Integral für nicht-einfache, messbare Funktionen zu definieren, ist folgendes Resultat<br />
wichtig.<br />
Theorem 1.5 (Approximation durch einfache Funktionen). Für jede messbare Funktion f<br />
gibt es einfache Funktionen f1, f2, ... mit |fn| ≤ |f| und fn n→∞<br />
−−−→ f punktweise. Ist f ≥ 0, so<br />
kann man die fn’s so wählen dass fn ↑ f.<br />
Definition 1.6 (Lebesgue-Integral). Sei f ≥ 0 messbar. Wir definieren<br />
i=1<br />
µ[f] := sup{µ[g] : g ≤ f, g einfach}.<br />
Für allgemeines f teilt man das Integral mittels µ[f] = µ[f + ] − µ[f − ] auf. Nun heißt f<br />
integrierbar falls µ[f + ], µ[f − ] < ∞.<br />
Das nun definierte Integral hat folgende einfache Eigenschaften:<br />
Proposition 1.7 (Eigenschaften des Integrals). 1. Die Abbildung f ↦→ µ[f] ist linear, monoton<br />
und |µ[f]| ≤ µ[|f|].
KAPITEL 1. WAHRSCHEINLICHKEITSTHEORIE I 3<br />
2. Zwei messbare Funktionen f, g stimmen genau dann bis auf eine µ-Nullmenge überein,<br />
falls µ[f; A] = µ[g; A] für alle A ∈ A. Hierbei ist µ[f; A] = µ[f1A].<br />
Folgende Konvergenzsätze sind wichtige Hilfsmittel für das Integral.<br />
Theorem 1.8 (Satz von der monotonen Konvergenz). Seien f, g, f1, f2, ... messbar mit fn ≥ g<br />
und µ[g] > −∞ sowie fn ↑ f fast sicher. Dann ist µ[fn] n→∞<br />
−−−→ µ[f]. Beide Seiten können ∞<br />
annehmen.<br />
Theorem 1.9 (Lemma von Fatou). Seien g, f1, f2, ... messbar mit fn ≥ g fast überall und<br />
µ[g] > −∞. Dann ist<br />
µ[lim inf<br />
n→∞ fn] ≤ lim inf<br />
n→∞ µ[fn].<br />
Theorem 1.10 (Satz von der majorisierten Konvergenz). Seien g, f, f1, f2, ... messbar mit<br />
|fn| ≤ g und g integrierbar. Falls fn n→∞<br />
−−−→ f fast überall, dann ist µ[|fn − f|] n→∞<br />
−−−→ 0.<br />
Stochastik<br />
Im Folgenden sei (Ω, A, P) ein Wahrscheinlichkeitsraum und (Ω ′ , A ′ ) ein Messraum. Messbare<br />
Abbildungen X : Ω → Ω ′ heißen Zufallsvariable. Wir schreiben E[X] := P[X] für das Integral<br />
von P über X.<br />
Proposition 1.11 (Tschebyscheff-Ungleichung). Sei a, p > 0 und X eine Zufallsvariable, so<br />
dass |X| p integrierbar ist. Dann ist<br />
P{|X| > a} ≤ E[|X|p ]<br />
ap .<br />
Definition 1.12 (Unabhängigkeit).<br />
Ei ⊆ A heißt unabhängig, falls<br />
1. Eine Familie {Ei : i ∈ I} von Mengensystemen<br />
� �<br />
P<br />
�<br />
= �<br />
P(Aj)<br />
j∈J<br />
Aj<br />
für alle endlichen J ⊆ I und Aj ∈ Ej, j ∈ J.<br />
Eine Familie von Zufallsvariablen {Xi : i ∈ I} ist unabhängig, wenn {σ(Xi) : i ∈ I}<br />
unabhängig ist.<br />
Eine Familie von Mengen {Ai : i ∈ I} mit Ai ∈ A ist unabhängig, falls {1Ai : i ∈ I}<br />
unabhängig ist.<br />
j∈J<br />
2. Sei A1, A2, ... ⊆ A eine Folge von σ-Algebren. Dann ist<br />
T (A1, A2, ...) = � � �<br />
σ<br />
n≥1<br />
m≥n<br />
die σ-Algebra der terminalen Ereignisse von A1, A2, ....<br />
Unter Unabhängigkeit ist die σ-Algebra der terminalen Ereignisse besonders einfach.<br />
Theorem 1.13 (Kolmogoroff’sches 0-1 Gesetz). Sei A1, A2, ... ⊆ A eine Folge unabhängiger<br />
σ-Algebren. Dann ist T := T (A1, A2, ...) trivial, d.h. P(A) = 0 oder P(A) = 1 für A ∈ T .<br />
Am<br />
�
KAPITEL 1. WAHRSCHEINLICHKEITSTHEORIE I 4<br />
Daraus kann man das Borel-Cantelli Lemma folgern, das eine Aussage über folgendes Ereignis<br />
trifft.<br />
Definition 1.14. Für A1, A2, ... ∈ A ist<br />
lim sup An :=<br />
n→∞<br />
� �<br />
n≥1 m≥n<br />
das Ereignis ’unendlich viele der An treten ein’.<br />
Am ∈ T (σ(1A1 ), σ(1A2 ), ...)<br />
Theorem 1.15 (Borel-Cantelli Lemma). Sei A1, A2, ... ∈ A. Dann gilt<br />
�<br />
P(An) < ∞ =⇒ P(lim sup An) = 0.<br />
n→∞<br />
n≥1<br />
Sind A1, A2, ... unabhängig, so gilt auch<br />
�<br />
P(An) = ∞ =⇒ P(lim sup An) = 1.<br />
n→∞<br />
n≥1<br />
Das Borel-Cantelli Lemma ist zentral im Beweis des starken Gesetzes der großen Zahlen.<br />
Theorem 1.16 (Starkes Gesetz der großen Zahlen). Sei X1, X2, ... unabhängige und identisch<br />
verteilte Zufallsvariablen mit E[|X1|] < ∞ und Sn := X1 + ...Xn. Dann ist<br />
Sn<br />
n<br />
n→∞<br />
−−−→ E[X1] fast sicher.<br />
Folgender Satz verallgemeinert den Satz von deMoivre-Laplace. Er wird später in dieser Vorlesung<br />
auf den Fall von nicht identisch verteilten Zufallsvariablen weiter verallgmeinert.<br />
Theorem 1.17 (Zentraler Grenzwertsatz für unabhängige, identisch verteilte Zufallsgrößen).<br />
Seien X1, X2, ... reelle, unabhängige, identisch verteilte Zufallsgrößen mit E[X1] = µ, V[X1] =<br />
σ2 < ∞ und Sn := X1 + ... + Xn. Dann gilt für alle x ∈ R<br />
�<br />
Sn − nµ<br />
�<br />
n→∞<br />
P √ ≤ x −−−→ Φ(x),<br />
nσ2 wobei Φ die Verteilungsfunktion der Standardnormalverteilung ist.<br />
1.2 Nachtrag<br />
Jensen’sche Ungleichung<br />
Wir starten mit einer Aussage über konvexe Funktionen von reellen Zufallsvariablen.<br />
l:konv1 Lemma 1.18. Sei I ein offenes Intervall und ϕ : I → R konvex. Dann gilt<br />
1. ϕ ist stetig auf I<br />
2. Für y ∈ I existiert<br />
und<br />
für alle x ∈ I.<br />
ϕ(x) − ϕ(y)<br />
λ(y) := lim<br />
x↓y x − y<br />
ϕ(y) + λ(y)(x − y) ≤ ϕ(x)
KAPITEL 1. WAHRSCHEINLICHKEITSTHEORIE I 5<br />
Beweis. Siehe Analysis.<br />
Proposition 1.19 (Jensen’sche Ungleichung). Sei I offen und X eine integrierbare Zufallsvariable<br />
mit Werten in I und ϕ : I → R konvex. Dann gilt<br />
E[ϕ(X)] ≥ ϕ(E[X]).<br />
Beweis. Da I ein Intervall ist, ist E[X] ∈ I. Nach Lemma 1.18 ist für x ∈ I<br />
und damit<br />
ϕ(x) ≥ ϕ(E[X]) + λ(E[X])(x − E[X])<br />
E[ϕ(X)] ≥ ϕ(E[X]) + λ(E[X])E[X − E[X]] = ϕ � E[X] � .<br />
Fast sichere und stochastische Konvergenz<br />
Definition 1.20 (Fast sichere und stochastische Konvergenz). Seien X, X1, X2, ... Zufallsvariablen<br />
mit Werten in einem metrischen Raum (E, r).<br />
1. Falls<br />
P{ lim<br />
n→∞ r(Xn, X) = 0} = 1<br />
so konvergiert X1, X2, ... fast sicher gegen X und wir schreiben Xn n→∞<br />
−−−→fs X.<br />
2. Falls für alle ε > 0<br />
lim<br />
n→∞ P{r(Xn, X) > ε} = 0,<br />
so konvergiert X1, X2, ... stochastisch gegen X und wir schreiben Xn n→∞<br />
−−−→p X.<br />
Wir wiederholen zunächst ein Resultat, das fast sichere und Konvergenz in Wahrscheinlichkeit<br />
in Beziehung setzt.<br />
P:wc1 Proposition 1.21 (Konvergenz in Wahrscheinlichkeit und fast sichere Konvergenz). Seien X, X1, X2, ...<br />
Zufallsvariablen mit Werten im metrischen Raum (E, r). Dann sind äquivalent:<br />
1. Xn n→∞<br />
−−−→p X<br />
2. Für jede Folge (nk)k=1,2,... gibt es eine Teilfolge (nkℓ )ℓ=1,2,... mit Xnk ℓ<br />
sicher.<br />
Insbesondere gilt<br />
Beweis. Zu Beginn bemerken wir, dass<br />
Xn n→∞<br />
−−−→fs X =⇒ Xn n→∞<br />
−−−→p X.<br />
ℓ→∞<br />
−−−→ X fast<br />
Xn n→∞<br />
−−−→p X ⇐⇒ E[r(Xn, X) ∧ 1] n→∞<br />
−−−→ 0. (1.1) eq:wc1<br />
Denn: ist Xn n→∞<br />
−−−→p X, so gilt für alle ε > 0<br />
lim<br />
n→∞ E[r(Xn,<br />
�<br />
X) ∧ 1] ≤ lim ε + P{r(Xn, X) > ε}<br />
n→∞<br />
� = ε,
KAPITEL 1. WAHRSCHEINLICHKEITSTHEORIE I 6<br />
womit die rechte Seite gezeigt ist. Gilt hingegen die rechte Seite, folgt mit der Tschebyscheffschen<br />
Ungleichung für 0 < ε ≤ 1, dass<br />
P{r(Xn, X) > ε} ≤ E[r(Xn, X) ∧ 1]<br />
ε<br />
n→∞<br />
−−−→ 0.<br />
1. ⇒ 2.: Wegen (1.1) können wir für jede Folge (nk)k=1,2,... eine Teilfolge (nkℓ )ℓ=1,2,... wählen,<br />
so dass<br />
� �∞<br />
� ∞�<br />
E (r(Xnk , X) ∧ 1) = E[r(Xnk , X) ∧ 1] < ∞.<br />
ℓ ℓ<br />
ℓ=1<br />
Das erste Gleichheitszeichen gilt dabei wegen monotoner Konvergenz. Damit ist<br />
� �∞<br />
�<br />
1 = P (r(Xnk , X) ∧ 1) < ∞<br />
ℓ<br />
ℓ=1<br />
ℓ=1<br />
≤ P � lim sup r(Xnk , X) = 0<br />
ℓ<br />
ℓ→∞<br />
� ≤ 1,<br />
ℓ→∞<br />
d.h. Xnk −−−→fs X.<br />
ℓ<br />
2. ⇒ 1.: Nehmen wir an, dass 1. nicht gilt. Wegen (1.1) gibt es ein ε > 0 und eine Teilfolge<br />
(nk)k=1,2,..., so dass limk→∞ E[r(Xnk , X) ∧ 1] > ε. Angenommen, es gäbe nun eine Teilfolge<br />
ℓ→∞<br />
−−−→ X fast sicher. Dann wäre auch<br />
(nkℓ )ℓ=1,2,..., so dass Xnk ℓ<br />
lim<br />
ℓ→∞ E[r(Xnk , X) ∧ 1] = E<br />
ℓ � lim r(Xnk , X) ∧ 1<br />
ℓ→∞ ℓ � = 0<br />
wegen majorisierter Konvergenz, also ein Widerspruch. Also haben wir eine Folge (nk)k=1,2,...<br />
gefunden, für die es keine weitere Teilfolge (nkℓ )ℓ=1,2,...<br />
ℓ→∞<br />
gibt mit Xnk −−−→fs X, also haben<br />
ℓ<br />
wir gezeigt, dass 2. nicht gilt.
Kapitel 2<br />
L p -Räume<br />
Sei (Ω, A, P) ein Wahrscheinlichkeitsraum. (Viele der in diesem Abschnitt gezeigten Resultate<br />
gelten auch für σ-endlich oder allgemeine Maßräume.)<br />
2.1 Grundlagen<br />
Definition 2.1 (L p -Räume). Für 0 < p < ∞ definieren wir auf dem Raum der Zufallsvariablen<br />
die Abbildungen<br />
X ↦→ ||X||p := (E[|X| p ]) 1/p<br />
sowie<br />
Wir setzen für 0 < p ≤ ∞<br />
X ↦→ ||X||∞ := inf{K : P{|X| > K} = 0}.<br />
L p := L p (Ω, A, P) := {X : ||X||p < ∞}.<br />
Proposition 2.2 (Hölder und Minkowski’s Ungleichung). 1. Sei 0 < p, q, r ≤ ∞ so, dass<br />
. Dann gilt<br />
1<br />
p<br />
+ 1<br />
q<br />
= 1<br />
r<br />
2. Für 0 < p ≤ ∞ ist<br />
||X + Y || p∧1<br />
p<br />
||XY ||r ≤ ||X||p||Y ||q (Hölder-Ungleichung) (2.1) eq:hoelder<br />
≤ ||X|| p∧1<br />
p<br />
+ ||Y || p∧1<br />
p . (Minkowski-Ungleichung) (2.2) eq:mink<br />
Bemerkung 2.3. Die Hölder-Ungleichung im Spezialfall p = q = 2 ist die Cauchy-Schwartz-<br />
Ungleichung.<br />
Beweis von (2.1):. Im Fall p = ∞ oder q = ∞ ist die Aussage klar, sei also p, q < ∞. Ist<br />
entweder ||X||p = 0. ||X||p = ∞, ||Y ||q = 0 oder ||Y ||q = ∞, ist die Aussage ebenso klar. Sei<br />
also ŒX, Y ≥ 0 und 0 < ||X||p, ||Y ||q < ∞ und<br />
�X := X<br />
, �<br />
Y<br />
Y = .<br />
||X|| p ||Y || q<br />
Dann ist zu zeigen, dass || � X � Y ||r ≤ 1. Wegen der Konvexität der Exponentialfunktion ist<br />
(xy) r = exp � r<br />
r<br />
pp log x + q q log y� ≤ r<br />
pxp + r<br />
q yq<br />
7
KAPITEL 2. L P -RÄUME 8<br />
und damit<br />
|| � X � Y || r r = E[( � X � Y ) r ] ≤ r<br />
pE[ � X p ] + r<br />
q E[� Y q ] = 1<br />
und die Behauptung folgt.<br />
Beweis von (2.2): Für p ≤ 1 ist x ↦→ xp konkav, also (x + y) p = ( 2x+2y<br />
2 ) p ≤ 1<br />
2 (2x)p + 1<br />
2 (2x)p ≤<br />
xp + yp für reelle x, y. Daraus folgt (2.2). In den Fällen p = 1 und p = ∞ ist die Behauptung<br />
klar. Im Falle 1 < p < ∞ gilt mit q = p/(p − 1) und r = 1/p + 1/q = 1 mit der Hölder-<br />
Ungleichung<br />
||X + Y || p p ≤ E[|X| · |X + Y | p−1 ] + E[|Y | · |X + Y | p−1 ]<br />
da ||(X + Y ) p−1 ||q = ||(X + Y ) q(p−1) || 1/q<br />
1<br />
durch ||X + Y || p−1<br />
p bringt das Resultat.<br />
≤ ||X||p · ||(X + Y ) p−1 ||q + ||Y ||p · ||(X + Y ) p−1 ||q<br />
= (||X||p + ||Y ||p) · ||X + Y || p−1<br />
p ,<br />
= ||(X + Y )p || (p−1)/p<br />
1<br />
= ||X + Y || p−1<br />
p . Dividieren<br />
P:contLp1 Proposition 2.4 (Zusammenhang zwischen L p und L q ). Sei 1 ≤ r < q ≤ ∞. Dann ist L q ⊆<br />
L r .<br />
Beweis. Die Behauptung ist klar für q = ∞, sei also q < ∞. Wir verwenden die Hölder-<br />
Ungleichung. Es gilt<br />
||X||r = ||1 · X||r ≤ ||1||p · ||X||q = ||X||q (2.3) eq:LpLq<br />
für 1 1 1<br />
p = r − q > 0, woraus die Behauptung sofort folgt.<br />
2.2 L p -Konvergenz (oder Konvergenz im p-ten Mittel)<br />
Definition 2.5 (Konvergenz im p-ten Mittel). Eine Folge X1, X2, ... in L p konvergiert in L p<br />
(oder im p-ten Mittel) gegen X ∈ L p , falls<br />
Wir schreiben dann auch Xn n→∞<br />
−−−→L p X.<br />
||Xn − X||p n→∞<br />
−−−→ 0.<br />
P:contLp2 Proposition 2.6 (Konvergenz im p-ten und q-ten Mittel). Sei 1 ≤ r < q ≤ ∞ und X, X1, X2, ... ∈<br />
Lq . Falls Xn n→∞<br />
n→∞<br />
−−−→L q X, so auch Xn −−−→L r X.<br />
Beweis. Die Behauptung ist klar für q = ∞, sei also q < ∞. Aus (2.3) folgt sofort dass<br />
||X − Y ||r ≤ ||X − Y ||q, woraus die Behauptung bereits folgt.<br />
P:voll Proposition 2.7 (Vollständigkeit von Lp ). Sei p > 0 und X1, X2, ... eine Cauchy-Folge in<br />
Lp . Dann gibt es ein X ∈ Lp mit ||Xn − X||p n→∞<br />
−−−→ 0.<br />
Bemerkung 2.8. Die Räume L p sind reelle Vektorräume. Für p ≥ 1 gilt wegen der Minkowski’schen<br />
Ungleichung die Dreiecksungleichung für ||.||p. Allerdings sind die Abbildungen<br />
||.||p keine Normen, da ||X||p = 0 bereits dann, wenn X = 0 P-fast sicher gilt. Insbesondere<br />
folgt aus ||X||p = 0 nicht, dass X = 0 ist. Wir werden im folgenden Funktionen X und Y<br />
miteinander identifizieren, wenn X = Y P-fast sicher gilt. Mit dieser Konvention ist ||.||p eine<br />
Norm. Wir haben also gerade gezeigt, dass die Räume L p vollständig sind. Also ist L p für<br />
p ≥ 1 ein Banachraum.
KAPITEL 2. L P -RÄUME 9<br />
Beweis. Sei ε1, ε2, ... summierbar, also z.B. εn := 2−n . Da X1, X2, ... eine Cauchy-Folge ist,<br />
gibt es für jedes k einen Index nk mit ||Xm − Xn|| p∧1<br />
p ≤ εk für alle m, n ≥ nk. Insbesondere<br />
gilt<br />
∞�<br />
∞�<br />
≤ εk < ∞.<br />
k=1<br />
||Xnk+1<br />
− Xnk ||p∧1<br />
p<br />
Nach monotoner Konvergenz und der Minkowski’schen Ungleichung gilt damit<br />
��<br />
∞� ��<br />
��<br />
k=1<br />
|Xnk+1<br />
��<br />
��<br />
− Xnk | �<br />
� p∧1<br />
p<br />
≤<br />
∞�<br />
k=1<br />
k=1<br />
||Xnk+1<br />
− Xnk ||p∧1<br />
p<br />
< ∞.<br />
Damit ist insbesondere �∞ |Xnk+1 k=1 − Xnk | < ∞ fast überall,also Xn1 (ω), Xn2 (ω), ... für fast<br />
k→∞<br />
alle ω eine Cauchy-Folge in R. Damit gibt es eine messbare Abbildung X mit Xnk −−−→ X<br />
fast überall. nach Fatou’s Lemma gilt<br />
d.h. Xn n→∞<br />
−−−→L p X.<br />
||Xn − X||p ≤ lim inf<br />
k→∞ ||Xnk − Xn|| ≤ sup ||Xm − Xn||<br />
m≥n<br />
n→∞<br />
−−−→ 0,<br />
rem:lp1 Bemerkung 2.9. 1. Es gibt Folgen X1, X2, ... ∈ Lp , die fast sicher gegen X ∈ Lp konvergieren,<br />
jedoch nicht im p-ten Mittel. Seien hierzu etwa X1, X2, ... unabhängig mit<br />
P{Xn = n2 } = 1 − P{Xn = 0} = 1<br />
n2 . Dann ist Xn n→∞<br />
−−−→ 0, jedoch<br />
||Xn||1 = 1,<br />
d.h. X1, X2, ... konvergiert nicht gegen 0 im p-ten Mittel.<br />
2. Der Satz von der majorisierten Konvergenz besagt, dass eine Folge X1, X2, ..., die fast<br />
sicher gegen X konvergiert und eine integrierbare Majorante besitzt auch in L 1 gegen<br />
X konvergiert. Wir wollen im folgenden die Bedingungen für die L 1 -Konvergenz<br />
abschwächen. Siehe Theorem 2.15 und Korollar 2.17. Die nachfolgende Definition ist<br />
dabei zentral.<br />
Definition 2.10. Eine Menge {Xi : i ∈ I} heißt gleichgradig integrierbar, falls<br />
inf sup E[|Xi|; |Xi| > K] = 0<br />
K<br />
i∈I<br />
ex:equi1 Beispiel 2.11. 1. Betrachten wir das Beispiel aus Bemerkung 2.9.1. Hier ist für n > K<br />
E[|Xn|; |Xn| > K] = E[Xn] = 1.<br />
Insbesondere ist {Xn : n = 1, 2, ...} nicht gleichgradig integrierbar.<br />
2. Jede endliche Menge {X1, ..., Xn} ⊂ L 1 ist gleichgradig integrierbar, denn sup 1≤i≤n |Xi| ∈<br />
L 1 und<br />
inf sup E[|Xi|; |Xi| > K] ≤ inf E[ sup |Xi|; sup |Xi| > K] = 0<br />
K 1≤i≤n<br />
K 1≤i≤n 1≤i≤n<br />
wegen majorisierter Konvergenz.
KAPITEL 2. L P -RÄUME 10<br />
3. Sei Y ∈ L 1 und {Xi : i ∈ I} mit sup i |Xi| < |Y |. Dann ist {Xi : i ∈ I} gleichgradig<br />
integrierbar. Denn<br />
nach majorisierter Konvergenz.<br />
sup E[|Xi|; |Xi| > K] ≤ E[|Y |; |Y | > K]<br />
i∈I<br />
K→∞<br />
−−−−→ 0<br />
4. Sei p > 1. Dann ist {Xi : i ∈ I} ⊆ Lp gleichgradig integrierbar, falls supi ||Xi||p < ∞.<br />
Denn es gilt<br />
E[|Xi|<br />
sup E[|Xi|; |Xi| > K] ≤ sup<br />
i∈I<br />
i∈I<br />
p ]<br />
Kp−1 K→∞<br />
−−−−→ 0.<br />
l:equi1 Lemma 2.12. Eine Menge {Xi : i ∈ I} ist genau dann gleichgradig integrierbar, wenn<br />
sup E[|Xi|] < ∞ und lim<br />
i∈I<br />
ε→0<br />
sup<br />
A:P(A) 0 gegeben und K = Kδ so, dass sup i∈I E[|Xi|; |Xi| > K] ≤ δ. Dann ist<br />
für A ∈ A<br />
E[|Xi|; A] = E[|Xi|; A ∩ {|Xi| > K}] + E[|Xi|; A ∩ {|Xi| ≤ K}] ≤ δ + K · P(A).<br />
Insbesondere ist<br />
und<br />
sup<br />
i∈I<br />
Da δ > 0 beliebig war, muss<br />
E[|Xi|] = sup E[|Xi|; Ω] ≤ δ + K < ∞<br />
i∈I<br />
sup sup E[|Xi|; A] ≤ δ + Kε<br />
A:P(A) K} ≤ sup < ε<br />
i∈I<br />
i∈I K<br />
ist. Damit folgt die gleichgradige Integrierbarkeit aus<br />
lim<br />
K→∞ sup E[|Xi|; |Xi| > K] = lim sup E[|Xi|; |Xi| > Kε]<br />
ε→0<br />
i∈I<br />
≤ lim<br />
i∈I<br />
sup<br />
ε→0 A:P(A)
KAPITEL 2. L P -RÄUME 11<br />
3. Es gibt eine Funktion f : R+ → R+ so, dass f(x)<br />
x<br />
supi∈I E[f(|Xi|)] < ∞.<br />
x→∞<br />
−−−→ ∞ und<br />
Gilt eine der drei Aussagen, so kann die Funktion f in 3. monoton wachsend und konvex<br />
gewählt werden.<br />
Beweis. ’1. ⇒ 2.’: Da (|Xi| − K) + ≤ |Xi|1 {|Xi|≥K}, ist E[(|Xi| − K) + ] ≤ E[|Xi|; |Xi| ≥ K],<br />
also ist die Behauptung klar.<br />
’2. ⇒ 3.’: Es gibt eine Folge K1, K2, ... mit Kn ↑ ∞ und sup i∈I E[(|Xi| − Kn) + ] ≤ 2 −n . Wir<br />
setzen<br />
f(x) :=<br />
∞�<br />
(x − Kn) + .<br />
n=1<br />
Dann ist f monoton wachsend und als Summe konvexer Funktionen wieder konvex. Außerdem<br />
ist für x ≥ 2Kn<br />
f(x)<br />
x ≥<br />
n� �<br />
1 − Kk<br />
�<br />
≥<br />
x<br />
n<br />
2 ,<br />
also f(x)<br />
x<br />
k=1<br />
x→∞<br />
−−−→ ∞. Wegen monotoner Konvergenz gilt außerdem<br />
’3. ⇒ 1.’: siehe Übung.<br />
E[f(|Xi|)] =<br />
∞�<br />
E[(|Xi| − Kn) + ] ≤<br />
n=1<br />
∞�<br />
2 −n = 1.<br />
ex:equi2 Beispiel 2.14. Für X ∈ L 1 ist {Xi : i ∈ I} genau dann gleichgradig integrierbar, wenn<br />
{Xi − X : i ∈ I} gleichgradig integrierbar ist.<br />
Um dies zu sehen, sei {Xi : i ∈ I} gleichgradig integrierbar. Nach Beispiel 2.11.2 ist {X}<br />
gleichgradig integrierbar. Außerdem ist<br />
und es gilt<br />
sup<br />
A:P(A)
KAPITEL 2. L P -RÄUME 12<br />
Bemerkung 2.16. Im Beweis verwenden wir die Minkoski’sche Ungleichung (2.2) und setzen<br />
zur Vereinfachung p ≥ 1 voraus. Der allgemeine Fall folgt ebenso aus der Minkowski’schen<br />
Ungleichung.<br />
Beweis. 1.⇒ 2.: Zunächst ist wegen der Tschbyscheff’schen Ungleichung für jedes ε > 0<br />
P{|Xn − X| > ε} ≤ E[|Xn − X| p ]<br />
ε p<br />
= ||Xn − X|| p p<br />
ε p<br />
n→∞<br />
−−−→ 0,<br />
d.h. die stochastische Konvergenz gilt. Für den Beweis der gleichgradigen Integrierbarkeit<br />
verwenden wir Lemma 2.12. Sei ε > 0 und N = Nε so, dass ||Xn − X||p < ε für n ≥ N. Dann<br />
ist mit der Minkowski-Ungleichung (2.2)<br />
sup<br />
n∈N<br />
(E[|Xn| p ]) 1/p = sup<br />
n∈N<br />
||Xn||p ≤ sup ||Xn||p + sup ||Xn − X||p + ||X||p<br />
n 0 beliebig war, folgt Xn n→∞<br />
−−−→ X in L p .<br />
cor:gleichgr Korollar 2.17. Sei 0 < p < ∞ und X1, X2, ... ∈ L p und X messbar mit Xn n→∞<br />
−−−→p X.<br />
Folgende Aussagen sind äquivalent:<br />
1. Xn n→∞<br />
−−−→L p X,
KAPITEL 2. L P -RÄUME 13<br />
2. ||Xn||p n→∞<br />
−−−→ ||X||p,<br />
3. Die Familie {|Xn| p : n = 1, 2, ...} ist gleichgradig integrierbar.<br />
Beweis. Die Äquivalenz 1. ⇔ 3. ist klar aus Theorem 2.15.<br />
1. ⇒ 2.: folgt aus der Minkowski’schen Ungleichung mit<br />
�<br />
�||Xn|| p∧1<br />
p − ||X|| p∧1<br />
�<br />
�<br />
p ≤ ||Xn − X|| p∧1 n→∞<br />
p −−−→ 0.<br />
2. ⇒ 3.: Für festes K ist<br />
E[|Xn| p ; |Xn| > K] ≤ E[|Xn| p − (|Xn| ∧ (K − Xn) + ) p ] n→∞<br />
−−−→ E[|X| p − (|X| ∧ (K − X) + ) p ].<br />
Die Konvergenz folgt hierbei, da E[|Xn| p ] n→∞<br />
−−−→ E[|X| p ], und (|Xn| ∧ (K − Xn) + ) p n→∞<br />
−−−→ L1 |X| ∧ (K − X) + ) p , da die Konvergenz nach Proposition 1.21 stochastisch gilt und ((|Xn| ∧<br />
(K −Xn) + ) p )n=1,2,... beschränkt, insbesondere gleichgradig integrierbar ist. Da E[|X| p−(|X|∧ (K − X) + ) p ] K→∞<br />
−−−−→ 0 nach majorisierter Konvergenz, ist {|Xn| p : n = 1, 2, ...} gleichgradig<br />
integrierbar.<br />
2.3 Der Raum L 2<br />
In diesem Abschnitt ist (Ω, A, µ) ein Maßraum (und nicht notwendigerweise ein Wahrscheinlichkeitsraum);<br />
insbesondere verwenden wir f, g, ... für reellwertige Funktionen auf Ω. Auch<br />
hier identifizieren wir zwei Funktionen f, g, falls f = g µ-fast überall. Beachte, dass die<br />
Vollständigkeit von L 2 (Proposition 2.7) auch für den allgemeinen Fall gilt.<br />
Definition 2.18. Sei V eine Vektorraum über R. Eine Abbildung 〈., .〉 : V × V → R heißt<br />
Skalarprodukt, falls<br />
1. (Linearität) 〈x, αy + z〉 = α〈x, y〉 + 〈x, z〉 für alle x, y, z ∈ V und α ∈ R<br />
2. (Symmetrie) 〈x, y〉 = 〈y, x〉<br />
3. (Positive Definitheit) 〈x, x〉 > 0 für jedes x ∈ V \ {0}.<br />
Durch das Skalarprodukt wird die Norm ||x|| := 〈x, x〉 1/2 auf V definiert. Ist (V, ||.||) vollständig,<br />
so heißt (V, 〈., .〉) ein Hilbertraum.<br />
Beispiel 2.19. Auf V = L2 definieren wir<br />
�<br />
〈f, g〉 := µ[fg] :=<br />
fgdµ.<br />
Dann ist 〈., .〉 offensichtlich linear, symmetrisch und (falls 0 ∈ L 2 aus allen Funktionen besteht,<br />
die µ-fast überall 0 sind) positiv definit. Da ||f|| := ||f||2 = 〈f, f〉 1/2 , ist nach Proposition 2.7<br />
||.|| vollständig, (L 2 , 〈., .〉) also ein Hilbertraum.<br />
Lemma 2.20. Sei 〈., .〉 ein Skalarprodukt auf einem reellen Vektorraum V und ||.|| die davon<br />
erzeugte Norm. Dann gilt für x, y ∈ V die Parallelogrammidentität<br />
||x + y|| 2 + ||x − y|| 2 = 2||x|| 2 + 2||y|| 2 .
KAPITEL 2. L P -RÄUME 14<br />
Beweis. Aus der Definition von ||.|| und der Symmetrie und Bilinearität von 〈., .〉 folgt<br />
||x + y|| 2 + ||x − y|| 2 = 〈x + y, x + y〉 + 〈x − y, x − y〉 = 2〈x, x〉 + 2〈y, y〉 = 2||x|| 2 + 2||y|| 2 .<br />
P:projection Proposition 2.21 (Zerlegung von f ∈ L 2 ). Sei M ein abgeschlossener, linearer Teilraum von<br />
L 2 . Dann hat jede Funktion f ∈ L 2 eine fast sicher eindeutige Zerlegung f = g + h mit<br />
g ∈ M, h ⊥ M.<br />
Beweis. Für f ∈ L 2 definieren wir<br />
df := inf {||f − g||}.<br />
g∈M<br />
Wähle g1, g2, ... mit ||f − gn|| n→∞<br />
−−−→ df . Nach der Parallelogrammidentität gilt<br />
4d 2 f + ||gm − gn|| 2 ≤ ||2f − gm − gn|| 2 + ||gm − gn|| 2 = 2||f − gm|| 2 2 m,n→∞<br />
+ 2||f − gn|| −−−−−→ 4d 2 f .<br />
Also ist ||gm − gn|| 2 m,n→∞<br />
−−−−−→ 0, d.h. g1, g2, ... ist eine Cauchy-Folge. Nach Proposition 2.7 gibt<br />
es damit ein g ∈ L2 mit ||gn − g||p n→∞<br />
−−−→ 0, und wegen der Abgeschlossenheit von M auch<br />
g ∈ M. Da ||h|| = df für h := f − g, folgt für alle t > 0, l ∈ M, wegen der Definition von df ,<br />
d 2 f ≤ ||h + tl||2 = d 2 f + 2t〈h, l〉 + t2 ||l|| 2 .<br />
Da dies für alle t gilt, folgt 〈h, l〉 = 0, also h ⊥ M.<br />
Zum Beweis der Eindeutigkeit sei g ′ + h ′ eine weitere Zerlegung von f. Dann ist einerseits<br />
aufgrund der Linearität von M g − g ′ ∈ M, andererseits ist fast sicher g − g ′ = h − h ′ ⊥ M,<br />
also g − g ′ ⊥ g − g ′ . Dies bedeutet ||g − g ′ || = 〈g − g ′ , g − g ′ 〉 = 0, also g = g ′ fast überall.<br />
RieszFrechet Proposition 2.22 (Riesz-Frechet). Eine Abbildung F : L 2 → R ist genau dann stetig und<br />
linear wenn es ein h ∈ L 2 gibt, so dass für alle f ∈ L 2<br />
F (f) = 〈f, h〉.<br />
Dann ist h ∈ L 2 fast sicher eindeutig bestimmt.<br />
Beweis. ’⇐’: Die Linearität von f ↦→ 〈f, h〉 folgt aus der Bilinearität von 〈., .〉. Die Stetigkeit<br />
folgt aus der Cauchy-Schwartz Ungleichung mittels<br />
|〈|f − f ′ |, h〉| ≤ ||f − f ′ || · ||h||.<br />
’⇒’: Falls F ≡ 0 wähle h = 0. Falls F �≡ 0, ist M = F −1 {0} ein (wegen der Stetigkeit von<br />
F ) abgeschlossener und (wegen der Linearität von F ) linearer Unterraum von L 2 . Wähle<br />
f ′ ∈ L 2 \ M mit der (nach Proposition 2.21 fast sicher eindeutigen) orthogonalen Zerlegung<br />
f ′ = g ′ + h ′ mit g ′ ∈ M und h ′ ⊥ M. Da f ′ /∈ M, ist h ′ �≡ 0 und F (h ′ ) = F (f ′ ) − F (g ′ ) =<br />
F (f ′ ) �= 0. Wir setzen h ′′ = h′<br />
F (h ′ ) , so dass h′′ ⊥ M und F (h ′′ ) = 1 und es gilt für alle f ∈ L 2<br />
F (f − F (f)h ′′ ) = F (f) − F (f)F (h ′′ ) = 0.<br />
d.h. f − F (f)h ′′ ∈ M, also insbesondere 〈F (f)h ′′ , h ′′ 〉 = 〈f, h ′′ 〉 und<br />
F (f) = 1<br />
||h ′′ || 2 · 〈F (f)h ′′ , h ′′ 〉 = 1<br />
||h ′′ || 2 · 〈f, h ′′ 〉 = 〈f, h ′′<br />
||h ′′ || 2 〉.
KAPITEL 2. L P -RÄUME 15<br />
Nun folgt die Behauptung mit h = h′′<br />
||h ′′ || 2 .<br />
Zur Eindeutigkeit sei 〈f, h1 − h2〉 = 0 für alle f ∈ L 2 ; insbesondere ist mit f = h1 − h2<br />
also h1 = h2 µ-fast sicher.<br />
||h1 − h2|| 2 = 〈h1 − h2, h1 − h2〉 = 0,<br />
Bemerkung 2.23. Propositionen 2.21 und 2.22 gelten ebenso, falls man L 2 durch einen<br />
anderen Hilbert-Raum ersetzt.<br />
2.4 Lebesgue’scher Zerlegungssatz und Satz von Radon-Nikodym<br />
Seien µ, ν Maße auf (Ω, A).<br />
Definition 2.24. 1. Wir sagen, ν besitzt eine Dichte g bzgl. µ, falls für alle A ∈ A<br />
gilt. Wir schreiben dann f = dν<br />
dµ .<br />
ν(A) = µ[f; A].<br />
2. Das Maß ν heißt absolutstetig bzgl. µ, falls alls µ-Nullmengen auch ν-Nullmengen<br />
sind. Wir schreiben dann ν ≪ µ. Ist sowohl ν ≪ µ als auch µ ≪ ν, so heißen µ und ν<br />
äquivalent.<br />
3. Die Maße µ und ν heißen singulär, falls es ein A ∈ A gibt mit µ(A) = 0 und ν(Ω\A) =<br />
0. Wir schreiben dann µ ⊥ ν.<br />
Bemerkung 2.25. Seien µ und ν σ-endlich. Ziel dieses Abschnittes ist es zu zeigen (Theorem<br />
2.27), dass ν (additiv) in zwei Anteile zerlegt werden kann: ein Anteil ist absolutstetig bzgl. µ<br />
und der andere Anteil ist singulär zu µ. Der absolutstetige Anteil hat dabei eine Dichte bzgl.<br />
µ.<br />
Lemma 2.26. Sei µ ein Maße und ν ein σ-endliches Maß. Sind g1 und g2 Dichten von ν<br />
bzgl. µ, so ist g1 = g2 µ-fast überall.<br />
Beweis. Sei E1, E2, ... ∈ A so, dass En ↑ Ω und ν(En) < ∞. Setze An := En ∩ {g1 > g2}. Da<br />
sowohl g1 als auch g2 Dichten von ν bzgl µ sind, folgt<br />
µ[g1 − g2; An] = 0.<br />
Da auf An nur g1 > g2 möglich ist, ist g1 = g2 1Anµ-fast überall. Außerdem ist<br />
� � �<br />
µ{g1 > g2} = µ = 0.<br />
n∈N<br />
Analog folgt µ{g1 < g2} = 0 und damit g1 = g2 µ-fast überall.<br />
T:LZerl Theorem 2.27 (Lebesgue’scher Zerlegungssatz). Seien µ, ν σ-endliche Maße auf (Ω, A). Dann<br />
lässt sich ν eindeutig schreiben als<br />
An<br />
ν = νa + νs mit νa ≪ µ, νs ⊥ µ.<br />
Das Maße νa hat eine Dichte bzgl. µ, die µ-fast überall endlich ist.
KAPITEL 2. L P -RÄUME 16<br />
Beweis. Durch eine Ausschöpfung E1, E2, ... ⊆ Ω mit En ↑ Ω und ν(En), µ(En) < ∞ können<br />
wir uns auf den Fall endlicher Maße zurückziehen.<br />
Mit Proposition 2.6 ist die lineare Abbildung<br />
�<br />
L 2 (Ω, A, µ + ν) → R)<br />
f ↦→ ν[f]<br />
stetig. Nach Proposition 2.22 gibt es also ein h ∈ L 2 (Ω, A, µ + ν) mit<br />
also<br />
für jedes f ∈ L 2 (Ω, A, µ + ν). Wählt man f = 1 {h1} aus (2.5) folgern, dass<br />
0 ≤ µ[h; {h > 1}] = ν[1 − h; {h > 1} ≤ 0,<br />
also h ≤ 1 (µ + ν)-fast sicher. Sei nun f ≥ 0 messbar und f1, f2, ... ∈ L 2 (Ω, A, µ + ν) mit<br />
fn ↑ f. Mit dem Satz von der monotonen Konvergenz folgt<br />
ν[f(1 − h)] = lim<br />
n→∞ ν[fn(1 − h)] = lim<br />
n→∞ µ[fNh] = µ[fh],<br />
d.h. (2.5) gilt für alle messbaren f ≥ 0.<br />
Sei nun E := h −1 {1}. Aus (2.5) folgt mit f = 1E, dass<br />
µ(E) = µ[h; E] = ν[1 − h; E] = 0.<br />
Wir definieren für A ∈ A zwei Maße νa und νs durch<br />
νa(A) = ν(A \ E), νs(A) = ν(A ∩ E),<br />
so dass ν = νa + νs und νs ⊥ µ. Um zu zeigen, dass νa ≪ µ wähle A ∈ A mit µ(A) = 0.<br />
Damit ist nach (2.5)<br />
ν[1 − h; A \ E] = µ[h; A \ E] = 0.<br />
Da h < 1 auf A \ E ist, gilt damit νa(A) = ν(A \ E) = 0, also νa ≪ µ.<br />
Um die Dichte von νa bzgl. µ zu bestimmen, setzen wir g := h<br />
1−h 1 Ω\E und verwenden<br />
(2.5), so dass<br />
�<br />
µ[g; A] = µ<br />
1<br />
1 − h<br />
�<br />
h; A \ E = ν(A \ E) = νa(A).<br />
Also ist g = dνa<br />
dµ .<br />
Um die Eindeutigkeit der Zerlegung zu zeigen, sei ν = νa + νs = �νa + �νs für νa, �νa ≪ µ,<br />
νs, �νs ⊥ µ. Wähle A, � A ∈ A mit νs(A) = µ(A c ) = �νs( � A) = µ( � A c ) = 0. Dann gilt<br />
νs(A ∩ � A) = �νs(A ∩ � A) = νa(A c ∪ � A c ) = �νa(A c ∪ � A c ) = 0
KAPITEL 2. L P -RÄUME 17<br />
und deshalb<br />
νa = 1 A∩ e A · νa = 1 A∩ e A · ν = 1 A∩ e A · �νa = �νa,<br />
νs = ν − νa = ν − �νa = �νs.<br />
T:RaNy Korollar 2.28 (Satz von Radon-Nikodym). Seien µ und ν σ-endliche Maße. Dann hat ν<br />
genau dann eine Dichte bzgl. µ, wenn ν ≪ µ.<br />
Beweis. ’⇒’: klar.<br />
’⇐’: Nach Theorem 2.27 gibt es eine eindeutige Zerlegung ν = νa + νs mit νa ≪ µ, νs ⊥ µ. Da<br />
ν ≪ µ, muss νs = 0 gelten und damit ν = νa. Insbesondere existiert die Dichte von ν bzgl.<br />
µ.<br />
Beispiel 2.29. Im Zerlegungssatz von Lebesgue 2.27 und im Satz von Radon-Nikodym 2.28<br />
darf man die Voraussetzung, dass µ und ν σ-endlich sind nicht weglassen, wie folgendes<br />
Beispiel zeigt:<br />
Sei (Ω, A) ein Messraum mit überabzählbarem Ω und<br />
A := {A : A oder A c abzählbar}.<br />
Seien µ und ν unendliche Maße auf (Ω, A), gegeben durch<br />
�<br />
0, A abzählbar,<br />
ν(A) :=<br />
µ(A) :=<br />
∞, sonst<br />
�<br />
|A|, A endlich,<br />
∞, sonst<br />
Dann ist offenbar ν ≪ µ. Angenommen, es gäbe eine A-messbare Dichte von ν bzgl. µ, so<br />
wäre für alle ω ∈ Ω<br />
0 = ν{ω} = µ[f; {ω}] = f(ω)µ({ω}) = f(ω).<br />
Damit wäre f = 0 und ν = 0 im Widerspruch zur Definition von ν.<br />
.
Kapitel 3<br />
Die bedingte Erwartung<br />
Sei (Ω, A, P) ein Wahrscheinlichkeitsraum. Wir schreiben L 1 := L 1 (A) für die Menge aller<br />
reellen Zufallsvariablen, deren Erwartungswert existiert.<br />
3.1 Motivation<br />
Definiere wie in der elementaren Stochastik für A, D ∈ A und P(D) > 0<br />
und analog die bedingte Erwartung<br />
P(A|D) :=<br />
E[X|D] :=<br />
P(A ∩ D)<br />
P(D)<br />
E[X; D]<br />
P(D) .<br />
Dann gilt P(A|D) = E[1A|D]. Dieser Zusammenhang bedeutet, dass man bedingte Erwartungen<br />
dazu verwenden kann, bedingte Wahrscheinlichkeiten zu berechnen. Insbesondere ist der<br />
Begriff der bedingten Erwartung allgemeiner als der Begriff der bedingten Wahrscheinlichkeit.<br />
Sei nun E := {E1, E2, ...} ⊆ A eine Partition von Ω mit P(Ei) > 0 für i = 1, 2, ... und<br />
F := σ(E) die von E erzeugte σ-Algebra. Dann setzen wir für X ∈ L 1<br />
E[X|F](ω) :=<br />
∞�<br />
i=1<br />
Dann gilt etwa für J ⊆ N und A = �<br />
j∈J Ej ∈ F<br />
� �∞<br />
E[E[X|F]; A] = E<br />
E[X|Ei] · 1Ei (ω). (3.1) eq:20<br />
i=1<br />
E[X|Ei]1Ei 1A<br />
= �<br />
E � �<br />
E[X|Ej]1Ej<br />
j∈J<br />
= �<br />
E[X|Ej] · P(Ej)<br />
j∈J<br />
= E[X; A].<br />
18<br />
�<br />
(3.2) eq:21
KAPITEL 3. DIE BEDINGTE ERWARTUNG 19<br />
Insbesondere gilt mit J = N also E � E[X|F] � = E[X]. Die Definition der bedingten Erwartung<br />
(3.1) lässt sich mit Hilfe der Eigenschaft (3.2) auf beliebige σ-Algebren F ⊆ A verallgemeinern.<br />
ex:bedErw Beispiel 3.1. Sei X gleichverteilt auf [0, 1], d.h. die Verteilung von X hat Dichte 1 [0;1]. Gegeben<br />
X = x ist Y binomialverteilt mit n und x, d.h. Y zählt die Anzahl der Erfolge in n<br />
unabhängigen Experimenten mit Erfolgswahrscheinlichkeit x. Intuitiv ist klar, dass das<br />
P({Y = k}|X) =<br />
� �<br />
n<br />
X<br />
k<br />
k (1 − X) n−k<br />
bedeuten sollte. Dies ist allerdings bisher nicht definiert, da P{X = x} = 0 gilt.<br />
3.2 Definition und Eigenschaften<br />
T:be Theorem 3.2 (Existenz und Eigenschaften der bedingten Erwartung). Sei F ⊆ A eine σ-<br />
Algebra. Dann gibt es einen fast sicher eindeutigen, linearen Operator E[.|F] : L 1 → L 1 (F),<br />
so dass für alle X ∈ L 1<br />
1. E � E[X|F]; A � = E[X; A] für alle A ∈ F.<br />
Weiter gilt<br />
2. E[X|F] ≥ 0, falls X ≥ 0.<br />
3. E � |E[X|F]| � ≤ E[|X|].<br />
4. Falls 0 ≤ Xn ↑ X für n → ∞, so ist auch E[Xn|F] ↑ E[X|F] in L 1 , falls alle Erwartungen<br />
existieren.<br />
5. Falls X eine F-messbare Funktion ist, so gilt E[XY |F] = XE[Y |F], falls alle Erwartungen<br />
existieren.<br />
6. E � XE[Y |F] � = E � E[X|F]Y � = E � E[X|F]E[Y |F] � , falls alle Erwartungen existieren.<br />
7. Ist F ⊆ G, so ist E � E[X|G]|F � = E[X|F].<br />
8. Ist X unabhängig von F, so ist E[X|F] = E[X].<br />
Beweis. 1. im Fall X ∈ L 2 : Sei M der abgeschlossene lineare Teilraum von L 2 , der aus allen<br />
Funktionen besteht, die bis auf eine Nullmenge mit einer F-messbaren Funktion übereinstimmen.<br />
Nach Proposition 2.21 gibt es nun fast sicher eindeutige Funktionen Y ∈ M, Z ⊥ M mit<br />
X = Y +Z. Wir definieren E[X|F] := Y . Damit gilt X−E[Y |F] ⊥ M, also E[X−E[X|F]; A] =<br />
0 für A ∈ F, woraus 1. für X ∈ L 2 folgt.<br />
3. im Fall X ∈ L 2 : Wähle A := {E[X|F] ≥ 0}. Nach 1. gilt dann<br />
E[|E[X|F]|] = E[E[X|F]; A] − E[E[X|F]; A c ] = E[X; A] − E[X; A c ] ≤ E[|X|].<br />
1. im Fall X ∈ L 1 : Ist X ∈ L 1 ⊃ L 2 , so wähle X1, X2, ... ∈ L 2 mit ||Xn − X||1 n→∞<br />
−−−→ 0<br />
(etwa so, dass |Xn| := |X| ∧ n), und definiere E[X|F] := limn→∞ E[Xn|F]. Dieser Grenzwert<br />
existiert in L 1 , da wegen 3.<br />
E[|E[Xn|F] − E[Xm|F]|] = E[|E[Xn − Xm|F]|] ≤ E[|Xn − Xm|] n,m→∞<br />
−−−−−→ 0<br />
(3.3) eq:exBedErw1
KAPITEL 3. DIE BEDINGTE ERWARTUNG 20<br />
die Folge (E[Xn|F])n=1,2,... eine Cauchy-Folge ist und L1 vollständig ist. Außerdem gilt damit<br />
||E[Xn|F] − E[X|F]||1 n→∞<br />
−−−→ 0. Weiter ist für A ∈ F<br />
|E[X − E[X|F]; A]| ≤ E[|X1A − Xn1A|]<br />
+ |E[Xn − E[Xn|F]; A]]|<br />
+ E[|E[Xn|F]1A − E[X|F]1A|]<br />
n→∞<br />
−−−→ 0<br />
wegen majorisierter Konvergenz und 1. folgt im Fall X ∈ L1 .<br />
3. im Fall X ∈ L1 . Auch hier sieht man durch ein Approximationsargument, falls X1, X2, ... ∈<br />
L2 mit Xn n→∞<br />
−−−→ L1 X<br />
E[|E[X|F]|] = lim<br />
n→∞ E[|E[Xn|F]|] ≤ lim<br />
n→∞ E[|Xn|] = E[|X|],<br />
da wegen der umgekehrten Dreiecksungleichung etwa<br />
E[||E[Xn|F]| − |E[X|F]||] ≤ E[|E[X|F] − E[Xn|F]|] n→∞<br />
−−−→ 0.<br />
2. Setze A = {E[X|F] ≤ 0} und damit<br />
0 ≥ E[E[X|F]; A] = E[X; A] = 0,<br />
also wegen E[X|F]1A ≤ 0 auch E[X|F]1A = 0 fast sicher.<br />
4. Wegen monotoner Konvergenz ist ||Xn − X||1 n→∞<br />
−−−→ 0, also nach 3.<br />
E[|E[Xn|F] − E[X|F]|] = E[|E[Xn − X|F]|] ≤ E[|Xn − X|] n→∞<br />
−−−→ 0.<br />
6. im Fall X, Y ∈ L 2 . Nach der Definition der bedingten Erwartung ist E[X|F], E[Y |F] ∈ M,<br />
wenn M der lineare Teilraum von L 2 besteht, der Funktionen beinhaltet, die bis auf eine<br />
Nullmenge mit einer F-messbaren Funktion übereinstimmen. Außerdem ist X −E[X|F] ⊥ M.<br />
Damit ist<br />
E[(X − E[X|F])E[Y |F]] = 0.<br />
6. im Fall X, Y ∈ L 1 . Wähle X1, Y1, X2, Y2, ... ∈ L 2 mit Xn ↑ X, Yn ↑ Y . Wegen 4. und<br />
majorisierter Konvergenz gilt dann, falls alle Erwartungen existieren,<br />
E[(X − E[X|F])E[Y |F]] = lim<br />
n→∞ E[(Xn − E[Xn|F])E[Yn|F]] = 0.<br />
5. Wegen 1. ist E[X|F]1A = X1A für A ∈ F fast sicher. Damit ist auch<br />
E[XY ; A] = E[XE[Y |F]; A]<br />
nach 6. Hieraus folgt nach 1. bereits E[XY |F] = XE[Y |F].<br />
7. Da L 1 (F) ⊆ L 1 (G), ist für A ∈ F<br />
E[E[X|G]; A] = E[X; A] = E[E[X|F]; A]<br />
nach 1. Hier aus folgt aber E[[X|G]|F] = E[X|F].<br />
8. Sicherlich ist E[X] F-messbar. Für A ∈ F ist außerdem<br />
E[E[X|F]; A] = E[X; A] = E[X]E[1A] = E � E[X]; A �<br />
und damit E[X|F] = E[X].
KAPITEL 3. DIE BEDINGTE ERWARTUNG 21<br />
Bemerkung 3.3. 1. Sei X ∈ L 2 . Wie der Beweis von 1. in Theorem 3.2 zeigt, ist X −<br />
E[X|F] senkrecht auf dem linearen Teilraum aller F-messbaren Funktionen. Insbesondere<br />
ist E[X|F] diejenige F-messbare Zufallsvariable, die (im Sinne der L 2 -Norm) der<br />
Zufallsvariable X am nächsten kommt. Deswegen kann man sagen, dass E[X|F] die<br />
beste Schätzung von X ist, wenn Informationen aus der σ-Algebra F zur Verfügung<br />
stehen.<br />
2. Die fast sicher eindeutige Existenz der bedingten Erwartung mit der Eigenschaft 1.<br />
in Theorem 3.2 kann man anders als oben mit Hilfe des Satzes von Radon-Nikodym<br />
(Korollar 2.28) beweisen:<br />
Sei zunächst X ≥ 0. Setze � P := P|F, die Einschränkung von P auf F, und µ(.) := � E[X; .]<br />
ein endliches Maß. Dann gilt offenbar µ ≪ � P. Der Satz von Radon-Nikodym stellt sicher,<br />
dass µ eine Dichte bzgl. � P hat, d.h. es eine F-messbare Zufallsvariable Z gibt mit<br />
E[X; A] = � E[X; A] = µ(A) = � E[Z; A] = E[Z; A]<br />
für alle A ∈ F. Damit erfüllt Z die Eigenschaften von 1. aus Theorem 3.2.<br />
Im allgemeinen Fall (d.h. X kann auch negative Werte annehmen) sei E[X + |F] eine<br />
Version der bedingten Erwartung von X + und E[X − |F] eine Version der bedingten<br />
Erwartung von X − . Setze E[X|F] := E[X + |F] − E[X − |F]. Dann ist<br />
E � E[X|F]; A � = E � E[X + |F]; A � − E � E[X − |F]; A � = E[X + ; A] − E[X − ; A] = E[X; A].<br />
Zum Beweis der (fast sicheren) Eindeutigkeit der bedingten Erwartung sei Z ′ eine<br />
weitere, F-messbare Zufallsvariable mit E[Z ′ ; A] = E[X; A]. Dann muss E[Z ′ ; A] =<br />
E � E[X|F]; A � für alle A ∈ F gelten, d.h. Z ′ = E[X|F] fast sicher.<br />
P:jensenBed Proposition 3.4 (Jensen’sche Ungleichung für bedingte Erwartungen). Sei I ein offenes Intervall,<br />
F ⊆ A und X ∈ L 1 mit Werten in I und ϕ : I → R konvex. Dann gilt<br />
E[ϕ(X)|F] ≥ ϕ(E[X|F]).<br />
Beweis. Da I offen ist, liegt E[X|F] ∈ I fast sicher. Beachte die Definition von λ in Lemma<br />
1.18. Weiter ist nach Lemma 1.18 für x ∈ I<br />
und damit<br />
ϕ(x) ≥ ϕ(E[X|F]) + λ(E[X|F])(x − E[X|F])<br />
E[ϕ(X)|F] ≥ E[ϕ(E[X|F])|F] + E[λ(E[X|F]) · (X − E[X|F])|F]<br />
= ϕ � E[X|F] � .<br />
Theorem 3.5 (Majorisierte und monotone Konvergenz für bedingte Erwartungen). Sei F ⊆<br />
A und X1, X2, ... ∈ L 1 . Sei eine der Bedingungen erfüllt:<br />
1. Sei X ∈ L 1 , so dass Xn ↑ X fast sicher.<br />
2. Ist Y ∈ L 1 , so dass |Xn| ≤ |Y | für alle n, und Xn n→∞<br />
−−−→ X fast sicher.
KAPITEL 3. DIE BEDINGTE ERWARTUNG 22<br />
Dann gilt<br />
fast sicher und in L 1 .<br />
E[Xn|F] n→∞<br />
−−−→ E[X|F]<br />
Beweis. Für die L 1 -Konvergenz hat man in beiden Fällen mit Theorem 3.2.3<br />
E �� �E[Xn|F] − E[X|F] � � � = E �� �E[Xn − X|F] � � �<br />
≤ E[|Xn − X|] n→∞<br />
−−−→ 0.<br />
Die fast sichere Konvergenz teilen wir in beide Fälle auf: im Fall 1. ist nach Theorem 3.2.2<br />
klar, dass E[Xn|F] monoton wächst. Außerdem ist für A ∈ A mit dem Satz der monotonen<br />
Konvergenz<br />
E � sup<br />
n<br />
E[Xn|F]; A � = sup<br />
n<br />
E � E[Xn|F]; A � = sup<br />
n<br />
Damit ist aber gezeigt, dass fast sicher sup n E[Xn|F] = E[X|F] gilt.<br />
Im Fall 2. setzen wir<br />
Yn := sup<br />
k≥n<br />
Xk ↓ lim sup Xn = X fast sicher,<br />
n<br />
Zn := inf<br />
k≥n Xk ↑ lim inf<br />
n<br />
Xn = X fast sicher.<br />
E[Xn; A] = E[sup Xn; A] = E[X; A].<br />
n<br />
Damit ist −Y ≤ Zn ≤ Xn ≤ Yn ≤ Y , also insbesondere Y1, Z1, Y2, Z2, ... ∈ L 1 , also ist nach 1.<br />
E[X|F] = lim<br />
n→∞ E[Zn|F] ≤ lim<br />
n→∞ E[Xn|F] ≤ lim<br />
n→∞ E[Yn|F] = E[X|F]<br />
fast sicher. Insbesondere ist also E[Xn|F] n→∞<br />
−−−→ E[X|F] fast sicher.<br />
3.3 Der Fall F = σ(X)<br />
Im Falle F = σ(X) bedeutet E[Y |X] := E[Y |σ(X)] die Erwartung von Y , gegeben, dass die<br />
Zufallsvariable X festgelegt ist. Dies ist eine Funktion von X, wie Korollar 3.7 zeigt.<br />
l:Faktor Lemma 3.6. Sei (Ω ′ , A ′ ) ein Messraum und X ein Zufallsvariable mit Werten in Ω ′ und<br />
Z : Ω → R. Genau dann ist Z σ(X)-messbar, wenn es eine A ′ − B(R)-messbare Abbildung<br />
ϕ : Ω ′ → R gibt mit ϕ ◦ X = Z.<br />
Beweis. ’⇐=’: klar<br />
’=⇒’: Es genügt, den Fall Z ≥ 0 zu betrachten; ansonsten teilt man Z = Z + − Z − auf.<br />
Sei zunächst Z = 1A für A ∈ σ(X). Dann gibt es ein A ′ ∈ A ′ mit X −1 (A ′ ) = A, d.h.<br />
Z = 1X−1 (A ′ ) = 1A ′ ◦ X, d.h. ϕ = 1A ′ erfüllt die Aussage. Durch Linearität ist die Aussage<br />
auch für einfache Funktionen, d.h. endliche Linearkombinationen von Indikatorfunktionen<br />
erfüllt. Im allgemeinen Fall gibt es einfache Funktionen Z1, Z2, ... ≥ 0 mit Zn ↑ Z. Hierzu gibt<br />
es A ′ -messbare Funktionen ϕn mit Zn = ϕn ◦ X. Dann ist ϕ = supn ϕn wieder A ′ -messbar<br />
und, da Z ≥ 0 ist,<br />
ϕ ◦ X = (sup<br />
n<br />
ϕn) ◦ X = sup<br />
n<br />
(ϕn ◦ X) = sup Zn = Z.<br />
n
KAPITEL 3. DIE BEDINGTE ERWARTUNG 23<br />
Abbildung 3.1: Skizze fig:buffon zu Buffon’s Nadelproblem.<br />
cor:fact Korollar 3.7. Sei (Ω ′ , A ′ ) ein Messraum, X eine Zufallsvariable mit Werten in Ω ′ und Y ∈<br />
L 1 . Dann existiert eine A ′ − B(R)-messbare Abbildung ϕ : Ω ′ → R mit E[Y |X] = ϕ(X).<br />
Beweis. Klar nach Lemma 3.6<br />
ex:sum1 Beispiel 3.8. Seien X1, X2, ... eine Folge unabhängiger, identisch verteilter Zufallsvariablen,<br />
µ = E[X1] und Sn := X1 + ... + Xn. Dann ist<br />
E[Sn|X1] = E[X1|X1] + E[X2 + ... + Xn|X1] = X1 + (n − 1)µ,<br />
E[X1|Sn] = 1<br />
n�<br />
n E[Xi|Sn] = 1<br />
nE[Sn|Sn] = 1<br />
nSn. i=1<br />
In der zweiten Rechnung ist also beispielsweise für X = Sn und Y = X1 die Funktion ϕ aus<br />
Korollar 3.7 gegeben durch ϕ(x) = 1<br />
n x.<br />
Beispiel 3.9. Betrachten wir die in Beispiel 3.1 gestellte Frage nach der Existenz der bedingten<br />
Wahrscheinlichkeit P({Y = k}|X), wobei X uniform auf [0; 1] ist und X unabhängig<br />
binomial verteilt mit n und X. Wie gerade gezeigt, ist P({Y = k}|X) eine Funktion von X.<br />
Dies bedeutet, dass wir (3.3) formal begründet haben.<br />
Beispiel 3.10 (Buffon’s Nadelproblem). Auf einer Ebene liegen Geraden im horizontalen<br />
Abstand 1. Es werden Nadeln der Länge 1 auf die Ebende geworfen; siehe Abbildung 3.1.<br />
Betrachten wir eine Nadel. Wir setzen<br />
Z :=<br />
�<br />
1, falls die Nadel eine Gerade schneidet<br />
0, sonst<br />
Dabei ist der Mittelpunkt der Nadel X von der linken Geraden entfernt und die Verlängerung<br />
der Nadel geht einen spitzen Winkel Θ mit der linken Gerade ein. Damit ist X uniform auf<br />
] unabhängig und es gilt<br />
[0; 1], Θ uniform auf [0; π<br />
2<br />
P{Z = 1|Θ} = P{X ≤ 1<br />
1<br />
2 sin(Θ) oder X ≥ 1 − 2 sin(Θ)|Θ} = sin(Θ).<br />
θ<br />
x<br />
.
KAPITEL 3. DIE BEDINGTE ERWARTUNG 24<br />
Damit ist<br />
P{Z = 1} = E[P({Z = 1}|Θ)] = E[sin(Θ)] = 2<br />
π<br />
� π/2<br />
0<br />
(sin(θ)dθ = 2<br />
π .<br />
Dies kann man so interpretieren: will man durch Simulation (d.h. also durch ein Monte-Carlo<br />
Verfahren) die Größe von π herausfinden, kann man Buffon’s Nadeln simulieren. Da jede<br />
hat, eine vertikale Linien zu treffen, ist etwa<br />
einzelne Nadel die Wahrscheinlichkeit 2<br />
π<br />
π ≈<br />
nach dem Gesetz der großen Zahlen.<br />
2<br />
Anteil der Nadeln, die eine Vertikale treffen<br />
3.4 Reguläre Version der bedingten Verteilung<br />
Bemerkung 3.11. 1. Sei A1, A2, ... ∈ A mit Ai ∩ Aj = ∅. Dann ist für B ∈ F<br />
und damit<br />
P-fast überall.<br />
� � � � �<br />
E P Ai|F ; B = E � E[1S Ai |F]; B� = E[1S Ai ; B]<br />
� �∞<br />
�<br />
= E 1Ai ; B =<br />
=<br />
i=1<br />
i=1<br />
∞�<br />
i=1<br />
E[1Ai ; B]<br />
∞�<br />
E � P(Ai|F); B � � �∞<br />
�<br />
= E P(Ai|F); B<br />
� � �<br />
P Ai|F =<br />
∞�<br />
P(Ai|F)<br />
2. Sei (E, E) ein Messraum, F ⊂ A und Y eine A-messbare Zufallsvariable mit Werten<br />
in E. Folgendes wäre wünschenswert: es gibt eine Nullmenge N ∈ A, so dass für alle<br />
ω /∈ N die Abbildung<br />
A ↦→ P({Y ∈ A}|F)(ω)<br />
ein Wahrscheinlichkeitsmaß ist.<br />
Nach 1. ist zwar die σ-Additivität P-fast überall für eine bestimmte Folge disjunkter<br />
Mengen A1, A2, ... gesichert, wir wissen jedoch nicht, ob die Ausnahmemenge N von der<br />
Folge A1, A2, ... abhängt. Falls N universell gewählt werden kann, werden wir sagen, dass<br />
eine reguläre Version der bedingten Verteilung von P gegeben F existiert. Bedingungen<br />
hierfür werden wir in Theorem 3.14 kennenlernen.<br />
def:stoKer Definition 3.12. 1. Seien (Ω, A und (Ω ′ , A ′ ) Messräume. Eine Abbildung κ : Ω × A ′ →<br />
[0; 1] heißt stochastischer Kern oder Markovkern von (Ω, A) nach (Ω ′ , A ′ ), falls<br />
i=1<br />
(a) ω ↦→ κ(ω, A ′ ) ist A-messbar für alle A ′ ∈ A ′<br />
(b) A ′ ↦→ κ(ω, A ′ ) ist ein Wahrscheinlichkeitsmaß auf (Ω ′ , A ′ ) für alle ω ∈ Ω<br />
i=1
KAPITEL 3. DIE BEDINGTE ERWARTUNG 25<br />
2. Sei (E, E) ein Messraum, Y eine messbare Zufallsvariable mit Werten in E und F ⊆<br />
A. Ein stochastischer Kern κY,F von (Ω, F) nach (E, E) heißt reguläre Version der<br />
bedingten Verteilung von Y , gegeben F, falls<br />
für P-fast alle ω und jedes B ∈ E.<br />
κY,F(ω, B) = P({Y ∈ B}|F)(ω)<br />
3. Sei (E, r) ein metrischer Raum. Zur Erinnerung: (E, r) heißt vollständig, wenn jede<br />
Cauchy-Folge konvergiert, und separabel, wenn es eine abzählbare, dichte Teilmenge<br />
gibt.<br />
rem:33 Bemerkung 3.13. 1. In Definition 3.12.1 reicht es, die Eigentschaft (a) nur für einen<br />
durchschnittsstabilen Erzeuger von A ′ zu fordern. Es ist nämlich stets<br />
D := {A ′ ∈ A ′ : ω ↦→ κ(ω, A ′ ) ist A-messbar}<br />
ein Dynkin-System. Damit ist nach einem Satz aus der Wahrscheinlichkeitstheorie I die<br />
durch den durchschnittsstabiler Erzeuger erzeugte σ-Algebra gleich A ′ .<br />
2. Sei F = σ(X) für eine Zufallsvariable X in Definition 3.12.2. Ist dann κ Y,σ(X) eine reguläre<br />
Version der bedingten Erwartung von Y gegeben σ(X), so ist ω ↦→ κ Y,σ(X)(ω, A ′ )<br />
σ(X)-messbar für alle A ′ ∈ A ′ . Damit gibt es nach Korollar 3.7 eine σ(X) − B([0; 1])messbare<br />
Abbildung ϕA ′ : Ω → [0; 1] mit ϕA ′ ◦ X = κ Y,σ(X)(., A ′ ). Wir setzen dann<br />
κY,X(x, A ′ ) := ϕA ′(x)<br />
und sagen κY,X ist die reguläre Version der bedingten Verteilung von Y gegeben X.<br />
T:exRegBed Theorem 3.14 (Existenz der regulären Version der bedingten Verteilung). Sei (E, r) ein<br />
vollständiger und separabler metrischer Raum, ausgestattet mit der Borel’schen σ-Algebra,<br />
F ⊆ A eine σ-Algebra und Y eine A-messbare Zufallsvariable mit Werten in E. Dann existiert<br />
eine reguläre Version der bedingten Verteilung von Y gegeben F.<br />
Bevor wir das Theorem beweisen können, zitieren wir ein Hilfsresultat (Proposition 3.16)<br />
über vollständige, separable metrische Räume.<br />
Definition 3.15. 1. Zwei Messräume (Ω, A) und (Ω ′ , A ′ ) heißen isomorph, falls es eine<br />
bijektive, A − A ′ -messbare Abbildung ϕ : Ω → Ω ′ gibt, so dass ϕ −1 A ′ − A-messbar ist.<br />
2. Ein Messraum (Ω, A) heißt Borel’scher Raum, falls es eine Borel’sche Menge B ∈ B(R)<br />
gibt, so dass (Ω, A) und (B, B(B)) isomorph sind.<br />
P:polBor Proposition 3.16 (Polnische und Borel’sche Räume). Jeder vollständige und separable metrische<br />
Raum (E, r), ausgestattet mit der Borel’schen σ-Algebra, ist ein Borel’scher Raum.<br />
Beweis. Siehe etwa Dudley, Real analysis and probability, Theorem 13.1.1.<br />
Beweis von Theorem 3.14. Wir beweisen das Theorem unter der schwächeren Voraussetzung,<br />
dass E, ausgestattet mit der Borel’schen σ-Algebra, ein Borel’scher Raum ist. Œ können<br />
wir also annehmen, dass E ∈ B(R) ist. Die Strategie unseres Beweises besteht darin, eine
KAPITEL 3. DIE BEDINGTE ERWARTUNG 26<br />
Verteilungsfunktion der bedingten Verteilung zu finden, indem diese erst für rationale Werte<br />
festgelegt wird, bevor sie auf alle reellen Zahlen fortgesetzt wird.<br />
Für r ∈ Q sei Fr eine Version von P({Y ≤ r}|F). Sei A ∈ A so, dass für ω ∈ A die Abbildung<br />
r ↦→ Fr(ω) nicht-fallend ist mit Grenzwerten 1 und 0 bei ±∞. Da A durch abzählbar<br />
viele Bedingungen gegeben ist, die alle fast sicher erfüllt sind, folgt P(A) = 1. Definiere nun<br />
für x ∈ R<br />
Fx(ω) := 1A(ω) · inf<br />
r>x Fr(ω) + 1A c(ω) · 1 {x≥0}.<br />
Damit ist x ↦→ Fx(ω) für alle ω eine Verteilungsfunktion. Definiere<br />
Für r ∈ Q und B = (−∞; r] ist<br />
κ(ω, .) := Maß, das durch x ↦→ Fx(ω) definiert ist.<br />
ω ↦→ κ(ω, B) = 1A(ω) · P({Y ≤ r}|F)(ω) + 1A c(ω) · 1 {r≥0} (3.4) eq:ex12<br />
F-messbar. Da {(−∞; r] : r ∈ Q} ein durchschnittsstabiler Erzeuger von B(R) ist, ist nach<br />
Bemerkung 3.13 die Abbildung ω ↦→ κ(ω, B) für alle B ∈ A messbar. Also ist κ ein stochastischer<br />
Kern.<br />
Es bleibt zu zeigen, dass κ eine reguläre Version der bedingten Verteilung ist. Da (3.4)<br />
auf einem schnittstabilen Erzeuger von E gilt, gilt für ω ∈ A<br />
κ(ω, B) = P({Y ∈ B}|F)(ω).<br />
Mit anderen Worten, κ ist eine reguläre Version der bedingten Erwartung.
Kapitel 4<br />
Einführung in stochastische<br />
Prozesse<br />
Sei (Ω, A, P) ein Wahrscheinlichkeitsraum, (E, r) ein metrischer Raum, E := B(E) und I eine<br />
Indexmenge (meist I ⊆ Z oder I ⊆ R).<br />
4.1 Definition und Existenz<br />
Definition 4.1 (Stochastischer Prozess). 1. Sei X = (Xt)t∈I so, dass Xt : Ω → E A − Emessbar<br />
ist. Dann heißt X ein E-wertiger stochastischer Prozess. Für ω ∈ Ω heißt die<br />
Abbildung I ↦→ E, gegeben durch X(ω) : t ↦→ Xt(ω) ein Pfad von X.<br />
2. Für J ⊆ I definieren wir für H ⊆ J ⊆ I die Projektion πJ H : EJ → EH , gegeben durch<br />
πJ H ((xi)i∈J) = πJ((xi)i∈H). Außerdem setzen wir πJ := πI J und für t ∈ I und J = {t}<br />
definieren wir πt := π {t}.<br />
3. Ist in 1. der Wahrscheinlichkeitsraum Ω = E I und Xt = πt, so heißt X kanonischer<br />
Prozess.<br />
4. Für eine endliche Teilmenge J von I schreiben wir J ⋐ I.<br />
Bemerkung 4.2. 1. In dieser Vorlesung wird meist I ⊆ Z sein. Stochastische Prozesse<br />
in stetiger Zeit werden ausführlich in der Vorlesung Stochastische Prozesse behandelt<br />
werden.<br />
2. Zur Wiederholung: die Produkt-σ-Algebra auf dem Raum E I ist definiert als die kleinste<br />
σ-Algebra, bzgl. der alle Projektionen πt, t ∈ I messbar sind. Insbesondere ist für einen<br />
E-wertigen stochastischen Prozess X = (Xt)t∈I die Abbildung ω ↦→ X(ω) A − E I -<br />
messbar.<br />
P:eindPL Proposition 4.3. Seien PI, � PI Wahrscheinlichkeitsverteilungen auf E I . Dann ist PI = � PI<br />
genau dann, wenn<br />
für alle J ⋐ I.<br />
(πJ)∗PI = (πJ)∗ � PI<br />
27
KAPITEL 4. EINFÜHRUNG IN STOCHASTISCHE PROZESSE 28<br />
Beweis. ’⇒’: klar.<br />
’⇐’: Wir betrachten den durchschnittstabilen Erzeuger<br />
von E I . Weiter ist für J ⋐ I, A ∈ E |J| ,<br />
C := {π −1<br />
J (A) : A ∈ E|J| ; J ⋐ I} ⊆ E I<br />
PI(π −1<br />
J (A)) = (πJ)∗PI(A) = (πJ)∗ � PI(A) = � PI(π −1<br />
J (A)),<br />
d.h. PI und � PI stimmen auf C überein. Nach Theorem 1.3 ist damit PI = � PI.<br />
Bemerkung 4.4. Oftmals kann man die endlich-dimensionalen Verteilungen eines stochastischen<br />
Prozesses definieren. (Beispielsweise wird man in der Vorlesung zu stochastischen<br />
Prozessen die Brownsche Bewegung B = (Bt)t≥0 so definieren, dass für t ≥ s der Zuwachs<br />
Bt − Bs nach N(0, t − s) verteilt und unabhängig von (Br)r≤s ist.) Um sicher zu stellen, dass<br />
es zu diesen endlich-dimensionalen Verteilungen einen stochastischen Prozess gibt, benötigt<br />
man das Theorem 4.7. Es ist zu beachten, dass endlich dimensionale Verteilungen von stochastischen<br />
Prozessen immer projektiv sind; siehe die nächste Definition.<br />
Definition 4.5 (Projektiver Limes). 1. Eine Familie von Wahrscheinlichkeitsmaßen (PJ :<br />
J ⋐ I) heißt projektive Familie auf E, falls PJ für alle J ⋐ I ein Wahrscheinlichkeitsmaß<br />
auf E J ist und<br />
für alle H ⊆ J ⋐ I.<br />
PH = (π J H)∗PJ<br />
2. Existiert für eine projektive Familie (PJ : J ⋐ I) von Wahrscheinlichkeitsmaßen auf E<br />
ein Wahrscheinlichkeitsmaß PI auf E I mit PJ = (πJ)∗PI für alle J ⋐ I, so heißt PI<br />
projektiver Limes der projektiven Familie. Wir schreiben dann<br />
PI = lim PJ.<br />
Bemerkung 4.6. Zu jeder projektiven Familie {PJ : J ⋐ I} gibt es höchstens einen projektiven<br />
Limes. Denn: seien PI und � PI zwei projektive Limiten, so stimmen deren endlich<br />
dimensionale Verteilungen nach Definition des projektiven Limes überein, d.h. PI = � PI nach<br />
Proposition 4.3. Inhalt des nächsten Theorems ist, dass es bei vollständigen und separablen<br />
Räumen genau einen projektiven Limes gibt.<br />
T:projLim Theorem 4.7 (Existenz von Prozessen, Kolmogoroff). Sei (E, r) vollständig und separabel<br />
und (PJ : J ⋐ I) eine projektive Familie von Wahrscheinlichkeitsmaßen auf E. Dann gibt es<br />
den projektiven Limes lim<br />
←−J⋐I PJ.<br />
rem:wt1a Bemerkung 4.8. Wir werden zwei Resultate aus der Wahrscheinlichkeitstheorie I verwenden<br />
und wiederholen die zugrunde liegenden Definitionen:<br />
1. Definition Kompaktes System: Ein durchschnittstabiles Mengensystem K heißt kompaktes<br />
System, falls aus �<br />
n≥1 Kn = ∅ mit K1, K2, ... ∈ K folgt, dass es ein N gibt mit<br />
�N n=1 Kn = ∅.<br />
←−<br />
J⋐I
KAPITEL 4. EINFÜHRUNG IN STOCHASTISCHE PROZESSE 29<br />
2. Definition Regulärer Inhalt: Sei K ein kompaktes System und µ ein Inhalt auf einem<br />
Mengensystem R. Der Inhalt µ heißt von innen K−regulär, falls für alle A ∈ K<br />
gilt.<br />
µ(A) = sup<br />
K∋K⊆A<br />
µ(K)<br />
3. Satz 11.4 aus der Wahrscheinlichkeitstheorie I: Sei H ein Halbring (∅ ∈ H, A, B ∈ H =⇒<br />
A ∩ B ∈ H und es gibt paarweise disjunkte C1, ..., Cn mit A \ B = � Ci) und K ⊆ H ein<br />
kompaktes System. Jeder von innen K-reguläre endliche Inhalt µ auf H ist σ−additiv,<br />
d.h. ein Prämaß.<br />
4. Lemma 11.5 aus der Wahrscheinlichkeitsthroeie I: Sei (E, r) vollständig und separabel<br />
und E := B(E), K das Mengensystem der kompakten Mengen. Dann ist jedes endliche<br />
Maß µ auf E von innen K-regulär.<br />
Beweis. Sei<br />
H := {π −1<br />
J (× Aj) : J ⋐ I, Aj ∈ E}.<br />
j∈J<br />
und µ ein Inhalt auf H, definiert durch die projektive Familie mittels<br />
� �<br />
�<br />
µ<br />
= PJ .<br />
π −1<br />
J × Aj<br />
j∈J<br />
�<br />
× Aj<br />
j∈J<br />
Man prüft nach, dass H ein Halbring und µ ein wohldefinierter Inhalt auf H ist. Weiter ist<br />
K := {π −1�<br />
�<br />
J<br />
Kj : J ⋐ I, Kj kompakt} ⊆ H<br />
× j∈J<br />
ein kompaktes System.<br />
Wir zeigen nun, dass µ von innen K-regulär ist. Sei ε > 0, π −1�<br />
�<br />
J ×j∈J Aj ∈ H für J ⋐ I<br />
und Aj ∈ E, j ∈ J. Da Pj für j ∈ I ein Maß ist, gibt es nach Bemerkung 4.8.4 kompakte<br />
Mengen Kj ∈ E mit Kj ⊆ Aj und Pj(Aj \ Kj) ≤ ε. Damit ist<br />
�<br />
µ π −1�<br />
� � � −1<br />
J × Aj \ πJ × Kj<br />
j∈J<br />
j∈J<br />
� �<br />
= µ π −1<br />
�<br />
�<br />
J (× Aj) \ (× Kj<br />
j∈J j∈J<br />
��<br />
�� � � �<br />
= PJ × Aj \ × Kj<br />
j∈J j∈J<br />
�<br />
� �<br />
≤ PJ (π J j ) −1 �<br />
(Aj \ Kj)<br />
≤ �<br />
j∈J<br />
j∈J<br />
PJ<br />
�<br />
(π J j ) −1 �<br />
(Aj \ Kj)<br />
= �<br />
Pj(Aj \ Kj)<br />
j∈J<br />
≤ |J|ε.<br />
Da J endlich und ε > 0 beliebig war, ist also µ von innen K-regulär. Nach Bemerkung<br />
4.8.3 ist µ also σ-additiv, d.h. ein Prämaß. Insbesondere lässt es sich eindeutig zu einem<br />
Wahrscheinlichkeitsmaß PI auf σ(H) = E I fortsetzen.
KAPITEL 4. EINFÜHRUNG IN STOCHASTISCHE PROZESSE 30<br />
Sei weiter Aj ∈ E, j ∈ J. Dann gilt für PI<br />
(πJ)∗PI(×<br />
j∈J<br />
Aj) = PI(π −1<br />
J (× Aj)) = µ(π<br />
j∈J<br />
−1<br />
J × Aj) = PJ(× Aj),<br />
j∈J<br />
j∈J<br />
d.h. (πJ)∗PI und PJ stimmen auf H und damit auf dem von H erzeugten Ring überein. Da<br />
dieser durchschnittstabil ist, ist (πJ)∗PI = PJ nach Theorem 1.3 und PI ist der projektive<br />
Limes der Familie (PJ : J ⋐ I).<br />
4.2 Beispiel: der Poisson-Prozess<br />
Wir betrachten (zum einzigen Mal in dieser Vorlesung) einen stochastischen Prozess mit<br />
Indexmenge I = R+.<br />
rem:poi1 Bemerkung 4.9. Unter Beobachtung stehen die Anzahl von Clicks eines Geigerzählers, Anrufe<br />
in einer Telefonzentrale, Mutationsereignissen entlang von Ahnenlinien... Solche Vorgänge<br />
wollen wir mit Hilfe eines stochastischen Prozesses X = (Xt)t∈I mit I = R+ modellieren. Dabei<br />
sei Xt die Anzahl der Clicks/Anrufe/Mutationen bis zur Zeit t. An einen solchen Prozess<br />
stellt man sinnvollerweise ein paar Annahmen:<br />
1. Unabhängige Zuwächse: Ist 0 = t0 ≤ t1 < ... < tn, so ist (Xti − Xti−1 : i = 1, ..., n) eine<br />
unabhängige Familie.<br />
2. Identisch verteilte Zuwächse: Ist 0 < t1 < t2, so ist Xt2<br />
− Xt1<br />
3. Keine Doppelpunkte: Es ist lim sup ε→0 1<br />
ε P[Xε − X0 > 1] = 0<br />
d<br />
= Xt2−t1 − X0.<br />
def:poiP Definition 4.10 (Poisson-Prozess). Ein reellwertiger stochastischer Prozess X = (Xt)t∈I<br />
mit X0 = 0 heißt Poisson-Prozess mit Intensität λ, wenn folgendes gilt:<br />
1. Für 0 = t0 < ... < tn ist die Familie (Xti − Xti−1 : i = 1, ..., n) unabhängig.<br />
2. Für 0 ≤ t1 < t2 ist Xt2 − Xt1 ∼ Poi(λ(t2 − t1)).<br />
Proposition 4.11 (Existenz von Poisson-Prozessen). Sei λ ≥ 0. Dann gibt es genau eine<br />
Verteilung PI auf (B(R)) I , so dass der bzgl. PI kanonische Prozess ein Poisson-Prozess mit<br />
Intensität λ ist.<br />
Beweis. Zunächst zur Eindeutigkeit: die endlich-dimensionalen Randverteilungen von PI sind<br />
durch 1. und 2. aus Definition 4.10 eindeutig festgelegt. Deswegen folgt die Eindeutigkeit aus<br />
Proposition 4.3.<br />
Zur Existenz definieren wir den Poisson-Prozess als projektiven Limes. Für J = {t1, ..., tn} ⋐<br />
I mit 0 = t0 ≤ t1 < ... < tn setzen wir für x0 = 0<br />
Weiter ist<br />
S n : (x1 − x0, ..., xn − xn−1) ↦→ (x1, ..., xn).<br />
PJ := S n ∗<br />
n�<br />
Poi(λ(ti − ti−1)). (4.1) eq:poi1<br />
i=1
KAPITEL 4. EINFÜHRUNG IN STOCHASTISCHE PROZESSE 31<br />
Mit anderen Worten: sind Yti−ti−1 für i = 1, ..., n unabhängig Poisson-verteilt mit Parameter<br />
λ(ti − ti−1), dann ist Sn (Y (t1−t0), ..., Ytn−tn−1)) ∼ PJ.<br />
Wir zeigen nun, dass die Familie (PJ : J ⋐ I) projektiv ist: sei J = {t1, ..., tn} wie oben<br />
und H = J \ {ti} für ein i. Dann ist<br />
und damit<br />
Poi(λ(ti+1 − ti)) ∗ Poi(λ(ti − ti−1)) = Poi(λ(ti+1 − ti−1))<br />
(π J H)∗PJ = (π J H ◦ S n )∗<br />
j=1<br />
n�<br />
Poi(λ(tj − tj−1)) = PH.<br />
Nach Theorem 4.7 gibt es den projektiven limes PI. Betrachten wir den bzgl. PI kanonischen<br />
Prozess X = (Xt)t∈I, so hat dieser die endlich-dimensionalen Verteilungen (PJ : J ⋐ I).<br />
Insbesondere sind wegen (10.2) Zuwächse unabhängig und Poisson-verteilt. Damit erfüllt X<br />
die Bedingungen 1. und 2. aus Definition 4.10.<br />
Proposition 4.12 (Charakterisierung von Poisson-Prozessen). Ein nicht-fallender Prozess<br />
X = (Xt)t∈I mit X0 = 0 und Werten in Z+ ist genau dann ein Poissonprozess mit Intensität<br />
λ, falls λ := E[X1 − X0] < ∞ und 1.-3. aus Bemerkung 4.9 erfüllt sind.<br />
Beweis. ’⇐’: 1. und 2. aus Bemerkung 4.9 sind klar erfüllt. Für 3. berechnen wir direkt<br />
1<br />
εP[Xε > 1] = 1 − e−λε (1 + λε) 1 − (1 − λε)(1 + λε) ε→0<br />
≤ −−→ 0.<br />
ε<br />
ε<br />
’⇒’: Es ist 1. aus Definition 4.10 erfüllt. Bleibt zu zeigen, dass Xt ∼ Poi(λt) ist. Sei hierzu<br />
für n ∈ N, k = 1, ..., n,<br />
Z n k := (Xtk/n − Xt(k−1)/n) ∧ 1, X n n�<br />
t = Z n k .<br />
gibt an, ob im Intervall (t(k − 1)/n; tk/n] mindestens ein Sprung stattgefunden<br />
Das heißt, Zn k<br />
hat. Dann gilt, da Xn t monoton in n ist,<br />
P[ lim<br />
n→∞ Xn t �= Xt] = lim<br />
n→∞ P[Xn t �= X]<br />
k=1<br />
= lim<br />
n→∞ P[Xtk/n − Xt(k−1)/n > 1 für ein k]<br />
n�<br />
≤ lim P[Xtk/n − Xt(k−1)/n > 1]<br />
n→∞<br />
k=1<br />
= lim<br />
n→∞ nP[Xt/n > 1] n→∞<br />
−−−→ 0<br />
nach 3. Weiter ist Xn t binomialverteilt mit n und Erfolgswahrscheinlichkeit pn := P[Xt/n > 0].<br />
Wegen der Linearität der Abbildung t ↦→ E[Xt] und, da Xn t ↑ Xt, folgt mit dem Satz über die<br />
monotone Konvergenz,<br />
λt = E[Xt] = lim<br />
n→∞ E[Xn t ] = lim<br />
n→∞ npn.<br />
Durch eine Poisson-Approximation gilt nun<br />
P[Xt = k] = lim<br />
n→∞ P[Xn t = k] − P[X n t = k; Xt �= X n t ] + P[Xt = k; Xt �= X n t ]<br />
= lim<br />
n→∞ P[Xn t = k] = Poi(λt)(k),<br />
d.h. Xt ∼ Poi(λt) und die Behauptung folgt.
KAPITEL 4. EINFÜHRUNG IN STOCHASTISCHE PROZESSE 32<br />
P:poi1 Proposition 4.13 (Konstruktion mittels Exponentialverteilungen). Seien S1, S2, ... unabhängig,<br />
exponentialverteilt mit Parameter λ. Weiter sei X = (Xt)t∈I gegeben durch<br />
Xt := max{i : S1 + ... + Si < t}<br />
mit max ∅ = 0. Dann ist X ein Poisson-Prozess mit Intensität λ.<br />
Beweis. Wir müssen zeigen, dass für 0 = t0 < ... < tn, k1, ..., kn ∈ N<br />
P[Xt1 − Xt0 = k1, ..., Xtn − Xtn−1 = kn] =<br />
n�<br />
Poi(α(tj − tj−1))(kj)<br />
gilt. Dies werden wir nur für den Fall n = 2 ausrechnen, der allgemeine Fall folgt analog.<br />
Sei in der folgenden Rechnung 0 ≤ s < t und U1, U2, ... uniform verteilte Zufallsvariablen auf<br />
[0, t]. Wir berechnen<br />
P[Xs − Xt0 = k, Xt − Xs = ℓ]<br />
=<br />
� s � s<br />
0<br />
= λ k+ℓ<br />
s1<br />
· · ·<br />
� s<br />
� s � s<br />
0<br />
s1<br />
sk−1<br />
� t � t<br />
s<br />
� s<br />
· · ·<br />
sk−1<br />
sk+1<br />
� t � t<br />
s<br />
� t<br />
· · ·<br />
sk+1<br />
sk+ℓ−1<br />
� t<br />
· · ·<br />
� ∞<br />
t<br />
sk+ℓ−1<br />
j=1<br />
λ k+ℓ+1 e −λs1 e −λ(s2−s1) · · ·<br />
� � ∞<br />
= e −λt λ k+ℓ t k+ℓ P[U1 < ... < Uk < s < Uk+1 < ... < Uk+ℓ]<br />
= e −λt λ ℓ t ℓ<br />
� �<br />
k + ℓ<br />
�s �k� t − s<br />
�ℓ 1<br />
k t t (k + ℓ)!<br />
−λs (λs)k −λ(t−s) (λ(t − s))ℓ<br />
= e · e ,<br />
k!<br />
ℓ!<br />
woraus die Behauptung folgt.<br />
t<br />
· · · e −λ(sk+ℓ+1−sk+ℓ)<br />
dsk+ℓ+1...ds1<br />
�<br />
dsk+ℓ · · · ds1<br />
λe −λsk+ℓ+1 dsk+ℓ+1<br />
Beispiel 4.14 (Links- und rechtsstetiger Poisson-Prozess). Sei, ähnlich wie in Proposition<br />
4.13, der stochastische Prozess Y = (Yt)t∈I gegeben durch<br />
Yt := max{i : S1 + ... + Si ≤ t}.<br />
Realisierungen der Prozesse X aus Proposition 4.13 und Y sind in Abbildung 4.1 zu sehen.<br />
Die beiden Prozesse unterschieden sich dadurch, dass X rechtsstetig und Y linksstetig ist.<br />
Allerdings sind beide Prozesse Poisson-Prozesse mit Intensität λ, wie man sich leicht überzeugt.<br />
Insbesondere haben beide Prozesse dieselben endlich dimensionalen Verteilungen, nach<br />
Proposition 4.3 also auch dieselben Verteilungen auf R I . Wie man an diesem Beispiel sieht,<br />
können zwei Prozesse mit derselben Verteilungen völlig unterschiedliche Pfade besitzen.<br />
4.3 Filtrationen und Stoppzeiten<br />
Sei (Ω, A, P) ein Wahrscheinlichkeitsraum, I ⊆ R und F = (Ft)t∈I eine Filtration (siehe<br />
Definition 4.15).<br />
Def:filtr Definition 4.15 (Filtrationen, Stoppzeiten). Sei X = (Xt)t∈I ein stochastischer Prozess.
KAPITEL 4. EINFÜHRUNG IN STOCHASTISCHE PROZESSE 33<br />
Xt<br />
0 1 2 3 4 5 6<br />
●<br />
●<br />
●<br />
0 2 4 6 8 10<br />
t<br />
●<br />
●<br />
●<br />
Yt<br />
0 1 2 3 4 5 6<br />
●<br />
●<br />
●<br />
0 2 4 6 8 10<br />
Abbildung 4.1: Der fig:poi rechtsstetige Poisson-Prozess X und der linksstetige Poisson-Prozess Y .<br />
1. Eine Filtration F = (Ft)t∈I ist eine nicht-fallende Familie von σ-Algebren, d.h. Fs ⊆ Ft<br />
für s ≤ t.<br />
Sei nun F = (Ft)t∈I eine Filtration.<br />
2. Der Prozess X heißt an F adaptiert, falls Xt Ft-messbar ist für alle t ∈ I.<br />
3. Die Filtration F = (Ft)t∈I mit Ft = σ(Xs : s ≤ t) heißt die von X erzeugte Filtration.<br />
4. Eine zufällige Zeit ist eine Zufallsvariable in Ī (dem Abschluss von I). Eine zufällige<br />
Zeit T heißt (F-)Stoppzeit falls {T ≤ t} ∈ Ft für alle t ∈ I.<br />
5. Jede Stoppzeit T definiert die σ-Algebra<br />
der T -Vergangenheit.<br />
FT := {A ∈ A : A ∩ {T ≤ t} ∈ Ft, t ∈ I}<br />
6. Für eine zufällige Zeit T ist XT definiert durch ω ↦→ X T (ω)(ω). Weiter ist X T :=<br />
(XT ∧t)t∈I der bei T gestoppte Prozess.<br />
7. Sei 0 < p < ∞. Ein reellwertiger Prozess X heißt p-fach integrierbar, falls E[|Xt| p ] <<br />
∞, t ∈ I.<br />
8. Sei I = {0, 1, 2, ...}. Der Prozess X heißt F-prävisibel, falls X0 = 0 und Xt Ft−1-messbar<br />
ist.<br />
rem:TB Bemerkung 4.16. 1. Sei (E, r) ein metrischer Raum. Für einen stochastischen Prozess<br />
X = (Xt)t=0,1,2,... und B ⊆ E ist<br />
TB := inf{t : Xt ∈ B}<br />
eine Stoppzeit. Denn es ist schließlich<br />
{TB ≤ t} = �<br />
{Xs ∈ B} ∈ Ft.<br />
s≤t<br />
t<br />
●<br />
●<br />
●
KAPITEL 4. EINFÜHRUNG IN STOCHASTISCHE PROZESSE 34<br />
2. Für überabzählbares I, einen stochastischen Prozess X = (Xt)t∈I und eine F-Stoppzeit<br />
T ist die Größe XT nicht notwendigerweise FT -messbar. Für abzählbares I jedoch schon;<br />
siehe Lemma 4.19.<br />
Lemma 4.17. 1. Jede Zeit T = s ∈ I ist eine Stoppzeit<br />
2. Für Stoppzeiten S, T sind auch S ∧ T, S ∨ T Stoppzeiten.<br />
3. Für Stoppzeiten S, T ≥ 0 ist S + T eine Stoppzeit.<br />
Beweis. 1. Für t ∈ I ist {s ≤ t} ∈ {∅, Ω} ⊆ Ft, d.h. T = s ist eine Stoppzeit.<br />
2. Für t ∈ I ist {S ∧ T ≤ t} = {S ≤ t} ∪ {T ≤ t} ∈ Ft und {S ∨ T ≤ t} = {S ≤ t} ∩ {T ≤<br />
t} ∈ Ft.<br />
3. Sei t ∈ I. Es sind S ∧ t und T ∧ t Stoppzeiten, d.h. für s ≤ t ist {S ∧ t ≤ s} ∈ Fs ⊆ Ft. Für<br />
s > t ist {S ∧ t ≤ s} = Ω ∈ Ft, d.h. S ∧ t ist Ft-messbar. Analog folgt, dass T ∧ t Ft-messbar<br />
ist. Weiter ist 1 {S>t}, 1 {T >t} Ft-messbar. Setzen wir S ′ = S ∧ t + 1 {S>t}, T ′ = T ∧ t + 1 {T >t},<br />
so ist S ′ + T ′ Ft-messbar und es gilt {S + T ≤ t} = {S ′ + T ′ ≤ t} ∈ Ft.<br />
Lemma 4.18. 1. Jede Stoppzeit T ist FT -messbar.<br />
2. Für Stoppzeiten S, T mit S ≤ T ist FS ⊆ FT .<br />
Beweis. 1. Da T eine Stoppzeit ist, ist {T ≤ t} ∈ Ft. Nach Definition von FT bedeutet das<br />
{T ≤ t} ∈ FT . Da H := {(−∞; t] : t ∈ R} ein Erzeuger von B(R) sind, folgt die Behauptung.<br />
2. Sei A ∈ FS und t ∈ I. Wegen B := A ∩ {S ≤ t} ∈ Ft ist<br />
d.h. A ∈ FT .<br />
A ∩ {T ≤ t} = B ∩ {T ≤ t} ∈ Ft,<br />
L:XTmessbar Lemma 4.19. Ist I höchstens abzählbar und (E, r) ein metrischer Raum. Für einen adaptierten<br />
Prozess X = (Xt)t=0,1,2,... und eine Stoppzeit T ist XT FT -messbar.<br />
Beweis. Es gilt für B ∈ B(E)<br />
{XT ∈ B} ∩ {T ≤ t} = �<br />
{Xs ∈ B, T = s} ∈ Ft<br />
und damit {Xt ∈ B} ∈ FT . Daraus folgt die Behauptung.<br />
s≤t
Kapitel 5<br />
Martingale<br />
5.1 Definition und Eigenschaften<br />
Sei (Ω, A, P) ein Wahrscheinlichkeitsraum, I ⊆ R eine Indexmenge und F = (Ft)t∈I eine<br />
Filtration.<br />
Bemerkung 5.1. Für eine A-messbare Zufallsvariable X kann man einen stochastischen<br />
Prozess definieren, nämlich (Xt)t∈I mit<br />
Natürlich ist dann, wegen Theorem 3.2.7<br />
Xt := E[X|Ft]. (5.1) eq:mart1<br />
E[Xt|Fs] = E[E[X|Ft]|Fs] = E[X|Fs] = Xs.<br />
Stochastische Prozesse X mit der Eigenschaft werden wir Martingale nennen. In Abschnitt<br />
6 wird es dann (unter anderem) darum gehen, wann es zu einem Martingal (Xt)t∈I eine<br />
Zufallsvariable X gibt, so dass (5.1) gilt.<br />
Definition 5.2. Sei X = (Xt)t∈I ein adaptierter, reellwertiger stochastischer Prozess mit<br />
E[|Xt|] < ∞, t ∈ I. Dann heißt X<br />
Martingal, falls E[Xt|Fs] = Xs für s, t ∈ I, s < t,<br />
Submartingal, falls E[Xt|Fs] ≥ Xs für s, t ∈ I, s < t,<br />
Supermartingal, falls E[Xt|Fs] ≤ Xs für s, t ∈ I, s < t.<br />
Genauer sagen wir dass X ein F-(Sub, Super)-Martingal ist.<br />
ex:mart Beispiel 5.3. 1. Sei X1, X2, ... eine Folge unabhängiger, integrierbarer Zufallsvariablen<br />
mit E[Xi] = 0, i = 1, 2, ... und Ft := σ(X1, ..., Xn). Weiter sei S0 := 0 und für t = 1, 2, ...<br />
Dann ist<br />
St :=<br />
t�<br />
Xi.<br />
i=1<br />
E[St|Ft−1] = E[St−1 + Xt|Ft−1] = St−1 + E[Xt|Ft−1] = St−1 + E[Xt] = St−1,<br />
d.h. (St)t=0,1,2,... ist ein Martingal.<br />
Falls E[Xi] ≥ 0 für alle i = 1, 2, ..., so ist (St)t≥0 ein Submartingal.<br />
35
KAPITEL 5. MARTINGALE 36<br />
2. Sei X1, X2, ... eine Folge unabhängiger, integrierbarer Zufallsvariablen mit E[Xi] = 1, i =<br />
1, 2, ... und Ft := σ(X1, ..., Xn). Weiter ist S0 := 1 und für t = 1, 2, ...<br />
St :=<br />
Dann ist, falls S1, S2, ... integrierbar sind,<br />
t�<br />
Xi.<br />
i=1<br />
E[St|Ft−1] = E[St−1Xt|Ft−1] = St−1 · E[Xt|Ft−1] = St−1 · E[Xt] = St−1,<br />
d.h. (St)t=0,1,2,... ist ein Martingal.<br />
Falls E[Xi] ≥ 1 für alle i = 1, 2, ..., so ist (St)t≥0 ein Submartingal.<br />
3. Sei I = {−1, −2, ...} und X1, X2, ... integrierbar, unabhängig, identisch verteilte Zufallsvariablen.<br />
Weiter setzen wir für t ∈ I<br />
St := 1<br />
|t|<br />
und Ft := σ(..., St−1, St). Dann ist für t ∈ I<br />
nach Beispiel 3.8. Speziell ist<br />
�<br />
1<br />
E[St|Ft−1] = E<br />
|t|<br />
= 1<br />
|t|<br />
�<br />
= E<br />
|t|<br />
�<br />
i=1<br />
X1<br />
|t|<br />
�<br />
i=1<br />
|t|<br />
�<br />
i=1<br />
�<br />
E<br />
Xi<br />
�<br />
�<br />
Xi�St−1,<br />
St−2, ...<br />
Xi<br />
� |t|+1<br />
� �<br />
�<br />
i=1<br />
= 1<br />
|t−1| �<br />
|t − 1|<br />
= St−1<br />
�<br />
E[X1|Ft] = E<br />
= 1<br />
|t|<br />
= St.<br />
i=1<br />
X1<br />
� |t|+1<br />
� �<br />
�<br />
Xi<br />
Xi<br />
i=1<br />
�<br />
� |t|<br />
�<br />
�<br />
�<br />
P:phiM Proposition 5.4. Sei X = (Xt)t∈I ein stochastischer Prozess und ϕ : R → R konvex. Falls<br />
ϕ(X) = (ϕ(Xt))t∈I integrierbar ist und eine der beiden Bedingungen<br />
1. X ist ein Martingal<br />
|t|<br />
�<br />
i=1<br />
i=1<br />
Xi<br />
Xi<br />
Xi<br />
�<br />
�<br />
�
KAPITEL 5. MARTINGALE 37<br />
2. X ist ein Submartingal und ϕ ist nicht-fallend<br />
erfüllt ist, so ist ϕ(X) = (ϕ(Xt))t∈I ein Submartingal.<br />
Beweis. Ist X ein Martingal so ist ϕ(Xs) = ϕ(E[Xt|Fs]). Ist X ein Submartingal und ϕ<br />
nicht-fallend, gilt ϕ(Xs) ≤ ϕ(E[Xt|Fs]). In beiden Fällen ist damit für s ≤ t fast sicher wegen<br />
der Jensen’schen Ungleichung für bedingte Erwartungen, Proposition 3.4, dass<br />
d.h. ϕ(X) ist ein Submartingal.<br />
ϕ(Xs) ≤ ϕ(E[Xt|Fs]) ≤ E[ϕ(Xt)|Fs],<br />
P:doobZerl Proposition 5.5 (Doob-Zerlegung). Sei I = {0, 1, 2, ...}. Jeder adaptierte Prozess X =<br />
(Xt)t∈I hat eine fast sicher eindeutige Zerlegung X = M + A, wobei M ein Martingal und A<br />
prävisibel ist. Insbesondere ist X genau dann ein Submartingal falls A fast sicher nicht fällt.<br />
Beweis. Definiere den prävisiblen Prozess A = (At)t∈I durch<br />
At =<br />
t�<br />
E[Xs − Xs−1|Fs−1]. (5.2) eq:doob1<br />
s=1<br />
Dann ist M = X − A ein Martingal, denn<br />
E[Mt − Mt−1|Ft−1] = E[Xt − Xt−1|Ft−1] − (At − At−1) = 0.<br />
Kommen wir zur Eindeutigkeit der Darstellung. Falls X = M + A für ein Martingal M und<br />
einen prävisiblen Prozess A, so ist At − At−1 = E[Xt − Xt−1|Ft−1] für alle t = 1, 2, ..., d.h.<br />
(5.2) gilt fast sicher.<br />
Definition 5.6. Sei I = {0, 1, 2, ...} und X = (Xt)t∈I ein quadratisch integrierbares Martingal.<br />
Der fast sicher eindeutig bestimmte, prävisible Prozess (〈X〉t)t∈I, für den (X 2 t − 〈X〉t)t∈I<br />
ein Martingal ist, heißt der quadratische Variationsprozess von X.<br />
Bemerkung 5.7. Da wegen Proposition 5.4 der Prozess (X 2 t )t∈I ein Submartingal ist, nennt<br />
man (〈X〉t)t∈I auch den wachsenden Prozess von X.<br />
Proposition 5.8. Sei I = {0, 1, 2, ...}, X = (Xt)t∈I ein Martingal mit quadratischem Variationsprozess<br />
〈X〉 = (〈X〉t)t∈I. Dann ist<br />
und<br />
〈X〉t =<br />
t�<br />
E[X 2 s − X 2 s−1|Fs−1] =<br />
s=1<br />
t�<br />
E[(Xs − Xs−1) 2 |Fs−1]<br />
s=1<br />
E[〈X〉t] = V[Xt − X0].<br />
Beweis. Wie im Beweis von Proposition 5.5 kann man den Prozess 〈X〉 mittels (5.2) schreiben.<br />
Daraus folgt sofort das erste Gleichheitszeichen. Das zweite folgt, da E[XsXs−1|Fs−1] = X 2 s−1 .<br />
Weiter ist<br />
E[〈X〉t] =<br />
t�<br />
E[X 2 s − X 2 s−1] = E[X 2 t − X 2 0] = E[(Xt − X0) 2 ] = V[Xt − X0].<br />
s=1
KAPITEL 5. MARTINGALE 38<br />
Beispiel 5.9. 1. Sei S = (St)∈I mit St = � t<br />
s=1 Xs wie in Beispiel 5.3.1 mit quadratische<br />
integrierbaren Zufallsvariablen X1, X2, .... Dann ist nach der letzten Poposition<br />
〈S〉t =<br />
t�<br />
E[X 2 s ].<br />
Insbesondere ist der quadratische Variationsprozess von S deterministisch.<br />
s=1<br />
2. Sei S = (St)∈I mit St = � t<br />
s=1 Xs wie in Beispiel 5.3.2 mit quadratische integrierbaren<br />
Zufallsvariablen X1, X2, .... Dann ist<br />
〈S〉t =<br />
t�<br />
E[(Ss − Ss−1) 2 |Fs−1] =<br />
s=1<br />
t�<br />
S 2 s−1E[(Xs − 1) 2 |Fs−1] =<br />
Insbesondere ist in diesem Beispiel der Prozess 〈S〉s echt stochastisch.<br />
5.2 Stochastisches Integral<br />
s=1<br />
t�<br />
S 2 s−1V[Xs].<br />
Definition 5.10 (Diskretes stochastisches Integral). Sei I = {0, 1, 2, ...} und H = (Ht)t∈I, X =<br />
(Xt)t∈I stochastische Prozesse mit Werten in R. Ist X adaptiert und H prävisibel, so definieren<br />
wir das stochastische Integral H · X = ((H · X)t)t∈I durch<br />
(H · X)t =<br />
t�<br />
Hs(Xs − Xs−1)<br />
s=1<br />
für alle t ∈ I. Ist X ein Martingal, so nennen wir H · X eine Martingaltransformierte von X.<br />
P:stoInt Proposition 5.11 (Stabilität der stochastischen Integrale). Sei I = {0, 1, 2, ...} und X =<br />
(Xt)t∈I ein adaptierter, reellwertiger Prozess mit E[|X0|] < ∞.<br />
1. X ist genau dann ein Martingal, wenn für jeden prävisiblen Prozess H = (Ht)t∈I das<br />
stochastische Integral H · X ein Martingal ist.<br />
2. X ist genau dann ein Submartingal (Supermartingal), wenn für jeden prävisiblen, nichtnegativen<br />
Prozess H = (Ht)t∈I das stochastische Integral H · X ein Submartingal (Supermartingal)<br />
ist.<br />
Beweis. 1. ’⇒’: Man schreibt sofort<br />
E[(H · X)t+1 − (H · X)t|Ft] = E[Ht+1(Xt+1 − Xt)|Ft]<br />
= Ht+1E[Xt+1 − Xt|Ft]<br />
’⇐’: Sei t ∈ I und Hs := 1 {s=t}. Dann ist H = (Hs)s∈I deterministisch, insbesondere prävisibel.<br />
Da (H · X)t−1 = 0 gilt, folgt<br />
= 0.<br />
0 = E[(H · X)t|Ft−1] = E[Xt − Xt−1|Ft−1] = E[Xt|Ft−1] − Xt−1<br />
Daraus folgt die Behauptung.<br />
2. folgt analog.<br />
s=1
KAPITEL 5. MARTINGALE 39<br />
Beispiel 5.12. Martingaltransformierte kann man auch als Auszahlungen von Spielsystemen<br />
interpretieren. Gegeben, eine zufällige Größe entwickelt sich gemäß des adaptierten Prozesses<br />
X = (Xt)t=0,1,2,.... Wettet man vor Zeit t mit einem Einsatz Ht (basierend auf den Erfahrungen,<br />
die aus X0, ..., Xt−1 gewonnen wurden) auf die Änderung der zufälligen Größe Xt −Xt−1,<br />
so ist (H · X)t der bis zur Zeit t realisierte Gewinn. Gegeben der zugrunde liegende Prozess<br />
X ist ein Martingal, zeigt Proposition 5.11, dass der erzielte Gewinn H · X für jede Strategie<br />
H ein Martingal ist. Insbesondere ist der erwartete Gewinn 0.<br />
Als Beispiel betrachten wie das Petersburger Paradoxon: eine faire Münze wird unendlich<br />
oft geworfen. In jeder Runde setzt ein Spieler einen Einsatz in beliebiger Höhe. Kommt Kopf,<br />
verliert er ihn, kommt Zahl, so wird der Einsatz verdoppelt wieder ausbezahlt. Das Paradox<br />
besteht aus folgender Strategie: startend mit einem Einsatz von 1 beim ersten Münzwurf,<br />
verdoppelt der Spieler bei jedem Misserfolg seinen Einsatz. Kommt der erste Erfolg im t-ten<br />
Wurf, so beträgt sein bisheriger Einsatz �t i=1 2i−1 = 2t − 1. Da der letzte Einsatz 2t−1war, bekommt der Spieler also 2t zurück, hat also sicher einen Gewinn von 1 gemacht, obwohl das<br />
Spiel fair war.<br />
Um dieses Spiel mittels Martingalen zu analysieren, sei X1, X2, ... eine unabhängig, identisch<br />
verteilte Folge mit P[X1 = −1] = P[X1 = 1] = 1<br />
2 , und S0 = 0, St = �t i=1 Xi. Dann ist<br />
S = (St)t=0,1,2,... ein Martingal. Weiter sei Ht der Einsatz im t-ten Spiel. Dann ist<br />
(H · S)t =<br />
t�<br />
Hi(Si − Si−1) =<br />
i=1<br />
t�<br />
i=1<br />
HiXi<br />
der Gewinn nach dem t-ten Spiel. Da mit S auch H · S ein Martingal ist, gilt<br />
lim<br />
t→∞ E[(H · S)t] = E[(S · H)1] = E[X1] = 0,<br />
d.h. der mittlere Gewinn nach langer Zeit ist 0, unabhängig von der Strategie H. Oben haben<br />
wir den Einsatz<br />
Ht := 2 t−1 1 {St−1=−(t−1)} (5.3) eq:H<br />
betrachtet und gezeigt, dass für den Gewinn (H · S)t t→∞<br />
−−−→fs 1 gilt.<br />
Wie bewerten wir nun die Strategie (5.3)? Sei T die zufällige Zeit des Gewinns, d.h. T ist<br />
. Insbesondere ist T fast sicher endlich. Dann ist<br />
geometrisch verteilt mit Parameter 1<br />
2<br />
� �∞<br />
E<br />
t=1<br />
Ht<br />
�<br />
=<br />
∞�<br />
k=1<br />
1<br />
2 k (2k − 1) = ∞,<br />
d.h. für die obige Strategie benötigt man unter Umständen sehr viel Kapital.<br />
5.3 Optional Stopping und Optional Sampling<br />
P:optStop Proposition 5.13 (Optional Stopping). Sei I = {0, 1, 2, ...} und X = (Xt)t∈I ein (Sub,<br />
Super)-Martingal und T eine fast sicher endliche Stoppzeit. Dann ist X T = (XT ∧t)t∈I ein<br />
(Sub, Super)-Martingal.
KAPITEL 5. MARTINGALE 40<br />
Beweis. Wir zeigen die Aussage nur für den Fall, dass X ein Submartingal ist. Die anderen<br />
Aussagen ergeben sich aus Symmetriegründen. Für ein Submartingal X und {T > t−1} ∈ Ft<br />
ist<br />
d.h. X T ist ein Submartingal.<br />
E[XT ∧t − X T ∧(t−1)|Ft−1] = E[(Xt − Xt−1)1 {T >t−1}|Ft−1]<br />
= 1 {T >t−1}E[Xt − Xt−1|Ft−1] ≥ 0,<br />
L:optsam1 Lemma 5.14. Sei I = {0, 1, 2, ...}, X = (Xt)t∈I ein Martingal und T eine durch t beschränkte<br />
Stoppzeit. Dann gilt XT = E[Xt|FT ].<br />
Beweis. Nach der Definition der bedingten Erwartung und da XT FT -messbar ist (siehe<br />
Lemma 4.19), müssen wir zeigen, dass E[Xt; A] = E[XT ; A] für A ∈ FT gilt. Es ist {T =<br />
s} ∩ A ∈ Fs für s ∈ I, also<br />
E[XT ; A] =<br />
=<br />
=<br />
t�<br />
E[Xs; {T = s} ∩ A]<br />
s=1<br />
t�<br />
E[E[Xt|Fs]; {T = s} ∩ A]<br />
s=1<br />
t�<br />
E[Xt; {T = s} ∩ A]<br />
s=1<br />
= E[Xt; A].<br />
T:OptSam Theorem 5.15 (Optional Sampling Theorem). Sei I = {0, 1, 2, ...}, S ≤ T fast sicher endliche<br />
Stoppzeiten und X = (Xt)t∈I ein Supermartingal. Ist entweder T beschränkt oder X<br />
gleichgradig integrierbar, so ist XT integrierbar und XS ≥ E[XT |FS].<br />
Der Beweis verläuft in drei Schritten. Zunächst zeigen wir das Theorem für beschränktes T .<br />
Danach beweisen wir Lemma 5.16, siehe unten. Am Schluss folgt der Beweis von Theorem<br />
5.15 im Falle eines gleichgradig integrierbaren Supermartingals.<br />
l:hilfOpt Lemma 5.16. Sei I = {0, 1, 2, ...}. Ein Martingal X = (Xt)t∈I ist genau dann gleichgradig<br />
integrierbar, wenn die Familie {XT : T fast sicher endliche Stoppzeit} gleichgradig integrierbar<br />
ist.<br />
Beweis von Theorem 5.15 für beschränkte Stoppzeiten. Sei also T ≤ t für t ∈ I. Wir verwenden<br />
die Doob-Zerlegung X = M + A von X in das Martingal M und den monoton<br />
nicht-wachsenden Prozess A. Dann ist mit Lemma 5.14 und FS ⊆ FT nach Theorem 3.2.7<br />
XS = MS + AS = E[Mt + AS|FS]<br />
≥ E[Mt + AT |FS]<br />
= E[E[Mt|FT ] + AT |FS]<br />
= E[MT + AT |FS]<br />
= E[XT |FS].
KAPITEL 5. MARTINGALE 41<br />
Beweis von Lemma 5.16. ’⇐’: klar.<br />
x→∞<br />
−−−→ ∞ und<br />
’⇒’: Nach Lemma 2.13 gibt es eine konvexe Funktion f : R+ → R+ mit f(x)<br />
x<br />
supt∈I E[f(|Xt|)] =: L < ∞. Sei T eine fast sicher endliche Stoppzeit, dann ist nach dem<br />
Optional Sampling Theorem (angewendet auf die fast sicher endlichen Stoppzeiten S = T ∧ t<br />
und T = t) E[Xt|FT ∧t] = XT ∧t. Da {T ≤ t} ∈ FT ∧t folgt mit der Jensen’schen Ungleichung<br />
E[f(|XT |); {T ≤ t}] = E[f(|XT ∧t|); {T ≤ t}]<br />
= E[f(|E[Xt|FT ∧t]|); {T ≤ t}]<br />
≤ E[E[f(|Xt|)|FT ∧t]; {T ≤ t}]<br />
= E[f(|Xt|); {T ≤ t}] ≤ L.<br />
Damit ist E[f(|XT |)] ≤ L, d.h. die Behauptung folgt mit Lemma 2.13.<br />
Beweis von Theorem 5.15 im allgemeinen Fall. Sei X = M + A die Doob-Zerlegung von X<br />
in das Martingal M und den nicht-wachsenden vorhersagbaren Prozess A ≤ 0 mit A0 = 0.<br />
Da<br />
E[|At|] = E[−At] = E[X0 − Xt] ≤ E[|X0|] + sup E[|Xs|]<br />
s∈I<br />
gilt At ↓ A∞ für ein A∞ ≤ 0 mit E[−A∞] < ∞. Mit Lemma 2.13 kann man folgern, dass<br />
auch M gleichgradig integrierbar ist.<br />
Wir wenden nun das Optional Sampling Theorem auf S ∧ t, T ∧ t und M an. Für A ∈ FS<br />
ist {S ≤ t} ∩ A ∈ FS∧t, also<br />
E[MT ∧t; {S ≤ t} ∩ A] = E[E[MT ∧t|FS∧t]; {S ≤ t} ∩ A] = E[MS∧t; {S ≤ t} ∩ A].<br />
Da nach Lemma 5.16 die Menge {XS∧t, XT ∧t : t ∈ I} gleichgradig integrierbar ist, gilt mit<br />
Theorem 2.15<br />
E[MT ; A] = lim<br />
t→∞ E[MT ∧t; {S ≤ t} ∩ A] = lim<br />
t→∞ E[MS∧t; {S ≤ t} ∩ A] = lim<br />
t→∞ E[MS; A],<br />
d.h. E[MT |FS] = MS. Ferner folgt<br />
E[XT |FS] = E[MT |FS] + AS + E[AT − AS|FS] ≤ MS + AS = XS.<br />
Beispiel 5.17 (Wald’sche Identitäten, Ruin-Problem). 1. Seien X1, X2, ... ∈ L1 unabhängig<br />
mit µ := E[X1] = E[X2] = ..., und St := �t s=1 Xi. Weiter ist T eine fast sicher endliche<br />
Stoppzeit. Dann gilt die erste Wald’sche Identität<br />
E[ST ] = E[T ]µ.<br />
Denn: der Prozess M = (Mt)t=0,1,2,... mit M0 = 0, Mt = St − tµ für t = 1, 2, ... ist ein<br />
Martingal, und nach dem Optional Sampling Theorem<br />
0 = E[MT ] = E[ST ] − E[T ]µ.<br />
Ist außerdem X1, X2, ... ∈ L 2 mit σ 2 = V[X1] = V[X2] = ... und T unabhängig von<br />
X1, X2, ..., so gilt die zweite Wald’sche Identität<br />
V[ST ] = E[T ]σ 2 + V[T ]µ 2 .
KAPITEL 5. MARTINGALE 42<br />
Denn: (M 2 t − 〈M〉t)t=0,1,2,... ist ein Martingal, und 〈M〉t = tσ 2 , also<br />
0 = E[M 2 T − 〈M〉T ] = E[M 2 T ] − E[T ]σ 2 .<br />
Außerdem ist wegen der Unabhängigkeit von T und X1, X2, ...<br />
E[M 2 T ] = V[ST − T µ] = V[ST ] + µ 2 V[T ] − 2µCOV[ST , T ] = V[ST ] − µ 2 V[T ].<br />
In allen beiden Wald’schen Identitäten kann man die Voraussetzung, dass T endlich ist,<br />
abschwächen.<br />
2. Seien k ∈ N und X1, X2, ... unabhängige, identisch verteilte Zufallsvariablen mit P[X1 =<br />
1] = 1 − P[X1 = −1] = p := 1 − q. Für N ∈ N mit 0 < k < N sei S0 = k und<br />
St = S0 + � t<br />
i=1 Xi. Weiter sei T := inf{t : St ∈ {0, N}}. Wir berechnen nun mittels des<br />
Optional Sampling Theorems für p �= 1<br />
2<br />
pk := P[ST = 0] =<br />
� q<br />
p<br />
� k − � q<br />
1 − � q<br />
p<br />
�N p<br />
� N . (5.4) eq:exOptSam1<br />
Das bedeutet: man spielt ein Spiel, startend mit Kapital k, bis man entweder ruiniert<br />
ist oder Kapital N besitzt. In jedem Schritt gewinnt man mit Wahrscheinlichkeit p eine<br />
Kapitaleinheit und verliert mit Wahrscheinlichkeit q = 1 − p eine Kapitaleinheit. Dann<br />
ist die Wahrscheinlichkeit, ruiniert zu werden (0 Kapitaleinheiten zu besitzen), gegeben<br />
durch pk.<br />
Denn: es gilt<br />
��<br />
q<br />
�X1 E<br />
p<br />
�<br />
= q<br />
p<br />
p<br />
p + q = 1<br />
q<br />
� �St q<br />
p<br />
und damit ist Y = (Yt)t=0,1,2,..., definiert durch Yt := nach Beispiel 5.3.2 ein<br />
Martingal. Da T fast sicher endlich ist, ist YT ∧t wegen Proposition 5.13 ein Martingal,<br />
das durch 1 und<br />
woraus (5.4) folgt.<br />
� �N q<br />
p<br />
beschränkt ist. Wegen Theorem 5.15 ist<br />
�<br />
q<br />
�k �<br />
q<br />
�N = E[YT ] = pk + (1 − pk) ,<br />
p<br />
p<br />
3. Betrachten wir einen fairen Münzwurf. Wie lange dauert es, bis zum ersten Mal das<br />
Muster ZKZK auftritt? (K und Z stehen hier für Kopf und Zahl.)<br />
Um dies zu berechnen, betrachten wir das folgende Spiel: vor dem ersten Münzwurf<br />
wettet eine Spielerin einen Euro auf Z. Falls sie verliert, hört sie auf, falls sie gewinnt,<br />
setzt sie vor dem nächsten Wurf zwei Euro auf K. Verliert sie im zweiten Wurf, hört sie<br />
auf, im Fall eines Gewinns wettet sie vier Euro auf Z. Verliert sie im dritten Wurf, hört<br />
sie auf, gewinnt sie, wettet sie acht Euro auf K. Falls sie also beim vierten Wurf gewinnt,<br />
hat sie insgesamt 15 Euro gewonen. In allen anderen Fällen verliert sie einen Euro.<br />
Nehmen wir nun an, dass vor jedem Münzwurf eine neue Spielerin nach obiger Strategie<br />
spielt. Das Spiel wird beendet, wenn das erste Mal eine Spielerin 15 Euro gewinnt.
KAPITEL 5. MARTINGALE 43<br />
Sei Xt der Gesamtgewinn aller Spielerinnen bis zur Zeit t und T die Zeit, zu der das<br />
Spiel gestoppt wird, weil zum ersten Mal das Muster ZKZK aufgetreten ist. Sicher ist<br />
|Xt| ≤ 15 · t, P[T > 4t] ≤ 15 t<br />
.<br />
16<br />
Damit hat (Xt∧T : t = 1, 2, ...) eine integrierbare Majorante, ist also nach Beispiel 2.11.2<br />
gleichgradig integrierbar. Damit können wir das Optional Stopping-Theorem anwenden,<br />
d.h. (XT ∧t)t=1,2,... ist ein Martingal.<br />
Sicher ist<br />
XT = 15 − 1 + 3 − 1 − (T − 4)<br />
da die ersten T − 4 Spielerinnen, sowie Spielerinnen T − 3 und T − 1 einen Verlust von<br />
einem Euro hinnehmen mussten. Spielerin T − 2 hat zur Zeit T einen Gewinn von drei<br />
Euro und Spielerin T − 4 hat 15 Euro gewonnen. Also<br />
0 = E[XT ] = E[15 − 1 + 3 − 1 − (T − 4)] = −E[T ] − 20,<br />
also E[T ] = 20. Interessant ist, dass erwartet werden kann, dass beispielsweise das<br />
Muster ZZKK schon nach 16 Münzwürfen auftritt.
Kapitel 6<br />
Martingalkonvergenzsätze<br />
S:MartKonv Wieder ist (Ω, A, P) ein Wahrscheinlichkeitsraum, I ⊆ Z und F = (Ft)t∈I eine Filtration. Wir<br />
kennen Konvergenzsätze, etwa das starke Gesetz der großen Zahlen. Martingale konvergieren<br />
unter relativ schwachen Voraussetzungen.<br />
6.1 Die Doob’sche Ungleichung<br />
Bemerkung 6.1. Die Doob’schen Ungleichungen machen Aussagen über die Verteilung von<br />
sup s≤t Xs, falls X = (Xt)t∈I ein (Sub, Super)-Martingal ist.<br />
L:martKonv1 Lemma 6.2. Ist X = (Xt)t∈I ein Submartingal, so ist für λ > 0<br />
λP[sup<br />
s≤t<br />
Xs ≥ λ] ≤ E[Xt; sup<br />
s≤t<br />
Xs ≥ λ] ≤ E[|Xt|; sup Xs ≥ λ].<br />
s≤t<br />
Beweis. Die zweite Ungleichung ist trivial. Für die erste erinnern wir an die Definition der<br />
Stoppzeit TB aus Bemerkung 4.16 und setzen<br />
T = t ∧ T [λ;∞).<br />
Nach dem Optional Sampling Theorem 5.15 ist<br />
E[Xt] ≥ E[XT ] = E[XT ; sup<br />
s≤t<br />
≥ λP[sup<br />
s≤t<br />
Subtrahieren des letzten Terms ergibt die Ungleichung.<br />
Xs ≥ λ] + E[XT ; sup Xs < λ]<br />
s≤t<br />
Xs ≥ λ] + E[Xt; sup Xs < λ].<br />
s≤t<br />
P:doobUngl Proposition 6.3 (Doob’sche L p -Ungleichung). Sei X = (Xt)t∈I ein Martingal oder ein positives<br />
Submartingal.<br />
1. Für p ≥ 1 und λ > 0 ist<br />
2. Für p > 1 ist<br />
λ p P[sup |Xs| ≥ λ] ≤ E[|Xt|<br />
s≤t<br />
p ].<br />
E[|Xt| p ] ≤ E[sup |Xs|<br />
s≤t<br />
p �<br />
p<br />
�p ] ≤ E[|Xt|<br />
p − 1<br />
p ].<br />
44
KAPITEL 6. MARTINGALKONVERGENZSÄTZE 45<br />
Beweis. 1. Nach Proposition 5.4 ist (|Xt| p )t∈I ein Submartingal und die Behauptung folgt<br />
nach Lemma 6.2.<br />
2. Die erste Ungleichung ist klar. Für die zweite Ungleichung beachte, dass nach Lemma 6.2<br />
gilt, dass<br />
Also ist für K > 0<br />
λP{sup<br />
s≤t<br />
|Xs| ≥ λ} ≤ E[|Xs|; sup |Xs| ≥ λ].<br />
s≤t<br />
E[sup(|Xs|<br />
∧ K)<br />
s≤t<br />
p �<br />
] = E<br />
� sups≤t |Xs|∧K<br />
pλ<br />
0<br />
p−1 �<br />
dλ<br />
�<br />
= E<br />
� K<br />
pλ p−1 �<br />
1 {λ 2γ]<br />
t→∞<br />
−−−→ 0, im<br />
Widerspruch zum zentralen Grenzwertsatz. Gesucht ist nun eine Funktion t ↦→ h(t), so dass<br />
lim sup<br />
t→∞<br />
fast sicher. Wir werden nun folgendes zeigen:<br />
St<br />
h(t) = 1 (6.1) eq:iL1
KAPITEL 6. MARTINGALKONVERGENZSÄTZE 46<br />
St/t<br />
−0.012 −0.008 −0.004 0.000<br />
10 6<br />
5 × 10 6<br />
t<br />
10 7<br />
Abbildung 6.1: fig:iL<br />
Für die Folge S1, S2, ... sind hier St/t und St/(h(t)) mit h aus (6.2) abgebildet. Der linke Pfad<br />
geht nach dem starken Gesetz der großen Zahlen fast sicher gegen 0. Der rechte Pfad bleibt<br />
fast sicher für fast alle t im Streifen [−1, 1] nach dem Gesetz vom iterierten Logarithmus.<br />
Sind X1, X2, ... unabhängig nach N(0, 1) verteilt. Dann gilt (6.1) für<br />
St/ (2loglog(t))<br />
−0.5 0.0 0.5<br />
10 6<br />
5 × 10 6<br />
h(t) = � 2t log(log(t)). (6.2) eq:iL3<br />
(Siehe auch Bild 6.1.) Dazu brauchen wir in 1. eine Eigenschaft der N(0, 1)-Verteilung und<br />
können dann in 2. die Doob’sche Ungleichung aus Proposition 6.3 anwenden, um die Behauptung<br />
zu zeigen.<br />
1. Sei X ∼ N(0, 1) und ϕ(x) = 1<br />
√ 2π e −x2 /2 die Dichte der N(0, 1)-Verteilung bzgl. des<br />
Lebensgue-Maßes. Dann ist<br />
t<br />
P[X > x] ≤ 1<br />
xϕ(x), (6.3) eq:iL1a<br />
P[X > x] ≥ x<br />
1+x2 ϕ(x), (6.4) eq:iL1b<br />
E[e θX1 ] = e θ 2 /2 , θ ∈ R. (6.5) eq:iL1c<br />
Denn: Es gilt ϕ ′ (y) = −yϕ(y) und damit<br />
� ∞<br />
� ∞<br />
ϕ(x) = yϕ(y)dy ≥ x ϕ(y)dy = x · P[X > x],<br />
x<br />
was (6.3) zeigt. Für (6.4) schreiben wir, ganz ähnlich,<br />
ϕ(x)<br />
x =<br />
� ∞<br />
x<br />
1 + y 2<br />
1 + x2<br />
ϕ(y)dy ≤<br />
y2 x2 −∞<br />
x<br />
� ∞<br />
ϕ(y)dy =<br />
x<br />
10 7<br />
� � ′<br />
ϕ(y)<br />
y = − 1+y2<br />
y2 ϕ(y), und damit<br />
1 + x2<br />
x 2<br />
· P[X > x].<br />
Für (6.5) schreiben wir direkt<br />
E[e θX1 ] =<br />
� ∞<br />
√2π 1 e θx−x2 /2 θ<br />
dx = e 2 � ∞<br />
/2 √2π 1 e −(x−θ)2 /2 θ<br />
dx = e 2 /2<br />
.<br />
−∞
KAPITEL 6. MARTINGALKONVERGENZSÄTZE 47<br />
2. Nun zeigen wir, dass für N(0, 1)-verteilte X1, X2, ... die Funktion h aus (6.2) die Gleichung<br />
(6.1) erfüllt. Unter dieser Voraussetzung ist St ∼ N(0, t). Unsere Strategie ist<br />
nun, in (6.1) sowohl ’≤’ als auch ’≥’ zu zeigen.<br />
’≤’: Für θ ∈ R ist (e θSt )t∈I nach Proposition 5.4 ein Submartingal. Für alle t und alle<br />
c > 0 gilt mit Proposition 6.3 und (6.5)<br />
P[sup<br />
k≤t<br />
Mit θ = c/t gilt also<br />
Sk ≥ c] = P[sup e<br />
k≤t<br />
θSk θc −θc θSt −θc+θ<br />
≥ e ] ≤ e E[e ] = e 2t/2 P[sup Sk ≥ c] ≤ e<br />
k≤t<br />
−c2 /(2t)<br />
.<br />
Sei nun K > 1 und cn = Kh(K n−1 ) mit h aus (6.2). Dann lesen wir aus dem soeben<br />
gezeigtem<br />
P[ sup<br />
k≤Kn Sk ≥ cn] ≤ e −c2n/(2Kn ) −K log((n−1) log K) −K −K<br />
= e = (n − 1) (log K) .<br />
Insbesondere sind diese Wahrscheinlichkeiten summierbar in n. Das Borel-Cantelli-<br />
Lemma zeigt nun, dass sup k≤K n Sk ≤ cn für fast alle n gilt. Für t so, dass K n−1 ≤<br />
t ≤ K n haben wir nun<br />
für fast alle n. Mit anderen Worten,<br />
Sk ≤ sup<br />
t≤Kn St ≤ Kh(K n−1 ) ≤ Kh(t)<br />
lim sup<br />
t→∞<br />
St<br />
≤ K<br />
h(t)<br />
fast sicher. Da K > 1 beliebig war, ist also ’≤’ in (6.1) gezeigt.<br />
’≥’: Sei N > 1 (typischerweise groß) und ε > 0 (typischerweise klein). Definiere die<br />
Ereignisse<br />
An := {S N n+1 − SN n > (1 − ε)h(N n+1 − N n )}.<br />
Da S N n+1−SN n ∼ N(0, N n+1 −N n ), gilt nach (6.4) mit x = (1−ε) � 2 log log(N n+1 − N n )<br />
�<br />
SN n+1 − SN<br />
P(An) = P<br />
n<br />
√<br />
N n+1 − N n > (1 − ε)h(N n+1 − N n )<br />
�<br />
√<br />
N n+1 − N n<br />
= P{X1 > x} ≥ 1<br />
√ 2π<br />
x<br />
1 + x 2 e−x2 /2 .<br />
Damit sind diese Wahrscheinlichkeiten nicht summierbar in n. Da die Ereignisse A1, A2, ...<br />
unabhängig sind, gilt nach dem Borel-Cantelli Lemma, dass unendlich viele der An zutreffen.<br />
Also gilt für unendlich viele n<br />
S N n+1 > (1 − ε)h(N n+1 − N n ) + SN n.<br />
Nach der ’≤’-Richtung ist SN n > −2h(N n ) für fast alle n, d.h. SN n/h(N n+1 ) n→∞<br />
−−−→ 0<br />
fast sicher. Weiter ist h(N n+1 − N n )/h(N n+1 ) n→∞<br />
−−−→ 1 und damit<br />
lim sup<br />
t→∞<br />
St<br />
≥ lim sup<br />
h(t) n→∞<br />
Da ε > 0 beliebig war, folgt ’≥’ in (6.1).<br />
SN n+1<br />
h(N n+1 ≥ 1 − ε<br />
)
KAPITEL 6. MARTINGALKONVERGENZSÄTZE 48<br />
Xt<br />
−40 −20 0 20 40<br />
S1 T1 S2 T2 S3 T3 S4 T4<br />
Abbildung 6.2: fig:upcr<br />
Eine Illustration der Stoppzeiten S1, T1, S2, T2, ... aus Definition 6.5<br />
6.2 Konvergenzsätze<br />
Für die Martingalkonvergenzsätze ist das Aufkreuzungslemma 6.7 zentral.<br />
def:S1T1 Definition 6.5. Sei I = {0, 1, 2, ...} und X = (Xt)t∈I ein reellwertiger stochastischer Pro-<br />
zess. Für a < b ist eine Aufkreuzung ein Stück Pfad Xs, ..., Xs ′ mit Xs ≤ a und Xs ′ ≥ b. Um<br />
die Anzahl solcher Aufkreuzungen zu zählen, führen wir Stoppzeiten 0 =: T0 < S1 < T1 <<br />
S2 < T2 < ... durch<br />
Sk := inf{t ≥ Tk−1 : Xt ≤ a},<br />
Tk := inf{t ≥ Sk : Xt ≥ b}<br />
mit inf ∅ = ∞ ein. Die k-te Aufkreuzung zwischen a und b ist hier zwischen Sk und Tk. Weiter<br />
ist<br />
U t a,b := sup{k : Tk ≤ t}<br />
die Anzahl der Aufkreuzungen zwischen a und b bis Zeit t.<br />
Bemerkung 6.6. Bild 6.2 verdeutlicht die letzte Definition.<br />
L:upcr Lemma 6.7 (Aufkreuzungslemma). Sei I = {0, 1, 2, ...} und X = (Xt)t∈I ein Submartingal.<br />
Dann ist<br />
E[U t a,b ] ≤ E[(Xt − a) + ]<br />
.<br />
b − a<br />
Beweis. Da nach Proposition 5.4 mit X auch (X −a) + ein Submartingal ist und die Aufkreuzungen<br />
zwischen a und b von X dieselben sind wie die Aufkreuzungen von (X − a) + zwischen<br />
0 und b − a, können wir Œ annehmen, dass X ≥ 0 und a = 0 gilt. Wir definieren den Prozess<br />
H = (Ht)t∈I durch<br />
Ht := �<br />
1 {Sk
KAPITEL 6. MARTINGALKONVERGENZSÄTZE 49<br />
d.h. Ht = 1 genau dann, wenn t in einer Aufkreuzung liegt. Da<br />
{Ht = 1} = �<br />
{Sk ≤ t − 1} ∩ {Tk > t − 1},<br />
k≥1<br />
ist H prävisibel.<br />
Gegeben Tk < ∞ ist offenbar XTk − XSk ≥ b. Weiter ist in diesem Fall<br />
(H · X)Tk =<br />
k�<br />
Ti �<br />
i=1 s=Si+1<br />
(Xs − Xs−1) =<br />
k�<br />
(XTi − XSi ) ≥ kb.<br />
Für t ∈ {Tk, ..., Sk+1} ist (H · X)t = (H · X)Tk und für t ∈ {Sk + 1, ..., Tk} ist (H · X)t ≥<br />
(H · X)Sk = (H · X)Tk−1 . Deswegen ist (H · X)t ≥ bU t 0,b . Aus Proposition 5.11 folgt, dass<br />
((1−H)·X) ein Submartingal ist, insbesondere E[((1−H)·X)t] ≥ 0. Mit Xt −X0 = (1·X)t =<br />
(H · X)t + ((1 − H) · X)t gilt<br />
i=1<br />
E[Xt] ≥ E[Xt − X0] ≥ E[(H · X)t] ≥ bE[U t 0,b ].<br />
def:Finf Definition 6.8. Für eine Filtration F = (Ft)t∈I setzen wir<br />
� � �<br />
F∞ := σ .<br />
T:martKonv1 Theorem 6.9 (Martingalkonvergenzsatz für Submartingale). Sei I = {0, 1, 2, ...} und X =<br />
(Xt)t∈I ein Submartingal mit sup t∈I E[X + t ] < ∞. Dann existiert eine F∞-messbare, integrierbare<br />
Zufallsvariable X∞ und Xt t→∞<br />
−−−→fs X∞.<br />
Beweis. Sei X ∗ := lim sup t→∞ Xt und X∗ := lim inft→∞ Xt. Angenommen es gibt keine<br />
Zufallsvariable X∞ mit Xt t→∞<br />
−−−→fs X∞. Dann ist P{X∗ < X ∗ } > 0. Für a, b ∈ Q sei B(a, b) :=<br />
{X∗ < a < b < X ∗ }. Da {X∗ < X ∗ } = �<br />
a,b∈Q<br />
Sei U t a,b wie in Definition 6.5. Auf B(a, b) ist limt→∞ U t a,b<br />
Andererseits ist mit Lemma 6.7<br />
sup E[U<br />
t∈I<br />
t a,b<br />
] ≥ sup<br />
t∈I<br />
t∈I<br />
Ft<br />
B(a, b) existieren a, b ∈ Q mit P(B(a, b)) > 0.<br />
= ∞ und deswegen<br />
E[U t a,b ; B(a, b)] = ∞.<br />
sup E[U<br />
t∈I<br />
t E[(Xt − a)<br />
a,b ] ≤ sup<br />
t∈I<br />
+ ]<br />
≤ sup<br />
b − a t∈I<br />
E[X + t<br />
] + a+<br />
< ∞<br />
b − a<br />
im Widerspruch dazu. Also folgt die fast sichere Konvergenz. Da alle Xt F∞-messbar sind, ist<br />
auch X∞ F∞-messbar. Es bleibt zu zeigen, dass X∞ integrierbar ist. Nach Fatou’s Lemma<br />
ist<br />
E[X + ∞] ≤ sup E[X<br />
t∈I<br />
+ t<br />
] < ∞.<br />
Außerdem ist, da X ein Submartingal ist, wieder mit Fatou’s Lemma<br />
E[X − ∞] ≤ lim inf<br />
t→∞ E[X− t<br />
] = lim inf<br />
t→∞<br />
� +<br />
E[X t ] − E[Xt] � ≤ sup E[X<br />
t∈I<br />
+ t ] − E[X0] < ∞.
KAPITEL 6. MARTINGALKONVERGENZSÄTZE 50<br />
cor:MartConv Korollar 6.10 (Martingalkonvergenzsatz für positive Supermartingale). Sei I = {0, 1, 2, ...}<br />
und X = (Xt)t∈I ein nichtnegatives Supermartingal. Dann existiert eine F∞-messbare, integrierbare<br />
Zufallsvariable X∞ mit E[X∞] ≤ E[X0] und Xn t→∞<br />
−−−→fs X∞.<br />
Beweis. Theorem 6.9, angewandt auf das Submartingal −X liefert des fast sicheren Limes.<br />
Mit dem Lemma von Fatou ist außerdem<br />
E[X∞] ≤ lim inf<br />
t→∞ E[Xt] ≤ E[X0].<br />
T:martKonv2 Theorem 6.11 (Martingalkonvergenzsatz für gleichgradig integrierbare Martingale). Sei I =<br />
{0, 1, 2, ...} und X = (Xt)t∈I ein gleichgradig integrierbares (Super, Sub)-Martingal. Dann<br />
existiert eine F∞-messbare Zufallsvariable X∞ mit Xt<br />
t→∞<br />
−−−→fs X∞ und Xt<br />
t→∞<br />
−−−→ L1 X∞.<br />
Außerdem ist dann (Xt) t∈I∪{∞} ein (Super, Sub)-Martingal.<br />
Beweis. Wegen Lemma 2.12 ist supt∈I E[|Xt|] < ∞. Die fast sichere Konvergenz folgt damit<br />
aus 6.9 und die L1-Konvergenz damit aus Theorem 2.15.<br />
Den Beweis, dass (Xt) t∈I∪{∞} ein (Super, Sub)-Martingal ist, führen wir exemplarisch<br />
für Submartingale, d.h. E[E[Xt|Fs]; A] ≥ E[Xs; A] für A ∈ Fs und s ≤ t. Wegen der L1- Konvergenz ist nach Theorem 3.2.3 ist E[|E[Xt|Fs] − E[X∞|Fs]|] t→∞<br />
−−−→ 0 und damit gilt<br />
d.h. E[X∞|Fs] ≥ Xs fast sicher.<br />
E[E[X∞|Fs]; A] = lim<br />
t→∞ E[E[Xt|Fs]; A] ≥ E[Xs; A],<br />
Definition 6.12. Ein stochastischer Prozess X = (Xt)t∈I heißt L p -beschränkt, falls<br />
sup E[|Xt|<br />
t∈I<br />
p ] < ∞.<br />
th:martConvC Theorem 6.13 (Martingalkonvergenzsatz für Lp-beschränkte Martingale). Sei I = {0, 1, 2, ...},<br />
p > 1 und X = (Xt)t∈I ein Lp-beschränktes Martingal. Dann gibt es eine F∞-messbare Zufallsvariable<br />
X∞ mit E[|X∞| p ] < ∞, Xt<br />
t→∞<br />
−−−→fs X∞ und Xt<br />
t→∞<br />
−−−→L p X∞.<br />
(|Xt|<br />
Außerdem ist<br />
p )t∈I gleichgradig integrierbar.<br />
Beweis. Wegen Lemma 2.13 ist X gleichgradig integrierbar. Wegen Theorem 6.11 gibt es<br />
damit den fast sicheren Limes X∞. Nach der Doob’schen Ungleichung aus Proposition 6.3 ist<br />
für t ∈ I<br />
E[sup |Xs|<br />
s≥1<br />
p ] = lim E[sup |Xs|<br />
t→∞ s≤t<br />
p �<br />
p<br />
�p ] ≤ lim E[|Xt|<br />
t→∞ p − 1<br />
p ] < ∞.<br />
Damit ist (|Xt| p )t∈I gleichgradig integrierbar nach Beispiel 2.11.3. Nach dem Lemma von<br />
Fatou und Lemma 2.12 ist E[|X∞| p ] ≤ sup t∈I E[|Xt| p ] < ∞ und Theorem 2.15 liefert die<br />
Konvergenz in L p .<br />
Beispiel 6.14. Seien I = {1, 2, ...}, X1, X2, ... nicht-negative, unabhängige, integrierbare<br />
Zufallsvariable mit E[Xt] = 1, t ∈ I und St := �t s=1 Xs nach Beispiel 5.3.2 ein Martingal.<br />
Nach Korollar 6.10 gibt es damit ein S∞, so dass St t→∞<br />
−−−→fs S∞. Definiere<br />
at := E[ � Xt].
KAPITEL 6. MARTINGALKONVERGENZSÄTZE 51<br />
Wir zeigen nun:<br />
{St : t ∈ I} gleichgradig integrierbar ⇐⇒<br />
∞�<br />
at > 0.<br />
Insbesondere gilt dann auch St t→∞<br />
−−−→ L 1 S∞. Im Beweis setzen wir für t = 1, 2, ..<br />
Wt :=<br />
t�<br />
s=1<br />
Damit ist (Wt)t=1,2,... ein Martingal. Auch hier folgt, dass es ein W∞ gibt mit Wt t→∞<br />
−−−→fs W∞.<br />
’⇐’: Wegen der Jensen’schen Ungleichung ist a 2 t = (E[ √ Xt]) 2 ≤ E[Xt] = 1, also at ≤ 1. Es<br />
gilt<br />
sup<br />
t∈I<br />
E[W 2 � �t<br />
t ] = sup E<br />
t∈I<br />
s=1<br />
Xs<br />
a2 �<br />
s<br />
= sup<br />
t∈I<br />
√ Xs<br />
as<br />
t�<br />
s=1<br />
.<br />
E[Xs]<br />
a 2 s<br />
≤<br />
t=1<br />
1<br />
� �∞<br />
s=1 as<br />
�2 < ∞.<br />
Damit ist (Wt)t∈I ein L2-beschränktes Martingal, Nach Theorem 6.13 ist {W 2 t : t ∈ I}<br />
gleichgradig integrierbar. Daraus folgt auch die gleichgradige Integrierbarkeit von {St : t ∈ I}.<br />
’⇒’: Nehmen wir an, dass �∞ s=1 = 0. Da Wt einen fast sicheren, endlichen Limes hat, muss<br />
St = �t s=1 Xs<br />
t→∞<br />
−−−→fs 0 gelten. Falls {St : t ∈ I} gleichgradig integrierbar wäre, wäre<br />
0 = E[S∞] = limt→∞ E[St] = 1, also ein Widerspruch.<br />
6.3 Rückwärtsmartingale<br />
Bemerkung 6.15. (Sub, Super)-Martingale mit Indexmenge I = {..., −2, −1, 0} heißen<br />
Rückwärts(Sub, Super)-martingale. Ähnlich wie in Definition 6.8 setzen wir hier<br />
F−∞ := �<br />
Ft.<br />
l:backMa1 Lemma 6.16. Sei X ∈ L 1 . Dann ist {E[X|F] : F ⊆ A σ-Algebra} gleichgradig integrierbar.<br />
Beweis. Da {X} gleichgradig integrierbar ist, gibt es nach Lemma 2.13 eine monoton wachsende<br />
konvexe Funktion ϕ : R+ → R+ mit ϕ(x) x→∞<br />
x −−−→ ∞ und E[ϕ(|X|)] < ∞. Mit Theorem<br />
3.2.3 folgt<br />
sup E[ϕ(|E[X|F]|)] ≤ E[ϕ(|X|)] < ∞.<br />
F⊆A<br />
Damit ist {E[X|F] : F ⊆ A σ-Algebra} gleichgradig integrierbar nach Lemma 2.13.<br />
Th:martConv4 Theorem 6.17 (Martingalkonvergenzsatz für Rückwärtsmartingale). Sei I = {..., −2, −1, 0}<br />
und X = (Xt)t∈I ein Submartingal. Dann sind äquivalent<br />
1. Es gibt eine F−∞-messbare, integrierbare Zufallsvariable X−∞ mit Xt<br />
und Xt t→−∞<br />
−−−−→ L 1 X−∞<br />
t∈I<br />
t→−∞<br />
−−−−→fs X−∞
KAPITEL 6. MARTINGALKONVERGENZSÄTZE 52<br />
2. inft∈I E[Xt] > −∞.<br />
Dann ist auch (Xt) t∈I∪{−∞} ein Submartingal.<br />
Insbesondere konvergiert jedes Rückwärtsmartingal fast sicher und in L 1 .<br />
Beweis. ’1. ⇒ 2.’: Aus der Konvergenz im Mittel folgt<br />
inf<br />
t∈I E[Xt] = lim<br />
t→−∞ E[Xt] = E[X−∞] > −∞.<br />
’2. ⇒ 1.’: Da inft∈I E[X − t ] < ∞ folgt die fast sichere Konvergenz wie im Beweis von Theorem<br />
6.9. Da X nach Lemma 6.16 gleichgradig integrierbar ist folgt auch die Konvergenz in L1 .<br />
Der Beweis, dass (Xt) t∈I∪{−∞} ein Submartingal ist, verläuft analog zum Beweis in 6.11.<br />
Beispiel 6.18 (Das starke Gesetz der großen Zahlen). Seien X1, X2, ... ∈ L 1 unabhängig<br />
identisch verteilt. Für t ∈ {..., −2, −1} setzen wir wie im Beispiel 5.3.3<br />
St := 1<br />
|t|<br />
und Ft = σ(..., St−1, St) = σ(St, Xt+1, Xt+2, ...). Dann ist (St)t∈I ein Rückwärtsmartingal mit<br />
St = E[X1|Ft]. Nach Theorem 6.17 konvergiert St fast sicher und in L 1 gegen eine Zufallsgröße<br />
S−∞. Diese ist messbar bzgl. F−∞, jedoch auch bzgl. T (X1, X2, ...), der terminalen σ-Algebra<br />
der Familie {X1, X2, ...}. Da diese σ-Albegra nach dem Kolmogoroff’schen 0-1-Gesetz trivial<br />
ist, ist S−∞ fast sicher konstant. Da (St) t∈I∪{−∞} ein Martingal ist, folgt also<br />
1<br />
|t|<br />
|t|<br />
�<br />
s=1<br />
|t|<br />
�<br />
s=1<br />
Xs = St t→−∞<br />
−−−−→ fs,L1 S−∞ = E[S−∞] = E[S−1] = E[X1].<br />
Die fast sichere Konvergenz ist jedoch genau die Aussage des Gesetzes der großen Zahlen.<br />
Xs
Kapitel 7<br />
Ergodentheorie<br />
Sei (Ω, A, P) ein Wahrscheinlichkeitsraum und I ⊆ Z, abgeschlossen unter Addition (also z.B.<br />
I = {0, 1, 2, ...}).<br />
7.1 Begriffe und einfache Beispiele<br />
Definition 7.1. 1. Ein stochastischer Prozess X = (Xt)t∈I heißt stationär, falls für alle<br />
s ∈ I<br />
(Xt+s)t∈I d = (Xt)t∈I.<br />
2. Eine messbare Abbildung τ : Ω → Ω heißt maßtreu, falls τ∗P = P.<br />
3. Für τ : Ω → Ω messbar heißt das Ereignis A τ-invariant, falls τ −1 (A) = A. Weiter<br />
bezeichnen wir mit<br />
I := Iτ := {A ∈ A : τ −1 (A) = A}<br />
die σ-Algebra der τ-invarianten Ereignisse<br />
4. Ist τ : Ω → Ω maßtreu und I trivial (d.h. I = {∅, Ω}), dann heißt (P, τ) ergodisch.<br />
eq:ergEx1 Beispiel 7.2. 1. Ist X = (Xt)t=0,1,2,..., so dass X0, X1, ... unabhängig, identisch verteilt<br />
sind. Dann ist X stationär. Sind X0, X1, X2, ... identisch verteilt, jedoch abhängig, z.B.<br />
X1 = X2, ... und X0 unabhängig von X1, X2, ..., so ist X nicht stationär.<br />
2. Ist X = (Xt)t=0,1,2,... stationär mit Werten in R und f : Rℓ → R messbar, so ist auch<br />
Y = (Yt)t=0,1,2,... mit<br />
Yt = f(Xt−ℓ, ..., Xt)<br />
stationär. Ist speziell f(x1, ..., xℓ) = 1 �ℓ ℓ i=1 xi, so heißt Y auch Prozess des gleitendes<br />
Mittels.<br />
3. Sei f : Ω → E und τ : Ω → Ω messbar. Weiter definieren wir X = (Xt)t∈I durch<br />
Xs(ω) = f(τ s (ω)).<br />
Dann ist X genau dann stationär, wenn τ maßerhaltend ist. Falls (P, τ) ergodisch ist,<br />
nennen wir den stochastischen Prozess X ergodisch.<br />
53
KAPITEL 7. ERGODENTHEORIE 54<br />
4. Ein wichtiger Spezialfall besteht darin, dass Ω = E I , τ((ωt)t∈I) = (ωt+1)t∈I und<br />
f((ωt)t∈I) = ω0. Dann ist Xs((ωt)t∈I) = (τ s (ωt)t∈I)0 = ((ωt+s)t∈I)0 = ωs der kanonische<br />
Prozess.<br />
Damit ist<br />
A = τ −t (A) = {ω : τ t (ω) ∈ A} = {ω : (ωt, ωt+1, ...) ∈ A} ∈ σ(Xt, Xt+1, ...).<br />
I ⊆ �<br />
σ(Xt, Xt+1, ...) = T ,<br />
t∈I<br />
wobei T die terminale σ-Algebra der X1, X2, ... ist.<br />
Sind in diesem Fall X1, X2, ... unabhängig und identisch verteilt, ist τ nach 1. maßtreu.<br />
Weiter besagt das Kolmogoroff’sche 0-1-Gesetz, dass T trivial ist. Damit ist nach eben<br />
gesagtem auch I trivial, d.h. X ist in diesem Fall ergodisch.<br />
l:ergL1 Lemma 7.3. Sei τ : Ω → Ω messbare. Eine A-messbare Abbildung f ist genau dann Iτ -<br />
messbar, wenn f ◦ τ = f.<br />
Beweis. Sei zunächst f = 1A. Für ’⇒’ sei also f messbar bzgl. Iτ , d.h. A ∈ I. Damit ist<br />
(f ◦ τ)(ω) = 1A(τ(ω)) = 1 τ(ω)∈A = 1 ω∈τ −1 (A) = 1ω∈A = f(ω).<br />
Für ’⇐’ ist 1 τ(ω)∈A = 1ω∈A, d.h. ω ∈ A ⇐⇒ ω ∈ τ −1 A und damit A = τ −1 (A), d.h. A ∈ I,<br />
insbesondere ist f also Iτ -messbar. Diese Argumente überträgt man auf einfache Funktionen<br />
und schließlich durch ein Approximationsargument auf allgemeine messbare Funktionen.<br />
7.2 Ergodensätze<br />
Sei I = {0, 1, 2, ...} und τ maßerhaltend. Ferner sei f : Ω → R messbar und für jedes t ∈ I<br />
Xs(ω) = f(τ s (ω)). (7.1) eq:ergT1<br />
wie in Beispiel 7.3.3. Wir behandeln im folgenden den Fall von Gesetzen großer Zahlen für<br />
X = (Xt)t∈I. Das bedeutet, wir betrachten den Prozess S = (St)t∈I mit<br />
�t−1<br />
St = Xs.<br />
s=0<br />
Als Vorbereitung bringen wir ein grundlegendes Lemma.<br />
l:ergL2 Lemma 7.4 (Hopf’sches Maximal-Ergodenlemma). Sei X0 ∈ L 1 und Mt := max{0, S1, ..., St}<br />
für t ∈ I. Dann gilt für jedes t ∈ I<br />
E[X0; Mt > 0] ≥ 0.<br />
Beweis. Für s ≤ t ist sicher Mt(τ(ω)) ≥ Ss(τ(ω)). Damit ist auch X0 +Mt ◦τ ≥ X0 +Ss ◦τ =<br />
Ss+1, d.h. für s = 1, ..., t ist<br />
X0 ≥ Ss+1 − Mt ◦ τ. (7.2) eq:mel1
KAPITEL 7. ERGODENTHEORIE 55<br />
Weiter ist S1 = X0 und Mt ◦ τ ≥ 0, d.h. (7.2) gilt auch für s = 0. Daraus folgern wir<br />
Außerdem ist<br />
X0 ≥ max{S1, ..., St} − Mt ◦ τ.<br />
{Mt > 0} c ⊆ {Mt = 0} ∩ {Mt ◦ τ ≥ 0} ⊆ {Mt − Mt ◦ τ ≤ 0}.<br />
Aus der maßtreue von τ und den letzten beiden Gleichungen folgert man<br />
E[X0; Mt > 0] ≥ E[(max{S1, ..., St} − Mt ◦ τ); Mt > 0]<br />
= E[(Mt − Mt ◦ τ); Mt > 0]<br />
≥ E[Mt − Mt ◦ τ] = E[Mt] − E[Mt] = 0.<br />
Th:erg1 Theorem 7.5 (Fast sicherer Ergodensatz, Birkhoff). Sei X = (Xt)t∈I wie in (7.1), I = Iτ<br />
und X0 ∈ L1 . Dann gilt<br />
1 �t−1<br />
Xs<br />
t<br />
t→∞<br />
−−−→fs E[X0|I].<br />
s=0<br />
Ist speziell X ergodisch, so gilt E[X0|I] = E[X0].<br />
Beweis. Der Zusatz ist klar, da I trivial ist, falls X ergodisch ist. Da E[X0|I] eine I-messbare<br />
Zufallsvariable ist, ist E[X0|I] ◦ τ = E[X0|I] nach Lemma 7.3. Damit ist (Xt − E[X0|I])t∈I<br />
stationär und wir können Œ annehmen, dass E[X0|I] = 0 ist. Setze<br />
S ∗ := lim sup<br />
t→∞<br />
1<br />
t St.<br />
Für beliebiges ε > 0 werden wir P{S ∗ > ε} = 0 zeigen, woraus mittels eines Symmetriear-<br />
gumentes folgt, dass limt→∞ 1<br />
t St = 0 fast sicher gilt. Offenbar ist S ∗ ◦ τ = S ∗ , d.h. S ∗ ist<br />
I-messbar, also {S ∗ > ε} ∈ I. Wir setzen A := {S ∗ > ε},<br />
Dann ist A1 ⊆ A2 ⊆ ... und<br />
t=1<br />
X ε t := (Xt − ε)1A,<br />
S ε t = X ε 0 + ... + X ε t−1,<br />
M ε t := max{0, S ε 1, ..., S ε t },<br />
At := {M ε t > 0}.<br />
∞� �<br />
At = sup S<br />
t≥1<br />
ε � �<br />
1<br />
t > 0 = sup t<br />
t≥1<br />
St<br />
�<br />
> ε ∩ A = A.<br />
Der letzte Schritt folgt hier, da aus ω ∈ A folgt, dass es ein (und in der Tat sogar unendlich<br />
viele) t ∈ I gibt mit 1<br />
t St > ε. Damit gilt At ↑ A und E[Xε t→∞<br />
0 ; At] −−−→ E[Xε 0 ] nach majorisierter<br />
Konvergenz. Nach Lemma 7.4 ist E[Xε 0 ; At] ≥ 0, also, da A ∈ I,<br />
0 ≤ E[X ε 0] = E[(X0 − ε); A] = E[E[X0|I]; A] − εP[A] = −εP[A].<br />
Mit anderen Worten, P[A] = 0.
KAPITEL 7. ERGODENTHEORIE 56<br />
l:ergL3 Lemma 7.6. Seien X0, X1, ... identisch verteilt und X0 ∈ L p für p ≥ 1. Dann ist<br />
gleichgradig integrierbar.<br />
�� �� 1<br />
t<br />
�t−1<br />
s=0<br />
�<br />
�<br />
Xs�<br />
p<br />
�<br />
: t = 1, 2, ...<br />
Beweis. Da {|X0| p } gleichgradig integrierbar ist, gibt es nach Lemma 2.13 eine monoton<br />
wachsende, konvexe Funktion f mit f(x) x→∞<br />
x −−−→ ∞ und E[f(|X0| p )] < ∞. Weiter ist, mit der<br />
Jensen’schen Ungleichung<br />
� ��<br />
�� �t−1<br />
1<br />
sup E f t<br />
t=1,2,...<br />
s=0<br />
Xs<br />
�<br />
�<br />
� p�� � � �t−1<br />
1<br />
≤ sup E f t |Xs|<br />
t=1,2,...<br />
p��<br />
�t−1<br />
1 ≤ sup t E<br />
t=1,2,...<br />
� f(|Xs| p ) � = f(|X0| p ),<br />
s=0<br />
woraus die Behauptung (wieder mit Lemma 2.13) folgt.<br />
Theorem 7.7 (L p -Ergodensatz, von Neumann). Sei X = (Xt)t∈I wie in (7.1), I = Iτ und<br />
X0 ∈ L p für p ≥ 1. Dann gilt<br />
Beweis. Nach Lemma 7.6 ist<br />
1<br />
t<br />
�t−1<br />
s=0<br />
�� �� 1<br />
t<br />
Xs t→∞<br />
−−−→L p E[X0|I].<br />
�t−1<br />
s=0<br />
�<br />
�<br />
Xs�<br />
p<br />
�<br />
: t = 1, 2, ...<br />
gleichgradig integrierbar. Da die behauptete Konvergenz fast sicher (und damit stochastisch)<br />
nach Theorem 7.5 gilt, gilt sie also auch in L p nach Theorem 2.15.<br />
7.3 Anwendung: Markov-Ketten<br />
Bereits bekannt sind Markov-Ketten. Dies sind Spezialfälle von Markov-Prozessen, also stochastischen<br />
Prozessen X = (Xt)t∈I mit einem Zustandsraum (E, E) und für t ≥ s<br />
P[Xt ∈ A|Fs] = P[Xt ∈ A|Xs]<br />
für A ∈ E, wobei F = (Ft)t∈I die von X erzeugte Filtration ist. Wir schreiben Px für die<br />
Verteilung des Markov-Prozesses auf E I , der in x ∈ E startet. Wir konzentrieren uns im<br />
folgenden auf homogene Markov-Prozesse, d.h., auf den Fall<br />
P[Xt+s ∈ A|Fs] = PXs[Xt ∈ A].<br />
Markov-Ketten sind homogene Markov-Prozesse mit I = {0, 1, 2, ...}.<br />
Definition 7.8. Ein homogener Markov-Prozess X = (Xt)t∈I hat die starke Markov-Eigenschaft,<br />
falls für jede fast sicher endliche Stoppzeit T<br />
für A ∈ E gilt.<br />
Px[XT +s ∈ A|FT ] = PXT [Xs ∈ A]<br />
s=0
KAPITEL 7. ERGODENTHEORIE 57<br />
Ohne Beweis bemerken wir:<br />
Proposition 7.9. Jede Markov-Kette X = (Xt)t=0,1,2,... hat die starke Markov-Eigenschaft.<br />
Definition 7.10. Sei X = (Xt)t∈I eine Markov-Kette.<br />
1. Wie in Bemerkung 4.16 setzen wir die erste Treffzeit von x ∈ E<br />
Außerdem ist<br />
2. Ein x ∈ E heißt<br />
(a) rekurrent, falls F (x, x) = 1,<br />
(b) positiv rekurrent, falls Ex[Tx] < ∞,<br />
Tx := inf{t > 0 : Xt = x}.<br />
F (x, y) := Px[Ty < ∞].<br />
(c) nullrekurrent, falls x rekurrent, aber nicht positiv rekurrent ist,<br />
(d) transient, falls F (x, x) < 1.<br />
3. Die Markov-Kette X heißt<br />
(a) rekurrent/positiv-rekurrent/null-rekurrent/transient, falls alle x ∈ E die Eigenschaft<br />
haben<br />
(b) irreduzibel, falls F (x, y) > 0 für alle x, y ∈ E.<br />
4. Ein Wahrscheinlichkeitsmaß π auf E heißt invariant für X, falls der Shift τ : E I → E I ,<br />
gegeben durch τ((Xt)t∈I = (Xt+1)t∈I, maßtreu für Pπ := � π(dx)Px ist.<br />
Schon bekannt ist:<br />
Proposition 7.11. Sei I = {0, 1, 2, ...} und X = (Xt)t∈I eine positiv rekurrente, irreduzible<br />
Markov-Kette. Dann gibt es genau eine stationäre Verteilung π.<br />
P:ergEx1 Proposition 7.12. Sei I = {0, 1, 2, ...} und X = (Xt)t∈I eine positiv rekurrente, irreduzible<br />
Markov-Kette auf dem abzählbaren Raum E, gestartet in ihrer invarianten Verteilung π. Dann<br />
ist X ergodisch.<br />
Beweis. Wir schreiben τ für den Zeitshift. Sei A ∈ I. Nach Beispiel 7.3.4 ist A ∈ T =<br />
�<br />
t∈I σ(Xt, Xt+1, ...), also für eine fast sicher endliche Stoppzeit T mit der starken Markov-<br />
Eigenschaft<br />
Pπ[X ∈ A|FT ] = Pπ[τ T ◦ X ∈ A|FT ] = P[(XT , XT +1, ...) ∈ A|FT ] = PXT [X ∈ A]. (7.3) eq:ergEx1<br />
Sei B ∈ FT . Dann ist<br />
Eπ[1 {X∈B}1 {X∈A}] = Eπ[1 {X∈B}1 {τ T ◦X∈A}]<br />
= Eπ<br />
� 1{X∈B}E[1 {τ T ◦X∈A}|FT ] �<br />
= Eπ[1 {X∈B}PXT [X ∈ A]],
KAPITEL 7. ERGODENTHEORIE 58<br />
wobei wir in der dritten Gleichheit die starke Markoveigenschaft verwendet haben. Ist speziell<br />
B = Ω und T = Tx für ein x ∈ E, so ist T wegen der Rekurrenz von X fast sicher endlich<br />
und es folgt<br />
Pπ[X ∈ A] = Px[X ∈ A].<br />
Weiter ist mit (7.3), angewendet auf T = t,<br />
Pπ[X ∈ A] = PXt[X ∈ A] = Pπ[X ∈ A|X0, ..., Xt] t→∞<br />
−−−→ Pπ[X ∈ A|X0, X1, ...] = 1 {X∈A}.<br />
Insbesondere ist Pπ[X ∈ A] ∈ {0, 1}, d.h. I ist trivial und X ist ergodisch.<br />
Korollar 7.13. Für dieselbe Situation wie in Proposition 7.12 gilt<br />
1<br />
t<br />
t�<br />
t→∞<br />
1 {Xs=x} −−−→fs π(x). (7.4) eq:corErg1<br />
s=0<br />
Bemerkung 7.14. Man beachte, dass im (7.4) auf der linken Seite die mittlere Zeit steht, zu<br />
der von X der Wert x angenommen wurde und auf der rechten Seite die Wahrscheinlichkeit,<br />
mit der man im Gleichgewicht den Prozess in x beobachtet. Man sagt hier auch, dass das<br />
Zeitmittel gleich dem Raummittel wird.<br />
Beweis. Mit X ist auch (1 {Xt=x})t∈I ergodisch. Damit folgt die Aussage aus dem Ergodensatz,<br />
Theorem 7.5.
Kapitel 8<br />
Schwache Konvergenz<br />
In diesem Kapitel sei (E, r) ein metrischer Raum. Manchmal werden wir voraussetzen, dass<br />
er vollständig (jede Cauchy-Folge konvergiert) und separabel (es gibt eine abzählbare dichte<br />
Teilmenge) ist. Alle Maße sind hierbei definiert auf der Borelschen σ-Algebra B(E) von E.<br />
Wir werden in diesem und im nächsten Kapitel durchgehend P[f] := � fdP schreiben.<br />
8.1 Definition und einfache Eigenschaften<br />
Definition 8.1. 1. Wir bezeichnen mit P(E) die Menge der Wahrscheinlichkeitsmaße auf<br />
E und P≤1(E) die Menge finiten Maße µ mit µ(E) ≤ 1. Weiter ist Cb(E) die Menge der<br />
beschränkten, stetigen Funktionen auf E und Cc(E) die Menge der beschränkten stetigen<br />
Funktionen af E mit kompaktem Träger.<br />
2. Eine Folge P1, P2, ... ∈ P(E) konvergiert schwach gegen P ∈ P(E), falls<br />
für alle f ∈ Cb(E). Wir schreiben dann<br />
Pn[f] n→∞<br />
−−−→ P[f] (8.1) eq:wc0a<br />
Pn n→∞<br />
===⇒ P<br />
3. Ist µ, µ1, µ2, ... ∈ P≤1 und gilt (8.1) nur für alle f ∈ Cc(E), der Menge aller beschränkter,<br />
stetiger, reelwertigen Funktionen mit kompaktem Träger, so sagen wir, µn konvergiert<br />
vage gegen µ. Wir schreiben dann<br />
µn n→∞<br />
===⇒v µ.<br />
4. Seien X, X1, X2, ... Zufallsvariablen auf Wahrscheinlichkeitsräumen<br />
(Ω, A, P), (Ω1, A1, P1), (Ω2, A2, P2), ... mit Werten in E. Dann konvergiert X1, X2, ... in<br />
Verteilung gegen X, falls (Xn)∗Pn n→∞<br />
===⇒ X∗P. Wir schreiben dann<br />
Xn n→∞<br />
===⇒ X.<br />
rem:wc1 Bemerkung 8.2. 1. Man beachte, dass für Zufallsvariablen X, X1, X2, ... mit Werten in<br />
E genau dann Xn n→∞<br />
===⇒ X gilt, wenn<br />
für alle f ∈ Cb(E) gilt.<br />
P[f(Xn)] n→∞<br />
−−−→ P[f(X)]<br />
59
KAPITEL 8. SCHWACHE KONVERGENZ 60<br />
2. Der schwache Limes von Wahrscheinlichkeitsmaßen muss wieder ein Wahrscheinlichkeitsmaß<br />
sein, da 1 ∈ Cb(E).<br />
3. Wir kennen bereits die fast sicher Konvergenz, die stochastische und die Konvergenz in<br />
L p von Zufallsvariablen X1, X2, ... gegen X. Entscheidender Unterschied zur Konvergenz<br />
in Verteilung ist, dass letztere nicht voraussetzt, dass die Zufallsvariablen auf demselben<br />
Wahrscheinlichkeitsraum definiert sind.<br />
4. Zur Motivation hinter der Definition der schwachen Konvergenz sei an folgendes Faktum<br />
erinnert: in metrischen Räumen ist xn n→∞<br />
−−−→ x genau dann wenn f(xn) n→∞<br />
−−−→ f(x) für<br />
alle stetigen Funktionen auf E.<br />
5. Nach Definition ist die Topologie der schwachen Konvergenz auf P(E) die schwächste<br />
(d.h. die kleinste) Topologie, für die P ↦→ P[f] für alle f ∈ Cb(E) stetig ist.<br />
6. Der schwache Limes von Wahrscheinlichkeitsmaßen ist eindeutig, falls (E, r) vollständig<br />
und separabel ist. Dies kann man mit Hilfe von Satz 11.5 aus der Wahrscheinlichkeitstheorie<br />
zeigen.<br />
ex:83 Beispiel 8.3. 1. Seien X, X1, X2, ... identisch verteilt. Dann ist Xn n→∞<br />
===⇒ X, jedoch gilt<br />
die Konvergenz im allgemeinen weder fast sicher, noch stochastisch oder in L p .<br />
2. Wie wir noch sehen werden, ist der zentrale Grenzwertsatz, den wir in Kapitel 10 kennenlernen<br />
werden, ein Resultat über Konvergenz in Verteilungen. In seiner einfachsten<br />
Form, dem Satz von deMoivre-Laplace, besagt dieser: sei Xn ∼ Binom(n, p), n = 1, 2, ...<br />
und X ∼ N(0, 1). Dann gilt<br />
Xn − np<br />
� np(1 − p)<br />
n→∞<br />
===⇒ X.<br />
3. Ebenso ist die Poisson-Approximation der Binomialverteilung eine Aussage über Konvergenz<br />
in Verteilung: sei Xn ∼ Binom(n, pn), n = 1, 2, ... mit n · pn n→∞<br />
−−−→ λ und<br />
X ∼ Poi(λ). Dann gilt<br />
Xn n→∞<br />
===⇒ X.<br />
Eine Folge von Zufallsvariablen kann fast sicher, in Wahrscheinlichkeit, in L p oder in Verteilung<br />
konvergieren. Die schwache Konvergenz ist der schwächste dieser Begriffe in folgendem<br />
Sinne.<br />
p:wc1 Proposition 8.4 (Konvergenz in Wahrscheinlichkeit und in Verteilung). Seien X, X1, X2, ...<br />
Zufallsvariablen auf (Ω, A, P) mit Werten in E. Falls Xn n→∞<br />
−−−→p X, so auch Xn n→∞<br />
===⇒ X. Ist<br />
X konstant, so gilt auch die Umkehrung.<br />
Beweis. Sei Xn n→∞<br />
−−−→p X. Angenommen, es gäbe ein f ∈ Cb(S) so, dass limn→∞ P[f(Xn)] �=<br />
P[f(X)]. Dann gibt es eine Teilfolge (nk)k=1,2,... und ein ε > 0 mit<br />
lim |P[f(Xnk )] − P[f(X)]| > ε. (8.2) eq:wc3<br />
k→∞<br />
Wegen Xn n→∞<br />
−−−→p X und Proposition 1.21 gibt es eine Teilfolge (nkℓ )ℓ=1,2,..., so dass Xnk ℓ<br />
X fast sicher. Wegen majorisierter Konvergenz wäre damit auch<br />
lim<br />
ℓ→∞ P[f(Xnk )] = P[f(X)]<br />
ℓ<br />
ℓ→∞<br />
−−−→
KAPITEL 8. SCHWACHE KONVERGENZ 61<br />
im Widerspruch zu (8.2).<br />
Falls X = s ∈ S, ist x ↦→ r(x, s) ∧ 1 eine beschränkte, stetige Funktion und damit<br />
Also gilt Xn n→∞<br />
−−−→p X wegen (1.1).<br />
P[r(Xn, s) ∧ 1] n→∞<br />
−−−→ P[r(X, s) ∧ 1] = 0.<br />
T:port Theorem 8.5 (Portmanteau Theorem). Seien X, X1, X2, ... Zufallsvariablen mit Werten in<br />
E. Folgende Bedingungen sind äquivalent:<br />
(i) Xn n→∞<br />
===⇒ X<br />
(ii) P[f(Xn)] n→∞<br />
−−−→ E[f(X)] für alle beschränkten, Lipschitz-stetigen Funktionen f.<br />
(iii) lim inf<br />
n→∞ P{Xn ∈ G} ≥ P{X ∈ G} für alle offenen G ⊆ E.<br />
(iv) lim sup P{Xn ∈ F } ≤ P{X ∈ F } für alle abgeschlossenen F ⊆ E.<br />
n→∞<br />
(v) lim<br />
n→∞ P{Xn ∈ B} = P{X ∈ B} für alle B ∈ B(E) mit 1 P{X ∈ ∂B} = 0.<br />
Beweis. (i) ⇒ (ii): klar<br />
(ii) ⇒ (iv) Sei F ⊆ E abgeschlossen und f1, f2, ... Lipschitz-stetig, so dass fk ↓ 1F . (Beispielsweise<br />
wählt man εk ↓ 0 und fk(x) = (1 − 1<br />
εk r(x, F )) ∨ 0, wobei r(x, F ) := infy∈F r(x, y).)<br />
Damit gilt<br />
lim sup P{Xn ∈ F } ≤ inf lim sup P[fk(Xn)] = inf<br />
n→∞<br />
k=1,2,... n→∞<br />
k=1,2,... P[fk(X)] = P{X ∈ F }.<br />
(iii) ⇐⇒ (iv) Das ist klar. Man muss in der Richtung (iii) ⇒ (iv) nur F := E \ G und in<br />
der Richtung (iv) ⇒ (iii) analog G := E \ F setzen.<br />
(iii) ⇒ (i) Sei f ≥ 0 stetig. Wegen Fatou’s Lemma ist damit<br />
� ∞<br />
� ∞<br />
P[f(X)] =<br />
0<br />
P{f(X) > t}dt ≤<br />
0<br />
lim inf<br />
n→∞ P{f(Xn)<br />
� ∞<br />
> t}dt<br />
≤ lim inf<br />
n→∞<br />
P{f(Xn) > t}dt = lim inf<br />
n→∞ P[f(Xn)].<br />
Für −c < f < c gilt damit, da −f + c ≥ 0 ist,<br />
0<br />
lim sup P[f(Xn)] = c − lim inf<br />
n→∞<br />
n→∞ P[−f(Xn) + c] ≤ c − P[−f(X) + c] = P[f(X)]<br />
≤ lim inf<br />
n→∞ P[f(Xn)],<br />
also P[f(Xn)] n→∞<br />
−−−→ P[f(X)].<br />
(iii), (iv) ⇒ (v) Für B ∈ B(E) ist<br />
P{X ∈ B ◦ } ≤ lim inf<br />
n→∞ P{Xn ∈ B ◦ } ≤ lim sup P {Xn ∈ ¯ B} ≤ P{X ∈ ¯ B}.<br />
Gegeben P{X ∈ ∂B} = P{X ∈ ¯ B}−P{X ∈ B ◦ } = 0, ist damit P{Xn ∈ B} n→∞<br />
−−−→ P{X ∈ B}.<br />
n→∞<br />
1 Für den Abschluss ¯ B und das Innere B ◦ bezeichne hier ∂B := ¯ B \ B ◦ den Rand von B.
KAPITEL 8. SCHWACHE KONVERGENZ 62<br />
(v) ⇒ (iv) Angenommen, (v) trifft zu und F ⊆ E ist abgeschlossen. Wir schreiben F ε :=<br />
{x ∈ E : r(x, F ) ≤ ε} für ε > 0. Die Mengen ∂F ε ⊆ {x; r(x, F ) = ε} sind disjunkt, also gilt<br />
P{X ∈ ∂F ε } = 0 (8.3) eq:wc3g<br />
für Lebesgue-fast jedes ε. Sei ε1, ε2, ... eine Folge mit εk ↓ 0, so dass (8.3) für alle ε1, ε2, ...<br />
gilt. Damit ist<br />
lim sup P{Xn ∈ F } ≤ inf lim sup P{Xn ∈ F<br />
n→∞<br />
k=1,2,... n→∞<br />
εk } = inf<br />
k=1,2,... P{X ∈ F εk } = P{X ∈ F }.<br />
cor:vertSch Korollar 8.6. Seien P, P1, P2, ... ∈ P(R) mit Verteilungsfunktionen F, F1, F2, .... Dann gilt<br />
Pn n→∞<br />
===⇒ P genau dann wenn Fn(x) n→∞<br />
−−−→ F (x) für alle Stetigkeitsstellen x von F .<br />
Bemerkung 8.7. In Beispiel 8.3 hatten wir behauptet, dass der Satz von deMoivre-Laplace<br />
eine Aussage über schwache Konvergenz macht. Man zeigt gewöhnlich, dass für B(n, p)verteilte<br />
Zufallsgrößen Xn gilt, dass<br />
�<br />
Xn − np<br />
P � ≤ x}<br />
np(1 − p) n→∞<br />
−−−→ Φ(x),<br />
wobei Φ die Verteilungsfunktion der Standardnormalverteilung ist. Wie Korollar 8.6 zeigt,<br />
bedeutet das genau die Konvergenz in Verteilung gegen eine Standardnormalverteilung.<br />
Beweis. ’⇒’: Ist x eine Stetigkeitsstelle von F , so ist P{∂(−∞; x]} = P{x} = 0. Damit gilt<br />
nach Theorem 8.5 (Richtung (i) ⇒ (v)), dass<br />
Fn(x) = Pn{(−∞; x]} n→∞<br />
−−−→ P{(−∞; x]} = F (x).<br />
’⇐’: Nach Theorem 8.5 (Richtung (ii) ⇒ (i)) genügt es zu zeigen, dass Pn[f] n→∞<br />
−−−→ P[f] für<br />
alle beschränkten, Lipschitzfunktionen f. Œ nemhen wir an, dass |f| ≤ 1 und f Lipschitz-<br />
Konstante 1 hat. Für ε > 0 wähle N ∈ N und Stetigkeitspunkte y0 < ... < yN von F so, dass<br />
F (y0) < ε, F (yN) > 1−ε und F (yi)−F (yi−1) < ε für i = 1, ..., N. Dann ist Fn(yi) n→∞<br />
−−−→ F (yi)<br />
und<br />
also<br />
lim sup<br />
n→∞<br />
N−1 �<br />
f ≤ 1 (−∞,y0] + 1 (yN ,∞) + (f(yi) + ε)1 (yi,yi+1],<br />
i=1<br />
Pn[f] ≤ lim sup Fn(y0) + 1 − Fn(yN) +<br />
n→∞<br />
≤ 3ε +<br />
N�<br />
(f(yi) + ε)(Fn(yi) − Fn(yi−1)<br />
i=1<br />
N�<br />
f(yi)(F (yi) − F (yi−1)) ≤ 4ε + P[f]<br />
i=1<br />
Mit ε → 0 und durch Ersetzen von f mit 1 − f folgt Pn[f] n→∞<br />
−−−→ P[f].<br />
Bemerkung 8.8. Zwar ist die Konvergenz in Verteilung der schwächste Konvergenzbegriff.<br />
Jedoch besteht ein Zusammenhang mit der fast sicheren Konvergenz, wie folgendes Theorem<br />
zeigt.
KAPITEL 8. SCHWACHE KONVERGENZ 63<br />
Theorem 8.9 (Skorohod). Seien X, X1, X2, ... Zufallsvariablen mit Werten in einem<br />
n→∞<br />
vollständigen und separablen Raum E. Dann gilt Xn ===⇒ X genau dann, wenn es<br />
einen Wahrscheinlichkeitsraum gibt, auf dem Zufallsgrößen Y, Y1, Y2, ... definiert sind mit<br />
Yn n→∞<br />
−−−→fs Y und Y d = X, Y1 d = X1, Y2 d = X2, ...<br />
Beweis. ’⇐’: klar, da aus der fast sicheren die schwache Konvergenz nach Proposition 8.4<br />
folgt.<br />
’⇒’: Als Wahrscheinlichkeitsraum erweitern wir den Raum, auf dem X definiert ist, setzen<br />
also insbesondere Y = X. Sei zunächst E = {1, ..., m} endlich. Sei U uniform auf [0, 1] verteilt<br />
und unabhängig von Y . Wir setzen Yn = k falls U ≤ P{Xn=k}<br />
P{X=k} und so, dass Yn d = Xn. Da nach<br />
Voraussetzung P{Xn = k} n→∞<br />
−−−→ P{X = k}, folgt die fast sichere Konvergenz.<br />
Für allgemeines E wählen wir für jedes p eine Partition von E in Mengen B1, B2, ...<br />
in E mit P{Y ∈ ∂Bk} = 0 und Durchmesser höchstens 2 −p . Wähle m groß genug, damit<br />
P{Y /∈ B0} < 2 −p mit B0 := E\ �<br />
k≤m Bk. Für k = 1, 2, ..., definiere Zufallsgrößen � Z, � Z1, � Z2, ...<br />
so, dass � Z = k genau dann, wenn Y ∈ Bk und � Zn = k wenn Yn ∈ Bk. Dann gilt � Zn n→∞<br />
===⇒ � Z.<br />
Da � Z, � Z1, ... nur Werte in einer endlichen Menge annehmen, können wir damit Zufallsgrößen<br />
Z, Z1, Z2, ... definieren mit Zn n→∞<br />
−−−→fs Z. Weiter seien Wn,k Zufallsgrößen mit Verteilung<br />
P[Xn ∈ .|Xn ∈ Bk] und � Yn,p = �<br />
k Wn,k1 {Zn=k}, so dass � Yn,p d = Xn für alle n. Klar ist nun<br />
�<br />
r( � Yn,p, Y ) > 2 −p�<br />
⊆ {Zn �= Z} ∪ {Y ∈ B0}.<br />
Da Zn n→∞<br />
−−−→fs Z und P{Y ∈ B0} < 2−p , gibt es für jedes p Zahlen n1 < n2 < ... mit<br />
� � �<br />
P r( Yn,p, � Y ) > 2 −p��<br />
< 2 −p<br />
n≥np<br />
für alle p. Mit dem Borel-Cantelli-Lemma bekommen wir<br />
sup r(<br />
n≥np<br />
� Yn,p, Y ) ≤ 2 −p<br />
für fast alle p. Wir definieren also Yn := � Yn,p für np ≤ n < np+1 und beachten, dass Xn d =<br />
Yn n→∞<br />
−−−→fs Y .<br />
8.2 Der Satz von Helly<br />
In diesem Abschnitt beleuchten wir den Begriff der vagen Konvergenz. Dabei werden wir uns<br />
auf den Raum E = R d beschränken. Klar ist schon, dass aus der schwachen Konvergenz von<br />
Verteilungen die vage folgt, und dass für d = 1 die schwache Konvergenz äquivalent mit der<br />
Konvergenz der Verteilungsfunktionen ist (Korollar 8.6). Zunächst erweitern wir den Begriff<br />
der Verteilungsfunktion für Maße auf R d .<br />
Definition 8.10. 1. Für x, y ∈ Rd sei x ≤ y genau dann, wenn xi ≤ yi, i = 1, ..., d. In<br />
diesem Fall bezeichnet (x; y] := �d i=1 (xi; yi]. Wir bezeichnen mit ∞ = (∞, ..., ∞) und<br />
−∞ = (−∞, ..., −∞)<br />
2. Eine Funktion F auf R d heißt rechtsstetig, falls F (y) y↓x<br />
−−→ F (x) für alle x ∈ R d .
KAPITEL 8. SCHWACHE KONVERGENZ 64<br />
3. Sei µ ∈ P≤1(R d ). Dann ist die Verteilungsfunktion von µ gegeben durch<br />
Dann gilt für x ≤ y, dass<br />
µ((x; y]) =<br />
F (x) := µ((−∞; x]).<br />
�<br />
u Ecke von (x;y]<br />
Die rechte Seite bezeichnen wir mit F ((x; y]).<br />
(−1) |{k:uk=yk}| F (u).<br />
Ohne Beweis stellen wir zwei Resultate zusammen, die Bekanntes über Verteilungsfunktionen<br />
für Maße auf R auf Maße auf R d erweitern.<br />
Theorem 8.11. Eine Funktion F : Rd → [0, 1] ist genau dann Verteilungsfunktion eines<br />
Wahrscheinlichkeitsmaßes P auf Rd , falls sie rechtsstetig ist und F (x) x→−∞<br />
−−−−→ 0, F (x) x→∞<br />
−−−→<br />
1.<br />
l:326 Korollar 8.12. Sei F eine rechtsstetige Funktion auf R d mit nicht-negativen Inkrementen.<br />
Dann gibt es ein Maß µ auf R d mit µ((x; y]) = F ((x; y]), x ≤ y.<br />
T:Helly Theorem 8.13 (Satz von Helly). Sei P1, P2, ... ∈ P(Rd ). Dann gibt es eine Teilfolge (nk)k=1,2,...<br />
und ein µ ∈ P≤1(Rd ) mit Pnk<br />
k→∞<br />
===⇒v µ.<br />
ex:vc1 Beispiel 8.14. Betrachte die Wahrscheinlichkeitsmaße δ0, δ1, .... Dann gilt δn n→∞<br />
===⇒v 0. Wir<br />
bemerken jedoch, dass δ1, δ2, .. nicht schwach gegen das Nullmaß konvergieren, siehe Bemerkung<br />
8.2.2.<br />
Beweis. Seien F1, F2, ... die Verteilungsfunktionen von P1, P2, .... Weiter sei (x1, x2, ...) eine<br />
Abzählung von Q d . Da [0, 1] kompakt ist, gibt es zu jeder Folge (Fn(xi))n=1,2,... eine konvergente<br />
Teilfolge. Mittels eines Diagonal-Argumentes gibt es eine Folge (nk)k=1,2,..., so dass<br />
Fnk (xi))k=1,2,... für alle i gegen einen Limes G(xi) auf Q d konvergiert. Wir definieren<br />
F (x) := inf{G(r) : r ∈ Q d , r > x}.<br />
Da alle Fn und damit G nicht-negative Zuwächse haben, gilt dasselbe für F . Aus der Definition<br />
von F und der Monotonie von G folgt weiter, dass F rechtsstetig ist. Nach Korollar 8.12 gibt<br />
es ein Maß µ auf Rd mit µ((x, y]) = F ((x; y]) für alle x, y ∈ Rd , x ≤ y. Es bleibt zu zeigen,<br />
dass Pn[f] n→∞<br />
−−−→ µ[f] für alle f ∈ Cc(Rd ). Œ können wir annehmen, dass f ≥ 0 ist.<br />
Es ist Fn(x) n→∞<br />
−−−→ F (x) an allen Stetigkeitsstellen x von F nach Konstruktion. Es gibt<br />
abzählbare Mengen D1, ..., Dd ⊆ R, so dass F auf C := Dc 1 × · · · × Dc d stetig ist. Damit<br />
ist Pn(U) n→∞<br />
−−−→ µ(U) für alle endlichen Vereinigungen U von Rechtecken mit Ecken in C.<br />
Sei nun B ⊆ Rd offen und beschränkt. Seien U1, U2, ... und V1, V2, ... Folgen von endlichen<br />
Vereinigungen von offenen Rechtecken mit Ecken in C, so dass Uk ↑ B, Vk ↓ ¯ B. Dann gilt<br />
µ(B) = lim<br />
k→∞ µ(Uk) = lim lim inf<br />
k→∞ n→∞ Pn(Uk) ≤ lim inf<br />
n→∞ Pn(B)<br />
≤ lim sup<br />
n→∞<br />
Pn(B) ≤ lim<br />
k→∞<br />
lim sup Pn(Vk) = lim<br />
n→∞<br />
k→∞ µ(Vk) = µ( ¯ B).
KAPITEL 8. SCHWACHE KONVERGENZ 65<br />
Da µ{f = t} > 0 für höchstens abzählbar viele t, und da Pn{f > t} ≤ 1t≥||f||, folgt mit<br />
majorisierter Kovergenz<br />
� ∞<br />
� ∞<br />
µ[f] =<br />
0<br />
µ{f > t}dt ≤<br />
0<br />
lim inf<br />
n→∞ Pn{f<br />
� ∞<br />
> t}dt = lim inf<br />
n→∞<br />
0<br />
Pn{f > t}dt = lim inf<br />
n→∞ En[f]<br />
� ∞<br />
� ∞<br />
� ∞<br />
≤ lim sup Pn[f] = lim sup<br />
n→∞<br />
n→∞<br />
= µ[f]<br />
0<br />
Pn{f > t}dt =<br />
0<br />
lim sup Pn{f > t}dt ≤<br />
n→∞<br />
0<br />
µ{f ≥ t}<br />
8.3 Der Satz von Prohorov<br />
Um die schwache Konvergenz von Wahrscheinlichkeitsmaßen festzustellen, ist Theorem 8.5<br />
hilfreich. Wir wenden uns nun der Frage zu, ob eine Folge von Wahrscheinlichkeitsmaßen<br />
überhaupt einen Häufungspunkt haben kann. Im Sinne der vagen Konvergenz von Wahrscheinlichkeitsmaßen<br />
auf R d besagt der Satz von Helly, dass jede Folge einen Häufungspunkt<br />
besitzt. Jedoch, siehe Beispiel 8.14, kann es sein, dass das Grenzmaß kein Wahrscheinlichkeitsmaß<br />
ist. Allerdings zeigt nachfolgendes Resultat, dass das Grenzmaß zumindest Gesamtmasse<br />
höchstens 1 besitzt.<br />
Lemma 8.15. Sei P1, P2, ... ∈ P(R d ) und µ ∈ P≤1(R d ) mit Pn n→∞<br />
===⇒v µ, so gilt µ(R d ) ≤ 1.<br />
Beweis. Sei f1, f2, ... ∈ Cc(E) mit fk ↑ 1. Dann gilt<br />
µ(R d ) = sup<br />
k∈N<br />
µ[fk] = sup<br />
k∈N<br />
lim sup Pn[fk] ≤ 1.<br />
n→∞<br />
Um die Existenz von Häufungspunkten im Sinne der schwachen Konvergenz zu zeigen, muss sichergestellt<br />
sein, dass Grenzmaße wieder Wahrscheinlichkeitsmaße sind, also beim Grenzübergang<br />
keine Masse verloren geht. Hierbei ist das Konzept der Straffheit zentral.<br />
Definition 8.16 (Straffheit). Sei K die Menge aller kompakten Mengen in E. Eine Familie<br />
(µi)i∈I in P(E) ist straff, falls<br />
sup inf<br />
i∈I µi(K) = 1.<br />
K∈K<br />
Eine Familie (Xi)i∈I von E-wertigen Zufallsvariablen ist straff, falls ((Xi)∗P)i∈I straff ist,<br />
d.h.<br />
sup inf<br />
i∈I P{Xi ∈ K} = 1.<br />
K∈K<br />
rem:tight Bemerkung 8.17. 1. Sei (E, r) vollständig und separabel. Für µ ∈ P(E) ist dann {µ}<br />
nach Theorem 11.5 der Wahrscheinlichkeitstheorie I von innen K-regulär, also straff.<br />
Damit ist auch jede endliche Menge von Wahrscheinlichkeitsmaßen straff.<br />
2. Ist I = {1, 2, ...}, so kann man in obiger Definition inf durch lim inf ersetzen.
KAPITEL 8. SCHWACHE KONVERGENZ 66<br />
3. Falls E = R d , ist eine Familie (µi)i∈I genau dann straff, wenn<br />
sup inf<br />
r>0 i∈I µi(Br(0)) = 1,<br />
wobei Br(0) die Kugel um 0 mit Radius r ist.<br />
Beispiel 8.18. 1. Ist E kompakt, so ist jede Familie von Wahrscheinlichkeitsmaßen auf<br />
E straff.<br />
2. Eine Familie (Xi)i∈I von reellen Zufallsvariablen mit<br />
ist straff. Denn es gilt<br />
sup P[|Xi|] < ∞,<br />
i∈I<br />
inf<br />
r>0 sup P{|Xi| ≥ r} ≤ inf<br />
i∈I<br />
r>0 sup<br />
P[|Xi|]<br />
= 0.<br />
i∈I r<br />
3. Die Famiilie (δn)n=1,2,..., wobei δn das Dircamaße auf n ist, ist nicht straff.<br />
l:wc1 Lemma 8.19. Seien P1, P2, ... ∈ P(R d ) und µ ∈ M(R d ) mit<br />
Dann ist<br />
In diesem Fall gilt Pn n→∞<br />
===⇒ µ.<br />
Pn n→∞<br />
===⇒v µ.<br />
µ(R d ) = 1 ⇐⇒ (Pn)n=1,2,... ist straff.<br />
Beweis. Für r > 0 wähle ein gr ∈ Cc(Rd ), 1Br(0) ≤ gr ≤ 1Br+1(0). Dann ist (Pn)n=1,2,... genau<br />
dann straff, wenn<br />
sup lim inf<br />
r>0 n→∞ Pn[gr] = 1.<br />
’⇒’: Es gilt<br />
1 = sup<br />
r>0<br />
µ(Br(0)) ≤ sup<br />
r>0<br />
’⇐’: Sei (Pn)n=1,2,.. straff. Dann folgt<br />
1 ≥ µ(R d ) = sup<br />
r>0<br />
µ(Br(0)) = sup<br />
r>0<br />
µ[gr] = sup lim inf<br />
r>0 n→∞ Pn[gr] ≤ 1.<br />
µ[gr] = sup lim inf<br />
r>0 n→∞ Pn[gr] = 1.<br />
Angenommen, (Pn)n=1,2,... ist straff und f ∈ Cb(Rd ). Dann gilt<br />
� �<br />
lim sup |Pn[f] − µ[f]| ≤ inf lim sup |Pn[f − fgr]| + |Pn[fgr]| − µ[fgr]| + |µ[f − fgr]|<br />
n→∞<br />
r>0 n→∞<br />
≤ ||f|| inf<br />
r>0<br />
lim sup<br />
n→∞<br />
Pn(Br(0) c ) + inf<br />
r>0 µ[Br(0) c ] = 0.<br />
cor:wc2 Korollar 8.20. Seien P, P1, P2, ... ∈ P(R d ). Falls Pn n→∞<br />
===⇒ P, so ist (Pn)n∈N straff.
KAPITEL 8. SCHWACHE KONVERGENZ 67<br />
Beweis. Da aus der schwache Konvergenz von P1, P2, ... gegen P, die vage Konvergenz folgt,<br />
gelten für P, P1, P2, ... die Voraussetzungen von Lemma 8.19 und P(R d ) = 1. Also ist (Pn)n∈N<br />
straff.<br />
T:prohorov Theorem 8.21 (Satz von Prohorov). Seien P1, P2, ... ∈ P(E). Ist (Pn)n∈N straff, so hat jede<br />
Teilfolge von (Pn)n∈N eine schwach konvergente Teilfolge. Ist E vollständig und separabel, so<br />
gilt auch die Umkehrung.<br />
Bemerkung 8.22. Wir zeigen das Theorem nur für den Spezialfall E = R d . Den allgemeinen<br />
Satz liest man in Lehrbüchern, etwa von Klenke oder Kallenberg nach.<br />
Beweis. Nach Theorem 8.13 hat P1, P2, ... eine Teilfolge, die vage konvergiert.<br />
’⇒’: Falls (Pn)n=1,2,... straff ist, gilt mit Lemma 8.19 auch die schwache Konvergenz der<br />
Teilfolge.<br />
’⇐’: Sei andersherum (Pn)n=1,2,... nicht straff, so gibt es ein ε > 0, so dass für jedes k > 0 ein<br />
nk gibt<br />
Pnk (Bk(0) c ) > ε (8.4) eq:wc8<br />
für alle k. Nach Voraussetzung hat die Folge (nk)k=1,2,... eine Teilfolge (nkℓ )ℓ=1,2,..., so dass<br />
(Pnk ℓ )ℓ=1,2,... schwach konvergiert. Nach Korollar 8.20 ist damit (Pnk ℓ )ℓ=1,2,... straff. Insbesondere<br />
gibt es ein r, so dass<br />
Pnk ℓ (Br(0) c ) < ε<br />
für alle ℓ. Das ist für k > r aber ein Widerspruch zu (8.4).<br />
8.4 Anwendung: Der Satz von deFinetti<br />
Bereits bekannt sind unabhängige, identisch verteilte Zufallsgrößen. Dieses Konzept erweitern<br />
wir zu austauschbaren Zufallsgrößen. Diese sind zwar identisch verteilt, jedoch auf eine<br />
bestimmte Art und Weise abhängig.<br />
Definition 8.23. 1. Sei Σ die Menge aller Permutationen ρ auf N mit ρ(i) �= i für<br />
höchstens endlich viele i. Eine Familie X1, X2, ... von Zufallsvariablen heißt austauschbar,<br />
falls<br />
für alle ρ ∈ Σ.<br />
2. Seien P, Q ∈ P(E). Dann definiert<br />
(X ρ(i))i=1,2,... d = (Xi)i=1,2,... (8.5) eq:ex1<br />
rT V (P, Q) := sup<br />
A∈B(E)<br />
|P(A) − Q(A)|<br />
den Totalvariantionsabstand der Maße P und Q.<br />
ex:dF1 Beispiel 8.24. 1. Sei X1, X2, ... austauschbar. Dann sind die X1, X2, ... identisch verteilt.<br />
Das folgt aus (8.5) für n = 1.
KAPITEL 8. SCHWACHE KONVERGENZ 68<br />
2. Jede unabhängige, identisch verteilte Familie von Zufallsgrößen ist austauschbar.<br />
3. Angenommen, man hat I Münzen mit verschiedenen Wahrscheinlichkeiten, Kopf zu<br />
zeigen, zur Auswahl. Man wählt eine Münze nach einer Verteilung auf I aus und<br />
führt anschließend einen unendlichen, unabhängigen Münzwurf durch. Bezeichne dann<br />
X1, X2, ... die Ergebnisse dieses Münzwurfs. Diese Folge von Zufallsgrößen ist zwar nicht<br />
unabhängig, aber austauschbar.<br />
4. Das letzte Beispiel verallgemeinert man folgendermaßen: sei ξ ∈ P(P(E)) (ξ bestimmt<br />
die zufällige Wahrscheinlichkeit, mit der die gezogene Münze Kopf zeigt.) Gegeben ξ,<br />
seien X1, X2, ... unabhängig und so verteilt wie ξ. Dann sind X1, X2, ... austauschbar.<br />
Denn für ρ ∈ ΣN und A ∈ B(E N ) ist<br />
P � (X ρ(i))i=1,2,... ∈ A � = P � P � (X ρ(i))i=1,2,... ∈ A|ξ ��<br />
= P � P � (Xi)i=1,2,... ∈ A|ξ �� = P � (Xi)i=1,2,... ∈ A �<br />
5. Sei I = {1, ..., N} und X1, ..., XK die Ergebnisse des Ziehens ohne Zurücklegen aus einer<br />
Urne mit farbigen Kugeln. Dann sind X1, ..., XK austauschbar, aber nicht unabhängig.<br />
Lemma 8.25. Seien P, Q ∈ P(E) und f ∈ Cb(E). Dann gilt<br />
Beweis. Zunächst stellt man fest, dass<br />
|P[f] − Q[f]| ≤ 2||f||∞ · rT V (P, Q).<br />
rT V (P, Q) = 1<br />
2 sup |P[f] − Q[f]| (8.6) eq:dF1<br />
f:||f||∞≤1<br />
gilt. Denn:<br />
’≤’: Klar, da für jede Indikatorfunktion 1A die Funktion 2 · 1A − 1 in {f : ||f|| ≤ 1} ist.<br />
’≥’: Durch Übergang von f zu −f kann man Œ die Betragsstriche auf der rechten Seite<br />
weglassen. Œ ist |f| = 1 überall. Falls z.B. A := {0 ≤ f < 1} �= ∅ oder B := {−1 < f < 0} �= ∅<br />
mit P(A) > Q(A) und P(B) < Q(B), so setzen wir g = f auf A c ∩B c , g = 1 auf A und g = −1<br />
auf B. Damit ist |g| = 1 und<br />
P[g] − Q[g] > P[f] − Q[f].<br />
Da also Œ |f| = 1, folgt die Behauptung durch Einsetzen von f<br />
||f||<br />
in (8.6).<br />
l:dF1 Lemma 8.26. Eine Teilmenge M ⊆ P(P(E)) ist genau dann straff, wenn für jedes ε > 0<br />
eine kompakte Menge K = Kε ⊆ E existiert mit<br />
inf<br />
ξ∈M ξ(�P ∈ P(E) : P(K) > 1 − ε � ) > 1 − ε<br />
Beweis. ’⇒’: Sei ε > 0. Es gibt eine kompakte Menge K ⊆ P(E), so dass<br />
inf ξ(K) > 1 − ε.<br />
ξ∈M<br />
Da K kompakt ist, gibt es zu jeder Teilfolge in K eine konvergente Teilfolge und damit ist K<br />
straff. Also gibt es ein K ⊆ E mit<br />
inf P(K) > 1 − ε.<br />
P∈K
KAPITEL 8. SCHWACHE KONVERGENZ 69<br />
Damit ist also<br />
inf<br />
ξ∈M ξ(�P ∈ P(E) : P(K) > 1 − ε � ) ≥ inf ξ(K) > 1 − ε.<br />
ξ∈M<br />
’⇐’: Sei ε > 0. Wir bezeichnen K = Kε wie angegeben. Dann ist die Menge<br />
K := {P ∈ P(E) : P(K c ε2 −n) ≤ ε2 −n , n > 0}<br />
straff. Nach dem Satz von Prohorov ist sie damit relativkompakt, ihr Abschluss also kompakt.<br />
Es gilt<br />
Damit ist M straff.<br />
sup<br />
ξ∈M<br />
ξ(K c ) ≤ �<br />
ξ({P ∈ P(E) : P(K c ε2−n) > ε2 −n } ≤ ε<br />
n<br />
Theorem 8.27 (deFinetti). Eine Familie X1, X2, ... von Zufallsvariablen mit Werten in E ist<br />
genau dann austauschbar, wenn es eine P(E)-wertige Zufallsgröße Ξ gibt mit der Eigenschaft:<br />
gegeben Ξ ist X1, X2, ... unabhängig, identisch verteilt mit Verteilung Ξ.<br />
Beweis. ’⇐’: Klar, siehe Beispiel 8.24.<br />
’⇒’: Für x = (x1, x2, ...) ∈ EN sei ξn(x) = 1<br />
n<br />
x1, ..., xn und<br />
µn,k := ξn(x) ⊗k = n −k<br />
�n δxi i=1 ∈ P(E) die empirische Verteilung von<br />
n�<br />
i1,...,ik=1<br />
δ (xi 1 ,...,xi k ) ∈ P(E k )<br />
die Verteilung des k-fachen Ziehens aus x mit Zurücklegen und<br />
n�<br />
(n − k)!<br />
νn,k :=<br />
n!<br />
i 1 ,...,i k =1<br />
ij�=i j ′<br />
δ (xi 1 ,...,xi k ) ∈ P(E k ), n ≥ k<br />
die Verteilung des k-fach Ziehens aus x ohne Zurücklegen. Für jedes x ∈ E N gilt<br />
rT V (µn,k(x), νn,k(x)) ≤ n −k |{(i1, ..., ik) : ij = ij ′ für ein Paar j, j′ }| ≤<br />
k(k − 1)<br />
,<br />
n<br />
d.h.<br />
lim<br />
n→∞ sup<br />
x∈EN rT V (µn,k(x), νn,k(x)) = 0.<br />
Das ist die intuitiv klare Aussage, dass für große Grundgesamtheiten das Ziehen ohne und<br />
mit Zurücklegen fast dieselben Wahrscheilichkeiten liefern.<br />
Sei nun F (x1, ..., xk) = f1(x1) · · · fk(xk) mit f1, ..., fk ∈ Cb(E). Damit gilt, da die X1, X2, ...<br />
austauschbar sind,<br />
P[f1(X1) · · · fk(Xk)] = P[F (X1, ..., Xk)] = P[F (Xi1 , ..., Xik )] = P�νn,k(X)[F ] �<br />
und damit<br />
�<br />
�<br />
�P[f1(X1) · · · fk(Xk)] − P � ξn(X)[f1] · · · ξn(X)[fk] �� � �<br />
=<br />
�<br />
�<br />
�P � νn,k(X)[F ] � − P � µn,k(X)[F ] �� � �<br />
k(k − 1)<br />
≤ 2 · ||F ||∞<br />
n<br />
n→∞<br />
−−−→ 0.
KAPITEL 8. SCHWACHE KONVERGENZ 70<br />
Da E vollständig und separabel ist, existiert zu ε > 0 eine kompakte Menge K ⊆ E mit<br />
P{X1 ∈ K c } < ε 2 . Damit ist<br />
P � ξn(X)(K c ) > ε � ≤ P[ξn(X)(K c )]<br />
ε<br />
= P{X1 ∈ K c }<br />
ε<br />
Nach Lemma 8.26 sind ξ1(X), ξ2(X), ... straff. Sei Ξ ein schwacher Häufungspunkt von<br />
ξ1(X), ξ2(X), ... entlang einer Folge n1, n2, .... Da die Abbildung ξ ↦→ ξ[F ] auf P(E) stetig<br />
und beschränkt ist, gilt<br />
≤ ε.<br />
P � Ξ ⊗k [F ] � = lim<br />
l→∞ P � ξnl (X)[f1] · · · ξnl (X)[fk] � = P[f1(X1) · · · fk(Xk)].<br />
Dieser Grenzwert hängt nicht mehr von der Teilfolge n1, n2, ... ab und ist somit eindeutig.<br />
Damit gilt<br />
P[f1(X1) · · · fk(Xk)] = P � Ξ[f1] · · · Ξ[fk] � .<br />
Dadurch ist die Verteilung von X1, X2, ... eindeutig beschrieben. Es folgt, dass, gegeben Ξ,<br />
die Zufallsvariablen X1, X2, ... unabhängig sind mit Verteilung Ξ.
Kapitel 9<br />
Charakteristische Funktionen und<br />
Laplace-Transformierte<br />
In diesem Abschnitt werden wir Kapital aus der allgemeinen Theorie der schwachen Konvergenz<br />
schlagen. Zunächst werden wir für allgemeine Räume das Konzept der separierenden<br />
Funktionenklasse vorstellen. Die Nützlichkeit der charakteristische Funktion und der Laplace-<br />
Transformierte von Verteilungen nutzen die Eigenschaft zweier bestimmter Funktionenklassen,<br />
separierend zu sein, aus.<br />
9.1 Einführung: Separierende Funktionenklassen<br />
In diesem Abschnitt sei (E, r) vollständig und separabel.<br />
Definition 9.1. 1. Eine Funktionenklasse M ⊆ Cb(E) heißt punkttrennend in E, falls es<br />
für alle x, y ∈ E mit x �= y ein f ∈ M gibt mit f(x) �= f(y).<br />
2. Eine Funktionenklasse M ⊆ Cb(E) heißt separierend in P(E), falls aus P, Q ∈ P(E)<br />
und<br />
P[f] = Q[f] für alle f ∈ M<br />
folgt, dass P = Q.<br />
Beispiel 9.2. 1. Die Funktionenklasse M := Cb(E) ist sowohl punktetrennend als auch<br />
separierend.<br />
2. Die Funktionenklasse {x ↦→ cx : c ∈ R} aller linearen Funktionen ist zwar punktetrennend,<br />
aber nicht separierend.<br />
Pr:wc3 Proposition 9.3 (Separierende Funktionenklasse und schwache Konvergenz). Sei (E, r) vollständig<br />
und separabel und P, P1, P2, ... ∈ P(E). Dann sind äquivalent:<br />
1. Pn n→∞<br />
===⇒ P.<br />
2. (Pn)n=1,2,... ist straff und es gibt eine separierende Familie M ⊆ Cb(E) mit<br />
Pn[f] n→∞<br />
−−−→ P[f] für alle f ∈ M.<br />
71
KAPITEL 9. CHARAKTERISTISCHE FUNKTION 72<br />
Beweis. 1. ⇒ 2. Nach Korollar 8.20 ist (Pn)n=1,2,... straff. Der zweite Teil von 2. gilt wegen<br />
der Definition der schwachen Konvergenz.<br />
2. ⇒ 1. Angenommen, (Pn)n=1,2,... ist straff und P1, P2, ... konvergiert nicht schwach gegen P.<br />
Dann gibt es ε > 0, ein f ∈ Cb(E) und eine Teilfolge (nk)k=1,2,..., so dass<br />
|Pnk [f] − P[f]| > ε für alle k. (9.1) eq:wc10<br />
Nach Theorem 8.21 gibt es eine Teilfolge (nkℓ )ℓ=1,2,... und ein Q ∈ P(E), so dass Pnk ℓ<br />
Wegen (9.1) ist<br />
|P[f] − Q[f]| ≥ | lim inf<br />
ℓ→∞<br />
� P[f] − Pnk ℓ [f]|) + lim inf<br />
ℓ→∞ (Pnk ℓ [f] − Q[f])| > ε,<br />
insbesondere also P �= Q. Andererseits haben wir für alle g ∈ M<br />
P[g] = lim<br />
ℓ→∞ Pnk ℓ [g] = Q[g].<br />
Da M separierend ist, ist dies ein Widerspruch und 1. ist gezeigt.<br />
ℓ→∞<br />
===⇒ Q.<br />
Das nächste Resultat benötigt das Stone-Weierstrass-Theorem, das wir zunächst wiederholen.<br />
Definition 9.4. Ein Mengensystem M ⊆ C(E) heißt Algebra, falls 1 ∈ M, sowie mit f, g<br />
und α, β ∈ R auch αf + βg, sowie fg in M enthalten sind.<br />
T:sw Theorem 9.5 (Stone-Weierstrass). Sei (E, r) kompakt und M ⊆ Cb(E) eine punktetrennende<br />
Algebra. Dann ist M dicht in Cb(E) bzgl. der Supremumsnorm.<br />
T:wc3 Theorem 9.6. Sei (E, r) vollständig und separabel. Ist M ⊆ Cb(E) punktetrennend und so,<br />
dass mit f, g ∈ M auch fg ∈ M. Dann ist M separierend.<br />
Beweis. Sei P, Q ∈ P(E). Œ ist 1 ∈ M, da P[1] = Q[1] immer gilt. Weiter ist M genau dann<br />
separierend wenn die von M erzeugt Algebra separierend ist. Also ist M Œ eine Algebra. Sei<br />
ε > 0 und K kompakt, so dass P(K) > 1 − ε, Q(K) > 1 − ε. Für g ∈ Cb(E) gibt es nach dem<br />
Stone-Weierstrass Theorem 9.5 eine Folge (gn)n=1,2,... in M mit<br />
Nun,<br />
sup |gn(x) − g(x)|<br />
x∈K<br />
n→∞<br />
−−−→ 0. (9.2) eq:wc9<br />
�<br />
�P[ge −εg2<br />
] − Q[ge −εg2<br />
] � � ≤ � �P[ge −εg2<br />
] − P[ge −εg2<br />
; K] � �<br />
+ � �P[ge −εg2<br />
; K] − P[gne −εg2 n; K] � �<br />
+ � � P[gne −εg2 n; K] − P[gne −εg2 n] � �<br />
+ |P[gne −εg2 n] − Q[gne −εg2 n] � �<br />
+ � �Q[gne −εg2 n] − Q[gne −εg2 n; K] � �<br />
+ � �Q[gne −εg2 n] − Q[ge −εg2<br />
; K] � �<br />
+ � �Q[ge −εg2<br />
; K] − Q[ge −εg2<br />
] � �
KAPITEL 9. CHARAKTERISTISCHE FUNKTION 73<br />
Den ersten Term beschränken wir durch<br />
�<br />
�P[ge −εg2<br />
] − P[ge −εg2<br />
; K] � � ≤ C √ ε P(K c ) ≤ C √ ε<br />
mit C = supx≥0 xe−x2; analog den dritten, fünften und letzten. Der zweite und vorletzte<br />
Term konvergieren für n → ∞ gegen 0 wegen (9.2). Da M eine Algebra ist, kann gne−εg2 n<br />
durch Funktionen in M approximiert werden, womit auch der vierte Term für n → ∞ gegen<br />
0 konvergiert. Damit gilt<br />
�<br />
�P[g] − Q[g] � � = lim<br />
ε→0<br />
�<br />
�P[ge −εg2<br />
] − Q[ge −εg2<br />
] � √<br />
� ≤ 4C lim ε = 0.<br />
ε→0<br />
Da g beliebig war und Cb(E) separierend ist, folgt P = Q.<br />
9.2 Definition und einfache Eigenschaften<br />
Ab hier (bis zum Ende dieses <strong>Manuskript</strong>es) sei nun wieder E = R d , versehen mit der euklidischen<br />
Metrik auf R d .<br />
Definition 9.7. 1. Sei P ∈ P(Rd ). Dann ist die charakteristische Funktion von P gegeben<br />
durch<br />
�<br />
R<br />
ψP :=<br />
d t<br />
→ C<br />
↦→ P[eit. ]<br />
wobei tx := 〈t, x〉 das Skalarprodukt in R d ist und<br />
P[e it. ] := P[cos(t.)] + iP[sin(t.)].<br />
Die Laplace-Transformierte von P ist gegeben durch<br />
�<br />
R<br />
LP :=<br />
d → R<br />
t ↦→ P[e−t. ],<br />
gegeben das Integral auf der rechten Seite existiert. Diese wird meistens für Wahrscheinlichktitsmaße<br />
auf R+ betrachtet.<br />
2. Analog definiert man für R d -wertige Zufallsvariable X auf einem Wahrscheinlichkeitsraum<br />
(Ω, A, P) die charakteristische Funktion ψX := ψX∗P und die Laplace-Transformierte<br />
LX := LX∗P. Es gilt also für t ∈ R d<br />
ψX(t) := P[e itX ], und LX(t) := P[e −tX ].<br />
Die Nützlichkeit der charakteristischen Funktion und der Laplace-Transformierten ist darauf<br />
zurückzuführen, dass sie verteilungsbestimmend sind.<br />
Pr:char1 Proposition 9.8 (e it. is separierend). Die Menge {x ↦→ e itx ; t ∈ R d } ({x ↦→ e −tx ; t ∈ R d })<br />
ist separierend in P(R d ) (in P(R+))).<br />
Beweis. Beide Mengen bestehen aus beschränkten Funktionen, enthalten die 1, sind stabil<br />
unter Produktbildung und punktetrennend. Nach Theorem 9.6 folgt die Behauptung.
KAPITEL 9. CHARAKTERISTISCHE FUNKTION 74<br />
P:cf1 Proposition 9.9 (Eigenschaften von charkteristischen Funktionen). Seien X, Y Zufallsvariable<br />
mit Werten in R d und charakteristischen Funktionen ψX, ψY . Dann gilt<br />
1. |ψX(t)| ≤ 1 für jedes t ∈ R d und ψX(0) = 1.<br />
2. ψX ist gleichmäßig stetig.<br />
3. ψX ist genau dann reellwertig, wenn X symmetrisch ist, d.h. X d = −X.<br />
4. ψaX+b(t) = ψX(at)e ibt für alle a ∈ R, b ∈ R d .<br />
5. Sind X und Y unabhängig, so ist ψX+Y = ψX · ψY .<br />
Beweis. 1. ist klar. Für die gleichmäßige Stetigkeit sei erwähnt, dass<br />
Damit gilt 2. wegen<br />
|e ihx − 1| = � | cos(hx) + i sin(hx) − 1| 2 = � (cos(hx) − 1) 2 + sin(hx) 2<br />
= � 2(1 − cos(hx)) = 2| sin(hx/2)| ≤ |hx| ∧ 2.<br />
sup<br />
t∈Rd |ψX(t + h) − ψX(t)| = sup<br />
t∈Rd |P[e i(t+h)X − e itX ]| = sup<br />
t∈Rd |P[e itX (e ihX − 1)]|<br />
≤ P[|e ihX − 1|] ≤ P[|hX| ∧ 2] h→0<br />
−−−→ 0.<br />
Für 3. sei zunächst ψX reellwertig. Dann gilt (wobei x + iy := x−iy die Komplexkonjugation<br />
ist)<br />
ψ−X(t) = P[e −itX ] = P[e itX ] = ψX(t) = ψX(t).<br />
Wegen der Eindeutigkeit der charakteristischen Funktion aus Proposition 9.8 gilt also X d =<br />
−X. Falls umgekehrt X d = −X gilt, ist P[sin(hX)] = 0 für alle h, woraus direkt folgt, dass<br />
ψX reellwertig ist.<br />
Für 4. berechnen wir<br />
Schließlich folgt 5. aus<br />
P[e it(aX+b) ] = e itb P[e i(at)X ] = e itb ψX(at).<br />
P[e it(X+Y ) ] = P[e itX e itY ] = P[e itX ] · P[e itY ] = ψX(t) · ψY (t).<br />
ex:char1 Beispiel 9.10. 1. Die charakteristische Funktion der Binomialverteilung B(n, p) ist gegeben<br />
durch<br />
ψ B(n,p)(t) = (1 − p + pe it ) n .<br />
Nach Definition gilt nämlich<br />
B(n, p)[e it. ] =<br />
n�<br />
k=1<br />
� �<br />
n<br />
p<br />
k<br />
k (1 − p) n−k e itk = (1 − p + pe it ) n .
KAPITEL 9. CHARAKTERISTISCHE FUNKTION 75<br />
2. Die charakteristische Funktion der Normalverteilung N(µ, σ 2 ) ist gegeben durch<br />
ψ N(µ,σ 2 )(t) = e itµ e −σ2 t 2 /2 .<br />
Nach Proposition 9.9.2 genügt es, diese Behauptung für µ = 0, σ2 = 1 nachzurechnen.<br />
Für diesen Fall gilt mittels partieller Integration<br />
d<br />
dt ψN(0,1)(t) = i<br />
�<br />
√ xe<br />
2π<br />
−x2 �<br />
/2 itx i<br />
e dx = √2π e −x2 /2 itx<br />
ite dx = −tψN(0,1)(t).<br />
Diese Differentialgleichung mit ψ N(0,1)(0) = 1 hat die eindeutige Lösung ψ N(0,1)(t) =<br />
e −t2 /2 .<br />
3. Die charakteristische Funktion der Poissonverteilung Poiλ ist gegeben durch<br />
denn<br />
ψPoiλ<br />
ψPoiλ = eλ(eit −1) ,<br />
= e−λ<br />
∞�<br />
n=1<br />
λ n e itn<br />
n! = eλ(eit −1) .<br />
Beispiel 9.11. Sei p1, p2, ... ∈ [0, 1] so, dass n · pn n→∞<br />
−−−→ λ. Dann ist bereits bekannt, dass<br />
B(n, pn) n→∞<br />
===⇒ Poi(λ).<br />
Wir wollen nun sehen, ob auch die charakteristischen Funktionen konvergieren. Wir schreiben<br />
direkt<br />
� � it<br />
ψB(n,pn)(t) = 1 − pn 1 − e ��n �<br />
n · pn � it<br />
= 1 − 1 − e<br />
n<br />
��n n→∞<br />
−−−→ exp � − λ(1 − e it ) � = ψPoi(λ)(t). Wie die punktweise Konvergenz der charakteristischen Funktionen und schwache Konvergenz<br />
zusammenhängen, werden wir näher in Abschnitt 9.4 beleuchten.<br />
9.3 Charakteristische Funktionen und Momente<br />
Proposition 9.12 (Charakteristische Funktion und Momente). Sei X eine Zufallsvariable<br />
mit Werten in R.<br />
1. Ist P[|X| n ] < ∞, so ist ψX n-mal stetig differenzbar, so dass für k = 0, ..., n<br />
2. Ist speziell P[X 2 ] < ∞, so ist<br />
mit ε(t) t→0<br />
−−→ 0.<br />
ψ (k)<br />
X (t) = P[(iX)k e itX ].<br />
ψ (2)<br />
t2<br />
X (t) = 1 + itP[X] −<br />
2 P[X2 ] + ε(t)t 2
KAPITEL 9. CHARAKTERISTISCHE FUNKTION 76<br />
Beweis. 1. Mit |X| n ist auch |X| n ∨ 1 integrierbar. Damit haben alle |X| k eine integrierbare<br />
Majorante und die rechte Seite existiert. Da die Aussage offensichtlich für k = 0 gilt, nehmen<br />
wir an, dass sie für ein k < n gilt. Damit ist, wenn man Ableitung und Integral vertauscht<br />
ψ (k+1)<br />
�<br />
d<br />
X (t) = P<br />
dt (iX)ke itX�<br />
= P[(iX) k+1 e itX ]<br />
und die Behauptung ist gezeigt. Die Stetigkeit der Ableitung folgt mit majorisierter Konvergenz.<br />
2. Für die Abschätzung benötigen wir die Taylorentwicklung von ψX mit Restgliedabschätzung.<br />
Es gilt<br />
e itX = 1 + itX − t2 X 2<br />
2 (cos(θ1tX) + i sin(θ2tX))<br />
mit Zufallszahlen θ1, θ2, so dass |θ1|, |θ2| ≤ 1. Deshalb bekommen wir<br />
ψX(t) = 1 + itP[X] − t2<br />
2 P[X2 ] + ε(t)t 2<br />
mit 2ε(t) = P[X 2 (1 − cos(θ1tX) + i sin(θ2tX))] t→0<br />
−−→ 0 mit majorisierter Konvergenz.<br />
Bemerkung 9.13. Wie in Proposition 9.8 gezeigt, ist die Verteilung einer Zufallsvariable<br />
durch seine charakteristische Funktion eindeutig bestimmt. Man kann auch fragen: unter welchen<br />
Bedingungen ist die Verteilung einer Zufallsvariablen X eindeutig durch die Angabe<br />
aller Momente, P[X], P[X 2 ], ... eindeutig bestimmt. Die Aufgabe, zu einer gegebenen Folge<br />
von Momenten die Verteilung der Zufallsvariablen zu rekonstruieren, heißt auch Momentenproblem.<br />
P:moment Proposition 9.14 (Momentenproblem). Sei X eine Zufallsvariable mit Werten in R und<br />
allen Momenten. Falls<br />
1<br />
α := lim sup<br />
n→∞ n P[|X|n ] 1/n < ∞,<br />
so ist ψX analytisch und die Verteilung von X durch die Angabe der Momente P[X n ] eindeutig<br />
bestimmt. Insbesondere gilt dies, falls P[e t|X| ] < ∞ für ein t > 0.<br />
Beweis. Nach der Stirling-Formel ist<br />
Für |s| < 1/(αe) gilt damit<br />
also<br />
n!<br />
lim<br />
n→∞<br />
1/n<br />
n<br />
� n n<br />
1 > lim sup P[|X| ]|s|<br />
n→∞<br />
�1/n e<br />
n<br />
lim sup<br />
n→∞<br />
n<br />
e = lim<br />
n→∞<br />
(√2π) 1/n<br />
n<br />
= lim sup<br />
n→∞<br />
P[|X| n ]|s| n<br />
n!<br />
= 0.<br />
= 1<br />
e<br />
� P[|X| n ]|s| n<br />
n!<br />
� 1/n<br />
,<br />
Diese Gleichung gilt insbesondere, falls P[e s|X| ] < ∞. Wir verwenden nun die Taylorreihe von<br />
ψX(s) um 0 und Restglied, d.h.<br />
e isX =<br />
n−1 �<br />
k=0<br />
(is) k<br />
k! P[Xk e isX ] + (is)n<br />
n! P[Xn (cos(θ1sX) + i sin(θ2sX)]
S:charWeak<br />
KAPITEL 9. CHARAKTERISTISCHE FUNKTION 77<br />
mit Zufallszahlen θ1, θ2, so dass |θ1|, |θ2| ≤ 1. Damit ist<br />
�<br />
n−1<br />
�<br />
�<br />
�ψX(s) −<br />
k=0<br />
(is) k<br />
k! P[Xke isX �<br />
�<br />
] � ≤ P[|X|n ]|s| n<br />
n!<br />
n→∞<br />
−−−→ 0,<br />
d.h. ψX ist analytisch mit Konvergenzradius 1/(αe). Damit ist sie eindeutig durch die Koeffizienten<br />
der Potenzreihe um t = 0, also die Momente von X, festgelegt.<br />
Beispiel 9.15. 1. Sei X ∼ N(0, 1). Dann ist<br />
P[e tX ] = 1<br />
�<br />
√<br />
2π<br />
e tx e −x2 /2 1<br />
dx = √2π e t2 �<br />
/2<br />
e −(x−t)2 /2 dx = e t 2<br />
/2 < ∞.<br />
Insbesondere ist die Verteilung von X durch Angabe aller Momente eindeutig bestimmt.<br />
In der Tat ist die charakteristische Funktion von N(0, 1) aus Beispiel 9.10 analytisch.<br />
2. Sei X eine log-normalverteilte Zufallsvariable, d.h. X = e Y , wobei Y ∼ N(0, 1). Dann<br />
ist wegen dem Transformationssatz die Dichte von X gegeben durch<br />
Außerdem gilt<br />
f(x) = 1 1<br />
√<br />
2π x exp<br />
�<br />
−<br />
(log<br />
�<br />
x)2<br />
.<br />
2<br />
P[Y n ] = P[e nX ] = ψ N(0,1)(−in) = e n2 /2<br />
1/n n→∞<br />
wegen Beispiel 9.10. Damit ist 1<br />
nP[Xn ] −−−→ ∞, die Voraussetzungen von Proposition<br />
9.14 sind also nicht erfüllt. Wir werden nun Verteilungen angeben, die dieselben<br />
Momente wie X haben. Für α ∈ [−1; 1] ist<br />
0<br />
fα(x) = f(x)(1 − α sin(2π log x)<br />
Dichte einer Wahrscheinlichkeitsverteilung Pα auf R+. Da<br />
� ∞<br />
x n � ∞<br />
y=log x−n 1<br />
f(x) sin(2π log x) = √<br />
2π<br />
−∞<br />
= e n2 /2 P[sin(2πY )] = 0<br />
folgt, dass die Verteilungen Pα dieselben Momente wie X haben.<br />
e yn+n2<br />
e −(y+n)2 /2<br />
sin(2π(y + n))dy<br />
9.4 Der Zusammenhang mit schwacher Konvergenz<br />
Bemerkung 9.16. Seien P, P1, P2, ... ∈ P(Rd ). Wie man aus Proposition 9.3 sieht, folgt die<br />
schwache Konvergenz Pn n→∞<br />
===⇒ P aus der punktweisen Konvergenz der charakteristischen<br />
n→∞<br />
Funktionen, ψPn (t) −−−→ ψP(t), t ∈ Rd , gegeben (Pn)n∈N ist straff. Straffheit der Familie<br />
kann man an ihren charakteristischen Funktionen ablesen, wie wir in Proposition 9.21 zeigen<br />
werden. Dies führt zu der Aussage des Levy’schen Stetigkeitssatzes (Theorem 9.22), der angibt,<br />
wann der punktweise Limes von charakteristischen Funktionen wieder charakteristische<br />
Funktion eines Wahrscheinlichkeitsmaßes ist.
KAPITEL 9. CHARAKTERISTISCHE FUNKTION 78<br />
L:char1 Lemma 9.17. Sei P ∈ P(R). Dann gilt für alle r > 0<br />
P((−∞; −r] ∪ [r; ∞)) ≤ r<br />
2<br />
� 2/r<br />
−2/r<br />
(1 − ψP(t))dt, (9.3)<br />
Beweis. Es ist sin(x)/x ≤ 1 für x ≤ 2 und sin x ≤ x/2 für x ≥ 2. Sei X eine Zufallsvariable<br />
mit Verteilung P. Also gilt für jedes c > 0 nach Fubini<br />
� c<br />
�<br />
(1 − ψP(t))dt = P<br />
� c<br />
(1 − e itX � �<br />
)dt = P 2c − 1<br />
� �<br />
�<br />
c<br />
und die Behauptung folgt mit c = 2/r.<br />
−c<br />
iX eitX<br />
� c<br />
t=−c<br />
�<br />
= 2cP 1 − sin(cX)<br />
�<br />
cX<br />
�<br />
≥ 2cP 1 − sin(cX)<br />
�<br />
; |cX| ≥ 2<br />
cX<br />
≥ c · P{|cX| ≥ 2} = cP((−∞; − 2 2<br />
c ] ∪ [ c ; ∞)),<br />
Definition 9.18 (Gleichgradige Stetigkeit). Wir wiederholen eine Definition aus der Analysis.<br />
Eine Menge M ⊆ C(R d ) heißt in x ∈ R d gleichgradig stetig, falls<br />
sup |f(y) − f(x)|<br />
f∈M<br />
y→x<br />
−−−→ 0.<br />
Bemerkung 9.19. Falls M = {f1, f2, ...}, so ist die Bedingung<br />
äquivalent.<br />
lim sup |fn(y) − fn(x)|<br />
n→∞<br />
y→x<br />
−−−→ 0<br />
L:char2 Lemma 9.20. Seien f1, f2, ... ∈ C(R d ), so dass fn n→∞<br />
−−−→ f für eine Funktion f : R d → R<br />
punktweise gilt. Genau dann ist f in 0 stetig, wenn (fn)n=1,2,... in 0 gleichgradig stetig ist.<br />
Beweis. Ist (fn)n=1,2,... gleichgradig stetig in 0, so folgt<br />
|f(t) − f(0)| = | lim<br />
n→∞ (fn(t) − fn(0))| ≤ lim sup |fn(t) − fn(0)| t→0<br />
−−→ 0.<br />
Ist andersherum f stetig in 0, so gilt<br />
lim sup<br />
n→∞<br />
n→∞<br />
|fn(t)−fn(0)| ≤ lim sup |fn(t)−f(t)|+|f(t)−f(0)|+|f(0)−fn(0) = |f(t)−f(0)|<br />
n→∞<br />
t→0<br />
−−→ 0.<br />
Pr:char4 Proposition 9.21 (Straffheit und gleichgradige Stetigkeit). Sei (Pi)i∈I eine Familie in P(R d ).<br />
Ist (ψPi )i∈I gleichgradig stetig in 0, so ist (Pi)i∈I straff.<br />
Beweis. Es genügt zu zeigen, dass ((πk)∗Pi)i∈I für alle Projektionen π1, ..., πd straff ist. Es<br />
gilt offenbar ψ (πk)∗Pi (t) = ψPi (tek), falls ek der k-te Einheitsvektor ist. Damit genügt es, die<br />
Behauptung im Fall d = 1 zu zeigen. Da ψPi (0) = 1 für alle i ∈ I gilt, folgern wir aus der<br />
gleichgradigen Stetigkeit, dass<br />
t→0<br />
sup |1 − ψPi (t)| −−→ 0,<br />
i∈I
KAPITEL 9. CHARAKTERISTISCHE FUNKTION 79<br />
also, siehe Bemerkung 8.17,<br />
sup inf<br />
r>0 i∈I Pi([−r; r]) ≥ 1 − inf<br />
r>0 sup<br />
Damit ist die Behauptung gezeigt.<br />
r<br />
≥ 1 − inf<br />
r>0 2<br />
≥ 1 − 2 inf<br />
r<br />
2<br />
� 2/r<br />
i∈I −2/r<br />
� 2/r<br />
−2/r<br />
sup<br />
r>0 t∈[0;2/r]<br />
(1 − ψPi (t))dt<br />
sup |1 − ψPi<br />
i∈I<br />
(t)|dt<br />
sup |1 − ψPi (t)| = 1.<br />
i∈I<br />
T:levy Theorem 9.22 (Levy’scher Stetigkeitssatz). Seien P1, P2, ... ∈ P(Rd ) und ψ : Rd → C, so<br />
n→∞<br />
dass ψPn (t) −−−→ ψ(t) für alle t ∈ Rd . Falls ψ stetig in 0 ist, so ist Pn n→∞<br />
===⇒ P für ein<br />
P ∈ P(Rd ) mit ψP = ψ.<br />
Beweis. Da ψPn punktweise gegen die in 0 stetige Funktion ψ konvergieren, folgt mit Lemma<br />
9.20, dass (ψPn )n=1,2,... in 0 gleichgradig stetig ist. Mit Proposition 9.21 folgt, dass (Pn)n=1,2,...<br />
straff ist. Sei (nk)k=1,2,... eine Teilfolge und P ∈ P(Rd k→∞<br />
), so dass Pnk ===⇒ P. Da x ↦→ eitx eine<br />
stetige, beschränkte Funktion ist, folgt ψPn (t)<br />
k k→∞<br />
−−−→ ψP(t) für alle t ∈ Rd . Andererseits<br />
n→∞<br />
ist nach Voraussetzung auch ψPn (t) −−−→ ψ(t), woraus ψP = ψ folgt. Damit ist ψ als charakteristische<br />
Funktion von P identifiziert, und da diese P eindeutig bestimmt, gilt damit<br />
Pn n→∞<br />
===⇒ P.<br />
Beispiel 9.23. Seien Sn ∼ B(n, p). Der Satz von deMoivre-Laplace besagt, dass<br />
S ∗ n := Sn − np<br />
� np(1 − p)<br />
n→∞<br />
===⇒ N(0, 1). (9.4) eq:char4<br />
Wir wollen dies nun nochmal mit Hilfe von charakteristischen Funktionen zeigen, also ψS ∗ n<br />
n→∞<br />
−−−→<br />
ψ N(0,1) punktweise. Dazu verwenden wir Proposition 9.9.4 und schreiben mit q := 1 − p und<br />
C1, C2, ... ∈ C mit lim sup n→∞ |Cn| < ∞<br />
�<br />
np<br />
� �<br />
t<br />
�<br />
· ψB(n,p) √npq<br />
q<br />
� �<br />
np<br />
�� �<br />
it<br />
��n = exp − it q + p exp √npq<br />
q<br />
� � �<br />
p<br />
� � �<br />
q<br />
��n = q exp − it + p exp it<br />
nq<br />
np<br />
� � �<br />
p t2 p q q Cn<br />
= 1 − qit − q + pit − pt2 +<br />
nq 2 nq np 2 np n3/2 �n �<br />
= 1 − t2 1 Cn<br />
+<br />
2 n n3/2 �n n→∞ t2<br />
−<br />
−−−→ e 2 = ψN(0,1)(t). ψS∗ �<br />
(t) = exp − it<br />
n<br />
Aus Theorem 9.22 folgt nun (9.4).
Kap:ZGS<br />
S:poi<br />
Kapitel 10<br />
Schwache Grenzwertsätze<br />
Wir werden nun unsere Kenntnisse über schwache Konvergenz und charakteristische Funktionen<br />
in speziellen Situationen einsetzen. In Abschnitt 10.1 geht es um Aussagen, wann die<br />
Summe von Zufallsvariablen gegen eine Poissonverteilte Zufallsvariable konvergieren. In Abschnitt<br />
10.2 werden wir den zentralen Grenzwertsatz von Lindeberg-Feller kennenlernen, der<br />
eine Charakterisierung für die schwache Konvergenz gegen eine Normalverteilung darstellt.<br />
In Abschnitt 10.3 geht es schließlich um Erweiterungen für den Fall von mehrdimensionalen<br />
Zufallsvariablen.<br />
10.1 Poisson-Konvergenz<br />
Bereits bekannt ist die Aussage, dass B(n, pn) für n·pn n→∞<br />
−−−→ λ für große n schwach gegen die<br />
Poi(λ)-Verteilung konvergiert. In diesem Abschnitt verallgemeinern wir diese Aussage, siehe<br />
Theorem 10.4.<br />
Definition 10.1. 1. Eine triagonale Familie von Zufallsvariablen {Xnj : n = 1, 2, ..., n, j =<br />
1, ..., mn} mit m1, m2, ... ∈ N ist asymptotisch vernachlässigbar falls für n = 1, 2, ... die<br />
Zufallsvariablen Xn1, ..., Xn,mn unabhängig sind und<br />
sup P[|Xnj| > ε]<br />
j=1,...,mn<br />
n→∞<br />
−−−→ 0 (10.1) eq:asVern<br />
für alle ε > 0. Falls Xij ≥ 0 für alle i, j, so ist auch mn = ∞ zugelassen.<br />
2. Für eine Zufallsvariable X mit Werten in Z+ ist die Erzeugendenfunktion der Verteilung<br />
von X gegeben durch<br />
ϕX(z) := P[z X ∞�<br />
] = z k P[X = k].<br />
rem:Poi1 Bemerkung 10.2. 1. Für eine triagonale Familie von Zufallsvariablen {Xnj : n =<br />
1, 2, ..., n, j = 1, ..., mn} gilt (10.1) genau dann, wenn<br />
k=0<br />
sup E[|Xnj ∧ 1]<br />
j=1,...,mn<br />
n→∞<br />
−−−→ 0.<br />
80
KAPITEL 10. SCHWACHE GRENZWERTSÄTZE 81<br />
2. Auf Z+ erfüllt die Menge der Funktionen {k ↦→ z k : k ∈ Z+} die Voraussetzungen von<br />
Theorem 9.6. Also bestimmt die Erzeugendenfunktion die Verteilung einer Zufallsvariablen<br />
eindeutig. Weiter gilt die Aussage des Levy’schen Stetigkeitssatzes, Theorem 9.22,<br />
falls man statt charakteristischen Funktionen die Erzeugendenfunktionen einsetzt.<br />
l:wC1 Lemma 10.3. Sei M = {Xnj : n = 1, 2, ..., n, j = 1, ..., mn} eine triagonale Familie von<br />
Zufallsvariablen. Weiter sei ϕnj := ϕXn,j , n = 1, 2, ..., j = 1, ..., mn. Dann gilt (10.1) genau<br />
dann, falls für alle t ∈ R<br />
sup |1 − ϕnj(t)|<br />
j=1,...,mn<br />
n→∞<br />
−−−→ 0. (10.2) eq:poi1<br />
Beweis. Die Familie erfüllt (10.1) genau dann, falls Xn,jn −−−→p 0 für alle Folgen j1, j2, ....<br />
n→∞<br />
Wegen Proposition 8.4 gilt dies genau dann, wenn Xn,jn ===⇒ 0 für alle Folgen. Dies ist<br />
jedoch äquivalent zu (10.2).<br />
T:poi Theorem 10.4 (Poisson Konvergenz). Sei {Xnj : n = 1, 2, ..., n, j = 1, ..., mn} eine Familie<br />
asymptotisch vernachlässigbarer Zufallsvariablen mit Werten in Z+ und X ∼ Poi(λ). Dann<br />
gilt<br />
genau dann, wenn gilt:<br />
1.<br />
2.<br />
mn �<br />
P{Xnj > 1} n→∞<br />
−−−→ 0<br />
j=1<br />
mn �<br />
P{Xnj = 1} n→∞<br />
−−−→ λ.<br />
j=1<br />
mn �<br />
j=1<br />
Wir bereiten den Beweis mit einem Lemma vor.<br />
Xnj n→∞<br />
===⇒ X<br />
l:wC2 Lemma 10.5. Sei {λnj : n = 1, 2, ..., j = 1, ..., mn} eine triagonale Familie asymptosisch<br />
vernachlässigbarer, nicht-negativer Konstanten und λ ∈ [0; ∞]. Dann gilt<br />
mn �<br />
(1 − λnj) n→∞<br />
−−−→ e −λ<br />
j=1<br />
⇐⇒<br />
mn �<br />
j=1<br />
n→∞<br />
λnj n→∞<br />
−−−→ λ.<br />
Beweis. Zunächst sei bemerkt, dass log(1 − x) = −x + ε(x) für x > 0 mit ε(x)/x x→0<br />
−−−→ 0. Da<br />
sup j=1,...,mn λnj < 1 für große n, ist die linke Aussage äquivalent zu<br />
da<br />
mn<br />
mn<br />
�<br />
�<br />
−λ = lim log(1 − λnj) = − lim<br />
n→∞<br />
j=1<br />
Daraus folgt die Aussage.<br />
λnj<br />
n→∞<br />
j=1<br />
ε(λnj)<br />
sup λnj<br />
j=1,...,mn<br />
� ε(λnj) � �<br />
1 − = − lim<br />
n→∞<br />
−−−→ 0.<br />
λnj<br />
mn<br />
λnj,<br />
n→∞<br />
j=1
KAPITEL 10. SCHWACHE GRENZWERTSÄTZE 82<br />
Beweis von Theorem 10.4. Wir bezeichnen mit ϕn,j die Erzeugendenfunktion von Xn,j. Nach<br />
dem Levyschen Stetigkeitssatz, Theorem 9.22, (und Bemerkung 10.2.2) ist die Konvergenz-<br />
aussage der schwachen Konvergenz im Theorem äquivalent zur punktweisen Konvergenz von<br />
n→∞<br />
ϕnj(s) −−−→ e−λ(1−s) . Wegen Lemma 10.3 und 10.5 gilt dies genau dann, wenn<br />
� mn<br />
j=1<br />
mn �<br />
An(s) := (1 − ϕnj) n→∞<br />
−−−→ λ(1 − s). (10.3) eq:poi4<br />
j=1<br />
Wir zerlegen A(s) = A 1 n(s) + A 2 n(s) mit<br />
A 1 n(s) =<br />
A 2 n(s) =<br />
∞� mn<br />
mn<br />
�<br />
�<br />
(1 − s) P{Xnj = k} = (1 − s) P{Xnj > 0},<br />
k=1<br />
j=1<br />
∞�<br />
(s − s k mn �<br />
) P{Xnj = k}.<br />
k=2<br />
j=1<br />
Zunächst sei festgestellt, dass s(1 − s) ≤ s − s k ≤ s für alle k = 2, 3, .... Damit ist<br />
j=1<br />
mn �<br />
s(1 − s) P{Xnj > 1} ≤ A 2 mn �<br />
n(s) ≤ s P{Xnj > 1}. (10.4) eq:Poi5<br />
j=1<br />
Wenden wir uns nun dem Beweis der Behauptung zu.<br />
’⇒’: Gilt nun (10.3). Für s = 0 bedeutet das<br />
j=1<br />
mn<br />
mn<br />
�<br />
�<br />
P{Xnj > 0} = (1 − ϕnj(0)) n→∞<br />
−−−→ λ,<br />
j=1<br />
j=1<br />
also A1 n(s) n→∞<br />
−−−→ λ(1−s). Dann muss aber auch A2 n(s) n→∞<br />
−−−→ 0 gelten. Wegen (10.4) bedeutet<br />
dies, dass 1. gilt. Die Aussage 2. folgt daraus durch Subtraktion.<br />
’⇐’: Klar ist, dass A2 n(s) n→∞<br />
−−−→ 0 wegen (10.4). Dann gilt aber auch A1 n(s) n→∞<br />
−−−→ (1 − s)λ<br />
wegen der Voraussetzung, d.h. (10.3) ist gezeigt.<br />
Beispiel 10.6. Sei Xnj geometrisch verteilt mit Parameter pn (d.h. P{Xnj = k} = (1 −<br />
pn) kpn) und j = 1, ..., n. Damit ist Xn := �n j=1 Xnj negativ binomialverteilt mit Parametern<br />
n und pn. Falls X ∼ Poi(λ) und (1 − pn) · n n→∞<br />
−−−→ λ, so ist Xn n→∞<br />
===⇒ X. Denn es gilt<br />
n�<br />
j=1<br />
n�<br />
j=1<br />
und Theorem 10.4 liefert das Ergebnis.<br />
P{Xnj = 1} = n(1 − pn)pn n→∞<br />
−−−→ λ,<br />
P{Xnj > 1} = n(1 − pn) 2 n→∞<br />
−−−→ 0
S:ZGS<br />
KAPITEL 10. SCHWACHE GRENZWERTSÄTZE 83<br />
10.2 Der zentrale Grenzwertsatz<br />
Der zentrale Grenzwertsatz, Theorem 10.7, verallgemeinert den Satz von deMoivre Laplace.<br />
Die Verallgemeinerung besteht darin, dass beliebige Summen unabhängiger (nicht notwendig<br />
identisch verteilter) Zufallsgrößen schwach gegen eine normalverteilte Zufallsgröße konvergieren,<br />
falls sie die Lindeberg-Bedingung (siehe 2. in Theorem 10.7) erfüllen.<br />
T:ZGS Theorem 10.7 (Zentraler Grenzwertsatz von Lindeberg-Feller). Sei {Xnj : n = 1, 2, ..., j =<br />
1, ..., mn} eine Familie von Zufallsvariablen, so dass für n = 1, 2, ... die Zufallsvariablen<br />
Xn1, ..., Xnmn unabhängig sind. Sei außerdem<br />
mn �<br />
E[Xnj] n→∞<br />
−−−→ µ,<br />
j=1<br />
mn �<br />
V[Xnj] n→∞<br />
−−−→ σ 2<br />
j=1<br />
und X ∼ N(µ, σ 2 ). Dann sind folgende Aussagen äquivalent:<br />
1.<br />
2.<br />
mn �<br />
Xnj n→∞<br />
===⇒ X und sup V[Xnj]<br />
j=1,...,mn<br />
n→∞<br />
−−−→ 0,<br />
j=1<br />
mn �<br />
E[(Xnj − E[Xnj]) 2 ; |Xnj − E[Xnj]| > ε] n→∞<br />
−−−→ 0 für alle ε > 0.<br />
j=1<br />
Korollar 10.8. Seien X1, X2, ... unabhängig und identisch verteilt mit E[X1] = µ, V[X1] =<br />
σ 2 > 0. Sei Sn := � n<br />
k=1 Xk und X ∼ N(0, 1). Dann gilt<br />
Sn − nµ<br />
√ nσ 2<br />
n→∞<br />
===⇒ X.<br />
Beweis. Sei mn = n und Xnj = Xn−µ<br />
√ nσ 2 . Dann erfüllt die Familie {Xnj, n = 1, 2, ..., j = 1, ..., n}<br />
die Voraussetzungen von Theorem 10.7 mit µ = 0, σ 2 = 1. Außerdem gilt<br />
n�<br />
j=1<br />
wegen majorisierter Konvergenz.<br />
E[X 2 nj; |Xnj| > ε] = 1<br />
σ 2 E[(X1 − µ) 2 ; |Xn − µ| > ε √ nσ 2 ] n→∞<br />
−−−→ 0<br />
Bemerkung 10.9. Die Familie {Xnj : n = 1, 2, ..., j = 1, ..., mn} aus Theorem 10.7 genügt<br />
der Lyapunoff-Bedingung, falls für ein δ > 0<br />
mn �<br />
E � |Xnj − E[Xnj]| 2+δ� n→∞<br />
−−−→ 0.<br />
j=1<br />
Unter den Voraussetzungen von Theorem 10.7 impliziert die Lyapunoff-Bedingung die Lindeberg-<br />
Bedingung. Um dies zu sehen, sei Œ E[Xnj] = 0. Es gilt für alle ε ′ > 0<br />
x 2 1 {|x|>ε ′ } ≤ |x|2+δ<br />
(ε ′ ) δ 1 {|x|>ε ′ } ≤ |x|2+δ<br />
(ε ′ .<br />
) δ
KAPITEL 10. SCHWACHE GRENZWERTSÄTZE 84<br />
Gilt nun die Lyapunpff-Bedingung, so folgt die Lindeberg-Bedingung mit ε ′ ��mn = ε j=1 V[Xnj]<br />
aus<br />
�<br />
mn<br />
E[X 2 nj; |Xnj| > ε ′ ] ≤ ε −δ<br />
j=1<br />
� mn<br />
j=1 E[|Xnj| 2+δ ]<br />
� � mn<br />
j=1 V[Xnj] � δ/2<br />
da �mn n→∞<br />
j=1 V[Xnj] −−−→ σ2 nach Voraussetzung in Theorem 10.7.<br />
n→∞<br />
−−−→ 0,<br />
Der Beweis von Theorem 10.7 basiert auf der geschickten Verwendung der charakteristischen<br />
Funktionen der Zufallsvariable Xnj. Wir bereiten den Beweis des Theorems mit zwei Lemmata<br />
vor.<br />
L:ZGS1 Lemma 10.10. Für komplexe Zahlen z1, ..., zn, z ′ 1 , ..., z′ n mit |zi| ≤ 1, |z ′ i | ≤ 1 für i = 1, ..., n<br />
gilt<br />
�<br />
�<br />
�<br />
n�<br />
k=1<br />
zk −<br />
n�<br />
k=1<br />
z ′ k<br />
�<br />
�<br />
� ≤<br />
n�<br />
k=1<br />
|zk − z ′ k |. (10.5) eq:ZGS1<br />
Beweis. Für n = 1 ist die Gleichung offensichtlich richtig. Gilt (10.5) für ein n, so ist<br />
�<br />
�<br />
�<br />
n+1 �<br />
k=1<br />
�<br />
n+1<br />
zk −<br />
k=1<br />
z ′ k<br />
Daraus folgt die Behauptung.<br />
� � �<br />
� �<br />
�n<br />
� ≤ �zn+1<br />
≤<br />
n�<br />
k=1<br />
k=1<br />
zk −<br />
n�<br />
k=1<br />
z ′ k<br />
|zk − z ′ k | + |zn+1 − z ′ n+1|.<br />
�� �<br />
�� �<br />
+ �(zn+1 − z ′ n�<br />
n+1)<br />
L:ZGS2 Lemma 10.11 (Taylor-Approximation). Sei t ∈ C und n ∈ Z+. Dann gilt<br />
�<br />
�<br />
�e it −<br />
n� (it) k �<br />
�<br />
� ≤<br />
k!<br />
2|t|n<br />
n!<br />
k=0<br />
k=1<br />
z ′ k<br />
|t|n+1<br />
∧ . (10.6) eq:ZGS2<br />
(n + 1)!<br />
Beweis. Bezeichne hn(t) die Differenz auf der linken Seite. Für n = 0 folgt (10.6) aus<br />
und<br />
Allgemein gilt für t ∈ R, n ∈ N<br />
�<br />
�<br />
�<br />
� t<br />
0<br />
�<br />
�<br />
|h0(t)| = �<br />
� t<br />
� �<br />
� �<br />
hn(s)ds�<br />
= � − i(e it − 1) + i<br />
woraus (10.6) mittels Induktion folgt.<br />
0<br />
e is �<br />
�<br />
ds�<br />
≤<br />
� t<br />
|h0(t)| ≤ |e it | + 1 = 2.<br />
k=0<br />
0<br />
|e is |ds = |t|<br />
n� (it) k+1 � �<br />
� �<br />
� = �ie<br />
(k + 1)!<br />
it n+1 � (it)<br />
− i<br />
k �<br />
�<br />
� = |hn+1(t)|,<br />
k!<br />
Bemerkung 10.12. Im folgenden Beweis werden wir für Funktionen a und b genau dann<br />
a � b schreiben, falls es eine Konstante C gibt mit a ≤ Cb.<br />
k=0<br />
�<br />
�<br />
�
KAPITEL 10. SCHWACHE GRENZWERTSÄTZE 85<br />
Beweis von Theorem 10.7. Œ sei E[Xnj] = µ = 0 und σ 2 = 1; ansonsten ersetzen wir Xnj<br />
durch Xnj−E[Xnj]<br />
√ σ 2<br />
. Sei σ 2 nj := V[Xnj] sowie σ 2 n := � mn<br />
j=1 σ2 nj<br />
die charakteristische Funktion von Xnj.<br />
2. ⇒ 1. Da für jedes ε > 0<br />
j=1<br />
n→∞<br />
−−−→ 1. Bezeichne außerdem ψnj<br />
sup σ<br />
j=1,...,mn<br />
2 nj ≤ ε 2 + sup E[X<br />
j=1,...,mn<br />
2 nj; |Xnj| > ε] ≤ ε 2 mn �<br />
+ E[X 2 nj; |Xnj| > ε] n→∞<br />
−−−→ ε 2 , (10.7) eq:zTv1<br />
ist der zweite Teil von 1. bereits gezeigt.<br />
Seien (Znj)n=1,2,...,j=1,...,mn unabhängige Zufallsvariablen mit Znj ∼ N(0, σ2 nj ). Damit ist<br />
Zn := �mn j=1 Znj ∼ N(0, σ2 n). Insbesondere gilt also Zn n→∞<br />
===⇒ X. Sei � ψnj die charakteristische<br />
Funktion von Znj. Dann genügt es zu zeigen, siehe Theorem 9.22, dass<br />
nj �<br />
j=1<br />
ψnj(t) −<br />
mn �<br />
j=1<br />
für alle t. Mittels Lemma 10.10 und 10.11 haben wir<br />
� mn<br />
�<br />
�<br />
� ψnj(t) −<br />
j=1<br />
Weiter ist<br />
und<br />
mn �<br />
j=1<br />
� mn<br />
�ψnj(t)<br />
�<br />
�<br />
� ≤ |ψnj(t) − � ψnj(t)|<br />
j=1<br />
j=1<br />
�ψnj(t) n→∞<br />
−−−→ 0 (10.8) eq:ZGS4<br />
mn �<br />
≤ |ψnj(t) − 1 + 1<br />
2t2σ 2 mn �<br />
nj| + | � ψnj(t) − 1 + 1<br />
2t2σ 2 nj|<br />
j=1<br />
mn �<br />
E[X 2 mn �<br />
nj(1 ∧ |Xnj|)] ≤ ε<br />
j=1<br />
j=1<br />
j=1<br />
j=1<br />
mn �<br />
� 2 E[X 2 mn � 1<br />
−<br />
nj(1 ∧ |Xnj|) + |e 2 σ2 njt2 − 1 + 1<br />
2t2σ 2 nj|.<br />
j=1<br />
�<br />
σ 2 mn<br />
nj +<br />
j=1<br />
mn � 1<br />
−<br />
|e 2 σ2 njt2 − 1 + 1<br />
2t2σ 2 mn �<br />
nj| � σ 4 nj ≤ σ 2 n<br />
j=1<br />
E[X 2 nj; |Xnj| > ε] n→∞<br />
−−−→ ε<br />
sup σ<br />
j=1,...,mn<br />
2 nj<br />
n→∞<br />
−−−→ 0<br />
wegen (10.7). Damit ist (10.8) bereits bewiesen.<br />
1. ⇒ 2. Nach dem zweiten Teil von 1. ist für jedes ε > 0 mit der Tschebyscheff’schen Ungleichung<br />
Mit Lemma 10.11 gilt<br />
σ<br />
sup P[|Xnj| > ε] ≤ sup<br />
j=1,...,mn<br />
j=1,...,mn<br />
2 nj<br />
ε2 n→∞<br />
−−−→ 0. (10.9) eq:ZGS3a<br />
sup |ψnj(t) − 1| ≤ sup E[2 ∧ |t · Xnj|] ≤ 2 sup P[|Xnj| > ε] + ε|t|<br />
j=1,...,mn<br />
j=1,...,mn<br />
j=1,...,mn<br />
n→∞<br />
−−−→ ε|t|.
KAPITEL 10. SCHWACHE GRENZWERTSÄTZE 86<br />
Insbesondere ist � mn<br />
j=1 log ψnj(t) für jedes t definiert, falls n groß genug ist. Aus der Gültigkeit<br />
von 1. folgt<br />
mn �<br />
log ψnj(t) n→∞<br />
−−−→ − t2<br />
. (10.10) eq:ZGS5<br />
2<br />
j=1<br />
Außerdem gilt wegen ψ ′ nj (0) = iE[Xnj] = 0, ψ ′′<br />
Taylorentwicklung von ψnj um 0<br />
und<br />
|ψnj(t) − 1| � σ 2 nj|t| 2<br />
� mn<br />
mn<br />
�<br />
�<br />
�<br />
� mn<br />
�<br />
�<br />
� log ψnj(t) − (ψnj(t) − 1) � � |ψnj(t) − 1| 2<br />
j=1<br />
j=1<br />
j=1<br />
mn �<br />
� (σ 2 nj) 2 |t| 4 � |t| 4<br />
j=1<br />
nj (0) = −V[Xnj] = −σ 2 nj<br />
sup σ<br />
j=1,...,mn<br />
2 nj<br />
n→∞<br />
−−−→ 0.<br />
mit Hilfe einer<br />
Da aus der Konvergenz einer imaginären Reihe die Konvergenz ihres Realteils folgt, folgern<br />
wir aus (10.10) und (10.11) wegen Re(ψnj(t)) = E[cos(tXnj)]<br />
Für ε > 0 ist nun<br />
Aus 0 ≤ 1 − cos(θ) ≤ θ2<br />
2<br />
0 ≤ lim sup<br />
n→∞<br />
mn �<br />
j=1<br />
lim sup<br />
n→∞<br />
mn �<br />
E[cos(tXnj) − 1] n→∞<br />
−−−→ − t2<br />
2<br />
j=1<br />
�<br />
�<br />
� t2<br />
2 −<br />
mn �<br />
�<br />
�<br />
E[1 − cos(tXnj); |Xnj| ≤ ε] �<br />
folgt nun<br />
j=1<br />
= lim sup<br />
n→∞<br />
� lim sup<br />
n→∞<br />
≤ 1<br />
ε 2<br />
mn �<br />
j=1<br />
mn �<br />
E[1 − cos(tXnj); |Xnj| > ε]<br />
j=1<br />
mn �<br />
P[|Xnj| > ε]<br />
j=1<br />
σnj = 1<br />
.<br />
ε2 E[X 2 nj; |Xnj| > ε] = lim inf<br />
n→∞<br />
≤ lim sup<br />
n→∞<br />
≤ 1<br />
ε2 ,<br />
t2 mn �<br />
1 − E[X 2 nj; |Xnj| ≤ ε]<br />
j=1<br />
1 − 2<br />
t 2<br />
nach (10.12). Da t, ε > 0 willkürlich waren, ist 2. gezeigt.<br />
mn �<br />
E[1 − cos(tXnj); |Xnj| ≤ ε]<br />
j=1<br />
(10.11) eq:ZGS6<br />
(10.12) eq:ZGS4a
S:multi<br />
KAPITEL 10. SCHWACHE GRENZWERTSÄTZE 87<br />
10.3 Mehrdimensionale Grenzwertsätze<br />
Bisher haben wir schwache Grenzwertsätze nur für den Fall R–wertiger Zufallsvaraiblen betrachtet.<br />
Wir verallgmeinern dies nun zu R d –wertigen Zufallsgrößen. Insbesondere geben wir<br />
eine Variante des mehrdimensionalen zentralen Grenzwertsatzes an.<br />
def:mdN Definition 10.13. Seien µ ∈ Rd und C ∈ Rd×d eine strikt positiv definite symmetrische<br />
Matrix (d.h. xCx > 0 alle x ∈ Rd ). Die d-dimensionale Normalverteilung mit Erwartungswert<br />
µ und Covarianzmatric C ist das Wahrscheinlichkeitsmaß Nµ,C auf Rd mit Dichte<br />
1<br />
�<br />
fµ,C(x) = � exp −<br />
(2π) d det(C) 1<br />
2 (x − µ)C−1 �<br />
(x − µ) .<br />
Proposition 10.14. Seien µ ∈ R d , C = AA T ∈ R d×d eine strikt positiv definite symmetrische<br />
Matrix und I die d-dimensionale Einheitsmatrix. Ist X ∼ Nµ,C, so gilt<br />
1. X d = AY + µ für Y ∼ N0,I<br />
2. E[Xi] = µi für i = 1, ..., d<br />
3. COV[Xi, Xj] = Cij für i, j = 1, ..., d<br />
Außerdem sind äquivalent:<br />
4. X ∼ Nµ,C<br />
5. tX ∼ NtX,tCt für jedes t ∈ R d<br />
6. ψX(t) = eitµ 1<br />
−<br />
e 2 tCt für jedes t ∈ Rd .<br />
Beweis. 1. ist eine Anwendung des Transformationssatzes. Für B ∈ B(Rd ) und T : y ↦→ Ay+µ<br />
ist<br />
N0,I(T −1 �<br />
1<br />
(B)) = �<br />
(2π) d<br />
T −1 1<br />
−<br />
e 2<br />
(B)<br />
yy dy<br />
y=A−1 �<br />
(x−µ) 1 1<br />
= � exp<br />
(2π) d det A B<br />
� − 1<br />
2 (x − µ)(AT ) −1 A −1 (x − µ) � dx<br />
�<br />
1<br />
= � exp<br />
(2π) d det C B<br />
� − 1<br />
2 (x − µ)C−1 (x − µ) � dx<br />
2. folgt aus 1. mit<br />
= Nµ,C(B).<br />
E[Xi] = E[πi(AY + µ)] = πiµ = µi,<br />
wobei πi die Projektion auf die i-te Koordinate ist.<br />
3. folgt ebenso aus 1. mit<br />
COV[Xi, Xj] = E[(πiAY )(πjAY )] = E[(Ai·Y )(Aj·Y )] = E[Ai·Y Y Aj·] = Ai·Aj· = (AA T )ij = Cij.<br />
’4. ⇒ 5.’: Da X d = AY + µ wie in 1., ist tX = tAY + tµ als Linearkombination von Normalverteilungen<br />
wieder normalverteilt. Der Erwartungswert ist offenbar tµ und die Varianz<br />
V[tX] = E[(tAY ) 2 ] = E[tAY Y A T t] = tAA T t = tCt.
KAPITEL 10. SCHWACHE GRENZWERTSÄTZE 88<br />
’5. ⇒ 6.’: Da tX ∼ Ntµ,tCt, folgt die Aussage aus Beispiel 9.10.2.<br />
’6. ⇒ 4.’: Dies folgt aus Proposition 9.8.<br />
Bemerkung 10.15. Falls C in Definition 10.13 zwar positiv, aber nicht strikt positiv definit<br />
ist (d.h. es gibt x ∈ R d , x �= 0 mit xCx = 0), kann man Nµ,C nicht durch Angabe der<br />
Dichte wie in obiger Definition bestimmen. In diesem Fall definiert man Nµ,C durch Angabe<br />
der charakteristischen Funktion, d.h. Nµ,C ist die eindeutig bestimmte Verteilung auf R d mit<br />
ψNµ,C (t) = eitµ 1<br />
−<br />
e 2 tCt .<br />
Pr:cwd Proposition 10.16 (Cramer-Wold Device). Sind X, X1, X2, ... Zufallsvariablen mit Werten<br />
in Rd . Dann gilt Xn n→∞<br />
===⇒ X genau dann, falls tXn n→∞<br />
===⇒ tX für alle t ∈ Rd .<br />
Beweis. ’⇒’: Sei t ∈ Rd und f ∈ Cb(R). Dann ist f(t·) ∈ Cb(Rd ). Damit gilt E[f(tXn)] n→∞<br />
−−−→<br />
E[f(tX)], d.h. tXn n→∞<br />
===⇒ tX.<br />
’⇐’: Sei πi die Projektion auf die i-te Koordinate. Da (πiXn)n=1,2,... nach Korollar 8.20 straff<br />
für alle i ist, sieht man, dass (Xn)n=1,2,... straff ist. Da {x ↦→ eitx : t ∈ Rd } eine separierende<br />
Funktionenklasse ist, folgt die Behauptung aus E[eitXn ] n→∞<br />
−−−→ E[eitX ] für alle t ∈ Rd und<br />
Proposition 9.3.<br />
Theorem 10.17 (Mehrdimensionaler zentraler Grenzwertsatz). Seien X1, X2, ... unabhängige,<br />
identische verteilte Zufallsvariablen mit Werten in R d mit E[Xn] = µ ∈ R d und<br />
COV[Xn,i, Xn,j] = Cij für i, j = 1, ..., d und Sn = � n<br />
i=1 Xi. ist X ∼ N0,C, so gilt<br />
Sn − nµ<br />
√ n<br />
n→∞<br />
===⇒ X.<br />
Beweis. Wir wenden den eindimensionalen zentralen Grenzwertsatz auf die unabhängigen,<br />
identisch verteilten Zufallsvariablen tX1, tX2, ... an. Dieser liefert<br />
t Sn − nµ<br />
√ n<br />
n→∞<br />
===⇒ tX.<br />
Da t beliebig war, folgt die Aussage aus Proposition 10.16.