02.12.2012 Aufrufe

Grundlagen der Stochastik - Georg-August-Universität Göttingen

Grundlagen der Stochastik - Georg-August-Universität Göttingen

Grundlagen der Stochastik - Georg-August-Universität Göttingen

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

<strong>Grundlagen</strong> <strong>der</strong> <strong>Stochastik</strong><br />

In Anlehnung an die Vorlesung ’<strong>Grundlagen</strong> <strong>der</strong> <strong>Stochastik</strong>’ an <strong>der</strong> <strong>Georg</strong>-<strong>August</strong>-<strong>Universität</strong> <strong>Göttingen</strong><br />

von PD Dr. Fiebig im Wintersemester 2007/2008<br />

Kirsten Bolze<br />

<strong>Göttingen</strong>, bolze@math.uni-goettingen.de<br />

Frank Werner<br />

<strong>Göttingen</strong>, fwerner@math.uni-goettingen.de


2 Inhaltsverzeichnis<br />

Inhaltsverzeichnis<br />

Inhaltsverzeichnis 2<br />

Literatur 4<br />

Vorwort 5<br />

1 Grundbegriffe 6<br />

1.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7<br />

1.1.1 Mengentheoretische Verknüpfungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 7<br />

1.1.2 Relative Häufigkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8<br />

1.1.3 Axiomatik nach Kolmogoroff (1939) . . . . . . . . . . . . . . . . . . . . . . . . . . 8<br />

1.2 Laplace Experimente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11<br />

1.3 Allgemeine diskrete Wahrscheinlichkeitsräume und -funktionen . . . . . . . . . . . . . . . 13<br />

1.4 Siebformeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15<br />

1.4.1 Allgemeine Siebformeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15<br />

1.4.2 Die Bonferroni-Ungleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17<br />

1.4.3 Anwendung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20<br />

2 Kombinatorik 22<br />

2.1 Binomial- und Hypergeometrische Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . 26<br />

2.1.1 Ziehen mit Zurücklegen (Binomialverteilung) . . . . . . . . . . . . . . . . . . . . . 26<br />

2.1.2 Ziehen ohne Zurücklegen (Hypergeometrische Verteilung) . . . . . . . . . . . . . . 27<br />

2.2 Das Stimmzettelproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28<br />

3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 31<br />

3.1 Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31<br />

3.2 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33<br />

3.3 Mehrstufige Experimente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38<br />

3.3.1 Bemerkung zu bedingten Wahrscheinlichkeiten in mehrstufigen Modellen . . . . . 40<br />

3.4 Produkt-Experimente und spezielle Verteilungen . . . . . . . . . . . . . . . . . . . . . . . 43<br />

3.4.1 Mit Produktexperimenten zusammenhängende Verteilungen . . . . . . . . . . . . . 45<br />

4 Zufallsvariablen, Verteilungen 48<br />

4.1 Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48<br />

4.1.1 Unabhängigkeit von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . 51<br />

4.2 Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56<br />

4.2.1 Eigenschaften <strong>der</strong> Possionverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 59<br />

5 Kenngrößen von Verteilungen 60<br />

5.1 Der Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60<br />

5.1.1 Erwartungswerte einiger Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . 60<br />

5.1.2 Eigenschaften des Erwartungswertes . . . . . . . . . . . . . . . . . . . . . . . . . . 62<br />

5.1.3 Produktformel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64<br />

5.2 Varianzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65<br />

5.2.1 Varianzen einiger diskreter Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . 69<br />

6 Wahrscheinlichkeitsungleichungen und das SGGZ 72<br />

6.1 Das schwache Gesetz großer Zahlen (SGGZ) . . . . . . . . . . . . . . . . . . . . . . . . . . 72<br />

6.1.1 Spezialfall - Das SGGZ von Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . 73<br />

6.2 Exponential-Ungleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74<br />

7 Faltung, bedingte Verteilungen und Korrelation 77<br />

7.1 Die Faltung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77<br />

7.1.1 Spezialfall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78<br />

7.1.2 Faltungen einiger wichtiger Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . 78<br />

7.2 Bedingte Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80<br />

7.2.1 Der bedingte Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82<br />

7.2.2 Die bedingte Erwartung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82<br />

7.2.3 Anwendung <strong>der</strong> iterierten Erwartung . . . . . . . . . . . . . . . . . . . . . . . . . . 83<br />

7.2.4 Anwendung des allgemeineren Satzes (Satz 7.23) . . . . . . . . . . . . . . . . . . . 84<br />

7.3 Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85


Inhaltsverzeichnis 3<br />

8 Erzeugende Funktion und Verzweigungsprozesse 87<br />

8.1 Verzweigungsprozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92<br />

8.1.1 Modellbildung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92<br />

8.1.2 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92<br />

8.1.3 Aussterbewahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92<br />

9 Grenzwertsatz von de Moivre-Laplace 95<br />

9.1 Normalapproximation <strong>der</strong> Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . 95<br />

9.2 Anwendung I: Normalapproximation <strong>der</strong> Binomialverteilung . . . . . . . . . . . . . . . . . 98<br />

9.3 Anwendung II: Bestimmung eines Stichprobenumfangs . . . . . . . . . . . . . . . . . . . . 99<br />

10 Allgemeine Modelle und stetige Verteilungen 100<br />

10.1 Allgemeine Wahrscheinlichkeitsräume und Zufallsvariablen . . . . . . . . . . . . . . . . . . 100<br />

10.2 Wahrscheinlichkeitsverteilungen auf R, reelle Zufallsvariablen, Verteilungsfunktionen . . . 102<br />

10.3 Stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104<br />

10.4 Zufallsvariablen mit stetiger Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105<br />

10.4.1 Die Gleichverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105<br />

10.4.2 Die Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106<br />

10.4.3 Die Exponentialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106<br />

10.4.4 Die Pareto-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107<br />

10.4.5 Die Cauchy-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108<br />

10.4.6 Die Gamma-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108<br />

10.5 Berechnung und Transformation von Dichten . . . . . . . . . . . . . . . . . . . . . . . . . 108<br />

10.6 Erwartungswert und Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111<br />

10.7 Mehrdimensionale stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114<br />

10.8 Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117<br />

10.9 Die mehrdimensionale Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122<br />

10.9.1 Folgerungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125<br />

10.10Wahrscheinlichkeitsverteilungen und <strong>der</strong> zentrale Grenzwertsatz . . . . . . . . . . . . . . . 125<br />

10.10.1Die Jensen’sche Ungleichung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126<br />

10.10.2Der zentrale Grenzwertsatz (ZGWS) . . . . . . . . . . . . . . . . . . . . . . . . . . 127<br />

11 Markov-Ketten mit endlichem Zustandsraum 133<br />

11.1 Steuerung <strong>der</strong> Sprünge: Übergangsmatrizen und -graphen . . . . . . . . . . . . . . . . . . 133<br />

11.1.1 Potenzen <strong>der</strong> Matrix P . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135<br />

11.1.2 Die Periode einer Übergangsmatrix . . . . . . . . . . . . . . . . . . . . . . . . . . . 136<br />

11.2 Markov-Ketten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139<br />

11.2.1 Drei elementare Wahrscheinlichkeiten von Markov-Ketten . . . . . . . . . . . . . . 140<br />

11.3 Invariante Maße und Konvergenzsätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141<br />

11.4 Rückkehrzeiten und starkes Gesetz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146<br />

11.4.1 Der Rückkehrzeitensatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147<br />

11.5 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150<br />

11.5.1 Irrfahrt auf ungerichtetem Graphen . . . . . . . . . . . . . . . . . . . . . . . . . . 150<br />

11.5.2 Ehrenfeld-Diffusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152<br />

12 Schätzer und statistische Tests 154<br />

12.1 Punktschätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154<br />

12.1.1 ML-Schätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155<br />

12.1.2 Erwartungstreue Schätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156<br />

12.2 Statistische Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159<br />

12.2.1 Der einseitige Gaußtest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161<br />

12.2.2 Der t-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162<br />

A Tabelle <strong>der</strong> Standardnormalverteilung 163<br />

B Kenngrößen <strong>der</strong> wichtigsten Verteilungen 164<br />

B.1 Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164<br />

B.2 Stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165<br />

Stichwortverzeichnis 166


4 Literatur<br />

Literatur<br />

[Dehling/Haupt] Herold Dehling, Beate Haupt : Einführung in die Wahrscheinlichkeitstheorie und<br />

Statistik<br />

Springerverlag Berlin, 1. Auflage 2007, 306 Seiten, ISBN: 3-540-20380-X<br />

[Krengel] Ulrich Krengel: Einführung in die Wahrscheinlichkeitstheorie und Statistik<br />

Viewegverlag, 8. Auflage 2005, 257 Seiten, ISBN: 3-834-80063-5


Vorwort 5<br />

Vorwort<br />

Dieses Skript ist unter einigem Arbeitsaufwand während <strong>der</strong> Vorlesung ” <strong>Grundlagen</strong> <strong>der</strong> <strong>Stochastik</strong>“ von<br />

PD Dr. Fiebig im Wintersemester 2007/2008 an <strong>der</strong> <strong>Georg</strong>-<strong>August</strong>-<strong>Universität</strong> <strong>Göttingen</strong> entstanden.<br />

Der Begriff <strong>der</strong> <strong>Stochastik</strong> umfasst heutzutage die Unterbegriffe <strong>der</strong> Wahrscheinlichkeitstheorie und <strong>der</strong><br />

Statistik. Die Wahrscheinlichkeitstheorie umfasst dabei die Wahrscheinlichkeitsgesetze und das Studium<br />

wahrscheinlichkeitstheoretischer Modelle mit mathematischen Methoden, während die Statistik sich mit<br />

<strong>der</strong> Analyse und Modellierung von Datenstrukturen befasst. Die Ursprünge <strong>der</strong> <strong>Stochastik</strong> als Wissenschaft<br />

gehen auf das Glücksspiel (Würfeln, Kartenspiel etc.) zurück und liegen etwa um 1630. Als erste<br />

stellten Menschen wie Pascal o<strong>der</strong> Fermat Fragen wie ” Was ist wahrscheinlicher? Bei vier Würfen mit<br />

einem Würfel eine 6 o<strong>der</strong> bei 24 Würfen mit zwei Würfeln eine Doppel-6 zu haben?“<br />

Der Begriff <strong>der</strong> Wahrscheinlichkeit selbst wurde dann im Wesentlichen von Laplace (1749-1827) geprägt.<br />

Die axiomatische Einführung eines Wahrscheinlichkeitsraumes kam allerdings erst 1933 durch Kolmogoroff.<br />

Heutzutage findet die <strong>Stochastik</strong> in vielen Gebieten Anwendung. Zum Beispiel in <strong>der</strong> Informatik bei Datenkompression,<br />

Spracherkennung, maschinellem Lernen o<strong>der</strong> Netzwerken, in <strong>der</strong> Technik bei <strong>der</strong> Qualitätskontrolle<br />

o<strong>der</strong> <strong>der</strong> Signalerkennung, in <strong>der</strong> Finanzmathematik bei <strong>der</strong> Berechnung von Prämien o<strong>der</strong><br />

in <strong>der</strong> Biologie und Medizin bei <strong>der</strong> Bil<strong>der</strong>kennung o<strong>der</strong> <strong>der</strong> DNA-Analyse.<br />

In sich ist die <strong>Stochastik</strong> ein Wechselspiel zwischen Modellen und Daten, wobei von den Modellen aus<br />

Prognosen für die Daten getätigt werden und gleichzeitig mittels Daten bereits bestehende Modelle geprüft<br />

und neue Modelle geschaffen werden.<br />

Es handelt sich hierbei ausdrücklich nur um eine studentische Mitschrift, nicht um ein offiziell vom Dozenten<br />

herausgegebenes Skript. Trotz großer Anstrengungen sind sicherlich einige Fehler mathematischer<br />

wie auch sprachlicher Natur im Skript verblieben, was hoffentlich nicht allzu große Schwierigkeiten für<br />

das Verständnis aufwerfen wird.<br />

<strong>Göttingen</strong>, 23. Januar 2009<br />

Kirsten Bolze, Frank Werner


6 1 Grundbegriffe<br />

Motivation<br />

Zur Motivation wollen wir zwei Beispiele für stochastische Modelle angeben.<br />

• Europäische Call-Option<br />

Dieses Beispiel kommt aus <strong>der</strong> Finanzmathematik. Wir nehmen folgende Situation an: Zum Zeitpunkt<br />

t0 = 0 (heute) kaufe ich das Recht, zu einem Preis k eine Aktie zum Zeitpunkt t1 > 0 kaufen<br />

zu können. Die Frage, die sich dort stellt, ist: Was kostet dieses Recht?<br />

Eine mögliche Antwort auf diese Frage wurde 1973 durch Black / Scholes unter Benutzung eines<br />

stochastischen Modells zur Entwicklung <strong>der</strong> Preisentwicklung gegeben:<br />

C = S(0) · Φ(ω) − k · exp (−r) · Φ � ω − σ √ �<br />

t1<br />

Dabei ist S(0) <strong>der</strong> heutige Preis <strong>der</strong> Aktie, r ein festgesetzter Zinssatz und σ die Voluntarität<br />

(Schwankung) des Marktes. ω ist gegeben als<br />

ω =<br />

2 t1<br />

rt1 + σ 2 − log<br />

σ √ t1<br />

� �<br />

k<br />

S(0)<br />

und Φ ist die Verteilungsfunktion <strong>der</strong> Standard-Normalverteilung, d.h.<br />

Φ(ω) =<br />

�ω<br />

−∞<br />

�<br />

1<br />

√ exp −<br />

2π x2<br />

�<br />

dx<br />

2<br />

Für dieses Modell wurde 1997 <strong>der</strong> Nobelpreis für Ökonomie verliehen.<br />

• Spracherkennung<br />

Sei A die Mikrofonaufnahme eines gesprochenen Wortes. Für jedes Wort wi in <strong>der</strong> deutschen Sprache<br />

sei Wi das Ereignis<br />

” wi wurde gesprochen“<br />

Gesucht ist nun das Wort wi, das <strong>der</strong> Sprecher tatsächlich gesagt hat, d.h. mit unserem Modell das<br />

Wort wi, für welches<br />

P (wi | A)<br />

am größten ist. Praktisch lassen wir dabei i den Zahlenbereich i = 1,...,100.000 o.Ä. durchlaufen,<br />

um alle Wörter <strong>der</strong> deutschen Sprache abzudecken.<br />

Eine Spracherkennungssoftware tut nun Folgendes: Sie berechnet für jedes (!) i mit Hilfe stochastischer<br />

Aussprachemodelle die Wahrscheinlichkeit P (A | wi). Aus Tabellen entnimmt sie zusätzlich<br />

die relative Häufigkeit P (Wi) mit <strong>der</strong> das Wort wi in <strong>der</strong> deutschen Sprache auftritt. Dann nutzen<br />

wir die Bayes-Formel<br />

P (A | wi) · P (Wi)<br />

P (wi | A) =<br />

100.000 �<br />

P (A | wk) · P (Wk)<br />

k=1<br />

Der Nenner dieses Ausdrucks hängt nicht von i ab, daher ist P (wi | A) maximal genau dann, wenn<br />

P (A | wi) · P (Wi) maximal ist.<br />

1 Grundbegriffe<br />

1.1 Definition:<br />

Unter einem Zufallsexperiment verstehen wir ein Experiment, dessen Ausgang nicht durch die Versuchsbedingungen<br />

bestimmt ist.<br />

Unser Ziel in diesem Abschnitt soll es sein, Zufallsexperimente zu modellieren.


1 Grundbegriffe 7<br />

1.1 Einführung<br />

1.2 Definition:<br />

Ein diskreter Grundraum Ω = {ω1,ω2,...} ist eine nicht leere, abzählbare (o<strong>der</strong> endliche) Menge.<br />

Ein Element ω ∈ Ω nennen wir Ergebnis, eine Teilmenge A ⊆ Ω ein Ereignis.<br />

Beispiel 1.3:<br />

Für einen Würfelwurf mit einem Würfel wäre Ω = {1,2,3,4,5,6}. 5 ∈ Ω entspricht dann dem Ergebnis<br />

” 5 wurde geworfen“ und {2,4,6} dem Ereignis eine gerade Zahl wurde gewürfelt“.<br />

”<br />

1.4 Definition:<br />

Sei Ω ein diskreter Grundraum. Wir nennen<br />

• Ω ⊆ Ω das sichere Ereignis und<br />

• ∅ ⊆ Ω das unmögliche Ereignis.<br />

1.1.1 Mengentheoretische Verknüpfungen<br />

Beispiel 1.5:<br />

Wir betrachten einen zweifachen Würfelwurf. Ein geeigneter Grundraum hier ist<br />

Ω = {1,2,3,4,5,6) × {1,2,3,4,5,6) = {1,2,3,4,5,6} 2 = {(i,j) | i,j ∈ N, 1 ≤ i,j ≤ 6}<br />

Wir betrachten die Ereignisse<br />

Diese Ereignisse entsprechen dann den Teilmengen<br />

und<br />

A = ” Beim ersten Wurf wird eine 6 gewürfelt“<br />

A = ” Beim zweiten Wurf wird eine 3 gewürfelt“<br />

A = {(6,i) | i ∈ N, 1 ≤ i ≤ 6} ⊂ Ω<br />

B = {(j,3) | j ∈ N, 1 ≤ j ≤ 6}<br />

Dann ist A ∩B = {(6,3)} und das entspricht dem Ereignis, dass sowohl A als auch B eintreten, d.h. dass<br />

im ersten Wurf eine 6 und im zweiten Wurf eine 3 kommt.<br />

1.6 Definition:<br />

Sei Ω ein diskreter Grundraum und seien Ai, i ∈ N sowie A,B Ereignisse. Dann entsprechen<br />

• ” A und B treten ein“ dem Ereignis A ∩ B<br />

• ” A o<strong>der</strong> B treten ein“ dem Ereignis A ∪ B<br />

• ” Jedes <strong>der</strong> Ai, i ∈ N ist eingetreten“ dem Ereignis �<br />

Ai<br />

i∈N<br />

• ” Mindestens eins <strong>der</strong> Ai, i ∈ N ist eingetreten“ dem Ereignis �<br />

• ” A ist nicht eingetreten“ dem Ereignis A c := Ω \ A.<br />

Ai<br />

i∈N<br />

Man kann sich mittels Venn-Diagrammen gut Verknüpfungen von Ereignissen verdeutlichen.<br />

1.7 Definition:<br />

Sei Ω ein diskreter Grundraum und seien Ai ⊆ Ω, i ∈ N paarweise disjunkte Ereignisse, d.h.<br />

i �= j ⇒ Ai ∩ Aj = ∅<br />

Dann schreiben wir auch �<br />

Ai =: �<br />

i∈N<br />

i∈N<br />

Ai


8 1 Grundbegriffe<br />

1.1.2 Relative Häufigkeiten<br />

Wir wollen nun Ereignissen Wahrscheinlichkeiten zuordnen. Unsere Motivation dafür sind sogenannte<br />

relative Häufigkeiten:<br />

1.8 Definition:<br />

Sei Ω0 ein diskreter Grundraum. Die relative Häufigkeit eines Ereignisses A ⊆ Ω0 in einer Folge von<br />

Relationen ω1,ω2,...,ωn aus gleichwertigen Experimenten ist definiert als<br />

Beispiel 1.9:<br />

rn (A) := 1<br />

n # {j = 1,...,n | ωj ∈ A}<br />

Bei 300 Würfen einer Reißzwecke landet 124 mal die Spitze oben, sonst landet <strong>der</strong> Kopf oben. Sei ” 1“<br />

das Ergebnis ” Spitze nach oben“ und ” 0“ das Ergebnis ” Kopf nach oben“. Dann ist<br />

Ω := {0,1} 300 = {(ω1,...,ω300) | ωi ∈ {0,1} ∀ 1 ≤ i ≤ 300}<br />

ein geeigneter Grundraum für dieses Experiment. Außerdem setzt man Ω0 := {0,1} als den Grundraum<br />

für einen einfachen Wurf <strong>der</strong> Reißzwecke fest. Entsprechend ist für n = 300 also<br />

und es gilt rn ({1}) = 1<br />

300 · 124.<br />

Ω = Ω n 0<br />

Wir wollen nun einige offensichtliche Eigenschaften relativer Häufigkeiten in einem Lemma festhalten:<br />

1.10 Lemma:<br />

Es gelten die folgenden Relationen:<br />

• 0 ≤ rn (A) ≤ 1 ∀ A ⊆ Ω0.<br />

• rn (Ω0) = 1.<br />

• rn (A + B) = rn (A) + rn (B) für A,B ⊆ Ω mit A ∩ B = ∅.<br />

Die Idee ist nun, dass die relativen Häufigkeiten rn (A) für n ��<br />

∞ gegen die Wahrscheinlichkeit P (A)<br />

eines Ereignisses A konvergieren. Das macht in sofern Sinn, dass man beobachten kann, wie sich die<br />

relativen Häufigkeiten für immer größer werdendes n stabilsieren. Um diese Aussage auch beweisen zu<br />

können, brauchen wir nun eine geeignete Axiomatik.<br />

1.1.3 Axiomatik nach Kolmogoroff (1939)<br />

1.11 Definition:<br />

Ein diskreter Wahrscheinlichkeitsraum ist ein Paar (Ω,P), wobei Ω ein diskreter Grundraum und<br />

P eine auf den Teilmengen P (Ω) definierte reellwertige Funktion ist, welche die folgenden Axiome erfüllt:<br />

(A1) Positivität<br />

Es gilt P (A) ≥ 0 für alle A ⊆ Ω.<br />

(A2) Normiertheit<br />

Es gilt P (Ω) = 1.<br />

(A3) σ-Additivität<br />

Für jede Folge paarweise disjunkter Teilmengen A1,A2,... ⊆ Ω gilt<br />

�<br />

∞�<br />

�<br />

∞�<br />

P = P (Ai)<br />

i=1<br />

Ai<br />

P heißt Wahrscheinlichkeitsmaß o<strong>der</strong> auch (Wahrscheinlichkeits-)Verteilung auf Ω. P(A) ist die<br />

Wahrscheinlichkeit des Ereignisses A ⊂ Ω.<br />

i=1


1 Grundbegriffe 9<br />

Folgerung 1.12 (Rechenregeln):<br />

(R1) Es ist P(∅) = 0.<br />

(R2) Es gilt Additivität, d.h.<br />

Beweis:<br />

P<br />

� n�<br />

i=1<br />

Ai<br />

�<br />

=<br />

n�<br />

P(Ai)<br />

i=1<br />

für endlich viele paarweise disjunkte Mengen A1,...,An.<br />

(R1) Setze Ai = ∅ für i = 1,2,3,.... Dann gilt<br />

�<br />

∞�<br />

R ∋ P(∅) = P<br />

i=1<br />

Aus <strong>der</strong> Konvergenz <strong>der</strong> Summe folgt P(∅) = 0.<br />

(R2) Setze in (A3) Ai = ∅ für i > n und benutze (R1).<br />

Ai<br />

�<br />

(A3)<br />

=<br />

∞�<br />

∞�<br />

P(Ai) = P(∅)<br />

In <strong>der</strong> <strong>Stochastik</strong> sollten die Ergebnisse, die man aus <strong>der</strong> Modellierung erhält, empirisch verifiziert werden.<br />

Beim Wurf <strong>der</strong> Reißzwecke setzt man z.B. Ω = {0,1}, P(1) = 0.4 und P(0) = 0.6 (wobei 1 ” Spitze oben“<br />

bedeutet) und bestätigt sich dies so in unserem Versuch mit 300 Würfen, denn<br />

1.13 Definition:<br />

i=1<br />

i=1<br />

r300(1) = 124<br />

300 ≈ 0.4 und r300(0) = 176<br />

≈ 0.6<br />

300<br />

Sei Ω eine Menge und A ⊆ Ω eine Teilmenge. Wir wollen das Komplement von A bezeichnen mit<br />

Wir erinnern uns an die de Morgan’schen Regeln:<br />

1.14 Hilfssatz:<br />

Für zwei Mengen M und N gelten:<br />

Beweis:<br />

A c := Ω \ A<br />

M c ∪ N c = (M ∩ N) c<br />

M c ∩ N c = (M ∪ N) c<br />

Sei x ∈ M c ∪ N c . Dann gilt sicherlich entwe<strong>der</strong> x ∈ M c o<strong>der</strong> x ∈ N c (o<strong>der</strong> beides), d.h. x /∈ M o<strong>der</strong><br />

x /∈ N (o<strong>der</strong> beides). Daher ist x /∈ M ∩ N und daher<br />

x ∈ (M ∩ N) c<br />

Ist an<strong>der</strong>sherum x ∈ (M ∩ N) c , so ist x /∈ M ∩ N und daher entwe<strong>der</strong> x /∈ N o<strong>der</strong> x /∈ M (o<strong>der</strong> beides).<br />

Entsprechend gilt sicherlich x ∈ M c o<strong>der</strong> x ∈ N c was (1.1) zeigt.<br />

Sei x ∈ M c ∩ N c . Dann ist x ∈ M c und x ∈ N c , d.h. x /∈ M und x /∈ N. Daher gilt auch x /∈ M ∪ N und<br />

entsprechend<br />

x ∈ (M ∪ N) c<br />

Ist an<strong>der</strong>sherum x ∈ (M ∪ N) c , so ist x /∈ M ∪ N, also x /∈ M und x /∈ N. Das hat aber x ∈ M c und<br />

x ∈ N c zur Folge und daher gilt<br />

x ∈ M c ∩ N c<br />

Das zeigt (1.2).<br />

Bemerkung 1.15:<br />

Natürlich verallgemeinern die de Morgan’schen Regeln sich direkt auf unendliche Vereinigungen und<br />

Schnitte. Sind Ai, i ∈ N Mengen, so gilt:<br />

∞�<br />

A c �<br />

∞�<br />

�c i =<br />

(1.3)<br />

i=1<br />

∞�<br />

i=1<br />

A c i =<br />

Der Beweis dieser Aussage ist analog zu Hilfssatz 1.14.<br />

i=1<br />

� ∞�<br />

i=1<br />

Ai<br />

Ai<br />

� c<br />

(1.1)<br />

(1.2)<br />

(1.4)


10 1 Grundbegriffe<br />

1.16 Lemma (weitere Rechenregeln):<br />

Sei (Ω,P) ein diskreter Wahrscheinlichkeitsraum. A,B und Ai seien Ereignisse für i ∈ N. Dann gilt:<br />

(R3) P(A) = 1 − P(A c )<br />

(R4) P(A) ≤ 1 für alle A ⊂ Ω<br />

(R5) P(A \ B) = P(A) − P(B) falls B ⊂ A<br />

(R6) P(B) ≤ P(A), wenn B ⊂ A (Monotonie)<br />

(R7) Für beliebige endliche o<strong>der</strong> unendliche Folgen A1,A2,A3,... gilt (Boole’sche Ungleichung)<br />

�<br />

�<br />

P<br />

�<br />

≤ �<br />

P(Ai)<br />

i<br />

Ai<br />

(R8) Falls A1 ⊂ A2 ⊂ A3 ⊂ ..., so gilt (Stetigkeit von unten)<br />

�<br />

∞�<br />

�<br />

P Ai = lim P(Ai)<br />

i→∞<br />

i=1<br />

(R9) Falls A1 ⊃ A2 ⊃ A3 ⊃ ..., so gilt (Stetigkeit von oben)<br />

�<br />

∞�<br />

�<br />

P Ai = lim P(Ai)<br />

i→∞<br />

Beweis:<br />

i=1<br />

Zum Beweis werden nur die Kolmogoroff-Axiome sowie die Folgerungen (R1) und (R2) benutzt:<br />

(R3) Es gilt Ω = A ∪ Ac mit A,Ac disjunkt und damit 1 (A2)<br />

= P(Ω) = P(A ∪ Ac ) (R2)<br />

Durch Umstellen erhält man P(A) = 1 − P(A c ).<br />

(R4) Da P(A c ) (A1)<br />

≥ 0 folgt mit (R3) P(A) = 1 − P(A c ) ≤ 1.<br />

i<br />

= P(A) + P(A c ).<br />

(R5) Da A = (A \ B) ∪ B eine disjunkte Vereinigung ist, gilt laut (R2) P(A) = P(A \ B) + P(B).<br />

(R6) Nach Rechenregel (R3) ist P(B) = P(A) −P(A \B). Außerdem ist P(A \B) (A1)<br />

≥ 0 und es folgt die<br />

Behauptung.<br />

(R7) Setze B1 := A1,B2 := A2 \ A1,B3 := A3 \ (A1 ∪ A2),... d.h.<br />

Bn := An \ (A1 ∪ A2 ∪ ... ∪ An−1) für n ∈ N<br />

Die Bi sind paarweise disjunkt und Bi ⊂ Ai für alle i ∈ N. Es gilt also<br />

�<br />

Bi = �<br />

und damit<br />

P<br />

� �<br />

i∈N<br />

Ai<br />

�<br />

= P<br />

(R8) Setze die Bi wie eben. Dann gilt:<br />

�<br />

∞�<br />

P<br />

i=1<br />

� �<br />

Ai<br />

i∈N<br />

�<br />

i∈N<br />

Bi<br />

�<br />

(A3)<br />

= P<br />

(A3)<br />

=<br />

i∈N<br />

Ai<br />

�<br />

= P(Bi) (R4)<br />

≤ �<br />

P(Ai)<br />

i∈N<br />

� ∞�<br />

i=1<br />

Bi<br />

∞�<br />

P(Bi)<br />

i=1<br />

= lim<br />

n→∞<br />

i=1<br />

(R2)<br />

= lim<br />

n→∞ P<br />

�<br />

n�<br />

P(Bi)<br />

� n�<br />

i=1<br />

= lim<br />

n→∞ P(An)<br />

Bi<br />

�<br />

i∈N


1 Grundbegriffe 11<br />

(R9) Gilt A1 ⊃ A2 ⊃ ..., so ist offenbar<br />

Wir berechnen daher<br />

was die Behauptung zeigt.<br />

1.2 Laplace Experimente<br />

1.17 Definition:<br />

P<br />

� ∞�<br />

i=1<br />

Ai<br />

Ein Paar (Ω,P) heißt Laplace-Raum, wenn<br />

gilt.<br />

• Ω = {ω1,...,ωn} endlich ist und<br />

• für alle A ⊆ Ω<br />

�<br />

A c 1 ⊂ A c 2 ⊂ ...<br />

��<br />

∞�<br />

(1.4)<br />

= P<br />

(R3)<br />

= 1 − P<br />

i=1<br />

A c i<br />

� ∞�<br />

i=1<br />

� c�<br />

A c i<br />

�<br />

(R8)<br />

= 1 − lim<br />

i→∞ P (A c i)<br />

(R3)<br />

= 1 −<br />

= lim<br />

i→∞ P (Ai)<br />

�<br />

1 − lim<br />

i→∞ P (A1)<br />

P(A) = #A<br />

#Ω = # günstige Fälle“<br />

”<br />

# mögliche Fälle“<br />

”<br />

P heißt Laplace-Verteilung o<strong>der</strong> diskrete Gleichverteilung auf Ω = {ω1,...,ωn}.<br />

Bemerkung 1.18:<br />

Sei (Ω,P) ein Laplace-Raum. Dann ist<br />

Beispiel 1.19:<br />

P({ω}) = 1 1<br />

=<br />

#Ω n<br />

∀ ω ∈ Ω<br />

(1) Gegeben sei ein Würfel. Wir setzen als Grundraum Ω = {1,2,...,6} mit P als <strong>der</strong> Laplace-Verteilung.<br />

Uns interessiert das Ereignis A =“gerade Zahl“ = {2,4,6}. Dann gilt:<br />

P(A) = #A #{2,4,6}<br />

= =<br />

#Ω 6<br />

1<br />

2<br />

(2) Beim Wurf <strong>der</strong> Reißzwecke liegt kein Laplace-Raum vor, da<br />

P(1) = 0.4 �= 0.6 = P(0)<br />

(3) Man muss darauf achten den ” richtigen“ Laplace-Raum zu wählen. Beim (gleichzeitigen) Wurf<br />

zweier fairer Münzen ist die Wahrscheinlichkeit des Ereignisses<br />

gesucht.<br />

B = “einmal Kopf und einmal Zahl wird geworfen“<br />

Modell 1: Wir setzen Ω := {KK,KZ,ZK,ZZ} als Laplace-Raum. Das liefert<br />

P(B) = P ({KZ,ZK}) = #{ZK,KZ}<br />

#Ω<br />

�<br />

= 2 1<br />

=<br />

4 2


12 1 Grundbegriffe<br />

Modell 2: Wir setzen Ω := {KK,KZ,ZZ} ohne Beachtung <strong>der</strong> Ordnung - das liefert<br />

P({KZ}) = 1<br />

3<br />

Dieses Ergebnis ist empirisch wie<strong>der</strong>legbar.<br />

(4) Summe von Augenzahlen<br />

Es werde zwei Mal gewürfelt. Sei Am =“Die Augensumme ist m“ für m = 2,3,...,12.<br />

Unser Modell ist Ω = {1,2,...,6} 2 = {(i,j) | 1 ≤ i,j ≤ 6} als Laplace-Raum, d.h.<br />

Offenbar ist #Ω = 36. Nun ergibt sich<br />

P(Am) = #Am<br />

#Ω<br />

#A2 = #{(1,1)} = 1 P(A2) = 1<br />

36<br />

#A3 = #{(1,2),(2,1)} = 2 P(A3) = 2<br />

36<br />

#A4 = #{(1,3),(2,2),(3,1)} = 3 P(A4) = 3<br />

36<br />

#A5 = #{(1,4),(2,3),(3,2),(4,1)} = 4 P(A5) = 4<br />

36<br />

#A6 = #{(1,5),(2,4),(3,3),(4,2),(5,1)} = 5 P(A6) = 5<br />

36<br />

#A7 = #{(1,6),(2,5),(3,4),(4,3),(5,2),(6,1)} = 6 P(A7) = 6<br />

36<br />

#A8 = #{(2,6),(3,5),(4,4),(5,3),(6,2)} = 5 P(A8) = 5<br />

36<br />

.<br />

#A12 = #{(6,6)} = 1 P(A12) = 1<br />

36<br />

(5) Teilungsproblem des Luca Paccioli (1494)<br />

Zwei Spieler A und B wie<strong>der</strong>holen ein faires Spiel (z.B. Münzwurf). Wer zuerst sechs Spiele gewonnen<br />

hat, bekommt den gesamten Einsatz. Das Spiel muss beim Stand 5:3 abgebrochen werden. Wie ist<br />

<strong>der</strong> Einsatz gerecht aufzuteilen?<br />

Um diese Frage zu beantworten, betrachten wir Verläufe, die zu einer Entscheidung führen. Es<br />

ergeben sich die folgenden Modelle:<br />

Modell 1: A, BA, BBA, BBB. Bei dieser Betrachtung gewinnt A in 3 von 4 Fällen. Damit gehen 3<br />

4 des<br />

an Spieler B.<br />

Einsatzes an Spieler A und 1<br />

4<br />

Modell 2: AAA, AAB, ABA, ABB, BAA, BAB, BBA, BBB. Nur bei BBB gewinnt B. Nach <strong>der</strong> Definition<br />

an Spieler B.<br />

des Laplace-Raums gehen 7<br />

8<br />

des Einsatzes an Spieler A und 1<br />

8<br />

(6) Wir werfen 10 mal eine Münze. Gesucht ist die Wahrscheinlichkeit des Ereignisses<br />

C = “mindestens 1 mal tritt Kopf auf“<br />

Unser Modell ist Ω := {K,Z} 10 = {(a1,...,a10) | ai ∈ {K,Z}} als Laplace-Raum.<br />

Es folgt #Ω = 1024 und wir berechnen<br />

P(C) = #C<br />

#Ω<br />

mit Hilfe des Komplements von C, denn dieses ist einfacher zu bestimmen!<br />

P(C) = 1 − P(C c ) = 1 − #Cc<br />

#Ω = 1 − # { Es tritt kein mal Kopf auf“}<br />

” = 1 −<br />

#Ω<br />

1 1023<br />

=<br />

1024 1024<br />

(7) Maxima von Augenzahlen<br />

Es wird k mal gewürfelt. Sei m ∈ {1,2,...,6} und das Ereignis Bm =“höchste Augenzahl ist m“.<br />

Wir verwenden als Modell den Laplace-Raum<br />

Ω := {1,...,6} k = {(a1,...,ak) | ai ∈ {1,...,6}}<br />

Für 1 ≤ m ≤ 6 setze Am als das Ereignis Am =“alle Augenzahlen sind ≤ m“ fest und erhalte so<br />

P(Am) = #Am<br />

#Ω<br />

mk<br />

= .<br />

6k Dann gilt Bm = Am \ Am−1 und Am−1 ⊂ Am. Die Rechenregel (R5) liefert nun<br />

P(Bm) = P(Am) − P(Am−1) = mk (m − 1)k<br />

−<br />

6k 6k .<br />

.<br />

= mk − (m − 1) k<br />

6k .


1 Grundbegriffe 13<br />

1.3 Allgemeine diskrete Wahrscheinlichkeitsräume und -funktionen<br />

1.20 Lemma:<br />

Ist (Ω,P) ein diskreter Wahrscheinlichkeitsraum, so ist P festgelegt durch die Werte<br />

Beweis:<br />

Sei A ⊆ Ω beliebig. Dann gilt<br />

P ({ω}) , ω ∈ Ω<br />

A = �<br />

{ω} = �<br />

{ω}<br />

ω∈A<br />

und diese Vereinigung ist abzählbar, da <strong>der</strong> Grundraum Ω selbst schon abzählbar ist. Es folgt aus (A3):<br />

� �<br />

�<br />

P (A) = P {ω} = �<br />

P ({ω}) .<br />

ω∈A<br />

ω∈A<br />

ω∈Ω<br />

Daher ist P durch die Werte in <strong>der</strong> Voraussetzung bereits festgelegt.<br />

Bemerkung 1.21:<br />

Wegen (A1) und (R4) ist bereits klar, dass<br />

0 ≤ P ({ω}) ≤ 1<br />

für alle ω ∈ Ω gilt. Genauso muss nach (A2) und (A3) auch<br />

�<br />

P ({ω}) (A3)<br />

� �<br />

�<br />

= P {ω}<br />

gelten.<br />

ω∈Ω<br />

Das veranlasst uns zu folgen<strong>der</strong><br />

ω∈Ω<br />

= P (Ω) (A2)<br />

= 1<br />

1.22 Definition:<br />

Sei ٠ein diskreter Grundraum. Eine Abbildung p : ٠��<br />

[0,1] mit <strong>der</strong> Eigenschaft<br />

�<br />

p(ω) = 1<br />

heißt Wahrscheinlichkeitsfunktion auf Ω.<br />

Bemerkung 1.23:<br />

ω∈Ω<br />

Ist P eine Wahrscheinlichkeitsverteilung auf Ω, so ist<br />

wie oben gesehen eine Wahrscheinlichkeitsfunktion.<br />

Beispiel 1.24:<br />

p(ω) := P ({ω})<br />

Wir betrachten den zu einmaligem Würfeln gehörigen Laplace-Raum. Dann ist die entsprechende Wahrscheinlichkeitsfunktion<br />

p gegeben durch<br />

Beispiel 1.25:<br />

p(1) = p(2) = ... = p(6) = 1<br />

6 .<br />

Wir betrachten wie<strong>der</strong> unser Beispiel <strong>der</strong> Reißzwecke. Die hier entstehende Wahrscheinlichkeitsfunktion<br />

p ist gegeben durch<br />

p(1) = 0.4, p(0) = 0.6.<br />

1.26 Satz:<br />

Sei Ω ein diskreter Grundraum und p eine Wahrscheinlichkeitsfunktion auf Ω. Dann definieren wir durch<br />

P (A) := �<br />

p(ω) , A ⊆ Ω<br />

eine Wahrscheinlichkeitsverteilung P auf Ω.<br />

ω∈A


14 1 Grundbegriffe<br />

Beweis:<br />

Wir müssen lediglich die Axiome (A1), (A2) und (A3) prüfen.<br />

(A1) Sei A ⊆ Ω beliebig. Da p ≥ 0 gilt, folgt sofort<br />

(A2) Offenbar ist<br />

(A3) Seien Ai ⊆ Ω paarweise disjunkt, i ∈ N. Dann ist<br />

P<br />

P (A) = �<br />

p(ω) ≥ 0.<br />

����<br />

ω∈A<br />

≥0<br />

P (Ω) = �<br />

p(ω) = 1.<br />

� ∞�<br />

i=1<br />

Ai<br />

�<br />

ω∈Ω<br />

= �<br />

ω∈ ∞�<br />

Ai<br />

i=1<br />

p(ω) .<br />

Per Definition ist p ≥ 0, d.h. diese Summe konvergiert absolut. Umordnung liefert wegen <strong>der</strong><br />

Disjunktheit <strong>der</strong> Ai: �<br />

∞�<br />

P<br />

�<br />

∞� �<br />

∞�<br />

= p(ω) = P (Ai) .<br />

Das zeigt die Behauptung.<br />

Bemerkung 1.27:<br />

i=1<br />

Ai<br />

i=1 ω∈Ai<br />

Für diskrete Grundräume Ω haben wir also folgendes:<br />

Die Menge M aller Wahrscheinlichkeitsverteilungen P auf Ω und die Menge aller Wahrscheinlichkeitsfunktionen<br />

p auf Ω lassen sich bijektiv durch<br />

ineinan<strong>der</strong> abbilden.<br />

i=1<br />

P ↦→ p, p(ω) := P ({ω}) , ω ∈ Ω<br />

Die Frage, die man sich also stellt ist, warum man nicht gleich nur mit Wahrscheinlichkeitsfunktionen<br />

arbeitet.<br />

Eine Antwort darauf ist leicht zu geben, denn im Fall eines nicht-diskreten Grundraumes wie Ω = [0,1]<br />

o<strong>der</strong> Ω = R macht eine Frage nach P ({a}), a ∈ Ω - also nach <strong>der</strong> Wahrscheinlichkeit eines einzelnen<br />

Ergebnisses - keinen Sinn! Diese Wahrscheinlichkeit wäre stets 0.<br />

Man stelle sich Beispielsweise einen Zufallsgenerator vor, <strong>der</strong> ” gleichverteilt“ Zahlen aus [0,1] zieht. Die<br />

Wahrscheinlichkeit, dass eine 0 gezogen wird, müsste dann 0 sein, aber die Summe über alle Zahlen <strong>der</strong><br />

Wahrscheinlichkeiten wäre weiterhin 1. Das macht schlicht und ergreifend keinen Sinn!<br />

Die Axiome (A1), (A2) und (A3) hingegen lassen sich auf allgemeine (nicht abzählbare) Grundräume Ω<br />

verallgemeinern und liefern so eine einheitliche Theorie für alle Wahrscheinlichkeitsräume.<br />

Beispiel 1.28:<br />

Wir können einen gefälschten Würfel modellieren durch<br />

p(1) := 0.1, p(2) = ... = p(5) = 0.175, p(6) = 0.2.<br />

Das definiert eine Wahrscheinlichkeitsfunktion auf Ω = {1,2,...,6}. Die zugehörige Wahrscheinlichkeitsverteilung<br />

nach Satz 1.26 liefert dann die entsprechende gesuchte Wahrscheinlichkeitsverteilung.<br />

Beispiel 1.29:<br />

Auf Ω = {2,3,...,12} definiere die Wahrscheinlichkeitsfunktion p durch den Vektor<br />

� �<br />

1 2 5 6 5 1<br />

, ,..., , , ,..., .<br />

36 36 36 36 36 36<br />

Damit ist natürlich gemeint, dass p(2) = 1 2<br />

36 , p(3) = 36 etc. ist. Diese Wahrscheinlichkeitsfunktion definiert<br />

als Wahrscheinlichkeitsverteilugn genau die Verteilung <strong>der</strong> Augensumme bei zweimaligem Würfeln.


1 Grundbegriffe 15<br />

1.4 Siebformeln<br />

In diesem Abschnitt wollen wir Wahrscheinlichkeiten von Vereinigungen berechnen o<strong>der</strong> abschätzen, wenn<br />

wir die Wahrscheinlichkeiten von Durchschnitten kennen. Sei stets (Ω,P) ein Wahrscheinlichkeitsraum.<br />

1.30 Lemma:<br />

Sind A1,A2 ⊆ Ω Ereignisse, so gilt<br />

Beweis:<br />

P (A1 ∪ A2) = P (A1) + P (A2) − P (A1 ∩ A2) .<br />

Setze B1 := A1 und B2 := A2 \ A1 = A2 \ (A1 ∩ A2). Dann ist A1 ∪ A2 = B1 ∪ B2 und B1 ∩ B2 = ∅.<br />

Daher gilt:<br />

Das zeigt die Behauptung.<br />

Beispiel 1.31:<br />

Wir definieren das Ereignis A als<br />

P (A1 ∪ A2) = P (B1 ∪ B2)<br />

(R2)<br />

= P (B1) + P (B2)<br />

= P (A1) + P (A1 \ (A1 ∩ A2))<br />

(R5)<br />

= P (A1) + P (A2) − P (A1 ∩ A2) .<br />

A:= ” Eine in 1,2,...,100 rein zufällig gewählte Zahl ist durch 2 o<strong>der</strong> durch 5 teilbar“<br />

Um P (A) zu berechnen definieren wir<br />

A2:= ” Eine in 1,2,...,100 rein zufällig gewählte Zahl ist durch 2 teilbar“<br />

A5:= ” Eine in 1,2,...,100 rein zufällig gewählte Zahl ist durch 5 teilbar“<br />

Dann gilt A = A2 ∪ A5, offenbar ist P (A2) = 50 1<br />

100 = 2 , P (A5) = 20 1<br />

100 = 5 und<br />

P (A2 ∩ A5) = P ( ” Eine in 1,2,...,100 rein zufällig gewählte Zahl ist durch 2 und durch 5 teilbar“)<br />

Nach Lemma 1.30 ist also<br />

= P ( Eine in 1,2,...,100 rein zufällig gewählte Zahl ist durch 10 teilbar“) =<br />

” 10 1<br />

=<br />

100 10 .<br />

P (A) = P (A2) + P (A5) − P (A2 ∩ A5) = 1 1 1 3<br />

+ − =<br />

2 5 10 5 .<br />

Sind A1,A2,A3 ⊆ Ω nun drei Ereignisse, so ergibt sich als Siebregel<br />

P (A1 ∪ A2 ∪ A3)<br />

= P (A1) + P (A2) + P (A3) − P (A1 ∩ A2) − P (A1 ∩ A3) − P (A2 ∩ A3) + P (A1 ∩ A2 ∩ A3) ,<br />

wie man sich mit einem Venn-Diagramm schnell verdeutlichen kann. Aber diese Aussage folgt auch aus<br />

den folgenden allgemeinen Siebformeln.<br />

1.4.1 Allgemeine Siebformeln<br />

Sei (Ω,P) ein Wahrscheinlichkeitsraum und seien A1,...,An ⊂ Ω Ereignisse, n ≥ 2. Setze<br />

�<br />

Sk :=<br />

P (Ai1 ∩ ... ∩ Aik )<br />

für 1 ≤ k ≤ n.<br />

1≤i1


16 1 Grundbegriffe<br />

Beweis:<br />

Wir zeigen die Aussage durch Induktion über n.<br />

• Induktionsanfang (I.A.):<br />

Lemma 1.30 liefert<br />

• Induktionsvoraussetzung (I.V.):<br />

Gelte<br />

P (A1 ∪ A2) = P (A1) +P (A2) − P (A1 ∩ A2) =<br />

� �� � � �� �<br />

für alle Ereignisse A1,...,Am ⊆ Ω.<br />

• Induktionsschritt (n ��<br />

n + 1):<br />

Wir setzen<br />

Dann gilt:<br />

�<br />

n+1 �<br />

P<br />

i=1<br />

Ai<br />

�<br />

=S1<br />

P<br />

= P (B ∪ An+1)<br />

I.A.<br />

� n�<br />

i=1<br />

Ai<br />

�<br />

=<br />

=S2<br />

n�<br />

k=1<br />

B := A1 ∪ ... ∪ An<br />

(−1) k−1 Sk<br />

= P (B) + P (An+1) − P (B ∩ An+1)<br />

�<br />

n�<br />

�<br />

��<br />

n�<br />

= P + P (An+1) − P<br />

I.V.<br />

=<br />

I.V.<br />

=<br />

=<br />

=<br />

=<br />

n�<br />

k=1<br />

i=1<br />

Ai<br />

(−1) k−1 Sk + P (An+1) − P<br />

n�<br />

(−1) k−1<br />

k=1<br />

−<br />

n�<br />

(−1) k−1<br />

k=1<br />

n�<br />

(−1) k−1<br />

k=1<br />

−<br />

n�<br />

(−1) k−1<br />

k=1<br />

�<br />

1≤i≤n<br />

−<br />

P (Ai) +<br />

n�<br />

(−1) k−1<br />

k=1<br />

�<br />

1≤i≤n+1<br />

−<br />

�<br />

1≤i1


1 Grundbegriffe 17<br />

=<br />

=<br />

=<br />

=<br />

n+1 � n−1 �<br />

P (Ai) − (−1) k−1<br />

i=1<br />

+<br />

i=1<br />

�<br />

k=1<br />

1≤i1


18 1 Grundbegriffe<br />

Damit folgt dann:<br />

P<br />

was die Behauptung zeigt.<br />

Mit den Bezeichnungen<br />

� n�<br />

i=1<br />

Ai<br />

�<br />

Sk :=<br />

für 1 ≤ k ≤ n kann man jetzt folgern:<br />

Folgerung 1.34:<br />

= P<br />

=<br />

=<br />

=<br />

� n�<br />

i=1<br />

Bi<br />

n�<br />

P (Bi)<br />

i=1<br />

�<br />

⎛ ⎛ ⎞⎞<br />

n�<br />

i−1 �<br />

⎝P (Ai) − P ⎝ (Aj ∩ Ai) ⎠⎠<br />

i=1<br />

n�<br />

P (Ai) −<br />

i=1<br />

�<br />

1≤i1


1 Grundbegriffe 19<br />

=<br />

=<br />

i1−1 �<br />

j=1<br />

P (Ai1 ∩ ... ∩ Aim ∩ Aj)<br />

i1−1 �<br />

− P<br />

i1−1 �<br />

j=1<br />

j=1<br />

� j−1<br />

�<br />

k=1<br />

(Ai1 ∩ ... ∩ Aim ∩ Aj ∩ Ai1 ∩ ... ∩ Aim ∩ Ak)<br />

P (Ai1 ∩ ... ∩ Aim ∩ Aj)<br />

i1−1 �<br />

− P<br />

j=1<br />

� j−1<br />

�<br />

k=1<br />

(Ai1 ∩ ... ∩ Aim ∩ Aj ∩ Ak)<br />

Setzen wir das nun in die Induktionsvoraussetzung ein, so erhalten wir<br />

�<br />

n�<br />

�<br />

I.V.<br />

=<br />

=<br />

=<br />

=<br />

=<br />

P<br />

m�<br />

i=1<br />

m�<br />

i=1<br />

i=1<br />

Ai<br />

(−1) i−1 Si + (−1) m<br />

(−1) i−1 Si + (−1) m<br />

i1−1 �<br />

− P<br />

m�<br />

i=1<br />

j=1<br />

� j−1<br />

�<br />

k=1<br />

(−1) i−1 Si + (−1) m<br />

+(−1) m+1<br />

m�<br />

i=1<br />

�<br />

1≤i1


20 1 Grundbegriffe<br />

Beweis:<br />

Nach Definition eines Wahrscheinlichkeitsraums ist für jede Auswahl 1 ≤ i1 < ... < im ≤ n<br />

⎛<br />

⎞<br />

i1−1 �<br />

P ⎝ (Ai1 ∩ ... ∩ Aim ∩ Aj) ⎠ ≥ 0<br />

Ist nun m ∈ {1,...,n} ungerade, so folgt<br />

P<br />

� n�<br />

i=1<br />

Ai<br />

�<br />

(1.6)<br />

=<br />

=<br />

≤<br />

m�<br />

i=1<br />

j=1<br />

(−1) i−1 Si + (−1) m<br />

m�<br />

(−1) i−1 Si −<br />

i=1<br />

m�<br />

i=1<br />

(−1) i−1 Si<br />

�<br />

1≤i1


1 Grundbegriffe 21<br />

Beweis:<br />

Es gilt<br />

Das zeigt die Behauptung.<br />

P<br />

� n�<br />

i=1<br />

Ai<br />

�<br />

��<br />

n�<br />

(R3)<br />

= 1 − P<br />

(1.3)<br />

= 1 − P<br />

(1.7)<br />

≥ 1 −<br />

(R3)<br />

= 1 −<br />

≥ 1 −<br />

� n�<br />

i=1<br />

i=1<br />

A c i<br />

Ai<br />

n�<br />

P (A c i)<br />

i=1<br />

�<br />

� c�<br />

n�<br />

(1 − P (Ai))<br />

i=1<br />

n�<br />

(1 − 1 − εi) = 1 −<br />

i=1<br />

In <strong>der</strong> Anwendung sieht das so aus: Man betrachtet etwa ein System mit n Komponenten, welches nur<br />

funktioniert, wenn alle Komponenten funktionieren. Dann ist<br />

und<br />

Ai = ” Die i-te Komponente ist intakt“<br />

n�<br />

Ai = Das System ist intakt“<br />

”<br />

i=1<br />

Man erhält so eine Abschätzung für die Sicherheit des Systems, wenn man Abschätzungen für die Sicherheit<br />

<strong>der</strong> Komponenten hat.<br />

Beispiel 1.38:<br />

Ist etwa P (Ai) ≥ 0.99 für alle i = 1,...,n, also εi = 0.01 für alle i = 1,...,n, so ist das System immerhin<br />

noch mit Wahrscheinlichkeit �<br />

n�<br />

�<br />

P Ai ≥ 1 − n<br />

100<br />

intakt.<br />

i=1<br />

n�<br />

i=1<br />

εi


22 2 Kombinatorik<br />

2 Kombinatorik<br />

Hier wollen wir das sogenannte Urnen- und Fächermodell einführen. Dazu betrachten wir vier verschiedene<br />

Grundräume ΩI,ΩII,ΩIII,ΩIV die aus Urnen- bzw. Fächermodellen entstehen und bestimmen ihre<br />

Kardinalitäten. In <strong>der</strong> Praxis werden ΩI,ΩII und ΩIII oft als Grundräume für Laplace-Räume benutzt,<br />

ΩIV ist spezieller.<br />

Beispiel 2.1:<br />

Wir wollen Würfeln als Urnenmodell realisieren. Dabei entspricht dann <strong>der</strong> erste Wurf dem Ziehen einer<br />

Kugel aus einer Urne mit sechs Kugeln, welche mit den Zahlen 1,2,3,4,5,6 beschriftet sind, und dem<br />

Zurücklegen <strong>der</strong> Kugel nach dem Ziehen. Der zweite Wurf ist dann wie<strong>der</strong> das Ziehen einer Kugel aus<br />

<strong>der</strong> selben Urne mit zurücklegen etc..<br />

Das realisiert genau Würfeln als Laplace-Raum wie bereits bekannt.<br />

Urnenmodell I:<br />

k-faches Ziehen mit Zurücklegen unter Berücksichtigung <strong>der</strong> Reihenfolge aus einer Urne mit n Kugeln,<br />

welche die Nummern 1 bis n tragen.<br />

Der Grundraum ist hier<br />

ΩI = {(a1,...,ak) | 1 ≤ ai ≤ n, i = 1,...,n}<br />

wobei ai <strong>der</strong> Nummer <strong>der</strong> im i−ten Experiment gezogenen Kugel entspricht. Es ist<br />

#ΩI = n k<br />

Das zugehörige Fächermodell sieht so aus: Man betrachtet k Kugeln, welche mit 1,...,k nummeriert<br />

werden und verteilt diese Kugeln in n Fächer. Dabei sind mehrere Kugeln pro Fach erlaubt. Notiert wird<br />

als ai die Nummer des Fachs, in welchem die Kugel mit <strong>der</strong> Aufschrift ” i“ gelandet ist. Der Grundraum<br />

<strong>der</strong> Ergebnisse ist dann genau wie oben schon eingeführt<br />

Beispiel 2.2:<br />

ΩI = {(a1,...,ak) | 1 ≤ ai ≤ n, i = 1,...,n}<br />

Das Fächermodell findet etwa dann Verwendung, wenn sich k Kunden an n verfügbaren Schaltern anstellen<br />

o<strong>der</strong> in <strong>der</strong> Informatik k Jobs auf n Prozessoren verteilt werden.<br />

Urnenmodell II:<br />

k-faches Ziehen ohne Zurücklegen unter Berücksichtigung <strong>der</strong> Reihenfolge aus einer Urne mit n Kugeln,<br />

welche die Nummern 1 bis n tragen. Das ist offenbar nur für k ≤ n möglich.<br />

Der Grundraum ist hier<br />

ΩII = {(a1,...,ak) | ai �= aj für i �= j und ai ∈ {1,...,n} für i = 1,...,k}<br />

wobei ai <strong>der</strong> Nummer <strong>der</strong> im i−ten Experiment gezogenen Kugel entspricht. Die Kardinalität von ΩII<br />

berechnet sich wie folgt:<br />

Beim Ziehen <strong>der</strong> ersten Kugel gibt es n Möglichkeiten, beim Ziehen <strong>der</strong> zweiten Kugel n−1 Möglichkeiten<br />

usw, daher ist<br />

n!<br />

#ΩII = n · (n − 1) · ... · (n − k + 1) =<br />

(n − k)! =: (n) k<br />

Wir sprechen diese Zahl als ” n unten k“.<br />

Das zugehörige Fächermodell sieht so aus: Man betrachtet k Kugeln, welche mit 1,...,k nummeriert<br />

werden und verteilt diese Kugeln in n Fächer. Diesmal ist aber jeweils maximal eine Kugel pro Fach<br />

erlaubt. Notiert wird als ai die Nummer des Fachs, in welchem die Kugel mit <strong>der</strong> Aufschrift ” i“ gelandet<br />

ist.


2 Kombinatorik 23<br />

Bemerkung 2.3 (Spezialfall):<br />

Wir betrachten nun den Fall n = k, d.h. alle Kugeln werden gezogen. Dann erhalten wir hier als ΩII<br />

genau die Menge aller Permutationen <strong>der</strong> Zahlen {1,...,n}, da in den Tupeln (a1,...,an) jede Zahl aus<br />

{1,...,n} genau einmal auftaucht. Man sieht mit obiger Formel sofort<br />

Beispiel 2.4:<br />

#ΩII = (n) n = n!<br />

(1) Wir wollen die Wahrscheinlichkeit für Fixpunkte von Permutationen berechnen.<br />

Dazu sei k = n und ΩII mit <strong>der</strong> Laplace-Verteilung versehen. Entsprechend gilt dann für jede<br />

Permutation (a1,...,an) ∈ ΩII <strong>der</strong> Menge {1,...,n}, dass<br />

P ({(a1,...,an)}) = 1<br />

#ΩII<br />

= 1<br />

n!<br />

Sei nun Ai := {(a1,...,an) ∈ ΩII | ai = i} das Ereignis Die Permutation hat an <strong>der</strong> Stelle i einen<br />

”<br />

Fixpunkt“. Dann gilt<br />

P (Ai) = #Ai<br />

=<br />

#ΩII<br />

(n − 1)!<br />

=<br />

n!<br />

1<br />

∀ i = 1,...,n<br />

n<br />

da Ai genau die Menge aller Permutationen von {1,...,n} ist, welche i festhält, also nur n−1-Zahlen<br />

aus {1,...,n} \ {i} permutiert. Das entspricht genau einer Permutation <strong>der</strong> Zahlen<br />

{1,...,n} \ {i} ∼ = {1,...,n − 1}<br />

und <strong>der</strong>en Anzahl ist wie oben gesehen genau (n − 1)!.<br />

(2) Eine Person probiert ihre n Schlüssel zufällig an einem Schloss durch. Nur einer <strong>der</strong> Schlüssel passt.<br />

Sei Bi das Ereignis ” <strong>der</strong> i-te Schlüssel passt“. Wir bezeichnen die Schlüssel mit 1,...,n und nehmen<br />

durch Umnummerieren stets an, dass 1 <strong>der</strong> passende Schlüssel ist. Als Modell verwenden wir wie<strong>der</strong><br />

ΩII als Laplace-Raum. Dann ist<br />

und entsprechend<br />

wie oben.<br />

Bi {(a1,...,an) ∈ ΩII | ai = 1}<br />

P (Bi) = #Bi<br />

=<br />

#ΩII<br />

1<br />

n<br />

Urnenmodell III:<br />

k-faches Ziehen ohne Zurücklegen ohne Berücksichtigung <strong>der</strong> Reihenfolge aus einer Urne mit n Kugeln,<br />

welche die Nummern 1 bis n tragen. Das ist offenbar wie<strong>der</strong> nur für k ≤ n möglich.<br />

Der Grundraum ist hier<br />

ΩIII = {T ⊂ {1,...,n} | #T = k}<br />

Einer Teilmenge T ∈ ΩIII entspricht dann das Experiment, dass genau die Kugeln mit den Zahlen<br />

i ∈ T gezogen wurden (Reihenfolge egal!). Die Kardinalität von ΩII berechnet sich mit dem Prinzip des<br />

Schäfers: 1<br />

Will man #ΩIII durch abzählen berechnen, so erscheint dies sehr schwer. Man definiert also<br />

1 Prinzip des Schäfers:<br />

f : ΩII<br />

��<br />

ΩIII durch f ((a1,...,ak)) := {a1,...,ak}<br />

Will man wissen, wie viele Schafe auf <strong>der</strong> Wiese stehen, so muss man nicht zwingend die Schafe selbst zählen. Man kann<br />

auch die Anzahl <strong>der</strong> Beine auf <strong>der</strong> Wiese zählen und durch die Anzahl <strong>der</strong> Beine pro Schaf teilen, das liefert das selbe<br />

Ergebnis:<br />

# Beine<br />

= # Schafe<br />

4<br />

Dieses Prinzip klingt zunächst sehr abstrus, aber oben wird die enorme Mächtigkeit des Prinzips klar.


24 2 Kombinatorik<br />

Diese Abbildung ist wohldefiniert, da wir für jedes (a1,...,ak) ∈ ΩII gefor<strong>der</strong>t hatten, dass die ai paarweise<br />

verschieden sind. Man erhält als Bild unter f also tatsächlich eine k-elementige Teilmenge von {1,...,n}.<br />

Ganz offenbar ist f surjektiv und jede Menge {a1,...,ak} ∈ ΩIII (∼Schaf) hat genau k! Urbil<strong>der</strong> (∼Beine)<br />

unter f, da es wie oben gesehen k! Permutationen einer k-elementigen Menge gibt. Daher gilt:<br />

#ΩIII = #ΩII · 1<br />

k! = (n) k<br />

k! =<br />

n!<br />

k!(n − k)! =:<br />

Die Zahl � � n<br />

k wird auch Binomialkoeffizient“ o<strong>der</strong> n über k“ genannt.<br />

” ”<br />

Bemerkung 2.5 (Eigenschaften <strong>der</strong> Binomialkoeffizenten):<br />

(1) Es gilt � � � �<br />

n n<br />

=<br />

k n − k<br />

(2) Der Binomische Lehrsatz besagt<br />

(3) Die Anzahl <strong>der</strong> möglichen Auswahlen<br />

(x + y) n =<br />

n�<br />

k=0<br />

� �<br />

n<br />

x<br />

k<br />

k y n−k<br />

� n<br />

k<br />

1 ≤ i1 < ... < ik ≤ n (2.1)<br />

- wie sie etwa in Abschnitt 1.4.1 vorkommen - entspricht genau <strong>der</strong> Anzahl <strong>der</strong> k-elementigen<br />

Teilmengen von {1,...,n} (einfach die Ordnung vergessen). Daher gibt es genau<br />

� �<br />

n<br />

k<br />

Möglichkeiten, Zahlen i1,...,ik wie in (2.1) auszuwählen.<br />

Beispiel 2.6:<br />

Ein klassisches Beispiel für das Urnenmodell III ist das gewöhnliche Lotto. Hier werden 6 Kugeln aus<br />

49 möglichen Kugel ohne Zurücklegen und ohne Berücksichtigung <strong>der</strong> Reihenfolge gezogen, d.h. es ist<br />

n = 49 und k = 6. Man sieht an diesem Beispiel sehr deutlich, dass auch wirklich nur die Teilmenge T<br />

<strong>der</strong> gezogenen Kugeln entscheidend ist.<br />

Um die Wahrscheinlichkeit für 6 Richtige zu berechnen, betrachten wir ΩIII als Laplace-Raum und erhalten<br />

so für einen beliebigen festen Tip T = {a1,...,a6} ⊂ {1,...,49} die Wahrscheinlichkeit<br />

P (T) = #T<br />

#ΩIII<br />

= 1 1<br />

� =<br />

13.983.816<br />

6 Richtige im Lotto erscheinen also als sehr unwahrscheinlich!<br />

Jetzt wollen wir noch das zugehörige Fächermodell entwickeln.<br />

Man betrachtet dazu die verschiedenen Möglichkeiten k nicht zu unterscheidende Kugeln auf n Fächer<br />

zu verteilen. Dabei ist jeweils wie<strong>der</strong> maximal eine Kugel pro Fach erlaubt. Notiert wird als Ergebnis nur<br />

die Teilmenge <strong>der</strong> besetzten Fächer.<br />

� 49<br />

6<br />

Urnenmodell IV:<br />

k-faches Ziehen mit Zurücklegen ohne Berücksichtigung <strong>der</strong> Reihenfolge aus einer Urne mit n Kugeln,<br />

welche die Nummern 1 bis n tragen.<br />

Als Ergebnis notieren wir nur das Tupel (k1,...,kn), wobei die Zahl ki angibt, wie oft die Kugel mit <strong>der</strong><br />

Nummer i gezogen wurde. Zwangsläufig gilt dann<br />

n�<br />

ki = k<br />

i=1<br />


2 Kombinatorik 25<br />

Der Grundraum ist also<br />

Beispiel 2.7:<br />

ΩIV :=<br />

�<br />

(k1,...,kn)<br />

�<br />

�<br />

� 0 ≤ ki ≤ k ∀ i = 1,...n und<br />

n�<br />

�<br />

ki = k<br />

Wir haben n = 6 Kugeln und ziehen k = 10 mal. Dann ist das Ergebnis ein Vektor<br />

(3,0,2,4,0,1)<br />

welcher symbolisiert, dass 3 mal Kugel Nummer 1 gezogen wurde, 0 mal Kugel Nummer 2, 2 mal Kugel<br />

Nummer 3 usw..<br />

Bevor wir die Kardinalität von ΩIV bestimmen wollen wir kurz das zugehörige Fächermodell vorstellen.<br />

Man betrachte k Kugeln, die auf n Fächer verteilt werden - mit erlaubter Mehrfachbesetzung <strong>der</strong> Fächer<br />

- und zähle als Ergebnis nur, wie viele Kugeln im i-ten Fach sind für i = 1,...,n.<br />

Beispiel 2.8:<br />

In <strong>der</strong> Praxis findet dieses Modell etwa Verwendung, wenn k Kunden sich an n Schaltern anstellen und<br />

man nachher die Auslastung <strong>der</strong> einzelnen Schalter betrachten will.<br />

Jetzt wollen wir #ΩIV bestimmen. Auch dazu konstruieren wir wie<strong>der</strong> eine geeignete Abbildung in einen<br />

Raum, dessen Kardinalität wir bereits kennen.<br />

Wir betrachten die Menge aller Folgen <strong>der</strong> Zahlen 0 und 1 <strong>der</strong> Länge n + k − 1. Wir betrachten jetzt 0<br />

als eine Kugel und 1 als die Markierung für ” nächstes Fach“. Unter dieser Identifikation wird etwa das<br />

Ergebnis (3,0,2,4,0,1) aus Beispiel 2.7 zur Folge<br />

000110010000110<br />

Wollen wir eine Bijektion zwischen ΩIV und einer Teilmenge von {(ai,...,an) | ai ∈ {0,1} für i = 1,...,n}<br />

erhalten, so muss jede <strong>der</strong> Folgen genau n − 1 1en und k 0en enthalten. Unter dieser Bedingung erhalten<br />

wir offenbar eine Bijektion!<br />

Eine Folge <strong>der</strong> Länge n+k −1 mit genau n−1 1en und k 0en ist aber bereits eindeutig durch die Auswahl<br />

<strong>der</strong> Positionen <strong>der</strong> k 0en (also Kugeln) eindeutig bestimmt - die an<strong>der</strong>en Positionen müssen 1en sein.<br />

Daher ist<br />

� �<br />

n + k − 1<br />

#ΩIV = # {T ⊂ {1,...,n + k − 1} | #T = k} =<br />

k<br />

wie oben berechnet.<br />

In Beispiel 2.7 ergibt sich also<br />

#ΩIV =<br />

i=1<br />

� �<br />

10 + 6 − 1 15!<br />

= = 3003<br />

10 10!(15 − 10)!<br />

Wenn wir die Laplace-Verteilung annehmen, dann hat entsprechend jede Konfiguration die Wahrscheinlichkeit<br />

P(k1,k2,...,kn) = 1<br />

≈ 0,00033<br />

2.9 Definition:<br />

Wir definieren den Multinomialkoeffizient als<br />

Bemerkung 2.10:<br />

⎧<br />

� �<br />

k<br />

⎨<br />

:=<br />

k1,k2,...,kn ⎩<br />

#ΩIV<br />

k!<br />

k1!·k2!·...·kn! falls ki ≥ 0 ∀ 1 ≤ i ≤ n, n�<br />

0 sonst<br />

i=1<br />

ki = k<br />

Für den Fall k = 2 kennen wir dies bereits als den Binomialkoeffizienten. Sei k = k1 + k2, dann gilt:<br />

� �<br />

k k!<br />

=<br />

k1,k2 k1! · k2! =<br />

k!<br />

k1!(k − k1)!<br />

2.11 Lemma:<br />

Die Anzahl <strong>der</strong> Möglichkeiten eine Menge A <strong>der</strong> Kardinalität k in n Teilmengen A1,...,An mit #Ai = ki<br />

und n�<br />

ki = k zu zerlegen ist gegeben durch<br />

i=1<br />

� �<br />

k<br />

k!<br />

=<br />

k1,k2,...,kn k1! · k2! · ... · kn!


26 2 Kombinatorik<br />

Beweis:<br />

Für A1 gibt es � � k<br />

Möglichkeiten, Elemente auszuwählen. Dann ist #(A \ A1) = k − k1 und es gibt für<br />

k1<br />

A2 nur noch � � k−k1 Möglichkeiten, Elemente auszuwählen. Für A3 bleiben k2<br />

� � k−k1−k2 Möglichkeiten usw..<br />

k3<br />

Die Gesamtzahl <strong>der</strong> Möglichkeiten A in Teilmengen <strong>der</strong> Größe k1,...,kn zu zerlegen beträgt also<br />

� � � � � � � �<br />

k k − k1 k − k1 − k2 k − k1 − k2 − ... − kn−1<br />

· ·<br />

· ... ·<br />

=<br />

=<br />

Das zeigt die Behauptung.<br />

k1<br />

k2<br />

k!<br />

k1!(k − k1)! ·<br />

k!<br />

k1! · k2! · ... · kn!<br />

k3<br />

(k − k1)!<br />

k2!((k − k1 − k2)! ·<br />

Beispiel 2.12 (zum Vergleich zu Beispiel 2.7):<br />

Wir wollen nun das obige Beispiel noch einmal bzgl. des Grundraums<br />

kn<br />

(k − k1 − k2)!<br />

· ... ·<br />

k3!(k − k1 − k2 − k3)!<br />

ΩI = {(a1,...,ak) | ai ∈ 1,...,n für 1 ≤ i ≤ k}<br />

und <strong>der</strong> Laplace-Verteilung betrachten. Es werden 10 von 1 bis 10 nummerierte Kugeln auf 6 Fächer<br />

verteilt. ai ist das Fach <strong>der</strong> i-ten Kugel. Sei<br />

Ak1,k2,...,k6 = {(a1,...,a6) | genau k1 <strong>der</strong> ai’s sind 1, k2 <strong>der</strong> ai’s sind 2, ..., kn <strong>der</strong> ai’s sind 6}<br />

Laut Lemma 2.11 ist<br />

und daher gilt<br />

Einsetzen in (2.2) liefert nun<br />

#Ak1,...,k6 =<br />

P(Ak1,k2,...,kn<br />

�<br />

k<br />

k1,...,k6<br />

�<br />

1 k!<br />

) = ·<br />

nk k1! · ... · kn!<br />

P(A3,0,2,4,0,1) =<br />

1<br />

610 ·<br />

10!<br />

≈ 0,0002<br />

4! · 0! · 2! · 3! · 0! · 1!<br />

P(A10,0,0,0,0,0) = 1 10!<br />

· ≈ 0,000000017<br />

610 10!<br />

P(A2,2,2,2,1,1) = 1 10!<br />

·<br />

≈ 0,0037<br />

610 2! · 2! · 2! · 2! · 1! · 1!<br />

Trotzdem: Gewisse Elementarteilchen (Bosonen) verteilen sich auf verschiedene Energiezustände gemäß<br />

<strong>der</strong> Laplace-Verteilung auf ΩIV.<br />

2.1 Binomial- und Hypergeometrische Verteilung<br />

Wir betrachten eine Urne mit N Kugeln, wobei R rote Kugeln und N − R weiße Kugeln enthalten sind.<br />

Daraus wird eine Stichprobe im Umfang von n Kugeln auf 2 Arten (mit und ohne Zurücklegen) gezogen.<br />

Gesucht ist die Wahrscheinlichkeit genau r rote Kugeln zu ziehen.<br />

2.1.1 Ziehen mit Zurücklegen (Binomialverteilung)<br />

Gegeben sei<br />

ΩI = {(a1,a2,...,an) | 1 ≤ ai ≤ N}<br />

mit <strong>der</strong> Laplace-Verteilung. Es seien die Kugeln 1,2,...,R die roten Kugeln. Gesucht ist P(Er), wobei<br />

Er = {(a1,a2,...an) | #{i | ai ∈ {1,2,...,R}} = r}<br />

Er entspricht den r roten Kugeln, an<strong>der</strong>s gesagt den r ” Erfolgen“.<br />

Wir wollen nun #Er bestimmen:<br />

Sie I ⊂ {1,2,...,n} die Indexmenge <strong>der</strong> Ziehungen, bei denen eine rote Kugel gezogen wurde. Dann ist<br />

Er die disjunkte Vereinigung aller Ereignisse<br />

EI = {(a1,a2,...,an) | ai ∈ {1,2,...,R} ⇔ i ∈ I}<br />

� kn<br />

kn<br />

�<br />

(2.2)


2 Kombinatorik 27<br />

über alle r-elementigen Teilmengen I ⊂ {1,2,...,n}. Für festes I ist<br />

#EI = R r · (N − R) n−r<br />

und es gibt � � n<br />

r Teilmengen I ⊂ {1,2,...,n} mit #I = r. Damit ist<br />

P(Er) = #Er<br />

#ΩI<br />

= 1<br />

·<br />

Nn 2.13 Definition (Binomialverteilung):<br />

Für p ∈ [0,1] und n ∈ N heißt<br />

binn,p(j) = b(n,p,j) =<br />

� �<br />

n<br />

· R<br />

r<br />

r · (N − R) n−r =<br />

� �<br />

n<br />

·<br />

r<br />

� � �<br />

R<br />

· 1 −<br />

N<br />

R<br />

�n−r N<br />

� �<br />

n<br />

p<br />

j<br />

j (1 − p) n−j , 0 ≤ j ≤ n<br />

die Binomialverteilung mit Erfolgswahrscheinlichkeit p und Stichprobenumfang n.<br />

Beispiel 2.14 (Münzwurf):<br />

n-maliges Werfen einer Münze ist wie Ziehen mit Zurücklegen aus einer Urne mit 2 Kugeln. Wir modellieren<br />

mit Hilfe <strong>der</strong> Binomialverteilung:<br />

P( ” k mal Kopf“) =<br />

� �<br />

n<br />

·<br />

k<br />

� �k 1<br />

·<br />

2<br />

� �n−k 1<br />

=<br />

2<br />

2.1.2 Ziehen ohne Zurücklegen (Hypergeometrische Verteilung)<br />

� n<br />

k<br />

�� 1<br />

2<br />

Man zieht eine Teilmenge T von n ≤ N Kugeln. Wir betrachten den Grundraum<br />

ΩIII = {T ⊂ {1,2,...,N} | #T = n}<br />

und damit ist #ΩIII = � � N<br />

n . Die Kugeln 1,2,...,R seien rot. Hier ist<br />

Er = {T ⊂ {1,2,...,N} | #(T ∩ {1,...,R}) = r, #T = n}<br />

= {T ⊂ {1,2,...,N} | #(T ∩ {1,2,...,R}) = r,#(T ∩ {R + 1,...,N}) = n − r}<br />

Dabei gibt es genau � � � � R<br />

N−R<br />

r Teilmengen von {1,2,...,R} <strong>der</strong> Kardinalität r und n−r Teilmengen <strong>der</strong> Kardinalität<br />

n − r von {R + 1,...,N}. Damit folgt<br />

� � � �<br />

R N − R<br />

#Er = ·<br />

r n − r<br />

2.15 Definition:<br />

Wir nennen<br />

hyp(r,n,R,N) := P(Er) = #Er<br />

#ΩIII<br />

die hypergeometrische Verteilung zu den Parametern n, N und R.<br />

Beispiel 2.16 (Skat):<br />

=<br />

� R<br />

r<br />

� � � N−R<br />

· n−r<br />

�<br />

Beim Skatspiel gibt es 32 Karten, darunter 4 Asse. 3 Spieler bekommen je 10 Karten. Es ist die Wahrscheinlichkeit<br />

für das Ereignis ” Spieler 1 bekommt 3 Asse“ gesucht.<br />

Modell: 32 Kugeln, davon R=4 rote Kugeln und n= 10 Ziehungen.<br />

Gesucht: P(3 Erfolge) = P(E3)<br />

Wir oben gesehen berechnet man mit <strong>der</strong> hypergeometrischen Verteilung:<br />

� � � � 4 28<br />

3 · 7<br />

P(E3) = hyp(3,10,4,32) � = 66<br />

≈ 0,073<br />

899<br />

� 32<br />

10<br />

� N<br />

n<br />

� n


28 2 Kombinatorik<br />

2.2 Das Stimmzettelproblem<br />

Die Auszählung <strong>der</strong> Stimmen einer Wahl hat ergeben: Kandidat A gewinnt mit a Stimmen gegenüber<br />

Kandidat B mit b Stimmen, a > b. Gesucht ist die Wahrscheinlichkeit des Ereignisses<br />

2.17 Satz:<br />

Wenn a > b, so ist<br />

E:= ” A liegt während <strong>der</strong> gesamten Auszählung in Führung“.<br />

und hängt damit nur vom Quotienten b<br />

a ab.<br />

Beweis:<br />

P(E) =<br />

1 − b<br />

a<br />

1 + b<br />

a<br />

Wir stellen die Auszählung <strong>der</strong> Stimmzettel als Pfad da. Der Pfad<br />

entspräche dann also <strong>der</strong> Auszählung<br />

“B,B,A,A,A,B,A,A,B“<br />

” erste Stimme für B, zweite Stimme für B, dritte Stimme für A usw. “<br />

Graphisch kann man sich diesen beispielhaften Pfad wie folgt verdeutlichen:<br />

Stimmen für A<br />

Wir betrachten dazu also<br />

5<br />

4<br />

3<br />

2<br />

1<br />

0<br />

0 1 2 3 4 5<br />

Stimmen für B<br />

Abbildung 1: Der Auszählungspfad ” B,B,A,A,A,B,A,A,B“<br />

Ω = {Pfade von (0,0) nach (b,a)}<br />

als Laplace-Raum. Ein Pfad aus Ω wird offenbar schon durch die Zeitpunkte <strong>der</strong> A-Stimmen eindeutig<br />

festgelegt und hat logischerweise Länge a + b, daher gilt<br />

� �<br />

a + b<br />

#Ω =<br />

b<br />

Wir wollen Ω jetzt disjunkt zerlegen. Sei dazu<br />

E1 = {Pfade oberhalb <strong>der</strong> Diagonalen}<br />

E2 = {Pfade durch (0,1) , die nicht oberhalb <strong>der</strong> Diagonalen liegen}<br />

E3 = {Pfade, die durch (1,0) verlaufen}<br />

Da je<strong>der</strong> Pfad, welcher oberhalb <strong>der</strong> Diagonalen verläuft, automatisch durch (0,1) verlaufen muss, gilt<br />

dann<br />

3�<br />

Ω =<br />

i=1<br />

Ei


2 Kombinatorik 29<br />

A<br />

2<br />

1<br />

0<br />

0 1 2 B<br />

A<br />

2<br />

1<br />

0<br />

0 1 2 B<br />

A<br />

2<br />

1<br />

0<br />

0 1 2 B<br />

Abbildung 2: Von links nach rechts: Beispiel eines Pfades aus E1, aus E2 und aus E3<br />

Gesucht ist in diesem Zusammenhang natürlich<br />

P (E) = P (E1) = #E1<br />

#Ω<br />

und wir können #E1 über #E1 = #Ω−#E2 −#E3 berechnen. Die Kardinalität #E3 von E3 ist offenbar<br />

� �<br />

a + b − 1<br />

#E3 = = Anzahl <strong>der</strong> Pfade <strong>der</strong> Länge a + b − 1 von (1,0) nach (b,a)<br />

a<br />

da je<strong>der</strong> Pfad aus E1 genau eins kürzer ist als ein Pfad aus Ω. Jetzt verwenden wir folgendes<br />

2.18 Lemma (Spiegelungsprinzip):<br />

Falls a > b, so gilt<br />

Beweis:<br />

#E2 = #E3<br />

Da a > b ist, muss je<strong>der</strong> Pfad aus E3 mindestens einmal die Diagonale schneiden (er beginnt ja schließlich<br />

bei (1,0)!). Sei (c,d) <strong>der</strong> erste Schnittpunkt des Pfades mit <strong>der</strong> Diagonalen. Jetzt spiegeln wir den Teilpfad<br />

von (0,0) nach (c,d) an <strong>der</strong> Diagonalen und erhalten insgesamt einen Pfad aus E2.<br />

A<br />

2<br />

1<br />

0<br />

0 1 2 B<br />

Diese Abbildung ist offenbar bijektiv.<br />

Damit folgt dann sofort<br />

Daraus folgt<br />

und das zeigt die Behauptung.<br />

=⇒<br />

A<br />

2<br />

1<br />

0<br />

0 1 2 B<br />

Abbildung 3: Verdeutlichung des Spiegelungsprinzips<br />

� � � �<br />

a + b a + b − 1<br />

#E1 = #Ω − 2#E3 = − 2<br />

b a<br />

P (E) = #E<br />

#Ω = 1 − 2� � a+b−1<br />

a<br />

� � a+b<br />

a<br />

(a + b − 1)!a!b!<br />

= 1 − 2<br />

a!(b − 1)!(a + b)!<br />

= 1 − 2 b<br />

a + b<br />

= a + b − 2b<br />

= a − b<br />

a + b<br />

a + b<br />

= 1 − b<br />

a<br />

1 + b<br />

a


30 2 Kombinatorik<br />

Beispiel 2.19:<br />

Wir betrachten die Wahlergebnisse<br />

a = 100 und b = 50 (2.3)<br />

a = 200 und b = 100. (2.4)<br />

In beiden Fällen ist<br />

b 1<br />

=<br />

a 2<br />

und damit sagt uns obiger Satz, dass die Wahrscheinlichkeit, dass <strong>der</strong> siegende Kandidat A während <strong>der</strong><br />

gesamten Auszählung in Führung lag, in beiden Fällen (2.3) und (2.4) bei<br />

liegt.<br />

P(E) =<br />

1 − 1<br />

2<br />

1 + 1<br />

2<br />

= 1<br />

3


3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 31<br />

3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und<br />

mehrstufige Experimente<br />

3.1 Unabhängigkeit<br />

Wir beginnen mit einem motivierenden Beispiel.<br />

Beispiel 3.1:<br />

Man betrachtet das Werfen zweier Würfel und die Ereignisse<br />

A = ” Augensumme ist gerade“<br />

B = ” Mindestens eine 6“<br />

Wir fragen uns hier, ob das Eintreten von B die Wahrscheinlichkeit des Eintretens von A beeinflusst. Dazu<br />

simulieren wir n = 10.000 Würfe mit zwei Würfeln und erhalten in unserer Simulation, dass das Ereignis<br />

A hA = 5069 mal, das Ereignis B hb = 3061 mal und das Ereignis A ∩ B (also A und B gleichzeitig)<br />

genau hA∩B = 1386 mal eintritt.<br />

Wenn B ” keinen Einfluss“ auf das Eintreten von A hat, so sollte<br />

hA<br />

n<br />

≈ hA∩B<br />

hB<br />

gelten. Wir können diese Aussage auf relative Häufigkeiten umformen:<br />

hA∩B<br />

n<br />

≈ hA<br />

n<br />

· hB<br />

n .<br />

Der Übergang von relativen Häufigkeiten zu Wahrscheinlichkeiten liefert nun die folgende<br />

3.2 Definition:<br />

Sei (Ω,P) eine Wahrscheinlichkeitsraum. Zwei Ereignisse A,B ⊂ Ω heißen unabhängig, falls<br />

gilt.<br />

Beispiel 3.3:<br />

P (A ∩ B) = P (A) · P (B)<br />

Im Beispiel 3.1 oben vermutet man dann nach <strong>der</strong> Simulation, dass A und B nicht unabhängig sind, denn<br />

hA∩B<br />

n<br />

= 0.1386 �= 0.155 ≈ hA<br />

n<br />

· hB<br />

n .<br />

Um diese Aussage anhand <strong>der</strong> Definition nachzuprüfen betrachtet man Ω = {1,2,3,4,5,6} 2 als Laplace-<br />

Raum und hat damit<br />

Also gilt #A = 18 und #B = 11. Das liefert<br />

Jetzt berechnet man noch<br />

A = {(1,1) ,(1,3) ,(1,5) ,(2,2) ,...,(6,6)} ,<br />

B = {(1,6) ,...,(6,6) ,(6,1) ,...,(6,5)} .<br />

P (A) = 1<br />

2<br />

und P (B) = 11<br />

36 .<br />

A ∩ B = {(2,6) ,(4,6) ,(6,6) ,(6,2) ,(6,4)}<br />

und hat damit<br />

#A ∩ B 5 11 1 11<br />

P (A ∩ B) = = �= = · = P (A) · P (B).<br />

#Ω 36 78 2 36<br />

Die angegebenen Ereignisse A und B sind also in <strong>der</strong> Tat abhängig.<br />

Beispiel 3.4:<br />

Betrachte wie<strong>der</strong> das Setting aus Beispiel 3.1 und das zusätzliche Ereignis<br />

C = ” Der erste Wurf ist eine 6“<br />

Wir wollen zeigen, dass A und C unabhängig sind. Dazu berechnen wir<br />

was diese Aussage zeigt.<br />

P (A ∩ C) = P ({(6,2),(6,4),(6,6)}) = 3 1 1 1<br />

= = · = P (A) · P (C) ,<br />

36 12 2 6


32 3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente<br />

Beispiel 3.5:<br />

Wir betrachten eine Urne mit drei von 1 bis 3 nummerierten Kugeln, davon seien die Kugeln 1 und 2 rot<br />

und Kugel 3 weiß. Wir wollen zwei Ziehungen durchführen und betrachten die Ereignisse<br />

A = ” erster Zug rot“<br />

B = ” zweiter Zug weiß“<br />

Ziehen wir mit Zurücklegen, so ist offenbar Ω = {(i,j) | 1 ≤ i,j ≤ 3} und daher #Ω = 9. Das liefert<br />

P (A) = 2 1<br />

2 2<br />

, P (B) = , P (A ∩ B) = P ({(1,3) ,(2,3)}) = = = P (A) · P (B).<br />

3 3 #Ω 9<br />

Mit Zurücklegen sind A und B also unabhängig.<br />

Ziehen wir ohne Zurücklegen, so ist offenbar Ω = {(i,j) | 1 ≤ i,j ≤ 3,i �= j} und daher #Ω = 6. Das<br />

liefert<br />

P (A) = 2<br />

3 ,<br />

P (B) = P ({(1,3) ,(2,3)}) = 2 1<br />

=<br />

#Ω 3 ,<br />

P (A ∩ B) = P ({(1,3) ,(2,3)}) = 2 2<br />

= �= P (A) · P (B).<br />

#Ω 6<br />

Ohne Zurücklegen sind A und B also abhängig!<br />

Bemerkung 3.6:<br />

Sei (Ω,P) ein Wahrscheinlichkeitsraum und seien A,B ⊂ Ω zwei Ereignisse mit A ∩B = ∅. Dann können<br />

A und B offenbar nur dann unabhängig sein, wenn<br />

d.h. wenn entwe<strong>der</strong> P (A) = 0 o<strong>der</strong> P (B) = 0 gilt.<br />

0 = P (A ∩ B) = P (A) · P (B),<br />

Jetzt wollen wir unsere Definition auf n Ereignisse A1,...,An ⊂ Ω des Wahrscheinlichkeitsraumes (Ω,P)<br />

verallgemeinern. Wir definieren dazu wie folgt:<br />

3.7 Definition:<br />

Sei (Ω,P) ein Wahrscheinlichkeitsraum und seien A1,...,An ⊂ Ω Ereignisse.<br />

Wir nennen A1,...,An unabhängig, falls für jede Auswahl von k Indizes i ≤ i1 < ... < ik ≤ n, 1 ≤ k ≤ n<br />

beliebig, die Gleichung<br />

⎛ ⎞<br />

k�<br />

P ⎝<br />

k�<br />

⎠ = P � �<br />

Aij<br />

gilt.<br />

j=1<br />

Diese Definition mag zunächst etwas unintuitiv erscheinen, sie ermöglicht aber folgendes<br />

3.8 Lemma:<br />

Sei (Ω,P) ein Wahrscheinlichkeitsraum und seien A1,...,An ⊂ Ω unabhängige Ereignisse.<br />

Aij<br />

(1) Für jede Auswahl 1 ≤ k ≤ n und 1 ≤ i1 < ... < ik ≤ n beliebig ist dann auch die entstehende<br />

Teilfamilie Ai1 ,...,Aik unabhängig.<br />

(2) Sei Bi = Ai o<strong>der</strong> Bi = A c i für jedes 1 ≤ i ≤ n. Dann sind auch die Ereignisse B1,...,Bn unabhängig.<br />

Beweis:<br />

(1) Diese Aussage ist mit <strong>der</strong> Definition sofort klar.<br />

(2) Offenbar genügt es zu zeigen, dass die Ereignisse A c 1,A2,...,An ebenfalls unabhängig sind. Den<br />

allgemeinen Fall erhalten wir daraus durch iteriertes Anwenden und Umbennenen (das genaue<br />

Vorgehen dafür kann man etwa bei [Dehling/Haupt] nachlesen.).<br />

Wir wollen die offenbar gültige Gleichung<br />

j=1<br />

P (A c ∩ B) = P (B) − P (A ∩ B) (3.1)


3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 33<br />

nutzen. Seien nun 1 ≤ i1 < ... < ik ≤ n vorgegeben. Ist i1 > 1, so ist in unserem Setting nichts zu<br />

zeigen. Ist i1 = 1, so gilt<br />

P (A c 1 ∩ ... ∩ Aik )<br />

was die Behauptung zeigt.<br />

(3.1)<br />

= P (Ai2 ∩ ... ∩ Aik ) − P (A1 ∩ Ai2 ∩ ... ∩ Aik )<br />

Unabhängigkeit von A1,Ai 2 ,...,Ai k<br />

= P (Ai2 ) · ... · P (Aik ) − P (A1) · ... · P (Aik )<br />

= (1 − P (A1))<br />

= P (A c 1) ·<br />

k�<br />

P � �<br />

Aij<br />

j=2<br />

k�<br />

P � �<br />

Aij<br />

Im Beweis des Lemmas haben wir schon gesehen, wieso wir in unserer Definition nicht nur die Unabhängigkeit<br />

aller Teilfamilien gefor<strong>der</strong>t haben. Folgendes Beispiel zeigt, wie gravierend <strong>der</strong> Unterschied<br />

ist:<br />

Beispiel 3.9 (Paarweise Unabhängigkeit impliziert nicht Unabhängigkeit):<br />

Wir betrachten de dreifachen Münzwurf, also Ω = {K,Z} 3 mit <strong>der</strong> Laplace-Verteilung. Wir betrachten<br />

die Ereignisse<br />

Scheinbar ist dann<br />

P (A1) =<br />

j=2<br />

A1 = ” erster Wurf = zweiter Wurf“<br />

A2 = ” zweiter Wurf = dritter Wurf“<br />

A3 = ” erster Wurf = dritter Wurf“<br />

# {KKK,KKZ,ZZZ,ZZK}<br />

#Ω<br />

= 4 1<br />

=<br />

8 2<br />

und ganz analog P (A2) = P (A3) = 1<br />

2 . Jetzt berechnen wir die Wahrscheinlichkeiten <strong>der</strong> Schnitte:<br />

P (A1 ∩ A2) =<br />

# {KKK,ZZZ}<br />

#Ω<br />

= 1<br />

4 = P (A1 ∩ A3) = P (A2 ∩ A3) .<br />

Wegen 1 1 1<br />

2 · 2 = 4 sind also A1,A2 und A3 paarweise unabhängig. Da aber<br />

P (A1 ∩ A2 ∩ A3) = P ({KKK,ZZZ}) = P (A1 ∩ A2) = P (A1 ∩ A3) = P (A2 ∩ A3) = 1 1 1 1<br />

�= · ·<br />

4 2 2 2<br />

sind die Ereignisse A1,A2 und A3 insgesamt nicht unabhängig.<br />

Das ergibt anschaulich auch Sinn, schließlich erzwingt das Eintreten von A1 und A2 bereits das Eintreten<br />

von A3 und umgekehrt.<br />

3.2 Bedingte Wahrscheinlichkeiten<br />

Bei n Versuchen trete das Ereignis A ∩B mit Häufigkeit hA∩B und das Ereignis B mit Häufigkeit hB �= 0<br />

auf. Anschaulich ist dann<br />

gegeben als<br />

in relativen Häufigkeiten.<br />

die relative Häufigkeit des Auftretens von A, gegeben ” B tritt auf“<br />

hA∩B<br />

Der Übergang von relativen Häufigkeiten zu Wahrscheinlichkeiten liefert uns jetzt folgende<br />

3.10 Definition:<br />

hB<br />

Sei (Ω,P) ein Wahrscheinlichkeitsraum und seien A,B ⊂ Ω Ereignisse. Ist P (B) > 0, so ist<br />

=<br />

P (A | B) :=<br />

hA∩B<br />

n<br />

hB<br />

n<br />

P (A ∩ B)<br />

P (B)<br />

die bedingte Wahrscheinlichkeit des Auftretens von A gegeben B.


34 3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente<br />

Beispiel 3.11:<br />

Wir Würfeln einfach mit einem fairen Würfel. Dazu verwenden wir Ω = {1,2,3,4,5,6} mit <strong>der</strong> Laplace-<br />

Verteilung. Sei A = {4,5,6} und B = {2,4,6}. Dann ist<br />

und<br />

Das liefert P (A | B) = 2<br />

3<br />

mit <strong>der</strong> Definition.<br />

P (A) = P (B) = 1<br />

2<br />

P (A ∩ B) = P ({4,6}) = 1<br />

3 .<br />

Anschaulich ergibt diese Aussage auch Sinn: Wenn man schon weiß, dass eine gerade Zahl gewürfelt<br />

wurde, so ist die Wahrscheinlichkeit, dass <strong>der</strong> Wurf ≥ 4 ist, genau 2<br />

3 .<br />

Beispiel 3.12:<br />

Wir betrachten eine Familie mit zwei Kin<strong>der</strong>n. Als Grundraum verwenden wir Ω = {JJ,JM,MJ,MM}<br />

mit <strong>der</strong> Laplace-Verteilung. Wir wollen nun die Wahrscheinlichkeit dafür ausrechnen, dass die Familie<br />

zwei Jungen hat, wenn schon gegeben ist, dass sie mindestens einen Jungen hat. Seien also<br />

Dann ist A ∩ B = {JJ} und daher gilt<br />

3.13 Satz (Multiplikationsformel):<br />

A := {JJ}<br />

B := {JJ,JM,MJ} .<br />

P ( ” 2 Jungen“ | ” mindestens 1 Junge“) = P (A | B) =<br />

Sei (Ω,P) ein Wahrscheinlichkeitsraum.<br />

(1) Sind zwei Ereignisse A,B ⊂ Ω gegeben, so gilt<br />

(2) Sind n Ereignisse A1,...,An ⊂ Ω gegeben, so gilt<br />

Beweis:<br />

P (A ∩ B) = P (A | B) · P (B) .<br />

P (A ∩ B)<br />

P (B)<br />

P (A1 ∩ ... ∩ An) = P (A1) · P (A2 | A1) · P (A3 | A1 ∩ A2) · ... · P<br />

(1) Es gilt per Definition<br />

(2) Einsetzen <strong>der</strong> Definition liefert<br />

P (A | B) · P (B) =<br />

P (A ∩ B)<br />

P (B)<br />

�<br />

· P (B) = P (A ∩ B).<br />

P (A1) · P (A2 | A1) · P (A3 | A1 ∩ A2) · ... · P<br />

= P (A1) ·<br />

= P (A1) ·<br />

= P (A1) ·<br />

⎛<br />

n� �<br />

P ⎝Ak<br />

�<br />

�<br />

k=2<br />

n�<br />

P<br />

k=2<br />

P<br />

� k�<br />

Aj<br />

j=1<br />

�<br />

k−1 �<br />

Aj<br />

j=1<br />

⎛<br />

n� k�<br />

P ⎝<br />

k=2<br />

j=1<br />

Aj<br />

k−1 �<br />

j=1<br />

�<br />

�<br />

⎞<br />

⎠ ·<br />

Aj<br />

⎞<br />

⎠<br />

n� 1<br />

�<br />

k−1 �<br />

P<br />

k=2<br />

Aj<br />

j=1<br />

�<br />

�<br />

An<br />

An<br />

= 1<br />

3 .<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

n−1 �<br />

i=1<br />

n−1 �<br />

i=1<br />

Ai<br />

Ai<br />

�<br />

�<br />

.


3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 35<br />

Das zeigt die Behauptung.<br />

Beispiel 3.14:<br />

= P (A1) ·<br />

⎛<br />

n� k�<br />

P ⎝<br />

k=2<br />

⎛<br />

n�<br />

= P (A1) · P ⎝<br />

⎛<br />

n�<br />

= P ⎝<br />

j=1<br />

Aj<br />

⎞<br />

⎠ .<br />

j=1<br />

j=1<br />

Aj<br />

⎞<br />

Aj<br />

⎠ ·<br />

⎞<br />

⎠ ·<br />

n−1 �<br />

k=1<br />

1<br />

P (A1)<br />

P<br />

1<br />

�<br />

k�<br />

Aj<br />

j=1<br />

Wir wollen die Wahrscheinlichkeit berechnen, dass bei Skat je<strong>der</strong> <strong>der</strong> drei Spieler genau ein Ass erhält.<br />

Sei dazu<br />

Ai := ” <strong>der</strong> i-te Spieler hat genau ein Ass“ für i = 1,2,3<br />

Mit <strong>der</strong> hypergeometrischen Verteilung sieht man schnell<br />

�<br />

�<br />

3.15 Satz:<br />

P (A1) =<br />

� �� 4 28<br />

1 9 �32 10<br />

� , P (A2 | A1) =<br />

� �� 3 19<br />

1 9 �22 10<br />

� , P (A3 | A1 ∩ A2) =<br />

Mittels <strong>der</strong> Multiplikationsformel erhalten wir so die gesuchte Wahrscheinlichkeit:<br />

�<br />

� �� 2 10<br />

1 9 �12 10<br />

P (A1 ∩ A2 ∩ A3) = P (A1) · P (A2 | A1) · P (A3 | A1 ∩ A2) = 385 3 10 50<br />

· · =<br />

899 7 33 899 .<br />

Sei (Ω,P) ein Wahrscheinlichkeitsraum und P (B) > 0. Dann definieren wir durch<br />

eine Wahrscheinlichkeitsverteilung auf Ω.<br />

Beweis:<br />

Wir müssen die Axiome (A1) bis (A3) nachprüfen:<br />

PB (A) := P (A | B), A ⊂ Ω<br />

(A1) Sei A ⊆ Ω beliebig. Da P eine Wahrscheinlichkeitsverteilung auf Ω ist, gilt<br />

(A2) Offenbar ist<br />

PB (A) = P (A | B) =<br />

PB (Ω) = P (Ω | B) =<br />

(A3) Seien Ai ⊆ Ω paarweise disjunkt, i ∈ N. Dann gilt<br />

PB<br />

� ∞�<br />

i=1<br />

Ai<br />

�<br />

= P<br />

=<br />

=<br />

(A3) für P<br />

=<br />

P (A ∩ B)<br />

P (B)<br />

P (Ω ∩ B)<br />

P (B)<br />

� ∞�<br />

i=1<br />

��<br />

∞�<br />

P<br />

Ai | B<br />

Ai<br />

i=1<br />

≥ 0.<br />

P (B)<br />

= = 1.<br />

P (B)<br />

�<br />

� �<br />

∩ B<br />

P (B)<br />

�<br />

∞�<br />

�<br />

P (Ai ∩ B)<br />

i=1<br />

P (B)<br />

∞� P (Ai ∩ B)<br />

P (B) =<br />

i=1<br />

∞�<br />

PB (Ai) .<br />

i=1<br />

�<br />

� .


36 3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente<br />

Das zeigt die Behauptung.<br />

Bemerkung 3.16:<br />

Damit gelten die Rechenregeln (R1) bis (R9) auch für PB, d.h. zum Beispiel<br />

für zwei Ereignisse A,B ⊂ Ω,P (B) > 0 usw..<br />

Bemerkung 3.17:<br />

P (A c | B) = PB (A c ) = 1 − PB (A) = 1 − P (A | B)<br />

Die Wahrscheinlichkeitsfunktion pB zu PB ist offenbar gegeben als<br />

Beispiel 3.18:<br />

pB (ω) = PB ({ω}) =<br />

P ({ω} ∩ B)<br />

P (B)<br />

=<br />

� P({ω})<br />

P(B)<br />

falls ω ∈ B<br />

0 falls ω /∈ B<br />

, ω ∈ A.<br />

Wir würfeln zweifach mit einem fairen Würfel. Dazu nutzen wir wie<strong>der</strong> Ω = {1,2,3,4,5,6} 2 als Grundraum<br />

mit <strong>der</strong> Laplace-Verteilung. Betrachte das Ereignis<br />

Dann ist P (B) = 6<br />

36<br />

durch den Vektor<br />

gegeben.<br />

3.19 Satz:<br />

Sei (Ω,P) ein Wahrscheinlichkeitsraum.<br />

B = ” Augensumme ist ≥ 10 ”<br />

= 1<br />

36 und die Wahrscheinlichkeitsfunktion pB auf <strong>der</strong> Menge <strong>der</strong> Augensummen ist<br />

�<br />

(pB (2) ,pB (3),...,pB (12)) = 0,0,0,0,0,0,0,0, 3<br />

�<br />

2 1<br />

, ,<br />

6 6 6<br />

(1) (Formel von <strong>der</strong> totalen Wahrscheinlichkeit)<br />

Sei Bi,i ∈ I eine abzählbar unendliche o<strong>der</strong> endliche disjunkte Zerlegung von Ω. Dann gilt für alle<br />

A ⊂ Ω die Formel<br />

P (A) = �<br />

P (Bi) · P (A | Bi) (3.2)<br />

i∈I<br />

(2) (Formel von Bayes)<br />

Beweis:<br />

Seien die Voraussetzungen wie in (1). Ist P (A) > 0, so gilt für jedes k ∈ I:<br />

(1) Mit <strong>der</strong> Mulitplikationsformel gilt<br />

was die Aussage zeigt.<br />

P (A)<br />

P (Bk | A) = P (A | Bk) · P (Bk)<br />

�<br />

P (A | Bi) · P (Bi)<br />

i∈I<br />

�<br />

Bi=Ω<br />

i∈I<br />

= P<br />

�<br />

A ∩<br />

� �<br />

i∈I<br />

Bi<br />

��<br />

�<br />

�<br />

�<br />

= P (A ∩ Bi)<br />

Bi∩Bj=∅ für i�=j<br />

=<br />

Multiplikationsformel<br />

=<br />

i∈I<br />

�<br />

P (A ∩ Bi)<br />

i∈I<br />

�<br />

P (A | Bi) · P (Bi)<br />

i∈I<br />

(3.3)


3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 37<br />

(2) Hier folgt unter Benutzung von (1):<br />

P (Bk | A) =<br />

Das zeigt ebenfalls die Behauptung.<br />

Beispiel 3.20:<br />

=<br />

Multiplikationsformel<br />

=<br />

(3.2)<br />

=<br />

P (Bk ∩ A)<br />

P (A)<br />

P (A ∩ Bk)<br />

P (A)<br />

P (A | Bk) · P (Bk)<br />

P (A)<br />

P (A | Bk) · P (Bk)<br />

�<br />

P (A | Bi) · P (Bi) .<br />

Eine Krankheit tritt bei 0.5% <strong>der</strong> Bevölkerung auf. Ein Test ist bei 99% <strong>der</strong> Kranken positiv, aber auch<br />

bei 2% <strong>der</strong> Gesunden. Gesucht ist die Wahrscheinlichkeit bei positivem Testergebnis die Krankheit zu<br />

haben.<br />

Betrachte nun folgendes Modell: Sei Ω die Bevölkerung und P die Laplace-Verteilung. Sei weiterhin B1<br />

die Menge <strong>der</strong> gesunden Menschen, B2 die <strong>der</strong> kranken Menschen und A die Menge <strong>der</strong> Menschen mit<br />

positivem Testergebnis . Dann ist Ω = B1 ∪ B2 mit B1 ∩ B2 = ∅.<br />

P(B1) = 0.995 P(B2) = 0.005<br />

P(A|B1) = 0.02 P(A|B2) = 0.99<br />

Mit <strong>der</strong> Formel von Bayes berechnet man<br />

P(B2|A) =<br />

=<br />

P(A|B2) · P(B2)<br />

2�<br />

P(A|Bi) · P(Bi)<br />

i=1<br />

i∈I<br />

P(A|B2) · P(B2)<br />

P(A|B1) · P(B1) + P(A|B2) · P(B2)<br />

0.99 · 0.005<br />

=<br />

0.02 · 0.995 + 0.99 · 0.005<br />

≈ 0.2<br />

Das bedeutet, im Fall eines postitiven Test ist man nur mit einer Wahrscheinlichkeit von 20% wirklich<br />

erkrankt.<br />

Beispiel 3.21 (Simpson-Paradoxon):<br />

Im Folgenden werden wir ein Beispiel aus dem Bereich ” How to lie with statistics“ geben, d.h. es wird eine<br />

Aussage mit Daten belegt (wir werden hier vereinfachte Werte verwenden) die offensichtlich zu stimmen<br />

scheint. Bei genauerer Betrachtung und unter Berücksichtigung aller Werte im Detail ergibt sich jedoch<br />

genau die gegenteilige Aussage:<br />

University of Berkeley:<br />

In einem Jahr haben sich 1200 Männer und 900 Frauen um einen Studienplatz beworben. Zugelassen<br />

wurden 55% <strong>der</strong> Männer und nur 48,9% <strong>der</strong> Frauen. Offensichtlich wurden die Männer bevorzugt, o<strong>der</strong><br />

nicht?<br />

Eine genauere Betrachtung <strong>der</strong> Daten zeigt, dass es Bewerbungen in zwei Fächern A und B gab.<br />

Männer Frauen<br />

beworben zugelassen beworben zugelassen<br />

Fach A 900 540=60% 100 80=80%<br />

Fach B 300 120=40% 800 360=45%<br />

Summe 1200 660=55% 900 440=48,8%<br />

Die Frauen wurden also in jedem Fach bevorzugt!<br />

Dies können wir auch mit bedingten Wahrscheinlichkeiten nachrechnen:<br />

Seien Zm =“zugelassene Männer“, Am =“Bewerber Fach A“ und Bm =“Bewerber Fach B“. Dann gilt


38 3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente<br />

nach dem Satz <strong>der</strong> totalen Wahrscheinlichkeit:<br />

P(Zm) = P(Zm|Am) · P(Am) + P(Zm|Bm) · P(Bm)<br />

= 0.6 · 0.75 + 0.4 · 0.25<br />

= 0.55<br />

Seien nun entsprechend Zf =“zugelassene Frauen“, Af =“Bewerberinnen Fach A“ und Bf =“Bewerberinnen<br />

Fach B“.<br />

P(Zf) = P(Zf |Af) · P(Af) + P(Zf |Bf) · P(Bf)<br />

= 0.8 · 1<br />

9<br />

= 0.488<br />

+ 0.45 · 8<br />

9<br />

Das Ergebnis kommt zustande, da sich anteilig viel mehr Männer als Frauen in Fach A beworben haben,<br />

wobei dort die Zulassung einfacher zu erringen war. An<strong>der</strong>erseits haben sich wesentlich mehr Frauen für<br />

Fach B entschieden, wo die Zulassung nur schwer zu erringen ist.<br />

3.3 Mehrstufige Experimente<br />

Wir betrachten aufeinan<strong>der</strong>folgende Experimente, bei denen die Ergebnisse <strong>der</strong> ausgeführten Experimente<br />

die Wahrscheinlichkeiten für den Ausgang des nächsten Experiments bestimmen.<br />

Sei p1 <strong>der</strong> Wahrscheinlichkeitsvektor für die Ausgänge des ersten Experiments. Beim Ausgang a1 ∈ Ω1<br />

ist jeweils p2( · |a1) ein Wahrscheinlichkeitsvektor für die Ausgänge des zweiten Experiments.<br />

Beispiel 3.22 (zweistufiges Zufallsexperiment):<br />

In einer Urne befinden sich 3 Kugeln, davon sind zwei rot und eine ist weiß. Wir ziehen zwei Mal ohne<br />

Zurücklegen.<br />

In <strong>der</strong> ersten Ziehung erhält man mit einer Wahrscheinlichkeit von 2<br />

3 eine rote Kugel und mit einer<br />

eine weiße Kugel, d.h.<br />

Wahrscheinlichkeit von 1<br />

3<br />

p1(R) = 2<br />

3 , p1(W) = 1<br />

3 .<br />

In <strong>der</strong> zweiten Ziehung kann, wenn zuerst rot gezogen wurde, entwe<strong>der</strong> rot o<strong>der</strong> weiß jeweils mit <strong>der</strong><br />

Wahrscheinlichkeit 1<br />

2 gezogen werden o<strong>der</strong> wenn zu Beginn die weiße Kugel gezogen wurde, mit Sicherheit<br />

nun eine rote Kugel gezogen werden. Das heißt<br />

bzw.<br />

Der Grundraum des 2-stufigen Modells ist<br />

mit <strong>der</strong> Wahrscheinlichkeitsfunktion<br />

p2(R,R) = 1<br />

2 , p2(R,W) = 1<br />

2<br />

p2(R,W) = 1, p2(W,W) = 0.<br />

Ω = Ω1 × Ω2 = {(a1,a2) | ai ∈ Ωi}<br />

p(a1,a2) := p(a1) · p2(a2|a1).<br />

Das heißt p(a1,a2) ist das Produkt <strong>der</strong> Wahrscheinlichkeiten im Baumdiagramm entlang des Pfades:<br />

START → a1 → a2.<br />

Im Bsp.:<br />

Bemerkung 3.23:<br />

p(R|W) = p1(R) · p2(W |R) = 2 1 1<br />

· =<br />

3 2 3 .<br />

Für Teilmengen A ⊆ Ω, welche einer Menge von Pfaden entspricht, ist<br />

P(A) = �<br />

p1(a1) · p2(a2|a1)<br />

die Summe aller Pfadwahrscheinlichkeiten.<br />

(a1,a2)∈A


3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 39<br />

Beispiel 3.24:<br />

Es stehe Xi für das Ergebnis des i-ten Teilexperiments, i = 1,2, dann gilt:<br />

P(X2 = R) = P( zweite Kugel ist rot“) = P(R,R) + P(W,R) =<br />

” 2 1 1 2<br />

· + · 1 =<br />

3 2 3 3<br />

3.25 Definition (n-stufiges Experiment):<br />

Seien Ω1,Ω2,...,Ωn diskrete Grundräume. Sei p1 eine Wahrscheinlichkeitsfunktion auf Ω1 (Startwahrscheinlichkeit).<br />

Für jedes a1 ∈ Ω1 sei eine Wahrscheinlichkeitsfunktion p2(a2|a1) auf den Ausgang des<br />

zweiten Teilexperiments gegeben.<br />

Allgemein: Für jede Folge von Ausgängen a1,a2,...,aj−1 mit ai ∈ Ωi, 1 ≤ i ≤ j − 1 <strong>der</strong> ersten j-1<br />

Teilexperimente ist eine Wahrscheinlichkeitsfunktion<br />

pj(aj|a1,...aj−1)<br />

auf den Ausgängen aj ∈ Ωj gegeben. Für einen Pfad (a1,...,an) ∈ Ω1 × ... × Ωn setzt man<br />

p(a1,...,an) = p1(a1) · p2(a2|a1) · ... · pn(an|a1,...,an−1).<br />

Dann ist p eine Wahrscheinlichkeitsfunktion auf Ω = Ω1 × ... × Ωn und definiert eine Wahrscheinlichkeitsverteilung<br />

P über<br />

P(A) := �<br />

p(a1,...,an), A ⊆ Ω.<br />

(a1,...,an)∈A<br />

P ist dann die Verteilung des mehrstufigen Experiments.<br />

Beispiel 3.26 (Polya’sches Urnenmodell):<br />

In diesem Modell, das ursprünglich dazu gedacht war, die Ausbreitung von Krankheiten zu simulieren,<br />

enthält eine Urne r rote und s schwarze Kugeln. Eine Kugel wird gezogen, dann wird zurückgelegt mit<br />

c ∈ Z zusätzlichen Kugeln <strong>der</strong> gleichen Farbe.<br />

Das heißt für c = −1 entspricht dies dem Ziehen ohne Zurücklegen und für c = 0 dem Ziehen mit<br />

Zurücklegen.<br />

Ein graphisches Beispiel:<br />

⑥ ⑥ ⑥<br />

✑<br />

✑<br />

✑<br />

✑<br />

✑<br />

✑<br />

✑✰<br />

✑<br />

◗<br />

◗◗◗◗◗◗◗� 1<br />

3<br />

⑥ ⑥ ⑥ ⑥ ⑥ ⑥<br />

⑥<br />

⑥2<br />

3<br />

⑥<br />

⑥<br />

✁<br />

⑥3<br />

4 ✁<br />

✁<br />

❆ 1<br />

❆ 4<br />

❆<br />

✁<br />

✁<br />

✁<br />

❆<br />

❆<br />

❆<br />

✁ ❆<br />

✁ ❆<br />

✁☛<br />

❆❯<br />

✁☛<br />

❆❯<br />

⑥ ⑥ ⑥ ⑥ ⑥ ⑥ ⑥ ⑥ ⑥ ⑥ ⑥ ⑥<br />

⑥ ⑥1<br />

2<br />

1<br />

2 ⑥<br />

⑥ ⑥ ⑥ ⑥ ⑥ ⑥ ⑥ ⑥<br />

Abbildung 4: Polya’sches Urnenmodell mit c = 1, r = 2, s = 1.<br />

Dann ist<br />

P(X2 = R) = 2 3 1 1 2<br />

· + · =<br />

3 4 3 2 3 = P(X1 = R)<br />

Wir wollen nun zeigen, dass unabhängig vom gewählten c immer gilt: Die Wahrscheinlichkeit für 2.Kugel<br />

”<br />

ist rot“ ist immer gleich <strong>der</strong> Wahrscheinlichkeit für 1.Kugel ist rot“:<br />

”<br />

Beweis:<br />

Es sind<br />

p1(R) = r<br />

r + s , p1(S) = s<br />

r + s<br />

r + c<br />

p2(R|R) =<br />

r + s + c , p2(S|R)<br />

s<br />

=<br />

r + s + c


40 3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente<br />

Damit ist<br />

Man berechnet<br />

Bemerkung 3.27:<br />

Man beobachtet also:<br />

P(X2 = R) = P(R,R) + P(S,R)<br />

=<br />

=<br />

=<br />

r<br />

r + s ·<br />

r<br />

r + s ·<br />

r<br />

r + s<br />

= P(X1 = R).<br />

r + c s<br />

+<br />

r + s + c r + s ·<br />

r<br />

r + s + c<br />

�<br />

r + c<br />

r + s + c +<br />

�<br />

s<br />

r + s + c<br />

p(R,S,R,R) = p1(R) · p2(S|R) · p3(R|RS) · p4(R|RSR)<br />

=<br />

r<br />

r + s ·<br />

s<br />

r + s + c ·<br />

r + c<br />

r + s + 2c ·<br />

r + 2c<br />

r + s + 3c<br />

Ist (a1,...,an) eine Ergebnis-Folge mit k roten Ziehungen (# {i | ai = R} = k) so ist<br />

p(a1,...,an) =<br />

n−1 �<br />

i=0<br />

�<br />

1<br />

r + s + ic<br />

� k−1 �<br />

·<br />

i=0<br />

n−k−1 �<br />

(k + ic) ·<br />

i=0<br />

(s + ic) .<br />

Das heißt die Wahrscheinlichkeit von (a1,...,an) hängt nur von <strong>der</strong> Anzahl gezogener Kugeln ab, nicht<br />

von <strong>der</strong> Reihenfolge. Daher gilt<br />

p(a τ(1),...,a τ(n)) = p(a1,...,an)<br />

für jede Permutation τ von {1,...,n}. Solche Verteilungen nennt man auch austauschbar.<br />

Aufgabe 3.28:<br />

Zeige damit<br />

P(Xj = R) = r<br />

für alle j = 1,2,...<br />

r + s<br />

3.3.1 Bemerkung zu bedingten Wahrscheinlichkeiten in mehrstufigen Modellen<br />

(1) Ist Ω1 × ... × Ωn ein mehrstufiges Modell mit Übergangswahrscheinlichkeiten<br />

so setzen wir<br />

pj (aj | a1,...,aj−1) , 1 ≤ j ≤ n<br />

(b1,...,bk) := {(a1,...,an) | ai = bi für 1 ≤ i ≤ k}<br />

als die Menge aller Pfade, die mit b1,...,bk beginnen fest. Dann gilt:<br />

Beweis:<br />

P (b1,...,bk) = p1 (b1) · p2 (b2 | b1) · ... · pk (bk | b1,...,bk)<br />

Wir zeigen nur den Fall n = 2, k = 1, die an<strong>der</strong>en Fälle überlegt man sich analog (wobei <strong>der</strong> Beweis<br />

dann sehr Index-lastig wird). Es gilt<br />

P (b1) = P ({b1} × Ω)<br />

= �<br />

p(b1,a2)<br />

a2∈Ω2<br />

= �<br />

a2∈Ω2<br />

= p1 (b1) · �<br />

p1 (b1) · p2 (a2 | b1)<br />

a2∈Ω2<br />

p2 (a2 | b1)<br />

� �� �<br />

=1<br />

da p2 eine Wahrscheinlichkeitsfunktion ist. Das zeigt schon die Behauptung.


3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 41<br />

(2) Ganz analog gilt<br />

P (bk+1,...,bn | b1,...,bk) = pk+1 (bk+1 | b1,...,bk) ·pk+2 (bk+2 | b1,...,bk+1) ·... ·pn (bn | b1,...,bn−1)<br />

Beweis:<br />

Wir zeigen wie<strong>der</strong> nur den Fall n = 2, k = 1. Dort gilt<br />

Das zeigt die Behauptung.<br />

P (b2 | b1) =<br />

Beispiel 3.29 (Ziehen aus zufälliger Urne):<br />

Teil (1)<br />

=<br />

p(b1,b2)<br />

p(b1)<br />

p1 (b1) p2 (b2 | b1)<br />

p1 (b1)<br />

= p2 (b2 | b1) .<br />

Wir betrachten vier Urnen U1,U2,U3,U4. Jede <strong>der</strong> Urnen enthalte drei Kugeln, wobei Ui genau i −1 rote<br />

und 3 − (i − 1) schwarze Kugeln enthalte. Unser mehrstufiges Experiment sieht jetzt wie folgt aus:<br />

Schritt 1 Wähle rein zufällig eine Urne.<br />

Schritt 2 Ziehe eine Kugel und notiere die Farbe.<br />

Dieses Experiment gestaltet sich etwa so:<br />

❆<br />

❆ ✁ ✁ ⑥ ⑥ ⑥<br />

U1 - Urne 1<br />

✁ ❆<br />

❆<br />

❆<br />

START<br />

✏✏<br />

�<br />

✏✏<br />

✡ ❏ �������������<br />

1<br />

1<br />

4 ✏✏<br />

✏✏<br />

✡ ❏ 4<br />

1 1<br />

✏✏<br />

4✡<br />

❏4<br />

✏✏<br />

✏✮<br />

✡ ❏<br />

✡ ❏<br />

✡✢<br />

❏❫<br />

✁ ✁ ❆<br />

❆ ✁ ✁<br />

⑥ ⑥ ⑥ ⑥ ⑥ ⑥<br />

U2 - Urne 2 U3 - Urne 3<br />

✁ ❆<br />

0<br />

✁ ❆<br />

1 ✁ ❆<br />

✁ ❆<br />

1 ✁ ❆ 2 2 ✁ ❆ 1<br />

✁ ❆ 3✁<br />

❆3<br />

3✁<br />

❆3<br />

✁ ❆<br />

✁☛ ❆❯ ✁ ❆ ✁ ❆<br />

⑥ ⑥ ✁ ❆ ✁ ❆<br />

✁☛ ❆❯ ✁☛ ❆❯<br />

⑥ ⑥ ⑥ ⑥<br />

Abbildung 5: ” Ziehen aus zufälliger Urne“<br />

❆<br />

❆ ✁ ✁ ⑥ ⑥ ⑥<br />

U4 - Urne 4<br />

✁ ❆<br />

✁<br />

1<br />

✁<br />

❆<br />

❆<br />

0<br />

✁ ❆<br />

✁<br />

✁☛<br />

⑥<br />

❆<br />

❆❯<br />

⑥<br />

Es ist also Ω1 = {1,2,3,4}, wobei die Zahl i ∈ Ω1 dann einfach <strong>der</strong> Nummer <strong>der</strong> Urne im ersten Schritt<br />

entspricht. Wir sehen sofort, dass<br />

p1 (1) = ... = p1 (4) = 1<br />

4 .<br />

Weiter verwenden wir Ω2 = {R,S} was <strong>der</strong> Farbe <strong>der</strong> im zweiten Schritt gezogenen Kugel entsprechen<br />

soll. Da die Urne U1 keine roten Kugeln enthält, ist also<br />

p2 (R | 1) = 0 und p2 (S | 1) = 1.<br />

Ganz analog enthält die Urne U2 eine rote und zwei schwarze Kugeln, es ist also<br />

p2 (R | 2) = 1<br />

3 und p2 (S | 2) = 2<br />

3 .<br />

Ganz analog berechnet man die an<strong>der</strong>en Werte für p2.<br />

Wir wollen nun folgende Frage beantworten:<br />

Was kann man über die im ersten Schritt gewählte Urne aussagen, gegeben es wurde im zweiten Schritt<br />

eine rote Kugel gezogen?


42 3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente<br />

Zur Beantwortung setzen wir<br />

Wie oben sieht man sofort, dass<br />

Bi := ” Urne i im ersten Schritt gewählt“, i = 1,2,3,4,<br />

A := ” rote Kugel im zweiten Schritt gezogen“.<br />

P (A | B1) = 0, P (A | B2) = 1<br />

3 , P (A | B2) = 2<br />

3 , P (A | B3) = 1.<br />

Mit <strong>der</strong> Formel von <strong>der</strong> totalen Wahrscheinlichkeit (3.2) folgt<br />

P (A) =<br />

4�<br />

P (A | Bi) · P (Bi) =<br />

i=1<br />

4�<br />

i=1<br />

p2 (R | i) · p1 (i) = 1<br />

2 .<br />

Mit <strong>der</strong> Formel von Bayes (3.3) ergibt sich nun für die gesuchte Wahrscheinlichkeit<br />

Als Vektor gilt also<br />

Das ist die sogenannte<br />

P (Bk | A)<br />

(3.3)<br />

= P (Bk | A)<br />

=<br />

P (A | Bk) · P (Bk)<br />

4�<br />

P (A | Bi) · P (Bi)<br />

i=1<br />

� �� �<br />

=P(A)<br />

= 2P (A | Bk) · P (Bk)<br />

� �� �<br />

= 1<br />

4<br />

=<br />

1<br />

2 P (A | Bk) , k = 1,2,3,4.<br />

�<br />

(P (Bk | A)) k=1,2,3,4 = 0, 1<br />

�<br />

2 3<br />

, ,<br />

6 6 6<br />

a-posteriori-Verteilung auf den Urnennummern 1,2,3,4 zur a-priori-Verteilung 1<br />

4<br />

, 1<br />

4<br />

1 1 , 4 , 4 .<br />

Der MAP-Schätzer (MAP steht für ” maximum a-posteriori“) <strong>der</strong> Urnennummer k wählt das k mit maximalem<br />

P (Bk | A) aus - hier also k = 4. Das ” beantwortet“ die obige Frage.<br />

Beispiel 3.30:<br />

Wir betrachten eine leicht geän<strong>der</strong>te Variante von Beispiel 3.29: Die Urne im ersten Schritt wird nicht<br />

ein zufällig gewählt, son<strong>der</strong>n per Münzwurf bestimmt. Wir werfen dazu drei faire Münzen und wähle die<br />

Urne, die so viele rote Kugeln enthält, wie oft ” Kopf“ geworfen wurde. Wegen<br />

P ({ZZZ}) = 1<br />

3<br />

, P ({KZZ,ZKZ,ZZK}) =<br />

8 8<br />

usw. erhalten wir also die a-priori-Verteilung 1 3 3<br />

8 , 8 , 8<br />

Beispiel 3.29 oben und stellen uns die selbe Frage. Offenbar ist hier<br />

P (A) = 0 · 1 1 3 2 3 1 1<br />

+ · + · + 1 · =<br />

8 3 8 3 8 8 2<br />

und wie oben gilt<br />

� �<br />

P (A | Bk) · P (Bk)<br />

(P (Bk | A)) k=1,2,3,4 =<br />

1<br />

2<br />

, 1<br />

8 . Wir definieren A und Bi, i = 1,2,3,4 wie im<br />

k=1,2,3,4<br />

�<br />

= 0, 1<br />

�<br />

1 1<br />

, ,<br />

4 2 4<br />

Hier würde <strong>der</strong> MAP-Schätzer also die Urne mit <strong>der</strong> Nummer k = 3 auswählen.


3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 43<br />

3.4 Produkt-Experimente und spezielle Verteilungen<br />

Für i = 1,...,n seien (Ωi,Pi) diskrete Wahrscheinlichkeitsräume. Die stochastisch unabhängige Ausführung<br />

mehrerer Experimente aus (Ωi,Pi), i = 1,...,n, wird modelliert durch<br />

Ω := Ω1 × ... × Ωn =<br />

n�<br />

Ωi, P :=<br />

wobei die Produktverteilung P durch die Wahrscheinlichkeitsfunktion<br />

gegeben ist.<br />

3.31 Definition:<br />

p(a1,...,an) =<br />

i=1<br />

n<br />

⊗Pi, (3.4)<br />

i=1<br />

n�<br />

Pi ({ai}) , (a1,...,an) ∈ Ω = {(b1,...,bn) | bi ∈ Ωi, i = 1,...,n} (3.5)<br />

i=1<br />

Der Raum (Ω,P) wie in (3.4) definiert heißt Produkt <strong>der</strong> Wahrscheinlichkeitsräume (Ωi,Pi) , i =<br />

1,...,n.<br />

Bemerkung 3.32:<br />

(Ω,P) ist selbst wie<strong>der</strong> ein Wahrscheinlichkeitsraum.<br />

Beweis:<br />

Es genügt zu zeigen, dass p wie in (3.5) eine Wahrscheinlichkeitsfunktion ist, denn offenbar ist Ω als<br />

endliches Produkt abzählbarer Mengen selbst wie<strong>der</strong> abzählbar.<br />

Das p positiv und σ-additiv ist, also die Axiome (A1) und (A3) erfüllt, ist klar, denn jedes <strong>der</strong> Pi erfüllt<br />

diese Axiome. Außerdem gilt<br />

P (Ω) = �<br />

p(a1,...,an) = �<br />

n�<br />

� �<br />

�<br />

P1 ({a1}) · ... · Pn ({an}) = Pk ({ak}) = 1<br />

(a1,...,an)∈Ω<br />

und das zeigt die Behauptung.<br />

Beispiel 3.33:<br />

(a1,...,an)∈Ω<br />

k=1<br />

ak∈Ωk<br />

� �� �<br />

(A3) für P k<br />

= 1<br />

Wir wollen das Produkt <strong>der</strong> Experimente ” Würfeln“ und ” Münzwurf“ bilden. Sei dazu Ω1 := {K,Z}<br />

ebenso mit <strong>der</strong> Laplace-Verteilung versehen wie Ω2 := {1,2,3,4,5,6}. Dann ist<br />

und es gilt<br />

für alle Tupel (a1,a2) ∈ Ω.<br />

Ω = Ω1 × Ω2 = {(a1,a2) | a1 ∈ {K,Z} ,a2 ∈ {1,2,3,4,5,6}}<br />

p(a1,a2) = P1 ({a1})<br />

� �� �<br />

= 1<br />

2<br />

·P2 ({a2})<br />

� �� �<br />

= 1<br />

=<br />

6<br />

1<br />

12<br />

Dieses Ergebnis ist natürlich ziemlich eintönig, würde man etwa eine gefälschte Münze verwenden, so<br />

wäre das Ergebnis interessanter.<br />

Bemerkung 3.34:<br />

Man kann den Produktraum (Ω,P) auch als mehrstufiges Modell mit den Übergangswahrscheinlichkeiten<br />

pi (ai | a1,...,ai−1) = Pi ({ai}) , 1 ≤ i ≤ n, ak ∈ Ωk<br />

auffassen. Man beachte, dass diese Übergangswahrscheinlichkeiten nicht von den vorangehenden Stufen<br />

abhängen.<br />

3.35 Definition:<br />

Für Ereignisse Ai ⊆ Ωi, 1 ≤ i ≤ n definieren wir das Produktereignis in (Ω,P) als<br />

A := A1 × A2 × ... × An = {(a1,...,an) | ai ∈ Ai, 1 ≤ i ≤ n}


44 3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente<br />

Bemerkung 3.36:<br />

Dann gilt<br />

Beweis:<br />

Es ist<br />

3.37 Satz:<br />

was die Behauptung zeigt.<br />

P (A) =<br />

n�<br />

Pk (Ak)<br />

k=1<br />

P (A) = P (A1 × ... × An)<br />

�<br />

Definition<br />

=<br />

p(a1,...,an)<br />

=<br />

=<br />

=<br />

(a1,...,an)∈A<br />

�<br />

(a1,...,an)∈A k=1<br />

n�<br />

�<br />

�<br />

k=1<br />

ak∈Ak<br />

n�<br />

Pk (Ak) ,<br />

k=1<br />

n�<br />

Pk ({ak})<br />

Pk ({ak})<br />

Seien Ai ⊆ Ωi Ereignisse. Setze A ∗ k := {(a1,...,an) ∈ Ω | ak ∈ Ak} für 1 ≤ k ≤ n. Für das Produktexperiment<br />

(Ω,P) wie in (3.4) gelten:<br />

(1) P (A ∗ k ) = Pk (Ak) für jedes 1 ≤ k ≤ n.<br />

(2) Die Ereignisse A ∗ 1,...,A ∗ n sind in jedem Fall unabhängig.<br />

Beweis:<br />

(1) Es ist<br />

P (A ∗ i ) = P (Ω1 × ... × Ωi−1 × Ai × Ωi+1 × ... × Ωn)<br />

was die Behauptung zeigt.<br />

(2) Für jede Teilfamilie<br />

gilt<br />

Bemerkung 3.36<br />

= P1 (Ω1) · ... · Pi−1 (Ωi−1) · Pi (Ai) · Pi+1 (Ωi+1) · ... · Pn (Ωn)<br />

= Pi (Ai) ,<br />

�<br />

A ∗ i1 ,...,A∗ ik mit 1 ≤ ii < ... < ik ≤ n<br />

⎛<br />

k�<br />

P ⎝ A ∗ ⎞<br />

⎠<br />

ij = P (Ω1 × ... × Ωi1−1 × Ai1 × Ωi1+1 × ...)<br />

j=1<br />

Bemerkung 3.36<br />

Das zeigt auch hier die Behauptung.<br />

Bemerkung 3.38:<br />

= Pi1 (Ai1 ) · ... · Pik (Aik ) · P1 (Ω1) ·...<br />

� �� �<br />

=1<br />

(1) � � � � ∗ ∗<br />

= P Ai1 · ... · P Aik .<br />

Mit Hilfe dieses Satzes können wir sehr leicht einen Wahrscheinlichkeitsraum (Ω,P) konstruieren, <strong>der</strong> n<br />

unabhängige Ereignisse enthält, die vorgegebene Wahrscheinlichkeiten p1,...,pn haben:<br />

Setze Ω1 = ... = Ωn = {0,1}, A1 = ... = An = {1} und definieren für jedes i = 1,...,n<br />

Pi ({0}) := 1 − pi, Pi ({1}) := pi<br />

� �� �<br />

Pi(Ai)<br />

Nach dem Satz sind dann A ∗ 1,...,A ∗ n unabhängige Experimente mit den vorgegebenen Wahrscheinlichkeiten.


3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 45<br />

3.4.1 Mit Produktexperimenten zusammenhängende Verteilungen<br />

(1) Binomialverteilung ( ” Zählen von Erfolgen“)<br />

Ein Bernoulli-Experiment ist ein Experiment mit Ω = {0,1} und Erfolgswahrscheinlichkeit<br />

p(1) = p ∈ [0,1], p(0) = 1 − p.<br />

Setze p1 := p und p0 := 1 − p. Das Produkt von n Bernoulli-Experimenten mit gleicher Erfolgswahrscheinlichkeit<br />

ist dann<br />

Sei jetzt<br />

Ω = {0,1} n , p(a1,...,an) = pa1 · ... · pan für (a1,...,an) ∈ Ω<br />

⎧<br />

⎨<br />

Ak :=<br />

⎩ (a1,...,an)<br />

�<br />

�<br />

�<br />

⎫<br />

n� ⎬<br />

aj = k<br />

⎭<br />

das Ereignis k Erfolge“ für 0 ≤ k ≤ n. Dann ist #Ak =<br />

” � � n<br />

k , für jedes (a1,...,an) ∈ Ak gilt<br />

und daher folgt<br />

j=1<br />

P ({(a1,...,an)}) = p k (1 − p) n−k<br />

P (Ak) =<br />

Wir erhalten also genau die Binomialverteilung.<br />

(2) Multinomialverteilung ( ” Zählen von Ausgängen“)<br />

� �<br />

n<br />

p<br />

k<br />

k (1 − p) n−k , 0 ≤ k ≤ n.<br />

Man führt n identische, stochastisch unabhängige Experimente durch. Jedes Experiment hat r<br />

Ausgänge 1,...,r, die mit Wahrscheinlichkeiten p1,...,pr auftreten.<br />

Modell: Seien Ωi = {1,...,r} und die Wahrscheinlichkeitsverteilungen Pi durch den Wahrscheinlichkeitsvektor<br />

(p1,...,pr) gegeben (1 ≤ i ≤ n).<br />

Im Produktexperiment ist<br />

und somit<br />

Ω = Ω1 × ... × Ωn = {1,...,r} n<br />

und P =<br />

p(a1,..,an) = pa1 · ... · pan .<br />

n<br />

⊗Pi i=1<br />

Sei Ak1,...,kr das Ereignis in n Versuchen k1 mal den Ausgang 1“, ..., kr mal den Ausgang r“ zu<br />

” ”<br />

erhalten (dabei muss natürlich n�<br />

ki = n und 0 ≤ ki für i ≤ i ≤ n gelten). Dann ist<br />

i=1<br />

die auf �<br />

P(Ak1,...,kr ) =<br />

�<br />

(k1,...,kr) � �<br />

n<br />

k1,...,kr<br />

�<br />

· p k1<br />

1 · ... · pkr r<br />

n�<br />

�<br />

ki = n,0 ≤ ki<br />

gegebene Multinomialverteilung mit Parametern n und p1,..,pr. Dabei muss natürlich<br />

gelten.<br />

Beispiel 3.39:<br />

i=1<br />

r�<br />

pi = 1<br />

i=1<br />

Auf einem Glücksrad sind 3 Bereiche markiert. Beim zufälligen Drehen stoppt das Rad mit Wahr-<br />

scheinlichkeit p1 = 1<br />

2 im Bereich ” 1“, mit p2 = 3<br />

8 im Bereich ” 2“ und mit p3 = 1<br />

8 im Bereich ” 3“.<br />

Dann ist<br />

P(5 mal ” 1“, 3 mal ” 2“, 2 mal ” 3“) = P(A5,3,2) =<br />

� �<br />

10<br />

·<br />

5,3,2<br />

� �5 1<br />

·<br />

2<br />

� �3 3<br />

·<br />

8<br />

� �2 1<br />

.<br />

8


46 3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente<br />

(3) Geometrische Verteilung ( ” Warten auf den ersten Erfolg“)<br />

Gegeben sei ein n-faches Bernoulli-Experiment Ω = {0,1} n mit Erfolgswahrscheinlichkeit p ∈ [0,1].<br />

Sei für 1 ≤ k ≤ n Ak das Ereignis ” erster Erfolg im k-ten Versuch ” (1 ≤ k ≤ n). Dann ist<br />

Beweis:<br />

P(Ak) = (1 − p) k−1 · p<br />

Im Produktexperiment ist natürlich Pi = P für jedes 1 ≤ i ≤ n, wobei P ({0}) = 1−p, P ({1}) = p.<br />

Offenbar entspricht für 1 ≤ k ≤ n das Ereignis Ak genau <strong>der</strong> Menge<br />

{0} × ... × {0} × {1} ,<br />

� �� �<br />

(k−1)-mal<br />

da ja vor dem Erfolg im k-ten Versuch nur Misserfolge auftreten dürfen. Gemäß Bemerkung 3.36<br />

gilt dann<br />

P (Ak) = P ({0} × ... × {0} × {1}) =<br />

was die Behauptung zeigt.<br />

Intuitiv richtig erscheint die Aussage auch für n<br />

k−1 �<br />

i=1<br />

Pi ({0}) · Pk ({1}) = (1 − p) k−1 · p,<br />

��<br />

∞, also<br />

pk := Pk(Ak) = (1 − p) k−1 · p, k = 1,2,....<br />

Für den formalen Beweis benötigt man Maßtheorie. Diese Gleichung definiert die geometrische Verteilung<br />

auf N mit P(1) = p,P(2) = (1 − p) · p,....<br />

Dies ist tatsächlich eine Wahrscheinlichkeitsverteilung auf N, da es sich um eine Wahrscheinlichkeitsfunktion<br />

handelt:<br />

∞�<br />

∞�<br />

pk = p · (1 − p) k−1<br />

k=1<br />

= p ·<br />

geometrische Reihe<br />

= p ·<br />

=<br />

p<br />

p<br />

= 1.<br />

k=1<br />

∞�<br />

(1 − p) k<br />

k=0<br />

�<br />

�<br />

1<br />

1 − (1 − p)<br />

(4) Negative Binomialverteilung ( ” k Misserfolge vor dem r-ten Erfolg“)<br />

Wir betrachten ein n-faches Bernoulli-Experiment, n ∈ N, mit Erfolgswahrscheinlichkeit p ∈ [0,1].<br />

Seien r,k ∈ N mit k + r ≤ n. Setze<br />

3.40 Lemma:<br />

Es gilt<br />

Beweis:<br />

A := ” genau k Misserfolge vor dem r-ten Erfolg“.<br />

�<br />

k + r − 1<br />

P(A) =<br />

k<br />

�<br />

p r (1 − p) k<br />

Sei Ω = {0,1} k+r <strong>der</strong> Produktraum mit <strong>der</strong> Verteilung, welche durch pi(1) = p, pi(0) = 1 − p,<br />

1 ≤ i ≤ k + r gegeben ist. Natürlich soll dabei 1“ für Erfolg“ und 0“ für Misserfolg“ stehen.<br />

” ” ” ”<br />

Nach <strong>der</strong> Binomialverteilung ist die Wahrscheinlichkeit, genau r − 1 Erfolge und k Misserfolge vor<br />

dem r-ten Erfolg zu erhalten genau<br />

� k + r − 1<br />

r − 1<br />

�<br />

p r−1 (1 − p) k+r−1−(r−1)


3 Unabhängigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 47<br />

und daher folgt<br />

was die Behauptung zeigt.<br />

P (A) =<br />

=<br />

=<br />

� k + r − 1<br />

r − 1<br />

�<br />

p r−1 (1 − p) k · p<br />

����<br />

r−ter Erfolg<br />

�<br />

k + r − 1<br />

�<br />

k + r − 1 − (r − 1)<br />

�<br />

k + r − 1<br />

k<br />

�<br />

p r (1 − p) k ,<br />

p r (1 − p) k<br />

Diese Verteilung nennt man auch die negative Binomialverteilung.


48 4 Zufallsvariablen, Verteilungen<br />

4 Zufallsvariablen, Verteilungen<br />

4.1 Zufallsvariablen<br />

Das Ziel <strong>der</strong> Einführung von Zufallsvariablen ist eine unkomplizierte Beschreibung von Ereignissen. Sie<br />

bilden ein wichtiges Handwerkszeug zur Formulierung und Lösung von stochastischen Problemen.<br />

4.1 Definition:<br />

Sei (Ω,P) ein diskreter Wahrscheinlichkeitsraum und Ω ′ �= ∅ eine beliebige Menge. Eine Abbildung<br />

X : Ω<br />

��<br />

Ω ′<br />

heißt Zufallsvariable (abgekürzt auch ZV) mit Werten in Ω ′ .<br />

Falls Ω ′ ⊂ R d so heißt X ein d-dimensionaler Zufallsvektor, falls d = 1 ist, so nennen wir X<br />

reellwertige Zufallsvariable.<br />

Beispiel 4.2:<br />

Beim zweimaligen Würfeln ist Ω = {1,...,6} 2 und ω = (a1,a2) ∈ Ω mit 1 ≤ ai ≤ 6.<br />

Wir betrachten die Summe <strong>der</strong> Augenzahlen<br />

das Maximum <strong>der</strong> Würfelergebnisse<br />

o<strong>der</strong> das Produkt <strong>der</strong> Augenzahlen<br />

X(ω) := a1 + a2,<br />

X(ω) := max {a1,a2} ,<br />

X(ω) := a1 · a2.<br />

Dann ist etwa X(ω) = a1 + a2 ist reellwertige Zufallsvariable mit Werten in Ω ′ = {2,...,12}.<br />

Bemerkung 4.3:<br />

X muss nicht injektiv und auch nicht surjektiv sein.<br />

X ” transportiert“ Wahrscheinlichkeitsmasse, z.B. wenn X(ω) = a1 + a2 ist<br />

P(X = 4) = P({(a1,a2) | a1 + a2 = 4})<br />

= P({(1,3),(2,2),(3,1)})<br />

= P({(1,3)}) + P({(2,2)}) + P({(3,1)})<br />

= 1 1 1 1<br />

+ + =<br />

36 36 36 12<br />

Das heißt, man bestimmt die Verteilung von X auf Ω ′ über Mengen wie X −1 ({4}).<br />

X −1 ist eine Abbildung von Mengen, d.h<br />

X : P(Ω ′ ) → P(Ω) A ′ ↦−→ X −1 (A ′ ) = {ω ∈ Ω | X(ω) ∈ A ′ }.<br />

Die allgemeinen Regeln für Urbil<strong>der</strong> gelten natürlich auch für Zufallsvariablen, wir wollen sie ohne Beweis<br />

in folgendem Lemma festhalten:<br />

4.4 Lemma (Eigenschaften):<br />

Es gilt:<br />

(U1) X−1 (X(Ω)) = Ω und X−1 (∅) = ∅<br />

(U2) X−1 � �<br />

�<br />

= �<br />

(U3) X−1 �<br />

�<br />

A<br />

i∈I<br />

′ i<br />

A<br />

i∈I<br />

′ i<br />

�<br />

= �<br />

X<br />

i∈I<br />

−1 (A ′ i )<br />

X<br />

i∈I<br />

−1 (A ′ i )<br />

(U4) X −1 (Ω ′ \ A ′ ) = Ω \ X −1 (A ′ )<br />

4.5 Definition:<br />

Sei ohne Einschränkung Ω ′ = X(Ω). Für einen diskreten Wahrscheinlichkeitsraum (Ω,P) wird durch<br />

P X : P (Ω ′ )<br />

��<br />

′ X ′ −1 ′<br />

R, A ↦→ P (A ) := P(X (A ))<br />

eine Wahrscheinlichkeitsverteilung P X auf <strong>der</strong> diskreten Menge Ω ′ definiert.<br />

P X heißt Verteilung von X auf Ω ′ (unter P).


4 Zufallsvariablen, Verteilungen 49<br />

Beweis:<br />

Wir müssen die Axiome (A1), (A2) und (A3) eines Wahrscheinlichkeitsraumes nachweisen:<br />

(A1) P X (A ′ ) ≥ 0 gilt.<br />

(A2) P X (Ω ′ ) Definition<br />

= P � X −1 (Ω ′ ) � = P(Ω) = 1<br />

(A3) Seien A ′ 1,A ′ 2,... disjunkte Teilmengen von Ω ′ . Dann gilt<br />

P X<br />

� ∞�<br />

i=1<br />

A ′ i<br />

�<br />

Definition<br />

= P<br />

= P<br />

�<br />

�<br />

X −1<br />

X −1<br />

� ∞�<br />

i=1<br />

� ∞�<br />

i=1<br />

�<br />

∞�<br />

(U3)<br />

= P (A ′ �<br />

i)<br />

σ-Additivität<br />

=<br />

Definition<br />

=<br />

∞�<br />

i=1<br />

i=1<br />

A ′ i<br />

A ′ i<br />

P(X −1 (A ′ i))<br />

∞�<br />

P X (A ′ i).<br />

Das zeigt, dass P X in <strong>der</strong> Tat ein Wahrscheinlichkeitsmaß auf Ω ′ ist.<br />

Bemerkung 4.6:<br />

Mittels ” Transport von P durch X“ entsteht also ein neuer Wahrscheinlichkeitsraum (Ω ′ ,P X ).<br />

Notation 1:<br />

Sei (Ω,P) diskreter Wahrscheinlichkeitsraum, X : Ω → Ω ′ eine Zufallsvariable.<br />

Man schreibt/meint<br />

und<br />

i=1<br />

(X = x) := {ω ∈ Ω | X(ω) = x} , x ∈ Ω ′<br />

��<br />

��<br />

(X ∈ A) := {X ∈ A} = {ω ∈ Ω | X(ω) ∈ A} ,A ⊂ Ω ′ .<br />

Damit schreibt man P X (A) = P(X ∈ A) sowie P X ({x}) = P (X = x).<br />

Falls X reellwertig ist (d.h. Ω ′ ⊂ R) so benutzt man auch (X ≤ x) = {X ≤ x} = {ω ∈ Ω | X(ω) ≤ x}.<br />

Beispiel 4.7:<br />

Sei Ω = {1,...,6} 2 ,P(a1,a2) = 1<br />

36 ∀ (a1,a2) ∈ Ω.<br />

• X(a1,a2) = a1 + a2 mit Ω ′ = {2,3,...,12}.<br />

Für x ∈ Ω ′ gilt:<br />

P X = P � X −1 ({x}) � =<br />

• X(a1,a2) = max {a1,a2} mit Ω ′ = {1,...,6}<br />

Für x ∈ Ω ′ gilt:<br />

� x−1<br />

36<br />

13−x<br />

36<br />

falls x = 2,...,7,<br />

falls x = 8,...,12 .<br />

P X (x) = P(X = x) = P ({a1,a2) | max {a1,a2} = x}) =<br />

Dadurch ist eine Wahrscheinlichkeitsmaß auf Ω ′ gegeben.<br />

2x − 1<br />

.<br />

36<br />

Man spricht oft einfach von einer Ω ′ -wertigen Zufallsvariablen X, mit Verteilung P X und erwähnt we<strong>der</strong><br />

(Ω,P) noch die spezielle Abbildung X.


50 4 Zufallsvariablen, Verteilungen<br />

4.8 Definition (Indikatorvariable):<br />

Für A ⊂ Ω definieren wir durch<br />

die Indikatorvariable zu A.<br />

1A : Ω<br />

Die Verteilung von X = 1A sieht wie folgt aus:<br />

�<br />

1 falls ω ∈ A<br />

��<br />

{0,1}, 1A(ω) =<br />

0 falls w /∈ A<br />

• P X ({1}) = P � X −1 ({1}) � = P({ω ∈ Ω | X(ω) = 1}) = P(A)<br />

• P X ({0}) = P � X −1 ({1}) � = P({ω ∈ Ω | X(ω) = 0}) = P(A C )<br />

Beispiel 4.9:<br />

Sei Ω = {1,...,6} und A = {2,4,6}. Dann ordnet 1A wie folgt zu:<br />

Bemerkung 4.10:<br />

2,4,6 ↦→ 1,<br />

1,3,5 ↦→ 0.<br />

Falls Ω ′ ⊂ R d ,d ≥ 2 und damit X(ω) = (X1(ω),...,Xd(ω)) so ist für A = A1 × ... × Ad:<br />

⎛ ⎞<br />

d�<br />

P(X ∈ A) = P ⎝ {Xj ∈ Aj} ⎠ .<br />

Insbeson<strong>der</strong>e gilt also<br />

⎛<br />

d�<br />

P(X = x) = P(X1 = x1,...,Xd = xd) = P ⎝ X −1<br />

⎞<br />

i ({xi}) ⎠ .<br />

4.11 Definition (Gemeinsame Verteilung):<br />

Sei (Ω,P) gegeben, Xj : Ω ��<br />

′ Ω j , j = 1,...,n seien Zufallsvariablen. Wir definieren<br />

X : Ω<br />

j=1<br />

j=1<br />

��<br />

Ω ′ 1 × ... × Ω ′ n durch ω ↦→ (X1(ω),...,Xn(ω)).<br />

Dann heißt P X = P (X1,...Xn) die gemeinsame Verteilung von X1,...Xn. Die zugehörige Wahrscheinlichkeitsfunktion<br />

ist<br />

Beispiel 4.12:<br />

p(x1,...xn) = P(X1 = x1,...Xn = xn) für alle Tupel (x1,...,xn) ∈ Ω ′ .<br />

Wir wollen wie<strong>der</strong> zweifach mit einem fairen Würfel werfen. Betrachte also Ω = {1,2,3,4,5,6} mit <strong>der</strong><br />

Lapace-Verteilung P. Definiere für (a1,a2) = ω ∈ Ω die Zufallsvariablen X1,X2 : Ω ��Ω<br />

(also Ω ′ = Ω),<br />

X1 (ω) := min {a1,a2} ,<br />

X2 (ω) := max {a1,a2} .<br />

Die gemeinsame Verteilung von X1 und X2 können wir dann als Matrix schreiben. Setze dazu c := 1<br />

36<br />

und erhalte<br />

x1 / x2 1 2 3 4 5 6 P (X1) ({x1})<br />

1 c 2c 2c 2c 2c 2c 11c<br />

2 0 c 2c 2c 2c 2c 9c<br />

3 0 0 c 2c 2c 2c 7c<br />

4 0 0 0 c 2c 2c 5c<br />

5 0 0 0 0 c 2c 3c<br />

6 0 0 0 0 0 c c<br />

P (X2) ({x2}) c 3c 5c 7c 9c 11c


4 Zufallsvariablen, Verteilungen 51<br />

Dabei steht in <strong>der</strong> Zelle (i,j) natürlich P (X1,X2) ({i} × {j}) = P (X1 = i,X2 = j) und wir haben in <strong>der</strong><br />

letzten Zeile / Spalte gleich noch die Werte <strong>der</strong> Einzel-Verteilungen P X1 und P X2 eingetragen, da diese<br />

sich einfach als Summe <strong>der</strong> Zeilen- / Spalteneinträge berechnen.<br />

4.13 Definition:<br />

Sei (Ω,P) ein diskreter Wahrscheinlichkeitsraum und seien Xj : Ω<br />

Für eine Indexauswahl<br />

1 ≤ i1 < ... < ik ≤ n<br />

��<br />

′ Ω j für 1 ≤ j ≤ n Zufallsvariablen.<br />

nennen wir die gemeinsame Verteilung von Xi1 ,...,Xik eine k-dimensionale Randverteilung o<strong>der</strong><br />

auch Marginalverteilung.<br />

Beispiel 4.14:<br />

Sei X = (X1,X2). Dann sind P Xi für i = 1,2 1-dimensionale Randverteilungen und es gilt zum Beispiel<br />

P X1 (x1) = P (X1 = x1) = �<br />

P (X1 = x1,X2 = x2) , x1 ∈ Ω ′ 1.<br />

x2∈X2(Ω)<br />

4.1.1 Unabhängigkeit von Zufallsvariablen<br />

Die Idee ist, dass zwei Zufallsvariablen X1,X2 unabhängig sind, wenn<br />

gilt.<br />

Beispiel 4.15:<br />

P (X1 = x1,X2 = x2) = P (X1 = x1) · P (X2 = x2) ∀ (x1,x2) ∈ Ω ′ 1 × Ω ′ 2<br />

In obigem Beispiel 4.12 kann man aus <strong>der</strong> Tabelle leicht ablesen, dass<br />

gilt, aber<br />

P (X1 = 1,X2 = 1) = 1<br />

36<br />

P (X1 = 1) · P (X2 = 1) = 11 1<br />

·<br />

36 36<br />

�= 1<br />

36<br />

ist. Daher sollten X1 und X2 wie dort definiert nicht unabhängig sein.<br />

4.16 Definition:<br />

Sei (Ω,P) ein diskreter Wahrscheinlichkeitsraum und seien Xi : Ω<br />

Wir nennen X1,...,Xn unabhängig, wenn<br />

P (X1,...,Xn) =<br />

n<br />

⊗P i=1<br />

Xi<br />

gilt. Dabei meint n<br />

⊗ P<br />

i=1<br />

Xi einfach das Produkt <strong>der</strong> Verteilungen, also<br />

Beispiel 4.17:<br />

Sei n = 2 und seien X1,X2 : Ω<br />

n<br />

⊗P i=1<br />

Xi (A1 × ... × An) =<br />

n�<br />

P Xi (Ai) , Ai ∈ Ω ′ i für i = 1,...n.<br />

Einzelverteilungen P X1 und P X2 wie im obigen Beispiel eintragen:<br />

Man stellt fest, dass<br />

i=1<br />

��<br />

′ Ω i für 1 ≤ i ≤ n Zufallsvariablen.<br />

��<br />

{0,1} durch folgende Tabelle gegeben, in welche wir auch gleich die<br />

x1/x2 0 1 P X1 ({x1})<br />

0 0.12 0.28 0.4<br />

1 0.18 0.42 0.6<br />

P X2 ({x2}) 0.3 0.7<br />

2<br />

⊗P i=1<br />

Xi (x1,x2) Definition<br />

= P X1 (x1) · P X2 (x2) = P (X1 = x1) · P (X2 = x2)


52 4 Zufallsvariablen, Verteilungen<br />

4.18 Satz:<br />

gilt. In je<strong>der</strong> Zelle gilt<br />

und daher sind X1 und X2 hier unabhängig.<br />

P (X1 = x1) · P (X2 = x2) = P (X1 = x1,X2 = x2)<br />

Sei (Ω,P) ein diskreter Wahrscheinlichkeitsraum und seien Xi : Ω<br />

Dann sind die folgenden Aussagen äquivalent:<br />

(1) X1,...,Xn sind unabhängig.<br />

(2) Für alle Ai ⊆ Ω ′ i , 1 ≤ i ≤ n gilt<br />

(3) Für alle xi ∈ Ω ′ i , 1 ≤ i �= n gilt<br />

Beweis:<br />

” (1)⇒(2)“ Für beliebige Ai ⊆ Ω ′ i , 1 ≤ i ≤ n, gilt<br />

P (X1 ∈ A1,...,Xn ∈ An) =<br />

P (X1 = x1,...,Xn = xn) =<br />

n�<br />

P (Xi ∈ Ai) .<br />

i=1<br />

n�<br />

P (Xi = xi) .<br />

i=1<br />

��<br />

′ Ω i für 1 ≤ i ≤ n Zufallsvariablen.<br />

P (X1 ∈ A1,...,Xn ∈ An) = P ((X1,...,Xn) ∈ A1 × ... × An)<br />

= P (X1,...,Xn) (A1 × ... × An)<br />

�<br />

X1,...,Xn unabhängig<br />

=<br />

” (2)⇒(3)“ Für gegebene xi ∈ Ω ′ i , 1 ≤ i ≤ n setze Ai := {xi}.<br />

” (3)⇒(1)“ Hier gilt für alle xi ∈ Ω ′ i , 1 ≤ i ≤ n:<br />

P (X1,...,Xn) (x1,...,xn)<br />

=<br />

=<br />

(3)<br />

=<br />

Definition<br />

=<br />

�<br />

n<br />

⊗ P<br />

i=1<br />

Xi<br />

n�<br />

P Xi (Ai)<br />

i=1<br />

n�<br />

P (Xi ∈ Ai)<br />

i=1<br />

n�<br />

P (Xi = xi)<br />

i=1<br />

�<br />

n<br />

⊗P i=1<br />

Xi<br />

�<br />

(A1 × ... × An)<br />

(x1,...,xn)<br />

Daher stimmen die zu den Verteilungen P (X1,...,Xn) und n<br />

⊗ P<br />

i=1<br />

Xi gehörigen Wahrscheinlichkeitsfunktionen<br />

auf allen Tupeln (x1,...,xn) ∈ Ω1 × ... × Ωn überein und aus diesem Grund müssen die<br />

beiden Verteilungen gleich sein.<br />

Unabhängige Zufallsvariablen verwendet man üblicherweise zur Modellierung von Ausgängen von Experimenten,<br />

die völlig getrennt ablaufen. Betrachte etwa das folgende Problem, welches allgemein als<br />

Ziegenproblem o<strong>der</strong> auch 3-Türen-Problem bekannt ist:<br />

Beispiel 4.19:<br />

Wir betrachten drei Türen mit den Nummern 1 bis 3, wobei hinter einer rein zufälligen Tür ein Gewinn<br />

(etwa ein Auto) und hinter den an<strong>der</strong>en beiden Türen je eine Ziege ist. Die Türen sind natürlich<br />

verschlossen. Das Spiel läuft nun wie folgt ab:<br />

(1) Der Kandidat wählt eine Tür.


4 Zufallsvariablen, Verteilungen 53<br />

(2) Der Mo<strong>der</strong>ator öffnet eine <strong>der</strong> beiden an<strong>der</strong>en Türen, aber nicht die, hinter welcher sich <strong>der</strong> Gewinn<br />

befindet.<br />

(3) Der Kandidat darf wechseln.<br />

Die Frage ist nun, ob es sich für den Kandidaten lohnt, zu wechseln.<br />

Wir modellieren das Problem durch folgende Zufallsvariablen:<br />

• X1:= Nummer <strong>der</strong> Tür, hinter welcher sich <strong>der</strong> Gewinn befindet (∈ {1,2,3}).<br />

• X2:= Nummer <strong>der</strong> Tür, die <strong>der</strong> Kandidat in Schritt (1) auswählt (∈ {1,2,3}).<br />

Nach unseren Annahmen ist dann<br />

P (X1 = 1) = P (X1 = 2) = P (X1 = 3) = 1<br />

3<br />

(<strong>der</strong> Gewinn ist rein zufällig verteilt) und die Zufallsvariablen X1 und X2 sind unabhängig (<strong>der</strong> Kandidat<br />

hat keine Informationen über die Gewinntür.<br />

Verfolgt <strong>der</strong> Kandidat die Strategie ” nicht wechseln“, so gewinnt er genau dann, wenn X1 = X2 gilt. Also<br />

P ( ” Gewinn“) = P (X1 = X2)<br />

=<br />

X1,X2 unabhängig<br />

=<br />

=<br />

=<br />

3�<br />

P (X1 = i,X2 = i)<br />

i=1<br />

3�<br />

P (X1 = i) ·P (X2 = i)<br />

i=1<br />

1<br />

3<br />

1<br />

3 .<br />

� �� �<br />

= 1<br />

3<br />

3�<br />

P (X2 = i)<br />

i=1<br />

� �� �<br />

=1<br />

Man beachte, dass es für dieses Ergebnis völlig egal ist, wie X2 verteilt ist, d.h. z.B. davon, ob <strong>der</strong><br />

Kandidat mit Vorliebe eine <strong>der</strong> Türen auswählt.<br />

Verfolgt <strong>der</strong> Kandidat dagegen die Strategie ” wechseln“, so gewinnt er genau dann, wenn X1 �= X2 gilt<br />

(weil <strong>der</strong> Mo<strong>der</strong>ator dann nur genau eine Tür öffnen kann, hinter <strong>der</strong> natürlich eine Ziege steht, und <strong>der</strong><br />

Kandidat in Schritt (3) dann zwangsläufig auf die Gewinn-Tür wechselt). Es folgt also<br />

P ( Gewinn“) = P (X1 �= X2) = 1 − P (X1 = X2) = 1 −<br />

” 1 2<br />

=<br />

3 3 .<br />

Die Strategie ” wechseln“ ist also deutlich besser!<br />

4.20 Definition (Funktionen von Zufallsvariablen):<br />

Sei Ω ein diskreter Grundraum und seien Ω ′ ,Ω ′′ beliebige Mengen. Sei X : Ω<br />

und g : Ω ′ ��<br />

′′ Ω eine beliebige Abbildung. Dann wird durch<br />

g(X) := g ◦ X : Ω<br />

��<br />

′′<br />

Ω<br />

eine Ω ′′ -wertige Zufallsvariable g ◦ X durch ω ↦→ g(X(ω)) auf Ω definiert.<br />

Beispiel 4.21:<br />

Sei g : Rn ��<br />

R gegeben durch x = (x1,...,xn) ↦→ n�<br />

xi. Ist<br />

X : Ω<br />

eine Zufallsvariable, so ist g(X) gegeben durch<br />

ω ↦→<br />

i=1<br />

��<br />

n<br />

R , ω ↦→ (X1(ω),...,Xn(ω))<br />

n�<br />

Xi(ω), ω ∈ Ω.<br />

i=1<br />

��<br />

Ω ′ eine Zufallsvariable


54 4 Zufallsvariablen, Verteilungen<br />

Beispiel 4.22:<br />

Sei X : Ω<br />

��<br />

R eine Zufallsvariable und g : R<br />

��<br />

R gegeben durch<br />

x ↦→ x k<br />

für ein k ∈ N. Dann ist (g(X)) (ω) = (X(ω)) k , ω ∈ Ω und wir schreiben auch<br />

X k := g(X)<br />

4.23 Lemma:<br />

Sei (Ω,P) ein diskreter Wahrscheinlichkeitsraum und Xi : Ω ��<br />

Ωi, 1 ≤ i ≤ n unabhängige Zufallsvariablen.<br />

Sei 1 ≤ i1 < ... < ik ≤ n eine Indexauswahl. Dann sind auch die Zufallsvariablen<br />

unabhängig.<br />

Beweis:<br />

Xi1 ,...,Xik<br />

Laut Satz 4.18 genügt es zu zeigen, dass für alle Aij ⊂ Ω′ , 1 ≤ j ≤ k, gilt:<br />

ij<br />

Es gilt<br />

P (Xi 1 ,...,Xi k) (Ai1<br />

× ... × Aik ) =<br />

P (Xi 1 ,...,Xi k) (Ai1<br />

k�<br />

P � Xij<br />

j=1<br />

× ... × Aik )<br />

= P (Xi1 ∈ Ai1 ,...,Xik ∈ Aik )<br />

= P � X1 ∈ Ω ′ 1<br />

� �� �<br />

trivial!<br />

∈ Aij<br />

,...,Xi1−1 ∈ Ω ′ i1−1,Xi1<br />

∈ Ai1 ,Xi1+1 ∈ Ω ′ i1+1<br />

� �� �<br />

trivial!<br />

� .<br />

� �� �<br />

trivial!<br />

...,Xik−1 ∈ Ω ′ ik−1,Xik<br />

∈ Aik ,Xik+1 ∈ Ω ′ ik+1,...,Xn<br />

∈ Ω ′ n<br />

� �� �<br />

trivial!<br />

� ��<br />

trivial!<br />

�<br />

�<br />

· P (Xi1<br />

X1,...,Xn unabh.<br />

= P (X1 ∈ Ω ′ 1) · ... · P � Xi1−1 ∈ Ω ′ i1−1<br />

· P � Xi1+1 ∈ Ω ′ � �<br />

i1+1 · ... · P Xik−1 ∈ Ω ′ ik−1<br />

=<br />

=<br />

Damit ist die Behauptung gezeigt.<br />

· P � Xik+1 ∈ Ω ′ ik+1<br />

n�<br />

i=1<br />

i�=i j ∀j∈{1,...,k}<br />

k�<br />

P � Xij<br />

j=1<br />

� · ... · P (Xn ∈ Ω ′ n)<br />

P (Xi ∈ Ω ′ � ��<br />

i) ·<br />

�<br />

=1<br />

∈ Aij<br />

� .<br />

k�<br />

P � Xij<br />

j=1<br />

∈ Aij<br />

� �� �<br />

trivial!<br />

,...<br />

�<br />

∈ Ai1 ) ·<br />

�<br />

· P (Xik ∈ Aik ) ·<br />

4.24 Satz (Blockungslemma):<br />

Sei (Ω,P) ein diskreter Wahrscheinlichkeitsraum und Xi : Ω ��<br />

Ωi, 1 ≤ i ≤ n unabhängige Zufallsvariablen.<br />

Sei I1,...,Ik eine disjunkte Zerlegung <strong>der</strong> Menge {1,...,n} und setze cj := #Ij. Seien zuletzt<br />

beliebige Abbildungen. Ist Ij =<br />

unabhängig.<br />

gj : × i∈Ij<br />

Ω ′ i<br />

��<br />

′′<br />

Ω j , j = 1,...,k<br />

�<br />

i j<br />

1 ,...,ij �<br />

cj , so sind auch die Zufallsvariablen<br />

Yj := gj<br />

�<br />

X i j<br />

1<br />

,...,X i j cj<br />

�<br />

, j = 1,...,k<br />


4 Zufallsvariablen, Verteilungen 55<br />

Beweis:<br />

Es genügt offenbar zu zeigen, dass für eine Abbildung<br />

g : Ω ′ 1 × ... × Ω ′ m<br />

und X := g (X1,...,Xm) die Zufallsvariablen<br />

X,Xm+1,...,Xn<br />

��<br />

Ω ′′ , 1 ≤ m < n,<br />

ebenfalls unabhängig sind. Laut Satz 4.18 haben wir also ∀ xi ∈ Ω ′ i , m + 1 ≤ i ≤ n, ∀ y ∈ Ω′′ zu zeigen:<br />

n�<br />

i=m+1<br />

P (Xi = xi) · P (X = y) = P (X = y,Xm+1 = xm+1,...,Xn = xn) (4.1)<br />

Für y ∈ Ω ′′ berechnen wir dazu zunächst<br />

P (X = y) = P � X −1 ({y}) �<br />

Damit folgt<br />

=<br />

= P �� a ∈ Ω | X1(a) ∈ g −1 ({y}) ,...,Xm(a) ∈ g −1 ({y}) ��<br />

= P (X1,...,Xm) � g −1 ({y}) �<br />

=<br />

�<br />

p (X1,...,Xm) (a)<br />

=<br />

Unabhängigkeit, Lemma 4.23<br />

=<br />

a∈g −1 ({y})<br />

�<br />

a∈g −1 ({y})<br />

P (X1 = a,...,Xm = a)<br />

P (X = y) · P (Xm+1 = xm+1,...,Xn = xn)<br />

�<br />

P (X1 = a,...,Xn = a) · P (Xm+1 = xm+1,...,Xn = xn)<br />

a∈g −1 ({y})<br />

�<br />

a∈g −1 ({y})<br />

P (X1 = a,...,Xm = a,Xm+1 = xm+1,...,Xn = xn)<br />

= P � X1 ∈ g −1 ({y}) ,...,Xm ∈ g −1 ({y}) ,Xm+1 = xm+1,...,Xn = xn<br />

= P (X = y,Xm+1 = xm+1,...,Xn = xn)<br />

Damit ist 4.1 und daher die Behauptung gezeigt.<br />

Beispiel 4.25:<br />

Sind X1,...,Xn unabhängige Zufallsvariablen auf dem diskreten Wahrscheinlichkeitsraum (Ω,P) mit Werten<br />

in R, so sind auch die Zufallsvariablen<br />

X 2 1,...,X 2 n<br />

unabhängig. Um das zu zeigen, wende einfach das Blockungslemma mit Ii = {i} , 1 ≤ i ≤ n und<br />

g1(x) = g2(x) = ... = gn(x) = x 2 an.<br />

Genauso folgt dann die Unabhängigkeit von<br />

o<strong>der</strong><br />

usw..<br />

Beispiel 4.26:<br />

|X1|,..., |Xn|<br />

X 2 1, |X2|, |X3| 5 ,...<br />

Seien X1,...,X5 unabhängige Zufallsvariablen auf dem diskreten Wahrscheinlichkeitsraum (Ω,P) mit<br />

Werten in R. Dann sind auch die Zufallsvariablen<br />

X1 sin(X4),X2 · exp(X3 · X5)<br />

unabhängig. Um das zu sehen wende das Blockungslemma auf I1 = {1,4} und I2 = {2,3,5} mit g1 (x,y) =<br />

x · sin(y), g2 (x,y,z) = x · exp (y · z) an.<br />


56 4 Zufallsvariablen, Verteilungen<br />

4.2 Verteilungen<br />

Sei stets (Ω,P) ein diskreter Wahrscheinlichkeitsraum und X : Ω<br />

4.27 Definition:<br />

��<br />

′ Ω eine Zufallsvariable.<br />

Ist Ω ′ = {x1,...,xn}, so nennen wir X Laplace-verteilt (o<strong>der</strong> auch gleichverteilt), falls<br />

4.28 Definition:<br />

P (x = xk) = 1<br />

n<br />

∀ k = 1,...,n.<br />

Ist Ω ′ = {0,1}, so nennen wir X Bernoulli-verteilt mit Parameter p ∈ [0,1], falls<br />

Wir schreiben dann auch X ∼ B(1,p).<br />

4.29 Definition:<br />

P (X = 1) = p, P (x = 0) = 1 − p.<br />

Ist Ω ′ = {1,...,n}, so nennen wir X Binomial-verteilt mit Parametern p ∈ [0,1] , n ∈ N, falls<br />

� �<br />

n<br />

P (X = k) = p<br />

k<br />

k (1 − p) n−k , k = 0,...,n.<br />

4.30 Satz:<br />

Wir schreiben dann auch X ∼ B(n,p).<br />

Abbildung 6: Binomialverteilungen B(n,p) mit p = 0.1,0.2,0.5,0.8<br />

Seien X1,...,Xn unabhängige Zufallsvariablen auf (Ω,P) und es gelte Xi ∼ B(1,p) für jedes i ∈ {1,...,n}<br />

mit festem p ∈ [0,1]. Dann gilt<br />

X1 + ... + Xn ∼ B(n,p).<br />

Beweis:<br />

Es ist<br />

P (X1 + ... + Xn = k) =<br />

Für jedes (a1,...,an) ∈ {0,1} n mit n�<br />

ai = k gilt<br />

P (X1 = a1,...,Xn = an)<br />

Außerdem ist<br />

�<br />

#<br />

(a1,...,an) ∈ {0,1} n |<br />

i=1<br />

�<br />

(a1 ,...,an)∈{0,1} n<br />

n�<br />

ai =k<br />

i=1<br />

P (X1 = a1,...,Xn = an)<br />

X1,...,Xn unabhängig<br />

= P (X1 = a1) · ... · P (Xn = an) = p k (1 − p) n−k<br />

n�<br />

�<br />

ai = k<br />

i=1<br />

Damit folgt schon die Behauptung.<br />

= #k − elementige Teilmengen einer n − elementigen Menge<br />

=<br />

� �<br />

n<br />

.<br />

k


4 Zufallsvariablen, Verteilungen 57<br />

4.31 Definition:<br />

Ist Ω ′ = N, so nennen wir X geometrisch verteilt mit Parameter p ∈ [0,1], falls<br />

Wir schreiben dann auch X ∼ Geo(p).<br />

4.32 Lemma:<br />

Ist X ∼ Geo(p), so gilt<br />

für jedes k ∈ N.<br />

Beweis:<br />

Es ist<br />

P (X = k) = p · (1 − p) k−1 , k ∈ N.<br />

Abbildung 7: Geometrische Verteilungen Geo(p) mit p = 0.5,0.25,0.1<br />

P (X ≥ k) =<br />

für jedes k ∈ N. Das zeigt die Behauptung.<br />

Bemerkung 4.33:<br />

P (X ≥ k) = (1 − p) k−1<br />

=<br />

∞�<br />

P (X = j)<br />

j=k<br />

∞�<br />

(1 − p) j−1 p<br />

j=k<br />

= p · (1 − p) k−1<br />

= (1 − p) k−1<br />

∞�<br />

(1 − p) j<br />

j=0<br />

� �� �<br />

= 1<br />

p<br />

In diesem Zusammenhang spricht man bei <strong>der</strong> geometrisch verteilten Zufallsvariablen auch von <strong>der</strong><br />

” Überlebenswahrscheinlichkeit“.<br />

Will man etwa modellieren, wie groß die Wahrscheinlichkeit ist, dass ein bestimmtes Bauteil mehr als k<br />

Arbeitsgänge hält, so verwendet man X ∼ Geo(p) mit <strong>der</strong> Wahrscheinlichkeit p, dass das Bauteil einen<br />

festen Arbeitsgang überlebt.<br />

4.34 Lemma:<br />

Ist X ∼ Geo(p) eine Zufallsvariable, so gilt die Gedächtnislosigkeit, nämlich<br />

P (X ≥ k + j | X > j) = P (x ≥ k) ∀ j,k ∈ N.


58 4 Zufallsvariablen, Verteilungen<br />

Beweis:<br />

Seien k,j ∈ N. Da k ≥ 1 ist stets<br />

{X ≥ k + j} ∩ {X > j} = {ω ∈ Ω | X(ω) ≥ k + j} ∩ {ω ∈ Ω | X(ω) ≥ j + 1} = {X ≥ k + j} (4.2)<br />

Damit folgt<br />

Damit ist die Behauptung gezeigt.<br />

Bemerkung 4.35:<br />

P (X ≥ k + j | X > j)<br />

(4.2)<br />

=<br />

Lemma 4.32<br />

=<br />

P (X ≥ k + j)<br />

P (X ≥ j + 1)<br />

(1 − p) k+j−1<br />

(1 − p) j<br />

= (1 − p) k−1<br />

Lemma 4.32<br />

= P (X ≥ k) .<br />

Die Umkehrung dieser Aussage gilt ebenfalls. Vergleiche dazu Übungsblatt 5.<br />

Bemerkung 4.36:<br />

Betrachtet man X ∼ Geo(p) als ” Überlebenswahrscheinlichkeit“, so sagt die Gedächtnislosigkeit genau,<br />

dass gebrauchte Bauteile ebenso gut wie neue Bauteile sind.<br />

4.37 Definition:<br />

Ist Ω ′ = N0, so nennen wir X Poisson-verteilt mit Parameter λ ∈ (0, ∞), falls<br />

Wir schreiben dann auch X ∼ Poi(λ).<br />

Bemerkung 4.38:<br />

P (X = k) = exp (−λ) · λk<br />

,k ∈ N0.<br />

k!<br />

� �� �<br />

=poi λ (k)<br />

Abbildung 8: Poisson-Verteilungen Poi(λ) mit λ = 2,4,10,16<br />

Poisson-verteilte Zufallsvariablen werden empirisch beobachtet bei z.B.<br />

• Anrufen pro Minute in einem Call-Center,<br />

• <strong>der</strong> Anzahl radioaktiver Zerfälle pro Zeitintervall und<br />

• <strong>der</strong> Anzahl von Meteoriteneinschlägen in einem Gebiet pro Zeitintervall.<br />

Allgemein tritt die Poisson-Verteilung dann auf, wenn Realisationen vieler möglicher, aber nur mit kleiner<br />

Wahrscheinlichkeit eintreten<strong>der</strong> Ereignisse gewählt werden.


4 Zufallsvariablen, Verteilungen 59<br />

4.2.1 Eigenschaften <strong>der</strong> Possionverteilung<br />

4.39 Satz (Poisson-Grenzwertsatz):<br />

Ist (Xn)n≥1 eine Folge von B(n,pn) verteilten Zufallsvariablen mit n · pn<br />

Beweis:<br />

Zunächst gilt<br />

P(Xn = k) =<br />

= n · (n − 1) · ... · (n − k + 1)<br />

lim<br />

n→∞ P(Xn = k) = poiλ(k) für k = 0,1,...<br />

� �<br />

n<br />

· p<br />

k<br />

k n · (1 − p) n−k<br />

k!<br />

· 1<br />

nk · (n · pn) k �<br />

·<br />

= n n − 1 n − k + 1<br />

· · ... · ·<br />

n n n<br />

(n · pn) k<br />

·<br />

k!<br />

Berechnen wir nun die Grenzwerte einzeln, so haben wir<br />

n n − 1 n − k + 1<br />

· · ... ·<br />

n n n<br />

�<br />

1 −<br />

n<br />

�<br />

1 −<br />

��<br />

∞ ��<br />

1,<br />

(n · pn) k ��<br />

��<br />

k!<br />

n ∞<br />

n ·<br />

�<br />

pn<br />

n<br />

n<br />

n<br />

(1 − pn) −k ��<br />

��<br />

n ∞<br />

1.<br />

n<br />

��<br />

∞ ��<br />

λ ∈ (0, ∞), so gilt<br />

1 − npn<br />

�n · (1 − pn)<br />

n<br />

−k<br />

n ·<br />

�<br />

pn<br />

n<br />

· (1 − pn)<br />

n<br />

−k<br />

λ k<br />

k! ,<br />

��<br />

∞ ��<br />

exp(−λ),<br />

Das liefert<br />

P(Xn = k) n ��<br />

��<br />

∞ λ<br />

exp(−λ) · k<br />

k!<br />

mit <strong>der</strong> obigen Darstellung und zeigt die Behauptung.<br />

Die folgende Fehlerabschätzung wollen wir nur ohne Beweis angeben:<br />

4.40 Satz (Fehlerabschätzung für die Poisson-Approximation <strong>der</strong> Binomialverteilung):<br />

Sei X ∼ B(n,p) und λ := n · p. Dann gilt für jede Teilmenge A ⊂ {0,1,2,...}:<br />

�<br />

�<br />

�<br />

�<br />

� �<br />

�<br />

�P(x<br />

∈ A) − poi<br />

�<br />

λ(k) �<br />

�<br />

≤ (1 − exp(−np)) · p<br />

Insbeson<strong>der</strong>e ist<br />

Beispiel 4.41:<br />

k∈A<br />

≤ p.<br />

�<br />

�<br />

�<br />

λk �<br />

�<br />

�P(X = k) − exp(−λ) · �<br />

k! � ≤ (1 − exp(−np)) · p ∀k = 0,1,2,...<br />

Sei n = 1000 und p = 10−3 . Dann ist <strong>der</strong> Fehler <strong>der</strong> Approximation:<br />

�<br />

�<br />

�<br />

� � �<br />

�<br />

�P(x<br />

∈ A) − poi<br />

�<br />

λ(k) �<br />

k∈A<br />

� ≤ (1 − exp(1)) · 10−3 ≈ 0.64 · 10 −3 = 0.00064


60 5 Kenngrößen von Verteilungen<br />

5 Kenngrößen von Verteilungen<br />

5.1 Der Erwartungswert<br />

5.1 Lemma:<br />

Sei X : Ω → Ω ′ eine diskrete reellwertige Zufallsvariable und P eine Wahrscheinlichkeitsverteilung auf<br />

Ω. Dann gilt �<br />

|X(ω)| · P(ω) < ∞ ⇔ �<br />

|x| · P X (x) < ∞<br />

ω∈Ω<br />

x∈Ω ′<br />

und in diesem Falle �<br />

X(ω) · P(ω) = �<br />

x · P(X = x).<br />

Beweis:<br />

Wir berechnen<br />

ω∈Ω<br />

x∈Ω ′<br />

�<br />

X(ω) · P(ω) = �<br />

ω∈Ω<br />

x∈Ω ′<br />

= �<br />

x∈Ω ′<br />

�<br />

ω∈Ω<br />

X(ω)=x<br />

�<br />

ω∈Ω<br />

X(ω)=x<br />

= �<br />

x · �<br />

x∈Ω ′<br />

ω∈Ω<br />

X(ω)=x<br />

X(ω) · P(ω)<br />

x · P(ω)<br />

P(ω)<br />

= �<br />

x · P(X = x).<br />

Die gleiche Rechnung mit |X(ω)| bzw. |x| zeigt, dass die ” < ∞“-Bedingungen äquivalent sind.<br />

5.2 Definition:<br />

x∈Ω ′<br />

Sei X : Ω → Ω ′ eine diskrete reellwertige Zufallsvariable und P eine Wahrscheinlichkeitsverteilung auf<br />

Ω. Wir definieren den Erwartungswert E(X) von X durch<br />

E(X) := �<br />

X(ω) · P(ω), falls �<br />

|X(ω)| · P(ω) < ∞ (5.1)<br />

Bemerkung 5.3:<br />

ω∈Ω<br />

ω∈Ω<br />

= �<br />

x · P(X = x), falls �<br />

|x| · P X (x) < ∞. (5.2)<br />

x∈Ω ′<br />

(5.2) zeigt, dass E(X) nur von <strong>der</strong> Verteilung P X von X abhängt. E(X) ist in diesem Sinne also eine<br />

” Kenngröße“ <strong>der</strong> Verteilung von X.<br />

Bemerkung 5.4:<br />

x∈Ω ′<br />

Die gefor<strong>der</strong>te (absolute) Konvergenz stellt sicher, dass E(X) wohldefiniert ist.<br />

Bemerkung 5.5:<br />

Ist X ≥ 0 (d.h. X nimmt nur nicht-negative Werte an), dann kann man in (5.1) und (5.2) auf die<br />

” < ∞“-For<strong>der</strong>ung verzichten und lässt auch E(X) = ∞ zu.<br />

5.1.1 Erwartungswerte einiger Verteilungen<br />

Beispiel 5.6:<br />

Sei X Laplace-verteilt auf Ω ′ = {x1,...,xN } ⊂ R. Dann gilt<br />

E(X) =<br />

N�<br />

i=1<br />

xi · P(X = xi) = 1<br />

N ·<br />

Ein Spezialfall ist {x1,...,xN } = {1,...,N}. Dann ist<br />

E(X) = 1<br />

N<br />

N�<br />

i=1<br />

i = 1<br />

N<br />

N�<br />

i=1<br />

xi, da P(X = xi) = 1<br />

N .<br />

· N(N + 1)<br />

2<br />

Bei einem herkömmlichen Würfel ist demnach E(X) = 3.5.<br />

= N + 1<br />

.<br />

2


5 Kenngrößen von Verteilungen 61<br />

Beispiel 5.7:<br />

Sei X ∼ B(1,p) eine Bernoulli-verteilte Zufallsvariable mit Ω ′ = {0,1} und P(X = 1) = p. Dann ist<br />

E(X) = 0 · (1 − p) + p = p.<br />

Insbeson<strong>der</strong>e liefert das für die Indikatorvariable X = 1A einer Teilmenge A ⊂ Ω und eine Wahrscheinlichkeitsverteilung<br />

P auf Ω, dass X ∼ B(1,p) mit p = P(A), also E(X) = P(A).<br />

Damit ist für das Würfeln einer geraden Zahl (also A = {2,4,6} ⊂ {1,...,6}) <strong>der</strong> Erwartungswert<br />

was <strong>der</strong> Intuition entspricht.<br />

Beispiel 5.8:<br />

E(1A) = P(A) = 1<br />

2 ,<br />

Sei X ∼ B(n,p) eine Binomial-verteilte Zufallsvariable. Dann bereitet uns die Berechnung von<br />

E(X) =<br />

n�<br />

k=0<br />

�<br />

k ·<br />

� �<br />

n<br />

· p<br />

k<br />

k · (1 − p) n−k<br />

�<br />

einige Schwierigkeiten. Wir werden weiter unten im Beispiel 5.15 eine bessere Methode kennenlernen.<br />

Beispiel 5.9:<br />

Sei X ∼ Poi(λ) eine Poisson-verteilte Zufallsvariable. Dann ist<br />

5.10 Hilfssatz:<br />

E(X) =<br />

∞�<br />

k=0<br />

k · exp(−λ) · λk<br />

k!<br />

= exp(−λ) · λ ·<br />

= exp(−λ) · λ ·<br />

∞�<br />

k=1<br />

∞�<br />

k=0<br />

λ k−1<br />

(k − 1)!<br />

λ k<br />

k!<br />

= exp(−λ) · λ · exp(λ)<br />

= λ.<br />

Sei X eine diskrete Zufallsvariable auf (Ω,P) mit Werten in N0. Dann gilt<br />

Beweis:<br />

Nach 5.1 gilt<br />

E (X) =<br />

n=0<br />

∞�<br />

P (X ≥ n) . (5.3)<br />

n=1<br />

∞�<br />

∞�<br />

E (X) = n · P (X = n) = n · P (X = n) ,<br />

und diese Summe konvergiert absolut. Daher können wir Umordnen und erhalten so<br />

was die Behauptung zeigt.<br />

Beispiel 5.11:<br />

E (X) =<br />

n=1 k=n<br />

n=1<br />

∞� ∞�<br />

∞�<br />

P (X = k) = P (X ≥ n) ,<br />

Sei X ∼ Geo(p) eine geometrisch verteilte Zufallsvariable. Dann ist E(X) = 1<br />

p .<br />

n=1


62 5 Kenngrößen von Verteilungen<br />

Beweis:<br />

Anwenden von Hilfssatz 5.10 liefert<br />

E (X)<br />

womit die Behauptung schon gezeigt ist.<br />

(5.3)<br />

=<br />

Lemma 4.32<br />

=<br />

=<br />

=<br />

=<br />

∞�<br />

P (X ≥ n)<br />

n=1<br />

∞�<br />

(1 − p) n−1<br />

n=1<br />

∞�<br />

(1 − p) n<br />

n=0<br />

1<br />

1 − (1 − p)<br />

1<br />

p ,<br />

Das heißt beim Würfeln mit X =“Warten auf die erste 6“:<br />

E(X) = 1<br />

1<br />

6<br />

5.1.2 Eigenschaften des Erwartungswertes<br />

5.12 Satz (Transformationsformel):<br />

Sei (Ω,P) ein diskreter Wahrscheinlichkeitsraum, X eine diskrete Zufallsvariable mit Werten in Ω ′ und<br />

g := Ω ′ → R eine Abbildung mit �<br />

|g(x)| · P(X = x) < ∞.<br />

Dann ist<br />

Beweis:<br />

Für die Verteilung von Y = g ◦ X gilt:<br />

Damit erhalten wir<br />

x∈Ω ′<br />

= 6.<br />

E(g(X)) = �<br />

g(x) · P(X = x).<br />

x∈Ω ′<br />

P(Y = y) = P(g ◦ X = y)<br />

= P ({ω | g ◦ X(ω) = y})<br />

⎛<br />

⎞<br />

=<br />

⎜<br />

�<br />

⎟<br />

P ⎝ {ω | X(ω) = x} ⎠<br />

= �<br />

E(g(X)) = E(Y )<br />

= �<br />

x∈Ω<br />

g(x)=y<br />

y∈Y (Ω)<br />

= �<br />

y∈Y (Ω)<br />

= �<br />

x∈Ω<br />

g(x)=y<br />

P(X = x)<br />

y · P(Y = y)<br />

y ·<br />

�<br />

x∈g −1 ({y})<br />

�<br />

y∈Y (Ω) x∈g−1 ({y})<br />

= �<br />

�<br />

y∈Y (Ω) x∈g−1 ({y})<br />

= �<br />

g(x) · P(X = x)<br />

x∈Ω ′<br />

P(X = x)<br />

y · P(X = x)<br />

g(x) · P(X = x)<br />

Die selbe Rechnung mit Beträgen zeigt, dass <strong>der</strong> Erwartungswert E (g(X)) im definierten Sinne existiert.


5 Kenngrößen von Verteilungen 63<br />

Beispiel 5.13:<br />

Sei g(x) = x k . Dann heißt<br />

E(X k ) = �<br />

x k P(X = x) k = 1,2,...<br />

x∈Ω ′<br />

das k-te Moment von X, sofern dieser Ausdruck existiert. Insbeson<strong>der</strong>e ist das ” 1.Moment von X“<br />

gleich dem Erwartungswert von X.<br />

5.14 Satz (Linearität und Monotonie des Erwartungswertes):<br />

Seinen X,Y Zufallsvariablen auf (Ω,P), s.d. E(X) und E(Y ) existieren. Sei außerdem a ∈ R. Dann<br />

gelten die folgenden Rechenregeln:<br />

(1) E(X + Y ) = E(X) + E(Y )<br />

(2) E(aX) = a · E(X)<br />

(3) X ≥ Y ⇒ E(X) ≥ E(Y ) (d.h.X(ω) ≥ Y (ω)∀ω)<br />

Beweis:<br />

(1) Per Definition gilt<br />

E(X + Y ) = �<br />

(X + Y )(ω) · P(ω)<br />

ω∈Ω<br />

= �<br />

(X(ω) + Y (ω)) · P(ω)<br />

ω∈Ω<br />

= �<br />

X(ω) · P(ω) + �<br />

Y (ω) · P(ω)<br />

ω∈Ω<br />

= E(X) + E(Y ).<br />

ω∈Ω<br />

Die gleiche Rechnung mit Beträgen zeigt, dass E(X + Y ) existiert.<br />

(2) Hier ist<br />

(3) Zuletzt berechnet man<br />

Damit ist <strong>der</strong> Satz bewiesen.<br />

Beispiel 5.15:<br />

E(aX) = �<br />

a · X(ω) · P(ω) = a · �<br />

X(ω) · P(ω) = a · E(X).<br />

ω∈Ω<br />

ω∈Ω<br />

E(X) = �<br />

X(ω) · P(ω) ≥ �<br />

Y (ω) · P(ω) = E(Y ).<br />

ω∈Ω<br />

Sei X ∼ B(n,p) eine Binomial-verteilte Zufallsvariable und seien X1,X2,...,Xn unabhängig nach B(1,p)<br />

verteilt. Nach Satz 4.30 ist dann X1 +X2 +...+Xn ∼ B(n,p), das heißt X und X1 +X2 +...+Xn haben<br />

die gleiche Verteilung. Folglich gilt<br />

E(X) = E(X1 + X2 + ... + Xn) Linearität<br />

= E(X1) + E(X2) + ... + E(Xn) = n · p,<br />

ω∈Ω<br />

da E(X1) = ... = E(Xn) = p für Bernoulli-verteilte X1,...,Xn.<br />

Beispiel 5.16:<br />

Sei X(a1,a2,...,an) gleich <strong>der</strong> Anzahl <strong>der</strong> Fixpunkte <strong>der</strong> Permutation a1,a2,...,an von 1,2,...,n.<br />

Für n = 4 gilt dann z.B. X(1,4,3,2) = 2.<br />

Allgemein schreiben wir:<br />

X(a1,a2,...,an) = #{i | ai = i}<br />

Sei P die Laplace-Verteilung auf dem Raum aller Permutationen. Für Ai = {(a1,...,an) | ai = i} gilt<br />

dann<br />

n�<br />

X = 1Ai .<br />

Mit Hilfe <strong>der</strong> Linearität können wir zeigen:<br />

�<br />

n�<br />

�<br />

E(X) = E =<br />

i=1<br />

1Ai<br />

n�<br />

i=1<br />

i=1<br />

E(1Ai ) =<br />

n�<br />

P(Ai) =<br />

i=1<br />

n�<br />

i=1<br />

1<br />

= 1.<br />

n


64 5 Kenngrößen von Verteilungen<br />

Beispiel 5.17 (Sammlerproblem):<br />

Wir ziehen aus einer Urne mit n Kugeln, welche mit 1,...,n nummeriert sind, mit Zurücklegen bis jede<br />

Kugel mindestens einmal gezogen wurde. Wir wollen nun die benötigte Anzahl X von Ziehungen modellieren<br />

und den Erwartungswert E(X) bestimmen.<br />

Sei X = X0 + X1 + X2 + ... + Xn−1 wobei Xi ∼ Geo( n−i<br />

n ) und E(Xi) = n<br />

n−i nach Beispiel 5.11.<br />

(Dabei beschreibt Xi das Warten auf den Erfolg eine neue Kugel wird gezogen“ nachdem bereits i ver-<br />

”<br />

schiedene Kugeln gezogen wurden, insbeson<strong>der</strong>e X0 ≡ 1)<br />

Wird z.B. Die Folge 2,2,3,2,3,4,2,1 aus einer Urne mit 4 Kugeln gezogen, so ist X = 8 und X0 = 1,X1 =<br />

2,X2 = 3,X4 = 2.<br />

Man berechnet<br />

E(X) = E(X0) + E(X1) + ... + E(Xn − 1)<br />

= n n<br />

+<br />

n n − 1<br />

= n ·<br />

n�<br />

i=1<br />

1<br />

i<br />

≈ n · ln(n).<br />

n n<br />

+ + ... +<br />

n − 2 1<br />

Damit können wir den Erwartungswert für n = 3,10,100 und 10000 berechnen:<br />

5.1.3 Produktformel<br />

n E(X)<br />

3 5.5<br />

10 29.3<br />

100 518.7<br />

10000 97876.1<br />

Seien X und Y zwei reelle, diskrete Zufallsvariablen. Man kann sich fragen, ob stets<br />

gilt.<br />

Beispiel 5.18:<br />

Sei X ∼ B(1,p) und Y = X. Dann haben wir<br />

E (X · Y ) = E (X) · E (Y ) (5.4)<br />

E (X · Y ) = E � X 2� = E (X) = p,<br />

da X 2 = X, denn schließlich nimmt X nur Werte in {0,1} an. An<strong>der</strong>erseits ist aber<br />

E (X) · E (Y ) = (E (X)) 2 = p 2 .<br />

Für p ∈ (0,1) gilt aber p 2 �= p, womit (5.4) im Allgemeinen also falsch ist.<br />

5.19 Satz (Produktformel für unabhängige Zufallsvariablen):<br />

Seien X,Y unabhängige Zufallsvariablen auf (Ω,P) mit existenten Erwartungswerten E(X), E(Y ). Dann<br />

gilt<br />

E (X · Y ) = E(X) · E(Y ).


5 Kenngrößen von Verteilungen 65<br />

Beweis:<br />

Mittels <strong>der</strong> ersten Definition des Erwartungswerts (5.1) berechnet man<br />

�<br />

E (X · Y ) = (X · Y ) (ω)P ({ω})<br />

=<br />

=<br />

=<br />

=<br />

X,Y unabhängig<br />

=<br />

=<br />

ω∈Ω<br />

�<br />

X(ω) · Y (ω) · P ({ω})<br />

ω∈Ω<br />

�<br />

�<br />

�<br />

x∈X(Ω) y∈Y (Ω) ω∈Ω<br />

X(ω)=x,Y (ω)=y<br />

�<br />

�<br />

x∈X(Ω) y∈Y (Ω)<br />

�<br />

�<br />

x∈X(Ω) y∈Y (Ω)<br />

�<br />

�<br />

x∈X(Ω) y∈Y (Ω)<br />

⎛<br />

⎝ �<br />

x∈X(Ω)<br />

x · y<br />

X (ω) · Y (ω) ·P ({ω})<br />

� �� �<br />

=x·y<br />

�<br />

P ({ω})<br />

ω∈Ω<br />

X(ω)=x,Y (ω)=y<br />

P(X = x,Y = y)<br />

P(X = x) · P(Y = y)<br />

⎞ ⎛<br />

xP(X = x) ⎠ · ⎝ �<br />

y∈Y (Ω)<br />

⎞<br />

yP (Y = y) ⎠ ,<br />

was nach <strong>der</strong> zweiten Definition (5.2) des Erwartungswertes genau E(X) · E(Y ) entspricht.<br />

Um die Existenz des Erwartungswertes E(X · Y ) zu zeigen, führt man zunächst die selbe Rechnung mit<br />

Beträgen durch.<br />

Beispiel 5.20:<br />

Wir betrachten zwei faire Würfel und die Zufallsvariablen X1 :=“erster Wurf“, X2 :=“zweiter Wurf“.<br />

Mit obigem Satz gilt dann<br />

5.2 Varianzen<br />

5.21 Definition:<br />

E (X · Y ) = E (X) · E (Y ) =<br />

� �2 7<br />

.<br />

2<br />

Sei X eine reelle Zufallsvariable mit E � X 2� < ∞. Dann wird die Varianz von X definiert durch<br />

�<br />

V (X) := E (X − E (X)) 2�<br />

.<br />

Ebenso definiert man die Standardabweichung σX von X als<br />

Bemerkung 5.22:<br />

σX := � V (X).<br />

(1) Da E � X 2� < ∞ ist und für jede reelle Zahl x ∈ R auch |x| ≤ 1 + x 2 gilt, ist auch E (|X|) < ∞<br />

und daher existiert E (X) unter <strong>der</strong> Voraussetzung E � X 2� < ∞. Insbeson<strong>der</strong>e ist V (X) also<br />

wohldefiniert.<br />

(2) Da (X − E(X)) 2 ≥ gilt, muss auch V (X) ≥ 0 sein und σX ist wohldefiniert.<br />

(3) X − E(X) geht aus X durch ” Zentrieren“ hervor, d.h.<br />

E (X − E(X)) = E(X) − E(E(X)) = E(X) − E(X) = 0,<br />

da <strong>der</strong> Erwartungswert E(E(X)) <strong>der</strong> festen Zahl E(X) (d.h. <strong>der</strong> konstanten Zufallsvariable ω ↦→<br />

E(X)) natürlich wie<strong>der</strong> E(X) selbst ist.<br />

Bemerkung 5.23:<br />

Die Varianz ist die mittlere quadratische Abweichung von X zu E(X).


66 5 Kenngrößen von Verteilungen<br />

Bemerkung 5.24:<br />

Nach <strong>der</strong> Transformationsformel für den Erwartungswert (Satz 5.12) gilt mit <strong>der</strong> Funktion g(x) :=<br />

(x − E(X)) 2 , x ∈ R:<br />

V (X) = E(g(X)) Transformationsformel �<br />

=<br />

(x − E(X)) 2 · P (X = x). (5.5)<br />

Beispiel 5.25:<br />

x∈X(Ω)<br />

Wir betrachten das einmalige Würfeln mit einem fairen Würfen und definieren die Zufallsvariable X als<br />

die Augenzahl. Dann haben wir schon berechnet, dass E(X) = 7<br />

2 , und daher ist die Varianz von X nach<br />

obiger Bemerkung gegeben als<br />

6�<br />

�<br />

V (X) = x − 7<br />

�2 1 35<br />

=<br />

2 6 12 .<br />

5.26 Definition:<br />

x=1<br />

Sei k ∈ N und X eine reelle Zufallsvariable auf (Ω,P). Falls<br />

�<br />

E (X − E(X)) k�<br />

existiert, so nennen wir diese Zahl das k-te zentrale Moment von X.<br />

Bemerkung 5.27:<br />

Die Darstellung <strong>der</strong> Varianz mittels <strong>der</strong> Transformationsformel (5.5) zeigt, dass V (X) allein durch die<br />

Verteilung von X festgelegt ist. Es handelt sich also wie beim Erwartungswert auch um eine ” Kenngröße“<br />

<strong>der</strong> Verteilung.<br />

5.28 Definition:<br />

Seien X,Y reelle Zufallsvariablen mit E � X 2� < ∞, E � Y 2� < ∞. Dann wird die Kovarianz von X und<br />

Y definiert durch<br />

CoV (X,Y ) = E ((X − E(X)) · (Y − E(Y ))).<br />

Bemerkung 5.29:<br />

Für eine reelle Zufallsvariable gilt dann<br />

CoV(X,X) = V (X).<br />

5.30 Satz (Rechenregeln für die Varianz):<br />

Seien X,Y und Xi für 1 ≤ i ≤ n reelle Zufallsvariablen mit E � X2� < ∞, E � Y 2� < ∞ und E � X2 �<br />

i < ∞,<br />

1 ≤ i ≤ n. Seien außerdem a,b ∈ R. Dann gelten die folgenden Rechenregeln<br />

(V1) V (X) = E � X 2� − (E (X)) 2 , insbeson<strong>der</strong>e ist V (X) < ∞.<br />

(V2) V (aX + b) = a 2 · V (X).<br />

(V3) CoV (X,Y ) = E (X · Y ) − E (X) · E (Y ).<br />

(V4) Für Summen gilt<br />

V<br />

� n�<br />

i=1<br />

Xi<br />

�<br />

=<br />

n�<br />

V (Xi) −<br />

i=1<br />

(V5) Sind X1,...,Xn unabhängig, so gilt sogar<br />

�<br />

n�<br />

V<br />

Beweis:<br />

i=1<br />

Xi<br />

�<br />

=<br />

n�<br />

CoV (Xi,Xj) .<br />

i,j=1<br />

i�=j<br />

n�<br />

V (Xi) .<br />

(V1) Mittels <strong>der</strong> Linearität des Erwartungswerts hat man<br />

�<br />

V (X) = E (X − E (X)) 2�<br />

�<br />

= E X 2 − 2E (X) · X + (E (X)) 2�<br />

= E � X 2� �<br />

− 2E (X) · E (E (X)) + E (E (X)) 2�<br />

i=1<br />

= E � X 2� − 2(E (X)) 2 + (E (X)) 2<br />

= E � X 2� − (E (X)) 2 .


5 Kenngrößen von Verteilungen 67<br />

Dabei haben wir wie<strong>der</strong> benutzt, dass <strong>der</strong> Erwartungswert einer konstanten Zufallsvariablen natürlich<br />

<strong>der</strong> Wert <strong>der</strong> Zufallsvariablen selbst ist.<br />

(V2) Es ist<br />

(V3) Man berechnet<br />

V (aX + b) =<br />

�<br />

E ((aX + b) − E (aX + b)) 2�<br />

=<br />

�<br />

E (aX + b − aE (X) − E (b)) 2�<br />

=<br />

�<br />

E a 2 (X − E(X)) 2�<br />

= a 2 �<br />

E (X − E(X)) 2�<br />

= a 2 V (X).<br />

CoV (X,Y ) = E ((X − E(X)) · (Y − E(Y )))<br />

= E (X · Y − X · E(Y ) − Y · E(X) + E (X) · E (Y ))<br />

= E (X · Y ) − E (X) · E(E(Y )) − E(Y ) · E(E(X)) + E(E(X)) · E(E(Y ))<br />

= E (X · Y ) − E (X) · E (Y ) − E (Y ) · E (X) + E (X) · E (Y )<br />

= E (X · Y ) − E (X) · E (Y ) .<br />

Auch hier haben wir wie<strong>der</strong> benutzt, dass <strong>der</strong> Erwartungswert einer konstanten Zufallsvariablen<br />

natürlich <strong>der</strong> Wert <strong>der</strong> Zufallsvariablen selbst ist.<br />

(V4) Wir setzen Zi := Xi − E (Xi) für 1 ≤ i ≤ n. Dann ist<br />

n�<br />

�<br />

n�<br />

�<br />

n�<br />

Xi − E = (Xi − E (Xi)) =<br />

womit<br />

folgt.<br />

V<br />

i=1<br />

� n�<br />

i=1<br />

Xi<br />

�<br />

i=1<br />

Xi<br />

i=1<br />

n�<br />

Zi, (5.6)<br />

i=1<br />

⎛�<br />

n�<br />

�<br />

n�<br />

= E ⎝ Xi − E<br />

(5.6)<br />

i=1<br />

⎛�<br />

n�<br />

= E ⎝<br />

i=1<br />

⎛�<br />

n�<br />

= E ⎝<br />

= E ⎝<br />

=<br />

=<br />

Zi=Xi−E(Xi)<br />

=<br />

⎛<br />

i=1<br />

n�<br />

i,j=1<br />

Zi<br />

Zi<br />

� 2 ⎞<br />

⎠<br />

i=1<br />

� ⎛<br />

n�<br />

· ⎝<br />

Zi · Zj<br />

n�<br />

E (Zi · Zj)<br />

i,j=1<br />

n�<br />

i=1<br />

E � Z 2� i +<br />

n�<br />

V (Xi) +<br />

i=1<br />

⎞<br />

⎠<br />

j=1<br />

Zj<br />

Xi<br />

�� 2 ⎞<br />

⎞⎞<br />

⎠⎠<br />

n�<br />

E (Zi · Zj)<br />

i,j=1<br />

i�=j<br />

⎠<br />

n�<br />

CoV (Xi,Xj)<br />

(V5) Nach Satz 5.19 gilt wegen <strong>der</strong> Unabhängigkeit von X1,...,Xn für alle Paare 1 ≤ i,j ≤ n, i �= j:<br />

i,j=1<br />

i�=j<br />

E (Xi · Xj) = E (Xi) · E (Xj) .<br />

Mit Regel (V3) ist also CoV (Xi,Xj) = 0 falls i �= j. Damit folgt (V5) aus (V4).


68 5 Kenngrößen von Verteilungen<br />

Bemerkung 5.31:<br />

Im Beweis von (V5) haben wir gezeigt, dass für unabhängige, reelle Zufallsvariablen X,Y stets<br />

CoV (X,Y ) = 0<br />

gilt. Die Umkehrung dagegen ist im allgemeinen falsch, wie das folgende Beispiel zeigt:<br />

Beispiel 5.32:<br />

Betrachte eine Zufallsvariable X mit Werten in {−N,...,N} auf einem diskreten Wahrscheinlichkeitsraum<br />

(Ω,P). Wir nehmen an, dass<br />

und 0 < P (X = 0) < 1 gilt.<br />

P (X = n) = P (X = −n) ∀ n ∈ {−N,...,N}<br />

Dann gilt CoV � X,X 2� = 0, aber X und X 2 sind nicht unabhängig.<br />

Beweis:<br />

Zunächst ist<br />

E (X)<br />

(5.1)<br />

=<br />

N�<br />

k=−N<br />

k · P (X = k)<br />

N�<br />

N�<br />

= 0 · P (X = 0) + k · P (X = k) − k · P (X = −k)<br />

=<br />

N�<br />

k=1<br />

k=1<br />

k · (P(X = k) − P(X = −k))<br />

� �� �<br />

=0 nach Voraussetzung<br />

= 0. (5.7)<br />

Genauso folgt mit <strong>der</strong> Transformationsformel (Satz 5.12) für g(x) = x 3 , dass<br />

E � X 3� (5.1)<br />

=<br />

N�<br />

k=−N<br />

k 3 · P (X = k)<br />

k=1<br />

k=1<br />

= 0 3 N�<br />

· P (X = 0) + k 3 N�<br />

· P (X = k) − k 3 · P (X = −k)<br />

=<br />

N�<br />

k=1<br />

Damit folgt nach Definition <strong>der</strong> Kovarianz<br />

CoV � X,X 2�<br />

k 3 · (P(X = k) − P(X = −k))<br />

� �� �<br />

=0 nach Voraussetzung<br />

= 0. (5.8)<br />

= E<br />

k=1<br />

��X − E(X)<br />

� �� �<br />

=0 nach (5.7)<br />

�� � � ��<br />

2 2<br />

X − E X<br />

= E � X 3 − X · E � X 2��<br />

= E � X 3� − E (X) · E � X 2�<br />

(5.7) & (5.8)<br />

= 0.<br />

Bleibt zu zeigen, dass X und X 2 nicht unabhängig sind. Dazu nehmen wir an, X und X 2 wären unabhängig.<br />

Dann gilt insbeson<strong>der</strong>e<br />

P (X,X2 ) (0,0) = P X (0) · P X 2<br />

(0)


5 Kenngrößen von Verteilungen 69<br />

Beachten wir nun, dass X 2 = 0 ⇔ X = 0, so folgt<br />

P (X = 0) = P (X = 0,X = 0)<br />

= P � X = 0,X 2 = 0 �<br />

= P (X,X2 ) (0,0)<br />

= P X (0) · P X2<br />

(0)<br />

= P (X = 0) · P � X 2 = 0 �<br />

= (P (X = 0)) 2 ,<br />

was ein Wi<strong>der</strong>spruch zu P (X = 0) ∈ (0,1) ist. Es folgt die Behauptung.<br />

5.33 Definition:<br />

Seien X,Y reelle Zufallsvariablen. Wir nennen X und Y unkorreliert, falls<br />

gilt.<br />

Es gilt also:<br />

CoV (X,Y ) = 0<br />

unabhängig ⇒<br />

�⇐ unkorreliert<br />

5.2.1 Varianzen einiger diskreter Verteilungen<br />

Beispiel 5.34:<br />

Sei X ∼ B(1,p) für p ∈ [0,1] eine reelle Zufallsvariable. Dann ist E(X) = p wie schon berechnet und<br />

daher gilt wegen X 2 = X (X hat wie<strong>der</strong> nur Werte in {0,1}):<br />

V (X)<br />

V (X) = E � X 2� − (E (X)) 2<br />

= E (X) − (E (X)) 2<br />

= p − p 2<br />

= p · (1 − p) .<br />

0 1<br />

Abbildung 9: Die Varianz einer Bernoulli-verteilten Zufallsvariablen X ∼ B(1,p) in Abhängigkeit von<br />

p ∈ [0,1]<br />

Beispiel 5.35:<br />

Sei X ∼ B(n,p) mit n ∈ N und p ∈ [0,1]. Seien außerdem X1,...,Xn ∼ B(1,p) unabhängig. Nach Satz<br />

4.30 gilt dann<br />

X1 + ... + Xn ∼ B(n,p) ,<br />

weshalb X und X1 + ... + Xn die gleiche Verteilung besitzen. Da die Varianz nur von <strong>der</strong> Verteilung<br />

abhängt, gilt also<br />

�<br />

n�<br />

�<br />

V (X) = V<br />

(V5)<br />

i=1<br />

Xi<br />

n�<br />

V (Xi)<br />

i=1<br />

Beispiel 5.34<br />

= np (1 − p)<br />

p


70 5 Kenngrößen von Verteilungen<br />

Beispiel 5.36:<br />

Sei X ∼ Poi (λ) für ein 0 < λ < ∞. Dann ist<br />

P (X = k) = exp (−λ) · λk<br />

k!<br />

für k ∈ N<br />

und es gilt E (X) = λ wie schon berechnet. Um die Varianz von X zu bestimmen nutzen wir (V1) und<br />

haben so<br />

V (X) = E � X 2� − (E(X)) 2 = E � X 2� − λ 2 .<br />

Zur Berechnung von E � X 2� nutzen wir den folgenden Trick:<br />

E � X 2� = E � X 2 − X � + E (X) .<br />

Dann wende die Transformationsformel (Satz 5.12) mit g(k) := k2 −k auf E(X2 −X) = E(g(X)) an und<br />

erhalte so<br />

E � X 2 − X �<br />

= E (g(X))<br />

Das ergibt zusammen<br />

Beispiel 5.37:<br />

Transformationsformel<br />

=<br />

=<br />

=<br />

∞� � � 2<br />

k − k P (X = k)<br />

k=0<br />

∞�<br />

k=0<br />

∞�<br />

k=2<br />

= exp (−λ)<br />

k (k − 1) exp (−λ) λk<br />

k!<br />

k (k − 1) exp (−λ) λk<br />

k!<br />

∞�<br />

k=2<br />

= λ 2 exp (−λ)<br />

λ k<br />

(k − 2)!<br />

∞�<br />

k=0<br />

λ k<br />

k!<br />

= λ 2 exp (−λ) exp(λ)<br />

= λ 2 .<br />

V (X) = E � X 2 − X � + E (X) − (E (X)) 2 = λ 2 + λ − λ 2 = λ<br />

Sei X ∼ Geo(p) für ein p ∈ [0,1]. Wir haben schon gesehen, dass dann E(X) = 1<br />

p gilt. Um die Varianz<br />

zu berechnen, nutzen wir das folgende<br />

5.38 Lemma:<br />

Ist X eine Zufallsvariable mit Werten in N, so gilt<br />

Beweis:<br />

E � X 2� =<br />

∞�<br />

(2n − 1) P (X ≥ n) .<br />

Mit <strong>der</strong> Transformationsformel (Satz 5.12) für g(k) := k 2 folgt direkt<br />

n=0<br />

n=1<br />

∞�<br />

E (X) = n 2 ∞�<br />

P (X = n) = n 2 P (X = n) .<br />

n=1


5 Kenngrößen von Verteilungen 71<br />

Diese Reihe ist absolut konvergent, daher kann sie in <strong>der</strong> folgenden Form umgeordnet werden:<br />

∞�<br />

n 2 P (X = n) = 1 · P (X = 1) + 4 · P (X = 2) + 9 · P (X = 3) + 16 · P (X = 4) + ...<br />

n=1<br />

= (P (X = 1) + P (X = 2) + ...) + 3P (X = 2) + 8P (X = 3) + 15P (X = 4) + ...<br />

= (P (X = 1) + P (X = 2) + ...) + 3(P (X = 2) + P (X = 3) + P (X = 4) + ...)<br />

+5P (X = 3) + 12P (X = 4) + ...<br />

= (P (X = 1) + P (X = 2) + ...) + 3(P (X = 2) + P (X = 3) + P (X = 4) + ...)<br />

=<br />

Es folgt die Behauptung.<br />

+5(P (X = 3) + P (X = 4) + ...) + 7P (X = 4) + ...<br />

∞�<br />

(2n − 1) · P (X ≥ n) .<br />

n=1<br />

Außerdem gilt laut Lemma 4.32 P (X ≥ k) = (1 − p) k−1 , womit dann<br />

E � X 2� = 1<br />

p<br />

= 1<br />

p<br />

∞�<br />

p(2n − 1) (1 − p) n−1<br />

n=1<br />

∞�<br />

(2n − 1) P (X = n)<br />

n=1<br />

gilt. Jetzt wenden wir die Transformationsformel (Satz 5.12) mit g(k) = 2k −1 rückwärts an und erhalten<br />

so<br />

Für die Varianz gilt damit<br />

E � X 2� = 1<br />

E ((2X − 1))<br />

p<br />

= 1 1<br />

2E(X) −<br />

p p<br />

= 2 1<br />

−<br />

p2 p<br />

= 2 − p<br />

p 2 .<br />

V (X) (V1)<br />

= E � X 2� − (E (X)) 2 =<br />

2 − p<br />

p<br />

1 1 − p<br />

− = 2 p2 p2 .


72 6 Wahrscheinlichkeitsungleichungen und das SGGZ<br />

6 Wahrscheinlichkeitsungleichungen und das SGGZ<br />

6.1 Das schwache Gesetz großer Zahlen (SGGZ)<br />

6.1 Satz (Markov-Ungleichung):<br />

Sei X ≥ 0 eine diskrete Zufallsvariable (d.h. X nimmt nur nicht-negative reelle Werte an) auf (Ω,P).<br />

Dann gilt für jedes reelle a > 0:<br />

Beweis:<br />

Es gilt<br />

was die Behauptung zeigt.<br />

6.2 Satz (Tschebyschow-Ungleichung):<br />

P (X ≥ a) ≤ E(X)<br />

a<br />

P (X ≥ a) = �<br />

≤<br />

≤<br />

x∈X(Ω),x≥a<br />

�<br />

x∈X(Ω),x≥a<br />

�<br />

x∈X(Ω)<br />

= 1<br />

a E(X),<br />

P (X = x)<br />

x<br />

P (X = x)<br />

a<br />

x<br />

P (X = x)<br />

a<br />

Sei X eine reelle, diskrete Zufallsvariable mit E � X 2� < ∞. Dann gilt für jedes reelle a > 0:<br />

Beweis:<br />

P (|X − E(X)| ≥ a) ≤<br />

Da sowohl |X − E(X)| als auch a positive Zahlen sind, ist<br />

Damit gilt<br />

womit die Behauptung gezeigt ist.<br />

Folgerung 6.3:<br />

V (X)<br />

a 2<br />

(6.1)<br />

(6.2)<br />

|X − E(X)| ≥ a ⇔ (X − E(X)) ≥ a 2 . (6.3)<br />

P (|X − E(X)| ≥ a)<br />

�<br />

(6.3)<br />

= P (X − E(X)) 2 ≥ a 2�<br />

(6.1)<br />

≤<br />

=<br />

E<br />

�<br />

(X − E(X)) 2�<br />

V (X)<br />

a 2 ,<br />

Sei X eine reelle, diskrete Zufallsvariable mit E � X 2� < ∞. Dann gilt für jedes reelle c > 0:<br />

Beweis:<br />

P (|X − E(X)| ≥ cσX) ≤ 1<br />

c 2<br />

Wende (6.2) mit a = cσX an und nutze σX = � V (X).<br />

Bemerkung 6.4:<br />

Für jede reelle, diskrete Zufallsvariable X mit E � X 2� < ∞ gilt also<br />

usw.<br />

a 2<br />

P (|X − E(X)| ≥ 2σX) ≤ 1<br />

4<br />

P (|X − E(X)| ≥ 3σX) ≤ 1<br />

9<br />

(6.4)


6 Wahrscheinlichkeitsungleichungen und das SGGZ 73<br />

Beispiel 6.5:<br />

Wir betrachten 100 faire Münzwürfe und definieren die Zufallsvariable X als die Anzahl <strong>der</strong> Kopf“-<br />

”<br />

Ergebnisse. Dann ist X ∼ B � 100, 1<br />

�<br />

1<br />

2 , E(X) = 50 und nach Beispiel 5.35 gilt V (X) = 100 · 4 = 25. Also<br />

ist σX = 5 und daher haben wir nach (6.4):<br />

Bemerkung 6.6:<br />

P (|X − 50| ≥ 10) ≤ 1<br />

4<br />

P (|X − 50| ≥ 15) ≤ 1<br />

9<br />

Die Abschätzungen, die man mit <strong>der</strong> Tschebyschow-Ungleichung erreichen kann, können oft verbessert<br />

werden. Siehe dazu etwa später die Exponentialungleichungen o<strong>der</strong> den zentralen Grenzwertsatz.<br />

6.7 Satz (Schwaches Gesetz großer Zahlen (SGGZ)):<br />

Seien X1,...,Xn unabhängige diskrete Zufallsvariablen mit gleicher Verteilung auf (Ω,P) und es gelte<br />

E � X2 �<br />

i < ∞ für jedes 1 ≤ i ≤ n. Dann gilt für jedes ε > 0:<br />

Beweis:<br />

P<br />

�� ����<br />

1<br />

n<br />

Zunächst halten wir fest, dass<br />

n�<br />

� �<br />

�<br />

�<br />

Xi − E (X1) � ≥ ε ≤<br />

�<br />

i=1<br />

E (X1) = E<br />

�<br />

1<br />

n<br />

V (X1)<br />

nε 2<br />

n<br />

n�<br />

�<br />

E (Xi) .<br />

i=1<br />

��<br />

∞ ��<br />

0. (6.5)<br />

Außerdem gilt E (X1) = E (Xi) für jedes 1 ≤ i ≤ n, da alle Zufallsvariablen nach Voraussetzung die<br />

gleiche Verteilung besitzen.<br />

Daher folgt mit <strong>der</strong> Tschebyschow-Ungleichung:<br />

P<br />

�� ����<br />

1<br />

n<br />

Das zeigt die Behauptung.<br />

Bemerkung 6.8:<br />

n�<br />

� �<br />

�<br />

�<br />

Xi − E (Xi) � ≥ ε<br />

�<br />

i=1<br />

Damit liegt für große n <strong>der</strong> empirische Mittelwert<br />

(6.2)<br />

≤<br />

(V2)<br />

=<br />

X1,...,Xn unabhängig<br />

=<br />

mit hoher Wahrscheinlichkeit in <strong>der</strong> ε-Nähe des Erwartungswertes E(X1).<br />

6.1.1 Spezialfall - Das SGGZ von Bernoulli<br />

6.9 Satz:<br />

1<br />

n<br />

n�<br />

i=1<br />

Xi<br />

=<br />

V<br />

�<br />

1<br />

n<br />

n�<br />

Xi<br />

i=1<br />

ε 2<br />

�<br />

n�<br />

V<br />

Xi<br />

i=1<br />

n2ε2 n�<br />

V (Xi)<br />

i=1<br />

n2ε2 V (X1)<br />

nε 2 .<br />

Seien Xi ∼ B(1,p) für ein p ∈ [0,1] und 1 ≤ i ≤ n, außerdem seien X1,...,Xn unabhängig. Dann gilt<br />

�� �<br />

���� n�<br />

�<br />

1<br />

�<br />

�<br />

P Xi − p�<br />

≥ ε ≤<br />

n � 1<br />

. (6.6)<br />

4nε2 i=1<br />

�<br />


74 6 Wahrscheinlichkeitsungleichungen und das SGGZ<br />

Beweis:<br />

Wir wissen schon, dass E (X1) = p und V (X1) = p · (1 − p) gilt. Nach dem SGGZ gilt also<br />

�� �<br />

���� n�<br />

�<br />

1<br />

�<br />

� p · (1 − p)<br />

P Xi − p�<br />

≥ ε ≤<br />

n � nε2 .<br />

Offenbar ist aber p · (1 − p) ≤ 1<br />

4<br />

Beispiel 6.10:<br />

i=1<br />

∀ p ∈ R, womit die Behauptung folgt.<br />

Wir betrachten 1000 faire Münzwürfe und setzen<br />

�<br />

1 Kopf im i-ten Wurf<br />

Xi :=<br />

0 Zahl im i-ten Wurf<br />

Dann gilt Xi ∼ B � 1, 1<br />

�<br />

2 für alle 1 ≤ i ≤ 1000 und die Zufallsvariablen X1,...,X1000 sind unabhängig.<br />

Nun setzen wir<br />

1000 �<br />

X := Xi,<br />

was <strong>der</strong> Anzahl an Kopf-Würfen in 1000 Würfen entspricht. Es ist<br />

i=1<br />

1000 �<br />

E (X) = E (Xi) =<br />

i=1<br />

1000 �<br />

und entsprechend berechnet man mit dem SGGZ von Bernoulli:<br />

Damit ist auch<br />

i=1<br />

.<br />

1<br />

= 500<br />

2<br />

P (X ≤ 400 o<strong>der</strong> X ≥ 600) = P (|X − 500| ≥ 100)<br />

��<br />

���� 1000<br />

1 �<br />

= P Xi −<br />

1000<br />

1<br />

�<br />

�<br />

�<br />

�<br />

2�<br />

(6.6)<br />

≤<br />

=<br />

i=1<br />

1<br />

4 · 1000 · 1<br />

100<br />

1<br />

= 0.025.<br />

40<br />

�<br />

1<br />

≥<br />

10<br />

P (400 < X < 600) = 1 − P (X ≤ 400 o<strong>der</strong> X ≥ 600) ≥ 1 − 0.025 = 0.975.<br />

6.2 Exponential-Ungleichungen<br />

Notation 2:<br />

Sind X1,...,Xn unabhängige und gleichverteilte diskrete Zufallsvariablen auf dem diskreten Wahrscheinlichkeitsraum<br />

(Ω,P) gegeben, so schreiben wir auch<br />

falls die Verteilung die Bernoulli-Verteilung ist usw..<br />

Xi<br />

i.i.d.<br />

∼ B(1,p) ,<br />

i.i.d. steht dabei für ” independent identically distributed“.<br />

6.11 Satz (Bernstein-Ungleichung):<br />

Seien Xi<br />

i.i.d.<br />

∼ B(1,p) für ein p ∈ [0,1]. Dann gilt für alle ε > 0:<br />

�<br />

n�<br />

�<br />

1<br />

P Xi − p ≥ ε<br />

n<br />

i=1<br />

≤<br />

�<br />

exp − 1<br />

4 nε2<br />

�<br />

n�<br />

�<br />

1<br />

P Xi − p ≤ −ε<br />

n<br />

i=1<br />

≤<br />

�<br />

,<br />

�<br />

exp − 1<br />

4 nε2<br />

�� �<br />

���� n�<br />

�<br />

1<br />

�<br />

�<br />

P Xi − p�<br />

≥ ε<br />

n �<br />

≤<br />

�<br />

,<br />

�<br />

2exp − 1<br />

4 nε2<br />

�<br />

. (6.7)<br />

i=1


6 Wahrscheinlichkeitsungleichungen und das SGGZ 75<br />

Beweis:<br />

Offenbar folgt die dritte Ungleichung mittels <strong>der</strong> Boole’schen Ungleichung (1.7) bereits aus den ersten<br />

beiden Ungleichungen:<br />

�� �<br />

���� n�<br />

� �<br />

1<br />

� (1.7) n�<br />

� �<br />

n�<br />

�<br />

�<br />

1<br />

1<br />

P Xi − p�<br />

≥ ε ≤ P Xi − p ≥ ε + P Xi − p ≤ −ε .<br />

n � n<br />

n<br />

i=1<br />

i=1<br />

Wir zeigen nur die erste Ungleichung, die zweite lässt sich absolut analog beweisen.<br />

�<br />

n�<br />

�<br />

1<br />

P Xi − p ≥ ε<br />

n<br />

i=1<br />

=<br />

=<br />

�<br />

n�<br />

�<br />

1<br />

P Xi ≥ p + ε<br />

n<br />

i=1<br />

�<br />

n�<br />

�<br />

P Xi ≥ np + nε . (6.8)<br />

Nach Satz 4.30 ist n�<br />

Xi ∼ B(n,p), daher folgt also für m := ⌈n(p + ε)⌉:<br />

P<br />

�<br />

1<br />

n<br />

i=1<br />

n�<br />

�<br />

Xi − p ≥ ε<br />

i=1<br />

(6.8)<br />

=<br />

λ>0 beliebig<br />

≤<br />

n�<br />

k=m<br />

i=1<br />

� �<br />

n n−k<br />

k<br />

p (1 − p)<br />

k � �� �<br />

=:q<br />

n�<br />

exp (λ (k − n(p + ε)))<br />

k=m<br />

= exp(−λnε)<br />

= exp(−λnε)<br />

n�<br />

k=m<br />

n�<br />

k=m<br />

i=1<br />

� �<br />

n<br />

p<br />

k<br />

k q n−k<br />

� �<br />

n<br />

exp(λk − λnp) p<br />

k<br />

k q n−k<br />

� �<br />

n<br />

(pexp (λq))<br />

k<br />

k (q exp (−λp)) n−k<br />

= exp(−λnε) (pexp (λq) + q exp(−λp)) n . (6.9)<br />

Allgemein ist exp (x) ≤ x + exp � x2� für x ∈ R2 , daher folgt<br />

�<br />

n�<br />

�<br />

1<br />

P Xi − p ≥ ε<br />

n<br />

(6.9)<br />

≤ exp (−λnε) (pexp (λq) + q exp (−λp)) n<br />

i=1<br />

= exp (−λnε) � p � λq + exp � λ 2 q 2�� + q � −λp + exp � λ 2 p 2��� n<br />

= exp (−λnε) � pexp � λ 2 q 2� + q exp � λ 2 p 2�� n<br />

≤ exp (−λnε) � pexp � λ 2� + q exp � λ 2�� n<br />

= exp (−λnε) exp � nλ 2�<br />

= exp � n � λ 2 − λε ��<br />

(6.10)<br />

für jedes λ > 0. Nun wählen wir λ = ε<br />

2 , was genau dem Minimum von λ ↦→ λ2 − λε entspricht. Es folgt<br />

damit<br />

P<br />

�<br />

1<br />

n<br />

n�<br />

Xi − p ≥ ε<br />

i=1<br />

was die Behauptung zeigt.<br />

Beispiel 6.12:<br />

� (6.10)<br />

��ε �2 ≤ exp n −<br />

2<br />

ε<br />

2 εn<br />

�<br />

�<br />

= exp − 1<br />

4 ε2 �<br />

n ,<br />

Wir betrachten wie<strong>der</strong> die Münzwürfe aus Beispiel 6.10. Die Bernstein-Ungleichung liefert<br />

��<br />

���� 1000<br />

1 �<br />

P Xi −<br />

1000<br />

1<br />

� �<br />

�<br />

�<br />

(6.7) �<br />

� ≥ 0.1 ≤ 2exp −<br />

2�<br />

1<br />

� �<br />

1<br />

1000 · = 2exp −<br />

4 100<br />

10<br />

�<br />

≈ 0.164,<br />

4<br />

i=1<br />

was offenbar deutlich schlechter ist, als das Ergebnis mit dem SGGZ! Der Grund dafür ist, dass n = 1000<br />

einfach noch zu klein ist!<br />

Wir werden aber gleich sehen, dass man mit noch besseren Exponential-Ungleichungen noch deutlich<br />

bessere Ergebnisse erzielen kann.<br />

2 Für x < 0 ist diese Ungleichung offensichtlich. Für x = 0 gilt Gleichheit und für x≥1ist x 2 ≥ x, womit die Ungleichung<br />

aus <strong>der</strong> strengen Monotonie <strong>der</strong> exp-Funktion folgt. 0 < x < 1?


76 6 Wahrscheinlichkeitsungleichungen und das SGGZ<br />

Die folgende Exponential-Ungleichung wollen wir nur angeben, nicht beweisen:<br />

6.13 Satz (Chernov-Ungleichung):<br />

Seien Xi<br />

i.i.d.<br />

∼ B(1,p) für ein p ∈ [0,1]. Dann gilt für alle ε > 0:<br />

�<br />

n�<br />

�<br />

1<br />

P Xi − p ≥ ε<br />

n<br />

i=1<br />

≤ exp � −2nε 2� �<br />

n�<br />

�<br />

1<br />

P Xi − p ≤ −ε<br />

n<br />

i=1<br />

≤<br />

,<br />

exp � −2nε 2� �� �<br />

���� n�<br />

�<br />

1<br />

�<br />

�<br />

P Xi − p�<br />

≥ ε<br />

n �<br />

≤<br />

,<br />

2exp � −2nε 2� . (6.11)<br />

i=1<br />

Noch allgemeiner sogar ist die folgende Ungleichung, die wir ebenfalls nicht beweisen wollen:<br />

6.14 Satz (Hoeffding-Ungleichung):<br />

Seien X1,...,Xn i.i.d. Zufallsvariablen. Es gebe reelle Zahlen a < b s.d. a ≤ Xi ≤ b für alle 1 ≤ i ≤ n.<br />

Mit c := b − a gilt dann für alle ε > 0:<br />

�� �<br />

���� n�<br />

�<br />

1<br />

� �<br />

�<br />

2 n<br />

P Xi − E (X1) � ≥ ε ≤ 2exp −2ε<br />

n<br />

� c2 �<br />

.<br />

Bemerkung 6.15:<br />

i=1<br />

Offenbar folgt die Chernov-Ungleichung aus <strong>der</strong> Hoeffding-Ungleichung mit a = 0 und b = 1.<br />

Beispiel 6.16:<br />

Wir betrachten wie<strong>der</strong> die Münzwürfe aus Beispiel 6.10. Die Chernov-Ungleichung liefert hier<br />

��<br />

���� 1000<br />

1 �<br />

P Xi −<br />

1000<br />

1<br />

� �<br />

�<br />

�<br />

(6.11) �<br />

� ≥ 0.1 ≤ 2exp −2 · 1000 ·<br />

2�<br />

1<br />

�<br />

= 2exp (−20) ≈ 0.00000000412<br />

100<br />

i=1<br />

- besser gehts nicht!


7 Faltung, bedingte Verteilungen und Korrelation 77<br />

7 Faltung, bedingte Verteilungen und Korrelation<br />

7.1 Die Faltung<br />

Wir betrachten oft Summen unabhängiger Zufallsvariablen. Was kann man über die Verteilung dieser<br />

Summe aussagen?<br />

7.1 Satz:<br />

Es seien X1,...,Xn unabhängige Zufallsvariablen auf dem diskreten Wahrscheinlichkeitsraum (Ω,P).<br />

(1) Dann ist die Verteilung P X1+...+Xn <strong>der</strong> Summe X1 + ... + Xn durch die Verteilungen P X1 ,...,P Xn<br />

<strong>der</strong> Zufallsvariablen X1,...,Xn festgelegt.<br />

(2) Für x ∈ (X1 + ... + Xn) (Ω) (also x im Wertebereich <strong>der</strong> Summe) gilt<br />

�<br />

P (X1 + ... + Xn = x) =<br />

P (X1 = x1) · ... · P (Xn = xn) . (7.1)<br />

Beweis:<br />

x 1 ∈X 1 (Ω),...,xn∈Xn(Ω)<br />

x 1 +...+xn=x<br />

Offenbar folgt (2) aus (1). Für (1) sehen wir zunächst, dass<br />

�<br />

{X1 + ... + Xn = x} =<br />

Damit folgt<br />

P (X1 + ... + Xn = x) =<br />

und die Behauptung ist gezeigt.<br />

7.2 Definition:<br />

X1,...,Xn unabhängig<br />

=<br />

x 1 ∈X 1 (Ω),...,xn∈Xn(Ω)<br />

x 1 +...+xn=x<br />

�<br />

x 1 ∈X 1 (Ω),...,xn∈Xn(Ω)<br />

x 1 +...+xn=x<br />

�<br />

x 1 ∈X 1 (Ω),...,xn∈Xn(Ω)<br />

x 1 +...+xn=x<br />

{X1 = x1,...,Xn = xn} .<br />

P (X1 = x1,...,Xn = xn)<br />

P (X1 = x1) · ... · P (Xn = xn)<br />

Seien X1,...,Xn unabhängige Zufallsvariablen. Wir definieren die Faltung von P X1 ,...,P Xn als<br />

P X1 ⋆ ...⋆P Xn := P X1+...+Xn .<br />

Obiger Satz, Teil (2), rechtfertigt diese Bezeichnung.<br />

7.3 Definition:<br />

Für Wahrscheinlichkeitsverteilungen P1,...,Pn auf Ω definiert man allgemeiner die Faltung P1 ⋆ ...⋆Pn<br />

als die Verteilung von X1 + ... + Xn, wobei Xi, 1 ≤ i ≤ n, unabhängige Zufallsvariablen mit P Xi = Pi<br />

sind.<br />

Bemerkung 7.4:<br />

Im Allgemeinen (d.h. ohne Unabhängigkeit), ist die Verteilung <strong>der</strong> Summe X +Y zweier Zufallsvariablen<br />

X und Y nicht durch die Verteilungen von X und Y festgelegt.<br />

Beispiel 7.5:<br />

Seien X,Y i.i.d.<br />

∼ B(1,p). In Satz 4.30 haben wir gesehen, dass dann X + Y ∼ B(2,p) gilt, d.h. die<br />

Verteilung von X + Y entspricht dem Wahrscheinlichkeitsvektor<br />

� 1<br />

4<br />

1 1<br />

, ,<br />

2 4<br />

In diesem Sinne ist die Bernoulli-Verteilung eine ” schöne“ Verteilung, ihre Faltung gibt wie<strong>der</strong> eine uns<br />

bekannte und leicht zu berechnende Verteilung - die Binomialverteilung!<br />

Beispiel 7.6:<br />

Sei X ∼ B � 1, 1<br />

�<br />

2 und Y = X. Insbeson<strong>der</strong>e sind X und Y dann nicht unabhängig und es gilt auch<br />

Y ∼ B � 1, 1<br />

�<br />

2 . Damit gilt<br />

⎧<br />

1<br />

⎪⎨ 2 falls x = 0<br />

P (X + Y = x) = P (2X = x) = 0 falls x = 1 .<br />

⎪⎩<br />

�<br />

.<br />

1<br />

2 falls x = 2


78 7 Faltung, bedingte Verteilungen und Korrelation<br />

7.1.1 Spezialfall<br />

Seien X,Y unabhängige, diskrete Zufallsvariablen auf dem diskreten Wahrscheinlichkeitsraum (Ω,P) mit<br />

X (Ω) ⊂ N0, Y (Ω) ⊂ N0. Dann ist (X + Y ) (Ω) ⊂ N0 und es gilt für k ∈ N0:<br />

Beispiel 7.7:<br />

P (X + Y = k)<br />

(7.1)<br />

=<br />

=<br />

=<br />

�<br />

x,y∈N 0<br />

x+y=k<br />

P (X = x) · P (Y = y)<br />

k�<br />

P (X = x) P (Y = k − x)<br />

x=0<br />

k�<br />

pX (x) · pY (k − x) (7.2)<br />

x=0<br />

Wir betrachten die Augensumme beim zweifachen Würfeln. Setze dazu X1 := erster Wurf und X2 :=<br />

zweiter Wurf. Wir haben in einem früheren Beispiel schon gesehen, dass die Verteilung <strong>der</strong> Summe<br />

P (X + Y = k) für k = 2,...,12 den Wahrscheinlichkeitsvektor<br />

� 1<br />

2 3 4 5 6 5 4 3 2 1<br />

, , , , , , , , , ,<br />

36 36 36 36 36 36 36 36 36 36 36<br />

liefert. Das kann man mit <strong>der</strong> obigen Darstellung leicht nachrechnen.<br />

7.1.2 Faltungen einiger wichtiger Verteilungen<br />

7.8 Satz:<br />

Seien X,Y zwei unabhängige, diskrete Zufallsvariablen mit X ∼ Poi (λ) , Y ∼ Poi (µ) für zwei Parameter<br />

0 < λ,µ < ∞. Dann gilt<br />

X + Y ∼ Poi (λ + µ) .<br />

Beweis:<br />

Da die Poisson-Verteilung für Zufallsvariablen mit Werten in N0 definiert ist, können wir obigen Spezialfall<br />

anwenden:<br />

Das zeigt die Behauptung.<br />

P (X + Y = k)<br />

(7.2)<br />

=<br />

=<br />

=<br />

�<br />

k�<br />

P (X = x) · P (Y = k − x)<br />

x=0<br />

k�<br />

x=0<br />

1<br />

k!<br />

exp (−λ) λx µk−x<br />

exp (−µ)<br />

x! (k − x)!<br />

exp (−(λ + µ))<br />

k�<br />

x=0<br />

1<br />

= exp (−(λ + µ)) (λ + µ)k<br />

k!<br />

= poiλ+µ (k) .<br />

k!<br />

x!(k − x)! λx µ k−x<br />

Damit ist also die Faltung zweier Poisson-Verteilungen einfach die Poisson-Verteilung zur Summe <strong>der</strong><br />

Parameter.<br />

Praktisch braucht man dieses Ergebnis etwa bei den Anrufen pro Minute in einem Call-Center, die aus<br />

zwei Zentralen zusammenlaufen. Die Anzahl <strong>der</strong> Anrufe pro Minute ist bei <strong>der</strong> ersten Zentrale dabei<br />

Poi (λ) verteilt, bei <strong>der</strong> zweiten Zentrale Poi (µ) verteilt.<br />

Der Satz oben sagt uns nun, dass die Gesamtzahl <strong>der</strong> Anrufe pro Minute im Call-Center dann Poi (λ + µ)<br />

verteilt ist.<br />

7.9 Hilfssatz:<br />

Es gilt<br />

k�<br />

x=0<br />

� �� �<br />

n m<br />

=<br />

x k − x<br />

� n + m<br />

k<br />

�<br />

.


7 Faltung, bedingte Verteilungen und Korrelation 79<br />

Beweis:<br />

Wir wir im Kapitel über Kombinatorik gesehen haben, ist � � a<br />

b genau die Anzahl <strong>der</strong> Möglichkeiten, b<br />

Elemente aus einer a-elementigen Menge auszuwählen. Also ist � � n+m<br />

k genau die Anzahl <strong>der</strong> Möglichkeiten,<br />

aus <strong>der</strong> Menge {1,...,n + m} genau k Elemente auszuwählen.<br />

Eine solche Auswahl kann zerlegt werden in die Elemente, die aus {1,...,n} ausgewählt werden, und<br />

die Elemente, die aus {n + 1,...,n + m} ausgewählt werden. Die Summe dieser beiden Auswahlen muss<br />

entsprechend k ergeben. Jetzt klassifizieren wir dies �nach <strong>der</strong> Kardinalität x <strong>der</strong> ersten Auswahl, die<br />

genau die Summe all dieser Klassifikationen, d.h.<br />

7.10 Satz:<br />

zwischen 0 und k liegen muss. Offenbar ist dann � n+m<br />

k<br />

was die Behauptung zeigt.<br />

� �<br />

n + m<br />

=<br />

k<br />

k�<br />

x=0<br />

� �� �<br />

n m<br />

,<br />

x k − x<br />

Seien X ∼ B(n,p) und Y ∼ B(m,p) unabhängige Zufallsvariablen mit Parametern p ∈ [0,1] und<br />

n,m ∈ N. Dann gilt<br />

X + Y ∼ B(m + n,p) .<br />

Beweis:<br />

Für 0 ≤ k ≤ m + n gilt<br />

P X+Y (k) = P (X + Y = k)<br />

(7.2)<br />

=<br />

=<br />

=<br />

k�<br />

P (X = x) P (Y = k − x)<br />

x=0<br />

k�<br />

x=0<br />

k�<br />

x=0<br />

= p k (1 − p) n+m−k<br />

Hilfssatz 7.9<br />

=<br />

� �<br />

n<br />

p<br />

x<br />

x (1 − p) n−x<br />

� �<br />

m<br />

p<br />

k − x<br />

k−x (1 − p) m−(k−x)<br />

� �� �<br />

n m<br />

p<br />

x k − x<br />

k (1 − p) n−x+m−k+x<br />

� n + m<br />

k<br />

k�<br />

x=0<br />

�<br />

p k (1 − p) n+m−k .<br />

� �� �<br />

n m<br />

x k − x<br />

Das das Ende dieser Gleichung <strong>der</strong> Binomialverteilung mit Parametern n + m und p ist, folgt die Behauptung.


80 7 Faltung, bedingte Verteilungen und Korrelation<br />

7.2 Bedingte Verteilungen<br />

7.11 Definition:<br />

Sei (Ω,P) ein diskreter Wahrscheinlichkeitsraum und seien X : Ω ��<br />

′ Ω , Y : Ω<br />

Zufallsvariablen auf diesem Raum. Sei weiter x ∈ X (Ω) mit P (X = x) > 0.<br />

Die bedingte Verteilung von Y gegeben X = x ist<br />

P (Y ∈ A | X = x) für A ⊂ Ω ′′ .<br />

Die bedingte Wahrscheinlichkeitsfunktion von Y gegeben X = x ist<br />

p Y |X (y|x) := P (Y = y | X = x) =<br />

P (Y = y,X = x)<br />

P (X = x)<br />

��<br />

′′ Ω diskrete<br />

= p (X,Y )(x,y)<br />

, (x,y) ∈ Ω<br />

pX(x)<br />

′ ,Ω ′′ .<br />

D.h. für jedes x wie in <strong>der</strong> Annahme ist p Y |X (·|x) eine Wahrscheinlichkeitsfunktion auf Ω ′′ bzw. Y (Ω).<br />

Beispiel 7.12:<br />

Wir würfeln zweimal mit einem fairen Würfel und definieren unsere Zufallsvariablen X1,X2 als die Ergebnisse<br />

des i-ten Wurfes, i = 1,2 entsprechend. Natürlich sind X1 und X2 unabhängig. Setze nun<br />

Dann ist Y die Augensumme des Experiments.<br />

Zunächst berechnen wir formal<br />

Y := X1 + X2, X := X1.<br />

P (Y = y | X = x) = P (X1 + X2 = y | X1 = x)<br />

=<br />

P (X1 + X2 = y,X1 = x)<br />

P (X1 = x)<br />

P (X2 = y − x,X1 = x)<br />

=<br />

P (X1 = x)<br />

�<br />

1<br />

X1,X2 unabhängig<br />

6 falls 1 ≤ y − x ≤ 6<br />

= P (X2 = y − x) =<br />

.<br />

0 sonst<br />

Zur Verdeutlichung wollen wir noch die Tabelle <strong>der</strong> bedingten Wahrscheinlichkeitsfunktion p Y |X(y|x)<br />

angeben. In <strong>der</strong> x-ten Zeile steht dabei p Y |X(·|x):<br />

Beispiel 7.13:<br />

x/y 2 3 4 5 6 7 8 9 10 11 12<br />

1<br />

1<br />

6<br />

1<br />

6<br />

2 0 1<br />

6<br />

1<br />

6<br />

1<br />

6<br />

3 0 0 1<br />

6<br />

1<br />

6<br />

1<br />

6<br />

1<br />

6<br />

4 0 0 0 1<br />

6<br />

1<br />

6<br />

1<br />

6<br />

1<br />

6<br />

1<br />

6<br />

5 0 0 0 0 1<br />

6<br />

1<br />

6 0 0 0 0 0<br />

1<br />

6<br />

1<br />

6<br />

1<br />

6<br />

1<br />

6<br />

6 0 0 0 0 0 1<br />

6<br />

1<br />

6 0 0 0 0<br />

1<br />

6<br />

1<br />

6<br />

1<br />

6<br />

1<br />

6 0 0 0<br />

1<br />

6<br />

1<br />

6<br />

1<br />

6 0 0<br />

Seien X ∼ B(n,p) und Y ∼ B(m,p) unabhängige Zufallsvariablen. Die bedingte Verteilung von X<br />

gegeben X + Y = k entspricht dann (nach Satz 7.10 ist X + Y ∼ B(n + m,r)) <strong>der</strong> Frage<br />

” Wie viele Erfolge treten in den ersten n Experimenten auf, wenn k Erfolge in n + m Experimenten<br />

auftreten?“<br />

1<br />

6<br />

1<br />

6<br />

1<br />

6<br />

1<br />

6<br />

1<br />

6<br />

1<br />

6<br />

0<br />

1<br />

6


7 Faltung, bedingte Verteilungen und Korrelation 81<br />

Man berechnet<br />

p X|X+Y (j|k) = P (X = j | X + Y = k)<br />

=<br />

X,Y unabhängig<br />

=<br />

=<br />

=<br />

P (X = j,Y = k − j)<br />

P (X + Y = k)<br />

P (X = j) P (Y = k − j)<br />

P (X + Y = k)<br />

� � n j n−j<br />

j p (1 − p) � � m k−j m−(k−j)<br />

k−j p (1 − p)<br />

� � n+m<br />

k pk m+n−k<br />

(1 − p)<br />

� �� � n m<br />

j k−j<br />

� ,<br />

� n+m<br />

k<br />

und sieht so, dass die bedingte Verteilung genau <strong>der</strong> hypergeometrischen Verteilung für das Experiment<br />

” n + m Kugeln gegeben, davon n rote.<br />

Ziehe k Kugeln und bestimme die Wahrscheinlichkeit, dass genau j rote Kugeln darunter sind!“<br />

entspricht.<br />

Beispiel 7.14:<br />

Seien X ∼ Poi (λ), Y ∼ Poi (µ) unabhängige Zufallsvariablen. Wir modellieren damit etwa Anfragen an<br />

einen Server, die über zwei Zwischenstellen eingehen. Dabei wird die Anzahl <strong>der</strong> Anfragen pro Minute an<br />

<strong>der</strong> ersten Zwischenstelle mittels X1 und die Anzahl <strong>der</strong> Anfragen pro Minute an <strong>der</strong> zweiten Zwischenstelle<br />

mittels X2 simuliert. Die bedingte Verteilung von X gegeben X+Y = k ist dann die Frage, wie viele<br />

<strong>der</strong> Anfragen am Server von <strong>der</strong> ersten Zwischenstelle kommen. Nach Satz 7.8 ist X + Y ∼ Poi (λ + µ)<br />

und damit berechnet man<br />

p X|X+Y (j|k) = P (X = j | X + Y = k)<br />

=<br />

X,Y unabhängig<br />

=<br />

=<br />

=<br />

=<br />

P (X = j,Y = k − j)<br />

P (X + Y = k)<br />

P (X = j) P (Y = k − j)<br />

P (X + Y = k)<br />

exp (−λ) λj<br />

µk−j<br />

j! exp(−µ) (k−j)!<br />

exp (−λ − µ) (λ+µ)k<br />

k!<br />

� �<br />

k<br />

λ<br />

j<br />

j µ k−j 1<br />

� � � �j � �<br />

k λ µ<br />

·<br />

j λ + µ λ + µ<br />

(λ + µ) j (λ + µ) k−j<br />

Damit ist die bedingte Verteilung von X gegeben X + Y = k genau durch B<br />

Nach obigen Beispielen kann man schon vermuten:<br />

Bemerkung 7.15:<br />

k−j<br />

� �� �<br />

=1− λ<br />

λ+µ<br />

�<br />

k, λ<br />

λ+µ<br />

.<br />

�<br />

gegeben.<br />

Die Zufallsvariablen X und Y sind genau dann unabhängig, wenn p Y |X (y|x) = pY (y) ∀ (x,y) ∈ Ω ′ × Ω ′′<br />

gilt.<br />

Beweis:<br />

Nach Definition <strong>der</strong> bedingten Wahrscheinlichkeit ist<br />

Wir sehen also<br />

p Y |X(y,x) = pY (y) ⇔ p (X,Y )(x,y)<br />

pX(x)<br />

= pY (y)<br />

⇔ P (X,Y ) (x,y) = P Y (y) · P X (x).<br />

p Y |X (y|x) = pY (y) ∀ (x,y) ∈ Ω ′ × Ω ′′ ⇔ P (X,Y ) = P X ⊗ P Y .<br />

Nach Satz 4.18 ist die hintere Bedingung aber äquivalent zur Unabhängigkeit von X und Y .


82 7 Faltung, bedingte Verteilungen und Korrelation<br />

7.2.1 Der bedingte Erwartungswert<br />

7.16 Definition:<br />

Sei (Ω,P) ein diskreter Wahrscheinlichkeitsraum und seien X : Ω<br />

��<br />

Ω ′ , Y : Ω<br />

��<br />

Ω ′′ diskrete<br />

Zufallsvariablen auf diesem Raum. Für x ∈ Ω ′ mit P (X = x) > 0 ist <strong>der</strong> bedingte Erwartungswert<br />

von Y gegeben X = x definiert durch<br />

Beispiel 7.17:<br />

E (Y | X = x) = �<br />

y∈Y (Ω)<br />

y · p Y |X (y|x) .<br />

Wir betrachten zweifaches Würfeln wie oben mit den Zufallsvariablen Y =Augensumme und X =erster<br />

Wurf. Dann schließen wir aus obiger Tabelle, dass<br />

Beispiel 7.18:<br />

�12<br />

E (Y | X = x) = y · pY |X(y|x) =<br />

y=2<br />

x+6 �<br />

y=x+1<br />

y<br />

= x + 3.5.<br />

6<br />

Seien X ∼ Poi (λ) und Y� ∼ Poi (µ) unabhängig. Dann ist die bedingte Verteilung von X gegeben<br />

X+Y = x genau durch B x, λ<br />

�<br />

λ+µ gegeben, womit nach dem Erwartungswert für Binomial-Experimente<br />

sofort<br />

E � X � �<br />

�<br />

λ<br />

X + Y = x = x ·<br />

λ + µ<br />

folgt.<br />

7.2.2 Die bedingte Erwartung<br />

Der eben definierte bedingte Erwartungswert E (Y | X = x) ist eine Funktion von x. Setze daher<br />

7.19 Definition:<br />

Die Abbildung g (X) : Ω<br />

g (x) := E (Y | X = x) , x ∈ X (Ω) .<br />

��<br />

R, also<br />

X<br />

٠��<br />

X(Ω) ��<br />

R<br />

ist eine Zufallsvariable auf Ω und heißt die bedingte Erwartung von Y gegeben X. Wir schreiben auch<br />

Beispiel 7.20:<br />

E (Y | X) := g (X) .<br />

Wir würfeln wie<strong>der</strong> wie in Beispiel 7.17. Dort haben wir schon berechnet, dass E (Y | X = x) = x + 3.5<br />

gilt. Daher ist die bedingte Erwartung hier die Zufallsvariable<br />

Beispiel 7.21:<br />

E (Y | X) = X + 3.5.<br />

Wir betrachten wie<strong>der</strong> Poisson-verteilte Zufallsvariablen X und Y wie in Beispiel 7.18. Mit <strong>der</strong> Rechnung<br />

aus diesem Beispiel folgt<br />

λ<br />

E (X | X + Y ) = (Y + X)<br />

λ + µ .<br />

Wir wollen nun zeigen, dass man manchmal den Erwartungswert E (Y ) sehr gut mit Hilfe <strong>der</strong> bedingten<br />

Erwartung berechnen kann. Dazu nutzen wir den folgenden Satz:<br />

7.22 Satz (iterierte Erwartung):<br />

Es gilt<br />

Beweis:<br />

Wende Satz 7.23 mit f ≡ 1 an.<br />

g<br />

E (Y ) = E (E (Y | X)). (7.3)


7 Faltung, bedingte Verteilungen und Korrelation 83<br />

7.23 Satz:<br />

Der folgende Satz ist allgemeiner und beinhaltet den Satz über die iterierte Erwartung bereits:<br />

Für eine beliebige Abbildung f : X (Ω)<br />

Beweis:<br />

Betrachte<br />

��<br />

R gilt<br />

E (f(X) · Y ) = E (f(X) · E (Y | X)).<br />

(X,Y )<br />

٠��<br />

X(Ω) × Y (Ω)<br />

�� �� �� ��<br />

⊂R2 ⊂R2 h ��<br />

für h (x,y) := f(x) · y. Dann folgt mit doppelter Anwendung <strong>der</strong> Transformationsformel (Satz 5.12)<br />

was die Behauptung zeigt.<br />

Beispiel 7.24:<br />

E (f(X) · Y ) = E (h(X,Y ))<br />

= �<br />

h(x,y)P (X = x,Y = y)<br />

x∈X(Ω)<br />

y∈Y (Ω)<br />

= �<br />

�<br />

x∈X(Ω) y∈Y (Ω)<br />

= �<br />

x∈X(Ω)<br />

= �<br />

x∈X(Ω)<br />

= �<br />

x∈X(Ω)<br />

R<br />

f(x) · yp Y |X (y|x) · pX (x)<br />

f(x) · pX (x) �<br />

yp Y |X (y|x)<br />

y∈Y (Ω)<br />

� �� �<br />

=E(Y | X=x)<br />

f(x) · pX (x) E (Y | X = x)<br />

� �� �<br />

=g(x)<br />

f(x)g(x) · pX (x)<br />

= E (f(X) · g(X))<br />

= E (f(X) · E (Y | X)),<br />

Wie<strong>der</strong> zweifaches Würfeln wie in Beispiel 7.17 (also Y =Augensumme, X =erster Wurf). Wir haben<br />

oben schon gesehen, dass E (Y | X) = X + 3.5 gilt. Damit folgt aus dem Satz oben:<br />

E (Y ) (7.3)<br />

= E (E (Y | X)) = E (X + 3.5) = E (X) + 3.5 = 7.<br />

7.2.3 Anwendung <strong>der</strong> iterierten Erwartung<br />

7.25 Definition:<br />

Sei I eine beliebige Indexmenge und seien Xi, i ∈ I Zufallsvariablen. Wir nennen Xi,i ∈ I unabhängig,<br />

falls jede endliche Teilfamilie Xij , j ∈ J, #J < ∞, unabhängig ist.<br />

Der folgende Satz behandelt den Erwartungswert zufälliger Summen:<br />

7.26 Satz (Wald’sche Identität):<br />

Sei N eine Zufallsvariable mit Werten in N0. Seien X1,X2,... Zufallsvariablen mit gleichem Erwartungswert<br />

und N,X1,X2,... im obigen Sinne unabhängig. Setze<br />

Dann gilt<br />

SN (ω) :=<br />

N(ω) �<br />

i=1<br />

Xi (ω) .<br />

E (SN) = E (N) · E (X1) .


84 7 Faltung, bedingte Verteilungen und Korrelation<br />

Beweis:<br />

Es gilt<br />

p SN |N (j|n) = P (SN = j,N = n)<br />

P (N = n)<br />

=<br />

�<br />

n�<br />

�<br />

P Xi = j,N = n<br />

i=1<br />

P (N = n)<br />

.<br />

Nach Dem Blockungslemma (Satz 4.24) sind auch n�<br />

Xi und N unabhängig, das liefert<br />

Damit ist aber per Definition<br />

p SN |N (j|n) = P<br />

E (SN | N = n) =<br />

i=1<br />

� n�<br />

i=1<br />

Xi = j<br />

�<br />

∞�<br />

�<br />

n�<br />

�<br />

j · P Xi = j<br />

j=0<br />

= E<br />

� n�<br />

i=1<br />

Xi<br />

= n · E (X1) ,<br />

da nach Voraussetzung alle Xi’s den gleichen Erwartungswert haben. Das zeigt<br />

i=1<br />

�<br />

E (SN | N) = N · E (X1)<br />

und mit dem Satz über die iterierte Erwartung folgt<br />

Das zeigt die Behauptung.<br />

Beispiel 7.27:<br />

E (SN) (7.3)<br />

= E (E (SN | N)) = E (N · E (X1)) = E (N) · E (X1) .<br />

Wir betrachten N als die Anzahl Schadensfälle in einem Jahr bei einer Versicherung und X1,X2,...<br />

als die entsprechenden Schadenshöhen. Dann liefert uns die Wald’sche Identität eine Formel für die zu<br />

erwartenden Leistungen, die die Versicherung zu zahlen hat.<br />

Beispiel 7.28:<br />

Wir betrachten N als Anzahl von Münzwürfen, bis das Ergebnis ” Kopf“ zum ersten Mal auftritt und Xi<br />

als die Augenzahl eines Würfelwurfs. Dann entspricht die Summe<br />

SN (ω) :=<br />

N(ω) �<br />

i=1<br />

Xi (ω)<br />

genau <strong>der</strong> Summe <strong>der</strong> Augenzahlen <strong>der</strong> Würfelwürfe, bis bei parallelen Münzwürfen erstmalig Kopf“<br />

”<br />

kommt. Da N ∼ Geo � �<br />

1<br />

2 gilt, liefert die Wald’sche Identität<br />

E (SN) = E (N) · E (X1) = 2 · 3.5 = 7.<br />

7.2.4 Anwendung des allgemeineren Satzes (Satz 7.23)<br />

Wir wollen hier E (Y | X) als ” bester Vorhersager von Y gegeben die Information X“ betrachten<br />

(bezüglich des erwarteten quadratischen Fehlers). Wir beobachten zunächst:<br />

Bemerkung 7.29:<br />

Sei Y eine reelle Zufallsvariable. Die reelle Zahl a = a ∗ ∈ R, so dass <strong>der</strong> erwartete quadratische Fehler<br />

(E(Y − a) 2 ) minimal wird, ist a ∗ = E(Y ).<br />

Beweis:<br />

Per Definition ist für unser a ∗ genau<br />

E � (Y − a ∗ ) 2� = V (Y ).<br />

.


7 Faltung, bedingte Verteilungen und Korrelation 85<br />

Kleiner kann dieser Wert nicht werden, denn V (Y ) ist minimal, denn setzt man<br />

so ist<br />

f(a) = E � (Y − a) 2� = E(Y 2 ) − 2aE(Y ) + a 2 ,<br />

f ′ (a) = −2E(Y ) + 2a = 0 ⇔ a = E(Y ).<br />

Da es sich bei f um eine nach oben geöffnete Parabel handelt, ist a ∗ = E (Y ) somit das eindeutige globale<br />

Minimum.<br />

7.30 Satz:<br />

Seien X und Y reelle Zufallsvariablen. Für jede Funktion ϕ : X(Ω) ��<br />

R ist<br />

�<br />

E (Y − ϕ(X)) 2�<br />

≥ E � (Y − E(Y | X)) 2�<br />

und Gleichheit gilt genau für ϕ(x) = E(Y | X).<br />

Beweis:<br />

Sei ϕ : X(Ω)<br />

Nach Satz 7.23 sind<br />

Daher folgt<br />

��<br />

R eine beliebige Funktion. Dann gilt<br />

�<br />

E (Y − E(Y | X)) 2�<br />

�<br />

+ E (ϕ(X) − E( Y | X)) 2�<br />

= E � Y 2� �<br />

− 2E (Y · E (Y | X)) + E (E (Y | X)) 2�<br />

+E<br />

�<br />

(ϕ(X)) 2�<br />

− 2E (ϕ(X) · E(Y |X)) + E<br />

(7.4)<br />

�<br />

(E(Y |X)) 2�<br />

. (7.5)<br />

E (ϕ(X) · E (Y | X)) = E (ϕ(X) · Y ) (7.6)<br />

E(Y · E(Y | X) )<br />

� �� �<br />

=:f(X)<br />

= E (E(Y | X) · E(Y | X)) = E � (E(Y |X)) 2� . (7.7)<br />

−2E (Y · E(Y | X)) + E � (E(Y | X)) 2� − 2E (ϕ(X) · E(Y | X)) + E � (E(Y | X)) 2�<br />

(7.6) &(7.7)<br />

= −2E � (E(Y |X)) 2� + 2E � (E(Y |X)) 2� − 2E (ϕ(X) · Y )<br />

= −2E(ϕ(X) · Y )<br />

und damit haben wir<br />

(7.5)<br />

�<br />

E (Y − E(Y |X)) 2�<br />

�<br />

+ E (ϕ(X) − E(Y |X)) 2�<br />

� 2 2<br />

= E(Y ) − 2E(ϕ(X) · Y ) + E (ϕ(X)) �<br />

�<br />

= E (Y − ϕ(X)) 2�<br />

Da (ϕ(X) − E(Y |X)) 2 �<br />

≥ 0 ist auch E (ϕ(X) − E(Y |X)) 2�<br />

≥ 0 und es folgt die Behauptung.<br />

Bemerkung 7.31:<br />

In diesem Sinn ist E(Y | X) <strong>der</strong> beste Vorhersager von Y gegeben X, denn er minimiert den erwarteten<br />

quadratischen Fehler.<br />

7.3 Korrelation<br />

Wir wollen nun den besten Vorhersager <strong>der</strong> Form aX + b (a,b ∈ R) finden. Das heißt, wir betrachten im<br />

Folgenden nur lineare ϕ.<br />

7.32 Definition:<br />

Seien X,Y reelle Zufallsvariablen mit V (X) > 0,V (Y ) > 0. Ihr Korrelationskoeffizient ist<br />

ρX,Y :=<br />

CoV(X,Y )<br />

� V (X) · � V (Y ) =<br />

CoV(X,Y )<br />

.<br />

σX · σY


86 7 Faltung, bedingte Verteilungen und Korrelation<br />

Bemerkung 7.33:<br />

X und Y sind unkorreliert genau dann, wenn ρX,Y = 0 ist.<br />

7.34 Satz (Bester linearer Vorhersager):<br />

Die Zahl E � (Y − aX − b) 2� wird minimal für a ∗ = σY<br />

σX · ρX,Y und b ∗ = E(Y ) − σY<br />

σX · ρX,Y · E(X). Für<br />

den minimalen Wert gilt:<br />

�<br />

E (Y − a ∗ X − b ∗ ) 2�<br />

= � 1 − ρ 2 �<br />

X,Y · V (Y ),<br />

wobei (1 − ρ2 X,Y ) die Verbesserung gegenüber dem konstanten Vorhersager V (Y ) ist.<br />

Beweis:<br />

Für festes a wird laut Bemerkung 7.29 E � (Y − aX − b) 2� minimiert (wobei wir Y −aX als Zufallsvariable<br />

Z betrachten und b finden wollen, s.d. <strong>der</strong> Ausdruck minimiert wird) durch b ∗ = E(Y − aX) = E(Y ) −<br />

aE(X) und es ist<br />

�<br />

E (Y − aX − b ∗ ) 2�<br />

= V (Y − aX).<br />

Nun müssen wir ein a finden, sodass V (Y − aX) minimal wird.<br />

Wenn wir<br />

f(a) := V (Y −aX) = V (Y )+CoV(Y, −aX)+CoV(−aX,Y )+V (−aX) = V (Y )−2aCoV(X,Y )+a 2 V (X)<br />

setzen, so ist<br />

genau dann, wenn<br />

f ′ (a) = −2CoV(X,Y ) + 2aV (X) = 0<br />

a = a ∗ =<br />

CoV(X,Y )<br />

V (X)<br />

ist und es folgt durch Einsetzen in die Gleichung oben<br />

= σY<br />

· ρX,Y<br />

σX<br />

V (Y − a ∗ CoV(X,Y )<br />

X) = V (Y ) − 2 · CoV(X,Y ) +<br />

V (X)<br />

Das zeigt die Behauptung.<br />

Bemerkung 7.35:<br />

Mit a = 0 und b = E(Y ) folgt:<br />

und damit<br />

7.36 Definition:<br />

CoV(X,Y )2<br />

= V (Y ) − 2 +<br />

V (X)<br />

CoV(X,Y )2<br />

V (X)<br />

�<br />

�<br />

CoV(X,Y )2<br />

= V (Y ) · 1 −<br />

V (X)<br />

= V (Y ) · � 1 − ρ 2 �<br />

X,Y<br />

�<br />

(Y − a ∗ X − b ∗ ) 2�<br />

0 ≤ E<br />

� �� �<br />

=(1−ρ 2 X,Y )·V (Y )<br />

� CoV(X,Y )<br />

V (X)<br />

�<br />

≤ E (Y − 0X − E(Y )) 2�<br />

= V (Y )<br />

0 ≤ ρ 2 X,Y ≤ 1 bzw. − 1 ≤ ρX,Y ≤ 1.<br />

Ist ρX,Y > 0, so nennen wir X und Y positiv korreliert.<br />

� 2<br />

· V (X)<br />

Mit dem Satz oben bedeutet das, dass wir in diesem Fall bei größeren X-Werten auch größere Y -Werte<br />

voraussagen.<br />

7.37 Definition:<br />

Ist ρX,Y < 0, so nennen wir X und Y negativ korreliert.<br />

Mit dem Satz oben bedeutet das, dass wir in diesem Fall bei größeren X-Werten kleinere Y -Werte<br />

voraussagen.


8 Erzeugende Funktion und Verzweigungsprozesse 87<br />

8 Erzeugende Funktion und Verzweigungsprozesse<br />

In diesem Abschnitt werden wir sehen, dass man Wahrscheinlichkeitsverteilungen Funktionen 3 zuordnen<br />

kann, sodass kompliziertes Rechnen mit Wahrscheinlichkeitsverteilungen (z.B. Faltungen) zum einfachen<br />

Rechnen mit den zugehörigen Funktionen wird (z.B. Produkt <strong>der</strong> Funktionen).<br />

In <strong>der</strong> Wahrscheinlichkeits- und Maßtheorie wird dies bei Momenterzeugenden Funktionen und bei<br />

Fourier-Transformationen genutzt.<br />

Wir betrachten hier nun als einfacheres Beispiel für analytische Methoden:<br />

8.1 Definition (Erzeugende Funktion):<br />

Sei X eine diskrete Zufallsvariable auf dem diskreten Wahrscheinlichkeitsraum (Ω,P) mit Werten in N0.<br />

Sei pk = P(X = k) für k ∈ N0. Die erzeugende Funktion (<strong>der</strong> Verteilung) von X ist die Funktion<br />

Bemerkung 8.2:<br />

Wegen gX(1) = ∞�<br />

k=0<br />

Insbeson<strong>der</strong>e gilt gX(1) = 1.<br />

gX(t) :=<br />

∞�<br />

k=0<br />

pk · t k .<br />

pk = 1 und pk ≥ 0 folgt, dass gX(t) für alle t ∈ [−1,1] konvergiert (sogar absolut).<br />

Folglich können wir den Differenzierbarkeitssatz für Potenzreihen anwenden, das liefert das folgende<br />

8.3 Lemma:<br />

Für t ∈ (−1,1) ist die j-te Ableitung gegeben durch<br />

8.4 Satz:<br />

g (j)<br />

X (t) =<br />

∞�<br />

k · (k − 1) · ... · (k − j + 1) · pk · t (k−j) .<br />

k=j<br />

Die Verteilung von X ist durch gX festgelegt.<br />

Beweis:<br />

Es gilt P(X = 0) = p0 = gx(0) und mit obigem Lemma g (j)<br />

x (0) = j! · pj, das heißt<br />

Es folgt die Behauptung.<br />

Beispiel 8.5:<br />

Sei X ∼ Poi(λ). Dann gilt<br />

k=0<br />

pk<br />

P(X = j) = 1<br />

· g(j)<br />

X j! (0).<br />

∞�<br />

gX(t) = exp(−λ) · λk<br />

·t<br />

� ��<br />

k!<br />

�<br />

k ∞� (λt)<br />

= exp(−λ)<br />

k<br />

= exp(−λ) · exp(λ · t)<br />

k!<br />

Diese Funktion sieht für λ = 2 wie folgt aus:<br />

3 Das meint entwe<strong>der</strong> R<br />

2<br />

1<br />

k=0<br />

−1 0 1 t<br />

Abbildung 10: Die erzeugende Funktion gX für X ∼ Poi (2).<br />

��<br />

R o<strong>der</strong> C<br />

��<br />

C!


88 8 Erzeugende Funktion und Verzweigungsprozesse<br />

Beispiel 8.6:<br />

Sei X ∼ B(n,p). Dann gilt<br />

gX(t) =<br />

Diese Funktion sieht für n = 2 und p = 1<br />

2<br />

8.7 Satz (Eigenschaften):<br />

Sei g = gX eine erzeugende Funktion.<br />

n�<br />

k=0<br />

� �<br />

n<br />

p<br />

k<br />

k · (1 − p) n−k · t k<br />

= (p · t + (1 − p)) n<br />

wie folgt aus:<br />

2<br />

1<br />

−1 0 1 t<br />

Abbildung 11: Die erzeugende Funktion gX für X ∼ B � 2, 1<br />

�<br />

2 .<br />

• Für 0 ≤ t ≤ 1 ist g stetig, monoton wachsend und konvex.<br />

• Es gilt<br />

Beweis:<br />

und allgemeiner<br />

lim<br />

tր1 g(1) (t) = E(X)<br />

lim<br />

tր1 g(j) (t) = E (X · (X − 1) · (X − 2) · ... · (X − j + 1)) .<br />

Man nennt dies j-tes faktorielles Moment von X.<br />

• Als absolut konvergente Potenzreihe ist g in [−1,1] stetig. Da mit dem Lemma<br />

g ′ (t) =<br />

∞�<br />

k · pkt k−1<br />

gilt und k · pk ≥ 0 ist, ist g ′ ≥ 0 in [0,1] und daher g monoton wachsend in [0,1].<br />

k=1<br />

g ist konvex, da es eine positive (pk ≥ 0!) Linearkombination <strong>der</strong> konvexen Funktion t ↦→ t k mit<br />

k ≥ 0 ist.<br />

• Der Abel’sche Grenzwertsatz besagt: Wenn ak ≥ 0 und ak ∈ R so gilt<br />

∞�<br />

lim akt k ∞�<br />

=<br />

tր1<br />

k=0<br />

wobei beide Seiten ∞ sein können. Mit <strong>der</strong> Transformationsformel für den Erwartungswert (Satz<br />

5.12) gilt für die Funktion h(k) := k · (k − 1) · ... · (k − j + 1)<br />

lim<br />

tր1 g(j) (t) =<br />

k=0<br />

ak<br />

∞�<br />

k · (k − 1) · ... · (k − j + 1) · pk<br />

k=j<br />

Transformationsformel<br />

= E(h(X))<br />

= E(X(X − 1)(X − 2) · ... · (X − j + 1)).


8 Erzeugende Funktion und Verzweigungsprozesse 89<br />

Beispiel 8.8:<br />

Sei X ∼ Poi(λ). Wir wollen nun E(X) und V (X) analytisch bestimmen (obwohl wir das Ergebnis ja<br />

schon kennen).<br />

Die erzeugende Funktion ist nach Beispiel 8.5<br />

Man berechnet die Ableitungen<br />

Mit dem Satz ist<br />

und<br />

Wir erhalten durch Umstellen<br />

8.9 Satz:<br />

gX(t) = exp(−λ) · exp(λt).<br />

g (1)<br />

X (t) = exp(−λ) · λ · exp(λt)<br />

g (2)<br />

X (t) = exp(−λ) · λ2 · exp(λt).<br />

E(X) = lim g<br />

tր1 (1)<br />

X = exp(−λ) · exp(λ) · λ = λ<br />

E(X(X − 1)) = E � X 2� − E(X) = lim<br />

tր1 g (2)<br />

X (t) = λ2 .<br />

V (X) = E � X 2� − (E(X)) 2 = � λ 2 + λ � − λ 2 = λ.<br />

Seien X,Y unabhängige Zufallsvariablen mit Werten in N0. Dann gilt<br />

Beweis:<br />

gX+Y (t) = gX(t) · gY (t), t ∈ [−1,1] .<br />

Sei t ∈ [−1,1] fest. Wir sehen mit <strong>der</strong> Transformationsformel (Satz 5.12) für die Funktion h(x) := tx ,<br />

x ≥ 0:<br />

E � t X� ∞�<br />

= E (h(X)) = t k · P(X = k) = gX (t) .<br />

k=0<br />

Nach dem Blockungslemma sind auch die Zufallsvariablen t X und t Y unabhängig und mit <strong>der</strong> Produktformel<br />

für den Erwartungswert unabhängiger Zufallsvariablen (Satz 5.19) folgt<br />

Das zeigt schon die Behauptung.<br />

Beispiel 8.10:<br />

gX+Y (t) = E � t X+Y � = E � t X · t Y � = E(t X ) · E(t Y ) = gX(t) · gY (t).<br />

Wir wollen nun mit dieser Formel zeigen, dass<br />

gilt.<br />

Beweis:<br />

Poi(λ)⋆Poi(µ) = Poi(λ + µ)<br />

Seien X ∼ Poi(λ) und Y ∼ Poi(µ) unabhängig. Dann gilt<br />

gX+Y (t)<br />

Satz 8.9<br />

= gX(t) · gY (t)<br />

= exp(λ)exp(λt)exp(−µ)exp(µt)<br />

= exp(−(λ + µ))exp((λ + µ)t)<br />

und da nach Satz 8.4 die Verteilung von X +Y bereits durch gX+Y festgelegt ist folgt die Behauptung.<br />

Wir wollen an dieser Stelle noch einen zweiten, elementaren Beweis ohne Benutzung des Erwartungswertes<br />

bzw. des Blockungslemmas für die oben schon gezeigte Formel<br />

gX+Y (t) = gX(t) · gY (t), t ∈ [−1,1] (8.1)<br />

für unabhängige Zufallsvariablen X,Y mit Werten N0 geben:


90 8 Erzeugende Funktion und Verzweigungsprozesse<br />

Beweis:<br />

Per Definition ist<br />

gX+Y (t) =<br />

was die Behauptung schon zeigt.<br />

Folgerung 8.11:<br />

(7.2)<br />

=<br />

Cauchy-Reihenprodukt<br />

=<br />

∞�<br />

P (X + Y = k) t k<br />

k=0<br />

⎛<br />

⎞<br />

∞� k�<br />

⎝ P (X = j) · P (Y = k − j) ⎠ t k<br />

k=0<br />

j=0<br />

����<br />

=t j ·t k−j<br />

⎛<br />

∞�<br />

⎝ P (X = j) t j<br />

⎞ �<br />

∞�<br />

⎠ · P (Y = k) t k<br />

�<br />

j=0<br />

= gX(t) · gY (t),<br />

Für endlich viele unabhängige, N0-wertige Zufallsvariablen X1,...,Xn gilt<br />

als Funktion.<br />

Beweis:<br />

Einfach induktiv (8.1) anwenden.<br />

gX1+...+Xn<br />

8.12 Satz (Erzeugende Funktion für zufällige Summe):<br />

= gX1 · ... · gXn<br />

Seien N,X1,X2,... unabhängige, N0-wertige diskrete Zufallsvariablen auf (Ω,P), s.d. die Zufallsvariablen<br />

X1,X2,... alle die gleiche Verteilung haben. Setze<br />

Dann ist<br />

SN (ω) :=<br />

Beweis:<br />

Da nach dem Blockungslemma auch N und n�<br />

fest, dass<br />

N(ω) �<br />

j=1<br />

Xi (ω) , ω ∈ Ω.<br />

k=0<br />

gSN (t) = (gN ◦ gX1 ) (t) = gN (gX1 (t)) ∀ t ∈ [−1,1] .<br />

i=1<br />

P (Sn = k) =<br />

=<br />

Xi für jedes n ∈ N0 unabhängig sind, stellen wir zunächst<br />

∞�<br />

P (N = n,Sn = k)<br />

n=0<br />

∞�<br />

P (N = n) · (Sn = k) (8.2)<br />

Damit folgt direkt aus <strong>der</strong> Definition <strong>der</strong> erzeugenden Funktion für t ∈ [−1,1], dass<br />

(t) =<br />

∞�<br />

P (SN = k) · t k<br />

gSN<br />

(8.2)<br />

=<br />

absolute Konvergenz<br />

=<br />

=<br />

X1,X2,... gleich verteilt<br />

=<br />

k=0<br />

∞�<br />

n=0<br />

k=0 n=0<br />

∞�<br />

P (N = n) · P (Sn = k) · t k<br />

∞�<br />

P (N = n)<br />

n=0<br />

∞�<br />

n=0<br />

∞�<br />

P (Sn = k) · t k<br />

k=0<br />

� �� �<br />

Folgerung 8.11<br />

=gSn (t) = gX (t)·...·gXn 1 (t)<br />

P (N = n) gX1 (t) · ... · gXn (t)<br />

∞�<br />

P (N = n) (gX1 (t))n<br />

n=0<br />

= gN (gX1 (t)).


8 Erzeugende Funktion und Verzweigungsprozesse 91<br />

Das zeigt die Behauptung.<br />

Als Korollar erhalten wir hier einen Spezialfall (N0-wertige Zufallsvariablen) <strong>der</strong> Wald’schen Identität:<br />

Korollar 8.13:<br />

Unter den Voraussetzungen von Satz 8.12 gilt<br />

Beweis:<br />

E (SN) = E (N) · E (X1) .<br />

Für jede Zufallsvariable X ist nach Satz 8.7 E (X) = lim g<br />

tր1 ′ X (t). Daher folgt:<br />

E (SN) = lim<br />

tր1 g ′ SN (t)<br />

Satz 8.12<br />

= lim<br />

tր1 (gN ◦ gX1 )′ (t)<br />

= lim<br />

tր1 g (X1) (t) · g ′ N (gX1 (t))<br />

= lim<br />

tր1 g (X1) (t) · lim<br />

tր1 g ′ N (gX1 (t))<br />

Da nach Bemerkung 8.2 gX1 (1) = 1 gilt und gX1 nach Satz 8.7 monoton wachsend ist, gilt<br />

Da lim g<br />

tր1 ′ N (t) = E(N) existiert, folgt<br />

was die Behauptung zeigt.<br />

gX1<br />

(t) ր 1 für t ր 1.<br />

E (SN) = lim<br />

tր1 g (X1) (t) · lim<br />

tր1 g ′ N (gX1 (t))<br />

= lim<br />

tր1 g (X1) (t) · lim<br />

tր1 g ′ N (t)<br />

= E(X1) · E(N),


92 8 Erzeugende Funktion und Verzweigungsprozesse<br />

8.1 Verzweigungsprozesse<br />

Wir nehmen an, dass es in <strong>der</strong> 0-ten Generation Z0 = 1 Teilchen gibt. Dieses erzeugt eine zufällige Anzahl<br />

k ∈ N0 von Nachkommen gemäß einer Wahrscheinlichkeitsfunktion, die durch p0,p1,p2,... gegeben ist.<br />

Dabei bezeichnet pi die Wahrscheinlichkeit, dass i Nachkommen erzeugt werden etc..<br />

Diese Nachkommen bilden die erste Generation.<br />

Die Teilchen <strong>der</strong> ersten Generation erzeugen dann unabhängig voneinan<strong>der</strong> wie<strong>der</strong> Nachkommen nach<br />

dem gleichen Zufallsgesetz p0,p1,p2,.... Diese Nachkommen bilden dann die zweite Generation usw..<br />

8.1.1 Modellbildung<br />

Diesen Prozess wollen wir nun modellieren:<br />

Sei (pk) k∈N0 die vorgegebene Wahrscheinlichkeitsfunktion. Seien außerdem Xn,j für n,j ∈ N unabhängige<br />

Zufallsvariablen mit Werten in N0 und P (Xn,j = k) = pk für alle n,j ∈ N und k ∈ N0. Sei zuletzt Z0 = 1.<br />

Die Anzahl <strong>der</strong> Teilchen in <strong>der</strong> ersten Generation sei durch Z1 := X1,1 gegeben. Wir definieren nun<br />

induktiv die Anzahl <strong>der</strong> Teilchen in <strong>der</strong> n-ten Generation:<br />

Ist Zn−1 (also die Anzahl Teilchen in <strong>der</strong> n-ten Generation) schon definiert, so setze<br />

Zn :=<br />

Zn−1 �<br />

j=1<br />

Die Xn,j entspricht also <strong>der</strong> Anzahl an Nachkommen, die das j-te Element aus <strong>der</strong> n − 1-ten Generation<br />

zur n-ten Generation beisteuert.<br />

Xn,j.<br />

Die Folge von Zufallsvariablen (Zn) n∈N heißt dann Galton-Watson-Prozess.<br />

8.1.2 Motivation<br />

Verzweigungsprozesse werden aus den verschiedensten Motivationen heraus betrachtet: So interessierten<br />

sich um 1870 einige Forscher für die Wahrscheinlichkeit des Aussterbens von Familiennamen, welche<br />

mittels eines Verzweigungprozesses wie oben berechnet werden kann.<br />

Heutzutage werden Verzweigungsprozesse vor allem in <strong>der</strong> Kernphysik und beim Studium von Netzwerken<br />

gebraucht.<br />

8.1.3 Aussterbewahrscheinlichkeit<br />

Sei qn := P (Zn = 0) die Wahrscheinlichkeit, dass die n-te Generation leer ist (d.h. zur Generation n<br />

o<strong>der</strong> früher ” ausgestorben“), n ∈ N. Dann ist q1 die Wahrscheinlichkeit, dass <strong>der</strong> Prozess in <strong>der</strong> ersten<br />

Generation ausstirbt usw..<br />

Offenbar ist das Ereignis, dass <strong>der</strong> ganze Prozess irgendwann ausstirbt, gegeben als<br />

J :=<br />

∞�<br />

{Zn = 0} .<br />

n=1<br />

Auch klar ist, dass {Zn = 0} ⊂ {Zn+1 = 0} für alle n ∈ N gilt, da <strong>der</strong> Prozess natürlich ausgestorben<br />

bleibt, wenn er einmal ausgestorben ist. Mit (R9) aus §1 folgt<br />

q = P (J ) = lim<br />

n→∞ P (Zn = 0) = lim<br />

n→∞ qn.<br />

Wir nennen q auch die Aussterbewahrscheinlichkeit des Prozesses.<br />

Zur Bestimmung von q können wir also die Zahlen qn berechnen. Dazu wollen wir die erzeugenden<br />

Funktionen gZn (0) = P (Zn = 0) = qn nutzen.<br />

Da nach Konstruktion alle Zufallsvariablen Xn,j die gleiche Verteilung, ergo auch die gleiche erzeugende<br />

Funktion<br />

∞�<br />

g (t) := gXn,j (t) = pkt k<br />

mit den am Anfang vorgegebenen Zahlen pk haben, gilt<br />

gZ1<br />

k=0<br />

Z1=X1,1<br />

= gX1,1 = g.


8 Erzeugende Funktion und Verzweigungsprozesse 93<br />

Genauso folgt<br />

und induktiv<br />

Daher ist<br />

8.14 Lemma:<br />

Die Zahl<br />

Z1 �<br />

Z2 =<br />

j=1<br />

Z2 �<br />

Z3 =<br />

j=1<br />

X2,j<br />

X3,j<br />

(8.12)<br />

⇒ gZ2 = gZ1 ◦ gX1,1 = g ◦ g<br />

(8.12)<br />

⇒ gZ3 = gZ2 ◦ gX2,1 = g ◦ g ◦ g<br />

gZn<br />

= g ◦ ... ◦ g .<br />

� �� �<br />

n−mal<br />

q = lim<br />

n→∞ qn = lim gZn (0) = lim<br />

n→∞ n→∞<br />

q = lim<br />

n→∞<br />

g ◦ ... ◦ g(0)<br />

� �� �<br />

n−mal<br />

ist die kleinste Lösung <strong>der</strong> Gleichung g(t) = t im Intervall [0,1].<br />

Beweis:<br />

g ◦ ... ◦ g(0).<br />

� �� �<br />

n−mal<br />

Da g monoton steigend ist und g(1) = 1 gilt, ist g eine Selbstabbildung auf [0,1]. Daher ist g(0) ≥ 0 und<br />

entsprechend g(g(0)) ≥ g(0) mit <strong>der</strong> Monotonie. Induktiv folgt, dass die Folge qn = g ◦ ... ◦ g(0) monoton<br />

wachsend und durch 1 beschränkt ist. Daher existiert die Zahl q.<br />

Jetzt zeigen wir zunächst, dass q eine Lösung von g(t) = t ist:<br />

�<br />

g(q) = g<br />

lim<br />

n→∞<br />

g ◦ ... ◦ g(0)<br />

� �� �<br />

n−mal<br />

� g stetig<br />

= lim g ◦ ... ◦ g (0) = q.<br />

n→∞ � �� �<br />

(n+1)−mal<br />

Bleibt zu zeigen, dass q die kleinste Zahl aus [0,1] mit dieser Eigenschaft ist.<br />

Sei x ∈ [0,1] mit g(x) = x. Insbeson<strong>der</strong>e gilt dann auch für alle n ∈ N<br />

Aus <strong>der</strong> Monotonie von g folgt<br />

g ◦ ... ◦ g(x)<br />

= x.<br />

� �� �<br />

n−mal<br />

0 ≤ x ⇒ g(0) ≤ g(x) = x ⇒ g(g(0)) ≤ g(g(x)) = x ⇒ g ◦ ... ◦ g(0)<br />

≤ x ∀ n ∈ N.<br />

� �� �<br />

n−mal<br />

Durch Bilden des Grenzwertes n<br />

8.15 Definition:<br />

Wir nennen g : [0,1]<br />

mischen Systems.<br />

��<br />

∞ erhält man die Behauptung.<br />

��<br />

[0,1] ein dynamisches System und die Zahl q heißt Grenzwert des dyna


94 8 Erzeugende Funktion und Verzweigungsprozesse<br />

Beispiel 8.16:<br />

Sei pk := exp(−λ) λk<br />

k!<br />

1 mit λ = 2 , so kann man am Graphen <strong>der</strong> erzeugenden Funktion<br />

g(t) = exp (−λ) exp (λt)<br />

leicht sehen, dass t = 1 die kleinste Lösung <strong>der</strong> Gleichung g(t) = t ist:<br />

g(t)<br />

Abbildung 12: Die Funktion g(t) = exp � −1 � �<br />

1<br />

2 exp 2t� .<br />

Daher ist hier q = 1, was bedeutet, dass <strong>der</strong> Prozess mit Sicherheit ausstirbt!<br />

Verwendet man dagegen λ = 2, so kann man am Graphen von g(t) = exp (−λ)exp (λt) leicht sehen, das<br />

<strong>der</strong> kleinste Wert t mit g(t) = t kleiner als 1 (nämlich t ≈ 0.2032) ist:<br />

g(t)<br />

�<br />

Abbildung 13: Die Funktion g(t) = exp(−2) exp (2t).<br />

Wir wollen nun noch einige Aussagen über q allein mittels <strong>der</strong> Zahlen p0 = P (Xn,j = 0) und E (Xn,j)<br />

ohne Beweis angeben. Den Beweis lassen wir allein deshalb weg, weil er elementare Analysis ist und sonst<br />

nichts mit <strong>Stochastik</strong> zu tun hat.<br />

8.17 Satz (ohne Beweis):<br />

(1) Ist p0 = 0, so gilt q = 0.<br />

(2) Ist p0 > 0 und E (Xn,j) > 1, so ist q ∈ ]0,1[.<br />

(3) Ist p0 > 0 und E (Xn,j) = 1, so gilt trotzdem q = 1.<br />

Auf den Übungsblättern wird für die Zahlen pk := p · (1 − p) k explizit gezeigt, dass<br />

q < 1 ⇔ E (Xn,j) > 1.<br />

t<br />

t<br />

�<br />


9 Grenzwertsatz von de Moivre-Laplace 95<br />

9 Grenzwertsatz von de Moivre-Laplace<br />

9.1 Normalapproximation <strong>der</strong> Binomialverteilung<br />

Diese Approximation liefert ein Ergebnis für Summen unabhängiger Bernoulli-Variablen. Später wird sie<br />

als Spezialfall eines allgemeinen ” zentralen Grenzwertsatzes“ bewiesen.<br />

Seien X1,X2,...Xn unabhängig und nach B(1,p) verteilt. Sei Sn = X1 + X2 + ... + Xn. Man stellt sich<br />

0 < p < 1 fest vor und n als variabel.<br />

Sei p = 1<br />

2 . Betrachte zum Beispiel Stabdiagramme für<br />

• n = 1 und S1 = X1,<br />

• n = 2 und S2 = X1 + X2 ∼ B � 2, 1<br />

�<br />

2 ,<br />

• n = 50 und Sn = 50�<br />

i=1<br />

Xi ∼ B � 50, 1<br />

�<br />

2 .<br />

Lässt man nun n gegen unendlich laufen, so ist Sn ∼ B(n,p), d.h. <strong>der</strong> Erwartungswert E(Sn) = n · p<br />

sowie die Varianz V (Sn) = n·p·(1−p) gehen gegen unendlich - die Verteilung streut immer mehr. Genau<br />

das sehen wir auch bei Betrachtung <strong>der</strong> Stabdiagramme.<br />

Beide Effekte kann man ” stabilisieren“ indem man zu standardisierten Zufallsvariablen übergeht:<br />

Setze<br />

Dann gilt für alle n ∈ N:<br />

E (S ∗ n) = E<br />

=<br />

S ∗ n = Sn − E(Sn)<br />

� .<br />

V (Sn)<br />

= 0,<br />

V (S ∗ n) = V<br />

=<br />

= V (Sn)<br />

= 1.<br />

�<br />

�<br />

Sn − E(Sn)<br />

�<br />

V (Sn)<br />

1<br />

� V (Sn) · E (Sn − E(Sn))<br />

�<br />

�<br />

Sn − E(Sn)<br />

�<br />

V (Sn)<br />

1<br />

V (Sn) · V (Sn − E(Sn))<br />

V (Sn)<br />

Die Werte, die die Zufallsvariable S ∗ n annimmt, sind<br />

Beispiel 9.1:<br />

x0,x1,...xn ∈ R wobei xk =<br />

k − np<br />

√ npq , 0 ≤ k ≤ n,q = 1 − p.<br />

• Für n = 100, p = 1<br />

2 ist zum Beispiel xk = k−50 k<br />

5 = 5 − 10, 0 ≤ k ≤ 100.<br />

Das heißt also, die Zufallsvariable nimmt im Einheitsintervall 5 Werte an.<br />

• Für n = 10.000, p = 1<br />

2 ist zum Beispiel xk = k−5000 k<br />

50 = 50 − 100, 0 ≤ k ≤ 100.<br />

Das heißt also, die Zufallsvariable nimmt im Einheitsintervall 50 Werte an.<br />

Wir möchten nun die Wahrscheinlichkeit bestimmen, dass S ∗ n in einem Intervall [a,b] liegt. Dazu formulieren<br />

wir den folgenden Satz.


96 9 Grenzwertsatz von de Moivre-Laplace<br />

9.2 Satz (Grenzwertsatz von de Moivre-Laplace):<br />

Sei<br />

Sei 0 < p < 1 fest und seien für jedes n X1,...Xn<br />

Dann gilt für jedes Paar a < b mit a,b ∈ R:<br />

Mit <strong>der</strong> Stammfunktion<br />

kann man schreiben:<br />

lim<br />

n→∞ P (a ≤ S∗ n ≤ b) =<br />

ϕ(x) := 1<br />

�<br />

√ exp −<br />

2π x2<br />

�<br />

, x ∈ R.<br />

2<br />

�b<br />

a<br />

i.i.d<br />

∼ B(1,p).<br />

ϕ(x)dx bzw. einseitig lim<br />

n→∞ P (S∗ n ≤ b) =<br />

Φ(t) :=<br />

�t<br />

−∞<br />

ϕ(τ)dτ, t ∈ R<br />

lim<br />

n→∞ P (a ≤ S∗ n ≤ b) = Φ(b) − Φ(a).<br />

Der Beweis folgt später aus dem zentralen Grenzwertsatz (Satz 10.100).<br />

Bemerkung 9.3:<br />

Die Aussagen gelten auch für ”


9 Grenzwertsatz von de Moivre-Laplace 97<br />

O<strong>der</strong> direkt als Funktion:<br />

� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �<br />

0.9<br />

0.8<br />

0.7<br />

0.6<br />

0.5<br />

0.4<br />

0.3<br />

0.2<br />

0.1<br />

� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �<br />

−4.0−3.6<br />

−3.2−2.8<br />

−2.4−2.0<br />

−1.6−1.2<br />

−0.8−0.4<br />

� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � ��<br />

� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �<br />

0 0.4 0.8 1.2 1.6 2.0 2.4 2.8 3.2 3.6 4.0<br />

Abbildung 16: Die Verteilungsfunktion Φ <strong>der</strong> Standardnormalverteilung.<br />

Für Φ(t) gibt es keinen geschlossenen Ausdruck, daher ist es für Werte t ≥ 0 tabelliert:<br />

Beispiel 9.8:<br />

• Φ(1) ≈ 0.8413,<br />

• Φ(1.645) ≈ 0.95,<br />

• Φ(1.96) ≈ 0.975,<br />

d.h. zum Beispiel<br />

Für weitere Werte siehe Anhang A.<br />

Bemerkung 9.9:<br />

lim<br />

n→∞ P (S∗ n ≤ 1)<br />

n<br />

��<br />

∞ ��<br />

Φ(1) = 0.8413.<br />

Um Φ an negativen Stellen auszuwerten, betrachtet man für t > 0:<br />

Beispiel 9.10:<br />

Seien X1,...,Xn<br />

Dann bestimmt man<br />

i.i.d<br />

∼ B(1,p),<br />

Φ(−t) =<br />

Symmetrie von ϕ<br />

=<br />

Sn :=<br />

=<br />

�−t<br />

−∞<br />

�<br />

t<br />

∞<br />

�∞<br />

−∞<br />

ϕ(τ)dτ<br />

ϕ(τ)dτ<br />

= 1 − Φ(t)<br />

n�<br />

i=1<br />

ϕ(τ)dτ −<br />

�t<br />

−∞<br />

Xi und S ∗ n := Sn − np<br />

√ npq .<br />

lim<br />

n→∞ P(−1 ≤ S∗ n ≤ 1) = Φ(1) − Φ(−1)<br />

ϕ(τ)dτ<br />

= Φ(1) − (1 − Φ(1))<br />

= 2Φ(1) − 1<br />

Tabelle<br />

= 2 · 0.8413 − 1 ≈ 0.68


98 9 Grenzwertsatz von de Moivre-Laplace<br />

9.2 Anwendung I: Normalapproximation <strong>der</strong> Binomialverteilung<br />

Wir erinnern uns: Die Poissonapproximation mit λ = n ·p für B(n,p) ist eine gute Approximation, wenn<br />

p sehr klein ist.<br />

Die Normalapproximation die wir nun vorstellen wollen ist gut, wenn p nicht zu nahe bei 0 o<strong>der</strong> 1 ist.<br />

Als Faustregel für ” gut“ gilt hier: npq ≥ 9.<br />

Für Sn ∼ B(n,p) und ganzzahlige Werte 0 ≤ i ≤ j ≤ n gilt<br />

Bemerkung 9.11:<br />

P(i ≤ Sn ≤ j) =<br />

�<br />

i − np<br />

P √<br />

npq<br />

� �� �<br />

=:a<br />

de Moivre<br />

≈ Φ<br />

� j − np<br />

√ npq<br />

≤ Sn − np<br />

√<br />

npq<br />

� �� �<br />

=S∗ ≤<br />

n<br />

�<br />

− Φ<br />

sup | P (a ≤ S<br />

a


9 Grenzwertsatz von de Moivre-Laplace 99<br />

Bei <strong>der</strong> Rechnung mit Korrekturtermen ergibt sich:<br />

� 1 � � 1<br />

10 + 2 −10 − 2<br />

P (90 ≤ Sn ≤ 110) ≈ Φ − Φ<br />

9.13 9.13<br />

� �<br />

10.5<br />

= 2 · Φ − 1<br />

9.13<br />

≈ 2 · Φ(1.15) − 1<br />

≈ 2 · 0.8749 − 1<br />

= 0.7498.<br />

Der wahre Wert liegt bei P (90 ≤ Sn ≤ 110) = 0.7501 - für n = 600 kann man diesen rechnergestützt<br />

noch leicht exakt berechnen.<br />

Mit Tschebyschow erhält man:<br />

- keine große Erkenntnis!<br />

P (90 ≤ Sn ≤ 110) = 1 − P (|Sn − 100| ≥ 11)<br />

� �� �<br />

≤<br />

V (Sn) 83.3<br />

112 = 121 ≈0.69<br />

≥ 0.31<br />

9.3 Anwendung II: Bestimmung eines Stichprobenumfangs<br />

Konkret wollen wir dies für Wahlvorhersagen durchführen. Die Aufgabe ist, den Anteil an einer Partei A<br />

aus einer Umfrage von n zufällig ausgewählten Befragten heraus zu schätzen.<br />

Wähler von A<br />

Seien X1,...Xn ∼ B(1,p) unabhängig und p = alle Wahlberechtigten , womit p unbekannt ist!<br />

Aufgabe: Schätze p durch ˆp = 1<br />

n Sn. Wie groß ist n zu wählen, damit für jedes p ∈ [0,1] mit Wahrscheinlichkeit<br />

≥ 0.95 <strong>der</strong> wahre Wert p im (zufälligen) Intervall [ˆp − ε, ˆp + ε] liegt?<br />

Sei ε = 0.01, das heißt 1% Abweichung ist erlaubt. Dann ist<br />

Es folgt<br />

Pp (p ∈ [ˆp − ε, ˆp + ε]) = Pp(−0.01 ≤ ˆp − p ≤ 0.01)<br />

Aus <strong>der</strong> Tabelle entnimmt man<br />

und somit folgt<br />

Φ<br />

= Pp<br />

de Moivre<br />

≈ Φ<br />

�<br />

�<br />

−0.01 · n nˆp − np<br />

√ ≤ √ ≤<br />

npq npq<br />

� �<br />

0.01 · n<br />

√ − Φ<br />

npq<br />

� �<br />

0.01 · n<br />

= 2 · Φ √ − 1<br />

npq<br />

� �� �<br />

!<br />

≥0.95<br />

� �<br />

0.01 · n !<br />

√ ≥<br />

npq<br />

1.95<br />

= 0.975.<br />

2<br />

Φ(t) ≥ 0.975 für t ≥ 1.96<br />

0.01·n<br />

√ npq ≥ 1.96<br />

⇔ √ n ≥ 196 √ pq<br />

⇔ n ≥ (196) 2 · pq<br />

����<br />

≤ 1<br />

4<br />

⇐ n ≥ 9604.<br />

Ist die Vorinformation p ≤ 0.1 gegeben, dann genügt es<br />

Menschen zu befragen.<br />

� �<br />

−0.01 · n<br />

√<br />

npq<br />

n ≥ (196) 2 · max<br />

p∈[0,0.1] p(1 − p) = (196)2 · 0.1 · 0.9 = 3458<br />

�<br />

0.01 · n<br />

√<br />

npq


100 10 Allgemeine Modelle und stetige Verteilungen<br />

10 Allgemeine Modelle und stetige Verteilungen<br />

Von diesem Abschnitt an wollen wir uns nicht mehr länger auf diskrete Wahrscheinlichkeitsräume beschränken.<br />

Motiviert durch den Grenzwertsatz von de Moivre (Satz 9.2) kann man sich vorstellen, eine<br />

” Zufallsgröße X“ zu betrachten, die jede reelle Zahl als Wert annehmen kann, s.d.<br />

�b<br />

P (a ≤ X ≤ b) = ϕ(t)dt = Φ(b) − Φ(a) (10.1)<br />

für a < b und die oben schon betrachtete Funktion<br />

ϕ(t) = 1<br />

�<br />

√ exp −<br />

2π t2<br />

�<br />

.<br />

2<br />

a<br />

In diesem Fall würde man sagen, dass X Standard-Normalverteilt ist und X ∼ N(0,1) schreiben.<br />

Außerdem definiert (10.1) eine Funktion, die jedem reellen Intervall [a,b] eine ” Wahrscheinlichkeit“ zuordnet.<br />

Für Anwendungen, wie wir sie ab Abschnitt 10.3 behandeln wollen, genügt diese Vorstellung voll und<br />

ganz. Wir wollen hier aber vorher etwas Hintergrund behandeln, <strong>der</strong> vorwiegend aus Maßtheorie besteht.<br />

10.1 Allgemeine Wahrscheinlichkeitsräume und Zufallsvariablen<br />

10.1 Definition:<br />

Ein Wahrscheinlichkeitsraum ist ein Tripel (Ω, A,P), s.d. Ω eine beliebige Menge und A eine<br />

σ-Algebra auf Ω ist, d.h. ein System von Teilmengen von Ω mit den folgenden Eigenschaften:<br />

(σ1) Ω ∈ A<br />

(σ2) A ∈ A ⇒ A c ∈ A<br />

(σ3) A1,A2,... ∈ A ⇒ ∞�<br />

Ai ∈ A<br />

i=1<br />

Außerdem ist P eine auf A definierte reelle Funktion mit<br />

(A1) P (A) ≥ 0 ∀ A ∈ A<br />

(A2) P (Ω) = 1<br />

(A3) Sind A1,A2,... ∈ A paarweise disjunkt, so gilt<br />

�<br />

∞�<br />

�<br />

∞�<br />

P = P (Ai) .<br />

P heißt dann (Wahrscheinlichkeits-)Verteilung auf (Ω, A).<br />

Bemerkung 10.2:<br />

i=1<br />

Das Axiom (σ3) sorgt dafür, dass Axiom (A3) Sinn macht.<br />

Beispiel 10.3:<br />

Ai<br />

Ist Ω eine diskrete (d.h. abzählbare) Menge, so kann man A = P (Ω) (d.h. die Potenzmenge von Ω)<br />

verwenden und erhält so genau die diskreten Wahrscheinlichkeitsräume, wie wir sie bisher betrachtet<br />

haben.<br />

Beispiel 10.4:<br />

Für jede Menge Ω kann man A = {∅,Ω} betrachten. Dieser Fall ist aber nicht sehr interessant, man<br />

spricht dann auch von <strong>der</strong> trivialen σ-Algebra.<br />

Bemerkung 10.5:<br />

Aus den Axiomen (σ1) bis (σ3) folgt, dass eine σ-Algebra A gegen abzählbare mengentheoretische Operationen<br />

wie Schnitte, Komplementbildung, Differenz, Vereinigung etc. abgeschlossen ist. So gilt zum<br />

Beispiel<br />

∞�<br />

��<br />

∞�<br />

�c�c �<br />

∞�<br />

�c (1.3)<br />

A1,A2,... ∈ A ⇒ Ai =<br />

= ,<br />

und die rechte Menge ist wegen (σ2) und (σ3) wie<strong>der</strong> in A.<br />

i=1<br />

i=1<br />

i=1<br />

Ai<br />

i=1<br />

A c i


10 Allgemeine Modelle und stetige Verteilungen 101<br />

Bemerkung 10.6:<br />

Für eine Wahrscheinlichkeitsverteilung P wie in <strong>der</strong> Definition oben gelten ebenfalls alle Rechenregeln,<br />

die wir am Anfang für den diskreten Fall hergeleitet haben (d.h. Siebformel, (R1) bis (R9) usw.), da diese<br />

ja nur aus den Axiomen (A1) bis (A3) gefolgert wurden.<br />

10.7 Definition:<br />

Sei (Ω, A,P) ein Wahrscheinlichkeitsraum und � Ω ′ , A ′� eine beliebige Menge Ω ′ mit σ-Algebra A ′ auf Ω ′ .<br />

Eine Zufallsvariable X auf (Ω, A,P) ist eine Abbildung X : Ω ��<br />

′ Ω s.d.<br />

gilt.<br />

Bemerkung 10.8:<br />

Allgemeine Abbildungen X : (Ω, A)<br />

10.9 Definition:<br />

X −1 (A) = {x ∈ Ω | X(x) ∈ A ′ } ∈ A ∀ A ′ ∈ A ′<br />

(10.2)<br />

��<br />

� Ω ′ , A ′� mit <strong>der</strong> Eigenschaft (10.2) nennt man auch meßbar.<br />

Sei (Ω, A,P) ein Wahrscheinlichkeitsraum und � Ω ′ , A ′� eine beliebige Menge Ω ′ mit σ-Algebra A ′ auf Ω ′ .<br />

Eine Zufallsvariable X auf (Ω, A,P) definiert durch<br />

P X (A ′ ) := P � X −1 (A ′ ) � , A ′ ∈ A ′<br />

eine Wahrscheinlichkeitsverteilung P X auf � Ω ′ , A ′� , d.h. wir erhalten einen weiteren Wahrscheinlichkeitsraum<br />

� Ω ′ , A ′ ,P X� . Wir nennen P X auch Verteilung von X.<br />

Formal müssten wir hier jetzt die Axiome (A1) bis (A3) für P X nachrechen. Das gleicht aber wörtlich<br />

dem diskreten Fall, <strong>der</strong> nach Definition 4.5 gezeigt wurde.<br />

Bemerkung 10.10:<br />

Wie im diskreten Fall auch schreibt man auch<br />

P (X ∈ A ′ ) := P � X −1 (A ′ ) � , A ′ ∈ A ′ .<br />

Man kann sich nun fragen, wozu das Mengensystem A eigentlich notwendig ist. Warum kann man nicht<br />

immer einfach mit A = P (Ω) - also <strong>der</strong> Potenzmenge - wie im diskreten Fall arbeiten? Das folgende<br />

Beispiel liefert eine Begründung:<br />

Beispiel 10.11:<br />

Es gibt keine Wahrscheinlichkeitsverteilung auf allen Teilmengen von Ω = [0,1[ mit folgen<strong>der</strong> Eigenschaft:<br />

Ist A ⊂ [0,1[ und x ∈ [0,1[ so, dass A + x := {a + x | a ∈ A} ⊂ [0,1[ ist,<br />

so gilt stets P (A) = P (A + x).<br />

Wir wollen also zeigen, dass es keine verschiebungsinvariante Wahrscheinlichkeitsverteilung auf P ([0,1[)<br />

geben kann, wie es z.B. von einer Normalverteilung“ zu erwarten wäre.<br />

”<br />

Dazu betrachten wir eine spezielle Menge A0 ⊂ � 0, 1<br />

�<br />

2 (auch Vitali-Menge genannt), die wir wie folgt<br />

konstruieren: Betrachte die Äquivalenzrelaztion<br />

auf [0,1[. Diese zerlegt [0,1[ in Äquivalenzklassen<br />

x ∼ y :⇔ |x − y| ∈ Q<br />

[x] := {y | |x − y| ∈ Q} , x ∈ [0,1[ .<br />

Gemäß dem Auswahlaxiom wähle aus je<strong>der</strong> Klasse [x] einen Vertreter z [x] ∈ � 0, 1<br />

�<br />

2 und definiere A0 als<br />

die Vereinigung all dieser Punkte. Man kann nun zeigen, dass eine Verteilung P auf P ([0,1[) sowohl<br />

als auch<br />

erfüllen müsste - ein Wi<strong>der</strong>spruch!<br />

P (A0) = 0<br />

P (A0) > 0<br />

Der einzige Ausweg ist also, P nur für bestimmte Teilmengen zu definieren, was uns zum obigen Begriff<br />

<strong>der</strong> σ-Algebra führt.<br />

Ohne Beweis wollen wir folgendes Resultat angeben:<br />

Bemerkung 10.12 (Satz von Banach-Kuratowski):<br />

Auf (R, P (R)) gibt es nur diskrete Wahrscheinlichkeitsverteilungen.


102 10 Allgemeine Modelle und stetige Verteilungen<br />

10.2 W-Verteilungen auf R, reelle Zufallsvariablen, Verteilungsfunktionen<br />

Um Wahrscheinlichkeitsverteilungen ” auf R“ zu betrachten, benötigen wir zunächst eine σ-Algebra. Wir<br />

betrachten die folgende<br />

10.13 Definition:<br />

Die Borel’sche σ-Algebra B auf R ist die kleinste σ-Algebra, die alle offenen Mengen enthält.<br />

Man beachte folgenden Satz aus <strong>der</strong> Maßtheorie:<br />

10.14 Satz (ohne Beweis):<br />

Die folgenden For<strong>der</strong>ungen an eine σ-Algebra auf R sind äquivalent:<br />

(1) Es handelt sich um die kleinste σ-Algebra, die alle offenen Mengen enthält.<br />

(2) Es handelt sich um die kleinste σ-Algebra, die alle Intervalle <strong>der</strong> Form [a,b] mit a < b enthält.<br />

(3) Es handelt sich um die kleinste σ-Algebra, die alle Intervalle <strong>der</strong> Form [a,b[ mit a < b enthält.<br />

(4) Es handelt sich um die kleinste σ-Algebra, die alle Intervalle <strong>der</strong> Form (−∞,b] mit b ∈ R enthält.<br />

Bemerkung 10.15:<br />

Die Borel’sche σ-Algebra B enthält im Wesentlichen alle Teilmengen von R, die einem in <strong>der</strong> Praxis<br />

begegnen. Allerdings enthält sie nicht alle Teilmengen von R, die Vitali-Menge A0 von oben ist nicht in<br />

B enthalten.<br />

10.16 Definition:<br />

Sei (Ω, A,P) ein Wahrscheinlichkeitsraum. Eine reelle Zufallsvariable X auf (Ω, A,P) ist eine meßbare<br />

Abbildung<br />

(Ω, A,P) X ��<br />

(R, B) .<br />

Beispiel 10.17:<br />

Ein bekannter Satz aus <strong>der</strong> Maßtheorie sagt zum Beispiel, dass jede stetige Abbildung X : R<br />

eine reelle Zufallsvariable<br />

X : (R, B,P) ��<br />

(R, B)<br />

ist.<br />

��<br />

R auch<br />

Wie oben schon gesehen, liefert X als reelle Zufallsvariable dann eine Wahrscheinlichkeitsverteilung auf R.<br />

Das meint hier dann natürlich auf (R, B). Solche Verteilungen kann man mittels Funktionen beschreiben:<br />

10.18 Definition:<br />

Eine Funktion F : R<br />

��<br />

[0,1] heißt Verteilungsfunktion, wenn<br />

(1) F monoton wachsend ist (nicht notwendiger Weise streng monoton wachsend),<br />

(2) es gilt<br />

(3) F ist rechtsstetig, d.h. für alle x ∈ R gilt<br />

Beispiel 10.19:<br />

Der folgende Graph definiert eine Verteilungsfunktion:<br />

lim F(x) = 0 und lim F(x) = 1 und<br />

x→−∞ x→∞<br />

−1<br />

F(x) = lim<br />

yցx F(y).<br />

1<br />

0 1<br />

Abbildung 17: Beispiel einer Verteilungsfunktion.<br />

t


10.20 Satz:<br />

10 Allgemeine Modelle und stetige Verteilungen 103<br />

Sei P eine Verteilung auf R. Dann ist<br />

eine Verteilungsfunktion.<br />

Beweis:<br />

Nutze aus §1 die Rechenregeln (R8) und (R9):<br />

A1 ⊃ A2 ⊃ ... ⇒ P<br />

A1 ⊂ A2 ⊂ ... ⇒ P<br />

F(x) := P ((−∞,x])<br />

� ∞�<br />

i=1<br />

� ∞�<br />

i=1<br />

Ai<br />

Ai<br />

�<br />

�<br />

= lim<br />

i→∞ P (Ai) (10.3)<br />

= lim<br />

i→∞ P (Ai) (10.4)<br />

Da P als Wahrscheinlichkeitsverteilung monoton ist (A ⊂ B ⇒ P (A) ≤ P (B)), ist auch F monoton<br />

wachsend. Außerdem folgt für An := (−∞,n]<br />

und genauso<br />

�<br />

−∞�<br />

�<br />

(10.3)<br />

lim F (x) = lim F(n) = lim P (An) = P An = P (∅) = 0<br />

x→−∞ n→−∞ n→−∞<br />

n=−1<br />

�<br />

∞�<br />

�<br />

(10.4)<br />

lim F(x) = P (−∞,n] = P (R) = 1.<br />

x→∞<br />

n=1<br />

Bleibt die Rechtsstetigkeit von F zu zeigen. Sei dazu (xn) n∈N eine Folge aus R, die gegen x ∈ R konvergiert<br />

und xn ≥ x ∀ n ∈ N erfüllt. Ohne Einschränkung können wir xn+1 ≤ xn für alle n ∈ N annehmen, denn<br />

an<strong>der</strong>nfalls wählen wir eine Teilfolge mit dieser Eigenschaft aus. Dann gilt<br />

und daher folgt<br />

Das zeigt die Behauptung.<br />

Bemerkung 10.21:<br />

∞�<br />

(−∞,xn] = (−∞,x]<br />

n=1<br />

lim<br />

n→∞ F (xn)<br />

(10.3)<br />

= lim P ((−∞,xn]) = P ((−∞,x]) = F(x).<br />

n→∞<br />

Insbeson<strong>der</strong>e gilt also: Ist X eine reelle Zufallsvariable, so ist<br />

die Verteilungsfunktion <strong>der</strong> Verteilung von X.<br />

FX(x) := P (X ≤ x) = P X ((−∞,x])<br />

Für diskrete Zufallsvariablen, die nur die Werte x1,x2,... annehmen, ist<br />

FX(x) =<br />

∞�<br />

P (X = xi) = P (X ≤ x) .<br />

i=1<br />

x i ≤x<br />

Im Folgenden sehen wir etwa den Graphen von FX für eine Zufallsvariable X ∼ B � 2, 1<br />

�<br />

, denn es gilt<br />

P (X = 0) = 1<br />

4<br />

, P (X = 1) = 1<br />

2<br />

, P (X = 2) = 1<br />

4 :<br />

1<br />

�<br />

�<br />

0 1 2 3<br />

Abbildung 18: Der Graph <strong>der</strong> Verteilungsfunktion FX für X ∼ B � 2, 1<br />

�<br />

2 .<br />

Wir zitieren nun folgenden Satz aus <strong>der</strong> Maßtheorie:<br />

�<br />

2


104 10 Allgemeine Modelle und stetige Verteilungen<br />

10.22 Satz (Umkehrung):<br />

Ist F eine Verteilungsfunktion, so gibt es genau eine Verteilung P auf R (d.h. auf (R, B)), s.d.<br />

gilt. Damit gilt dann auch<br />

für alle a < b ∈ R.<br />

Bemerkung 10.23:<br />

P ((−∞,x]) = F(x) ∀ x ∈ R<br />

P ((−∞,b]) − P ((−∞,a]) = ((a,b]) = F (b) − F (a)<br />

Die Sätze 10.20 und 10.22 zeigen, dass es eine Bijektion zwischen <strong>der</strong> Menge aller Verteilungsfunktionen<br />

und <strong>der</strong> Menge aller Verteilungen auf R gibt. Die Abbildung F ↦→ P wird dabei durch Satz 10.22 geliefert.<br />

Sie ist nach Satz 10.20 surjektiv, und wie wir nun sehen werden auch injektiv:<br />

Sind F1,F2 zwei Verteilungsfunktionen mit F1 �= F2, so gibt es ein x ∈ R mit F1(x) �= F2(x). Entsprechend<br />

erfüllen dann die zugehörigen Verteilungen P1 und P2<br />

womit die Verteilungen nicht gleich sein können.<br />

10.3 Stetige Verteilungen<br />

10.24 Definition:<br />

10.25 Satz:<br />

Eine Dichte ist eine integrierbare Funktion f : R<br />

dass<br />

P1 ((−∞,x]) = F1(x) �= F2(x) = P2 ((−∞,x]),<br />

�∞<br />

−∞<br />

Beachte, das ” integrierbar“ hier ” Riemann-integrierbar“ heißt.<br />

��R<br />

mit f(t) ≥ 0 für alle t ∈ R und <strong>der</strong> Eigenschaft,<br />

f(t)dt = 1. (10.5)<br />

Wir wollen in dieser Vorlesung nur Dichten betrachten, die stetig bis auf<br />

höchstens endlich viele Sprungstellen sind!!<br />

Zu je<strong>der</strong> Dichte f gibt es genau eine Verteilung P auf R mit<br />

für a < b ∈ R.<br />

Beweis:<br />

Setze<br />

P (]a,b]) =<br />

F(x) :=<br />

�x<br />

−∞<br />

�b<br />

a<br />

f(t)dt<br />

f(t)dt.<br />

Da f nur endlich viele Sprungstellen hat, wissen wir bereits aus <strong>der</strong> Analysis I, dass F stetig ist. Außerdem<br />

folgt wegen <strong>der</strong> Positivität von f, dass F monoton wachsend ist. Wegen (10.5) ist lim F(x) = 1. Das<br />

x→∞<br />

lim F(x) = 0 gilt ist klar.<br />

x→−∞<br />

Nach Satz 10.22 gibt es genau eine Verteilung P auf R (das meint natürlich wie<strong>der</strong> auf (R, B)) mit <strong>der</strong><br />

Eigenschaft wie in <strong>der</strong> Behauptung.<br />

10.26 Definition:<br />

Wahrscheinlichkeitsverteilungen auf R, für die es eine Dichte f mit<br />

P (]a,b]) =<br />

für alle a < b gibt, nennt man stetige Verteilungen.<br />

�b<br />

a<br />

f(t)dt


10 Allgemeine Modelle und stetige Verteilungen 105<br />

10.27 Definition:<br />

Eine reelle Zufallsvariable X heißt stetig verteilt, wenn die Verteilung P X von X eine Dichte hat, d.h.<br />

wenn<br />

�b<br />

P (a ≤ X ≤ b) = f(t)dt<br />

für eine geeignete Dichte f gilt.<br />

Bemerkung 10.28:<br />

Ist P eine stetige Verteilung, so gilt<br />

für alle x ∈ R.<br />

Beweis:<br />

Es gilt<br />

a<br />

P ({x}) = 0<br />

P ({x}) (10.3)<br />

= lim<br />

n→∞ P<br />

��<br />

x − 1<br />

n ,x<br />

��<br />

= lim<br />

n→∞<br />

�x<br />

x− 1<br />

n<br />

f(t)dt = 0<br />

nach unserer Annahme, dass f stetig bis auf höchstens endlich viele Sprungstellen ist.<br />

Folgerung 10.29:<br />

Insbeson<strong>der</strong>e gilt für stetige Verteilungen also<br />

usw..<br />

P ([a,b]) = P (]a,b])<br />

Ab jetzt betrachten wir nur noch Zufallsvariablen mit stetigen Verteilungen, d.h. solche, für die es eine<br />

Dichte f mit<br />

�b<br />

P (a ≤ X ≤ b) = f(t)dt<br />

gibt.<br />

10.4 Zufallsvariablen mit stetiger Verteilung<br />

In diesem Abschnitt wollen wir einige stetige Verteilungen vorstellen und einen Überblick <strong>der</strong> Eigenschaften<br />

geben:<br />

10.4.1 Die Gleichverteilung<br />

Die Dichte <strong>der</strong> Gleichverteilung auf dem Einheitsintervall [0,1] ist gegeben durch<br />

�<br />

1<br />

f (t) = 1 [0,1](t) =<br />

0<br />

falls t ∈ [0,1]<br />

falls t /∈ [0,1]<br />

, t ∈ R.<br />

Ist eine Zufallsvariable X gleichverteilt auf [0,1], so schreiben wir auch<br />

a<br />

X ∼ U (0,1) .<br />

Die zugehörige Verteilungsfunktion ist<br />

⎧<br />

⎪⎨ 0 falls x ≤ 0<br />

F (x) = P (X ≤ x) = x falls 0 ≤ x ≤ 1<br />

⎪⎩<br />

1 falls x ≥ 1<br />

Den Graph dieser Funktion haben wir schon als Abbildung 17 gesehen.<br />

Allgemeiner:<br />

Die Gleichverteilung auf einem reellen Intervall [r,s] ist gegeben durch die Dichte<br />

f(t) = 1<br />

s − r 1 [r,s](t).<br />

Ist X eine gleichverteilte Zufallsvariable auf [r,s], so schreiben wir auch<br />

X ∼ U (r,s) .<br />

.


106 10 Allgemeine Modelle und stetige Verteilungen<br />

10.4.2 Die Normalverteilung<br />

Die Dichte <strong>der</strong> Normalverteilung N � µ,σ 2� mit µ ∈ R, σ 2 ∈ (0, ∞) ist gegeben als<br />

ϕ µ,σ 2(t) = f(t) :=<br />

1<br />

√<br />

2πσ2 exp<br />

�<br />

(x − µ)2<br />

−<br />

2σ2 �<br />

.<br />

Wir kennen schon den Spezialfall µ = 0,σ 2 = 1 <strong>der</strong> Standard-Normalverteilung. Wir werden später noch<br />

sehen, dass für eine Zufallsvariable X ∼ N � µ,σ 2� die Zahl µ <strong>der</strong> Erwartungswert und σ 2 die Varianz ist.<br />

Solche Zufallsvariablen X ∼ N � µ,σ 2� verwendet man etwa dann, wenn X eine ungenaue Messung mit<br />

Erwartungswert (bekannt z.B. aus <strong>der</strong> Theorie) µ ist. Insbeson<strong>der</strong>e simuliert man damit eine Verteilung<br />

natürlicher Messgrößen.<br />

Die Verteilungsfunktion<br />

Φ(x) =<br />

�x<br />

−∞<br />

ϕ0,1(t)dt<br />

<strong>der</strong> Standard-Normalverteilung ist tabelliert. Mit Hilfe dieser Tabelle kann man aber auch<br />

�x<br />

−∞<br />

ϕ µ,σ 2 (t) dt,<br />

also die Verteilungsfunktion einer beliebigen Normalverteilung, berechnen, wie wir in Bemerkung 10.36<br />

sehen werden.<br />

Außerdem zeigen wir in Beispiel 10.35, dass<br />

gilt.<br />

10.4.3 Die Exponentialverteilung<br />

X ∼ N (0,1) ,µ ∈ R,σ ∈ (0, ∞) ⇒ Y = σX + µ ∼ N (µ,σ)<br />

Setze für einen reellen Parameter λ > 0 die Dichte <strong>der</strong> Exponentialverteilung als<br />

f(t) :=<br />

fest. Diese Funktion sieht für λ = 2 wie folgt aus:<br />

� λ exp (−λt) falls t ≥ 0<br />

−1<br />

0 falls t < 0<br />

1<br />

0 1<br />

Abbildung 19: Die Funktion f(t) für λ = 2.<br />

Wir nennen f die Dichte <strong>der</strong> Exponentialverteilung Exp(λ) auf R. Die zugehörige Verteilungsfunktion<br />

ist<br />

�<br />

1 − exp(−λx)<br />

F(x) =<br />

0<br />

falls x > 0<br />

falls x ≤ 0 .<br />

Insbeson<strong>der</strong>e gilt für eine Zufallsvariable X ∼ Exp(λ) und 0 ≤ a < b:<br />

P (a ≤ X ≤ b) = F (b) − F (a) = (1 − exp (−λb)) − (1 − exp (−λa)) = exp (−λb) − exp (−λa) .<br />

Man verwendet Zufallsvariablen X ∼ Exp(λ) z.B.<br />

• zur Simulation <strong>der</strong> Lebensdauer von Geräten / technischen Bauteilen, falls sie ” gebraucht wie neu“<br />

sind (wir sehen gleich, welche Bedeutung das hat).<br />

• zur Simulation von Längen von Zeitintervallen bei Serveranfragen, Anrufen in einem Call-Center<br />

o<strong>der</strong> radiaoktiven Zerfallsprozessen.<br />

t


10 Allgemeine Modelle und stetige Verteilungen 107<br />

• zur Simulation von Bedienzeiten an Schaltern.<br />

Für X ∼ Exp (λ) ist ein Leichtes, mit Hilfe <strong>der</strong> Verteilungsfunktion die ” Überlebensdauer“ zu berechnen:<br />

P (X > x) = 1 − P (X ≤ x) = 1 − F(x) = exp (−λx) .<br />

Wir sehen sofort, dass die Überlebensdauer also exponentiell schnell fällt!<br />

Jetzt wollen wir uns dem Ausspruch ” gebraucht wie neu“ bzw. <strong>der</strong> Gedächtnislosigkeit dieser Verteilung<br />

widmen. Für x,t ≥ 0 gilt<br />

P (X > t + x | X > t) =<br />

= P (X > t + x)<br />

= exp (−λ (t + x))<br />

P (X > t + x und X > t)<br />

P (X > t)<br />

P (X > t)<br />

exp (−λt)<br />

= exp(−λx)<br />

= P (X > x).<br />

Simuliert man also die Lebensdauer eines Geräts mit <strong>der</strong> Exponentialverteilung, so hat ein gebraucht<br />

gekauftes Gerät die selbe Qualität wie ein Neues!<br />

10.4.4 Die Pareto-Verteilung<br />

Man betrachtet für einen Parameter α > 0 die Dichte<br />

�<br />

α<br />

f(t) = (t+1) α+1 falls t ≥ 0<br />

0 falls t < 0 .<br />

Der Graph von f stellt sich wie folgt dar:<br />

−1<br />

3<br />

2<br />

1<br />

0 1<br />

Abbildung 20: Die Funktion f(t) für α = 4.<br />

Zunächst ähnelt diese Funktion <strong>der</strong> Dichte <strong>der</strong> Exponentialverteilung, aber wir sehen im Gegensatz, dass<br />

hier nur polynomielles Abfallverhalten vorliegt!<br />

Diese Dichte f definiert uns die Pareto-Verteilung. Für eine paretoverteilte Zufallsvariable X mit<br />

Parameter α > 0 schreiben wir auch X ∼ Pareto(α).<br />

Man modelliert mit <strong>der</strong> Pareto-Verteilung etwa Dateigrößen in Byte in Datenbanken o<strong>der</strong> auf Servern.<br />

Allgemeiner modelliert man mit Ihr Verteilungen, bei denen große Werte selten, aber nicht so selten wie<br />

bei Exp (λ) sind.<br />

Heutzutage wird die Pareto-Verteilung auch oft verwendet, wo früher die Exponentialverteilung verwendet<br />

wurde.<br />

t


108 10 Allgemeine Modelle und stetige Verteilungen<br />

10.4.5 Die Cauchy-Verteilung<br />

Betrachte die Dichte<br />

Diese hat den Graphen<br />

−2<br />

f(t) :=<br />

−1<br />

1<br />

π (1 + t 2 ) .<br />

0 1<br />

Abbildung 21: Die Funktion f(t) für λ = 2.<br />

und definiert uns die Cauchy-Verteilung. Wir werden in Beispiel 10.41 noch sehen, dass diese Verteilung<br />

keinen Erwartungswert besitzt.<br />

10.4.6 Die Gamma-Verteilung<br />

Zunächst benötigen wir die<br />

10.30 Definition (Gamma-Funktion):<br />

10.31 Satz:<br />

Sei x ∈ (0, ∞). Dann definiert man die Gamma-Funktion Γ durch<br />

�∞<br />

Γ(x) = t x−1 exp(−t) dt.<br />

0<br />

Wir wissen bereits aus <strong>der</strong> Analysis I, dass dieses Integal konvergiert und eine beliebig oft differenzierbare<br />

Funktion definiert. Außerdem erfüllt sie bekanntlich die Funktionalgleichung<br />

Γ(x + 1) = xΓ(x) ∀ x ∈ (0, ∞) ,<br />

was auch Γ(n) = (n − 1)! mit n ∈ N zeigt. Zuletzt sollte noch erwähnt werden, dass<br />

Γ<br />

� �<br />

1<br />

=<br />

2<br />

1<br />

2<br />

�<br />

0<br />

∞<br />

exp � x 2� dx = √ π.<br />

Nun definieren wir die Gamma-Verteilung Gamma (r,λ) für reelle Parameter r,λ > 0 durch die Dichte<br />

� r<br />

λ<br />

Γ(r) f(t) =<br />

tr−1 exp (−λt) falls t > 0<br />

0 falls t ≤ 0 .<br />

Zunächst betrachten wir einige Spezialfälle:<br />

(1) (a) Sei r = 1. Dann erhalten wir offenbar genau die Exponentialverteilung mit Parameter λ, da<br />

die Dichten übereinstimmen.<br />

(b) Sei r ∈ N. Man kann zeigen, dass dann Gamma (r,λ) genau die Verteilung von X1 + ... + Xr<br />

i.i.d.<br />

für Zufallsvariablen X1,...,Xr ∼ Exp (λ) ist (vergleiche eines <strong>der</strong> Übungsblätter).<br />

(2) (a) Gamma � �<br />

1 1<br />

2<br />

2 , 2 ist genau die Verteilung von X für X ∼ N (0,1), wie wir in Beispiel 10.32<br />

sehen werden.<br />

(b) Gamma � �<br />

n 1<br />

2<br />

2 , 2 für n ∈ N ist genau die Verteilung von X1+...+X 2 i.i.d.<br />

n, falls X1,...,Xn ∼ N (0,1)<br />

gilt.<br />

Diese Verteilung ist in <strong>der</strong> Statistik wichtig, sie wird auch Chi-Quadrat-Verteilung mit n<br />

Freiheitsgraden genannt und als χ 2 n bezeichnet.<br />

10.5 Berechnung und Transformation von Dichten<br />

Sei F eine stetige Verteilungsfunktion, die bis auf endlich viele Punkte c1,...,ck stetig differenzierbar ist.<br />

Sei C = {c1,...,ck}. Dann definiert<br />

�<br />

′ F (t) falls t ∈ C<br />

f (t) :=<br />

0 falls t /∈ C<br />

eine Dichte für die durch F definierte Verteilung auf R.<br />

t


10 Allgemeine Modelle und stetige Verteilungen 109<br />

Beweis:<br />

Mit Satz 10.25 genügt es offenbar zu zeigen, dass f eine Dichte ist (denn das f dann die Verteilungsfunktion<br />

F erzeugt, ist mit etwas Analysis I und <strong>der</strong> Stetigkeit von F klar).<br />

Da F eine Verteilungsfunktion ist, ist F monoton wachsend und daher F ′ ≥ 0, wo F ′ existiert. Daher ist<br />

auch f ≥ 0.<br />

Setze nun c0 := −∞ und ck+1 := +∞. Nach Umnummerierung nehmen wir ohne Einschränkung<br />

c0 < c1 < ... < ck < ck+1<br />

an. Dann gilt (mit F(−∞) = 0 und F(∞) = 1) für i = 0,...,k die Relation<br />

�<br />

ci+1<br />

ci<br />

�b<br />

f(t)dt = lim<br />

aցci,bրci+1<br />

da F stetig ist. Das zeigt<br />

�∞<br />

−∞<br />

f(t)dt =<br />

k�<br />

�<br />

ci+1<br />

i=0<br />

ci<br />

a<br />

f(t)dt = lim (F(b) − F(a)) = F(ci+1) − F(ci), (10.6)<br />

aցci,bրci+1<br />

f(t)dt (10.6)<br />

=<br />

k�<br />

(F(ci+1) − F(ci)) = F (∞) − F (−∞) = 1.<br />

i=0<br />

Also ist f eine Dichte und es folgt die Behauptung.<br />

Beispiel 10.32 (Anwendung):<br />

Sei X ∼ N (0,1) und Y := X2 . Dann ist Y ∼ χ2 1 = Gamma � �<br />

1 1<br />

2 , 2 .<br />

Beweis:<br />

Sei FY die Verteilungsfunktion <strong>der</strong> Verteilung von Y . Da Y ≥ 0 ist, muss auch FY (x) = P (Y ≤ x) = 0<br />

für x < 0 gelten. Falls x ≥ 0, so haben wir<br />

FY (x) = P (Y ≤ x)<br />

= P � 0 ≤ X 2 ≤ x �<br />

= P � − √ x ≤ X ≤ √ x �<br />

= Φ �√ x � − Φ � − √ x �<br />

= 2Φ �√ x � − 1,<br />

wobei Φ die Verteilungsfunktion <strong>der</strong> Standard-Normalverteilung ist.<br />

Wegen (Φ( √ x)) ′ = ϕ( √ x) 1<br />

2 √ x ist FY an allen Punkten x �= 0 stetig differenzierbar und mit Satz 10.31<br />

folgt, dass die Dichte von Y gegeben ist durch<br />

�<br />

′ F Y (x)<br />

fY (x) =<br />

0<br />

falls x > 0<br />

falls x ≤ 0 =<br />

�<br />

2(Φ( √ x)) ′<br />

0<br />

falls x > 0<br />

falls x ≤ 0 =<br />

Wegen Γ � �<br />

1 √<br />

2 = π ist <strong>der</strong> Faktor<br />

und es folgt die Behauptung.<br />

1<br />

√ 2π =<br />

� � 1<br />

1 2<br />

2<br />

Γ � 1<br />

2<br />

Für die folgende Transformation brauchen wir erst folgende<br />

10.33 Definition:<br />

Seien I,J ⊂ R zwei Intervalle. Ein Diffeomorphismus u : I<br />

und u−1 stetig differenzierbar sind.<br />

Dann gilt <strong>der</strong> folgende<br />

10.34 Satz (Transformationsformel für Dichten):<br />

�<br />

� 1<br />

√2πx exp � − x<br />

�<br />

2 falls x �= 0<br />

0 falls x = 0 .<br />

��<br />

J ist eine bijektive Abbildung, s.d. u<br />

Sei X eine stetig verteilte Zufallsvariable mit Dichte fX und Werten in einem offenen Intervall I ⊂ R.<br />

Sei außerdem u : I ��<br />

J ein Diffeomorphismus. Dann hat Y := u (X) auf J die Dichte<br />

� � �<br />

−1 �<br />

u (y) · � � u −1� �<br />

′ �<br />

(y) � .<br />

fY (y) = fX


110 10 Allgemeine Modelle und stetige Verteilungen<br />

Beweis:<br />

Zunächst können wir ohne Einschränkung annehmen, dass u streng monoton steigend ist (da u ein Diffeomorphismus<br />

ist, muss u streng monoton sein). Dann wollen wir die Substitutionsregel<br />

�b<br />

a<br />

f(x)dx =<br />

�<br />

g −1 (b)<br />

g −1 (a)<br />

(f ◦ g)(y) · g ′ (y) dy<br />

für den Diffeomorphismus g = u −1 anwenden. Damit folgt<br />

P (a ≤ Y ≤ b) = P � u −1 (a) ≤ X ≤ u −1 (b) �<br />

da u nach Annahme streng monoton steigend ist.<br />

Beispiel 10.35 (Anwendung):<br />

=<br />

=<br />

u −1 � (b)<br />

u −1 (a)<br />

�b<br />

a<br />

fX<br />

fX (x) dx<br />

� � � −1 −1<br />

u (y) u � ′<br />

(y)<br />

� �� �<br />

=|(u−1 ) ′ dy<br />

(y)|<br />

Sei X ∼ N (0,1) und Y := σX + µ mit µ,σ ∈ R und σ > 0. Dann ist Y ∼ N � µ,σ 2� .<br />

Beweis:<br />

Wir setzen<br />

u (x) := σx + µ.<br />

Bei dieser Abbildung handelt es sich offenbar um einen Diffeomorphismus mit<br />

u −1 (y) =<br />

y − µ<br />

σ<br />

und � u −1� ′ (y) = 1<br />

σ .<br />

Mit Satz 10.34 folgt für die Dichte fY von Y und fX von X, dass<br />

� �<br />

y − µ<br />

fY (y) = fX ·<br />

σ<br />

1<br />

�<br />

1 (y − µ)2<br />

= √ exp −<br />

σ 2π 2σ2 �<br />

· 1<br />

σ =<br />

1<br />

√<br />

2πσ2 exp<br />

�<br />

(y − µ)2<br />

−<br />

2σ2 �<br />

,<br />

was genau <strong>der</strong> Dichte zu N � µ,σ 2� entspricht.<br />

Alternativ kann man diese Aussage auch mit Hilfe von Satz 10.31 beweisen:<br />

Beweis (alternativ):<br />

Es ist<br />

FY (y) = P (Y ≤ y) = P (σX + µ ≤ y) = P<br />

�<br />

X ≤<br />

�<br />

y − µ<br />

= Φ<br />

σ<br />

� �<br />

y − µ<br />

für die Verteilungsfunktion Φ <strong>der</strong> Standard-Normalverteilung. Mit Satz 10.31 ist dann<br />

� � �� ′<br />

y − µ<br />

fY (y) = Φ =<br />

σ<br />

1<br />

σ Φ′<br />

� �<br />

y − µ<br />

=<br />

σ<br />

1<br />

σ ϕ<br />

� �<br />

y − µ<br />

σ<br />

für die Dichte ϕ <strong>der</strong> Standard-Normalverteilung - und das ist genau die Dichte zu N � µ,σ 2� .<br />

Bemerkung 10.36:<br />

Ganz analog können wir nun zeigen, wie man die Verteilungsfunktion zu N � µ,σ 2� aus den Tabellen für<br />

Φ (<strong>der</strong> Verteilungsfunktion von N (0,1)) berechnet:<br />

Ist Y ∼ N � µ,σ 2� für µ,σ ∈ R, σ > 0, so folgt wie in Beispiel 10.35, dass<br />

gilt. Damit ist dann aber<br />

- und das ist tabelliert!<br />

X := 1<br />

(Y − µ) ∼ N (0,1)<br />

σ<br />

P (Y ≤ y) = P (σX + µ ≤ y) = P<br />

�<br />

X ≤<br />

�<br />

y − µ<br />

= Φ<br />

σ<br />

σ<br />

� �<br />

y − µ<br />

σ


10 Allgemeine Modelle und stetige Verteilungen 111<br />

10.6 Erwartungswert und Varianz<br />

10.37 Definition:<br />

Sei X eine stetig verteilte Zufallsvariable mit Dichte f. Der Erwartungswert von X existiert, falls<br />

In diesem Fall definiert man<br />

�∞<br />

−∞<br />

E (X) :=<br />

|x|f(x)dx < ∞.<br />

�∞<br />

−∞<br />

xf(x)dx.<br />

Wir sehen hier schon die Analogie zum diskreten Fall: Die Summe in (5.2) wird durch ein Integral ersetzt,<br />

und die Einzelwahrscheinlichkeiten P werden durch die Dichte f ersetzt.<br />

Bemerkung 10.38:<br />

Ist X wie in <strong>der</strong> Definition und X ≥ 0, so kann man stets<br />

E (X) :=<br />

�∞<br />

−∞<br />

setzen und entsprechend einfach ∞ als Wert zulassen.<br />

Beispiel 10.39:<br />

Sei X ∼ U (r,s). Dann ist<br />

Beispiel 10.40:<br />

Sei X ∼ N (0,1). Dann ist<br />

E (X) =<br />

Beispiel 10.41:<br />

�∞<br />

−∞<br />

E (X) =<br />

�s<br />

r<br />

xϕ(x)dx = 1<br />

√ 2π<br />

xf(x)dx<br />

x 1 1 1<br />

dx =<br />

s − r s − r 2 x2�� s<br />

r<br />

�∞<br />

−∞<br />

1 s<br />

=<br />

2<br />

2 − r2 s + r<br />

=<br />

s − r 2 .<br />

�<br />

xexp − x2<br />

�<br />

dx =<br />

2<br />

1<br />

�<br />

√ exp −<br />

2π x2<br />

�<br />

�� ∞<br />

= 0.<br />

2 −∞<br />

Sei X eine Cauchy-verteilte Zufallsvariable. Für die zugehörige Dichte f ist dann<br />

�∞<br />

−∞<br />

|x|f(x)dx =<br />

�∞<br />

−∞<br />

Daher hat X keinen Erwartungswert!<br />

|x|<br />

π (1 + x2 1<br />

dx =<br />

) π<br />

�∞<br />

0<br />

2x 1<br />

dx =<br />

1 + x2 π lim<br />

R→∞<br />

�<br />

ln � 1 + x 2� � � R<br />

0<br />

�<br />

= ∞.


112 10 Allgemeine Modelle und stetige Verteilungen<br />

Beispiel 10.42:<br />

Sei X ∼ Exp (λ). Dann ist<br />

Beispiel 10.43:<br />

E (X) =<br />

�<br />

0<br />

∞<br />

0<br />

tλ exp (−λt) dt<br />

�∞<br />

= λ t exp (−λt) dt<br />

partielle Integration<br />

= λ<br />

=<br />

�<br />

0<br />

∞<br />

⎛<br />

⎝ t<br />

−λ exp(−λt)� �∞ 1<br />

−<br />

0 −λ<br />

exp (−λt) dt<br />

= − 1<br />

λ exp (−λt)�� ∞<br />

0<br />

=<br />

1<br />

λ .<br />

�<br />

0<br />

∞<br />

⎞<br />

exp (−λt) dt⎠<br />

Sei X ∼ Pareto (α). Zunächst untersuchen wir, für welche α > 0 <strong>der</strong> Erwartungswert existiert. Bekanntlich<br />

existiert das Integral<br />

�∞<br />

1<br />

dt<br />

tβ c<br />

mit beliebigem c > 0 genau dann, wenn β > 1. Daher ist <strong>der</strong> Erwartungswert für α ≤ 1 zwangsläufig<br />

nicht existent. Für α > 1 gilt:<br />

�∞<br />

0<br />

αt<br />

α+1 dt =<br />

(t + 1)<br />

=<br />

=<br />

�∞<br />

�∞<br />

t + 1<br />

α<br />

α α+1 dt − α+1 dt<br />

(t + 1) (t + 1)<br />

0<br />

�∞<br />

α<br />

(t + 1) α dt − 1<br />

0<br />

α<br />

1 − α (t + 1)1−α�� ∞<br />

− 1<br />

0<br />

= − α<br />

− 1<br />

1 − α<br />

α α − 1<br />

= −<br />

α − 1 α − 1<br />

1<br />

=<br />

α − 1 .<br />

Da X ∼ Pareto(α) nach Definition <strong>der</strong> Dichte als nicht-negativ angenommen werden kann, haben wir<br />

also<br />

�<br />

∞<br />

E (X) =<br />

falls α ≤ 1<br />

1<br />

α−1 falls α > 1 .<br />

Aus <strong>der</strong> Maßtheorie zitieren wir ohne Beweis den folgenden<br />

10.44 Satz (Transformationsformel für den Erwartungswert - ohne Beweis):<br />

Sei X eine reelle Zufallsvariable mit Dichte f und g : R ��<br />

R eine meßbare Funktion (also z.B. stetig).<br />

Dann gilt<br />

E (g(X)) =<br />

�∞<br />

−∞<br />

0<br />

g(x) · f(x)dx, (10.7)


10 Allgemeine Modelle und stetige Verteilungen 113<br />

falls<br />

ist.<br />

Bemerkung 10.45:<br />

�∞<br />

−∞<br />

|g(x)|f(x)dx < ∞<br />

Damit folgt im Falle <strong>der</strong> Existenz zum Beispiel mit g(x) := ax + b:<br />

Beispiel 10.46:<br />

E (aX + b)<br />

(10.7)<br />

=<br />

�∞<br />

−∞<br />

= a<br />

�∞<br />

−∞<br />

= aE (X) + b<br />

(ax + b) f(x)dx<br />

xf(x)dx + b<br />

Sei X ∼ N (0,1). In Beispiel 10.35 haben wir schon gezeigt, dass dann<br />

σX + µ ∼ N � µ,σ 2�<br />

�∞<br />

−∞<br />

f(x)dx<br />

� �� �<br />

=1<br />

gilt. Ebenso haben wir in Beispiel 10.40 schon gesehen, dass E (X) = 0 gilt. Nach obiger Rechnung folgt<br />

E (σX + µ) = σE(X) + µ = µ.<br />

Daher ist µ wie schon weiter oben bemerkt <strong>der</strong> Erwartungswert einer N � µ,σ 2� -verteilten Zufallsvariablen.<br />

10.47 Definition:<br />

Sei X eine stetig verteilte reelle Zufallsvariable. Falls E<br />

�<br />

|X| k�<br />

< ∞ gilt (in dem Sinne, dass <strong>der</strong> Erwar-<br />

tungswert für nicht-negative Zufallsvariablen in [0, ∞] stets existiert), so nennen wir<br />

das k-te Moment von X.<br />

10.48 Definition:<br />

E � X k�<br />

Sei X eine stetig verteilte reelle Zufallsvariable, s.d. E (X) existiert. Dann definieren wir die Varianz<br />

von X durch<br />

�<br />

V (X) := E (X − E(X)) 2�<br />

= E � X 2� − (E (X)) 2 .<br />

Bemerkung 10.49:<br />

Sei X eine reelle Zufallsvariable mit Dichte f. Mit <strong>der</strong> Transformationsformel (Satz 10.44) ist<br />

falls existent.<br />

Beispiel 10.50:<br />

V (X) =<br />

�∞<br />

−∞<br />

⎛<br />

x 2 f(x)dx − ⎝<br />

�∞<br />

−∞<br />

⎞<br />

xf(x)dx⎠<br />

Sei X ∼ U (0,1). Wir haben in Beispiel 10.39 schon gesehen, dass dann E (X) = 1<br />

2 gilt. Nach Bemerkung<br />

10.49 haben wir also<br />

V (X) =<br />

�1<br />

0<br />

x 2 dx − 1 1 1 1<br />

= − =<br />

4 3 4 12 .<br />

2


114 10 Allgemeine Modelle und stetige Verteilungen<br />

Allgemein folgt ganz genauso<br />

Bemerkung 10.51:<br />

X ∼ U (r,s) ⇒ V (X) =<br />

Man zeigt ganz genau wie im diskreten Fall, dass<br />

gilt.<br />

Beispiel 10.52:<br />

�s<br />

1<br />

s − r<br />

r<br />

x 2 �<br />

s + r<br />

dx −<br />

2<br />

= s3 − r3 (s + r)2<br />

−<br />

3(s − r) 4<br />

= 4s2 + 4rs + 4r 2<br />

12<br />

= s2 − 2rs + r 2<br />

12<br />

= (s − r)2<br />

.<br />

12<br />

V (aX + b) = a 2 V (X)<br />

� 2<br />

− 3s2 + 6rs + 3r 2<br />

12<br />

Sei X ∼ N (0,1). In Beispiel 10.40 haben wir gesehen, dass E(X) = 0 gilt. Bemerkung 10.49 liefert also<br />

V (X) =<br />

=<br />

partielle Integration<br />

=<br />

=<br />

�∞<br />

−∞<br />

= 1<br />

1<br />

√ 2π<br />

1<br />

√ 2π<br />

1<br />

√ 2π<br />

Mit <strong>der</strong> Regel aus Bemerkung 10.51 zeigt das<br />

�<br />

2 1<br />

x √ exp −<br />

2π x2<br />

�<br />

dx<br />

2<br />

�∞<br />

−∞<br />

� �<br />

x · xexp − x2<br />

��<br />

2<br />

� �� �<br />

⎛<br />

�<br />

⎝ −xexp<br />

�∞<br />

−∞<br />

� �<br />

= exp − x2<br />

�� ′<br />

2<br />

dx<br />

�<br />

− x2<br />

��<br />

�� ∞<br />

2 −∞ +<br />

�<br />

exp − x2<br />

�<br />

dx<br />

2<br />

Y ∼ N � µ,σ 2� ⇒ V (Y ) = σ 2 ,<br />

da für X ∼ N (0,1) mit Beispiel 10.35 σX + µ ∼ N � µ,σ 2� gilt.<br />

10.7 Mehrdimensionale stetige Verteilungen<br />

�∞<br />

−∞<br />

�<br />

exp − x2<br />

�<br />

2<br />

⎞<br />

dx⎠<br />

Zunächst müssen wir festlegen, welche Teilmengen des R n eine Wahrscheinlichkeit erhalten können und<br />

welche nicht. Dazu gehen wir genau wie auf R vor und wählen eine geeignete σ-Algebra.<br />

10.53 Definition:<br />

Die Borel’sche σ-Algebra Bn des R n ist die kleinste σ-Algebra auf dem R n , die alle offenen Mengen<br />

enthält.<br />

Auch im R n behält Satz 10.14 seine Gültigkeit! Allerdings än<strong>der</strong>t sich hier die Formulierung etwas:<br />

10.54 Satz (ohne Beweis):<br />

Die folgenden For<strong>der</strong>ungen an eine σ-Algebra auf R n sind äquivalent:<br />

(1) Es handelt sich um die kleinste σ-Algebra, die alle offenen Mengen enthält.


10 Allgemeine Modelle und stetige Verteilungen 115<br />

(2) Es handelt sich um die kleinste σ-Algebra, die alle Rechtecke<br />

mit a = (a1,...,an) , b = (b1,...,bn) ∈ R n enthält.<br />

(a,b] := (a1,b1] × ... × (an,bn]<br />

10.55 Definition:<br />

Eine Dichte auf Rn ist eine integrierbare Funktion f : Rn ��<br />

R mit f ≥ 0 und<br />

�<br />

f(x)dx = 1.<br />

Ebenso zitieren wir den folgenden Satz aus <strong>der</strong> Maßtheorie:<br />

R n<br />

10.56 Satz (ohne Beweis):<br />

Ist f : Rn ��<br />

n R eine Dichte auf dem R , so gibt es zu f genau eine Wahrscheinlichkeitsverteilung P<br />

auf (Rn , Bn) mit <strong>der</strong> Eigenschaft, dass<br />

für alle Rechtecke (a,b].<br />

10.57 Definition:<br />

�b1<br />

�bn<br />

�<br />

P ((a,b]) = ... f (x1,...,xn) dxn...dx1 =:<br />

a1<br />

an<br />

(a,b]<br />

f(x)dx<br />

Die reellen Zufallsvariablen X1,...,Xn haben die gemeinsame Dichte f, wenn f eine Dichte auf dem<br />

Rn ist und für alle a,b ∈ Rn gilt:<br />

�<br />

P (a1 ≤ X1 ≤ b1,...,an ≤ Xn ≤ bn) = f(x)dx.<br />

Beispiel 10.58:<br />

Für n = 2 ist f := 1 [0,1] 2 die Dichte <strong>der</strong> Gleichverteilung auf [0,1] 2 .<br />

Beispiel 10.59:<br />

Durch<br />

f := 1<br />

π 1 {(x,y)∈R 2 | x 2 +y 2 ≤1}<br />

definieren wir die Dichte <strong>der</strong> Gleichverteilung auf dem Einheitskreis im R 2 .<br />

Bemerkung 10.60:<br />

Diese Beispiele lassen sich durchaus verallgemeinern:<br />

Ist A ⊂ R 2 ein glattes Gebiet (d.h., dass <strong>der</strong> topologische Rand von A in jedem Punkt lokal Graph einer<br />

beliebig oft differenzierbaren Funktion ist), so ist 1A Riemann-Integrierbar und die Funktion<br />

ist die Dichte <strong>der</strong> Gleichverteilung auf A.<br />

10.61 Definition (Produktdichten):<br />

Sind f1,...,fn Dichten auf R, so ist<br />

f :=<br />

1<br />

Vol(A) 1A<br />

(a,b]<br />

f (x1,...,xn) := f1 (x1) · ... · fn (xn)<br />

eine Dichte auf dem R n . f heißt Produktdichte <strong>der</strong> Dichten f1,...,fn. Die gemäß Satz 10.56 zu f<br />

gehörende Wahrscheinlichkeitsverteilung P auf (R n , Bn) heißt Produktverteilung <strong>der</strong> zu f1,...,fn<br />

gehörenden Verteilungen P1,...,Pn auf R gemäß Satz 10.25. Maßtheoretisch schreibt man auch<br />

Beispiel 10.62:<br />

P = P1 × ... × Pn.<br />

Die Funktion 1 [0,1] 2 ist die Dichte zu P1 × P2, wenn P1,P2 Gleichverteilungen auf [0,1] sind.


116 10 Allgemeine Modelle und stetige Verteilungen<br />

Beispiel 10.63:<br />

Sei n ∈ N≥2 und sei fi(xi) := 1<br />

√ 2π exp<br />

gegeben durch<br />

beziehungsweise<br />

f(x1,...,xn) = f1(x1) · ... · fn(xn) =<br />

�<br />

− x2<br />

�<br />

i für i = 1,...,n. Dann ist die zugehörige Produktdichte<br />

2<br />

� �n �<br />

1<br />

√2π exp − 1 � 2<br />

x1 + ... + x<br />

2<br />

2� n<br />

�<br />

�<br />

n − 2 f(x) = (2π) exp − �x�2 �<br />

2<br />

, x ∈ R<br />

2<br />

n<br />

für die gewöhnliche euklidische Norm auf dem R n . Für n = 3 sieht die Produktdichte wie folgt aus:<br />

x<br />

z<br />

Abbildung 22: Die Produktdichte <strong>der</strong> Standard-Normalverteilung im R 3 .<br />

An dieser Stelle zitieren wir folgende Sätze aus <strong>der</strong> Maßtheorie:<br />

10.64 Satz (ohne Beweis):<br />

Sind X,Y zwei reelle Zufallsvariablen mit gemeinsamer Dichte f auf dem R2 , so gilt für jedes glatte<br />

Gebiet A ⊂ R2 , dass<br />

�<br />

P ((X,Y ) ∈ A) = f(x,y)d(x,y).<br />

Außerdem benötigen wir die Transformationsformel für den Erwartungswert von Funktionen von Zufallsvektoren:<br />

10.65 Satz (ohne Beweis):<br />

Sind X1,...,Xn reelle Zufallsvariablen mit gemeinsamer Dichte f auf dem Rn und ist g : Rn ��<br />

meßbar (z.B. stetig), so gilt<br />

�<br />

R<br />

E (g (X1,...,Xn)) = g(x)f(x)dx (10.8)<br />

falls �<br />

ist.<br />

10.66 Hilfssatz:<br />

R n<br />

A<br />

R n<br />

|g(x)|f(x)dx < ∞<br />

Sind X1,X2 zwei reelle Zufallsvariablen mit gemeinsamer Dichte f, so ist<br />

die Dichte zu X1 und<br />

die Dichte zu X2.<br />

f1 (x1) :=<br />

f2 (x2) :=<br />

�∞<br />

−∞<br />

�∞<br />

−∞<br />

f(x1,x2)dx2<br />

f(x1,x2)dx1<br />

y


10 Allgemeine Modelle und stetige Verteilungen 117<br />

Beweis:<br />

Es gilt<br />

P (a1 ≤ X1 ≤ b1) = P (a1 ≤ X1 ≤ b1, −∞ < X2 < ∞)<br />

Satz 10.64<br />

=<br />

�b1<br />

�∞<br />

a1 −∞<br />

f(x1,x2)dx2 dx1.<br />

� �� �<br />

=f1(x1)<br />

Ganz analog kann man für f2 vorgehen. Das zeigt schon die Behauptung.<br />

Bemerkung 10.67:<br />

Jetzt können wir endlich zeigen, dass <strong>der</strong> Erwartungswert linear ist:<br />

Beweis:<br />

E (X1 + X2) = E (X1) + E (X2) .<br />

Wir wenden den Satz 10.65 im Fall n = 2 auf die Funktion g(x1,x2) = x1 + x2 an. Das liefert<br />

�<br />

E (X1 + X2) = (x1 + x2) f(x1,x2) d(x1,x2)<br />

=<br />

=<br />

Damit ist die Behauptung gezeigt.<br />

10.8 Unabhängigkeit<br />

10.68 Definition:<br />

R 2<br />

�<br />

R 2<br />

�<br />

R<br />

�<br />

x1f(x1,x2)d(x1,x2) +<br />

x1<br />

Hilfssatz 10.66<br />

= E (X1) + E (X2)<br />

R<br />

R 2<br />

⎛<br />

�<br />

⎞<br />

�<br />

⎝ f(x1,x2)dx2 ⎠ dx1 +<br />

Reelle Zufallsvariablen X1,...,Xn heißen unabhängig, wenn<br />

P (a1 ≤ X1 ≤ b1,...,an ≤ Xn ≤ bn) =<br />

für alle a = (a1,...,an) , b = (b1,...,bn) ∈ R n gilt.<br />

10.69 Satz (Unabhängigkeit bei stetigen Verteilungen):<br />

x2f(x1,x2)d(x1,x2)<br />

R<br />

x2<br />

⎛<br />

⎞<br />

�<br />

⎝ f(x1,x2)dx1 ⎠ dx2<br />

R<br />

n�<br />

P (ai ≤ Xi ≤ bi)<br />

(1) Sind X1,...,Xn unabhängige Zufallsvariablen mit Dichten f1,...,fn entsprechend, so ist die gemeinsame<br />

Dichte f durch die Produktdichte<br />

gegeben.<br />

i=1<br />

f (x1,...,xn) := f1 (x1) · ... · fn (xn) (10.9)<br />

(2) Sind X1,...,Xn reelle Zufallsvariablen und hat die gemeinsame Dichte die Gestalt (10.9), so sind<br />

X1,...,Xn unabhängig und fi ist die Dichte zu Xi, i = 1,...,n.<br />

Beweis:<br />

(1) Wegen <strong>der</strong> Unabhängigkeit und <strong>der</strong> Definition <strong>der</strong> Dichten fi gilt<br />

n�<br />

P (a1 ≤ X1 ≤ b1,...,an ≤ Xn ≤ bn) = P (ai ≤ Xi ≤ bi)<br />

=<br />

=<br />

i=1<br />

bi n�<br />

�<br />

fi(xi)dxi<br />

i=1<br />

ai<br />

�<br />

(a,b]<br />

f(x)dx


118 10 Allgemeine Modelle und stetige Verteilungen<br />

für alle Rechtecke (a,b], weshalb f aus (10.9) die gemeinsame Dichte zu X1,...,Xn ist.<br />

(2) Da X1,...,Xn eine gemeinsame Dichte <strong>der</strong> Form (10.9) haben, ist<br />

P (a1 ≤ X1 ≤ b1,...,an ≤ Xn ≤ bn) =<br />

=<br />

�b1<br />

�bn<br />

... f1(x1) · ... · fn(xn)dxn...dx1<br />

a1<br />

i=1<br />

ai<br />

an<br />

bi n�<br />

�<br />

fi(xi)dxi<br />

(10.10)<br />

��<br />

��<br />

für jedes Rechteck (a,b].<br />

Für festes i ∈ {1,...,n} lassen wir jetzt in dieser Gleichung aj − ∞,bj ∞ für alle j �= i<br />

gehen. Dann geht die linke Seite gegen P (ai ≤ Xi ≤ bi) und die rechte Seite gegen<br />

da jedes fj eine Dichte ist und somit<br />

ist, also<br />

Damit ist aber wegen (10.10)<br />

∞�<br />

−∞<br />

�bi<br />

ai<br />

fi (xi) dxi,<br />

fj(xj)dxj = 1 erfüllt. Das zeigt, dass fi die Dichte zu Xi<br />

P (ai ≤ Xi ≤ bi) =<br />

�bi<br />

P (a1 ≤ X1 ≤ b1,...,an ≤ Xn ≤ bn) =<br />

womit X1,...,Xn per Definition unabhängig sind.<br />

Beispiel 10.70:<br />

ai<br />

fi(xi)dxi.<br />

n�<br />

P (ai ≤ Xi ≤ bi) ,<br />

Wir betrachten einen Schalter mit Bedienzeiten, die nach Exp (λ) verteilt sind. Nehmen wir an, wir stehen<br />

an zweiter Stelle, d.h. noch eine Kunde ist vor uns. Wir wollen die Wahrscheinlichkeit bestimmen, dass<br />

wir mindestens doppelt so lange zur Abfertigung brauchen, wir die Person vor uns. Dazu modellieren wir<br />

den Kunden vor uns als Zufallsvariable X ∼ Exp (λ) sowie uns als Y ∼ Exp (λ) und nehmen an, dass X<br />

und Y unabhängig sind. Gefragt ist dann nach<br />

i=1<br />

P (Y ≥ 2X) . (10.11)<br />

Mit obigem Satz 10.69 folgt, dass X und Y eine gemeinsame Dichte f in Produktform haben, d.h.<br />

Um (10.11) zu bestimmen betrachten wir<br />

f (x,y) = (λ exp (−λx)) (λ exp (−λy)) 1 [0,∞) 2.<br />

A = {(x,y) | x,y ≥ 0,y ≥ 2x} .


10 Allgemeine Modelle und stetige Verteilungen 119<br />

Mit Satz 10.64 folgt<br />

P (A) =<br />

�<br />

A<br />

f(x,y)dxdy<br />

= λ 2<br />

�∞�<br />

∞<br />

exp(−λ(x + y)) dy dx<br />

0<br />

0<br />

2x<br />

= λ 2<br />

�∞�<br />

∞<br />

exp(−λ(x + y)) dy dx<br />

=<br />

=<br />

0<br />

2x<br />

�∞<br />

⎛<br />

�∞<br />

⎞<br />

λ exp (−λx) ⎝ exp (−λy) dy⎠<br />

dx<br />

�<br />

0<br />

∞<br />

= 1<br />

3<br />

2x<br />

λ exp (−λx)exp (−2λx) dx<br />

�<br />

0<br />

∞<br />

3λ exp (−3λx) dx<br />

= 1<br />

3 (−exp (−3λx)) � �∞ 0<br />

= 1<br />

3 .<br />

Zuletzt sei noch <strong>der</strong> folgende Satz aus <strong>der</strong> Maßtheorie erwähnt:<br />

10.71 Satz (ohne Beweis):<br />

10.72 Satz:<br />

Das Blockungslemma gilt in <strong>der</strong> selben Form wie in Satz 4.24 auch für Zufallsvariablen mit stetigen<br />

Verteilungen.<br />

Wir zeigen nun, dass <strong>der</strong> Produktsatz für unabhängige Zufallsvariablen auch im stetigen Fall gilt:<br />

Sind X und Y unabhängige Zufallsvariablen mit Dichten fX und fY , so gilt<br />

E(X · Y ) = E(X) · E(Y ).<br />

Beweis:<br />

Setze g(x,y) = x · y, g : R2 ��<br />

R. Die Dichte zu (X,Y ) hat gemäß Satz 10.69 Produktform f(x,y) =<br />

fX(x) · fY (y), da X und Y unabhängig sind.<br />

Damit gilt<br />

Das zeigt die Behauptung.<br />

Korollar 10.73:<br />

E(X · Y ) = E(g(X,Y ))<br />

Transformationsformel<br />

=<br />

=<br />

=<br />

�∞<br />

�∞<br />

−∞ −∞<br />

�∞<br />

�∞<br />

−∞ −∞<br />

�∞<br />

−∞<br />

Sind X und Y stetige unabhängige Zufallsvariablen, so gilt<br />

das heißt, X und Y sind unkorreliert.<br />

g(x,y) · f(x,y)dxdy<br />

x · y · fX(x) · fY (y)dxdy<br />

x · fX(x)dx ·<br />

�∞<br />

−∞<br />

CoV(X,Y ) = E(X · Y ) − E(X)E(Y ) = 0,<br />

y · fY (y)dy.


120 10 Allgemeine Modelle und stetige Verteilungen<br />

10.74 Definition (Faltung):<br />

Seien f1 und f2 Dichten auf R. Die Dichte<br />

f1 ⋆ f2(z) =<br />

nennen wir Faltung f1 ⋆ f2 von f1 und f2.<br />

�∞<br />

−∞<br />

f1(x)f2(z − x)dx<br />

10.75 Satz (Dichten für Summen von unabhängigen Zufallsvariablen mit Dichten):<br />

Seien X und Y unabhängige Zufallsvariablen mit Dichten fX und fY . Dann hat X+Y die Dichte fX ⋆ fY .<br />

Beweis:<br />

X und Y haben die gemeinsame Dichte f(x,y) = fX(x) · fY (y), da X und Y unabhängig sind. Sei A die<br />

Menge<br />

A := {(x,y) | x + y ≤ b} .<br />

Dann gilt<br />

Damit ist die Behauptung gezeigt.<br />

P(X + Y ≤ b) =<br />

Beispiel 10.76 (Gleichverteilung U(0,1)):<br />

=<br />

=<br />

=<br />

=<br />

�<br />

A<br />

�∞<br />

−∞<br />

�∞<br />

f(x,y)dxdy<br />

−∞ −∞<br />

�b<br />

−∞<br />

�b<br />

−∞<br />

⎛<br />

⎞<br />

�b−x<br />

⎝ fX(x)fY (y)dy⎠<br />

dx<br />

�b<br />

−∞<br />

⎛<br />

�<br />

⎝<br />

fX(x)fY (z − x)dz dx<br />

∞<br />

−∞<br />

⎞<br />

fx(x)fy(z − x)dx⎠<br />

dz<br />

fX ⋆ fY (z)dz.<br />

Seien X und Y unabhängig und gleichverteilt auf [0,1]. Dann ist die Dichte von X + Y gegeben als<br />

⎧<br />

⎪⎨ t falls 0 ≤ t ≤ 1<br />

fX+Y (t) = 2 − t<br />

⎪⎩<br />

0<br />

falls 1 ≤ t ≤ 2<br />

sonst<br />

.<br />

−2<br />

−1<br />

1<br />

0 1 2 3<br />

Abbildung 23: Die Dichte von X + Y für X,Y i.i.d.<br />

∼ U (0,1).


10 Allgemeine Modelle und stetige Verteilungen 121<br />

Beweis:<br />

10.77 Satz:<br />

Offenbar ist fX(t) = 1 [0,1](t) = fY (t). Mit obigem Satz ist die Dichte fX+Y von X + Y gegeben als<br />

(fX ⋆ fY ) (z) =<br />

=<br />

�∞<br />

−∞<br />

�1<br />

0<br />

�<br />

= −<br />

Nun unterscheiden wir vier Fälle:<br />

z�<br />

• Ist z < 0, so ist offenbar 1 [0,1] (y) dy = 0.<br />

• Ist z > 2, so ist offenbar<br />

z−1<br />

z�<br />

z−1<br />

• Ist 0 ≤ z ≤ 1, so berechnet man<br />

• Ist 1 ≤ z ≤ 2, so berechnet man<br />

Das zeigt die Behauptung.<br />

=<br />

�z<br />

z−1<br />

1 [0,1] (y) dy = 0.<br />

�z<br />

z−1<br />

�z<br />

z−1<br />

fX(x) · fY (z − x) dx<br />

1 [0,1] (z − x) dx<br />

z−1<br />

z<br />

1 [0,1] (y) dy =<br />

1 [0,1] (y) dy =<br />

1 [0,1] (y) dy<br />

1 [0,1] (y) dy.<br />

�1<br />

z−1<br />

�z<br />

0<br />

1dy = z.<br />

1dy = 2 − z.<br />

Seien Xi ∼ N(µi,σ 2 i ), für i = 1,2 unabhängig. Dann ist X1 +X2 normalverteilt mit Parametern µ1 +µ2<br />

und σ2 1 + σ2 2, d.h.<br />

X1 + X2 ∼ N � µ1 + µ2,σ 2 1 + σ 2� 2 .<br />

Beweis:<br />

Es genügt zu zeigen, dass<br />

(X1 − µ1) + (X2 − µ2) ∼ N � 0,σ 2 1 + σ 2� 2<br />

gilt, wobei (X1 − µ1) ∼ N � 0,σ2 �<br />

1 und (X2 − µ2) ∼ N � 0,σ2 �<br />

2 verteilt sind. Nach Definition <strong>der</strong> Faltung<br />

zweier Dichten ergibt sich für festes z ∈ R:<br />

Wir setzen nun<br />

� �<br />

f0,σ2 ⋆ f<br />

1 0,σ2 2<br />

(z) =<br />

σ :=<br />

=<br />

�∞<br />

−∞<br />

�<br />

1<br />

√ exp −<br />

2πσ1<br />

1 x<br />

2<br />

2<br />

σ2 � �<br />

1 (z − x)2<br />

· √ exp −<br />

1 2πσ2 2σ2 �<br />

dx<br />

2<br />

⎛<br />

⎞<br />

1<br />

2πσ1σ2<br />

�∞<br />

−∞<br />

⎜<br />

exp ⎜<br />

⎝ −1<br />

� 2 x<br />

2 σ2 +<br />

1<br />

(z − x)2<br />

σ2 � ⎟ dx. (10.12)<br />

2 ⎠<br />

� �� �<br />

=:(∗)<br />

�<br />

σ2 1 + σ2 σ<br />

2 und w = w(x) = · x −<br />

σ1σ2<br />

σ1<br />

z.<br />

σσ2


122 10 Allgemeine Modelle und stetige Verteilungen<br />

Dann ist<br />

w 2 + z2<br />

σ2 = σ2 1 + σ2 2<br />

σ2 1σ2 2<br />

x 2 − 2xz<br />

σ 2 2<br />

= x2<br />

σ2 +<br />

1<br />

x2<br />

σ2 −<br />

2<br />

2xz<br />

σ2 +<br />

2<br />

z2<br />

σ2 2<br />

= x2<br />

σ2 +<br />

1<br />

(z − x)2<br />

σ2 2<br />

= (∗).<br />

+ σ2 1<br />

σ2σ2 2<br />

z 2 + z2<br />

σ 2<br />

� �� �<br />

Da dw = σ<br />

σ1σ2<br />

dx ist, folgt dx = σ1σ2 σ dw. Wir substituieren also in (10.12) und erhalten so<br />

� �<br />

f0,σ2 ⋆ f<br />

1 0,σ2 2<br />

(z) =<br />

Damit ist <strong>der</strong> Satz bewiesen.<br />

=<br />

1<br />

2πσ1σ2<br />

�∞<br />

−∞<br />

1<br />

2πσ exp<br />

�<br />

− z2<br />

2σ2 �<br />

−<br />

= f 0,σ 2(z)<br />

= f 0,σ 2 1 +σ 2 2 (z).<br />

10.9 Die mehrdimensionale Normalverteilung<br />

10.78 Definition:<br />

= z2<br />

σ 2 2<br />

�<br />

exp − 1<br />

�<br />

w<br />

2<br />

2 + z2<br />

σ2 ��<br />

σ1σ2<br />

σ dw<br />

�∞<br />

�<br />

1<br />

√ exp −<br />

2π 1<br />

2 w2<br />

�<br />

dw<br />

� �� �<br />

=1 (Std.normalverteilung)<br />

Wir haben in Beispiel 10.63 schon gesehen, dass für unabhängige Zufallsvariablen Z1,...,Zn ∼ N (0,1)<br />

die Zufallsgröße Z = (Z1,...,Zn) T die Dichte<br />

f (z1,...,zn) = 1<br />

�<br />

√ n exp −<br />

2π 1<br />

n�<br />

z<br />

2<br />

2 �<br />

i<br />

besitzt. Diese Verteilung wollen wir von nun an die n-dimensionale Standard-Normalverteilung<br />

nennen. Wir schreiben dann auch<br />

(Z1,...,Zn) T ∼ N (0,In) ,<br />

wobei wir mit<br />

die n × n-Einheitsmatrix bezeichnen.<br />

10.79 Definition:<br />

In =<br />

⎛<br />

⎜<br />

⎝<br />

1 0<br />

. ..<br />

0 1<br />

Sei Z = (Z1,...,Zn) T ∼ N (0,In), A eine reelle n×n-Matrix und µ ∈ R. Dann nennen wir die Verteilung<br />

von<br />

A · Z + µ<br />

eine n-dimensionale Normalverteilung zu A und µ.<br />

10.80 Definition:<br />

Sei Z = (Z1,...,Zn) T ein Zufallsvektor. Der Erwartungswert von Z ist <strong>der</strong> Vektor<br />

Beispiel 10.81:<br />

−∞<br />

⎞<br />

⎟<br />

⎠<br />

ν=1<br />

E (Z) = (E (Z1) ,...,E (Zn)) T .<br />

Sei Z ∼ N (0,In). Dann ist offenbar E (Z) = 0 ∈ R n . Außerdem folgt für jede n × n-Matrix A und jedes<br />

µ ∈ R n , dass<br />

E (AZ + µ) = AE (Z) + µ = µ.


10 Allgemeine Modelle und stetige Verteilungen 123<br />

10.82 Definition:<br />

Sei Z = (Z1,...,Zn) T ein allgemeiner Zufallsvektor. Die Kovarianzmatrix von Z ist<br />

Beispiel 10.83:<br />

Sei Z = (Z1,...,Zn) T ∼ N (0,In). Wegen<br />

ist ΣZ = In.<br />

10.84 Lemma:<br />

ΣZ := (CoV (Zi,Zj)) 1≤i,j≤n .<br />

CoV (Zi,Zj) =<br />

� 0 falls i �= j<br />

1 falls i = j<br />

Sei Z ein beliebiger Zufallsvektor, A = (ai,j) 1≤i,j≤n eine beliebige reelle n × n-Matrix und µ ∈ R n . Dann<br />

gilt für X := A · Z + µ, dass<br />

ΣX = A · ΣZ · A T .<br />

Beweis:<br />

Es ist<br />

CoV (Xi,Xj) = E ((Xi − E (Xi)) (Xj − E (Xj)))<br />

���<br />

n�<br />

� �<br />

n�<br />

= E<br />

− E<br />

� A · Σz · A T�<br />

i,j<br />

Das zeigt die Behauptung.<br />

Beispiel 10.85:<br />

= E<br />

=<br />

=<br />

�� n�<br />

k=1<br />

�� n�<br />

n�<br />

k,l=1<br />

n�<br />

k,l=1<br />

k=1<br />

k=1<br />

ai,kZk + µi<br />

aj,kZk + µj<br />

�<br />

E<br />

� n�<br />

k=1<br />

ai,k (Zk − E (Zk))<br />

ai,k CoV (Zk,Zl)aj,l<br />

ai,k CoV (Zk,Zl)a T l,j<br />

�<br />

k=1<br />

aj,kZk + µj<br />

·<br />

� n�<br />

l=1<br />

ai,kZk + µi<br />

���<br />

��<br />

aj,l (Zl − E (Zl))<br />

Sei Z ∼ N (0,In) und X = A · Z + µ mit einer beliebigen reellen n × n-Matrix A und µ ∈ Rn . Nach<br />

Lemma 10.84 gilt dann<br />

ΣX = A · ΣZ<br />

����<br />

·A T = A · A T .<br />

=In<br />

Damit sind Erwartungswert und Kovarianzmatrix <strong>der</strong> n-dimensionalen Normalverteilung zu A und µ<br />

gegeben durch µ und ΣX = A · AT .<br />

Bemerkung 10.86:<br />

Sei Z ∼ N (0,In) und X = A · Z + µ mit einer beliebigen reellen n × n-Matrix A und µ ∈ R n . Dann ist<br />

die Matrix ΣX = A · A T stets symmetrisch und positiv semi-definit, d.h. für jedes x ∈ R n gilt<br />

x T ΣXx ≥ 0.<br />

Die Umkehrung ist ebenfalls richtig: Jede Matrix Σ, die symmetrisch und positiv semi-definit ist, ist<br />

Kovarianzmatrix einer n-dimensionalen Normalverteilung. Das folgt einfach aus <strong>der</strong> Hauptachsentransformation,<br />

denn demnach ist Σ = V · D · V T für eine orthogonale Matrix V und eine Diagonalmatrix<br />

⎛ ⎞<br />

D =<br />

⎜<br />

⎝<br />

d1<br />

. ..<br />

0<br />

0 dn<br />

⎟<br />

⎠ .<br />

·<br />

��


124 10 Allgemeine Modelle und stetige Verteilungen<br />

Da Σ positiv semi-definit ist, sind alle Zahlen di ≥ 0. Wir setzen<br />

⎛ √<br />

d1<br />

⎜<br />

A := V · ⎜<br />

⎝<br />

0<br />

�<br />

. ..<br />

��<br />

⎞<br />

0<br />

⎟<br />

⎠ ·V<br />

√<br />

dn<br />

�<br />

T ,<br />

und haben dann<br />

10.87 Definition:<br />

=: √ D<br />

A · A T = V · √ D · V T · V · √ D · V T = V · D · V T = Σ.<br />

� �� �<br />

=In<br />

Sei Σ eine Kovarianzmatrix einer n-dimensionalen Normalverteilung. Ist det(Σ) = 0, so sprechen wir<br />

von einer ausgearteten Normalverteilung.<br />

10.88 Definition:<br />

10.89 Satz:<br />

Sei Σ eine Kovarianzmatrix einer n-dimensionalen Normalverteilung. Ist det(Σ) �= 0, so sprechen wir<br />

von einer nicht ausgearteten Normalverteilung.<br />

Sei Σ eine Kovarianzmatrix einer n-dimensionalen Normalverteilung mit Erwartungswert µ ∈ Rn und<br />

det(Σ) �= 0. Dann ist die zugehörige Dichte gegeben als<br />

Beweis:<br />

f (x) =<br />

1<br />

�√ 2π �n � det(Σ) exp<br />

�<br />

− 1<br />

�<br />

(x − µ)<br />

2<br />

T · Σ −1 �<br />

· (x − µ)<br />

�<br />

, x ∈ R n . (10.13)<br />

Wir wollen den Transformationssatz für Dichten im Rn benutzen: Hat Z = (Z1,...,Zn) T auf offenem<br />

M ⊂ Rn die Dichte fZ und ist u : M ��<br />

n N für N ⊂ R ebenfalls offen ein Diffeomorphismus, so hat<br />

X := u (Z) die Dichte<br />

� � � � ��<br />

−1<br />

u (x) · �det −1<br />

D(u )(x) � . (10.14)<br />

fX (x) = fZ<br />

Dabei bezeichnet D(u −1 ) das totale Differential von u −1 .<br />

Dieser Satz folgt direkt aus <strong>der</strong> Transformationsformel im R n , <strong>der</strong> explizite Beweis findet sich bei<br />

[Dehling/Haupt], Seite 181.<br />

Hier ist Z ∼ N (0,In), M = N = R n und u (x) = Ax + µ mit A wie in Bemerkung 10.86 zu Σ definitiert.<br />

Da det (Σ) �= 0 ist, ist auch det (A) �= 0, d.h.<br />

existiert. Damit ist dann<br />

u −1 (x) = A −1 (y − µ)<br />

�<br />

�det D � u −1� (x) � � = � �det(A −1 ) � � =<br />

1<br />

|det (A)| =<br />

1<br />

� det(Σ) .<br />

Beachte dabei, dass det(Σ) > 0 wegen <strong>der</strong> positiven Semi-Definitheit von Σ.<br />

Da n�<br />

z2 i = (z1,...,zn) · (z1,...,zn) T ist, gilt<br />

i=1<br />

fZ(z) =<br />

�<br />

1<br />

�√ �n exp −<br />

2π 1<br />

2 zT �<br />

· z .<br />

Mit <strong>der</strong> angegebenen Transformationsformel für Dichten (10.14) folgt<br />

fX (x) =<br />

=<br />

und somit die Behauptung.<br />

1<br />

�√ 2π �n exp<br />

1<br />

�√ 2π �n · � det(Σ) exp<br />

�<br />

− 1<br />

��A � −1 T � � −1<br />

(x − µ) A (x − µ)<br />

2<br />

��<br />

·<br />

�<br />

− 1<br />

�<br />

(x − µ)<br />

2<br />

T Σ −1 �<br />

(x − µ)<br />

�<br />

1<br />

� det(Σ)


10.93 Satz:<br />

10 Allgemeine Modelle und stetige Verteilungen 125<br />

Bemerkung 10.90:<br />

Ist det (Σ) = 0, so gibt es keine Dichte auf dem R n für die zugehörige Verteilung.<br />

Bemerkung 10.91:<br />

Man beachte, dass die n-dimensionale Normalverteilung bereits durch Σ und µ festgelegt ist!<br />

Bemerkung 10.92:<br />

Der Fall det (Σ) �= 0 entspricht genau dem Fall, dass Σ symmetrisch und strikt positiv definit ist, d.h.<br />

x T Σx > 0 ∀ x ∈ R n \ {0} .<br />

Für jede solche Matrix existiert also eine n-dimensionale Normalverteilung mit Dichte wie im Satz. Die<br />

Matrix A dieser Verteilung ist dann wie in Bemerkung 10.86 gegeben.<br />

10.9.1 Folgerungen<br />

Sei X = (X1,...,Xn) T nach N (µ,Σ) verteilt, d.h. es ist µ = E (X) und Σ = CoV (X). Sei außerdem<br />

det (Σ) �= 0. Dann gilt<br />

Xi ∼ N (µi,Σi,i) .<br />

Allgemeiner: Ist c ∈ Rn \ {0}, so ist<br />

n�<br />

�<br />

n� n�<br />

ciXi ∼ N ciµi,<br />

Sind die Xi’s paarweise unkorreliert, so sind sie unabhängig.<br />

Beweis:<br />

i=1<br />

i=1<br />

i=1<br />

c 2 iΣi,i<br />

Da alles nur von <strong>der</strong> Verteilung abhängt, können wir wie folgt vorgehen: Finde eine n × n-Matrix A, s.d.<br />

A · A T = Σ gilt. Dann ist X = A · Z + µ für Z ∼ N (0,In). Damit folgt aber<br />

Xi =<br />

n�<br />

Ai,kZk + µi,<br />

womit mehrfaches anwenden des Faltungssatzes für die Normalverteilung (Satz 10.77) sofort<br />

�<br />

n�<br />

Xi ∼ N µi,<br />

� �<br />

n�<br />

= N µi,<br />

�<br />

= N (µi,Σi,i)<br />

k=1<br />

A 2 i,k<br />

k=1<br />

k=1<br />

liefert. Ganz analog geht man für beliebiges c ∈ R n \ {0} vor.<br />

Ai,kA T k,i<br />

Kommen wir zur Unabhängigkeit. Sind die Xi’s unkorreliert, so ist CoV(X) = Σ eine Diagonalmatrix.<br />

Die Dichte fX von X ist gemäß 10.13 gegeben, und da Σ −1 ebenso wie Σ Diagonalform hat, ist sie in<br />

Produktform. Satz 10.69 liefert, dass die Xi’s unabhängig sind.<br />

10.10 Wahrscheinlichkeitsverteilungen und <strong>der</strong> zentrale Grenzwertsatz<br />

Bemerkung 10.94:<br />

Wir haben schon gesehen, dass für stetige Zufallsvariablen X und Y ebenso wie für diskrete die Linearität<br />

des Erwartungswertes gilt:<br />

Außerdem ist <strong>der</strong> Erwartungswert monoton, d.h.<br />

E (aX + Y ) = aE (X) + E (Y ) , a ∈ R. (10.15)<br />

X ≤ Y ⇒ E (X) ≤ E (Y ) .<br />

Man kann ebenso (maßtheoretisch) zeigen, dass alle Rechenregeln, die im diskreten Fall für die Varianz<br />

gelten, sich auf den stetigen Fall übertragen, also<br />

für a,b ∈ R und X stetig verteilte Zufallsvariable usw..<br />

�<br />

.<br />

V (aX + b) = a 2 V (X) (10.16)<br />

Ebenso gelten die Markov-, Tschebyschow- und Hoeffding Ungleichung sowie das SGGZ genau wie im<br />

stetigen Fall.<br />

Wir werden die Regeln (10.15) und (10.16) nun einfach mitbenutzen.


126 10 Allgemeine Modelle und stetige Verteilungen<br />

10.10.1 Die Jensen’sche Ungleichung<br />

Bevor wir zum zentralen Grenzwertsatz schreiten brauchen wir noch folgendes<br />

10.95 Lemma (Jensen’sche Ungleichung):<br />

Ist X eine reelle Zufallsvariable (diskret o<strong>der</strong> stetig, das Lemma gilt in beiden Fällen) und g : R<br />

eine konvexe Funktion, so gilt im Falle <strong>der</strong> Existenz von E (X) und E (g(X)) die Ungleichung<br />

Beweis:<br />

g (E (X)) ≤ E (g (X)).<br />

Für eine konvexe Funktion g können wir an den Punkt (E (X),g (E (X))) eine (ohne weitere Voraussetzungen<br />

nicht zwingend eindeutige) lineare Approximation an g legen. Diese hat die Form<br />

L(x) = c · (x − E (X)) + g (E (X)),<br />

wobei c = g ′ (E (X)), falls g an E (X) ∈ I differenzierbar ist. Insbeson<strong>der</strong>e gilt dann<br />

E (L(X)) = E (c · (X − E (X)) + g (E (X)))<br />

= c · (E (X) − E (X)) + g (E (X))<br />

= g (E (X))<br />

Da g konvex und L linear ist, gilt L ≤ g und mit <strong>der</strong> Monotonie des Erwartungswerts folgt so<br />

was die Behauptung zeigt.<br />

Beispiel 10.96:<br />

g (E (X)) = E (L(X)) ≤ E (g (X)),<br />

Sei X eine reelle Zufallsvariable. Ist etwa g(x) = x 2 , so folgt<br />

(E (X)) 2 ≤ E � X 2� .<br />

Dieses Ergebnis folgt auch schon daraus, dass 0 ≤ V (X) = E � X 2� − (E (X)) 2 ist.<br />

Bemerkung 10.97:<br />

Sei X eine reelle Zufallsvariable. Insbeson<strong>der</strong>e kann man das Lemma auch für Intervalle I ⊂ R, etwa<br />

I = [0, ∞) anwenden, wenn X Werte in I hat.<br />

��<br />

R


10 Allgemeine Modelle und stetige Verteilungen 127<br />

10.10.2 Der zentrale Grenzwertsatz (ZGWS)<br />

10.98 Definition (drittes zentrales Moment):<br />

Sei X eine reelle Zufallsvariable. Wir definieren<br />

als das dritte zentrale Moment von X.<br />

Bemerkung 10.99:<br />

γ (X) := E<br />

�<br />

|X − E (X)| 3�<br />

Sei X eine reelle Zufallsvariable. Offenbar hängt γ (X) nur von <strong>der</strong> Verteilung von X ab.<br />

10.100 Satz (Zentraler Grenzwertsatz):<br />

Sei P X eine feste Verteilung einer reellen Zufallsvariablen X s.d. E (X), V (X) und γ := γ(X) existieren<br />

und V (X) > 0 ist (das ist zum Beispiel für B(n,p) ,Geo(p),Exp (λ),N � µ,σ 2� usw. <strong>der</strong> Fall).<br />

Für jedes n ∈ N seien X1,...,Xn unabhängige reelle Zufallsvariablen, die alle nach P X verteilt sind. Sei<br />

nun<br />

n�<br />

Sn :=<br />

und Φ die Verteilungsfunktion von N (0,1). Dann gilt<br />

�<br />

�<br />

�<br />

sup�<br />

x∈R � P<br />

�<br />

� �<br />

Sn − E (Sn)<br />

�<br />

�<br />

� ≤ x − Φ(x) �<br />

V (Sn) �<br />

Wir beweisen diese Version des zentralen Grenzwertsatzes ein wenig weiter unten.<br />

Bemerkung 10.101:<br />

i=1<br />

Xi<br />

n<br />

��<br />

∞ ��<br />

0. (10.17)<br />

Natürlich gilt unter den gemachten Voraussetzungen die Formel (10.17) genauso mit < anstelle von ≤.<br />

Bemerkung 10.102:<br />

Natürlich folgt mit dem zentralen Grenzwertsatz auch<br />

�<br />

�<br />

�<br />

sup�<br />

a≤b � P<br />

�<br />

a ≤ Sn<br />

�<br />

�<br />

− E (Sn)<br />

�<br />

�<br />

� ≤ b − (Φ(b) − Φ(a)) �<br />

V (Sn) �<br />

10.103 Satz (Zentraler Grenzwertsatz - alternative Formulierung):<br />

n<br />

��<br />

∞ ��<br />

0.<br />

Sei X1,X2,... eine Folge unabhängiger reeller Zufallsvariablen mit gleicher Verteilung, s.d. E (X1), V (X1)<br />

und γ (X1) existieren und V (X1) > 0 gilt. Sei außerdem Φ die Verteilungsfunktion zu N (0,1).<br />

Dann gilt<br />

� ⎛<br />

�<br />

� n�<br />

�<br />

n�<br />

�<br />

⎞ �<br />

�<br />

�<br />

� ⎜ Xi − E Xi ⎟ �<br />

� ⎜<br />

⎟ �<br />

sup�<br />

�P<br />

⎜ i=1 i=1<br />

⎜ � �<br />

x∈R � ⎝ n�<br />

� ≤ x ⎟ − Φ(x) �<br />

�<br />

⎠ �<br />

�<br />

�<br />

V<br />

�<br />

�<br />

Xi<br />

i=1<br />

Folgerung 10.104 (Grenzwertsatz von de Moivre-Laplace):<br />

n<br />

��<br />

∞ ��<br />

0.<br />

Satz 9.2 folgt sofort durch Anwenden des zentralen Grenzwertsatzes (alternative Formulierung) mit<br />

0 < p < 1 fest und X1,X2,... ∼ B(1,p) unabhängig verteilt.<br />

Nun zeigen wir zunächst folgenden<br />

10.105 Hilfssatz:<br />

Sei Y ∼ N � 0,σ 2� verteilt. Dann gilt<br />

Beweis:<br />

�<br />

E |Y | 3�<br />

�<br />

8<br />

=<br />

π σ3 .<br />

Gemäß <strong>der</strong> Transformationsformel für den Erwartungswert (Satz 10.44) ist<br />

�<br />

E |Y | 3�<br />

=<br />

=<br />

�∞<br />

−∞<br />

|t| 3 1<br />

√<br />

2πσ2 exp<br />

�<br />

− 1<br />

�<br />

t2<br />

2σ2 0<br />

dt<br />

2<br />

√<br />

2πσ2 ·<br />

�∞<br />

t 3 �<br />

exp − 1<br />

�<br />

t2 dt.<br />

2σ2


128 10 Allgemeine Modelle und stetige Verteilungen<br />

Nun substituiert man t = σ √ 2x, womit dt = σ<br />

√ 2x dx ist und<br />

�<br />

E |Y | 3�<br />

Das zeigt die Behauptung.<br />

=<br />

=<br />

2<br />

√<br />

2πσ2 ·<br />

�<br />

0<br />

∞<br />

2σ4 √<br />

2πσ2 ·<br />

�<br />

0<br />

0<br />

∞<br />

σ 3√ 2x 3<br />

�<br />

exp − 1<br />

2σ2 σ2 �<br />

σ<br />

2x √2x dx<br />

√ 2x 2<br />

exp(−x) dx<br />

= 4σ3<br />

�∞<br />

√ · xexp (−x) dx<br />

2π<br />

= 4σ3<br />

√ 2π · Γ(2)<br />

= 4σ3<br />

√ 2π · (2 − 1)!<br />

=<br />

=<br />

�<br />

16<br />

2π σ3<br />

�<br />

8<br />

π σ3 .<br />

Bevor wir nun zum Beweis des zentralen Grenzwertsatzes schreiten stellen wir noch fest:<br />

Bemerkung 10.106:<br />

Sind die Zufallsvariablen Xi unabhängig, so gilt<br />

�<br />

n�<br />

�<br />

V =<br />

i=1<br />

was wir im diskreten Fall auch bewiesen haben.<br />

Beweis (von Satz 10.100):<br />

Setze<br />

Fn (x) := P<br />

Xi<br />

n�<br />

V (Xi) ,<br />

i=1<br />

�<br />

�<br />

Sn − E (Sn)<br />

� ≤ x<br />

V (Sn)<br />

für x ∈ R und σ := � V (x1). Wir müssen also zeigen, dass<br />

sup |Fn(x) − Φ(x)|<br />

x∈R<br />

Für (10.18) genügt es zu zeigen, dass es für jedes ε > 0 ein δ > 0 gibt, s.d.<br />

γ<br />

√ nσ 3<br />

n<br />

≤ δ ⇒ sup |Fn(x) − Φ(x)| ≤ ε,<br />

x∈R<br />

denn falls dieses gilt, finden wir immer ein hinreichend großes n ∈ N s.d.<br />

ist.<br />

sup |Fn(x) − Φ(x)| ≤ ε<br />

x∈R<br />

Wir beginnen dazu mit einigen Vorbereitungen. Setze<br />

Zi := Xi − E (Xi)<br />

�<br />

nV (Xi)<br />

für i = 1,...,n. Dann ist nach <strong>der</strong> Bemerkung 10.106<br />

Sn − E (Sn)<br />

� V (Sn) =<br />

n�<br />

i=1<br />

��<br />

∞ ��<br />

. (10.18)<br />

Zi<br />

γ<br />

√ nσ 3 ≤ δ und somit


10 Allgemeine Modelle und stetige Verteilungen 129<br />

und entsprechend auch<br />

Fn (x) = P<br />

� n�<br />

i=1<br />

Zi ≤ x<br />

�<br />

, x ∈ R.<br />

Offenbar ist E (Zi) = 0 für i = 1,...,n und man berechnet mit den Regeln für die Varianz<br />

für jedes i = 1,...,n. Zuletzt ist<br />

E � Z 2� i = V (Zi) + (E (Zi)) 2 1<br />

=<br />

� �� � nV (Xi)<br />

=0<br />

· V (Xi − E (Xi)) = 1<br />

n<br />

�<br />

E |Zi| 3�<br />

= E<br />

�<br />

|Xi − E (Xi)| 3<br />

�<br />

nV (Xi) 3<br />

�<br />

=<br />

γ<br />

( √ n) 3 .<br />

σ3 Seien ferner Y1,...,Yn unabhängig (auch von den Zi’s) mit Yi ∼ N � 0, 1<br />

�<br />

n . Nach dem Faltungssatz für die<br />

Normalverteilung (Satz 10.77) ist dann<br />

n�<br />

Yi ∼ N (0,1)<br />

i=1<br />

verteilt. Außerdem ist E (Yi) = 0, E � Y 2<br />

�<br />

i = V (Yi) = 1<br />

n<br />

E � |Yi| 3� =<br />

� 8<br />

π<br />

und mit Hilfssatz 10.105 auch<br />

1<br />

√ n 3 .<br />

Wähle zu beliebigem ε > 0 eine mindestens dreifach stetig differenzierbare Funktion f mit 0 ≤ f ≤ 1 und<br />

�<br />

1 falls t ≤ 0<br />

f(t) =<br />

0 falls t ≥ ε .<br />

Setze dann zu x ∈ R fx(t) := f(t − x), t ∈ R und M := sup |f<br />

t∈R<br />

′′′ (t)|. Nach dem Satz von Taylor gilt dann<br />

für alle t,h ∈ R<br />

fx(t + h) = fx(t) + f ′ x(t) · h + f ′′<br />

x(t) · h2<br />

2<br />

Jetzt definieren wir<br />

und wählen n ∈ N so groß, dass<br />

Wir zeigen nun, dass<br />

�<br />

�<br />

�<br />

�<br />

� E<br />

� �<br />

n�<br />

fx<br />

für alle x ∈ R gilt.<br />

Setze S Z j<br />

:= j�<br />

i=1<br />

Zi<br />

��<br />

− E<br />

+ v(t,h) mit |v(t,h)| ≤ sup |f<br />

t∈R<br />

′′′<br />

x (t)| · |h|3<br />

6<br />

δ := δ(ε) =<br />

M<br />

γ<br />

√ nσ 3 ≤ δ gilt.<br />

�<br />

fx<br />

� n�<br />

i=1<br />

Yi<br />

3.6 · ε<br />

�<br />

1 +<br />

Schritt I<br />

� 8<br />

π<br />

i=1<br />

�<br />

���<br />

����<br />

≤ M<br />

�<br />

n� � �<br />

E |Zi|<br />

6<br />

3�<br />

�<br />

+ E |Yi| 3���<br />

|h|3<br />

≤ M · . (10.19)<br />

6<br />

(10.20)<br />

Zi für j = 1,...,n. Betrachte nun t = S<br />

i=1<br />

Z n−1 und h = Zn in <strong>der</strong> Taylorentwicklung (10.19):<br />

fx<br />

� Z<br />

Sn−1 + Zn<br />

� �� �<br />

=SZ � � � � Z ′ Z<br />

= fx Sn−1 + f x Sn−1 n<br />

Nach dem Blockungslemma sind f ′ �<br />

Z<br />

x Sn−1 unseren Vorüberlegungen<br />

E � � �� � � �� � � Z Z ′ Z<br />

fx Sn = E fx Sn−1 + E f x Sn−1 � · Zn + f ′′<br />

x<br />

�<br />

und Zn sowie f ′′<br />

�<br />

Z<br />

x Sn−1 �� · E (Zn)<br />

� �� �<br />

=0<br />

� � Z Z<br />

Sn−1 · 2 n<br />

2 + v � S Z �<br />

n−1,Zn .<br />

� und Z 2<br />

n<br />

2<br />

+E � f ′′ � �� Z<br />

x Sn−1 · E<br />

unabhängig, d.h. es folgt mit<br />

� � 2 Zn 2<br />

� �� �<br />

= 1<br />

2n<br />

+E � v � S Z ��<br />

n−1,Zn .


130 10 Allgemeine Modelle und stetige Verteilungen<br />

Genauso folgt mit h = Yn, dass<br />

E � � �� � � Z Z<br />

fx Sn−1 + Yn = E fx Sn−1 Subtrahieren <strong>der</strong> Gleichungen liefert<br />

� �<br />

�E fx<br />

�� � � ���<br />

Z<br />

− E fx Sn−1 + Yn<br />

� =<br />

� S Z n<br />

�<br />

�<br />

Da wir ja eigentlich eine Abschätzung für �<br />

�E � fx<br />

�<br />

�� � � �� 2<br />

′′ Z Yn + E f x Sn−1 · E<br />

≤<br />

�<br />

2<br />

�<br />

� �� �<br />

= 1<br />

2n<br />

� E � v � S Z n−1,Zn<br />

�<br />

� E � v � S Z n−1,Zn<br />

+E � v � S Z ��<br />

n−1,Yn .<br />

�� � � ���<br />

Z<br />

− E v S �<br />

n−1,Yn<br />

��� � � � ���<br />

� + �E Z<br />

v S �<br />

n−1,Yn<br />

Jensen’sche Ungleichung<br />

≤ E �� �v � S Z ��� ��<br />

n ,Zn � + E �v � S Z ��� �<br />

n−1,Yn<br />

(10.19), Monotonie<br />

≤<br />

�<br />

� ��<br />

Z Sn − E fx<br />

nun die Taylor-Entwicklung (10.19) mit t = � S Z n−2 + Yn<br />

M<br />

� �<br />

E |Zn|<br />

6<br />

3�<br />

�<br />

+ E |Yn| 3��<br />

.<br />

�<br />

n�<br />

���<br />

���<br />

haben wollen, betrachten wir<br />

Yi<br />

i=1<br />

wir ganz analog zur obigen Rechnung durch Subtrahieren die Abschätzung<br />

� � � �� � � ���<br />

� Z Z<br />

E fx Sn−1 + Yn − E fx Sn−2 + Yn−1 + Yn<br />

�<br />

M<br />

≤<br />

6<br />

Nutze dann die Taylor-Entwicklung (10.19) mit t = � S Z n−3 + Yn−1Yn<br />

Das liefert dann allgemein<br />

� und h = Zn−1 bzw. h = Yn−1. Dort erhalten<br />

�<br />

E<br />

�<br />

�E � � �� � � ���<br />

Z Z<br />

fx Sk + Yk+1 + ... + Yn − E fx Sk−1 + Yk + ... + Yn � ≤ M<br />

6<br />

�<br />

|Zn−1| 3�<br />

+ E<br />

�<br />

|Yn−1| 3��<br />

.<br />

� und h = Zn−2 bzw. h = Yn−2 usw..<br />

� �<br />

E |Zk| 3�<br />

�<br />

+ E |Yk| 3��<br />

für alle k ∈ {1,...,n}. Mit <strong>der</strong> Dreiecksungleichung folgt so die behauptete Gleichung (10.20).<br />

Schritt II<br />

Wir wollen nun zeigen, dass die rechte Seite aus Schritt I (10.20) ≤ 0.6ε ist. Nach unseren Vorüberlegungen<br />

ist die rechte Seite<br />

�<br />

n�<br />

M<br />

� �<br />

E |Zi|<br />

6<br />

3�<br />

�<br />

+ E |Yi| 3���<br />

= M<br />

�<br />

γ<br />

√<br />

6 nσ3 +<br />

� �<br />

8 1<br />

√ . (10.21)<br />

π n<br />

σ 3 =<br />

i=1<br />

Da g (x) := x 3<br />

2 konvex ist, folgt mit <strong>der</strong> Jensen’schen Ungleichung 10.95, dass<br />

�� �3 V (X) = � E � 3 �<br />

|X − E (X) |<br />

2�� �|X � 3 �<br />

2 2 2<br />

≤ E − E(X)| = E � |X − E(X)| 3� = γ<br />

ist. Daher ist<br />

und es folgt, dass die rechte Seite 10.21<br />

γ<br />

≥ 1<br />

σ3 �<br />

M γ<br />

√<br />

6 nσ3 +<br />

� �<br />

8 1<br />

√<br />

π n<br />

≤ M<br />

�<br />

γ γ<br />

√ +<br />

6 nσ3 σ3 � �<br />

8 1<br />

√<br />

π n<br />

= M<br />

� � �<br />

γ 8<br />

√ 1 +<br />

6 nσ3 π<br />

� �� �<br />

≤δ<br />

≤ M<br />

6 δ<br />

� � �<br />

8<br />

1 +<br />

π<br />

= M 3.6ε<br />

�<br />

6<br />

M 1 +<br />

� � �<br />

8<br />

� 1 +<br />

π<br />

erfüllt - also genau die Behauptung.<br />

= 3.6<br />

6 ε<br />

= 0.6ε<br />

� 8<br />

π


10 Allgemeine Modelle und stetige Verteilungen 131<br />

Schritt III<br />

Nach Definition <strong>der</strong> Zi haben wir nun für alle x ∈ R<br />

�<br />

n�<br />

�<br />

Fn(x) = P Zi ≤ x<br />

da 1 (−∞,x]<br />

� n�<br />

Zi<br />

i=1<br />

�<br />

� �<br />

n�<br />

∼ B 1,P<br />

Zi ≤ x<br />

i=1<br />

mit <strong>der</strong> Monotonie des Erwartungswerts<br />

was mit Schritt I und II wie<strong>der</strong>um<br />

= E<br />

�<br />

i=1<br />

1 (−∞,x]<br />

� n�<br />

i=1<br />

Zi<br />

��<br />

,<br />

��<br />

gilt. Nach Wahl von f ist 1 (−∞,x] ≤ fx und daher folgt<br />

Fn (x) ≤ E<br />

Fn (x) ≤ E<br />

�<br />

�<br />

fx<br />

fx<br />

� n�<br />

� n�<br />

i=1<br />

i=1<br />

Yi<br />

Zi<br />

��<br />

��<br />

,<br />

+ 0.6ε<br />

zeigt. Nun ist 1 (−∞,x+ε] ≥ fx nach Wahl von f und daher folgt wie<strong>der</strong> mit <strong>der</strong> Monotonie<br />

Fn (x) ≤ E<br />

�<br />

1 (−∞,x+ε]<br />

� n�<br />

i=1<br />

Yi<br />

��<br />

+ 0.6ε = P<br />

� n�<br />

i=1<br />

Yi ≤ x + ε<br />

Da wie schon bemerkt laut Faltungssatz (Satz 10.77) n�<br />

Yi ∼ N (0,1) gilt, ist<br />

d.h. wir haben<br />

P<br />

� n�<br />

i=1<br />

Yi ≤ x + ε<br />

i=1<br />

�<br />

= Φ(x + ε) ,<br />

Fn (x) ≤ Φ(x + ε) + 0.6ε.<br />

�<br />

+ 0.6ε.<br />

Der Mittelwertsatz <strong>der</strong> Differentialrechnung liefert Φ(x + ε) ≤ Φ(x) + εΦ ′ (ξ) für ein ξ ∈ R. Wegen<br />

Φ ′ (ξ) = ϕ(ξ) ≤ 1<br />

√ 2π ≤ 0.4 für die Dichte ϕ <strong>der</strong> Standard-Normalverteilung folgt somit<br />

Ganz analog erhält man<br />

und mit dem Mittelwertsatz zusätzlich<br />

Zusammen zeigt das<br />

Fn(x) ≤ Φ(x) + 0.4ε + 0.6ε = Φ(x) + ε.<br />

Φ(x − ε) ≤ Fn(x) + 0.6ε<br />

Φ(x) ≤ Φ(x − ε) + 0.4ε.<br />

|Fn(x) − Φ(x)| ≤ ε<br />

für alle x ∈ R und daher über (10.18) die Behauptung.<br />

10.107 Satz (Fehlerabschätzung nach Berry-Esseen):<br />

Im obigen zentralen Grenzwertsatz (Satz 10.100) gilt für jedes n ∈ N<br />

�<br />

�<br />

�<br />

�<br />

� P<br />

�<br />

� �<br />

Sn − E (Sn)<br />

�<br />

� 0.8γ<br />

� ≤ x − Φ(x) � ≤ √<br />

V (Sn) � nσ3 für jedes x ∈ R. Diese Relation gilt auch mit einem < anstelle von ≤. Außerdem gilt damit<br />

�<br />

�<br />

�<br />

�<br />

� P<br />

�<br />

a ≤ Sn<br />

�<br />

�<br />

− E (Sn)<br />

�<br />

� 1.6γ<br />

� ≤ b − (Φ(b) − Φ(a)) � ≤ √<br />

V (Sn) � nσ3 .


132 10 Allgemeine Modelle und stetige Verteilungen<br />

Beweis:<br />

Diese Abschätzungen folgen schon aus unserem Beweis des zentralen Grenzwertsatzes. Es ist nur etwas<br />

Arbeitsaufwand, sie herauszulesen.<br />

Beispiel 10.108:<br />

Wir wollen Fehlerabschätzungen für den Grenzwertsatz von de Moivre-Laplace (Satz 9.2) im Fall p = 1<br />

2<br />

herleiten. Seien also X1,X2,... ∼ B � 1, 1<br />

�<br />

2 unabhängige Zufallsvariablen. Dann ist V (Xi) = 1<br />

4 , d.h. mit<br />

den Bezeichnungen des zentralen Grenzversatzes ist<br />

Außerdem ist |Xi − E(Xi)| = 1<br />

2 , da E (Xi) = 1<br />

2<br />

σ 3 = V (X) 3<br />

2 = 1<br />

8 .<br />

ist, d.h.<br />

�<br />

γ = E |X1 − E(X1)| 3�<br />

= 1<br />

8 .<br />

Daher ist γ<br />

σ 3 = 1 und die Fehlerabschätzungen werden zu<br />

0.8<br />

√ n bzw. 1.6<br />

√ n .


11 Markov-Ketten mit endlichem Zustandsraum 133<br />

11 Markov-Ketten mit endlichem Zustandsraum<br />

Die Idee<br />

Wir wollen ein stochastisches Modell für die Bewegung eines Teilchens auf endlich vielen Zuständen<br />

geben, wobei die Wahrscheinlichkeit für den nächsten Zustand nur vom jetzigen Zustand und nicht von<br />

<strong>der</strong> weiteren Vergangenheit abhängt. Diese Eigenschaft wird auch ” Markov-Eigenschaft“ genannt und ist<br />

oftmals nur eine Approximation <strong>der</strong> Wirklichkeit. Die Lösung für ein solches Modell sind Markov-Ketten,<br />

die wir in Abschnitt 11.2 kennen lernen werden.<br />

Beispiel 11.1:<br />

Wir betrachten einen Springer, <strong>der</strong> sich allein auf dem Schachbrett bewegt. Er wählt aus allen ihm<br />

erlaubten Zügen jeweils rein zufällig (also gleichverteilt) den nächsten Raus. In diesem Beispiel entsprechen<br />

die Zustände den 64 Fel<strong>der</strong>n des Schachbretts und das Teilchen dem Springer.<br />

Man kann sich jetzt etwa Fragen, wie lang die erwartete Zeit ist, bis <strong>der</strong> Springer wie<strong>der</strong> in seiner<br />

Startposition ankommt.<br />

Beispiel 11.2:<br />

Ein weiteres Beispiel ist ein sogenannter ” Netbot“, <strong>der</strong> zufällig gemäß Ausgangslinks von Seite zu Seite<br />

wan<strong>der</strong>t.<br />

Beispiel 11.3 (Markov):<br />

Markov betrachtete ursprünglich folgendes Problem: Wenn die Folge von Vokalen / Konsonanten in<br />

Puschkin’s Roman ” Eugene Onegin“ die Markov-Eigenschaft hätte, dann wäre die ” Übergangsmatrix“<br />

(definieren wir weiter unten) gegeben durch<br />

0.128<br />

��<br />

0.872<br />

��<br />

V ��<br />

K<br />

��<br />

0.663<br />

Heutzutage werden Markov-Ketten vor allem als Modell für DNA-Folgen genutzt, wobei das Alphabet<br />

dann {A,C,G,T} ist.<br />

Eine an<strong>der</strong>e Interpretation von Markov-Ketten ist, dass ein System (�= Teilchen) sich in einem von endlich<br />

vielen Zuständen befindet. Zu bestimmten Event-Zeitpunkten springt es dann in einen neuen Zustand.<br />

Diese Interpretation wird heutzutage etwas bei <strong>der</strong> Pufferauslastung von Servern verwendet.<br />

11.1 Steuerung <strong>der</strong> Sprünge: Übergangsmatrizen und -graphen<br />

11.4 Definition:<br />

Eine Zustandsmenge S ist eine endliche Menge.<br />

Sei von jetzt an stets S eine Zustandsmenge. Oftmals ist S = {1,...,N}, allerdings verwenden wir oft das<br />

Symbol 1 für den Zustand ” 1“, um nicht durcheinan<strong>der</strong> zu kommen.<br />

11.5 Definition:<br />

0.337<br />

Sei #S = N ∈ N. Eine N × N-Matrix P = (pi,j) i,j∈S mit den Eigenschaften<br />

• pi,j ≥ 0 ∀ i,j ∈ S<br />

• �<br />

pi,j = 1 ∀ i ∈ S<br />

j∈S<br />

heißt stochastische Matrix o<strong>der</strong> Übergangsmatrix auf S.<br />

In diesem Fall sind alle Zeilen von P stochastische Vektoren.<br />

Notation 3:<br />

Sei P eine Übergangsmatrix auf S. Für den Eintrag von P in <strong>der</strong> i-ten Zeile und j-ten Spalte schreiben<br />

wir<br />

P(i,j) = pi,j<br />

bei i,j ∈ S.<br />

.


134 11 Markov-Ketten mit endlichem Zustandsraum<br />

Beispiel 11.6:<br />

Wir wollen die tägliche Wetterentwicklung modellieren. Dazu sei<br />

S := {Regen, Sonne, bewölkt} .<br />

Wir nummerieren die Zustände in dieser Reihe durch (also Regen �= 1, Sonne �= 2, bewölkt �= 3).<br />

Als Übergangsmatrix definieren wir<br />

Das soll etwa bedeuten, dass<br />

11.7 Definition:<br />

P :=<br />

⎛<br />

⎜<br />

⎝<br />

0 1 0<br />

1<br />

3 0 2<br />

3<br />

1 1 1<br />

3 3 3<br />

⎞<br />

⎟<br />

⎠ .<br />

P (morgen bewölkt | heute Sonne) = p2,3 = 2<br />

3 .<br />

Zu einer Übergangsmatrix P auf S gehört stets ein Übergangsgraph GP, welcher wie folgt zu konstruieren<br />

ist:<br />

Die Menge E <strong>der</strong> Ecken von GP ist S. Eine Kante von i ∈ S nach j ∈ S mit Gewicht pi,j wird gehört<br />

genau dann zur Kantenmenge V von GP, wenn pi,j > 0 gilt.<br />

Beispiel 11.8:<br />

In unserem Wettermodell aus Beispiel 11.6 wäre <strong>der</strong> zugehörige Graph<br />

1<br />

1<br />

3<br />

��<br />

2<br />

��<br />

��<br />

1 ������<br />

1<br />

3<br />

3 1<br />

��<br />

Beispiel 11.9 (Lieblingsbeispiel des Dozenten):<br />

Betrachte die Übergangsmatrix<br />

P =<br />

3<br />

� 0 1<br />

Dann ist <strong>der</strong> zugehörige Übergangsgraph GP gegeben als<br />

11.10 Definition:<br />

1<br />

1<br />

2<br />

1<br />

2<br />

1<br />

3<br />

�<br />

��<br />

1 ��<br />

2<br />

��<br />

1<br />

2<br />

Sei G = (V,E) ein Graph und i,j ∈ V . Ein Pfad o<strong>der</strong> Weg von i nach j in G ist eine Folge von Ecken<br />

.<br />

2<br />

3<br />

vi,i1 ,vi1,i2 ,...,vin−1,in ,vin,j<br />

zwischen den Punkten i und i1, i1 und i2,... entsprechend mit i1,...,in ∈ V .<br />

Im allgemeinen existiert kein Pfad zwischen beliebigen i,j ∈ V . Für einen Pfad w gegeben durch i =<br />

i0,i1,...,in = j von i nach j sei |w| = n seine Länge. Wir schreiben für w auch<br />

i w ��<br />

j.<br />

Man kann Wege auch verknüpfen: Ist i w1 �<br />

� j und j w2 �<br />

� k, so ist i w1w2 �<br />

� k ebenfalls ein Weg mit<br />

|w1w2| = |w1| + |w2|.<br />

1<br />

2<br />

.<br />

1<br />

3


11 Markov-Ketten mit endlichem Zustandsraum 135<br />

11.11 Definition:<br />

11.14 Satz:<br />

Sei P eine Übergangsmatrix auf S. P beziehungsweise <strong>der</strong> zugehörige Übergangsgraph GP heißen<br />

irreduzibel, wenn es für jedes Paar i,j ∈ S ein Pfad von i nach j von GP gibt.<br />

Beispiel 11.12:<br />

Die Übergangsmatrize bzw.- graphen aus obigen Beispielen 11.6 und 11.9 sind beide irreduzibel. Betrachtet<br />

man dagegen die Übergangsmatrix �<br />

1<br />

P =<br />

�<br />

0<br />

,<br />

so sieht man am zugehörigen Graphen<br />

1<br />

��<br />

1<br />

2<br />

1<br />

2<br />

1<br />

��<br />

2<br />

��<br />

leicht, dass dieses Beispiel nicht irreduzibel ist - es gibt keinen Pfad von 1 nach 2 !<br />

Bemerkung 11.13:<br />

1<br />

2<br />

Man beobachtet nun Folgendes: Ist P eine Übergangsmatrix auf S, so beschreibt eine Folge von Zuständen<br />

aus S genau dann einen Pfad von i nach j, wenn<br />

ist, d.h. falls die Zahl<br />

strikt positiv ist.<br />

pi0,i1<br />

i = i0, i1, ...,in−1, in = j<br />

> 0 und pi1,i2 > 0 und ... und pin−1,in > 0<br />

n−1 �<br />

ν=0<br />

piν,iν+1<br />

Wir definieren diese Zahl als das Gewicht des Pfades und die Zahl n als seine Länge.<br />

11.1.1 Potenzen <strong>der</strong> Matrix P<br />

Im Weiteren benötigen wir ständig n-te Potenzen <strong>der</strong> Matrix P. Sei n ∈ N und N = #S. Man beachte:<br />

• Die N × N-Matrix P2 = P · P ist gegeben durch<br />

P 2 (i,j) = �<br />

pi,k · pk,j = �<br />

P(i,k) · P(k,j) , i,j ∈ S.<br />

k∈S<br />

k∈S<br />

• Allgemein folgt induktiv für P n = P · P n−1 , dass<br />

P n (i,j) = �<br />

i1,...,in−1∈S<br />

1<br />

2<br />

pi,i1 · ... · pin−1,j, i,j ∈ S, (11.1)<br />

d.h. dass die Zahl P n (i,j) genau die Summe aller Gewichte von Pfaden <strong>der</strong> Länge n von i nach j<br />

ist.<br />

Damit haben wir sofort folgenden<br />

Sei P eine Übergangsmatrix auf S. Dann gilt:<br />

P ist genau dann irreduzibel, wenn es für jedes Paar i,j ∈ S ein n = n(i,j) ∈ N mit<br />

gibt.<br />

P n (i,j) > 0


136 11 Markov-Ketten mit endlichem Zustandsraum<br />

Beweis:<br />

Ist P irreduzibel, so gibt es zu i,j ∈ S ein n = n(i,j) und einen Pfad <strong>der</strong> Länge n von i nach j mit<br />

Gewicht λ ∈ (0,1]. Wie wir oben schon beobachtet haben, ist P n (i,j) die Summe aller Gewichte von<br />

Pfaden <strong>der</strong> Länge n von i nach j, und da Gwichte von Pfaden stets positiv sind folgt<br />

P n (i,j) ≥ λ > 0.<br />

Gibt es zu i,j ∈ S ein n = n(i,j) mit P n (i,j) > 0, so bedeutet das aus dem gleichen Grund, dass ein<br />

Pfad von i nach j in GP <strong>der</strong> Länge n existiert.<br />

Beispiel 11.15:<br />

Sei<br />

Dann ist � 1 0<br />

0 1<br />

�<br />

P =<br />

= P 2 = P 4 = ... und<br />

� 0 1<br />

1 0<br />

�<br />

.<br />

� 0 1<br />

1 0<br />

�<br />

= P = P 3 = P 5 = ....<br />

Daher ist laut Satz schon mit n = 2 klar, dass P irreduzibel ist. Das kann man auch am zugehörigen<br />

Graphen GP leicht erkennen:<br />

Beispiel 11.16:<br />

Wir betrachten wie<strong>der</strong> die Übergangsmatrix<br />

aus Beispiel 11.9. Dann ist<br />

1<br />

��<br />

1 ��<br />

2 .<br />

P =<br />

P 2 =<br />

1<br />

� 0 1<br />

1<br />

2<br />

�<br />

1<br />

2<br />

1<br />

4<br />

� �<br />

womit offenbar n = 2 für jedes Paar i,j ∈ S =<br />

zu zeigen.<br />

1 , 2 ausreicht, um die Irreduzibilität mit dem Satz<br />

Wir werden meist nur irreduzible Übergangsmatrizen P<br />

betrachten!<br />

11.1.2 Die Periode einer Übergangsmatrix<br />

11.17 Definition:<br />

Sei P eine irreduzible Übergangsmatrix auf S. Die Periode eines Zustands i ∈ S ist <strong>der</strong> größte gemeinsame<br />

Teiler <strong>der</strong> Menge<br />

Beispiel 11.18:<br />

{n ∈ N | es gibt einen Pfad <strong>der</strong> Länge n von i nach i} = {n ∈ N | P n (i,i) > 0} .<br />

Wir betrachten wie<strong>der</strong> die Übergangsmatrix<br />

P =<br />

1<br />

2<br />

1<br />

2<br />

3<br />

4<br />

� 0 1<br />

1 0<br />

aus Beispiel 11.15.<br />

� �<br />

Für den Zustand i = 1 existieren offenbar Pfade mit Längen 2,4,6,8,... von i nach<br />

i, daher ist d 1 = 2. Das kann man mit <strong>der</strong> zweiten Charakterisierung <strong>der</strong> Menge aus <strong>der</strong> Definition<br />

auch direkt aus den berechneten Matrix-Potenzen im Beispiel oben ablesen.<br />

� �<br />

Genauso ist d 2 = 2.<br />

�<br />

�<br />

�<br />

,


11.20 Satz:<br />

11 Markov-Ketten mit endlichem Zustandsraum 137<br />

Beispiel 11.19:<br />

Wir kommen wie<strong>der</strong> zum Lieblingsbeispiel des Dozenten (Beispiel 11.9). Dort ist<br />

� �<br />

0 1<br />

P = .<br />

1<br />

2<br />

• Für i = 1 finden wir offenbar Pfade von i nach i mit den Längen 2,3,4,5,6 usw., schließlich können<br />

wir im Zustand<br />

� �<br />

2 “ immer rotieren. Das größte gemeinsame Teiler dieser Menge ist 1, d.h. wir<br />

”<br />

haben d 1 = 1.<br />

• Für i = 2 gibt es sogar<br />

�<br />

einen<br />

�<br />

Pfad von i nach i mit Länge 1, weshalb es keinen größeren Teiler als<br />

1 geben kann. Es folgt d 2 = 1.<br />

Nach diesen beiden Beispielen kann man schon vermuten: Für jedes i ∈ S ist d(i) gleich. In <strong>der</strong> Tat ist<br />

diese Aussage stets richtig:<br />

Sei P eine irreduzible Übergangsmatrix auf S. Dann ist die Periode d(i) für jedes i ∈ S gleich.<br />

Beweis:<br />

Seien i,j ∈ S. Es genügt zu zeigen, dass d(i) die Zahl d(j) teilt, also d(i) � � d(j).<br />

Da P irreduzibel ist finden wir einen Weg i w1 ��<br />

j mit |w1| = r und j w2 ��<br />

i mit |w2| = r. Insbeson<strong>der</strong>e<br />

ist dann<br />

mit |w1w2| = r + s. Das zeigt zunächst<br />

1<br />

2<br />

i w1w2 ��<br />

i<br />

d(i) � �r + s. (11.2)<br />

Ist nun j w �<br />

��<br />

j ein beliebiger Pfad mit |w| = n, so bleibt zu zeigen, dass d(i) �n. Da dann<br />

ein Pfad mit |w1ww2| = r + s + n ist, folgt daraus<br />

i w1ww2 ��<br />

i<br />

Mit (11.2) und (11.3) folgt aber d(i) � � n, was zu zeigen war.<br />

Bemerkung 11.21:<br />

d(i) � �r + s + n. (11.3)<br />

Beachte, dass P zwingend irreduzibel sein muss, damit dieser Satz gilt. Man kann Perioden von Zuständen<br />

auch für nicht irreduzible Übergangsmatrizen P definieren, allerdings kann dann d(i) �= d(j) für i �= j,<br />

i,j ∈ S gelten.<br />

11.22 Definition:<br />

Sei P eine irreduzible Übergangsmatrix auf S. Wir nennen die Zahl<br />

d := d(i), i ∈ S beliebig<br />

die Periode von P. Nach obigem Satz ist d wohldefiniert.<br />

11.23 Definition:<br />

Sei P eine irreduzible Übergangsmatrix auf S. Ist d = 1, so nennen wir P aperiodisch.<br />

Bemerkung 11.24:<br />

Zur Bestimmung <strong>der</strong> Periode d kann man sich also ein i ∈ S aussuchen. Gibt es im Übergangsgraphen<br />

GP zum Beispiel eine Schleife <strong>der</strong> Form<br />

p1<br />

... ��<br />

��<br />

i ��<br />

so wählt man als Zustand i und hat sofort d = 1.<br />

p2<br />

p3>0<br />

,


11.27 Satz:<br />

138 11 Markov-Ketten mit endlichem Zustandsraum<br />

Beispiel 11.25:<br />

Betrachte die Übergangsmatrix P, welche durch den Übergangsgraphen<br />

1<br />

2<br />

��<br />

��<br />

��<br />

1 ��<br />

2 ��<br />

3 ��<br />

4<br />

1<br />

2<br />

1<br />

2<br />

1<br />

2<br />

� �<br />

gegeben ist. Da es offenbar nur Wege gera<strong>der</strong> Längen von i nach i für jedes i ∈ S = 1 , 2 , 3 , 4<br />

geben kann, ist d = 2.<br />

Beispiel 11.26:<br />

Betrachte die Übergangsmatrix P, welche durch den Übergangsgraphen<br />

1<br />

2<br />

1<br />

2<br />

��<br />

1<br />

��<br />

1<br />

2<br />

��<br />

����<br />

2<br />

��<br />

3<br />

3<br />

1<br />

2<br />

� �<br />

gegeben ist. Dann finden wir für jedes i ∈ S =<br />

folgt.<br />

1 , 2 , 3 Wege <strong>der</strong> Länge 2 und 3, weshalb d = 1<br />

Seine Übergangsmatrix P ist genau dann irreduzibel und aperiodisch, wenn es ein n ∈ N mit<br />

gibt.<br />

Beweis:<br />

1<br />

2<br />

P n (i,j) > 0 ∀ i,j ∈ S<br />

Wir wollen die folgende zahlentheoretische Tatsache verwenden:<br />

Ist <strong>der</strong> größte gemeinsame Teiler ggT (n1,n2,...) unendlich vieler natürlicher Zahlen = 1, so gibt es ein<br />

k ∈ N mit ggT (n1,...,nk) = 1. Dann existiert ein M ∈ N s.d. jedes m ≥ M geschrieben werden kann als<br />

m = a1 · n1 + ... + aknk<br />

mit Koeffizienten ai ∈ N, i = 1,..,k. Dies sieht man leicht über die Theorie <strong>der</strong> Hauptideale ein.<br />

” ⇒“ Sei 1 ∈ S. Da P aperiodisch ist, ist d<br />

� �<br />

1 = 1 und es gibt nach unserer zahlentheoretischen<br />

Tatsache ein M ∈ N, s.d. für alle m ≥ M ein Weg<br />

existiert.<br />

1<br />

w ��<br />

1 , |w| = m<br />

Für #S = N setze nun n := M + 2N. Da P irreduzibel ist, finden wir zu i,j ∈ S beliebig einen<br />

Weg<br />

i w1 ��<br />

j<br />

mit |w1| ≤ N, indem wir keine Zustände unnötigerweise doppelt besuchen. Genauso existiert auch<br />

ein Weg<br />

w2<br />

1 ��<br />

j<br />

mit |w2| ≤ N. Gemäß <strong>der</strong> Wahl von M finden wir einen Pfad<br />

1<br />

w ��<br />

1<br />

1<br />

2<br />

1<br />

2<br />

1<br />

2


11 Markov-Ketten mit endlichem Zustandsraum 139<br />

mit |w| = 2N − |w1| − |w2| + M ≥ M. Damit ist<br />

mit |w1ww2| = 2N + M, also P n (i,j) > 0.<br />

i w1ww2 ��<br />

j<br />

” ⇐“ Ist Pn (i,j) > 0 für alle i,j ∈ S, so folgt aus <strong>der</strong> Darstellungsformel<br />

P n+1 (i,j) = �<br />

P(i,k) · P n (k,j)<br />

k∈S<br />

und <strong>der</strong> Tatsache, dass jede Zeile von P ein stochastischer Vektor <strong>der</strong> Länge N ist , auch sofort<br />

P n+1 (i,j) > 0 ∀ i,j ∈ S. Daher gibt es Wege <strong>der</strong> Länge n und n + 1 von 1 nach 1 . Es folgt<br />

d(1) � � (n + 1) − n = 1 und somit d(1) = 1. Daher ist P aperiodisch.<br />

Die Irreduzibilität von P folgt bereits aus Satz 11.14.<br />

11.2 Markov-Ketten<br />

Von jetzt an werden wir stets ohne Einschränkung S = {1,...,N} annehmen. Bisher haben wir in diesem<br />

Zusammenhang unsere Zustände stets mit 1 ,..., N notiert, was wir jetzt nicht weiter machen wollen.<br />

Es ist aus dem Kontext klar, ob ein Zustand o<strong>der</strong> eine Zahl gemeint ist.<br />

11.28 Definition:<br />

Eine Startverteilung auf S = {1,...,N} ist eine Wahrscheinlichkeitsverteilung<br />

11.29 Definition:<br />

π0 := (π0 (1) ,...,π0 (N)).<br />

Sei P eine Übergangsmatrix und π0 eine Startverteilung auf S.<br />

Eine Markov-Kette zu P mit Startverteilung π0 ist eine Folge<br />

X0,X1,X2,X3,...<br />

von (diskreten) Zufallsvariablen mit Werten in S, s.d.<br />

(1) P (X0 = i) = π0 (i) (Startverteilung)<br />

(2) (Markov-Eigenschaft)<br />

Für alle Wahlen n ≥ 0, 0 ≤ k ≤ n, in+1,...,in−k ∈ S mit P (Xn = in,...,Xn−k = in−k) �= 0 gilt<br />

P (Xn+1 = in+1 | Xn = in,...,Xn−k = in−k) = P (Xn+1 = in+1 | Xn = in) = P(in,in+1) .<br />

Bemerkung 11.30:<br />

(1) Xn gibt in diesem Modell den zufälligen Zustand zur Zeit n ∈ N an.<br />

(2) Die Markov-Eigenschaft (o<strong>der</strong> auch kurz ME) modelliert die Eigenschaft des stochastischen<br />

Prozesses X0,X1,X2,..., dass ” die Wahrscheinlichkeit für den nächsten Zustand nur vom jetzigen<br />

Zustand und nicht von <strong>der</strong> weiteren Vergangenheit abhängt“, wie wir es in <strong>der</strong> Idee zu Beginn<br />

gefor<strong>der</strong>t haben.<br />

Die For<strong>der</strong>ung P (Xn = in,...,Xn−k = in−k) �= 0 ist mathematisch unerlässlich, wir werden sie aber<br />

stets stillschweigend annehmen.<br />

Man kann sich nun Fragen, ob es überhaupt Markov-Ketten gibt (d.h. ob für jede Übergangsmatrix und<br />

jede Startbedingung Zufallsvariablen X0,X1,... mit obigen Eigenschaften existieren). Die Maßtheorie<br />

beantwortet diese Frage mit ja.<br />

Man kann nun einige Eigenschaften von X0,X1,X2 berechnen und zeigen, dass es sich um das ” richtige“<br />

Modell für das zufällige, durch P gesteuerte Wan<strong>der</strong>n auf GP bei zufälligem, durch π0 gesteuertem Start<br />

handelt.


140 11 Markov-Ketten mit endlichem Zustandsraum<br />

11.2.1 Drei elementare Wahrscheinlichkeiten von Markov-Ketten<br />

Wir betrachten hier stets einen Markov-Prozess aus Definition 11.29.<br />

Bemerkung 11.31 (Pfadwahrscheinlichkeiten):<br />

Für m ∈ N und i0,i1,...,im ∈ S haben wir<br />

P � �<br />

Xn+m = im,Xn+m−1 = im−1,...,Xn = i0<br />

� �� �<br />

=:B<br />

Daher folgt induktiv<br />

P (Xn+m = im,Xn+m−1 = im−1,...,Xn = i0) =<br />

= P (Xn+m = im | B)<br />

Markov-Eigenschaft<br />

= P(im−1,im) · P (B).<br />

m�<br />

P(iν−1,iν) · P (Xn = i0) .<br />

Die Wahrscheinlichkeit P (Xn = i0) werden wir in Bemerkung 11.34 bestimmen. Fall n = 0 ist, so ist<br />

P (X0 = ii) = π0 (i0)<br />

durch die Startverteilung gegeben. In diesem Fall entspricht die sich ergebende Wahrscheinlichkeit also<br />

genau unseren Wünschen!<br />

Bemerkung 11.32 (m-Schritt Übergangswahrscheinlichkeiten):<br />

Sind i,j ∈ S, so erhält man durch disjunkte Zerlegung von S in seine Elemente sofort<br />

=<br />

ν=1<br />

P (Xn+m = j,Xn = i)<br />

�<br />

P (Xn+m = j,Xn+m−1 = im−1,...,Xn+1 = i1,Xn = i)<br />

im−1,...,i1∈S<br />

Bemerkung 11.31<br />

= P (Xn = i) · �<br />

im−1,...,i1∈S<br />

(11.1)<br />

= P (Xn = i) · P(i,j) .<br />

Insbeson<strong>der</strong>e folgt durch Division des Terms P (Xn = i), dass<br />

Beispiel 11.33:<br />

Ist<br />

P (Xn+m = j | Xn = i) = P m (i,j) .<br />

P =<br />

� 0 1<br />

die Übergangsmatrix aus Beispiel 11.9, so berechnet man<br />

�<br />

�<br />

P 2 =<br />

�<br />

1<br />

2<br />

1<br />

4<br />

1<br />

2<br />

3<br />

4<br />

, P 4 =<br />

�<br />

3<br />

8<br />

5<br />

16<br />

5<br />

8<br />

11<br />

16<br />

1<br />

2<br />

1<br />

2<br />

P(i,i1) · P(i1,i2) · ... · P(im−1,j)<br />

�<br />

, P 10 ≈<br />

� 0.33398 0.66602<br />

Daher ist zum Beispiel P (Xn+4 = 1 | Xn = 2) = P4 (2,1) = 5<br />

16 = 0.3125.<br />

Bemerkung 11.34 (Verteilung zur Zeit n):<br />

Sei<br />

πn (j) := P (Xn = j) , j ∈ S<br />

0.33301 0.66699<br />

die Verteilung von Xn. Dann ist πn ein Wahrscheinlichkeitsvektor (als Zeile!). Man berechnet mit <strong>der</strong><br />

Formel von <strong>der</strong> totalen Wahrscheinlichkeit für jedes j ∈ S<br />

πn (j) = P (Xn = j)<br />

(3.2)<br />

=<br />

�<br />

P (Xn = j | X0 = i) · P (X0 = i)<br />

Bemerkung 11.32<br />

=<br />

i∈S<br />

�<br />

P n (i,j) · π0 (i)<br />

i∈S<br />

= (π0P n ) (j) ,<br />

�<br />

.


11 Markov-Ketten mit endlichem Zustandsraum 141<br />

wobei π0P n das Matrix-Produkt aus dem Zeilenvektor (also <strong>der</strong> 1 ×N-Matrix) π0 und <strong>der</strong> N ×N-Matrix<br />

P n bezeichnet. Das liefert die Formel<br />

Beispiel 11.35:<br />

πn = π0P n . (11.4)<br />

Wir betrachten wie<strong>der</strong> das Setting aus Beispiel 11.33. Ist etwa π0 = (0,1), d.h. starten wir mit Sicherheit<br />

im Zustand 2, so ist<br />

π4 = π0P 4 = zweite Zeile von P 4 � �<br />

5 11<br />

= , .<br />

16 16<br />

Wir haben so die Zustandsverteilung im Schritt n = 4 berechnet.<br />

Ist dagegen π0 = � �<br />

1 1<br />

2 , 2 , was etwa einem Münzwurf für den Startzustand entspricht, so ist<br />

π4 = π0P 4 = 1<br />

2 · erste Zeile von P4 + 1<br />

2 · zweite Zeile von P4 � �<br />

11 21<br />

= , .<br />

32 32<br />

Wir werden im nächsten Abschnitt allgemein sehen, dass<br />

für jede beliebige Startverteilung π0 gilt!<br />

πn<br />

n<br />

��<br />

∞ ��<br />

�<br />

1 2<br />

,<br />

3 3<br />

11.3 Invariante Maße und Konvergenzsätze<br />

11.36 Definition:<br />

Ist P eine Übergangsmatrix und π eine Wahrscheinlichkeitsverteilung auf S mit <strong>der</strong> Eigenschaft, dass<br />

ist, so nennt man π eine invariante Verteilung.<br />

Bemerkung 11.37:<br />

πP = π<br />

Der Begriff ” invariant“ macht in diesem Zusammenhang um so mehr Sinn, denn in diesem Fall gilt<br />

πP n = πP � P n−1� = πP n−1 = ... = π.<br />

D.h. wenn X0,X1,X2,... eine Markov-Kette zu P mit <strong>der</strong> speziellen Startverteilung π0 = π ist, so gilt<br />

nach (11.4).<br />

11.38 Satz (Konvergenzsatz):<br />

πn = π ∀ n ∈ N<br />

Sei P eine irreduzible und aperiodische Übergangsmatrix.<br />

(1) Dann gibt es genau eine invariante Verteilung π zu P. Außerdem konvergieren alle Zeilen von P n<br />

(exponentiell schnell) gegen π, d.h.<br />

P n (i,j)<br />

n<br />

�<br />

��<br />

∞ ��<br />

π (j) ∀ i ∈ S.<br />

(2) Ist X0,X1,X2,... eine Markov-Kette zu P und einer beliebigen Startverteilung π0, so gilt<br />

d.h. P (Xn = j)<br />

n<br />

πn<br />

��<br />

∞ ��<br />

π (j) für alle j ∈ S.<br />

n<br />

��<br />

∞ ��<br />

π,


142 11 Markov-Ketten mit endlichem Zustandsraum<br />

Beweis:<br />

(1) Wir unterteilen den Beweis in zwei Schritte:<br />

Sei j ∈ S beliebig aber fest. Wir setzen<br />

Wegen<br />

und<br />

ist die Folge m (n)<br />

j<br />

fallend in n.<br />

Schritt I<br />

m (n)<br />

j := min<br />

i∈S Pn (i,j) �= Minimum <strong>der</strong> Werte <strong>der</strong> j − en Spalte von P n ,<br />

M (n)<br />

j := max<br />

i∈S Pn (i,j) �= Maximum <strong>der</strong> Werte <strong>der</strong> j − en Spalte von P n .<br />

Unser Ziel ist es nun zu zeigen, dass<br />

gilt.<br />

m (n+1)<br />

j = min<br />

i∈S Pn+1 (i,j)<br />

= min<br />

i∈S<br />

≥ min<br />

i∈S<br />

= m (n)<br />

j<br />

�<br />

P(i,k) P n (k,j)<br />

k∈S<br />

�<br />

k∈S<br />

P(i,k) m (n)<br />

j<br />

M (n+1)<br />

j = max<br />

i∈S Pn+1 (i,j)<br />

= max<br />

i∈S<br />

≤ min<br />

i∈S<br />

= M (n)<br />

j<br />

�<br />

P(i,k) P n (k,j)<br />

k∈S<br />

�<br />

k∈S<br />

P(i,k) M (n)<br />

j<br />

monoton wachsend in n (nicht zwingend streng) und die Folge M(n)<br />

j monoton<br />

M (n)<br />

j<br />

− m(n)<br />

j<br />

n<br />

��<br />

∞ ��<br />

0 (11.5)<br />

Da P irreduzibel und aperiodisch ist folgt nach Satz 11.27, dass es ein L ∈ N und ein δ > 0 gibt,<br />

s.d.<br />

P L (i,j) ≥ δ ∀ i,j ∈ S<br />

ist. Sei n ∈ N zunächst fest. Wähle<br />

• ein i0 ∈ S mit<br />

und<br />

• ein i1 ∈ S mit<br />

Sei nun<br />

und I− := S \ I+. Mit dieser Einteilung folgt<br />

�<br />

k∈I+<br />

P n+L (i0,j) = m (n+L)<br />

j<br />

P n+L (i1,j) = M (n+L)<br />

j .<br />

I+ := � k ∈ S | P L (i1,k) ≥ P L (i0,k) �<br />

� L<br />

P (i1,k) − P L (i0,k) � + � � L<br />

P (i1,k) − P L (i0,k) � = �<br />

k∈I−<br />

k∈S<br />

P L (i1,k) − �<br />

P L (i0,k)<br />

k∈S<br />

= 1 − 1 = 0. (11.6)


11 Markov-Ketten mit endlichem Zustandsraum 143<br />

Damit gilt dann<br />

M (n+L)<br />

j<br />

− m (n+L)<br />

j = P n+L (i1,j) − P n+L (i0,j)<br />

= �<br />

P n (i1,k) P L (k,j) − �<br />

k∈S<br />

k∈S<br />

� L<br />

P (i1,k) − P L (i0,k) �<br />

= �<br />

P<br />

� �� �<br />

n (k,j)<br />

k∈S<br />

=:dk<br />

= �<br />

dkP n (k,j) + �<br />

dkP n (k,j) ,<br />

k∈I+<br />

k∈I−<br />

P n (i0,k) P L (k,j)<br />

und da für k ∈ I+ offenbar dk ≥ 0 und für k ∈ I− offenbar dk < 0 gilt folgt so<br />

M (n+L)<br />

j − m (n+L)<br />

j ≤ � �<br />

+<br />

(11.6)<br />

=<br />

Induktiv folgt also für jedes m ∈ N, dass<br />

�<br />

M (m·L)<br />

j<br />

Da wir schon wissen, dass m (n)<br />

j<br />

Aussage (11.5).<br />

Setze nun<br />

≤<br />

k∈I+<br />

�<br />

k∈I+<br />

dkM (n)<br />

j<br />

dk<br />

�<br />

M (n)<br />

j<br />

�<br />

M (n)<br />

j<br />

− m(n)<br />

j<br />

�<br />

≤ (1 − δ) · M (n)<br />

j<br />

− m (m·L)<br />

� �<br />

m<br />

j ≤ (1 − δ)<br />

M (0)<br />

j<br />

k∈I−<br />

− m(n)<br />

j<br />

�<br />

· �<br />

− m(0) j<br />

k∈I+<br />

dkm (n)<br />

j<br />

�<br />

− m(n)<br />

j<br />

�<br />

� �� �<br />

≤1<br />

monoton wächst und M(n)<br />

j<br />

Schritt II<br />

π (j) := lim<br />

n→∞ m(n) j = lim<br />

n→∞ M(n) j .<br />

� P L (i1,k) − δ �<br />

�<br />

.<br />

m<br />

��<br />

∞ ��<br />

0.<br />

monoton fällt folgt so die behauptete<br />

Da die Folgen m (n)<br />

j und M (n)<br />

j beschränkt (durch [0,1]) und monoton sind, existieren diese Grenzwerte.<br />

Wegen<br />

m (n)<br />

j ≤ Pn (i,j) ≤ M (n)<br />

j ∀ i ∈ S<br />

folgt sofort<br />

P n (i,j)<br />

n<br />

��<br />

∞ ��<br />

π (j)<br />

für alle j ∈ S. Nun weisen wir die noch fehlenden Eigenschaften nach:<br />

• Wir müssen zeigen, dass π ein Wahrscheinlichkeitsvektor ist. Da aber<br />

(P n (1,j)) j∈S<br />

für jedes n ∈ N ein Wahrscheinlichkeitsvektor ist und diese Folge für n<br />

vergiert, ist diese Aussage klar.<br />

• Wir müssen zeigen, dass π eine invariante Verteilung für P ist. Das folgt aus<br />

πP(j) = �<br />

π(k)P(k,j) ←− n<br />

k∈S<br />

für jedes j ∈ S.<br />

��<br />

�<br />

∞<br />

k∈S<br />

P n (i,k) π(k)P(k,j) = P n+1 (i,j)<br />

��<br />

∞ gegen π kon-<br />

n<br />

��<br />

∞ ��<br />

π(j)


144 11 Markov-Ketten mit endlichem Zustandsraum<br />

• Wir müssen zeigen, dass π eindeutig bestimmt ist. Sei dazu π ′ eine Wahrscheinlichkeitsverteilung<br />

mit π ′ = π ′ P. Insbeson<strong>der</strong>e ist dann π ′ = π ′ P n für alle n ∈ N und daher gilt für alle<br />

j ∈ S<br />

Im Grenzübergang n<br />

π ′ (j) = �<br />

��<br />

∞ ist Pn (k,j)<br />

k∈S<br />

π ′ (k)P n (k,j) .<br />

��<br />

π (j), d.h. es folgt<br />

π ′ (j) = �<br />

π ′ (k) π(j) = π(j)<br />

k∈S<br />

� �� �<br />

=1<br />

für alle j ∈ S, was gleichbedeutend mit π = π ′ ist.<br />

(2) Mit Teil (1) folgt leicht für jede beliebige Startverteilung π0 und jedes j ∈ S<br />

Das zeigt πn<br />

Beispiel 11.39:<br />

n<br />

P (Xn = j) = πn (j)<br />

��<br />

∞ ��<br />

π.<br />

Bemerkung 11.34<br />

n<br />

= (π0P n ) (j)<br />

�<br />

= π0(k) P<br />

k∈S<br />

n (k,j)<br />

� �� �<br />

n ��<br />

∞ �<br />

��<br />

∞ ��<br />

π (j) �<br />

π0(k)<br />

= π(j).<br />

Wir haben schon gesehen, dass die Übergangsmatrix<br />

� �<br />

0 1<br />

P =<br />

1<br />

2<br />

1<br />

2<br />

k∈S<br />

� �� �<br />

=1<br />

aus Beispiel 11.9 irreduzibel und aperiodisch ist. Wir suchen nun zunächst eine invariante Verteilung π,<br />

d.h. ein π = (π(1),π(2)) mit πP = π. Das liefert das Gleichungssystem<br />

1<br />

π(2)<br />

2<br />

= π(1)<br />

π(1) + 1<br />

π(2)<br />

2<br />

= π(2),<br />

woraus nur π = (a,2a) mit einem beliebigen a ∈ R folgt. Da allerdings π ein Wahrscheinlichkeitsvektor<br />

. Es folgt, dass<br />

sein soll, muss a + 2a = 1 gelten, d.h. a = 1<br />

3<br />

π =<br />

� �<br />

1 2<br />

,<br />

3 3<br />

die einzige invariante Verteilung zu P ist, was eine Probe leicht bestätigt:<br />

� �<br />

1 2<br />

πP = ,<br />

3 3<br />

� � � �<br />

0 1 1 2<br />

= , = π.<br />

3 3<br />

Mit Satz 11.38 folgt also<br />

und P (Xn = 1)<br />

n<br />

��<br />

∞ ��<br />

1<br />

3 , P (Xn = 2)<br />

1<br />

2<br />

1<br />

2<br />

P n �<br />

n ��<br />

1<br />

∞ ��<br />

3<br />

n<br />

1<br />

3<br />

��<br />

∞ ��<br />

2<br />

3<br />

2<br />

3<br />

2<br />

3<br />

�<br />

� π(j)<br />

für jede beliebige Startverteilung π0.


11 Markov-Ketten mit endlichem Zustandsraum 145<br />

11.40 Hilfssatz:<br />

Sei P eine irreduzible Übergangsmatrix auf S = {1,...,N}. Dann ist die Matrix<br />

�<br />

Pk := 1 − 1<br />

�<br />

P +<br />

k<br />

1<br />

k IN<br />

für die N × N-Einheitsmatrix IN für jedes k ∈ N≥2 aperiodisch und irreduzibel.<br />

Beweis:<br />

Laut Satz 11.27 müssen wir zeigen, dass es ein M ∈ N gibt, s.d. P M k<br />

(i,j) > 0 ∀ i,j ∈ S.<br />

Da P irreduzibel ist, gibt es gemäß Satz 11.14 zu jedem Paar i,j ∈ S ein n(i,j) mit Pn(i,j) (i,j) > 0.<br />

Setze nun<br />

M := max n(i,j) .<br />

i,j∈S<br />

Sei nun i,j ∈ S beliebig. Mit dem binomischen Lehrsatz gilt offenbar<br />

P M k =<br />

M�<br />

ν=0<br />

da I j<br />

N = IN und P · IN = IN · P = P. Also ist<br />

P M k (i,j) =<br />

M�<br />

� � �<br />

M<br />

1 −<br />

ν<br />

ν=0<br />

1<br />

�ν 1<br />

k kM−ν P<br />

� �� �<br />

>0<br />

ν (i,j)<br />

� �� �<br />

≥0<br />

Das zeigt die Behauptung.<br />

11.41 Satz (Invariante Verteilung):<br />

� ��<br />

M<br />

1 −<br />

ν<br />

1<br />

�ν 1<br />

k kM−ν Pν ,<br />

≥<br />

� � �<br />

M<br />

1 −<br />

n(i,j)<br />

1<br />

�n(i,j) 1<br />

k kM−n(i,j) Pn(i,j) (i,j) > 0.<br />

Ist P eine irreduzible Übergangsmatrix, so gibt es genau eine invariante Verteilung π zu P.<br />

Beweis:<br />

Sei wie<strong>der</strong> ohne Einschränkung S = {1,...,N}.<br />

• Existenz:<br />

Sei IN die N × N-Einheitsmatrix. Für k ∈ N≥2 setze<br />

�<br />

Pk := 1 − 1<br />

�<br />

P +<br />

k<br />

1<br />

k IN. (11.7)<br />

Diese Matrix ist gemäß Hilfssatz 11.40 aperiodisch und irreduzibel, d.h. mit Satz 11.38 gibt es zu<br />

jedem k ∈ N≥2 genau eine invariante Verteilung π (k) zu Pk.<br />

Da π (k) Koordinatenweise durch [0,1] beschränkt ist, existiert eine Teilfolge ki s.d.<br />

π ki<br />

i<br />

��<br />

∞ ��<br />

π<br />

für eine Wahrscheinlichkeitsverteilung π gilt. Diese erfüllt dann<br />

Mit i<br />

• Eindeutigkeit:<br />

��<br />

∞ in dieser Gleichung folgt<br />

π ki = π ki · Pki .<br />

π = π · P.<br />

Ist π = πP und π ′ = π ′ P für zwei Wahrscheinlichkeitsverteilungen π,π ′ , so folgt insbeson<strong>der</strong>e nach<br />

(11.7), dass<br />

was nach Satz 11.38 π = π ′ zur Folge hat.<br />

π = πP2<br />

π ′ = π ′ P2,<br />

Der Konvergenzsatz lässt sich auch auf nicht-aperiodische Matrizen verallgemeinern. Wir wollen dieses<br />

Ergebnis allerdings nur ohne Beweis angeben:


146 11 Markov-Ketten mit endlichem Zustandsraum<br />

Bemerkung 11.42 (Konvergenzsatz für periodische Matrizen):<br />

Sei d > 1 die Periode <strong>der</strong> irreduziblen Übergangsmatrix P. Setze<br />

Si(n) := {j ∈ S | es gibt einen Pfad <strong>der</strong> Länge n von i nach j in S}.<br />

Für j /∈ Si(n) ist dann P (Xn = j) = 0 und es gilt<br />

exponentiell schnell.<br />

max<br />

j∈Si(n) |P (Xn = j) − d · π(j)|<br />

11.4 Rückkehrzeiten und starkes Gesetz<br />

11.43 Definition:<br />

n<br />

��<br />

∞ ��<br />

0<br />

Sei P eine irreduzible Übergangsmatrix auf S = {1,...,N} und i ∈ S. Sei Ti die zufällige Zeit (∈ N), die<br />

vergeht, bis die ” in i gestartete“ Markov-Kette X0,X1,X2,... zu P wie<strong>der</strong> in i ankommt. Dabei bedeutet<br />

in i gestartet, dass π0 = ei für den i-ten karthesischen Einheitsvektor ei gilt. Dann ist<br />

und wir nennen Ti die Rückkehrzeit von i.<br />

Bemerkung 11.44:<br />

Beachte, dass<br />

Beispiel 11.45:<br />

Ti = inf {n ≥ 1 | Xn = i}<br />

{Ti = n} = {Xn = i,.Xn−1 �= i,...,X1 �= i,X0 = i} .<br />

Betrachte wie<strong>der</strong> die Übergangsmatrix P zum Übergangsgraphen GP aus Beispiel 11.9:<br />

1<br />

��<br />

1 ��<br />

2<br />

��<br />

1<br />

2<br />

Identifiziere 1 mit 1 und 2 mit 2 . Wir wollen den Erwartungswert <strong>der</strong> zufälligen Größe T1 bestimmen.<br />

Offenbar ist P (T1 = 1) = 0 und P (T1 = n + 1) = � �<br />

1 n<br />

2 für n ≥ 1. Damit folgt<br />

∞�<br />

E (T1) = n · P (T1 = n)<br />

=<br />

=<br />

=<br />

n=0<br />

∞�<br />

� �n−1 1<br />

n<br />

2<br />

n=2<br />

∞�<br />

� �n 1<br />

(n + 1)<br />

2<br />

n=1<br />

1<br />

2<br />

∞�<br />

� �n ∞�<br />

� �n 1 1<br />

n + .<br />

2 2<br />

n=1<br />

n=1<br />

� �� �<br />

=1<br />

Da die erste Summe dem Erwartungswert einer Zufallsvariablen X ∼ Geo � �<br />

1<br />

2 entspricht ist ihr Wert = 2,<br />

d.h. wir haben<br />

E (T1) = 3.<br />

Für Zustand 2 gestaltet sich die Rechnung etwas einfacher: Wegen P (T2 = 1) = P (T2 = 2) = 1<br />

2 ist<br />

E (T2) = 1 · 1 1 3<br />

+ 2 · =<br />

2 2 2 .<br />

Insbeson<strong>der</strong>e sehen wir in diesem Beispiel schon, dass<br />

für die zu P invariante Verteilung π = � �<br />

1 2<br />

3 , 3 gilt.<br />

E (Ti) = 1<br />

π(i)<br />

.


11 Markov-Ketten mit endlichem Zustandsraum 147<br />

11.46 Satz (Positive Rekurrenz - ohne Beweis):<br />

Sei P eine irreduzible Übergangsmatrix und X0,X1,... die zugehörige in i ∈ S gestartete Markov-Kette.<br />

Dann gilt:<br />

(1) Man kehrt sicher zu i zurück, d.h.<br />

(2) Es ist<br />

∞�<br />

P (Ti = n) = 1.<br />

n=1<br />

E (Ti) =<br />

∞�<br />

P (Ti = n) < ∞.<br />

n=1<br />

Ein Teil des Beweises ist Aufgabe 5 des Übungsblatts 12.<br />

Bemerkung 11.47:<br />

Ist #S = ∞, so ist <strong>der</strong> Satz von <strong>der</strong> positiven Rekurrenz im allgemeinen falsch.<br />

11.4.1 Der Rückkehrzeitensatz<br />

11.48 Lemma:<br />

Sei X0,X1,X2,... eine Markov-Kette und E ⊂ Sn . Dann gilt für jedes in+1,in ∈ S<br />

P � �<br />

Xn+1 = in+1 | Xn = in,(X0,...,Xn−1)<br />

∈ E = P (Xn+1 = in+1 | Xn = in) .<br />

� �� � � �� � � �� �<br />

(11.8)<br />

=:A =:B =:C<br />

Beweis:<br />

Wir zerlegen das Ereignis C disjunkt als<br />

C = �<br />

k∈I<br />

mit Ck’s von <strong>der</strong> Form {X0 = i0,...,Xn−1 = in−1} für ein Tupel (i0,...,in−1) ∈ E. Nach <strong>der</strong> Markov-<br />

Eigenschaft gilt<br />

P (A | B ∩ Ck) = P (A | B) ∀ k ∈ I,<br />

d.h. es folgt<br />

Ck<br />

P (A ∩ B ∩ Ck) = P (A | B) · P (B ∩ Ck) ∀ k ∈ I<br />

nach Definition <strong>der</strong> bedingten Wahrscheinlichkeit. Bilden <strong>der</strong> Summe über k ∈ I liefert<br />

was per Definition gleichbedeutend mit<br />

ist - das ist genau die Behauptung.<br />

11.49 Satz (Rückkehrzeitensatz):<br />

P (A ∩ B ∩ C) = P (A | B) · P (B ∩ C) ,<br />

P (A | B ∩ C) = P (A | B)<br />

Sei P eine irreduzible Übergangsmatrix und π die zugehörige invariante Verteilung. Dann gilt<br />

für jedes i ∈ S.<br />

Beweis:<br />

E (Ti) = 1<br />

π(i)<br />

Wir betrachten bei Start im Zustand i ∈ S die Hilfsfunktion<br />

µ(k) :=<br />

∞�<br />

P (Xn = k,Ti > n) , k ∈ S.<br />

n=0<br />

Dabei ist X0,X1,X2,... die in i gestartete Markov-Kette mit Übergangsmatrix P und die Zahlen<br />

P (Xn = k,Ti > n) entsprechen <strong>der</strong> Wahrscheinlichkeit, dass man zur Zeit n im Zustand k ist, aber<br />

bis zur Zeit n noch nicht wie<strong>der</strong> in i war.


148 11 Markov-Ketten mit endlichem Zustandsraum<br />

Ohne Einschränkung nehmen wir wie<strong>der</strong> S = {1,...,N} an. Setze dann<br />

Dann gilt<br />

N�<br />

µ(k) =<br />

k=1<br />

µ := (µ(1),...,µ(N)).<br />

=<br />

=<br />

∞�<br />

n=0 k=1<br />

N�<br />

P (Xn = k,Ti > n)<br />

∞�<br />

P (Ti > n)<br />

n=0<br />

∞�<br />

P (Ti ≥ n)<br />

n=1<br />

(5.3)<br />

= E (Ti)<br />

und diese Zahl ist nach dem Satz über die positive Rekurrenz oben < ∞. Daher ist<br />

� �<br />

1 µ(1) µ(N)<br />

· µ = ,...,<br />

E (Ti) E (Ti) E (Ti)<br />

ein Wahrscheinlichkeitsvektor. Wir werden nun zeigen, dass es sich dabei sogar um eine invariante Verteilung<br />

von P handelt.<br />

Zur Vorbereitung berechnen wir für k ∈ S, k �= i und j ∈ S, dass<br />

P (Xn+1 = j,Xn = k,Ti > n) = P (Xn+1 = j | Xn = k,Ti > n) · P (Xn = k,Ti > n) .<br />

Verwenden wir nun das Lemma oben für E = {(i,j1,...,jn−1) ∈ S n | j1,...,jn−1 �= i}, so folgt wegen<br />

dass<br />

{Ti > n} = {Xn−1 �= i,...,X1 �= i,X0 = i} ˆ=(X0,...,Xn−1) ∈ E,<br />

P (Xn+1 = j,Xn = k,Ti > n)<br />

(11.8)<br />

= P (Xn+1 = j | Xn = k) · P (Xn = k,Ti > n)<br />

= P(k,j) · P (Xn = k,Ti > n) .<br />

Man beobachtet schnell, dass diese Gleichung auch für k = i richtig bleibt:Ist n > 0, so sind zwingend<br />

beide Seiten = 0, ist n = 0, so ergibt sich auf beiden Seiten P(i,j).<br />

Es genügt nun zu zeigen, dass µP = µ ist, <strong>der</strong> Faktor 1<br />

E(Ti)<br />

braucht nicht beachtet zu werden (da er auf<br />

beiden Seiten auftaucht). Mit obiger Rechnung gilt für j ∈ S:<br />

(µP) (j) = �<br />

µ(k) · P(k,j)<br />

=<br />

=<br />

=<br />

k∈S<br />

∞� �<br />

P (Xn = k,Ti > n) P(k,j)<br />

n=0 k∈S<br />

∞� �<br />

P (Xn+1 = j,Xn = k,Ti > n)<br />

n=0 k∈S<br />

∞�<br />

P (Xn+1 = j,Ti > n) .<br />

n=0<br />

Jetzt unterscheiden wir: Für j �= i erhält man damit<br />

(µP) (j) =<br />

=<br />

∞�<br />

P (Xn+1 = j,Ti > n)<br />

n=0<br />

∞�<br />

P (Xn+1 = j,Ti > n + 1)<br />

n=0<br />

= µ(j) − P (X0 = j,Ti > 0)<br />

= µ(j),


11 Markov-Ketten mit endlichem Zustandsraum 149<br />

und für i = j erhält man<br />

Beachte nun noch, dass<br />

(µP) (j) =<br />

=<br />

∞�<br />

P (Xn+1 = j,Ti > n)<br />

n=0<br />

∞�<br />

P (Ti = n + 1)<br />

n=0<br />

Satz 11.46<br />

= 1.<br />

∞�<br />

∞�<br />

µ(i) = P (Xn = i,Ti > n) = P (Xn = i,Ti > n) +P (X0 = i,Ti > 0) = 1.<br />

� �� � � �� �<br />

n=0<br />

n=1<br />

=0<br />

=1<br />

1<br />

Das zeigt, dass E(Ti) ·µ eine invariante Verteilung für P ist. Gemäß Satz 11.41 ist die invariante Verteilung<br />

eindeutig, d.h. wir haben<br />

1<br />

· µ(i) = π(i).<br />

E (Ti)<br />

Wegen µ(i) = 1 wie oben berechnet folgt daraus die Behauptung.<br />

11.50 Satz (Starkes Gesetz - ohne Beweis):<br />

Sei P irreduzible Übergangsmatrix und sei f : S<br />

dann mit Wahrscheinlichkeit 1: 4<br />

��<br />

R eine Funktion. Für jede Startverteilung π0 gilt<br />

Ist x0,x1,x2,... ein zufälliger Pfad <strong>der</strong> Markov-Kette X0,X1,... zu P und π0 (d.h. eine ” Realisierung“<br />

dieser Markov-Kette), so konvergiert das Zeitmittel von f gegen das Raummittel Eπ(f):<br />

n−1<br />

1 �<br />

f(xk)<br />

n<br />

n<br />

k=0<br />

Dabei bezeichnet π die invariante Verteilung zu P.<br />

Insbeson<strong>der</strong>e gilt für A ⊆ S und f := 1A, dass<br />

1<br />

n # {0 ≤ k ≤ n − 1 | xk ∈ A}<br />

��<br />

∞ �<br />

��<br />

f(j)π(j).<br />

n<br />

j∈S<br />

��<br />

∞ �<br />

��<br />

π(j) = π(A).<br />

D.h. die Anzahl <strong>der</strong> Besuche“ in A konvergiert mit Wahrscheinlichkeit 1 für n<br />

”<br />

scheinlichkeit von A unter <strong>der</strong> invarianten Verteilung π.<br />

Speziell für A = {i} gilt also<br />

1<br />

n # {0 ≤ k ≤ n − 1 | xk = i}<br />

4 Eine Konvergenz dieser Art nennt man fast sichere Konvergenz.<br />

n<br />

j∈A<br />

��<br />

∞ ��<br />

π(i).<br />

��<br />

∞ gegen die Wahr


150 11 Markov-Ketten mit endlichem Zustandsraum<br />

11.5 Beispiele<br />

11.5.1 Irrfahrt auf ungerichtetem Graphen<br />

In diesem Abschnitt bezeichnen wir Elemente aus S wie<strong>der</strong> mit i usw. um Zahlen von Ecken zu unterscheiden.<br />

Sei G ein ungerichteter Graph mit Eckenmenge S ohne Mehrfachkanten und N = #S.<br />

11.51 Definition:<br />

Für jede Ecke i ∈ S sei<br />

Beispiel 11.52:<br />

Sei G gegeben als<br />

d(i) := # {j ∈ S | es gibt eine Kante zwischen i und j} .<br />

1 2<br />

��<br />

��<br />

��<br />

��<br />

��<br />

��<br />

��<br />

��<br />

��<br />

��<br />

��<br />

��<br />

3<br />

4<br />

� � � � � � � � � �<br />

Dann ist d 2 ) = # 1 , 2 , 3 = 3, d 1 = 2, d 3 = 3, d 4 = 1.<br />

Wir wan<strong>der</strong>n nun rein zufällig auf diesem Graphen, in dem wir jeweils gleichverteilt die nächste Ecke<br />

unter den mit i verbunden Ecken wählen. D.h.<br />

11.53 Definition:<br />

Sei P die N × N-Matrix mit<br />

P(i,j) =<br />

Offenbar ist P tatsächlich eine stochastische Matrix:<br />

11.54 Definition:<br />

Wir setzen<br />

11.55 Satz:<br />

Damit ist<br />

�<br />

P(i,j) =<br />

j∈S<br />

eine invariante Verteilung von P.<br />

� 0 falls keine Kante zwischen i und j existiert,<br />

1<br />

d(i) falls eine Kante zwischen i und j existiert.<br />

�<br />

j∈{k | es gibt eine Kante zwischen i und k}<br />

D := �<br />

d(i).<br />

i∈S<br />

π(i) := d(i)<br />

, i ∈ S<br />

D<br />

1 d(i)<br />

= = 1 ∀ i ∈ S.<br />

d(i) d(i)


11 Markov-Ketten mit endlichem Zustandsraum 151<br />

Beweis:<br />

Man berechnet<br />

für j ∈ S.<br />

Bemerkung 11.56:<br />

(πP) (j) = �<br />

π(i)P(i,j)<br />

=<br />

i∈S<br />

�<br />

i∈{k | es gibt eine Kante zwischen i und j}<br />

d(i)<br />

D<br />

· 1<br />

d(i)<br />

= 1<br />

· # {k | es gibt eine Kante zwischen i und j}<br />

D<br />

= d(j)<br />

D<br />

= π(j)<br />

Beachte, dass ohne weitere Voraussetzungen P nicht irreduzibel ist und daher π nicht zwingend eindeutig<br />

bestimmt ist.<br />

Beispiel 11.57:<br />

Wir wollen einen Springer auf einem 4 × 4-Schachbrett betrachten. Sei dazu S = {(i,j) | 1 ≤ i,j ≤ 4}.<br />

Der zugehörige Graph stellt sich wie folgt dar:<br />

(1,4) (2,4) (3,4) (4,4)<br />

� ������������������������������������<br />

�������������������������������������� �<br />

� ������������������������������������<br />

�<br />

�������������������������������������� ��<br />

�<br />

�<br />

���<br />

�<br />

�<br />

�������������������������������������� ���<br />

�<br />

�<br />

���<br />

�<br />

���<br />

�<br />

�<br />

�<br />

�<br />

���<br />

���<br />

�<br />

�<br />

�<br />

� ���<br />

� ���<br />

�<br />

�<br />

�<br />

�<br />

���<br />

���<br />

�<br />

�<br />

�<br />

� ���<br />

� ���<br />

�<br />

�<br />

�<br />

�<br />

���<br />

���<br />

�<br />

�<br />

�<br />

�<br />

���<br />

� ���<br />

�<br />

�<br />

�<br />

�<br />

���<br />

���<br />

�<br />

�<br />

�<br />

���<br />

���<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

���<br />

���<br />

�<br />

�<br />

���<br />

�<br />

�<br />

(1,3) �<br />

�<br />

(2,3)<br />

�<br />

�<br />

�<br />

�<br />

(1,3)<br />

�<br />

(2,3) (3,3) (4,3)<br />

� �<br />

�<br />

� (3,3)<br />

�<br />

��������������������������������������<br />

�<br />

�<br />

�<br />

� �<br />

�<br />

� (4,3)<br />

������������������������������������<br />

������������������������������������<br />

�������������������������������������� ���<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

��������������������������������������<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

���<br />

��<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

��<br />

� �<br />

�<br />

� ���<br />

�<br />

�<br />

���<br />

���<br />

�<br />

� ��<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

���<br />

�<br />

�<br />

���<br />

��<br />

�<br />

�<br />

� �<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

���<br />

�<br />

�<br />

���<br />

�<br />

�<br />

�<br />

�<br />

� �<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

���<br />

�<br />

�<br />

���<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

���<br />

�<br />

�<br />

���<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

���<br />

�<br />

� ���<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

��<br />

�<br />

���<br />

�<br />

�<br />

�<br />

���<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

�<br />

(1,2)<br />

�<br />

(2,2) � (3,2)<br />

�<br />

�<br />

�<br />

�<br />

�<br />

(3,2)<br />

�<br />

� (4,2)<br />

������������������������������������<br />

������������������������������������<br />

���<br />

�<br />

�<br />

�<br />

�<br />

� �<br />

���<br />

� ��<br />

�<br />

�<br />

� �<br />

���<br />

�<br />

�<br />

�<br />

���<br />

��<br />

� ���<br />

�<br />

�<br />

���<br />

�<br />

���<br />

�<br />

�<br />

���<br />

�<br />

�<br />

����<br />

�<br />

�<br />

�<br />

���<br />

�<br />

��<br />

�<br />

�<br />

�<br />

���<br />

�<br />

�<br />

���<br />

�<br />

�<br />

�<br />

� ���<br />

�<br />

��<br />

�<br />

�<br />

� ���<br />

�<br />

� ���<br />

�<br />

�<br />

�<br />

� ���<br />

� ��<br />

�<br />

� ���<br />

�<br />

� ���<br />

�<br />

�<br />

���<br />

�<br />

�<br />

�<br />

(1,1) (2,1) (3,1) (4,1)<br />

� �<br />

Aus diesem Graphen lesen wir nun die Gradzahlen d<br />

� �<br />

(i,j) ab. Der Eintrag in <strong>der</strong> Zelle (i,j) <strong>der</strong><br />

folgenden Tabelle bezeichnet d (i,j) :<br />

2 3 3 2<br />

3 4 4 3<br />

3 4 4 3<br />

2 3 3 2


152 11 Markov-Ketten mit endlichem Zustandsraum<br />

Damit berechnet man leicht D = 4 · (2 + 3 + 3 + 4) = 48 und hat so gemäß dem Satz die invariante<br />

Verteilung π: 5<br />

Daraus erhalten wir nun:<br />

1<br />

24<br />

1<br />

16<br />

1<br />

16<br />

1<br />

24<br />

1<br />

16<br />

1<br />

12<br />

1<br />

12<br />

1<br />

16<br />

1<br />

16<br />

1<br />

12<br />

1<br />

12<br />

1<br />

16<br />

(1) Nach dem Rückkehrzeitensatz ist dann zum Beispiel<br />

1<br />

24<br />

1<br />

16<br />

1<br />

16<br />

1<br />

24<br />

E � � 1<br />

T (1,1) = = 24.<br />

π((1,1))<br />

(2) Das starke Gesetz sagt etwa, dass für einen Springerpfad die relative Häufigkeit <strong>der</strong> Besuche in den<br />

mittleren Fel<strong>der</strong>n fast sicher (d.h. mit Wahrscheinlichkeit 1) gegen<br />

konvergiert.<br />

π ({(i,j) | 2 ≤ i,j ≤ 3}) = 4 · 1 1<br />

=<br />

12 3<br />

(3) Sei P die zugehörige Übergangsmatrix. Wir haben oben schon festgestellt, dass P irreduzibel ist.<br />

Allerdings kann P nicht aperiodisch sein, da <strong>der</strong> Springer bei jedem Zug ein Feld an<strong>der</strong>er Farbe<br />

(Schwarz / Weiß) erreicht. P hat daher mindestens Periode 2, und da hin- und wie<strong>der</strong> zurückziehen<br />

möglich ist, genau Periode d = 2.<br />

(4) Mit Bemerkung 11.42 ist für großes, gerades n die Aufenthaltswahrscheinlichkeit also etwa gegeben<br />

als<br />

1<br />

12 0 1<br />

8 0<br />

0 1<br />

6 0 1<br />

8<br />

1<br />

8 0 1<br />

6 0<br />

0 1<br />

8 0 1<br />

12<br />

Dabei gibt <strong>der</strong> Eintrag in Position (i,j) die approximative Wahrscheinlichkeit an, dass <strong>der</strong> Springer<br />

sich zur Zeit n in <strong>der</strong> Position (i,j) aufhält.<br />

11.5.2 Ehrenfeld-Diffusion<br />

Wir nehmen an, in einem Hörsaal befinden sich N Gasmoleküle. Wir zerteilen den Hörsaal in die rechte<br />

Hälfte H1 und die linke Hälfte H2. Als Modell nehmen wir an, dass jeweils ein Molekül zufällig ausgewählt<br />

wird und dieses dann in die an<strong>der</strong>e Hörsaalhälfte wechselt.<br />

Sei dazu<br />

S = {0,...,N} ,<br />

was <strong>der</strong> Anzahl <strong>der</strong> Gasmoleküle in H1 entsprechen soll. Offenbar muss dann für die Übergangsmatrix P<br />

gelten. Alle übrigen Einträge <strong>der</strong> Matrix sind 0.<br />

P(i,i + 1) =<br />

N − i<br />

,<br />

N<br />

i < N<br />

P(i,i − 1) = i<br />

,<br />

N<br />

i > 1<br />

Man kann nun zeigen, dass P irreduzibel ist und dass die invariante Verteilung π zu P gegeben ist durch<br />

D.h. wir haben π ∼ B � N, 1<br />

�<br />

2 .<br />

π(i) =<br />

� N<br />

i<br />

Nach dem Rückkehrzeitensatz ist dann zum Beispiel<br />

�<br />

2 −N , i ∈ S.<br />

E (T0) = 1<br />

π(0) = 2N .<br />

5 Hier ist klar, dass die invariante Verteilung eindeutig bestimmt ist, da <strong>der</strong> Springer jedes Feld erreichen kann - die<br />

Matrix ist also irreduzibel!


11 Markov-Ketten mit endlichem Zustandsraum 153<br />

D.h. wenn wir annehmen, dass zur Zeit n = 0 in H1 keine Gasmoleküle sind, so ist zu erwarten, dass<br />

dieser Zustand erst zur Zeit 2 N wie<strong>der</strong> eintritt. Das ist für eine Anzahl N von Molekülen reichlich groß!<br />

Außerdem bemerkt man, dass <strong>der</strong> aktuelle Zustand oft nahe am Gleichgewicht ist:<br />

Sei N = 10.000. Wegen π ∼ B � 10.000, 1<br />

�<br />

2 liefert die Chernov-Ungleichung<br />

π ({4801,...,5199}) ≥ 0.9993.<br />

Das starke Gesetz sagt uns also, dass in 99.93% <strong>der</strong> Zeit in H1 zwischen 4801 und 5199 Gasmoleküle sind.


154 12 Schätzer und statistische Tests<br />

12 Schätzer und statistische Tests<br />

Wir beginnen mit einen motivierenden Beispiel.<br />

Beispiel 12.1:<br />

Wir wollen eine Lebensmittelkontrolle durchführen. Dazu messen wir die Füllungen von 1-Liter-Flaschen<br />

nach. In Millilitern erhalten wir bei sechs Messungen die Messwerte<br />

999, 990, 995, 1003, 1001, 991.<br />

Diese Messwerte wollen wir im folgenden mit x1,...,x6 bezeichnen. Wir können uns nun die folgenden<br />

Fragen stellen:<br />

(1) Wenn man annimmt, dass die Füllmenge eine N � µ,σ 2� -verteilte Zufallsvariable ist, wie schätzt<br />

man dann mittels dieser Messungen den Erwartungswert? Wie schätzt man die Varianz?<br />

Um solche Fragen zu beantworten wollen wir hier kurz ML-Schätzer und erwartungstreue Schätzer<br />

behandeln.<br />

(2) Soll die Kontrolle wegen zu geringer Befüllung nach dieser Messung einschreiten?<br />

Um diese Frage zu beantworten werden wir kurz statistische Tests betrachten.<br />

12.1 Punktschätzer<br />

Sei X eine Zufallsvariable (o<strong>der</strong> ein Zufallsvektor)<br />

X : Ω<br />

��<br />

X.<br />

Im Zusammenhang dieses Kapitels nennen wir X auch den Stichprobenraum.<br />

Wir nehmen natürlicher Weise an, dass wir die Verteilung P von X auf X nicht kennen. Beachte, dass<br />

wir hier P anstelle von P X schreiben.<br />

Stattdessen nehmen wir an, dass P in einer Familie<br />

P = {Pθ | θ ∈ Θ}<br />

von Verteilungen Pθ auf X liegt. Diese Familie bezeichnen wir auch als statistisches Modell für die<br />

möglichen Verteilungen von X.<br />

Beispiel 12.2:<br />

Sei X die Anzahl <strong>der</strong> Erfolge in einem n-fach wie<strong>der</strong>holten Bernoulli-Experiment mit unbekannter Erfolgswahrscheinlichkeit.<br />

Dann ist X = {0,...,n} und das statistische Modell ist gegeben als<br />

P = � �<br />

B(n,θ) | θ ∈ [0,1] .<br />

� �� � ����<br />

=Θ<br />

Zu je<strong>der</strong> <strong>der</strong> Verteilungen Pθ gehört in diesem Fall eine Wahrscheinlichkeitsfunktion<br />

� �<br />

n<br />

pθ (x) = θ<br />

x<br />

x (1 − θ) n−x , x = 0,...,n.<br />

=Pθ<br />

Wir wollen nun aufgrund einer Stichprobe x ∈ X (d.h. einer Realisation von X) den Parameter θ o<strong>der</strong><br />

allgemeiner eine Funktion g in Abhängigkeit von θ geschätzt werden.<br />

12.3 Definition:<br />

Ein Schätzer für θ ∈ Θ ist eine Abbildung<br />

t : X<br />

��<br />

Θ.<br />

Für ein konkretes x ∈ X heißt t(x) dann eine Schätzung für θ.<br />

Die Zufallsvariable T := t (X) wird ebenfalls Schätzer für θ genannt.<br />

Beispiel 12.4:<br />

Betrachte wie<strong>der</strong> das Setting aus Beispiel 12.2. Ist x ∈ {0,...,n} die Stichprobe, so ist<br />

t(x) := x<br />

n


12 Schätzer und statistische Tests 155<br />

ein Schätzer für die Erfolgswahrscheinlichkeit θ des Bernoulli-Experiments. Nun sollte man sich fragen,<br />

ob dieser Schätzer sinnvoll ist. Auf diese Frage werden wir weiter unten eingehen.<br />

Ebenso ist dann<br />

T = 1<br />

n X<br />

ein Schätzer für θ und konkret für n = 20 und x = 14 ist<br />

eine Schätzung von θ.<br />

12.5 Definition:<br />

Sei g eine beliebige Funktion auf Θ. Jede Abbildung<br />

heißt Schätzer für g(θ).<br />

Beispiel 12.6:<br />

t(14) = 7<br />

= 0.7<br />

10<br />

t : X<br />

��<br />

g (Θ)<br />

Wie<strong>der</strong> im Setting von Beispiel 12.2 können wir versuchen, die Varianz von B(nθ) zu schätzen, d.h.<br />

g(θ) = n · θ · (1 − θ).<br />

Ein möglicher Schätzer wäre<br />

t(x) := n · x<br />

�<br />

1 −<br />

n<br />

x<br />

� �<br />

= x · 1 −<br />

n<br />

x<br />

�<br />

.<br />

n<br />

Weiter unten werden wir uns mit <strong>der</strong> Frage beschäftigen, ob dieser Schätzer sinnvoll bzw. gut ist.<br />

Man sollte beachten, dass es im Allgemeinen nicht ” den Besten“ Schätzer gibt. Es gibt verschiedene<br />

Verfahren zur Herleitung und verschiedene Güte-Kriterien für Schätzer. Wir besprechen hier die ML-<br />

Schätzer und die erwartungstreuen Schätzer, es gibt außerdem noch Risiko-Schätzer, Konsistenz-Schätzer<br />

und viele mehr.<br />

12.1.1 ML-Schätzer<br />

12.7 Definition:<br />

Wir sagen, ein Schätzer t hat die Maximum-Likelihood-Eigenschaft, wenn folgendes gilt:<br />

Für jedes x ∈ X ist t(x) = θML ∈ Θ mit<br />

pθML (x) ≥ pθ(x) ∀ θ ∈ Θ.<br />

Falls wir mit einer diskreten Verteilung Pθ arbeiten, so ist das zugehörige pθ die entsprechende Wahrscheinlichkeitsfunktion,<br />

ist Pθ eine stetige Verteilung, so ist pθ die entsprechende Dichte.<br />

D.h. für festes x ∈ X maximiert t(x) = θML die sogenannte Likelihood-Funktion<br />

über θ ∈ Θ.<br />

Beispiel 12.8:<br />

Lx (θ) = pθ(x)<br />

Betrachte wie<strong>der</strong> das Setting aus Beispiel 12.2. Dann ist die Likelihood-Funktion gegeben als<br />

� �<br />

n<br />

Lx (θ) = θ<br />

x<br />

x (1 − θ) n−x .<br />

Um einen ML-Schätzer für θ zu bestimmen ist diese Funktion jetzt für gegebenes x ∈ {0,...,n} über<br />

θ ∈ [0,1] zu minimieren.<br />

Wie man im Beispiel schon sieht, kann die zu minimierende Funktion sehr unangenehm sein. Zur Vereinfachung<br />

kann man die log-Likelihood-Funktion log Lx betrachten. Da <strong>der</strong> Logarithmus log streng monoton<br />

steigend ist 6 , nehmen Lx und log Lx im selben θ ihr Maximum.<br />

6 Wir betrachten hier stets nur den natürlichen Logarithmus ln = log.


156 12 Schätzer und statistische Tests<br />

Beispiel 12.9:<br />

Im obigen Beispiel 12.2 ist dann<br />

log Lx (θ) = log<br />

� �<br />

n<br />

+ xlog θ + (n − x)log (1 − θ) .<br />

x<br />

Um das Maximum dieser Funktion zu bestimmen, differenzieren wir nach θ und erhalten so<br />

womit θ = x<br />

n folgt.<br />

Also ist unser Schätzer<br />

0 ! = 0 + x n − x<br />

−<br />

θ 1 − θ ,<br />

t(x) = n<br />

x<br />

von oben sogar ein ML-Schätzer für die Erfolgswahrscheinlichkeit θ.<br />

12.1.2 Erwartungstreue Schätzer<br />

12.10 Definition:<br />

Ein Schätzer t für θ ist erwartungstreu, wenn<br />

Eθ (t(X)) = θ<br />

für alle θ ∈ Θ gilt, d.h.: Ist θ <strong>der</strong> wahre Parameter, so ist die (zufällige) Schätzung t(x) zumindest im<br />

Erwartungswert gleich θ.<br />

Ganz analog definiert man für Schätzer von Funktionen:<br />

12.11 Definition:<br />

Ein Schätzer t für eine Funktion g in Abhängigkeit von θ ist erwartungstreu, wenn<br />

für alle θ ∈ Θ gilt.<br />

Beispiel 12.12:<br />

Eθ (t(X)) = g (θ)<br />

Betrachte wie<strong>der</strong> Beispiel 12.2. Wir behaupten, dass unser Schätzer<br />

von dort erwartungstreu ist.<br />

Beweis:<br />

Mit <strong>der</strong> Linearität des Erwartungswertes gilt<br />

� �<br />

X<br />

E (t (X)) = E<br />

n<br />

Es folgt die Behauptung.<br />

Beispiel 12.13:<br />

t(x) = x<br />

n<br />

Im selben Beispiel 12.2 sei nun n ≥ 2. Dann ist<br />

�<br />

t(x) = x 1 − x<br />

�<br />

n<br />

= 1 1<br />

E (X) = θn = θ.<br />

n n<br />

ein ML-Schätzer für die Varianz, denn schließlich haben wir dort einfach den ML-Schätzer für θ in die


12 Schätzer und statistische Tests 157<br />

Varianz-Formel θ ↦→ nθ (1 − θ) eingesetzt. Allerdings ist er nicht erwartungstreu:<br />

Eθ (t(X)) =<br />

� �<br />

Eθ X 1 − X<br />

��<br />

n<br />

= Eθ (X) − 1<br />

n Eθ<br />

� X 2 �<br />

= nθ − 1<br />

�<br />

Vθ(X) + (Eθ(X))<br />

n<br />

2�<br />

= nθ − 1 � 2 2<br />

nθ (1 − θ) + n θ<br />

n<br />

�<br />

= (n − 1) θ (1 − θ)<br />

= n − 1<br />

� ��<br />

n<br />

�<br />

�=1<br />

Allerdings sehen wir an dieser Berechnung schon, dass<br />

nθ (1 − θ)<br />

� �� �<br />

=g(θ)=Vθ(X)<br />

n n<br />

t(x) =<br />

n − 1 n − 1 x<br />

ein erwartungstreuer Schätzer für die Varianz ist.<br />

�<br />

.<br />

1 − x<br />

�<br />

n<br />

Z.B. für n = 2 ist die Abweichung zwischen diesen beiden Schätzern deutlich: Ist <strong>der</strong> wahre Parameter<br />

θ = 1<br />

2 , so ist<br />

n − 1<br />

Eθ (t(X)) = (1 − θ) =<br />

θ<br />

1<br />

4 ,<br />

obwohl die tatsächliche Varianz 1<br />

2 beträgt.<br />

Wir wollen nun eine allgemeinere Situation betrachten:<br />

Seien X1,...,Xn unabhängige, identisch verteilte Zufallsvariablen. Sei X1 <strong>der</strong> Wertebereich dieser Variablen.<br />

Definiere als Stichprobenraum<br />

Betrachte dazu das statistische Modell<br />

X =<br />

n<br />

× ν=1<br />

X1 = X1 ×... × X1<br />

P = � ˜ Pθ × ... × ˜ Pθ<br />

� �� �<br />

=:Pθ<br />

� �� �<br />

n−mal<br />

.<br />

| θ ∈ Θ � ,<br />

wobei jedes ˜ Pθ eine Wahrscheinlichkeitsverteilung auf X1 aus einer vorgegebenen Familie ist.<br />

Beispiel 12.14:<br />

Sei etwa<br />

o<strong>der</strong><br />

Wir wollen im zweiten Fall θ := � µ,σ 2� setzen.<br />

˜Pθ ∈ {B(1,θ) | 0 ≤ θ ≤ 1}<br />

˜Pθ ∈ � N � µ,σ 2� | µ ∈ R,σ 2 > 0 � .<br />

(1) Wir wollen zuerst einen Schätzer für den Erwartungswert Eθ (X1) von ˜ Pθ herleiten.<br />

12.15 Lemma:<br />

Der Schätzer<br />

ist erwartungstreu für Eθ (X1).<br />

t (x1,...,xn) := 1<br />

n<br />

n�<br />

xi = ¯x<br />

i=1


158 12 Schätzer und statistische Tests<br />

Beweis:<br />

Man berechnet<br />

Das zeigt die Behauptung.<br />

Beispiel 12.16:<br />

In Beispiel 12.1 wäre also<br />

eine erwartungstreue Schätzung für µ.<br />

Eθ (t (X1,...,Xn)) = Eθ<br />

1<br />

6<br />

= 1<br />

n<br />

�<br />

1<br />

n<br />

n�<br />

i=1<br />

Xi<br />

n�<br />

Eθ (Xi)<br />

i=1<br />

= Eθ (X1) .<br />

6�<br />

xi = 996.5<br />

(2) Jetzt wollen wir einen Schätzer für die Varianz Vθ (X1) von ˜ Pθ herleiten. Sei dazu wie<strong>der</strong><br />

Berechne nun<br />

und<br />

� 2<br />

Eθ ¯x �<br />

Jetzt können wir zeigen:<br />

12.17 Lemma:<br />

Der Schätzer<br />

n�<br />

(xi − ¯x) 2 =<br />

i=1<br />

=<br />

=<br />

Unabhängigkeit<br />

=<br />

=<br />

=<br />

=<br />

1<br />

n<br />

i=1<br />

¯x := 1<br />

n<br />

1<br />

n 2<br />

2 Eθ<br />

n�<br />

i=1<br />

n�<br />

i=1<br />

n�<br />

i=1<br />

n�<br />

i=1<br />

⎛<br />

⎝<br />

n�<br />

xi.<br />

i=1<br />

x 2 i − 2<br />

n�<br />

xi¯x +<br />

i=1<br />

x 2 i − 2n¯x 2 + n¯x 2<br />

x 2 i − n(¯x) 2<br />

n�<br />

i,j=1<br />

Xi · Xj<br />

⎞<br />

⎠<br />

Eθ (Xi · Xi) + 1<br />

n 2<br />

1 � � 2 1<br />

nEθ X<br />

n2 1 +<br />

n2 �<br />

n�<br />

¯x 2<br />

i=1<br />

n�<br />

Eθ (Xi · Xj)<br />

i,j=1<br />

i�=j<br />

n�<br />

Eθ (Xi) · Eθ (Xj)<br />

i,j=1<br />

i�=j<br />

(12.1)<br />

1<br />

n Eθ<br />

� � 2 n − 1<br />

X1 +<br />

n (Eθ (X1)) 2 . (12.2)<br />

S 2 (x1,...,xn) = 1<br />

n − 1<br />

n�<br />

(xi − ¯x) 2<br />

ist ein erwartungstreuer Schätzer für die Varianz. Er wird auch Stichprobenvarianz genannt.<br />

i=1


12 Schätzer und statistische Tests 159<br />

Beweis:<br />

Es gilt<br />

Eθ<br />

� n�<br />

i=1<br />

(Xi − ¯x) 2<br />

Das zeigt die Behauptung.<br />

�<br />

�<br />

n�<br />

(12.1)<br />

= Eθ<br />

i=1<br />

(12.2) � � 2<br />

= nEθ X1 −<br />

�<br />

= (n − 1)<br />

X 2 i − n¯x 2<br />

Eθ<br />

�<br />

Eθ<br />

= (n − 1) Vθ (X1) .<br />

Beachte den Unterschied zur empirischen Varianz<br />

ˆσ 2 (x1,...,xn) = 1<br />

n<br />

�<br />

� � 2<br />

X1 + (n − 1) (Eθ (X1)) 2�<br />

� � 2<br />

X1 − (Eθ (X1)) 2�<br />

n�<br />

(xi − ¯x) 2 .<br />

Sie ist nicht erwartungstreu, aber <strong>der</strong> Unterschied verschwindet mit n<br />

In <strong>der</strong> Praxis wird S 2 als Schätzer für die Varianz und √ S 2 als Schätzer für die Standardabweichung<br />

verwendet.<br />

Beispiel 12.18:<br />

In Beispiel 12.1 wäre also<br />

S 2 (x1,...,x6) = 1<br />

5<br />

6�<br />

i=1<br />

i=1<br />

(xi − ¯x) 2 = 1<br />

5<br />

��<br />

∞.<br />

6�<br />

(xi − 996.5) 2 = 28.7<br />

eine erwartungstreue Schätzung für σ 2 . Entsprechend schätzen wir σ als √ 28.7 ≈ 5.357.<br />

Die Schätzung <strong>der</strong> Parameter � µ,σ 2� von N � µ,σ 2� würde in unserem Fall also<br />

liefern.<br />

12.2 Statistische Tests<br />

i=1<br />

µ = 996.5 und σ 2 = 28.7<br />

Wir wollen uns nun mit <strong>der</strong> Frage aus Beispiel 12.1 beschäftigen, ob aufgrund dieser Stichproben die<br />

Kontrolle eingeschaltet werden sollte. Dazu beschäftigen wir uns allgemein mit statistischen Tests:<br />

Sei X ein Stichprobenraum und<br />

P = {Pθ | θ ∈ Θ}<br />

ein statistisches Modell für die möglichen Verteilungen einer Zufallsvariablen bzw. eines Zufallsvektors X<br />

mit Werten in X. Seien nun<br />

Θ0 ⊂ Θ und Θ1 ⊂ Θ<br />

zwei disjunkte Teilmengen.<br />

12.19 Definition:<br />

Die Aussage<br />

nennen wir Hypothese und die Aussage<br />

nennen wir Alternative.<br />

Beispiel 12.20:<br />

In Beispiel 12.1 wäre<br />

P = � N � µ,σ 2�<br />

� �� �<br />

=θ<br />

H0 : θ ∈ Θ0<br />

H1 : θ ∈ Θ1<br />

| µ ≥ 0, σ 2 > 0 �


160 12 Schätzer und statistische Tests<br />

das statistische Modell für die möglichen Verteilungen <strong>der</strong> Befüllung. Die Aussage ” kein Betrug“ entspräche<br />

dann <strong>der</strong> Hypothese<br />

H0 : θ ∈ Θ0 := �� µ,σ 2� | µ = 1000, σ 2 > 0 �<br />

und die Aussage ” Betrug“ entspräche <strong>der</strong> Alternative<br />

12.21 Definition:<br />

Das Entscheidungsproblem<br />

heißt Testproblem.<br />

12.22 Definition:<br />

Ein Test ist eine Abbildung<br />

H1 : θ ∈ Θ1 := �� µ,σ 2� | µ < 1000, σ 2 > 0 � .<br />

H0 : θ ∈ Θ0 gegen H1 : θ ∈ Θ1<br />

ϕ : X<br />

��<br />

{0,1} ,<br />

wobei ϕ(x) = 1 bedeutet, dass die Hypothese verworfen wird und ϕ(x) = 0 bedeutet, dass die Hypothese<br />

nicht verworfen wird.<br />

Die Menge<br />

heißt Verwerfungsbereich.<br />

Bemerkung 12.23:<br />

{x ∈ X | ϕ(x) = 1}<br />

Als Hypothese sollte man stets die Annahme wählen, <strong>der</strong>en Verwerfung die größeren Konsequenzen hat<br />

- wie vor Gericht die Unschuldsvermutung. Der Grund dafür ist, dass durch (statistische) Tests stets nur<br />

<strong>der</strong> Fehler erster Art (verwerfe die Hypothese, obwohl sie gilt) garantiert klein gehalten wird.<br />

Beim Test eines neuen Prototypen würde man als Hypothese also ” das bisherige Produkt ist besser“<br />

verwenden, da man im Fall des Verwerfens als Konsequenz die ganze Produktion umstellen muss.<br />

12.24 Definition:<br />

Sei ϕ ein Test. Wir definieren die Gütefunktion βϕ : Θ<br />

βϕ (θ) := Pθ (ϕ(x) = 1),<br />

d.h. als die Wahrscheinlichkeit, die Hypothese zu verwerfen.<br />

��<br />

[0,1] von ϕ durch<br />

Für θ ∈ Θ0 ist βϕ(θ) dann die Wahrscheinlichkeit eines Fehlers erster Art (vergleiche Bemerkung<br />

12.23).<br />

Das primäre Ziel bei statistischen Tests ist es nun, den Fehler erster Art für alle θ ∈ Θ0 zu kontrollieren!<br />

12.25 Definition:<br />

Sei ϕ ein Test. Wir nennen ϕ einen Test zum Niveau α ∈ [0,1], wenn<br />

sup βϕ(θ) ≤ α<br />

θ∈Θ0<br />

ist, d.h. wenn für alle θ ∈ Θ0 die Wahrscheinlichkeit eines Fehlers erster Art durch α beschränkt ist.<br />

12.26 Definition:<br />

Ist ϕ ein Test zum Niveau α = 1<br />

20 = 0.05 und x ∈ X eine Stichprobe mit ϕ(x) = 1 (d.h. wenn wir aufgrund<br />

dieser Stichprobe unsere Hypothese verwerfen), so sprechen wir von einem signifikanten Ergebnis.<br />

Bei α = 1<br />

100 = 0.01 sprechen wir von einem hoch-signifikanten Ergebnis.<br />

Wir wollen im folgenden zwei Arten von Tests für Normalverteilungen besprechen.


12 Schätzer und statistische Tests 161<br />

12.2.1 Der einseitige Gaußtest<br />

Dieser Test wird durchgeführt, wenn die Varianz bekannt ist.<br />

Beispiel 12.27:<br />

Wissen wir also etwa in Beispiel 12.1, dass die Füllmaschine eine Standard-Abweichung von σ0 = 5 hat,<br />

so können wir den nun folgenden Gaußtest verwenden. Beachte, dass dann Θ = {(µ,25) | µ ≥ 0} ist und<br />

unsere Hypothese ( ” kein Betrug“) genau µ = µ0 = 1000 entspricht. Die Alternative ( ” Betrug“) ist dann<br />

µ < µ0 = 1000.<br />

Wir wollen nun in Abhängigkeit von<br />

¯x = 1<br />

n<br />

entscheiden. Als Verwerfungsbereich wollen wir beim Gaußtest ein Intervall<br />

n�<br />

i=1<br />

(−∞,z)<br />

mit einem noch zu bestimmenden z wählen, d.h. es soll ϕ(x) = 1 sein genau dann, wenn ¯x < z gilt.<br />

Wir werden hier jetzt beispielhaft an unserem Füllmengenbeispiel z so bestimmen, dass <strong>der</strong> zugehörige<br />

Test das Niveau 0.05 hat.<br />

Seien X1,...,Xn die zufälligen Meßwerte und sei wie immer<br />

¯X = 1<br />

n<br />

xi<br />

n�<br />

Xi.<br />

Es ist z so zu bestimmen, dass unter <strong>der</strong> Hypothese µ = µ0 gilt:<br />

� �<br />

¯X < z ≤ 0.05.<br />

Pµ0<br />

Unter <strong>der</strong> Hypothese µ = µ0 gilt Xi ∼ N � µ0,σ 2 �<br />

0 , d.h. mit Satz 10.77 und Beispiel 10.35 folgt, dass<br />

Damit haben wir<br />

Pµ0<br />

Wir müssen also ein y finden, s.d.<br />

i=1<br />

¯X − µ0<br />

∼ N (0,1) .<br />

σ0<br />

√ n<br />

� ¯X < z � = Pµ0<br />

� ¯X − µ0<br />

< σ0 √<br />

n<br />

� �� �<br />

∼N(0,1)<br />

z − µ0<br />

Φ(y) = 0.05<br />

σ0<br />

√ n<br />

� �� �<br />

=:y<br />

� !<br />

≤ 0.05.<br />

für die Verteilungsfunktion Φ <strong>der</strong> Standardnormalverteilung N (0,1) ist. Das ist genau dann <strong>der</strong> Fall,<br />

wenn Φ(−y) = 0.95 gilt. Unter Verwendung <strong>der</strong> Tabelle (Anhang A) interpolieren wir so<br />

womit<br />

ist.<br />

Beispiel 12.28:<br />

In Beispiel 12.1 wäre dementsprechend<br />

−y = 1.645,<br />

z = µ0 + σ0<br />

√n · (−1.645)<br />

z = µ0 + σ0<br />

√n · (−1.645) = 1000 − 1.645 5<br />

√ 6 ≈ 996.64.<br />

Wegen ¯x = 996.5 würden wir also verwerfen und dabei mit weniger als 5% einen Fehler erster Ordnung<br />

machen!


162 12 Schätzer und statistische Tests<br />

12.2.2 Der t-Test<br />

Oft ist die Varianz allerdings nicht bekannt. In diesem Fall kann man diesen Test nutzen.<br />

In unserem Beispiel 12.1 wollen wir hier also<br />

gegen<br />

testen.<br />

Als ” Testgröße“ kann man jetzt nicht<br />

H0 : θ ∈ Θ0 = �� µ,σ 2� | µ = µ0 = 1000, σ 2 > 0 �<br />

H1 : θ ∈ Θ1 = �� µ,σ 2� | µ < µ0 = 1000, σ 2 > 0 �<br />

¯X − µ0<br />

σ0<br />

√ n<br />

nutzen, da man σ0 nicht kennt. Die Lösung für dieses Problem ist denkbar einfach: Man schätzt σ0 über<br />

S = √ S2 �<br />

�<br />

�<br />

= � 1<br />

n� �<br />

Xi −<br />

n − 1<br />

¯ X �2 ,<br />

wobei S die Stichprobenvarianz aus Lemma 12.17 ist. Beachte, dass S 2 wie dort gezeigt ein erwartungstreuer<br />

Schätzer für σ0 ist!<br />

Nach dieser Schätzung nutzt man dann<br />

P � �<br />

� ¯X<br />

X ¯<br />

− µ0<br />

< z = P < z − µ0<br />

i=1<br />

S√ n<br />

� �� �<br />

=Y<br />

S√ n<br />

und man kann zeigen, dass Y ∼ tn−1 gilt. Die Verteilung tn−1 ist dabei unabhängig von σ2 , d.h. von <strong>der</strong><br />

wahren Varianz. Die Dichte zu tn−1 sieht <strong>der</strong> Dichte von N (0,1) sehr ähnlich und in gewissem Sinne gilt<br />

n ��<br />

∞ ��<br />

N (0,1). Die Verteilungsfunktion Ftn−1 <strong>der</strong> Verteilung tn−1 ist ebenso wie Φ tabelliert.<br />

tn−1<br />

Jetzt kann man genauso wie beim Gaußtest vorgehen und entsprechend ein y mit Ftn−1 (−y) = 0.95<br />

suchen.<br />

Beispiel 12.29:<br />

In Beispiel 12.1 betrachten wir n = 6, also t5. Es folgt aus <strong>der</strong> Tabelle y = −2.015 und damit<br />

z = µ0 + S √ n · (−2.015) = 1000 − 2.015 · 5.3572<br />

√ 6 ≈ 995.593.<br />

In diesem Fall würden wir die Hypothese also nicht verwerfen, um ein Niveau von 0.05 zu halten!<br />

�<br />

,


A Tabelle <strong>der</strong> Standardnormalverteilung 163<br />

A Tabelle <strong>der</strong> Standardnormalverteilung<br />

Wir wollen hier eine Tabelle zum Nachschlagen <strong>der</strong> Verteilungsfunktion<br />

Φ(x) =<br />

<strong>der</strong> Standard-Normalverteilung geben. Da<br />

sind nur positive Werte angegeben:<br />

�x<br />

−∞<br />

�<br />

1<br />

√ exp −<br />

2π t2<br />

�<br />

dt<br />

2<br />

Φ(−x) = 1 − Φ(x) , x ≥ 0,<br />

0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09<br />

0.00 0.500000 0.503989 0.507978 0.511967 0.515953 0.519939 0.523922 0.527903 0.531881 0.535856<br />

0.10 0.539828 0.543795 0.547758 0.551717 0.555670 0.559618 0.563559 0.567495 0.571424 0.575345<br />

0.20 0.579260 0.583166 0.587064 0.590954 0.594835 0.598706 0.602568 0.606420 0.610261 0.614092<br />

0.30 0.617911 0.621719 0.625516 0.629300 0.633072 0.636831 0.640576 0.644309 0.648027 0.651732<br />

0.40 0.655422 0.659097 0.662757 0.666402 0.670031 0.673645 0.677242 0.680822 0.684386 0.687933<br />

0.50 0.691462 0.694974 0.698468 0.701944 0.705402 0.708840 0.712260 0.715661 0.719043 0.722405<br />

0.60 0.725747 0.729069 0.732371 0.735653 0.738914 0.742154 0.745373 0.748571 0.751748 0.754903<br />

0.70 0.758036 0.761148 0.764238 0.767305 0.770350 0.773373 0.776373 0.779350 0.782305 0.785236<br />

0.80 0.788145 0.791030 0.793892 0.796731 0.799546 0.802338 0.805106 0.807850 0.810570 0.813267<br />

0.90 0.815940 0.818589 0.821214 0.823814 0.826391 0.828944 0.831472 0.833977 0.836457 0.838913<br />

1.00 0.841345 0.844752 0.846136 0.848495 0.850830 0.853141 0.855428 0.857690 0.859929 0.862143<br />

1.10 0.864334 0.866500 0.868643 0.870762 0.872857 0.874928 0.876976 0.878999 0.881000 0.882977<br />

1.20 0.884930 0.886860 0.888767 0.890651 0.892512 0.894350 0.896165 0.897958 0.899727 0.901475<br />

1.30 0.903199 0.904902 0.906582 0.908241 0.909877 0.911492 0.913085 0.914656 0.916207 0.917736<br />

1.40 0.919243 0.920730 0.922196 0.923641 0.925066 0.926471 0.927855 0.929219 0.930563 0.931888<br />

1.50 0.933193 0.934478 0.935744 0.936992 0.938220 0.939429 0.940620 0.941792 0.942947 0.944083<br />

1.60 0.945201 0.946301 0.947384 0.948449 0.949497 0.950529 0.951543 0.952540 0.953521 0.954486<br />

1.70 0.955435 0.956367 0.957284 0.958185 0.959071 0.959941 0.960796 0.961636 0.962463 0.963273<br />

1.80 0.964070 0.964852 0.965621 0.966375 0.967116 0.967843 0.968557 0.969258 0.969946 0.970621<br />

1.90 0.971284 0.971933 0.972571 0.973197 0.973810 0.974412 0.975002 0.975581 0.976148 0.976705<br />

2.00 0.977250 0.977784 0.978308 0.978822 0.979325 0.979818 0.980301 0.980774 0.981237 0.981691<br />

2.10 0.982136 0.982571 0.982997 0.983414 0.983823 0.984222 0.984614 0.984997 0.985371 0.985738<br />

2.20 0.986097 0.986447 0.986791 0.987126 0.987455 0.987776 0.988089 0.988396 0.988696 0.988989<br />

2.30 0.989276 0.989556 0.989830 0.990097 0.990358 0.990613 0.990863 0.991106 0.991344 0.991567<br />

2.40 0.991802 0.992024 0.992240 0.992451 0.992656 0.992857 0.993053 0.993244 0.993431 0.993613<br />

2.50 0.993790 0.993963 0.994132 0.994297 0.994457 0.994614 0.994766 0.994915 0.995060 0.995201<br />

2.60 0.995339 0.995473 0.995603 0.995731 0.995855 0.995975 0.996093 0.996207 0.996319 0.996427<br />

2.70 0.996533 0.996636 0.996736 0.996833 0.996928 0.997020 0.997110 0.997197 0.997282 0.997365<br />

2.80 0.997445 0.997523 0.997599 0.997673 0.997744 0.997814 0.997882 0.997948 0.998012 0.998074<br />

2.90 0.998134 0.998193 0.998250 0.998305 0.998359 0.998411 0.998462 0.998511 0.998559 0.998605<br />

3.00 0.998650 0.998694 0.998736 0.998777 0.998817 0.998856 0.998893 0.998930 0.998965 0.998999<br />

3.10 0.999032 0.999064 0.999096 0.999126 0.999155 0.999184 0.999211 0.999238 0.999264 0.999289<br />

3.20 0.999313 0.999336 0.999359 0.999381 0.999402 0.999423 0.999443 0.999462 0.999481 0.999499<br />

3.30 0.999517 0.999533 0.999550 0.999566 0.999581 0.999596 0.999610 0.999624 0.999638 0.999650<br />

3.40 0.999663 0.999675 0.999687 0.999698 0.999709 0.999720 0.999730 0.999740 0.999749 0.999758<br />

3.50 0.999767 0.999776 0.999784 0.999792 0.999800 0.999807 0.999815 0.999821 0.999828 0.999835<br />

3.60 0.999841 0.999847 0.999853 0.999858 0.999864 0.999869 0.999874 0.999879 0.999883 0.999888<br />

3.70 0.999802 0.999896 0.999900 0.999904 0.999908 0.999912 0.999915 0.999918 0.999922 0.999925<br />

3.80 0.999928 0.999930 0.999933 0.999936 0.999938 0.999941 0.999943 0.999946 0.999948 0.999950<br />

3.90 0.999952 0.999954 0.999956 0.999958 0.999959 0.999961 0.999963 0.999964 0.999966 0.999967<br />

Dabei ist <strong>der</strong> Eintrag in <strong>der</strong> Zelle (i,j) genau Φ(i + j). Hier nochmal <strong>der</strong> Graph:<br />

� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �<br />

0.8<br />

0.6<br />

0.4<br />

0.2<br />

� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �<br />

−4.0−3.6<br />

−3.2−2.8<br />

−2.4−2.0<br />

−1.6−1.2<br />

−0.8−0.4<br />

� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � ��<br />

� � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � � �<br />

0 0.4 0.8 1.2 1.6 2.0 2.4 2.8 3.2 3.6 4.0<br />

Abbildung 24: Die Verteilungsfunktion Φ <strong>der</strong> Standardnormalverteilung.


B Kenngrößen <strong>der</strong> wichtigsten Verteilungen<br />

B.1 Diskrete Verteilungen<br />

Verteilung Parameter Bezeichnung X (Ω) P(X = k) für k ∈ X (Ω) Erwartungswert Varianz<br />

Laplace N ∈ N {1,...,N} 1<br />

N<br />

Benoulli p ∈ [0,1] B(1,p) {0,1} p k (1 − p) 1−k<br />

Binomial p ∈ [0,1], n ∈ N B(n,p) {1,...,n}<br />

Hypergeometrisch N,R ∈ N, N ≥ R, n ∈ N {0,...,n}<br />

� � n k n−k<br />

k p (1 − p)<br />

( R<br />

k)( N−R<br />

n−k)<br />

N+1<br />

2<br />

N 2 −1<br />

12<br />

p p(1 − p)<br />

n · p n · p · (1 − p)<br />

( N<br />

Poisson λ > 0 Poi (λ) N0<br />

n)<br />

exp(−λ) λk<br />

k! λ λ<br />

Geometrisch p ∈ [0,1] Geo(p) N p · (1 − p) k−1 1<br />

p<br />

Negativ-Binomial p ∈ [0,1], r ∈ N N0<br />

� � r+k−1 r k<br />

k p (1 − p)<br />

n R<br />

N<br />

r · 1−p<br />

p<br />

n R<br />

N<br />

(N−R) N−n<br />

N N−1<br />

1−p<br />

p 2<br />

r 1−p<br />

p 2<br />

164 B Kenngrößen <strong>der</strong> wichtigsten Verteilungen


B.2 Stetige Verteilungen<br />

Verteilung Parameter Bezeichnung Wahrscheinlichkeitsdichte Erwartungswert Varianz<br />

Gleichverteilung a < b U (a,b) f(t) = 1<br />

Normalverteilung µ ∈ R, σ > 0 N � µ,σ 2�<br />

f(t) = 1<br />

√ 2πσ 2 exp<br />

b−a 1 [a,b](t)<br />

�<br />

− (t−µ)2<br />

2σ 2<br />

Exponentialverteilung λ > 0 Exp (λ) f(t) = λ exp (−λt)1 (0,∞)(t) 1<br />

λ<br />

Gammaverteilung r,λ ∈ (0, ∞) Gamma (r,λ) f(t) = λr<br />

Γ(r) tr−1 exp (−λt) 1 (0,∞)(t)<br />

Chi-Quadrat-Verteilung n ∈ N χ 2 n = Gamma � n<br />

2<br />

�<br />

b+a<br />

2<br />

(b−a) 2<br />

12<br />

µ σ<br />

�<br />

1 , 2 f(t) = 2− n 2<br />

Γ( n<br />

n<br />

t 2<br />

2 ) −1 exp � − t<br />

�<br />

2<br />

1(0,∞)(t) n 2n<br />

α<br />

Paretoverteilung α ∈ (0, ∞) Pareto(α) f(t) =<br />

(t+1) α+1 � �<br />

∞ falls α ≤ 1 α α2<br />

1 α−2 −<br />

(α−1)<br />

(0,∞)(t)<br />

2 falls α > 2<br />

∞ falls α ≤ 2<br />

r<br />

λ<br />

1<br />

α−1 falls α > 1<br />

Cauchyverteilung f(t) := 1<br />

π(1+t 2 ) existiert nicht existiert nicht<br />

1<br />

λ 2<br />

r<br />

λ 2<br />

B Kenngrößen <strong>der</strong> wichtigsten Verteilungen 165


166 Stichwortverzeichnis<br />

Stichwortverzeichnis<br />

σ-Algebra, 100, 102, 114<br />

Borel’sche, 102, 114<br />

triviale, 100<br />

3-Türen-Problem, 52<br />

Abbildung<br />

meßbare, 101<br />

Bayes<br />

Formel von, 36<br />

bedingte Erwartung, 82<br />

Bernoulli<br />

-Experiment, 45<br />

Bernstein<br />

Ungleichung, 74<br />

Binomialkoeffizient, 24<br />

Binomialverteilung, siehe Verteilung<br />

Blockungslemma, 54, 119<br />

Borel’sche σ-Algebra, 102, 114<br />

Cauchyverteilung, siehe Verteilung<br />

Chernov<br />

Ungleichung, 76<br />

Chi-Quadrat-Verteilung, siehe Verteilung<br />

de Moivre-Laplace<br />

Grenzwertsatz von, 96<br />

de Morgan’sche Regeln, 9<br />

Dichte, 104, 115<br />

<strong>der</strong> Standardnormalverteilung, 96<br />

gemeinsame, 115<br />

Produktdichte, 115<br />

Transformationsformel, 109<br />

Ereignis, 7<br />

bedingte Wahrscheinlichkeit, 33<br />

sicheres, 7<br />

Unabhängigkeit, 31, 32<br />

unmögliches, 7<br />

Verknüpfungen, 7<br />

Ergebnis, 7<br />

Erwartungswert, 60<br />

bedingter, 82<br />

eines Zufallsvektors, 122<br />

Jensen’sche Ungleichung, 126<br />

Linearität, 63, 117<br />

Produktformel, 64<br />

Trafoformel, siehe Transformationsformel<br />

Experiment<br />

n-stufiges, 39<br />

Exponentialverteilung, siehe Verteilung<br />

Fächermodell, 22<br />

Faltung, 120<br />

Formel<br />

Mulitplikationsformel, 34<br />

von Bayes, 36<br />

von <strong>der</strong> totalen Wahrscheinlichkeit, 36<br />

Funktion<br />

erzeugende, 87<br />

Gamma-, 108<br />

rechtstetig, 102<br />

Galton-Watson-Prozess, 92<br />

Gammaverteilung, siehe Verteilung<br />

Gaußsche Glockenkurve, 96<br />

geometrische Verteilung, siehe Verteilung<br />

Gleichverteilung, siehe Verteilung<br />

diskrete, 11<br />

Graph<br />

Pfad, 134<br />

Gewicht, 135<br />

Länge, 135<br />

Weg, 134<br />

Grundraum<br />

diskreter, 7<br />

Hoeffding<br />

Ungleichung, 76<br />

Indikatorvariable, 50<br />

Korellationskoeffizient, 85<br />

Korrelation<br />

negative, 86<br />

positive, 86<br />

Kovarianz<br />

eines Zufallsvektors, 123<br />

Laplace-Raum, 11<br />

Laplace-Verteilung, 11<br />

Markov-Kette, 139<br />

Übergangsgraph, 134<br />

irreduzibel, 135<br />

Übergangsmatrix, 133<br />

aperiodisch, 137<br />

irreduzibel, 135<br />

Periode, 137<br />

in i gestartete, 146<br />

Konvergenzssatz, 141<br />

Markov-Eigenschaft, 139<br />

Rückkehrzeit, 146<br />

Rückkehrzeitensatz, 147<br />

Satz von <strong>der</strong> invarianten Verteilung, 145<br />

Satz von <strong>der</strong> positiven Rekurrenz, 147<br />

starkes Gesetz, 149<br />

Startverteilung, 139<br />

stochastische Matrix, 133<br />

Verteilung<br />

invariante, 141<br />

Zustand<br />

Periode, 136<br />

Zustandsmenge, 133<br />

Markov-Ungleichung, 72<br />

Menge<br />

Komplement, 9<br />

Multinomialkoeffizient, 25<br />

Multinomialverteilung, siehe Verteilung<br />

negative Binomialverteilung, siehe Verteilung


Stichwortverzeichnis 167<br />

Normalapproximation, 98<br />

Normalverteilung, siehe Verteilung<br />

Paretoverteilung, siehe Verteilung<br />

Polya’sches Urnenmodell, 39<br />

relative Häufigkeit, 8<br />

Satz<br />

Abel’scher Grenzwertsatz, 88<br />

Binomischer Lehrsatz, 24<br />

Grenzwertsatz von de Moivre-Laplace, 96<br />

Konvergenzsatz für Markov-Ketten, 141<br />

Poisson-Grenzwert, 59<br />

Rückkehrzeitensatz, 147<br />

von <strong>der</strong> invarianten Verteilung, 145<br />

von <strong>der</strong> iterierten Erwartung, 82<br />

von <strong>der</strong> positiven Rekurrenz, 147<br />

Zentraler Grenzwertsatz, 127<br />

Fehlerabschätzung nach Berry-Esseen, 131<br />

Schätzer, 154<br />

erwartungstreuer, 156<br />

ML-, 155<br />

Schätzung, 154<br />

Schwaches Gesetz großer Zahlen, 73<br />

Siebformel, 15<br />

Bonferroni-Ungleichungen, 19<br />

von Poincare-Sylvester, 15<br />

Simpson-Paradoxon, 37<br />

Spiegelungsprinzip, 29<br />

Stichprobe<br />

Stichprobenvarianz, 158<br />

Stichprobenraum, 154<br />

Stimmzettelproblem, 28<br />

System<br />

dynamisches, 93<br />

Grenzwert, 93<br />

Test, 160<br />

t-, 162<br />

Alternative, 159<br />

Fehler erster Art, 160<br />

Gütefunktion, 160<br />

Gauß-, 161<br />

hoch-signifikantes Ergebnis, 160<br />

Hypothese, 159<br />

signifikantes Ergebnis, 160<br />

Testproblem, 160<br />

Verwerfungsbereich, 160<br />

zum Niveau α, 160<br />

Transformationsformel, 62, 112, 116<br />

Tschebyschow-Ungleichung, 72<br />

Ungleichung<br />

Bernstein-, 74<br />

Bonferroni, 19<br />

Boole’sche, 10, 20<br />

Chernov-, 76<br />

Hoeffding-, 76<br />

Markov, 72<br />

SGGZ, siehe Schwaches Gesetz großer Zahlen<br />

Tschebyschow, 72<br />

Urnenmodell, 22<br />

Varianz, 65, 113<br />

empirische, 159<br />

Rechenregeln, 66<br />

Stichprobenvarianz, 158<br />

Verteilung, 100<br />

k-dimensionale Randverteilung, 51<br />

n-dimensionale Normalverteilung, 122<br />

n-dimensionale Std.-Normalverteilung, 122<br />

a-posteriori, 42<br />

a-priori, 42<br />

austauschbare, 40<br />

bedingte, 80<br />

Binomialverteilung, 27<br />

Cauchy-, 108<br />

Chi-Quadrat, 108<br />

einer Zufallsvariable, 48<br />

Exponential-, 106<br />

Gedächtnislosigkeit, 107<br />

Faltung, 77<br />

Gamma-, 108<br />

gemeinsame, 50<br />

geometrische, 46<br />

Gleichverteilung, 105<br />

hypergeometrische, 27<br />

Marginalverteilung, 51<br />

Multinomialverteilung, 45<br />

negative Binomialverteilung, 47<br />

Normalverteilung, 106<br />

ausgeartete, 124<br />

nicht ausgeartete, 124<br />

Pareto-, 107<br />

Produktverteilung, 115<br />

Standard-Normalverteilung, 96, 106<br />

stetige, 104<br />

Verteilungsfunktion, 102<br />

Standardnormalverteilung, 96<br />

Verzweigungsprozess, 92<br />

Aussterbewahrscheinlichkeit, 92<br />

Vitali-Menge, 101<br />

Vorhersager<br />

linearer, 86<br />

Wahrscheinlichkeit<br />

bedingte, 33<br />

Multiplikationsformel, 34<br />

Wahrscheinlichkeitsfunktion, 13<br />

bedingte, 80<br />

Wahrscheinlichkeitsraum, 100<br />

diskreter, 8<br />

Laplace-Raum, 11<br />

Produkt, 43<br />

Wahrscheinlichkeitsverteilung, 100<br />

Wald’sche Identität, 83, 91<br />

Ziegenproblem, 52<br />

zufällige Summe<br />

erzeugende Funktion, 90<br />

Zufallsexperiment, 6<br />

Zufallsvariabel<br />

standardisierte, 95<br />

Zufallsvariable, 48, 101<br />

j-tes faktorielles Moment, 88


168 Stichwortverzeichnis<br />

k-tes Moment, 113<br />

k-tes zentrales Moment, 66<br />

bedingte Erwartung, siehe bedingte Erwartung<br />

Bernoulli-verteilte, 56<br />

Binomial-verteilte, 56<br />

Poisson-Approximation, 59<br />

drittes zentrales Moment, 127<br />

Erwartungswert, siehe Erwartungswert<br />

Funktion von Zufallsvariablen, 53<br />

gemeinsame Dichte, 115<br />

geometrisch verteilte, 57<br />

Gedächtnislosigkeit, 57<br />

gleichverteilte, 56<br />

Kovarianz, 66<br />

Laplace-verteilte, 56<br />

Poisson-verteilte, 58<br />

reelle, 102<br />

Standardabweichung, 65<br />

stetig verteilte, 105<br />

Erwartungswert, 111<br />

Unabhängigkeit, 51, 83, 117<br />

unkorreliert, 69, 119<br />

Varianz, siehe Varianz<br />

Verteilung, 48, 101<br />

bedingte, 80<br />

Faltung, 77<br />

Wahrscheinlichkeitsfunktion<br />

bedingte, 80

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!