27.08.2014 Aufrufe

Einführung in die Stochastik, Prof. Lerche - Abteilung für ...

Einführung in die Stochastik, Prof. Lerche - Abteilung für ...

Einführung in die Stochastik, Prof. Lerche - Abteilung für ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

E<strong>in</strong>führung <strong>in</strong> <strong>die</strong> <strong>Stochastik</strong><br />

<strong>Prof</strong>. Dr. H. R. <strong>Lerche</strong><br />

Institut für Mathematische <strong>Stochastik</strong><br />

Universität Freiburg<br />

W<strong>in</strong>tersemester 2007/2008<br />

Stand: 5. August 2009


ii<br />

INHALTSVERZEICHNIS<br />

Inhaltsverzeichnis<br />

1 E<strong>in</strong>führung 1<br />

1.1 Was ist <strong>Stochastik</strong>? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1<br />

1.2 Stochastische Tätigkeiten im Alltag . . . . . . . . . . . . . . . . . . . . . . 1<br />

1.3 Bemerkungen zu Gew<strong>in</strong>nchancen und Gew<strong>in</strong>nquoten . . . . . . . . . . . . 3<br />

1.4 Geschichtliches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5<br />

2 Wahrsche<strong>in</strong>lichkeiten bekannter Zufallsmechanismen 7<br />

2.1 Elementare Mengenlehre und Sprechweisen . . . . . . . . . . . . . . . . . . 7<br />

2.2 Beispiele mit dem Würfel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7<br />

2.3 Etwas anderere Würfel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10<br />

2.4 Das Münzwurfmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11<br />

3 Grundbegriffe 13<br />

3.1 Diskreter Wahrsche<strong>in</strong>lichkeitsraum . . . . . . . . . . . . . . . . . . . . . . 13<br />

4 Gleichverteilungen und Komb<strong>in</strong>atorik 19<br />

4.1 Die Gleichverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19<br />

4.2 Das Komb<strong>in</strong>ationspr<strong>in</strong>zip . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19<br />

4.3 Urnen- und Schachtelmodelle . . . . . . . . . . . . . . . . . . . . . . . . . 20<br />

4.4 Verteilungen, <strong>die</strong> aus Gleichverteilungen entstehen . . . . . . . . . . . . . . 22<br />

4.5 Hypergeometrische Verteilung und B<strong>in</strong>omialverteilung . . . . . . . . . . . . 23<br />

4.6 Kompliziertere Verteilungen, <strong>die</strong> aus Gleichverteilungen entstehen . . . . . 26<br />

4.7 Die probalilistische Methode <strong>in</strong> der Komb<strong>in</strong>atorik . . . . . . . . . . . . . . 27<br />

5 Bed<strong>in</strong>gte Wahrsche<strong>in</strong>lichkeiten und Unabhängigkeit 29<br />

5.1 Bed<strong>in</strong>gte Wahrsche<strong>in</strong>lichkeit: Def<strong>in</strong>ition und Folgerungen . . . . . . . . . . 29<br />

5.2 Satz von der vollständigen Wahrsche<strong>in</strong>lichkeit . . . . . . . . . . . . . . . . 32<br />

5.3 Bayessche Formel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33<br />

5.4 Unabhängigkeit von Ereignissen . . . . . . . . . . . . . . . . . . . . . . . . 35<br />

5.5 Anwendung der Unabhängigkeit <strong>in</strong> der Zahlentheorie . . . . . . . . . . . . 41<br />

6 Zufallsvariable und ihre Verteilung 43<br />

6.1 Zufallsvariable, Verteilung e<strong>in</strong>er Zufallsvariable . . . . . . . . . . . . . . . . 43<br />

6.2 Unabhängigkeit von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . 45


INHALTSVERZEICHNIS<br />

iii<br />

7 Erwartungswert und Varianz von Verteilungen 50<br />

7.1 Der Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50<br />

7.2 Beispiele von Erwartungswerten . . . . . . . . . . . . . . . . . . . . . . . . 53<br />

7.3 Varianz und Kovarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55<br />

7.4 Varianzen e<strong>in</strong>iger Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . 57<br />

7.5 Die Tschebychew-Ungleichung und das Gesetz der Großen Zahlen . . . . . 58<br />

7.6 Approximation stetiger Funktionen . . . . . . . . . . . . . . . . . . . . . . 60<br />

8 Satz von de Moivre-Laplace 62<br />

8.1 Der Satz von de Moivre-Laplace . . . . . . . . . . . . . . . . . . . . . . . . 62<br />

8.2 Die Landauschen Symbole und <strong>die</strong> Stirl<strong>in</strong>g Formel . . . . . . . . . . . . . . 64<br />

8.3 Approximation der B<strong>in</strong>omialverteilung . . . . . . . . . . . . . . . . . . . . 66<br />

8.4 Der Zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . 69<br />

9 Erzeugende Funktionen 71<br />

9.1 Def<strong>in</strong>ition und Eigenschaften erzeugender Funktionen . . . . . . . . . . . . 71<br />

9.2 Poisson-Prozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74<br />

9.3 Ausgedünnte Poisson-Prozesse . . . . . . . . . . . . . . . . . . . . . . . . . 75<br />

9.4 Poisson-Prozess über dem E<strong>in</strong>heitsquadrat . . . . . . . . . . . . . . . . . . 77<br />

10 Markov-Ketten 79<br />

10.1 Die Ka<strong>in</strong> und Abel-Aufgabe . . . . . . . . . . . . . . . . . . . . . . . . . . 79<br />

10.2 Markov-Ketten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80<br />

10.3 Absorbierende Zustände . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83<br />

10.4 Rekurrente und transiente Zustände . . . . . . . . . . . . . . . . . . . . . . 86<br />

10.5 Stationäre Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88<br />

10.6 Konvergenz gegen <strong>die</strong> stationäre Verteilung . . . . . . . . . . . . . . . . . . 91<br />

11 Wahrsche<strong>in</strong>lichkeitsmaße mit Dichten 93<br />

11.1 Wahrsche<strong>in</strong>lichkeits-Dichte, Verteilungsfunktion, σ-Algebren . . . . . . . . 93<br />

11.2 Wahrsche<strong>in</strong>lichkeitsmaße und Zufallsvariablen auf R k . . . . . . . . . . . . 95<br />

11.3 Erwartungswert und Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . 96<br />

11.4 Unabhängigkeit von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . 97<br />

11.5 Momenterzeugende Funktionen . . . . . . . . . . . . . . . . . . . . . . . . 100<br />

11.6 χ 2 k-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101<br />

11.7 t n -Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103


iv<br />

INHALTSVERZEICHNIS<br />

12 Schließende Statistik 105<br />

12.1 E<strong>in</strong>führendes Beispiel: Füllt <strong>die</strong> Brauerei zu wenig ab? . . . . . . . . . . . 105<br />

12.2 Punktschätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106<br />

12.3 Bewertung von Schätzern:<br />

Die Risikofunktion bei Bernoulli-Beobachtungen . . . . . . . . . . . . . . . 108<br />

12.4 Konfidenz<strong>in</strong>tervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109


1<br />

1 E<strong>in</strong>führung<br />

1.1 Was ist <strong>Stochastik</strong>?<br />

<strong>Stochastik</strong> ist der Oberbegriff von Wahrsche<strong>in</strong>lichkeitsrechnung und mathematischer Statistik.<br />

In der <strong>Stochastik</strong> werden mathematische Modelle von Zufallsersche<strong>in</strong>ungen konstruiert,<br />

deren Gesetzmäßigkeiten stu<strong>die</strong>rt und ihre Anwendbarkeit auf reale Daten untersucht<br />

wird. Die Modelle basieren auf Zufallsbegriffen, wie z.B. dem der „Wahrsche<strong>in</strong>lichkeit“. Diese<br />

werden durch mathematische Axiome beschrieben. Die Axiome erklären jedoch nicht<br />

das Wesen des Zufalls. Dieses ist bis heute, trotz diverser mathematischer Ansätze durch<br />

von Miser und Kolmogorov, noch weitgehend ungeklärt.<br />

1.2 Stochastische Tätigkeiten im Alltag<br />

1. Raten<br />

2. Entscheiden<br />

3. Schätzen<br />

4. Vergleichen / Testen<br />

5. Vorhersagen<br />

6. Versichern<br />

7. Kontrollieren<br />

8. Messen<br />

1.–3. kennt man schon aus dem K<strong>in</strong>desalter. Alle acht Typen von Tätigkeiten haben zum<br />

Ziel den Zufall unter Kontrolle zu br<strong>in</strong>gen.<br />

1.2.1 Beispiele<br />

Raten<br />

a) In welcher Hand ist der Gegenstand?<br />

b) Welche Antwort ist richtig bei Unwissenheit, z. B. bei “Wer wird Millionär”?<br />

c) Wer wird der nächste US-Präsident?<br />

Entscheiden<br />

a) Das Spiel: Ste<strong>in</strong>–Schere–Papier<br />

b) Wann und wo lege ich me<strong>in</strong> Geld an?


2 1 EINFÜHRUNG<br />

c) Zu welchem Arzt gehe ich?<br />

d) Wenn ich im Zentrum e<strong>in</strong>er Stadt parken will, ab welcher Entfernung lohnt es sich den<br />

nächsten freien Parkplatz zu nehmen?<br />

Schätzen<br />

a) Wieviel Sprit ist noch im Tank?<br />

b) Wie hoch ist das Steueraufkommen <strong>in</strong> der BRD <strong>in</strong> Jahr 2007?<br />

c) Wie häufig ist e<strong>in</strong>e Krankheit <strong>in</strong> der Bevölkerung (Inzidenzrate)?<br />

Vergleichen / Testen<br />

a) ärztl. Untersuchung auf Krankheit<br />

b) Vergleich von ärztlichen Behandlungen<br />

c) Entwicklung von Medikamenten<br />

Vorhersagen<br />

a) Tippen: Toto, Lotto, E<strong>in</strong>zelspiele<br />

b) Dollarkurs an Weihnachten<br />

c) Das Wetter morgen <strong>in</strong> Freiburg<br />

Versichern<br />

Auto/ Haus/ Leben<br />

Kontrollieren<br />

a) Kontrollieren des Blutdrucks<br />

b) Fehlerkontrolle <strong>in</strong> der Produktion e<strong>in</strong>es <strong>in</strong>dustriellen Teils<br />

c) Flugsicherung<br />

Messen von physikalischen Größen <strong>in</strong> Experimenten wie Masse, Länge, Temperatur, Geschw<strong>in</strong>digkeit,<br />

Energie, Impuls<br />

a) Die Komb<strong>in</strong>ation der Ergebnisse geschieht <strong>in</strong> der Regel mit der mit der sogenannten<br />

Fehlerausgleichsrechnung.<br />

b) Will man sehr genau messen, kann man <strong>in</strong> Konflikt mit der Unschärferelation von<br />

Heisenberg geraten. Diese gibt e<strong>in</strong>e untere Schranke für <strong>die</strong> Maßgenauigkeit zweier zue<strong>in</strong>ander<br />

konjugierter physikalischer Größen, wie z.B. Ort und Impuls e<strong>in</strong>es Teilchens.<br />

Die von Heisenberg, Schrödiger u.a. entwickelte Theorie ist stochastischer Natur. Aus<br />

heutiger Sicht funktioniert sie <strong>in</strong> der Praxis sehr gut, ist aber von ihren Grundlagen<br />

her noch immer unvollständig. Es sche<strong>in</strong>t heute aber ziemlich klar, daß E<strong>in</strong>ste<strong>in</strong> mit<br />

se<strong>in</strong>em Spruch: “Gott würfelt nicht” nur dann recht hat, wenn es Gott tatsächlich nicht<br />

gibt.


1.3 Bemerkungen zu Gew<strong>in</strong>nchancen und Gew<strong>in</strong>nquoten 3<br />

1.3 Bemerkungen zu Gew<strong>in</strong>nchancen und Gew<strong>in</strong>nquoten bei Cas<strong>in</strong>o-<br />

Spielen und anderen Wetten<br />

Wir betrachen e<strong>in</strong> Zufallsexperiment mit zwei Ausgängen E und NE und nehmen an,<br />

daß W s(E) = p und W s(NE) = 1 − p ist. Was ist e<strong>in</strong>e faire Gew<strong>in</strong>nquote G bei e<strong>in</strong>er<br />

Wette auf E<strong>in</strong>treten von E bei e<strong>in</strong>em E<strong>in</strong>satz von e<strong>in</strong>er Gelde<strong>in</strong>heit? Die Antwort lautet<br />

oder anschaulicher ausgedrückt<br />

G = 1 − p<br />

p<br />

1<br />

G =<br />

p<br />

1 − p .<br />

Dies heißt E<strong>in</strong>satz und Gew<strong>in</strong>n stehen im selben Verhältnis zue<strong>in</strong>ander wie <strong>die</strong> zugehörigen<br />

Wahrsche<strong>in</strong>lichkeiten. Betrachten wir z.B. <strong>die</strong> Wette auf e<strong>in</strong>e bestimmte Zahl, z.B. 13 bei<br />

e<strong>in</strong>em Roulette mit 37 möglichen Ausgängen, d.h. mit nur e<strong>in</strong>er 0. Das Cas<strong>in</strong>o bietet dafür<br />

üblicherweise als Gew<strong>in</strong>nquoten 35 zu 1. Fair wäre aber 36 zu 1. Der Abschlag von 1 ist 37<br />

<strong>die</strong> Gew<strong>in</strong>nmarge des Cas<strong>in</strong>os (im Englischen house percentage). Allgeme<strong>in</strong> läßt sich <strong>die</strong><br />

Gew<strong>in</strong>nmarge pro Gelde<strong>in</strong>heit E<strong>in</strong>satz als<br />

1 − W s(E)(G + 1)<br />

angeben. Dabei ist (G + 1) <strong>die</strong> Zahlung des Cas<strong>in</strong>os, wenn das Ereignis E e<strong>in</strong>tritt. Das<br />

Cas<strong>in</strong>o zahlt Gew<strong>in</strong>n plus E<strong>in</strong>satz aus.<br />

Ähnlich ist es auch bei Fußballwetten wie jenen von ODDSET oder bw<strong>in</strong>. Bei <strong>die</strong>sen Wetten<br />

s<strong>in</strong>d <strong>die</strong> Erfolgswahrsche<strong>in</strong>lichkeiten im Vorh<strong>in</strong>e<strong>in</strong> aber nicht exakt bekannt, sondern<br />

werden durch den Wettanbieter meist aus Vergangenheitswerten geschätzt. Entsprechend<br />

höher s<strong>in</strong>d auch deren Gew<strong>in</strong>nmargen (oder besser Sicherheitsspannen). Betrachten wir<br />

e<strong>in</strong>e ODDSET-Wette aus dem Jahr 2004 für das 2. Ligaspiel TSV 1860 gegen KSC. Die<br />

Quoten lauteten:<br />

bei Heimsieg(1) : 1,6<br />

bei Unentschieden (0) : 3<br />

bei Niederlage (2) : 4.<br />

Dies s<strong>in</strong>d im Grunde drei Wetten auf drei Ereignisse, <strong>die</strong> eng mite<strong>in</strong>ander verbunden s<strong>in</strong>d.<br />

Die Auszahlung ist z.B. bei Unentschieden 3, d.h. der ausgezahlte Gew<strong>in</strong>n ist 2. Bei <strong>die</strong>sen<br />

Wetten ist der E<strong>in</strong>satz <strong>in</strong> den Quoten enthalten. Aus den Quoten, nennen wir sie Q i für<br />

i = 0, 1, 2, läßt sich auf <strong>die</strong> zugrundeliegenden Wahrsche<strong>in</strong>lichkeiten schließen.<br />

Sei p i = 1 Q i<br />

. Dann ist<br />

oder anders geschrieben<br />

1 = Q i · p i = (G i + 1)p i<br />

1 − p i<br />

p i<br />

= G i .<br />

Das heißt, legt man e<strong>in</strong>e faire Wette zugrunde, so erhält man aus Q i (bzw. G i ) <strong>die</strong> von<br />

den Wettanbietern zugrundegelegten Wahrsche<strong>in</strong>lichkeiten p i . Dies gilt für alle i = 0, 1, 2.<br />

Nun gilt aber <strong>in</strong> unserem Beispiel<br />

p 1 = 10<br />

16 , p 0 = 1 3 , p 2 = 1 4


4 1 EINFÜHRUNG<br />

und damit<br />

p 0 + p 1 + p 2 = 58<br />

48 > 1.<br />

Offensichtlich ist <strong>die</strong> Wette nicht fair. Da <strong>die</strong> Wahrsche<strong>in</strong>lichkeiten <strong>in</strong>sgesamt zu groß s<strong>in</strong>d,<br />

s<strong>in</strong>d <strong>die</strong> Quoten zu niedrig.<br />

Fair wäre z.B. 2,4 anstelle von 1,6 für Q 1 . Denn dann wäre p 1 = 1<br />

p 0 + p 1 + p 2 = 1.<br />

= 20<br />

2,4 48<br />

und damit<br />

Die Quoten s<strong>in</strong>d offensichtlich so gestellt, daß e<strong>in</strong>e beträchtliche Sicherheitsspanne (oder<br />

auch Gew<strong>in</strong>nmarge) zugunsten des Wettanbieters vorhanden ist. Wie groß ist <strong>die</strong>se Sicherheitsspanne?<br />

Wir normieren <strong>die</strong> aus den Quoten bestimmten p i so, daß sie zu Wahrsche<strong>in</strong>lichkeiten<br />

werden.<br />

Seien<br />

˜p i =<br />

p i<br />

für i = 0, 1, 2.<br />

2∑<br />

p i<br />

Die erwarteten Auszahlungen unter <strong>die</strong>sen Wahrsche<strong>in</strong>lichkeiten s<strong>in</strong>d<br />

A i = ∑<br />

Q i˜p i<br />

j p j<br />

i=0<br />

= ∑<br />

1<br />

j p j<br />

< 1 für i = 0, 1, 2.<br />

Die Sicherheitsspanne ist für alle i <strong>die</strong>selbe und sie beträgt 1 − 1 Pj p j .<br />

Für das oben betrachtete Beispiel ist sie 1 − 48 = 10 = 0, 172, das heißt 17,2 % behält der<br />

58 58<br />

Wettanbieter <strong>in</strong> se<strong>in</strong>er Vorausschau im Mittel e<strong>in</strong>. Da <strong>die</strong> tatsächlichen Wahrsche<strong>in</strong>lichkeiten<br />

nicht exakt bekannt s<strong>in</strong>d, ist es e<strong>in</strong>e s<strong>in</strong>nvolle Vorsichtsmaßnahme e<strong>in</strong>e genügend<br />

große Sicherheitsspanne zu wählen.<br />

Betrachten wir nun e<strong>in</strong> Szenario, das von den Erwartungen des Wettanbieters abweicht.<br />

Was ist <strong>die</strong> Gew<strong>in</strong>nerwartung über alle drei Wetten im obigen Beispiel, wenn tatsächlich<br />

<strong>die</strong> p i = 1 s<strong>in</strong>d? Angenommen für alle drei Wetten geht gleich viel Geld e<strong>in</strong>, sagen wir<br />

3<br />

jeweils e<strong>in</strong>e Gelde<strong>in</strong>heit. Angenommen (1) tritt e<strong>in</strong>, so muß der Wettanbieter 1,6 zahlen<br />

bei e<strong>in</strong>er E<strong>in</strong>nahme von 3, d.h. er macht 1,4 E<strong>in</strong>heiten Gew<strong>in</strong>n, bei (0) zahlt er 3 und<br />

nimmt 3 e<strong>in</strong>, bei (2) zahlt er 4 und nimmt 3 e<strong>in</strong>. Er verliert also 1. Folglich hat er<br />

1 · 1, 4 − 1 · 1 = 0, 133 als erwarteten Gew<strong>in</strong>n, <strong>die</strong>s s<strong>in</strong>d immer noch 4,4% aller <strong>die</strong>ses Spiel<br />

3 3<br />

betreffenden Umsätze.


1.4 Geschichtliches 5<br />

1.4 Geschichtliches<br />

• Astragalus (1,3,4,6) 2000-3000 v. Chr. (Art Vorform des Würfels)<br />

• Würfel (von den Ägyptern e<strong>in</strong>geführt) 1500 v. Chr.<br />

1.4.1 Geschichte der Wahrsche<strong>in</strong>lichkeitstheorie<br />

1494 Pacioli: 1. Aufgabensammlung:<br />

2 Spieler A & B spielen „balla“.<br />

Wer zuerst 6 Spiele gew<strong>in</strong>nt, bekommt den E<strong>in</strong>satz. Beim Stand von 5:3 zugunsten<br />

von A wird das Spiel unterbrochen. Wie ist der E<strong>in</strong>satz fair zu verteilen, wenn man<br />

davon ausgeht, daß beide Spieler gleich geschickt s<strong>in</strong>d?<br />

Erst 1656 gab Pascal <strong>die</strong> richtige Antwort.<br />

1550 Cardano: Liber de Ludo Alea<br />

erstmals <strong>die</strong> Formeln P (A ∪ B) = P (A) + P (B) − P (A ∩ B)<br />

A, B unabhängig ⇒ P (A ∩ B) = P (A) · P (B)<br />

1650 Briefwechsel zwischen Fermat und Pascal<br />

1656 Huygens: De Rationiciis <strong>in</strong> Alea Ludo<br />

14. Problem aus dem Buch:<br />

Wenn e<strong>in</strong> anderer und ich abwechselnd 2 Würfel werfen, gew<strong>in</strong>ne ich wenn ich zuerst<br />

7 Punkte geworfen habe. Und er gew<strong>in</strong>nt, wenn er zuerst 6 Punkte geworfen hat.<br />

Was ist das Chancenverhältnis, wenn ich ihn anfangen lasse? (Antwort 31<br />

60 )<br />

1713 Bernoulli: Ars Conjectandi (erstmals Gesetz der großen Zahlen)<br />

1733 De Moivre: Doctr<strong>in</strong>e of Chance (erstmals zentraler Grenzwertsatz aber ohne Kenntnis<br />

der Grenzverteilung)<br />

1808 Adra<strong>in</strong> und<br />

1809 C. F. Gauss entdecken <strong>die</strong> Normalverteilung<br />

1812 Laplace: Théorie Analytique de Probabilités<br />

1890 Tchebychev, Markov: Ungleichungen etc.<br />

1900 Hilberts 6. Problem: Axiomatisierung der Wahrsche<strong>in</strong>lichkeitsrechnung<br />

1914 Borel: Le hasard,<br />

„Weniger als e<strong>in</strong>e Million Leute leben <strong>in</strong> Paris. Täglich berichten mir<br />

<strong>die</strong> Zeitungen über <strong>die</strong> merkwürdigen Ereignisse und Unfälle, <strong>die</strong> e<strong>in</strong>igen<br />

von ihnen zustoßen. Unser Leben wäre unmöglich, wenn wir uns um all<br />

<strong>die</strong> Ereignisse sorgen würden, über <strong>die</strong> wir lesen. So kann man sagen, von<br />

e<strong>in</strong>em prakitischen Standpunkt aus können wir alle Eregnisse ignorieren,<br />

<strong>die</strong> e<strong>in</strong>e Wahrsche<strong>in</strong>lichkeit kle<strong>in</strong>er als 1/1 000 000 haben.“<br />

1933 Kolmogorov: Axiomatisierung der Wahrsche<strong>in</strong>lichkeitsrechnung.


6 1 EINFÜHRUNG<br />

1.4.2 Geschichte der Statistik („Wissenschaft des Staates“)<br />

1 v. Chr. Augustus veranlasst Volkszählung<br />

1538 He<strong>in</strong>rich VIII veranlasst Volkszählung wegen Pest (Bill of Mortality)<br />

1661 John Graunt: „Natural and Political Observations upon the Bill of Mortality“<br />

Er schätzt <strong>die</strong> Größe der Bevölkerung von London auf 380.160.<br />

1693 Halley: Sterbetafeln von Breslau<br />

1800 Gauss und Legendre entdeckten <strong>die</strong> statistische Ausgleichsrechnung<br />

1880 Lexis: Epidemiologie<br />

1923 R. Fischer: Grundlegende Methoden der Statistik<br />

1933 Neyman-Peason: Testtheorie<br />

1948 A. Wald: Entscheidungstheorie


7<br />

2 Wahrsche<strong>in</strong>lichkeiten bekannter Zufallsmechanismen<br />

2.1 Elementare Mengenlehre und Sprechweisen<br />

2.1.1 Elementare Mengenlehre<br />

Wir benutzen <strong>die</strong> folgenden Bezeichnungen:<br />

Ω : Grundmenge (Menge aller möglichen Ereignisse)<br />

∅ : leere Menge<br />

∈ : enthalten se<strong>in</strong><br />

/∈ : nicht enthalten se<strong>in</strong><br />

A c : Komplement von A (<strong>in</strong> Ω)<br />

P(Ω) : Potenzmenge von Ω<br />

2.1.2 Sprechweisen<br />

A ⊂ Ω heißt „Ereignis“<br />

Ω heißt „sicheres Ereignis“<br />

∅ heißt „unmögliches Ereignis“<br />

A c heißt „Komplementärereignis von A“<br />

A ∪ B heißt „A oder B tritt e<strong>in</strong>“ (ke<strong>in</strong> ausschließendes oder)<br />

A ∩ B heißt „A und B treten e<strong>in</strong>“<br />

#A heißt „Anzahl der Elemente von A“<br />

2.2 Beispiele mit dem Würfel<br />

2.2.1 Beispiel 1: Der faire Würfel<br />

Die Grundmenge (Menge aller möglichen Ereignisse) ist Ω = {1, . . . , 6}.<br />

Ws(Ergebnis ist „i“) = 1 6<br />

(i = 1, . . . , 6)<br />

Ist A ⊂ Ω, so ist W s(A) = #A<br />

#Ω = #A<br />

6 .<br />

Hier s<strong>in</strong>d e<strong>in</strong>ige Aussagen:<br />

a) Ergebnis ist „1“ oder „2“<br />

b) Ergebnis ist gerade<br />

c) Ergebnis ist ungerade<br />

d) Ergebnis ist gerade und kle<strong>in</strong>er als „4“.<br />

Die zu <strong>die</strong>sen Aussagen gehörenden Wahrsche<strong>in</strong>lichkeiten s<strong>in</strong>d:<br />

a) {1, 2} ⇒ Ws({1, 2}) = 2 6 = 1 3


8 2 WAHRSCHEINLICHKEITEN BEKANNTER ZUFALLSMECHANISMEN<br />

b) {2, 4, 6} ⇒ Ws({2, 4, 6}) = 1 2<br />

c) {1, 3, 5} ⇒ Ws({1, 3, 5}) = 1 2<br />

d) {2} = {2, 4, 6} ∩ {1, 2, 3} ⇒ Ws({2}) = 1 6<br />

2.2.2 Beispiel 2: Zwei Würfe<br />

Betrachtet man zwei Würfe, so ist <strong>die</strong> Grundmenge Ω 2 gleich der Menge aller geordneten<br />

Paare mit E<strong>in</strong>trägen aus {1, . . . , 6}: Ω 2 = {(i, j)|1 ≤ i, j ≤ 6} = {(1, 1), (1, 2), . . . , (6, 5), (6, 6)}.<br />

Für <strong>die</strong> Wahrsche<strong>in</strong>lichkeit W s({(i, j)}) das Paar (i, j) zu würfeln gilt:<br />

W s({(i, j)}) = 1<br />

#Ω 2 = 1<br />

36 .<br />

Für A ⊂ Ω 2 ist W s(A) = #A<br />

#Ω 2 = #A<br />

36 .<br />

1. Was ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit, dass <strong>die</strong> Summe zweier Würfe gleich k ist?<br />

Sei A k := {Summe beider Würfe ist gleich k} = {(i, j) ∈ Ω 2 |i + j = k}.<br />

W s(A 2 ) =<br />

W s(A 3 ) =<br />

W s(A 4 ) =<br />

W s(A 5 ) =<br />

W s(A 6 ) =<br />

W s(A 7 ) =<br />

W s(A 8 ) =<br />

W s(A 9 ) =<br />

W s(A 10 ) =<br />

W s(A 11 ) =<br />

W s(A 12 ) =<br />

W s(A k ) =<br />

#{(1, 1)}<br />

= 1 36 36<br />

#{(1, 2), (2, 1)}<br />

= 2 36 36 = 1 18<br />

#{(1, 3), (2, 2), (3, 1)}<br />

= 3 36<br />

36 = 1 12<br />

#{(1, 4), (2, 3), (3, 2), (4, 1)}<br />

= 4 36<br />

36 = 1 9<br />

#{(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)}<br />

= 5 36<br />

36<br />

#{(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}<br />

36<br />

#{(2, 6), (3, 5), (4, 4), (5, 3), (6, 2)}<br />

= 5 36<br />

36<br />

#{(3, 6), (4, 5), (5, 4), (6, 3)}<br />

= 4 36<br />

36 = 1 9<br />

#{(4, 6), (5, 5), (6, 4)}<br />

= 3 36<br />

36 = 1 12<br />

#{(5, 6), (6, 5)}<br />

= 2 36 36 = 1 18<br />

#{(6, 6)}<br />

= 1 36 36<br />

6 − |k − 7|<br />

36<br />

= 6 36 = 1 6<br />

2. Wie hoch ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit, dass <strong>die</strong> Summe zweier Würfe kle<strong>in</strong>er gleich 10


2.2 Beispiele mit dem Würfel 9<br />

ist?<br />

W s(Summe ≤ 10) = 1 − W s(Summe > 10)<br />

2.2.3 E<strong>in</strong>schub: Produktmengen<br />

= 1 − (W s(Summe = 11) + W s(Summe = 12))<br />

= 1 − 2 36 − 1 36 = 33<br />

36 = 11<br />

12<br />

Produkt von zwei Mengen<br />

Seien A und B Mengen. Die Produktmenge von A und B ist def<strong>in</strong>iert durch:<br />

A × B := {(a, b)|a ∈ A und b ∈ B}.<br />

Für <strong>die</strong> Mächtigkeit der Produktmenge gilt: #(A × B) = #A · #B.<br />

Produkt von endlich vielen Mengen<br />

Seien A 1 , . . . , A n Mengen.<br />

Man def<strong>in</strong>iert: A 1 × . . . × A n := {(a 1 , . . . , a n )|a i ∈ A i , i = 1, . . . , n}.<br />

∏<br />

Es gilt: #(A 1 × . . . × A n ) = n #A i .<br />

i=1<br />

2.2.4 Beispiel 3: n Würfe e<strong>in</strong>es Würfels<br />

Bei n Würfen ist <strong>die</strong> Grundmenge:<br />

Ω n =<br />

}<br />

Ω × .<br />

{{<br />

. . × Ω<br />

}<br />

= {(a 1 , . . . , a n )|1 ≤ a i ≤ 6, i = 1, . . . , n}.<br />

n-mal<br />

Für A ⊂ Ω n ist W s(A) = #A<br />

#Ω n<br />

Oder <strong>in</strong> Worten: W s(A) =<br />

Anzahl der günstigen Fälle<br />

Anzahl der möglichen Fälle .<br />

Das folgende Beispiel zeigt, daß <strong>die</strong>se Formel nicht immer gilt.<br />

2.2.5 Beispiel 4: E<strong>in</strong> 2-Stufen-Experiment<br />

1. Stufe: E<strong>in</strong> Würfel wird e<strong>in</strong>mal geworfen mit Ereignis „i“.<br />

2. Stufe: Es wird i-mal gewürfelt und jedes Ereignis festgehalten.<br />

Was ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit, daß <strong>die</strong> Summe der Würfe der 2. Stufe ≤ 6 ist?<br />

Der Grundraum ist:<br />

⋃<br />

Ω = 6 ({i} × Ω i ) mit Ω i = {(a 1 , . . . , a i )|1 ≤ a j ≤ 6, j = 1, . . . , i}.<br />

i=1<br />

Das Ereignis A ist gegeben durch:<br />

⋃<br />

A = {Summe ≤ 6} = 6 ({i} × A i ) mit A i = {(a 1 , . . . , a i )|1 ≤ a j ≤ 6,<br />

i=1<br />

i∑<br />

a j ≤ 6}<br />

j=1


10 2 WAHRSCHEINLICHKEITEN BEKANNTER ZUFALLSMECHANISMEN<br />

Damit ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit, daß <strong>die</strong> Summe der Würfe der 2. Stufe ≤ 6 ist:<br />

⋃<br />

W s(A) = W s( 6 ∑<br />

({i} × A i )) = 6 ∑<br />

W s({i} × A i ) = 6 6∑<br />

W s({i}) · W s(A i ) = 1 W s(A<br />

6<br />

i ).<br />

i=1<br />

i=1<br />

Bestimme <strong>die</strong> A i und ihre Mächtigkeiten:<br />

A 1 = {1, .., 6}<br />

A 2 = {(1, 1), (1, 2), . . . , (1, 5), (2, 1), . . . , (2, 4), . . . , (5, 1)}<br />

A 3 = {(1, 1, 1), . . . , (4, 1, 1)}<br />

.<br />

#A 1 = 6<br />

#A 2 = 15<br />

#A 3 = 20<br />

#A 4 = 15<br />

#A 5 = 6<br />

#A 6 = 1<br />

Somit ist <strong>die</strong> gesuchte Wahrsche<strong>in</strong>lichkeit<br />

W s(Summme ≤ 6) = 1 15<br />

(1 + + 20 + 15 + 6 + 1 ) = 0, 254.<br />

6 6 2 6 3 6 4 6 5 6 6<br />

i=1<br />

i=1<br />

2.3 Etwas anderere Würfel<br />

Schere-Ste<strong>in</strong>-Papier:<br />

Zwei Spieler treten gegene<strong>in</strong>ander an. Auf e<strong>in</strong> Kommando formen beide ihre Hand entweder<br />

zu „Schere“, zu „Ste<strong>in</strong>“ oder zu „Papier“. Es gilt: Ste<strong>in</strong>>Schere>Papier>Ste<strong>in</strong>.<br />

Das bedeutet: Ste<strong>in</strong> gew<strong>in</strong>nt gegen Schere, Schere gew<strong>in</strong>nt gegen Papier und Papier gew<strong>in</strong>nt<br />

gegen Ste<strong>in</strong>.<br />

Efron-Würfel:<br />

E<strong>in</strong>e Variante zu Schere-Ste<strong>in</strong>-Papier ist <strong>die</strong> zufällige Auswahl von je 2 Efron-Würfeln.<br />

Das s<strong>in</strong>d drei unterschiedliche Würfel A, B, C, auf denen <strong>die</strong> folgenden Zahlen stehen:<br />

A ↔ (1, 6, 8), B ↔ (2, 4, 9), C ↔ (3, 5, 7).<br />

Die Wahrsche<strong>in</strong>lichkeiten, daß mit e<strong>in</strong>em Würfel e<strong>in</strong>e höhere Zahl gewürfelt wird als mit<br />

e<strong>in</strong>em anderen, betragen:<br />

W s(A > B) = 4 9 , W s(B > C) = 4 9 , W s(C > A) = 4 9 ,<br />

denn<br />

W s(A < B) = W s({A = 1}) + W s(A = 8, B = 9) + W s(A = 6, B = 9)<br />

= 1 3 + 1 3 · 1<br />

3 + 1 3 · 1<br />

3<br />

= 5 9 .<br />

Damit ist ke<strong>in</strong> Würfel besser als <strong>die</strong> beiden anderen.


2.4 Das Münzwurfmodell 11<br />

2.4 Das Münzwurfmodell<br />

2.4.1 Die p-Münze<br />

Die möglichen Ergebnisse bei e<strong>in</strong>em Münzwurf s<strong>in</strong>d „Zahl“ und „Wappen“ bzw. „1“ und<br />

„0“. Die Grungmenge ist also Ω = {0, 1}. Die Wahrsche<strong>in</strong>lichkeit für Zahl ist W s(1) = p,<br />

<strong>die</strong> Wahrsche<strong>in</strong>lichkeit für Wappen ist W s(0) = 1 − p (Modell e<strong>in</strong>er p-Münze).<br />

Ist p = 1 , so sprechen wir vom fairen Münzwurf.<br />

2<br />

Warum ist <strong>die</strong> Annahme p ≠ 1 2 s<strong>in</strong>nvoll?<br />

Drei Beispiele dazu:<br />

a) Würfel<br />

1, falls Ergebnis beim Würfel = 6: W s(1) = 1 6 ,<br />

0, falls Ergebnis beim Würfel ≠ 6: W s(0) = 5 6 .<br />

In <strong>die</strong>sem Fall ist p = 1 6 .<br />

b) Wahlumfrage<br />

1, falls Ja zur CDU: W s(1) = 0, 46,<br />

0, falls Ne<strong>in</strong> zur CDU: W s(0) = 0, 54.<br />

In <strong>die</strong>sem Fall ist p = 0, 46.<br />

c) Roulette<br />

1, falls Ergebnis „Rot“: W s(1) = 18<br />

37<br />

0, falls Ergebnis „nicht Rot“ (also „Schwarz oder Zéro“): W s(0) = 19<br />

In <strong>die</strong>sem Fall ist p = 18.<br />

37<br />

Wie e<strong>in</strong>en Würfel kann man auch e<strong>in</strong>e p-Münze mehrfach werfen:<br />

37 .<br />

2.4.2 Zwei Würfe<br />

Hier ist <strong>die</strong> Grundmenge Ω 2 = {(1, 1), (1, 0), (0, 1), (0, 0)}.<br />

W s((1, 1)) = p 2 , W s((1, 0)) = p(1 − p),<br />

W s((0, 1)) = (1 − p)p, W s((0, 0)) = (1 − p) 2 .<br />

Die Wahrsche<strong>in</strong>lichkeit <strong>in</strong> zwei Würfen genau e<strong>in</strong>e 1 zu werfen ist:<br />

W s(<strong>in</strong> zwei Würfen genau e<strong>in</strong>e 1) = W s((1, 0)) + W s((0, 1)) = 2p(1 − p).<br />

2.4.3 n Münzwürfe<br />

Beispiel n = 5<br />

W s({(1, 1, 0, 0, 1)}) = W s(1)W s(1)W s(0)W s(0)W s(1) = p 3 (1 − p) 2<br />

Allgeme<strong>in</strong>: Die Grundmenge ist Ω n = {(e 1 , . . . , e n )|e i ∈ {0, 1}, i = 1, . . . , n}.<br />

Sei (α 1 , . . . , α n ) e<strong>in</strong>e gegebene 0-1-Folge der Länge n. Dann gilt für <strong>die</strong> Wahrsche<strong>in</strong>lichkeit,<br />

daß mit n Würfen genau <strong>die</strong> Folge (α 1 , . . . , α n ) geworfen wird:<br />

nP<br />

α i<br />

W s((α 1 , . . . , α n )) = pi=1<br />

(1 − p) n− P n α i ∑<br />

i=1 = p k (1 − p) n−k mit k = n α i ,<br />

k= Anzahl der „1“ <strong>in</strong> der Folge (α 1 , . . . , α n ).<br />

i=1


12 2 WAHRSCHEINLICHKEITEN BEKANNTER ZUFALLSMECHANISMEN<br />

2.4.4 B<strong>in</strong>omialverteilung<br />

Frage: Was ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit p k mit e<strong>in</strong>er p-Münze <strong>in</strong> n Würfen k E<strong>in</strong>sen zu<br />

werfen?<br />

p k = W s({(e 1 , . . . , e n ) ∈ Ω n |<br />

=<br />

∑<br />

n∑<br />

e i = k})<br />

i=1<br />

nP<br />

(α 1 ,...,α n)∈{(e 1 ,...,e n)∈Ω n | e i =k}<br />

i=1<br />

= #{(e 1 , . . . , e n ) ∈ Ω n |<br />

=<br />

( n<br />

k)<br />

p k (1 − p) n−k<br />

W s((α 1 , . . . , α n ))<br />

n∑<br />

e i = k} · p k (1 − p) n−k<br />

i=1<br />

( n<br />

)<br />

k heißt B<strong>in</strong>omialkoeffizient und beschreibt <strong>die</strong> Anzahl der k-elementigen Teilmengen<br />

e<strong>in</strong>er n-elementigen Menge. Aus der Analysisvorlesung istbekannt daß ( )<br />

n =<br />

n!<br />

n! = n(n − 1)(n − 2) . . . 1. (B<strong>in</strong>omische Formel (a + b) n = n ∑<br />

Aufgrund der B<strong>in</strong>omischen Formel gilt ∑ p k = 1.<br />

k<br />

k=0<br />

( n<br />

k<br />

k<br />

k!(n−k)!<br />

mit<br />

)<br />

a k b n−k , n ∈ N, a, b ∈ R)


13<br />

3 Grundbegriffe<br />

3.1 Diskreter Wahrsche<strong>in</strong>lichkeitsraum<br />

3.1.1 Def<strong>in</strong>ition (Diskreter Wahrsche<strong>in</strong>lichkeitsraum)<br />

E<strong>in</strong> diskreter Wahrsche<strong>in</strong>lichkeitsraum (Ω, P ) besteht aus e<strong>in</strong>er höchstens abzählbaren<br />

Menge Ω und e<strong>in</strong>er Abbildung P : P(Ω) → [0, 1] mit den folgenden Eigenschaften:<br />

a) P (Ω) = 1<br />

⋃<br />

b) P ( ∞ ∑<br />

A i ) = ∞ P (A i ) für jede Folge A i (A i ⊂ Ω, i = 1, 2, . . .) mit A i ∩A j = ∅ für i ≠ j.<br />

i=1<br />

i=1<br />

Bemerkung<br />

Die Abbildung P : P(Ω) → [0, 1] heißt diskretes Wahrsche<strong>in</strong>lichkeitsmaß. Ω heißt Grundraum.<br />

P (A) heißt Wahrsche<strong>in</strong>lichkeit von A. P(Ω) bezeichnet <strong>die</strong> Potenzmenge von Ω.<br />

3.1.2 Def<strong>in</strong>ition (Wahrsche<strong>in</strong>lichkeitsfunktion)<br />

Sei Ω e<strong>in</strong>e nichtleere höchstens abzählbar Menge. E<strong>in</strong>e Abbildung p : Ω → [0, 1] heißt<br />

Wahrsche<strong>in</strong>lichkeitsfunktion, falls ∑ ω∈Ω<br />

p(ω) = 1.<br />

3.1.3 Satz 1 (Zusammenhang zwischen Ws-Maß und Ws-Funktion)<br />

1. Sei p e<strong>in</strong>e Wahrsche<strong>in</strong>lichkeitsfunktion auf Ω und A ⊂ Ω.<br />

Durch P (A) := ∑ ω∈A<br />

p(ω) wird e<strong>in</strong> Ws-Maß def<strong>in</strong>iert.<br />

2. Sei P e<strong>in</strong> Ws-Maß.<br />

Durch p : Ω → [0, 1], p(ω) := P ({ω}) wird e<strong>in</strong>e Wahrsche<strong>in</strong>lichkeitsfunktion erklärt.<br />

Der Satz besagt: Wahrsche<strong>in</strong>lichkeitsmaß und Wahrsche<strong>in</strong>lichkeitsfunktion stehen <strong>in</strong> e<strong>in</strong>e<strong>in</strong>deutiger<br />

Beziehung zue<strong>in</strong>ander.<br />

Beweis:<br />

Zu (1): Es s<strong>in</strong>d <strong>die</strong> Eigenschaften des Wahrsche<strong>in</strong>lichkeitsmaßes nachzuweisen.<br />

a) P (Ω) = ∑ Def<strong>in</strong>ition<br />

{}}{<br />

p(ω) = 1.<br />

ω∈Ω<br />

b) Seien A i ⊂ Ω, i ≥ 1 disjunkt. Dann ist:<br />

⋃<br />

P ( ∞ A i ) =<br />

∑ Reihenumordnungssatz<br />

{}}{ ∞∑ ∑ ∑<br />

p(ω) =<br />

p(ω) = ∞ P (A<br />

i=1 ω∈ S i ).<br />

A i i=1 ω∈A i i=1<br />

Zu<br />

∑<br />

(2): Es ist <strong>die</strong> Eigenschaft der Wahrsche<strong>in</strong>lichkeitsfunktion nachzuprüfen.<br />

p(ω) = ∑ P ({ω}) = P ( ⋃ {ω}) = P (Ω) = 1.<br />

ω∈Ω ω∈Ω<br />

ω∈Ω


14 3 GRUNDBEGRIFFE<br />

3.1.4 Beispiele<br />

1. Würfel: Ω = {1, 2, . . . , 6}, p(ω) = 1 6 .<br />

2. Fairer Münzenwurf: Ω n = {ω = (ω 1 , . . . , ω n )|ω i ∈ {0, 1}, i = 1, ..., n}, p(ω) = 1<br />

2 n .<br />

3. Gleichverteilung: Ω endlich, p(ω) = 1<br />

#Ω .<br />

4. B<strong>in</strong>omialverteilung: Ω = {0, 1, . . . , n} und 0 < p < 1,<br />

p(ω) = ( n<br />

ω)<br />

p ω (1 − p) n−ω .<br />

5. Poisson-Verteilung: Ω = {0, 1, 2, . . .} = N ∪ {0}, λ > 0.<br />

p(ω) = λω<br />

ω! e−λ , ∑ p(ω) = 1, denn ∑<br />

ω∈Ω<br />

ω<br />

p(ω) = e −λ<br />

∞ ∑<br />

ω=0<br />

λ ω<br />

ω!<br />

= e −λ e λ = 1.<br />

6. Empirische Verteilung beim Würfel: Ω = {1, . . . , 6}.<br />

E<strong>in</strong> Würfel werde n-mal geworfen. n ω sei <strong>die</strong> Anzahl der Würfe mit Ergebnis ω.<br />

6∑<br />

Dann ist n ω = n. p(ω) = nω , 6∑<br />

p(ω) = 1, p selbst ist hierbei zufällig.<br />

n<br />

ω=1<br />

ω=1<br />

3.1.5 Folgerungen aus der Def<strong>in</strong>ition:<br />

(1) P (∅) = 0,<br />

⋃<br />

(2) P ( n ∑<br />

A i ) = n P (A i ) für A i disjunkt,<br />

i=1<br />

i=1<br />

⋃<br />

(3) P ( ∞ ∑<br />

A i ) ≤ ∞ P (A i ) für beliebige A i ⊂ Ω,<br />

i=1<br />

i=1<br />

⋃<br />

(4) P ( n ∑<br />

A i ) ≤ n P (A i ) für beliebige A i ⊂ Ω,<br />

i=1<br />

i=1<br />

(5) P (A c ) = 1 − P (A),<br />

(6) P (A) ≤ P (B) falls A ⊂ B,<br />

(7) P (A ∪ B) = P (A) + P (B) − P (A ∩ B),<br />

∑<br />

(8) P (A 1 ∪ . . . ∪ A n ) = n ∑<br />

(−1) k−1 P (A i1 ∩ . . . ∩ A ik ).<br />

k=1 {i 1 ,...,i k }∈P k<br />

Dabei ist P k <strong>die</strong> Menge aller k-elementigen Teilmengen der Menge {1, . . . , n}.<br />

(9) Sei A n ⊂ Ω, A n ⊂ A n+1 für n ≥ 1 und A = ∞ ⋃<br />

(10) Sei A n ⊂ Ω, A n ⊃ A n+1 für n ≥ 1 und A = ∞ ⋂<br />

i=1<br />

n=1<br />

A i . Dann gilt P (A) = lim<br />

n→∞<br />

P (A n ).<br />

A n . Dann gilt P (A) = lim<br />

n→∞<br />

P (A n ).


3.1 Diskreter Wahrsche<strong>in</strong>lichkeitsraum 15<br />

Beweis:<br />

Zu (1): P (∅) = P (∪ n∈N ∅) = ∑ n∈N<br />

P (∅). Da P (∅) ∈ [0, 1], folgt P (∅) = 0.<br />

Zu (2): Seien A 1 , . . . , A n ⊂ Ω disjunkt. Setze A i = ∅ für i > n. Dann ist:<br />

⋃<br />

P ( n ⋃<br />

A i ) = P ( ∞ Def<strong>in</strong>ition<br />

{}}{ ∞∑ ∑<br />

A i ) = P (A i ) = n ∑<br />

P (A i ) +<br />

∞ (1)<br />

{}}{ ∑<br />

P (∅) = n P (A i ).<br />

i=1<br />

i=1<br />

i=1<br />

i=1<br />

i=n+1<br />

Zu (4): (4) ist e<strong>in</strong> Spezialfall von (3). Setze <strong>in</strong> (3) A i = ∅ für i > n. Dann ist:<br />

⋃<br />

P ( n ⋃<br />

A i ) = P ( n ⋃<br />

A i ) + P (∅) = P ( n ⋃<br />

A i ) + P ( ∞<br />

i=1<br />

∑<br />

= n P (A i ) +<br />

i=1<br />

i=1<br />

∞ ∑<br />

i=n+1<br />

(1)<br />

i=1<br />

{}}{ ∑<br />

P (∅) = n P (A i ).<br />

i=1<br />

i=n+1<br />

i=1<br />

i=1<br />

(3)<br />

⋃<br />

A i ) = P ( ∞ {}}{<br />

A i ) ≤<br />

∞ ∑<br />

i=1<br />

P (A i )<br />

Zu (5): P (A)+P (A c ) = P (A∪A c ) = P (Ω) = 1. Subtraktion von P (A) auf beiden Seiten<br />

ergibt <strong>die</strong> Behauptung P (A c ) = 1 − P (A).<br />

Zu (6): Sei A ⊂ B. Dann ist B = A ∪ (A c ∩ B), A und A c ∩ B s<strong>in</strong>d disjunkt. Also gilt<br />

nach (2): P(B) = P (A) + P (A c ∩ B) ≥ P (A).<br />

Zu (7): Für A und B gilt: B = (A ∩ B) ∪ (A c ∩ B) und <strong>die</strong> Mengen A ∩ B und A c ∩ B<br />

s<strong>in</strong>d disjunkt. Also ist P (B) = P (A ∩ B) + P (A c ∩ B) und damit:<br />

(∗) P (A c ∩ B) = P (B) − P (A ∩ B).<br />

Abbildung 1: A c ∩ B<br />

Daraus folgt: P (A ∪ B) = P (A) + P (A c {}}{<br />

∩ B) = P (A) + P (B) − P (A ∩ B).<br />

(∗)<br />

Etwas allgeme<strong>in</strong>er:<br />

P (A ∩ B ∩ C) = P (A) + P (B) + P (C) − P (A ∩ B) − P (A ∩ C) − P (B ∩ C) + P (A ∩ B ∩ C).<br />

Zu (8) :<br />

Wir schreiben <strong>die</strong> Aussage wie folgt um:<br />

( ⋃ n<br />

P A i ) =<br />

i=1<br />

∑<br />

I⊂{1,...,n}<br />

)<br />

(−1) |I|−1 P<br />

(A I<br />

Dabei ist A I := ⋂ i∈I A i und I bezeichnet e<strong>in</strong>e nichtleere Teilmenge von {1, . . . , n}.


16 3 GRUNDBEGRIFFE<br />

Zeige <strong>die</strong> rechte Seite ist gleich der l<strong>in</strong>ken. Sei J w = {i | w ∈ A i }. Dann gilt w ∈ A I genau<br />

dann, wenn I ⊂ J w . Die rechts Seite ist folglich gleich<br />

∑<br />

I⊂{1,...,n}<br />

Sei nun |J w | = j ≥ 1.<br />

( ∑ )<br />

(−1) |I|−1 p(w) = ∑<br />

w∈A I<br />

w∈ S n<br />

i=1 A i<br />

( ∑ )<br />

p(w) (−1) |I|−1 .<br />

I⊂J w<br />

Dann gilt<br />

∑<br />

(−1) |I|−1 =<br />

I⊂J w<br />

j∑<br />

( ) j<br />

(−1) i−1 i<br />

i=1<br />

= 1 −<br />

= 1<br />

j∑<br />

( ) j<br />

(−1) i i<br />

i=1<br />

Der 2. Term ist gleich null wegen der b<strong>in</strong>omischen Formel.<br />

E<strong>in</strong>setzen liefert <strong>die</strong> Behauptung.<br />

Zu (9): A ist <strong>die</strong> abzählbare Vere<strong>in</strong>igung der disjunkten Mengen B 1 := A 1 , B 2 := A 2 \A 1 ,<br />

B 3 := A 3 \A 2 , . . ., und A n ist <strong>die</strong> endliche disjunkte Vere<strong>in</strong>igung der Mengen B 1 , . . . , B n .<br />

⋃<br />

Also gilt: P (A) = P ( ∞ Def<strong>in</strong>ition<br />

(2)<br />

{}}{ ∞∑<br />

n∑ {}}{ ⋃<br />

B i ) = P (B i ) = lim P (B i ) = lim P ( n B i ) = lim P (A n ).<br />

n→∞ n→∞<br />

i=1<br />

i=1<br />

n→∞ i=1<br />

⋂<br />

Zu (10): Mit A n ⊃ A n+1 für n = 1, 2, 3, . . . und A = ∞ A i gilt auch A c n ⊂ A c n+1 für<br />

⋃<br />

n = 1, 2, 3, . . . und A c = ∞ A c i.<br />

i=i<br />

(9)<br />

Also gilt: P (A) = 1 − P (A c {}}{<br />

) = 1 − lim P (A c<br />

n→∞<br />

n) = 1 − ( lim (1 − P (A n )) = lim P (A n ).<br />

n→∞ n→∞<br />

i=1<br />

i=1<br />

Beispiel zur Stetigkeit des Wahrsche<strong>in</strong>lichkeitsmaßes<br />

Wir betrachten e<strong>in</strong>e p-Münze mit 0 < p ≤ 1.<br />

Behauptung: Wenn man e<strong>in</strong>e p-Münze mehrfach wirft, kommt irgendwann e<strong>in</strong>e „1“. Man<br />

muß nur oft genug werfen. In Formeln: P (irgendwann kommt „1“) = 1.<br />

Beweis:<br />

1. Möglichkeit: Der Grundraum ist hier <strong>die</strong> Menge aller unendlich langen 0-1-Folgen<br />

Ω = {(ω 1 , ω 2 , . . .)|ω i ∈ {0, 1}} und unser Ereignis ist A = {irgendwann kommt „1“}.<br />

Wir def<strong>in</strong>ieren <strong>die</strong> Ereignisse A n := {unter den ersten n Würfen kommt e<strong>in</strong>e „1“}<br />

(n = 1, 2, 3, . . .). Dann s<strong>in</strong>d <strong>die</strong> Komplementärereignisse zu A und den A n :<br />

A c = {(ω 1 , ω 2 , . . .)|ω i = 0, i = 1, 2, 3, . . .} = {(0, 0, 0, . . .)},<br />

A c n = {((0, . . . , 0<br />

} {{ }<br />

n-mal ′ 0 ′ , ω n+1 , . . .)|ω n+i ∈ {0, 1} für i ≥ 1}.


3.1 Diskreter Wahrsche<strong>in</strong>lichkeitsraum 17<br />

⋂<br />

Da A c n ⊃ A c n+1 für alle n und A c = ∞ A c n, können wir Formel (10) aus den Folgerungen<br />

i=1<br />

anwenden: P (A c ) = lim P (A c<br />

n→∞<br />

n) = lim (1 − p) n = 0. Damit ist P (A) = 1 − P (A c ) = 1.<br />

n→∞<br />

2. Möglichkeit: Man kann <strong>die</strong>s auch so erhalten:<br />

∑<br />

P (irgendwann kommt „1“) = ∞ P („1“ kommt erstmals im i-ten Wurf)<br />

i=1<br />

∑<br />

= ∞ ∑<br />

P ({( 0, . . . , 0 , 1)}) = ∞ ∑<br />

(1 − p)<br />

i=1<br />

} {{ }<br />

i−1 p = p ∞ (1 − p) j 1<br />

= p = 1.<br />

1−(1−p)<br />

i=1<br />

j=0<br />

(i−1)-mal ′ 0 ′<br />

Fixpunktfreie Permutationen<br />

Das ist e<strong>in</strong> Beispiel für Po<strong>in</strong>carés E<strong>in</strong>- und Ausschlußformel.<br />

Aufgabe: n Personen kommen mit je e<strong>in</strong>em Geschenk zu e<strong>in</strong>er Party. Die Geschenke<br />

werden zufällig unter den Gästen verteilt. Wie groß ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit, dass m<strong>in</strong>destens<br />

e<strong>in</strong>e Person ihr Geschenk zurückerhält?<br />

Lösung: Nummeriere <strong>die</strong> Personen von 1, . . . , n. Die Permutation ω = (ω 1 , ω 2 , . . . , ω n )<br />

bedeute, daß Person 1 das Geschenk von Person ω 1 erhält, Person 2 erhält das Geschenk<br />

von Person ω 2 , . . . und Person n erhält das Geschenk von Person ω n . Die Menge all <strong>die</strong>ser<br />

Permutationen ergibt den Grundraum Ω = {ω = (ω 1 , . . . , ω n )|1 ≤ ω i ≤ n, ω i ≠ ω j , i ≠ j}.<br />

Jede <strong>die</strong>ser Permutationen soll mit gleicher Wahrsche<strong>in</strong>lichkeit e<strong>in</strong>treten. Wir können also<br />

von e<strong>in</strong>er Gleichverteilung auf Ω ausgehen. Da #Ω = n!, gilt für <strong>die</strong> Wahrsche<strong>in</strong>lichkeitsfunktion<br />

p(ω) = 1 und für das Wahrsche<strong>in</strong>lichkeitsmaß P (A) = #A .<br />

n! #Ω<br />

A i sei das Ereignis, daß Person i ihr Geschenk zurückerhält (i = 1, . . . , n). Also ist das<br />

Ereignis A, daß m<strong>in</strong>destens e<strong>in</strong>e Person ihr Geschenk zurückerhält A = A 1 ∪ . . . ∪ A n . Mit<br />

der E<strong>in</strong>- und Ausschlußformel läßt sich <strong>die</strong>ser Ausdruck umformen zu:<br />

∑<br />

P (A 1 ∪ . . . ∪ A n ) = n ∑<br />

(−1) k−1 P (A i1 ∩ . . . ∩ A ik ).<br />

k=1 {i 1 ,...,i k }∈P k<br />

Berechnen wir nun P (A i1 ∩ . . . ∩ A ik ):<br />

A i1 ∩ . . . ∩ A ik ist <strong>die</strong> Menge der Permutationen, <strong>die</strong> <strong>die</strong> Punkte i 1 , . . . , i k als Fixpunkte<br />

haben. O.B.d.A. seien <strong>die</strong>s <strong>die</strong> Punkte 1, . . . , k. Die Anzahl der Permutationen, <strong>die</strong> <strong>die</strong><br />

ersten k Elemente als Fixpunkte haben, ist gleich der Anzahl der Permutationen der<br />

übrigen n − k Elemente, also (n − k)!. Damit ist:<br />

P (A i1 ∩ . . . ∩ A ik ) = P (A 1 ∩ . . . ∩ A k ) = #(A 1∩...∩A k )<br />

= (n−k)! .<br />

#Ω n!<br />

Zurück zur Aufgabe: Mit der gefundenen Beziehung ergibt sich weiter:<br />

∑<br />

P (A 1 ∪ . . . ∪ A n ) = n ∑<br />

∑<br />

= n (−1) k−1( )<br />

n (n−k)!<br />

n! k n!<br />

( n k)= n!<br />

k!(n−k)!<br />

{}}{<br />

=<br />

(−1) k−1 (n−k)!<br />

k=1 {i 1 ,...,i n}∈P k<br />

n∑<br />

(−1) k−1 1 = 1 − ∑ n (−1) k 1 .<br />

k! k!<br />

k=1<br />

k=0<br />

Die Wahrsche<strong>in</strong>lichkeit, daß m<strong>in</strong>destens e<strong>in</strong> Gast se<strong>in</strong> Geschenk zurückerhält ist folglich:<br />

∑<br />

1 − n<br />

k=0<br />

(−1) k<br />

k!<br />

.<br />

Für sehr viele Gäste (n → ∞) konvergiert <strong>die</strong>se Wahrsche<strong>in</strong>lichkeit gegen 1 − e −1 .<br />

k=1


18 3 GRUNDBEGRIFFE<br />

Das Komplementärereignis hierzu ist, daß ke<strong>in</strong> Gast se<strong>in</strong> mitgebrachtes Geschenk zurückerhält.<br />

Die Wahrsche<strong>in</strong>lichkeit dafür konvergiert gegen e −1 ∼ = 0, 37. Folglich s<strong>in</strong>d für große<br />

n etwa 37% aller Permutationen fixpunktfrei.


19<br />

4 Gleichverteilungen und Komb<strong>in</strong>atorik<br />

4.1 Die Gleichverteilung<br />

4.1.1 Die Gleichverteilung<br />

Bei der Gleichverteilung betrachten wir e<strong>in</strong>en endlichen Grundraum Ω und gehen davon<br />

aus, daß alle Elementarereignisse aus Ω mit der gleichen Wahrsche<strong>in</strong>lichkeit e<strong>in</strong>treten.<br />

(E<strong>in</strong> Element ω ∈ Ω heißt Elementarereignis.)<br />

Aus 1 = ∑ p(ω) = #Ω · p(ω) folgt p(ω) = 1 für alle ω ∈ Ω.<br />

#Ω<br />

ω∈Ω<br />

Für A ⊂ Ω gilt: P (A) = #A<br />

Anzahl der günstigen Fälle<br />

. In Worten: P (A) = .<br />

#Ω Anzahl der möglichen Fälle<br />

E<strong>in</strong> Gleichverteilungsproblem besteht also <strong>in</strong> der Bestimmung der Anzahl der günstigen<br />

Fälle und der Anzahl der möglichen Fälle.<br />

4.1.2 E<strong>in</strong>leitendes Beispiel<br />

In e<strong>in</strong>er Urne s<strong>in</strong>d 5 weiße und 4 schwarze nicht nummerierte Kugeln. Es werden 3 Kugeln<br />

gezogen. Was ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit 2 weiße und e<strong>in</strong>e schwarze Kugel zu ziehen?<br />

Die Anzahl der möglichen Fälle ist ( 9<br />

3)<br />

. Die Anzahl der günstigen Fälle ist<br />

( 5<br />

2)( 4<br />

1)<br />

.<br />

Die gesuchte Wahrsche<strong>in</strong>lichkeit beträgt also (5 2)( 4 1)<br />

( 9 3)<br />

= 10<br />

21 .<br />

4.2 Das Komb<strong>in</strong>ationspr<strong>in</strong>zip<br />

4.2.1 Das Komb<strong>in</strong>ationspr<strong>in</strong>zip <strong>in</strong> Worten<br />

Sei Ω e<strong>in</strong>e Menge von n-Tupeln ω = (ω 1 , . . . , ω n ), <strong>die</strong> man als Ergebnisse e<strong>in</strong>es aus n<br />

Teilexperimenten bestehenden Zufallsexperiments auffassen kann, wobei ω i das Ergebnis<br />

des i-ten Teilexperiments ist. Für das erste Teilexperiment gebe es k 1 mögliche Ausgänge.<br />

Für jedes i sei k i <strong>die</strong> Zahl der möglichen Ausgänge des i-ten Teilexperimentes, unabhängig<br />

davon wie <strong>die</strong> früheren Teilexperimente ausgegangen s<strong>in</strong>d. Dann ist #Ω = k 1 . . . k n .<br />

4.2.2 Das Komb<strong>in</strong>ationspr<strong>in</strong>zip <strong>in</strong> Formeln<br />

Seien A 1 , A 2 , . . . , A n endliche Mengen und Ω ⊂ A 1 × . . . × A n .<br />

Sei k j ∈ N mit k 1 = |A 1 |, k j ≤ |A j | für j = 2, . . . , n.<br />

Sei Ω j ω ′ 1 ,...,ω′ j−1<br />

= {(ω 1 , . . . , ω j )|ω i = ω ′ i, i = 1, . . . , j − 1} für j = 2, . . . , n und<br />

sei Ω = {(ω 1 , . . . , ω n )|ω 1 ∈ A 1 , (ω 1 , . . . , ω i ) ∈ Ω i ω 1 ,...,ω i−1<br />

für i = 2, . . . , n}.<br />

∏<br />

Gilt für j = 2, . . . , n |Ω j ω 1 ,...,ω j−1<br />

| = k j für alle (ω 1 , . . . , ω j−1 ), so folgt #Ω = n k j .<br />

j=1


20 4 GLEICHVERTEILUNGEN UND KOMBINATORIK<br />

4.3 Urnen- und Schachtelmodelle<br />

4.3.1 Das Urnenmodell<br />

In e<strong>in</strong>er Urne seien N nummerierte Kugeln. Man zieht n-mal aus der Urne e<strong>in</strong>e Kugel. Man<br />

kann mit oder ohne Zurücklegen und mit oder ohne Beachtung der Reihenfolge ziehen.<br />

Folgende vier Fälle werden unterschieden:<br />

1) Ziehen mit Zurücklegen und mit Beachtung der Reihenfolge.<br />

2) Ziehen mit Zurücklegen und ohne Beachtung der Reihenfolge.<br />

3) Ziehen ohne Zurücklegen und mit Beachtung der Reihenfolge.<br />

4) Ziehen ohne Zurücklegen und ohne Beachtung der Reihenfolge.<br />

4.3.2 Das Schachtelmodell<br />

E<strong>in</strong> komplementäres Modell ist das Schachtelmodell.<br />

Es werden n Kugeln auf N nummerierte Schachteln verteilt. Man kann nun Mehrfachbelegungen<br />

der Schachteln zulassen oder nicht und man kann <strong>die</strong> Kugeln nummerieren oder<br />

nicht. Auch hier gibt es vier Möglichkeiten:<br />

1) Verteilung mit Mehrfachbesetzung und mit Nummerierung.<br />

2) Verteilung mit Mehrfachbesetzung und ohne Nummerierung.<br />

3) Verteilung ohne Mehrfachbesetzung und mit Nummerierung.<br />

4) Verteilung ohne Mehrfachbesetzung und ohne Nummerierung.<br />

4.3.3 Zusammenhang zwischen Urnenmodell und Schachtelmodell<br />

Zwischen dem Urnenmodell und dem Schachtelmodell besteht e<strong>in</strong> ganz enger Zusammenhang.<br />

Die Fragen: „Wie viele Möglichkeiten gibt es n Kugeln aus e<strong>in</strong>er Urne mit N Kugeln<br />

zu ziehen?“ und „Wie viele Möglichkeiten gibt es n Kugeln auf N Schachteln zu verteilen?“<br />

s<strong>in</strong>d äquivalent. Dabei ist das Zurücklegen <strong>in</strong> <strong>die</strong> Urne äquivalent zur Mehrfachbesetzung<br />

der Schachteln und das Beachten der Reihenfolge ist äquivalent zur Angabe der Schachtelnummern,<br />

<strong>in</strong> <strong>die</strong> <strong>die</strong> Kugeln fallen.<br />

So gibt es zum Beispiel genau so viele Möglichkeiten 3 Kugeln aus e<strong>in</strong>er Urne mit 8 Kugeln<br />

ohne Zurücklegen und mit Beachtung der Reihenfolge zu ziehen wie es Möglichkeiten gibt<br />

3 nummerierte Kugeln auf 8 Schachteln zu verteilen.<br />

4.3.4 Anzahl der Elemente der Grundräume<br />

Hier ist e<strong>in</strong>e Übersicht, wie man <strong>die</strong> Anzahl der möglichen Fälle berechnet. Dabei bedeutet<br />

[N] n := (n+N−1)! = N(N + 1) . . . (N + n − 1) <strong>die</strong> ober Faktorielle und<br />

(N−1)!<br />

[N] n := N! = N(N − 1) . . . (N − n + 1) <strong>die</strong> unter Faktorielle.<br />

(N−n)!


4.3 Urnen- und Schachtelmodelle 21<br />

Urnenmodell mit Zurücklegen ohne Zurücklegen<br />

mit Reihenfolge N n [N] n nummeriert<br />

[N]<br />

ohne Reihenfolge<br />

n<br />

[N] n<br />

= ( )<br />

N<br />

nicht nummeriert<br />

n!<br />

n! n<br />

mit Mehrfachbesetzung ohne Mehrfachbesetzung Schachtelmodell<br />

4.3.5 Beispiel: Lotto „6 aus 49“<br />

Tabelle 1: Urnenmodell und Schachtelmodell<br />

In e<strong>in</strong>er Urne bef<strong>in</strong>den sich 49 nummerierte Kugeln. Davon werden 6 ohne Zurücklegen<br />

gezogen. Es kommt nur auf <strong>die</strong> gezogenen Nummern an, nicht auf deren Reihenfolge.<br />

Die Mächtigkeit des Grundraumes ist somit ( )<br />

49<br />

6 . Für i richtig getippte Zahlen ist <strong>die</strong><br />

Anzahl der günstigen Fälle ( )(<br />

6 43<br />

i 6−i)<br />

. Somit ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit für „i Richtige“:<br />

P („i“ Richtige) = i)( 6−i) (6 43<br />

, 1 ≤ i ≤ 6.<br />

( 49 6 )<br />

6−(i+1))<br />

( 49<br />

6 )<br />

P („i“ Richtige mit Zusatzzahl) = (1 1)( 6 i)(<br />

42<br />

, 0 ≤ i ≤ 5.<br />

Die Chance für „6-Richtige“ ist: P (“i = 6 ′′ ) = 1<br />

( 49<br />

6 ) = 1<br />

13.983.816<br />

Richtige Günstige Fälle Chance<br />

6R 1 1/13983816<br />

5R+Z 6 1/2330636<br />

5R 258 1/54200<br />

4R+Z 630 1/22196<br />

4R 13545 1/1032<br />

3R 246820 1/57<br />

Tabelle 2: Lotto ’6 aus 49’<br />

4.3.6 E<strong>in</strong>e komb<strong>in</strong>atorische Aufgabe<br />

In e<strong>in</strong>er Urne seien n weiße und n schwarze Kugeln. n Personen ziehen je zwei Kugel ohne<br />

Zurücklegen und ohne Beachtung der Reihenfolge.<br />

Frage: Wie hoch ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit, daß jede Personen e<strong>in</strong>e weiße und e<strong>in</strong>e schwarze<br />

Kugel zieht?<br />

Antwort: Sei A = {1, 2, . . . , n, n + 1, . . . , 2n} <strong>die</strong> Menge der Kugeln <strong>in</strong> der Urne. Der<br />

} {{ } } {{ }<br />

weiß schwarz<br />

⋃<br />

Grundraum ist dann: Ω = {({a 1 , b 1 }, . . . , {a n , b n })|a i , b i ∈ A, n {a i , b i } = A}.<br />

Die erste Person zieht zwei Kugeln ohne Zurücklegen und ohne Beachtung der Reihenfolge.<br />

Dafür gibt es ( )<br />

2n<br />

2 Möglichkeiten.<br />

Nun zieht <strong>die</strong> zweite Person. In der Urne bef<strong>in</strong>den sich jetzt nur noch 2n − 2 Kugeln. Für<br />

i=1


22 4 GLEICHVERTEILUNGEN UND KOMBINATORIK<br />

<strong>die</strong> zweite Person gibt es also noch ( )<br />

2n−2<br />

2 Möglichkeiten.<br />

Führt man <strong>die</strong>sen Gedanken fort, so gibt es für <strong>die</strong> k-te Person ( )<br />

2n+2−2k<br />

2 Möglichkeiten<br />

und für <strong>die</strong> letzte Person gibt es dann nur noch ( ) (<br />

2n+2−2n<br />

2 = 2<br />

)<br />

2 = 1 Möglichkeit.<br />

Nach dem Komb<strong>in</strong>ationspr<strong>in</strong>zip ist somit <strong>die</strong> Mächtigkeit des Grundraumes:<br />

#Ω = ( )(<br />

2n 2n−2<br />

)( 2n−4<br />

) (<br />

2 2 2 . . . 2<br />

2)<br />

=<br />

(2n)(2n−1) (2n−2)(2n−3)<br />

. . . 1 = (2n)! .<br />

2<br />

2 2 n<br />

⋃<br />

Sei B n := {({a 1 , b 1 }, . . . , {a n , b n }) ∈ Ω|a i ∈ {1, . . . , n}, b i ∈ {n + 1, . . . , 2n}, n {a i , b i } =<br />

A} ⊂ Ω das Ereignis, daß alle n Person zwei Kugeln mit unterschiedlichen Farben ziehen.<br />

Dann ist <strong>die</strong> Mächtigkeit von B n : #B n = n · n · (n − 1) · (n − 1) · . . . · 1 = (n!) 2 .<br />

Damit ist P (B n ) =<br />

(n!)2 .<br />

(2n)!/2 n<br />

Für große n läßt sich <strong>die</strong> Wahrsche<strong>in</strong>lichkeit näherungsweise berechnen:<br />

P (B n ) = (n!)2 2 n<br />

∼ (2πn)n<br />

(2n)! = 2n e<br />

√ −2n·2n<br />

4πn(2n)<br />

= √ πn 1·2n = √ πn 1 .<br />

2n e −2n 2 2n 2 n<br />

Dabei haben wir <strong>die</strong> Stirl<strong>in</strong>g-Formel verwendet. Diese lautet n! ∼ √ 2πnn n e −n , das heißt<br />

n!/ √ 2πnn n e −n → 1 für n → ∞.<br />

i=1<br />

4.4 Verteilungen, <strong>die</strong> aus Gleichverteilungen entstehen<br />

In e<strong>in</strong>er Urne seien N Kugeln. Davon seien W weiß und S schwarz, N = W + S. Es<br />

werden n Kugeln gezogen. Was ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit r weiße Kugeln zu ziehen?<br />

Die Menge der Kugeln <strong>in</strong> der Urne wird beschrieben durch A = {1, . . . , N}, oder genauer:<br />

A = {1, . . . , W , W + 1, . . . , W + S}<br />

} {{ } } {{ }<br />

weiße<br />

schwarze<br />

{<br />

1 falls i ∈ {1, . . . , W }<br />

Wir def<strong>in</strong>ieren e<strong>in</strong>e Funktion ϕ : A → {0, 1} durch: ϕ(i) :=<br />

0 falls i ∈ {W + 1, . . . , W + S}<br />

.<br />

4.4.1 Ziehen mit Zurücklegen und mit Reihenfolge<br />

Sei (ε 1 , . . . , ε n ) e<strong>in</strong>e 0-1-Folge der Länge n. Dann gilt:<br />

P ({(a 1 , . . . , a n )|a i ∈ A, ϕ(a i ) = ε i , i = 1, . . . , n}) = W r S n−r<br />

N n ,<br />

∑<br />

wobei r = n ε i <strong>die</strong> Anzahl der weißen gezogenen Kugeln ist.<br />

i=1<br />

Die Wahrsche<strong>in</strong>lichkeit “r (0 ≤ r ≤ n) weiße Kugeln zu ziehen” beträgt:<br />

P (“r weiße”) = P ({(a 1 , . . . , a n )|<br />

n∑<br />

( )( ) r ( ) n−r n W S<br />

ϕ(a i ) = r}) =<br />

.<br />

r N N<br />

Das ist <strong>die</strong> B<strong>in</strong>omialverteilung mit n Beobachtungen und p = W N , kurz b(n; W N ).<br />

i=1


4.5 Hypergeometrische Verteilung und B<strong>in</strong>omialverteilung 23<br />

4.4.2 Ziehen ohne Zurücklegen und mit Reihenfolge<br />

Sei (a 1 , . . . , a n ), 1 ≤ a i ≤ N für i = 1, . . . , n und a i ≠ a j für i ≠ j e<strong>in</strong>e Folge der Länge n.<br />

Dann gilt: P ({(a 1 , . . . , a n )}) = 1<br />

[N] n<br />

.<br />

Sei (ε 1 , . . . , ε n ) e<strong>in</strong>e 0-1-Folge der Länge n. Dann gilt:<br />

P ({(a 1 , . . . , a n )|a i ≠ a j für i ≠ j und ϕ(a i ) = ε i für i = 1, . . . , n, }) = [W ] r[S] n−r<br />

[N] n<br />

.<br />

Die Wahrsche<strong>in</strong>lichkeit “r (0 ≤ r ≤ n) weiße Kugeln zu ziehen” ist nun:<br />

p(“r weiße”) = P ({(a 1 , . . . , a n ) | a i ≠ a j für i ≠ j und<br />

n∑<br />

ϕ(a i ) = r})<br />

i=1<br />

( ) n [W ]r [S] n−r<br />

=<br />

r [N] n<br />

= [W ] r/r! [S] n−r /(n − r)!<br />

[N] n /n!<br />

( ) ( )<br />

W S<br />

r<br />

=<br />

n − r<br />

( ) , 0 ≤ r ≤ n<br />

N<br />

n<br />

Wir nennen <strong>die</strong>se Wahrsche<strong>in</strong>lichkeit p(r).<br />

Es gilt n ∑<br />

r=0<br />

( W<br />

r<br />

)( S<br />

n−r<br />

n<br />

r=0<br />

) (<br />

=<br />

W +S<br />

) n∑ ⇔ p(r) = 1. Damit ist p e<strong>in</strong>e Wahrsche<strong>in</strong>lichkeitsfunktion<br />

auf {0, . . . , n}. Das dazugehörige Wahrsche<strong>in</strong>lichkeitsmaß heißt <strong>die</strong> hypergeometrische<br />

Verteilung h(n; W, S).<br />

4.5 Hypergeometrische Verteilung und B<strong>in</strong>omialverteilung<br />

Wir gehen wieder von e<strong>in</strong>er Urne mit N Kugeln aus. Davon seien W Kugeln weiß und S<br />

Kugeln schwarz, W + S = N. Wir ziehen n-mal ohne Beachtung der Reihenfolge.<br />

Grundlegende Tatsache: Ist N groß im Verhältnis zu n, so unterscheiden sich „Ziehen<br />

mit Zurücklegen“ (B<strong>in</strong>omialverteilung) und „Ziehen ohne Zurücklegen“ (hypergeometrische<br />

Verteilung) nur wenig.<br />

Beispiel: „Wahlumfrage“:<br />

Anzahl der Wahlberechtigten N = 5 · 10 7 , Anzahl der Befragten n = 1200.<br />

Die genaue Formulierung <strong>die</strong>ser Tatsache lautet:<br />

Für N → ∞ erhöhe sich <strong>die</strong> Anzahl der weißen und der schwarzen Kugeln <strong>in</strong> der Urne.<br />

Das heißt: Die Anzahl W der weißen Kugeln und <strong>die</strong> Anzahl S der schwarzen Kugeln<br />

sollen beide von N abhängen. Um das zu verdeutlichen schreiben wir W N statt W und<br />

S N statt S. Natürlich gilt für alle N: W N + S N = N.


24 4 GLEICHVERTEILUNGEN UND KOMBINATORIK<br />

4.5.1 Satz 1<br />

W<br />

Es gelte außerdem lim N<br />

N→∞<br />

N<br />

= p (0 ≤ p ≤ 1).<br />

Sei n ∈ N fest. Dann gilt für N → ∞: (W N r<br />

)( S N<br />

n−r)<br />

( N n)<br />

→ ( n<br />

r)<br />

p r (1 − p) n−r für 0 ≤ r ≤ n.<br />

Bemerkung Der Satz besagt, dass <strong>die</strong> Wahrsche<strong>in</strong>lichkeitsfunktionen der hypergeometrischen<br />

Verteilungen gegen <strong>die</strong> B<strong>in</strong>omialverteilung b(n; p) konvergieren.<br />

Beweis: Schreibe W statt W N<br />

)<br />

( W<br />

)( N−W<br />

r n−r<br />

( N<br />

n)<br />

( ) n [W ]r [N − W ] n−r<br />

=<br />

Es gilt: [N] n = [N] n−r [N − n + r] r .<br />

r [N]<br />

( ) n<br />

n [W ]r [N − W ] n−r [N] r<br />

=<br />

r [N] r [N] n−r [N − n + r]<br />

} {{ r<br />

}<br />

=:R N (r)<br />

( ) n W (W − 1) . . . (W − r + 1)<br />

=<br />

r N(N − 1) . . . (N − r + 1)<br />

( n<br />

→ p<br />

r)<br />

r (1 − p) n−r<br />

(N − W )(N − W − 1) . . . (N − W − n + r + 1)<br />

N(N − 1) . . . (N − n + r + 1)<br />

, weil R N (r) −→<br />

N→∞<br />

1 für 0 ≤ r ≤ n und n fest.<br />

· R N (r)<br />

4.5.2 Anwendung <strong>in</strong> der Qualitätskontrolle<br />

Sowohl B<strong>in</strong>omial- als auch Hypergeomoetrische Verteilung treten <strong>in</strong> der Qualitätskontrolle<br />

auf.<br />

In e<strong>in</strong>er Warenlieferung oder Produktionse<strong>in</strong>heit (engl. batch) sei W <strong>die</strong> Anzahl der defekten<br />

Stücke und S <strong>die</strong> Anzahl der <strong>in</strong>takten Stücke.<br />

Wird e<strong>in</strong>e Produktionse<strong>in</strong>heit verkauft, so e<strong>in</strong>igen sich Produzent und Abnehmer darauf,<br />

daß der Verkauf nur dann stattf<strong>in</strong>det, wenn <strong>die</strong> Lieferung gewisse Qualitätsstandards erfüllt.<br />

Der Qualitätsstandard gelte als erfüllt, wenn der Anteil der defekten Stücke <strong>in</strong> der<br />

Lieferung maximal c ist.<br />

Es wäre ideal, wenn es e<strong>in</strong>e Möglichkeit gäbe, den Anteil der defekten Stücke exakt zu<br />

bestimmen. Das ist jedoch nur möglich, wenn man jedes e<strong>in</strong>zelne Stück prüft. E<strong>in</strong>e Untersuchung<br />

aller Stücke hat jedoch manchmal ungewollte Folgen. Wird z.B. bei e<strong>in</strong>er Lieferung<br />

von Feuerwerkskörpern oder E<strong>in</strong>malblitzlichtern jedes Stück untersucht, so bedeutet<br />

das <strong>die</strong> Zerstörung der ganzen Lieferung. Außerdem kostet <strong>die</strong> Kontrolle jedes Stücks Zeit<br />

und Geld.<br />

Also bleibt nur <strong>die</strong> Möglichkeit aufgrund von Stichproben <strong>die</strong> im Allgeme<strong>in</strong>en unbekannten<br />

Größen W und S zu schätzen. E<strong>in</strong> Testverfahren soll folgendes beachten:<br />

1) Der Stichprobenumfang soll möglichst kle<strong>in</strong> se<strong>in</strong>, damit <strong>die</strong> ungewollten Nebenwirkungen<br />

des Tests ger<strong>in</strong>g s<strong>in</strong>d.<br />

2) Es soll <strong>die</strong> unbekannten Größen W und S möglichst genau schätzen, und <strong>die</strong> Wahrsche<strong>in</strong>lichkeit<br />

e<strong>in</strong>es Meßfehlers ger<strong>in</strong>g halten.


4.5 Hypergeometrische Verteilung und B<strong>in</strong>omialverteilung 25<br />

Wenn A(p) <strong>die</strong> Abnahmewahrsche<strong>in</strong>lichkeit e<strong>in</strong>er Lieferung bezeichnet, <strong>in</strong> der e<strong>in</strong> Anteil<br />

p von Stücken defekt ist, wäre e<strong>in</strong> Prüfverfahren ideal, für das gilt:<br />

{<br />

1 falls p ≤ c<br />

A(p) =<br />

.<br />

0 falls p > c<br />

Das geht jedoch nur mit e<strong>in</strong>er Volluntersuchung aller Stücke, wobei wir beim oben genannten<br />

Problem wären. Man muß sich also für e<strong>in</strong>en Mittelweg zwischen Umfang der<br />

Stichprobe und Genauigkeit des Testverfahrens entscheiden.<br />

Bei e<strong>in</strong>er Qualitätskontrolle werden n Teile aus e<strong>in</strong>er E<strong>in</strong>heit gezogen und überprüft. Die<br />

Wahrsche<strong>in</strong>lichkeit bei <strong>die</strong>ser Stichprobe vom Umfang n genau r defekte Stücke zu f<strong>in</strong>den<br />

beträgt<br />

( W<br />

p(r) =<br />

r<br />

)( ) S<br />

/<br />

n − r<br />

( W + S<br />

Man legt e<strong>in</strong>e Grenze c fest, bei der <strong>die</strong> E<strong>in</strong>heit gerade noch akzeptiert wird, d.h. s<strong>in</strong>d<br />

höchstens c Teile <strong>in</strong> <strong>die</strong>ser Stichprobe defekt, wird <strong>die</strong> Produktionse<strong>in</strong>heit abgenommen.<br />

Wir def<strong>in</strong>ieren zwei Größen:<br />

Das Produzentenrisiko α ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit, daß e<strong>in</strong>e Prokuktionse<strong>in</strong>heit, <strong>in</strong><br />

der maximal e<strong>in</strong> Anteil von p 1 Stücken defekt ist, nicht abgenommen wird.<br />

Das Abnehmerrisiko β ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit, daß e<strong>in</strong>e Produktionse<strong>in</strong>heit, <strong>in</strong> der<br />

der Anteil der defekten Stücke größer oder gleich p 2 ist, abgenommen wird.<br />

Um den Rechenaufwand zu verr<strong>in</strong>gern verwendet man <strong>die</strong> B<strong>in</strong>omialverteilung als Näherung<br />

der hypergeometrischen Verteilung. p ist dabei der Anteil der defekten Teile <strong>in</strong> der<br />

untersuchten E<strong>in</strong>heit. Damit ist<br />

c∑<br />

( ) n<br />

P p (höchstens c defekte Teile <strong>in</strong> Stichprobe vom Umfang n) = p i (1−p) n−i =: A(p)<br />

i<br />

<strong>die</strong> Wahrsche<strong>in</strong>lichkeit, daß <strong>die</strong> Produktionse<strong>in</strong>heit abgenommen wird.<br />

Trägt man für e<strong>in</strong>en festen Stichprobenumfang <strong>die</strong> Abnahmewahrsche<strong>in</strong>lichkeit A(p) gegen<br />

den Anteil p der defekten Stücke auf, so ergibt sich folgendes Schaubild, das man<br />

„operation characteristic“ (OC) nennt:<br />

n<br />

)<br />

.<br />

i=0<br />

Abbildung 2: OC-Kurve


26 4 GLEICHVERTEILUNGEN UND KOMBINATORIK<br />

Wenn p 1 , p 2 , α und β festgelegt s<strong>in</strong>d, stellt sich <strong>die</strong> Frage nach n und c. Im Allgeme<strong>in</strong>en<br />

wird <strong>die</strong> OC-Funktion steiler, wenn n größer wird. (Und damit wird es e<strong>in</strong>facher <strong>die</strong><br />

Grenzen e<strong>in</strong>zuhalten.)<br />

4.5.3 Beispiel<br />

Für n = 100 und c = 5 gilt:<br />

a) A(0, 05) = 0, 9601,<br />

b) A(0, 10) = 0, 005.<br />

4.6 Kompliziertere Verteilungen, <strong>die</strong> aus Gleichverteilungen entstehen<br />

In e<strong>in</strong>er Urne seien N Kugeln. Davon seien N i vom Typ i (i = 1, . . . , k und k ≥ 2),<br />

wobei der Typ z.B. <strong>die</strong> „Farbe“ oder den „physikalischen Energiezustand“ bezeichnen soll.<br />

∑<br />

Natürlich gilt wieder k N i = N.<br />

i=1<br />

Es werden n Kugeln gezogen.<br />

Frage: Was ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit jeweils n i Kugeln vom Typ i zu ziehen (i = 1, .., k)?<br />

∑<br />

Dabei ist k n i = n.<br />

i=1<br />

E<strong>in</strong>schub: Mult<strong>in</strong>omialkoeffizient: ( )<br />

n<br />

n1...n k<br />

ist Anzahl der Möglichkeiten e<strong>in</strong>e n-elementige<br />

k∑<br />

Menge <strong>in</strong> k Teilmengen vom Umfang n i , i = 1, . . . , k, zu zerlegen, wobei n i = n.<br />

Für k = 2 gilt: ( )<br />

n<br />

n 1 n 2<br />

=<br />

n!<br />

= ( )<br />

n<br />

n 1 !n 2 ! n 1<br />

.<br />

Für ( k ≥ 2 gilt:<br />

n<br />

) (<br />

n 1 ...n k<br />

=<br />

n<br />

)( n−n1<br />

)( n−n1 −n 2<br />

) (<br />

n 1 n 2 n 3<br />

. . .<br />

nk<br />

)<br />

n k<br />

=<br />

n!<br />

(n−n 1 )!<br />

n 1 !(n−n 1 )! n 2 !(n−n 1 −n 2 )!<br />

(n−n 1 −n 2 )!<br />

i=1<br />

n 3 !(n−n 1 −n 2 −n 3 )! . . . 1 = n!<br />

n 1 !n 2 !...n k ! .<br />

4.6.1 Ziehen mit Zurücklegen und mit Reihenfolge<br />

∑<br />

Die Wahrsche<strong>in</strong>lichkeit jeweils n i Kugeln vom Typ i zu ziehen (mit k n i = n) ist:<br />

P ({(n 1 , . . . , n k )}) = ( n<br />

n 1 ...n )N n 1<br />

k<br />

1 ...N n k<br />

l<br />

= ( )<br />

n<br />

N n n 1 ...n k<br />

p<br />

n 1<br />

1 . . . p n k<br />

k<br />

∑<br />

∑<br />

Es gilt: P ({(n 1 , . . . , n k )}) =<br />

n 1 +...+n k =n<br />

n 1 +...+n k =n<br />

mit p i = N i<br />

N .<br />

Dabei haben wir <strong>die</strong> Mult<strong>in</strong>omialformel<br />

∑ (<br />

(a 1 + a 2 + . . . + a k ) n =<br />

n<br />

)<br />

n 1 ...n k<br />

a<br />

n 1<br />

1 . . . a n k<br />

k<br />

verwendet.<br />

n 1 +...+n k =n<br />

i=1<br />

( n<br />

n 1 ...n k<br />

)<br />

p<br />

n 1<br />

1 . . . p n k<br />

k<br />

= (p 1 + . . . + p k ) n = 1.<br />

Damit wird durch P e<strong>in</strong>e Wahrsche<strong>in</strong>lichkeitsfunktion erklärt. Sie heißt Mult<strong>in</strong>omialverteilung.<br />

In der Physik wird <strong>die</strong>se Verteilung auch Maxwell-Bolzmann-Verteilung genannt. Sie gibt<br />

an, wieviele Teilchen sich im Energieniveau „i“ bef<strong>in</strong>den. Dabei wird angenommen, dass<br />

<strong>die</strong> Teilchen unterscheidbar (nummerierbar) s<strong>in</strong>d; e<strong>in</strong>e typische Annahme der klassischen


4.7 Die probalilistische Methode <strong>in</strong> der Komb<strong>in</strong>atorik 27<br />

Physik!<br />

In den folgenden Beispielen s<strong>in</strong>d <strong>die</strong> Teilchen nicht unterscheidbar, was typisch für <strong>die</strong><br />

Quantenmechanik ist.<br />

4.6.2 Ziehen ohne Zurücklegen und ohne Reihenfolge<br />

P ({(n 1 , . . . , n k )}) =<br />

( N1<br />

) (<br />

n 1<br />

. . .<br />

Nk<br />

( N<br />

0 ≤ n i ≤ N i , i = 1, . . . , k<br />

n)<br />

In der Physik auch Fermi-Dirac-Verteilung genannt.<br />

Im Schachtelbild: e<strong>in</strong> Teilchen pro Schachtel gemäß Pauli-Verbot.<br />

Typische Teilchen: Elektronen.<br />

n k<br />

)<br />

4.6.3 Ziehen mit Zurücklegen und ohne Reihenfolge<br />

P ({(n 1 , . . . , n k )}) =<br />

( N1 +n 1 −1<br />

n 1<br />

( N+n−1<br />

n<br />

) (<br />

. . .<br />

Nk +n k<br />

)<br />

−1<br />

n<br />

) k<br />

0 ≤ n i ≤ N i , i = 1, . . . , k<br />

In der Physik auch Bose-E<strong>in</strong>ste<strong>in</strong>-Verteilung genannt.<br />

Im Schachtelbild: mehrere Teilchen pro Schachtel, ke<strong>in</strong> Pauli-Verbot.<br />

Typische Teilchen: Photonen<br />

4.7 Die probalilistische Methode <strong>in</strong> der Komb<strong>in</strong>atorik<br />

Wir untersuchen Ramsey-Zahlen. Dazu betrachten wir den vollständigne Graphen K N<br />

mit N Ecken. Dieser Graph verb<strong>in</strong>det alle N Ecken mite<strong>in</strong>ander.<br />

4.7.1 Beispiele<br />

usw.<br />

K 2 K 3 K 4 K 5<br />

Abbildung 3: vollständige Graphen mit N Ecken<br />

Wir sagen K N hat <strong>die</strong> Eigenschaft (m, n), wenn, egal wie wir <strong>die</strong> Kanten von K N rot oder<br />

blau färben, es immer e<strong>in</strong>en vollständigen Untergraphen K m gibt, dessen Kanten alle rot<br />

s<strong>in</strong>d, oder es e<strong>in</strong>en vollständigen Untergraphen K n gibt, dessen Kanten alle blau s<strong>in</strong>d. Ist<br />

s ≥ N, so hat K s auch <strong>die</strong>se Eigenschaft. Die kle<strong>in</strong>ste Zahl N mit der Eigenschaft (m, n)<br />

heißt Ramsey-Zahl R(m, n).


28 4 GLEICHVERTEILUNGEN UND KOMBINATORIK<br />

Bemerkung: Es gilt R(m, 2) = m ebenso R(2, m) = m. Denn, entweder s<strong>in</strong>d alle Kanten<br />

von K m rot oder es gibt e<strong>in</strong>e blaue Kante, also e<strong>in</strong> blaues K 2 .<br />

Man kann zeigen: Für m, n ≥ 2 ist<br />

( )<br />

m + n − 2<br />

R(m, n) ≤<br />

,<br />

m − 1<br />

und <strong>in</strong>sbesondere R(k, k) ≤ 2 2k−3 für k ≥ 2. Wir leiten nun e<strong>in</strong>e untere Schranke für<br />

R(k, k) her. Dazu müssen wir zeigen, daß für e<strong>in</strong> möglichst großes N < R(k, k) es ke<strong>in</strong>e<br />

Färbung von K N gibt, für <strong>die</strong> e<strong>in</strong> roter oder blauer K k auftritt.<br />

4.7.2 Satz (Erdös, P.)<br />

R(k, k) ≥ 2 k/2 für k ≥ 2<br />

Beweis: Wir wissen R(2, 2) = 2. Außerdem ist R(3, 3) ≥ 6, wegen der folgenden Fünfeckfärbung:<br />

den Rand außen blau und alle Diagonalen rot. Sei k ≥ 4 und angenommen, daß<br />

N < 2 k/2 . Wir betrachten alle rot-blau Färbungen von K N , wobei jede Kante unabhängig<br />

mit Wahrsche<strong>in</strong>lichkeit 1 2 rot oder blau gefärbt wird. Alle Färbungen, es gibt 2 (<br />

N2<br />

), s<strong>in</strong>d<br />

gleichwahrsche<strong>in</strong>lich. Sei A e<strong>in</strong>e Eckenmenge der Größe k. Die Wahrsche<strong>in</strong>lichkeit des Er-<br />

(<br />

eignisses A R , alle Kanten <strong>in</strong> A s<strong>in</strong>d rot gefärbt, ist 2 − k2<br />

). Dann ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit,<br />

daß irgende<strong>in</strong>e k-Menge rot gefärbt ist,<br />

⎛ ⎞<br />

P R = P ⎝ ⋃<br />

A R<br />

⎠ ≤ ∑ ( ) ( N<br />

P (A R ) = · 2 − k2<br />

).<br />

k<br />

Mit N < 2 k 2<br />

P R ≤<br />

|A|=k<br />

( ) N<br />

und k ≥ 4 und wegen<br />

k<br />

|A|=k<br />

≤ N k<br />

2 k−1 für k ≥ 2 folgt<br />

( N<br />

k<br />

)<br />

2 − (<br />

k2<br />

)<br />

≤ N k<br />

2 k−1 2− (<br />

k2<br />

)<br />

< 2 k2 2 − (<br />

k2 )−k+1 = 2 − k 2 +1 ≤ 1 2 ⇒ P R < 1 2 .<br />

Ganz entsprechend folgt, daß <strong>die</strong> Wahrsche<strong>in</strong>lichkeit P B , daß irgende<strong>in</strong>e k-Menge blau<br />

gefärbt ist P B < 1 2<br />

⇒ P R + P B < 1 für N < 2 k/2 .<br />

D.h. es muß e<strong>in</strong>e Färbung ohne rote oder blaue K k geben, d.h. K N hat nicht <strong>die</strong> Eigenschaft<br />

(k, k).


29<br />

5 Bed<strong>in</strong>gte Wahrsche<strong>in</strong>lichkeiten und Unabhängigkeit<br />

5.1 Bed<strong>in</strong>gte Wahrsche<strong>in</strong>lichkeit: Def<strong>in</strong>ition und Folgerungen<br />

5.1.1 Beispiel:<br />

E<strong>in</strong>e faire Münze wird dreimal geworfen. Die Ergebnismenge ist Ω = {0, 1}×{0, 1}×{0, 1}.<br />

Dabei steht 1 für Zahl und 0 für Wappen. Sei B das Ergebnis “m<strong>in</strong>destens zweimal Zahl”:<br />

B = {(0, 1, 1), (1, 0, 1), (1, 1, 0), (1, 1, 1)}. Für <strong>die</strong> faire Münze ist<br />

P (B) = |B| · 2 −3 = 4 8 = 1 2 .<br />

Angenommen wir wissen bereits, daß der erste Wurf “Zahl”, d.h. “1” ergab, wie ändert<br />

sich <strong>die</strong> Wahrsche<strong>in</strong>lichkeit für das Ergebnis von B? Wir wissen also, daß das Ereignis<br />

A = {(1, 0, 0), (1, 1, 0), (1, 0, 1), (1, 1, 1)} auf alle Fälle e<strong>in</strong>tritt. Daher kann nur noch e<strong>in</strong><br />

Elementarereignis von A e<strong>in</strong>treten, d.h. A ist der neue Grundraum. Da alle Elementarereignisse<br />

gleichwahrsche<strong>in</strong>lich s<strong>in</strong>d, hat man<br />

|A ∩ B|<br />

|A|<br />

= 3 4 .<br />

Dabei ist<br />

|A ∩ B|/|Ω|<br />

|B|/|Ω|<br />

=<br />

P (A ∩ B)<br />

.<br />

P (B)<br />

5.1.2 Def<strong>in</strong>ition (Bed<strong>in</strong>gte Wahrsche<strong>in</strong>lichkeit)<br />

Für A, B ⊂ Ω mit P (A) > 0 ist <strong>die</strong> bed<strong>in</strong>gte Wahrsche<strong>in</strong>lichkeit von B gegeben A def<strong>in</strong>iert<br />

als<br />

P (A ∩ B)<br />

P (B|A) = .<br />

P (A)<br />

Bemerkung: Die Sprechweise „gegeben A“ <strong>in</strong> der Def<strong>in</strong>ition bedeutet, man weiß, daß A<br />

e<strong>in</strong>getreten ist.<br />

5.1.3 Folgerungen<br />

(1) P (·|A) ist Wahrsche<strong>in</strong>lichkeitsmaß auf P(Ω) mit P (B|A) = 1 für B ⊃ A und P (C|A) =<br />

0 für C ⊂ A c .<br />

(2) P (B)P (A|B) = P (A ∩ B) = P (A)P (B|A).<br />

(3) Seien A 1 , A 2 , . . . , A k ⊂ Ω mit P (A 1 ∩ A 2 ∩ . . . ∩ A k ) > 0. Dann gilt:<br />

P (A 1 ∩ A 2 ∩ . . . ∩ A k ) = P (A 1 )P (A 2 |A 1 )P (A 3 |A 1 ∩ A 2 ) . . . P (A k |A 1 ∩ . . . ∩ A k−1 ).


30 5 BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT<br />

Beweis:<br />

Zu (1):<br />

a) P (Ω|A) = P (A∩Ω)<br />

P (A)<br />

= P (A)<br />

P (A) = 1.<br />

b) Seien B i ⊂ Ω disjunkt. Dann gilt:<br />

⋃<br />

P ( ∞ B i |A) =<br />

i=1<br />

P ([ ∞ S<br />

B i ]∩A) P ( ∞ S<br />

[B i ∩A])<br />

i=1<br />

i=1<br />

=<br />

=<br />

P (A) P (A)<br />

∞P<br />

P (B i ∩A)<br />

i=1<br />

P (A)<br />

Damit ist P (·|A) e<strong>in</strong> Wahrsche<strong>in</strong>lichkeitsmaß auf P(Ω).<br />

Sei B ⊃ A und C ⊂ A c .<br />

Dann gilt: P (B|A) = P (A∩B)<br />

P (A)<br />

= P (A)<br />

P (A)<br />

∑<br />

= ∞ P (B i |A).<br />

i=1<br />

= 1 und P (C|A) =<br />

P (A∩C)<br />

P (A)<br />

= P (∅)<br />

P (A) = 0.<br />

Zu (3): Beweis mit Induktion. Richtig für k = 2 per Def<strong>in</strong>ition. Gelte <strong>die</strong> Formel für<br />

k − 1, d.h.<br />

so schreibe<br />

P (A 1 ∩ . . . ∩ A k−1 ) = P (A 1 )P (A 2 |A 1 ) . . . P (A k−1 |A 1 ∩ . . . ∩ A k−2 )<br />

P (A 1 ∩ . . . ∩ A k ) = P (A k |A 1 ∩ . . . A k−1 ) · P (A 1 ∩ . . . A k−1 )<br />

und setze <strong>die</strong> Formel für k − 1 e<strong>in</strong>.<br />

5.1.4 Beispiel: (Das Geburtstagsproblem)<br />

k Personen bef<strong>in</strong>den sich <strong>in</strong> e<strong>in</strong>em Raum. Mit welcher Wahrsche<strong>in</strong>lichkeit haben m<strong>in</strong>destens<br />

zwei von ihnen am selben Tag Geburtstag?<br />

Wir setzen voraus<br />

• das Jahr hat 365 Tage,<br />

• jeder Tag kommt mit gleicher Wahrsche<strong>in</strong>lichkeit als Geburtstag <strong>in</strong> Frage,<br />

• es besteht ke<strong>in</strong>e Abhängigkeit zwischen den Geburtstagen verschiedener Personen<br />

(also ke<strong>in</strong>e Zwill<strong>in</strong>ge!).<br />

Der E<strong>in</strong>fachheit halber denken wir uns <strong>die</strong> Personen von 1 bis k nummeriert und stellen<br />

uns vor, daß wir sie der Reihe nach befragen. Sei<br />

Ω = {1, . . . , 365} k = {ω|ω = (ω 1 , . . . , ω k ); ω i ∈ {1, . . . , 365}}.<br />

Dabei ist ω i der Geburtstag der i-ten Person.<br />

Sei<br />

D j = {(j + 1)-te Person hat an e<strong>in</strong>em anderen Tag Geburtstag als <strong>die</strong> Personen<br />

1 bis j}<br />

= {ω ∈ Ω|ω j+1 ≠ ω i für 1 ≤ i ≤ j}.


5.1 Bed<strong>in</strong>gte Wahrsche<strong>in</strong>lichkeit: Def<strong>in</strong>ition und Folgerungen 31<br />

Dann gilt<br />

365 · 364<br />

P (D 1 ) = P (ω 1 ≠ ω 2 ) =<br />

365 · 365 = 364<br />

365 .<br />

Sei nun j ≥ 2. Auf dem Ereignis D 1 ∩ . . . ∩ D j−1 haben <strong>die</strong> Personen 1, . . . , j an j<br />

verschiedenen Tagen Geburtstag. Damit ergibt sich <strong>die</strong> bed<strong>in</strong>gte Wahrsche<strong>in</strong>lichkeit des<br />

Ereignisses D j gegeben D 1 ∩ . . . ∩ D j−1 zu<br />

P (D j |D 1 ∩ . . . ∩ D j−1 ) = 365 − j = 1 − j<br />

365 365 .<br />

(Man beachte, daß <strong>die</strong>s bed<strong>in</strong>gte Wahrsche<strong>in</strong>lichkeiten s<strong>in</strong>d. So ist etwa P (D 3 |D2) c =<br />

364/365.) Wir erhalten nun<br />

P (D 1 ∩ D 2 ∩ . . . ∩ D k−1 )<br />

= P (D 1 )P (D 2 |D 1 )P (D 3 |D 1 ∩ D 2 ) . . . P (D k−1 |D 1 ∩ D 2 ∩ . . . ∩ D k−2 )<br />

(<br />

= 1 − 1 ) (<br />

1 − 2 ) (<br />

. . . 1 − k − 1 )<br />

365 365<br />

365<br />

k−1<br />

∏<br />

(<br />

= 1 − j )<br />

.<br />

365<br />

j=1<br />

Für größere Werte von k bietet sich folgende Näherung an. Es gilt log(1 − h) ≈ −h und<br />

somit<br />

∑k−1<br />

∑k−1<br />

log(P (D 1 ∩ D 2 ∩ . . . ∩ D k−1 )) = log(1 − j/365) ≈ −(1/365) j<br />

j=1<br />

k(k − 1)<br />

= −<br />

2 · 365 .<br />

Die Wahrsche<strong>in</strong>lichkeit, daß m<strong>in</strong>destens zwei Personen am selben Tag Geburtstag haben,<br />

ist daher näherungsweise<br />

1 − e − k(k−1)<br />

2·365 .<br />

Die Näherung ist sehr gut. Für k = 23 liefert sie 0.500 im Vergleich zu dem exakten Wert<br />

0.506.<br />

j=1<br />

5.1.5 Beispiel: Sterbetafeln<br />

Wir betrachten e<strong>in</strong>e Bevölkerungsgruppe, z.B. <strong>die</strong> E<strong>in</strong>wohner e<strong>in</strong>er Stadt oder e<strong>in</strong>es Landes<br />

und wollen <strong>die</strong> Lebensdauern ihrer E<strong>in</strong>wohner erfassen. Dazu ordnen wir jedem Individuum<br />

se<strong>in</strong> ganzzahliges Lebensalter zu. Wir nennen <strong>die</strong>se Größe T . T ist e<strong>in</strong>e ganzzahlige<br />

Größe, <strong>die</strong> vom Zufall abhängt. Sei p(k) <strong>die</strong> Wahrsche<strong>in</strong>lichkeit im Alter k zu sterben.<br />

Diese ist dann p(k) = P (T = k). Im Versicherungswesen, <strong>in</strong>sbesondere bei Lebensversicherungen<br />

<strong>in</strong>teressiert <strong>die</strong> Sterberate. Diese wird wie folgt erklärt.<br />

Sei S(l) := P (T ≥ l) <strong>die</strong> Wahrsche<strong>in</strong>lichkeit m<strong>in</strong>destens l Jahre alt zu werden (Überlebenswahrsche<strong>in</strong>lichkeit)<br />

und sei h(l) = P (T = l|T ≥ l) <strong>die</strong> Wahrsche<strong>in</strong>lichkeit im Alter<br />

von l Jahren zu sterben, wenn man bereits <strong>die</strong>ses Lebensjahr erreicht hat (Sterberate).<br />

Es gilt:<br />

h(l) = P (T = l|T ≥ l) =<br />

P (T = l, T ≥ l)<br />

P (T ≥ l)<br />

=<br />

P (T = l)<br />

P (T ≥ l) = p(l)<br />

S(l)<br />

S(l) − S(l + 1)<br />

= .<br />

S(l)


32 5 BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT<br />

Darstellung von S(l) durch h(l):<br />

Es gilt: S(l) = l−1 ∏<br />

(1 − h(i)). Das ergibt sich aus der Anwendung der Folgerung (3):<br />

i=1<br />

S(l) = P (T ≥ l) = l−1 ∏<br />

i=1<br />

P (T ≥ i + 1|T ≥ i) = l−1 ∏<br />

i=1<br />

S(i+1)<br />

S(i)<br />

∏<br />

(1 − h(i)).<br />

= l−1<br />

i=1<br />

Beispiel:<br />

Wir nehmen folgendes an: Die Wahrsche<strong>in</strong>lichkeit im Alter i zu sterben gegeben man hat<br />

das Alter i bereits erreicht, sei für alle i gleich p. In Formeln: h(i) = p für alle i.<br />

Dann ist S(l) = (1 − p) l−1 und<br />

P (T =k)<br />

p(k) = P (T = k) = · P (T ≥ k) = h(k)S(k) = p(1 − P (T ≥k) p)k−1 für k ∈ N.<br />

Dies ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeitsfunktion der geometrischen Verteilung.<br />

Beispiel: Sterbetafel von Breslau nach Halley (1693)<br />

Überlebenswahrsche<strong>in</strong>lichkeit berechnet nach der Halleyschen Tafel:<br />

S(1) = P (T ≥ 1) = 1 p(1) = 0<br />

S(2) = P (T ≥ 2) = 855/1000 p(2) = 145/1000 h(2) = 145/855<br />

S(3) = P (T ≥ 3) = 798/1000 p(3) = 57/1000 h(3) = 57/798<br />

S(4) = P (T ≥ 4) = 760/1000 p(4) = 38/1000 h(4) = 38/760<br />

.<br />

.<br />

.<br />

S(82) = 28/1000 p(82) = 5/1000 h(82) = 5/28<br />

S(83) = 23/1000 p(83) = 4/1000 h(83) = 4/23<br />

S(84) = 19/1000 p(84) = 19/1000 h(84) = 1<br />

S(85) = 0 p(85) = 0 h(85) = 0<br />

5.2 Satz von der vollständigen Wahrsche<strong>in</strong>lichkeit<br />

5.2.1 Satz (Satz von der vollständigen Wahrsche<strong>in</strong>lichkeit)<br />

⋃<br />

Es seien A 1 , A 2 , ... paarweise disjunkte Mengen mit ∞ A i = Ω. Weiter sei B ⊂ Ω. Dann<br />

∑<br />

gilt: P (B) = ∞ P (B|A i )P (A i ). Dabei setzt man P (B|A k )P (A k ) = 0, falls P (A k ) = 0.<br />

i=1<br />

Beweis:<br />

⋃<br />

A 1 ∩ B, A 2 ∩ B, ... s<strong>in</strong>d paarweise disjunkt und ∞ (A i ∩ B) = B.<br />

⋃<br />

Damit gilt: P (B) = P ( ∞ ∑<br />

(A i ∩ B)) = ∞ ∑<br />

P (A i ∩ B) = ∞ P (B|A i )P (A i ).<br />

i=1<br />

i=1<br />

i=1<br />

i=1<br />

i=1


5.3 Bayessche Formel 33<br />

5.2.2 Beispiel: Das Ziegenproblem (Aufgabe 4 auf dem ersten Übungsblatt)<br />

Es gibt zwei mögliche Strategien. Die e<strong>in</strong>e ist ohne Wechseln, <strong>die</strong> andere ist mit Wechseln.<br />

Welche ist besser?<br />

1. Strategie: Ohne Zusatz<strong>in</strong>formationen wird man mit Gleichverteilung raten. Die Wahrsche<strong>in</strong>lichkeit<br />

beim ersten Raten den Hauptgew<strong>in</strong>n zu treffen ist 1 . Da man nicht wechselt,<br />

3<br />

ändert sich durch den zweiten Rateversuch nichts an der Gew<strong>in</strong>nwahrsche<strong>in</strong>lichkeit. Die<br />

Wahrsche<strong>in</strong>lichkeit zu gew<strong>in</strong>nen ist also 1.<br />

3<br />

2. Strategie: Das erste Rateergebniss wird unter Benutzung der Information des Showmasters<br />

korrigiert. R i , i = 1, 2 seien <strong>die</strong> Rateergebnisse <strong>in</strong> Stufe i.<br />

Sei P 1 das Wahrsche<strong>in</strong>lichkeitsmaß, das vorliegt, falls der Hauptgew<strong>in</strong>n h<strong>in</strong>ter Tür 1 steht.<br />

Es gilt P 1 (R 1 = j) = 1 , j = 1, 2, 3.<br />

3<br />

Bei Methode 2 gilt auch noch:<br />

a) P 1 (R 2 = 1|R 1 = 1) = 0<br />

b) P 1 (R 2 = 1|R 1 = 2) = 1<br />

c) P 1 (R 2 = 1|R 1 = 3) = 1<br />

Dies folgt, da der Quizmaster Tür 3 oder Tür 2 als nicht besetzt zeigen muß.<br />

Nach Satz 5.2.1 gilt:<br />

P 1 (R 2 = 1) =<br />

3∑<br />

i=1<br />

P 1 (R 2 = 1|R 1 = i)P 1 (R 1 = i) = 0 · 1<br />

3 + 1 · 1<br />

3 + 1 · 1<br />

3 = 2 3 .<br />

5.3 Bayessche Formel<br />

5.3.1 Satz (Bayessche Formel)<br />

Sei (Ω, P ) e<strong>in</strong> Wahrsche<strong>in</strong>lichkeitsraum, {B 1 , ..., B l } disjunkte Zerlegung von Ω und A ⊂<br />

Ω. Dann gilt <strong>die</strong> Bayessche Formel:<br />

Beweis:<br />

P (B j |A) = P (A ∩ B j)<br />

P (A)<br />

P (B j |A) =<br />

5.3.2 Beispiel: Farbenbl<strong>in</strong>dheit<br />

P (A|B j )P (B j )<br />

.<br />

l∑<br />

P (A|B m )P (B m )<br />

m=1<br />

5.1.3,(2)<br />

{}}{<br />

= P (A|B 5.2.1<br />

j)P (B j ) {}}{<br />

=<br />

P (A)<br />

P (A|B j )P (B j )<br />

.<br />

l∑<br />

P (A|B m )P (B m )<br />

M männlich, W weiblich, fb farbenbl<strong>in</strong>d.<br />

P (M) = P (W ) = 1, P (fb|M) = 1 , P (fb|W ) = 1 .<br />

2 12 288<br />

Was ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit männlich zu se<strong>in</strong>, wenn man farbenbl<strong>in</strong>d ist?<br />

m=1<br />

P (M|fb) =<br />

1<br />

P (fb|M)P (M)<br />

P (fb|M)P (M) + P (fb|W )P (W ) =<br />

12 · 1<br />

2<br />

1 · 1 + 1 · 1<br />

12 2 288 2<br />

= 24<br />

25 .


34 5 BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT<br />

5.3.3 Beispiel: Diagnostischer Test<br />

Wir betrachten e<strong>in</strong>en Test auf Vorhandense<strong>in</strong> e<strong>in</strong>er Krankheit, z.B. den PSA-Test auf<br />

Prostata-Karz<strong>in</strong>om. Der Test hat <strong>die</strong> Ausgänge “positiv” und “negativ”. Aus “positiv”<br />

schließt man auf Vorhandense<strong>in</strong> der Krankheit, aus “negativ” auf Nichtvorhandense<strong>in</strong>.<br />

Doch der Test kann e<strong>in</strong> falsches Ergebnis liefern. Man unterscheidet zwischen zwei Fehlern:<br />

Fehler 1. Art: falsch negativ (Die Krankheit wurde nicht entdeckt; ke<strong>in</strong> Alarm trotz<br />

Gefahr)<br />

Fehler 2. Art: falsch positiv (Es liegt ke<strong>in</strong>e Krankheit vor; falscher Alarm)<br />

Wir betrachen das folgende Diagnose-Beispiel:<br />

Krankheitsrate: 1%; Testfehler: 10%.<br />

Die Anwendung der Bayesschen Formel ergibt folgendes:<br />

P (k|+) =<br />

9<br />

P (+|k)P (k)<br />

P (+|k)P (k) + P (+|g)P (g) =<br />

10 · 1<br />

100<br />

9 · 1<br />

+ 1 · 99<br />

10 100 10 100<br />

= 1 12 .<br />

Dabei steht k für krank, + steht für “der Test war positiv” und − steht für “der Test war<br />

negativ”.<br />

E<strong>in</strong> Weg ohne <strong>die</strong> Bayessche Formel und ohne Wahrsche<strong>in</strong>lichkeitsrechung das Resultat<br />

zu erhalten, geht so: Man stellt sich <strong>die</strong> Größen <strong>in</strong> e<strong>in</strong>er Vierfelder-Tafel bezogen auf 1000<br />

Probanden dar und liest das Ergebnis daraus ab.<br />

gesamt Test positiv Test negativ<br />

krank 10 9 1<br />

gesund 990 99 891<br />

gesamt 1000 108 892<br />

Wie groß ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit krank zu se<strong>in</strong>, wenn der Test positiv ist?<br />

9<br />

Antwort: = 1 .<br />

108 12<br />

5.3.4 Beispiel<br />

E<strong>in</strong>e Urne enthalte 3 Kugeln, von denen jede weiß oder schwarz se<strong>in</strong> kann. Es werden zwei<br />

Kugeln nache<strong>in</strong>ander ohne Zurücklegen gezogen. Die erste Kugel ist „schwarz“, <strong>die</strong> zweite<br />

„weiß“.<br />

Welches s<strong>in</strong>d <strong>die</strong> bed<strong>in</strong>gten Wahrsche<strong>in</strong>lichkeiten für <strong>die</strong> Urnenbelegungen, falls vor der<br />

Ziehung alle Urnenbelegungen als gleich wahrsche<strong>in</strong>lich gelten (Siehe Abbildung 3).<br />

Mögliche Urnenbelegungen:<br />

1. Ziehung: „schwarz“<br />

P ( 3<br />

}{{}<br />

Urne<br />

| S<br />

}{{}<br />

Farbe<br />

) =<br />

i=1<br />

2 · 1<br />

3 4<br />

P (S|3)P (3)<br />

=<br />

4∑<br />

1<br />

P (S|i)P (i)<br />

(0 + 1 + 2 + 1) = 1 3 ,<br />

4 3 3<br />

P (2|S) = 1 6 , P (4|S) = 1 , P (1|S) = 0.<br />

2


5.4 Unabhängigkeit von Ereignissen 35<br />

Abbildung 4: Urnenbelegung<br />

2. Ziehung: „weiß“<br />

P (3|S, W ) =<br />

P (S, W |3)P (3)<br />

=<br />

4∑<br />

P (S, W |i)P (i)<br />

i=1<br />

2 · 1 · 1<br />

3 2 4<br />

1<br />

(0 + 1 + 1 + 0) = 1 2 ,<br />

4 3 3<br />

P (2|S, W ) = 1 , P (1|S, W ) = P (4|S, W ) = 0.<br />

2<br />

Probe: Wenn unsere Rechnung richtig ist, und bei e<strong>in</strong>er dritten Ziehung wieder e<strong>in</strong>e weiße<br />

Kugel gezogen wird, so muß <strong>die</strong> Wahrsche<strong>in</strong>lichkeit, daß Urne 2 vorlag, 1 se<strong>in</strong> und <strong>die</strong><br />

Wahrsche<strong>in</strong>lichkeit, daß e<strong>in</strong>e andere Urne vorlag 0.<br />

3. Ziehung: „weiß“<br />

P (2|S, W, W ) =<br />

P (S, W, W |2)P (2)<br />

=<br />

4∑<br />

P (S, W, W |i)P (i)<br />

i=1<br />

1<br />

4 (0 + 1 3<br />

1 · 1<br />

3 4<br />

+ 0 + 0)<br />

= 1.<br />

Für jede andere Urne steht im Zähler e<strong>in</strong>e Null und der Nenner ist verschieden von Null.<br />

Somit ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit für alle anderen Urnen 0.<br />

5.4 Unabhängigkeit von Ereignissen<br />

Beim Münzenwurfproblem s<strong>in</strong>d wir schon davon ausgegangen, daß <strong>die</strong> Wahrsche<strong>in</strong>lichkeit<br />

für <strong>die</strong> Ergebnisse verschiedener Würfe mite<strong>in</strong>ander multipliziert werden können. Hier nun<br />

der formale H<strong>in</strong>tergrund.<br />

5.4.1 Def<strong>in</strong>ition<br />

Zwei Ereignisse A, B ⊂ Ω heißen (stochastisch) unabhängig, falls<br />

P (A ∩ B) = P (A) · P (B)<br />

gilt.<br />

S<strong>in</strong>d A und B unabhängig und gilt P (B) > 0, so ist<br />

P (A|B) =<br />

P (A ∩ B)<br />

P (B)<br />

=<br />

P (A)P (B)<br />

P (B)<br />

= P (A).


36 5 BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT<br />

S<strong>in</strong>d A und B unabhängig und gilt P (A) > 0, so ist<br />

P (B|A) = P (B).<br />

Stochastische Unabhängigkeit zweier Ereignisse bedeutet, daß Kenntnis über das E<strong>in</strong>treten<br />

des e<strong>in</strong>en Ereignisses ke<strong>in</strong>e Information h<strong>in</strong>sichtlich des E<strong>in</strong>tretens des anderen<br />

Ereignisses liefert.<br />

S<strong>in</strong>d A und B unabhängig, so s<strong>in</strong>d auch A und B c , A c und B sowie A c und B c unabhängig.<br />

Dann ist nämlich<br />

P (A ∩ B c ) = P (A) − P (A ∩ B) = P (A) − P (A)P (B) = P (A)(1 − P (B))<br />

= P (A)P (B c ).<br />

Betrachtet man mehr als zwei Ereignisse gleichzeitig, so muß man mit der Def<strong>in</strong>ition<br />

vorsichtig se<strong>in</strong>.<br />

5.4.2 Def<strong>in</strong>ition<br />

Drei Ereignisse A, B und C heißen unabhängig, falls <strong>die</strong> folgenden vier Gleichungen gelten:<br />

P (A ∩ B) = P (A)P (B)<br />

P (A ∩ C) = P (A)P (C)<br />

P (B ∩ C) = P (B)P (C)<br />

P (A ∩ B ∩ C) = P (A)P (B)P (C).<br />

Paarweise Unabhängigkeit impliziert nicht Unabhängigkeit von drei Ereignissen. (Dies<br />

soll heißen, <strong>die</strong> ersten drei Gleichungen implizieren nicht <strong>die</strong> dritte.) Wir zeigen das <strong>in</strong><br />

folgendem Beispiel.<br />

5.4.3 Beispiel<br />

Sei Ω = {0, 1} × {0, 1} und P ({ω}) = 1/4 für ω ∈ Ω, d.h. wir betrachten zweimaliges<br />

Werfen e<strong>in</strong>er fairen Münze.<br />

Sei A = {(0, 1), (0, 0)}, B = {(0, 1), (1, 1)} und C = {(0, 0), (1, 1)}.<br />

Dann gilt |A| = |B| = |C| = 2 und |A ∩ B| = |A ∩ C| = |B ∩ C| = 1. Folglich gelten<br />

P (A) = P (B) = P (C) = 1/2 und P (A ∩ B) = P (A ∩ C) = P (B ∩ C) = 1/4. Aber<br />

P (A ∩ B ∩ C) = 0, da A ∩ B ∩ C = ∅. Somit gilt P (A ∩ B ∩ C) ≠ P (A) · P (B) · P (C).<br />

5.4.4 Def<strong>in</strong>ition (Unabhängigkeit von Ereignissen)<br />

Die Ereignisse A 1 , ..., A n heißen unabhängig, falls für jede Teilmenge I ⊂ {1, ..., n} gilt<br />

( ) ⋂<br />

P A j = ∏ P (A j ) .<br />

j∈I j∈I<br />

Bemerkung: Dies s<strong>in</strong>d 2 n − n − 1 nichttriviale Gleichungen bei n Ereignissen. Für n = 4<br />

also 11 Gleichungen.


5.4 Unabhängigkeit von Ereignissen 37<br />

5.4.5 Satz<br />

Seien A 1 , ..., A n unabhängig und C i ∈ {∅, A i , A C i , Ω} für i = 1, ..., n.<br />

Dann s<strong>in</strong>d C 1 , ..., C n unabhängig. In Formeln:<br />

P<br />

( ⋂<br />

i∈I<br />

C i<br />

)<br />

= ∏ i∈I<br />

P (C i ) für alle I ⊂ {1, . . . , n}.<br />

Insbesondere s<strong>in</strong>d A c 1, ..., A c n unabhängig.<br />

Beweis:<br />

Es genügt den Fall I = {1, . . . , n} zu betrachten.<br />

Ist e<strong>in</strong>es der C i = ∅, so steht auf der l<strong>in</strong>ken Seite P (∅) und auf der rechten Seite steht e<strong>in</strong><br />

Produkt, <strong>in</strong> dem e<strong>in</strong> Faktor 0 ist.<br />

Ist e<strong>in</strong>es der C i = Ω, so können ( wir o.B.d.A. annehmen, daß das C n ist. In <strong>die</strong>sem Fall<br />

n<br />

) ([<br />

⋂<br />

n−1<br />

] ) (<br />

⋂<br />

n−1 ⋂<br />

steht auf der l<strong>in</strong>ken Seite: P C i = P C i ∩ Ω = P C i<br />

). Auf der rechten<br />

[ i=1<br />

i=1<br />

i=1<br />

n∏<br />

n−1<br />

]<br />

∏<br />

Seite steht: P (C i ) = P (C i ) P (Ω) = n−1 ∏<br />

P (C i ). Somit können wir <strong>die</strong> C i = Ω<br />

ignorieren.<br />

i=1<br />

i=1<br />

O.B.d.A. nehmen wir an, daß C i ∈ {A i , A c i} und nach eventueller Umnummerierung<br />

C i = A c i für i = 1, ..., m und C i = A i für i = m + 1, ..., n ist.<br />

1. Fall: m + 1 ≤ n<br />

Mit A m =<br />

n ⋂<br />

j=m+1<br />

A j gilt dann:<br />

( n<br />

) (<br />

⋂<br />

⋂ m<br />

P C i = P A c j ∩<br />

i=1<br />

j=1<br />

n⋂<br />

j=m+1<br />

( m<br />

)<br />

⋂<br />

= P A c j ∩ A m<br />

j=1<br />

A j<br />

)<br />

(( m<br />

) c )<br />

⋃<br />

= P A j ∩ A m<br />

j=1<br />

i=1<br />

= P ( (<br />

) m<br />

))<br />

⋃<br />

A m − P<br />

(A m ∩ A j<br />

j=1<br />

= P ( (<br />

) ⋃ m<br />

( ) )<br />

A m − P Am ∩ A j<br />

j=1


38 5 BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT<br />

= P ( A m<br />

)<br />

−<br />

m<br />

∑<br />

= P ( A m<br />

)<br />

+<br />

m<br />

∑<br />

⎡<br />

= P ( )<br />

A m<br />

⎣1 +<br />

∑<br />

k=1 {i 1 ,...,i k }⊂{1,...,n}<br />

∑<br />

k=1 {i 1 ,...,i k }<br />

m∑<br />

∑<br />

k=1 {i 1 ,...,i k }<br />

= P ( ) ∏<br />

m<br />

A m (1 − P (A j ))<br />

j=1<br />

= P ( A m<br />

) m ∏<br />

=<br />

=<br />

n∏<br />

j=m+1<br />

j=1<br />

P (A j )<br />

n∏<br />

P (C i ) .<br />

i=1<br />

P ( )<br />

A c j<br />

m∏<br />

P ( Aj) c .<br />

j=1<br />

(−1) k−1 P ( A m ∩ A i1 ∩ . . . ∩ A ik<br />

)<br />

(−1) k P ( A m<br />

)<br />

P (Ai1 ) . . . P (A ik )<br />

⎤<br />

(−1) k P (A i1 ) . . . P (A ik ) ⎦<br />

2. Fall: m = n<br />

Hier ist C i = A c i für i = 1, ..., n. Nun setzt man für A m = Ω und argumentiert bis zur<br />

drittletzten Zeile genauso!<br />

5.4.6 Korollar<br />

Seien A 1 , ..., A n unabhängig. Dann gilt:<br />

( n<br />

) (<br />

)<br />

⋃<br />

n∏<br />

n∑<br />

P A i = 1 − (1 − P (A i )) ≥ 1 − exp − P (A i ) .<br />

i=1<br />

i=1<br />

i=1<br />

Beweis:<br />

Es gilt<br />

( n<br />

) ((<br />

⋃<br />

n<br />

) c )<br />

⋃<br />

P A i = 1 − P A i<br />

i=1<br />

= 1 − P<br />

= 1 −<br />

= 1 −<br />

( n<br />

⋂<br />

i=1<br />

i=1<br />

A c i<br />

n∏<br />

P (A c i)<br />

i=1<br />

)<br />

n∏<br />

(1 − P (A i )) .<br />

i=1


5.4 Unabhängigkeit von Ereignissen 39<br />

Wegen exp(−x) ≥ 1 − x gilt weiter<br />

( n<br />

)<br />

⋃<br />

n∏<br />

P A i ≥ 1 − exp (−P (A i ))<br />

i=1<br />

i=1<br />

[<br />

= 1 − exp −<br />

]<br />

n∑<br />

P (A i ) .<br />

i=1<br />

5.4.7 Def<strong>in</strong>ition<br />

E<strong>in</strong>e Folge von Ereignissen (A n ; n ≥ 1) heißt unabhängig, falls A 1 , . . . , A k unabhängig<br />

s<strong>in</strong>d für alle k ≥ 1.<br />

5.4.8 Korollar (Borel-Cantelli Lemma)<br />

Sei (A n ) n≥1 e<strong>in</strong>e Folge von Ereignissen und A = lim sup A n := ∞ ⋂<br />

Dann gilt:<br />

∑<br />

(1) ∞ P (A n ) < ∞ ⇒ P (A) = 0.<br />

n=1<br />

∞⋃<br />

n=1 m=n<br />

∑<br />

(2) S<strong>in</strong>d A 1 , A 2 , ... unabhängig und gilt ∞ P (A k ) = ∞ ⇒ P (A) = 1.<br />

n=1<br />

Beweis:<br />

∑<br />

Zu (1): Sei ε > 0. Dann gilt wegen ∞ ⋃<br />

P (A n ) < ∞ und A ⊂ ∞ A m für n ≥ 1:<br />

( n=1<br />

m=n<br />

∞<br />

)<br />

⋃ ∑<br />

P (A) ≤ P A m ≤ ∞ P (A m ) < ε für e<strong>in</strong> h<strong>in</strong>reichend großes n.<br />

m=n<br />

m=n<br />

P (A) ist also kle<strong>in</strong>er als jede positive Zahl. Damit folgt P (A) = 0.<br />

Zu (2): Es gilt<br />

Folglich ist P (A) = 1.<br />

P (A) = lim<br />

n→∞<br />

P<br />

( ∞<br />

⋃<br />

= lim<br />

n→∞<br />

lim<br />

p→∞<br />

P<br />

⎛<br />

p→∞ ⎜<br />

≥ lim<br />

n→∞<br />

lim<br />

= 1<br />

A m<br />

)<br />

m=n<br />

( n+p ⋃<br />

m=n<br />

A m<br />

)<br />

)<br />

n+p<br />

∑<br />

− P (A m )<br />

⎟<br />

m=n ⎠<br />

} {{ }<br />

→0 für p→∞<br />

⎝ 1 − exp (<br />

⎞<br />

A m .<br />

Was ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit, daß im k-ten Wurf erstmals e<strong>in</strong>e “6” gewürfelt wird.


40 5 BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT<br />

Erstmals im k-ten Wurf e<strong>in</strong>e “6” zu werfen, bedeutet, <strong>in</strong> den vorangegangenen k−1 Würfen<br />

ke<strong>in</strong>e “6” , dann aber e<strong>in</strong>e “6” zu werfen. Folglich ist<br />

( ) k−1 5<br />

P (erstmals “6” im k-ten Wurf) = · 1<br />

6 6 =: p k, k ≥ 1<br />

Es muß natürlich ∑ k≥1<br />

p k = 1 gelten, was man leicht mit Hilfe der geometrische Reihe<br />

∞∑<br />

k=1<br />

( 5<br />

) k−1<br />

6 = 6 e<strong>in</strong>sieht.<br />

Gamblers Rules<br />

Angenommen man spielt e<strong>in</strong> Spiel sehr oft h<strong>in</strong>tere<strong>in</strong>ander und dessen Gew<strong>in</strong>nchance ist<br />

1/N. Wie oft muß man spielen, damit man mit m<strong>in</strong>destens 50% Wahrsche<strong>in</strong>lichkeit wenigstens<br />

e<strong>in</strong>mal gew<strong>in</strong>nt?<br />

(<br />

P (ke<strong>in</strong> Gew<strong>in</strong>n <strong>in</strong> n Spielen) = 1 − 1 ) n<br />

N<br />

(<br />

P (Gew<strong>in</strong>n <strong>in</strong> n Spielen) = 1 − 1 − 1 ) n<br />

≥ 1 N 2<br />

(<br />

⇔ 1 − 1 ) n<br />

≤ 1 N 2<br />

(<br />

⇔ n log 1 − 1 )<br />

≤ log 1 N 2 .<br />

Sei n ∗ = [log( 1) / log(1 − 1 )]; dabei ist [x] <strong>die</strong> kle<strong>in</strong>ste ganze Zahl größer als x für x ∈ R.<br />

2 N<br />

Da log(1 + z) ∼ z für z → 0 gilt, ist <strong>die</strong> rechte Seite von n ∗ asymptotisch gleich<br />

( ) /( )<br />

1 −1<br />

log<br />

= N log 2, wobei log(2) ≈ 0, 69 ≈ 2/3.<br />

2 N<br />

Im Fall des Würfels benötigt man also<br />

[ ( ) /( 1 5<br />

n ∗ = log<br />

= [3, 8] = 4<br />

2 6)]<br />

Würfe um mit m<strong>in</strong>destens 50% Wahrsche<strong>in</strong>lichkeit e<strong>in</strong>e ”6“ zu werfen.<br />

Beispiel: Fluß <strong>in</strong> e<strong>in</strong>em Leiter<br />

Angenommen für jeden von den Schaltern <strong>in</strong> dem folgenden Schaltkreis ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit,<br />

daß der Schalter geschlossen ist p i und daß er offen ist q i = 1 − p i , i = 1, . . . , 5.<br />

Man berechne <strong>die</strong> Wahrsche<strong>in</strong>lichkeit, daß e<strong>in</strong> Strom durch den Schaltkreis fließt unter<br />

der Annahme, daß <strong>die</strong> Zustände der Schalter unabhängig s<strong>in</strong>d.<br />

P (Strom fließt) = P (Strom fließt oben entlang) + P (Strom fließt unten entlang)<br />

−P (Strom fließt sowohl oben als auch unten entlang )<br />

Dabei ist wegen der Unabhängigkeit P (Strom fließt oben) = p 1·p 2 , P (Strom fließt unten) =<br />

p 3 · p 4 · p 5 und P (Strom fließt oben und unten) = p 1 · p 2 · p 3 · p 4 · p 5 und damit<br />

P (Strom fließt ) = p 1 · p 2 + p 3 · p 4 · p 5 − p 1 · p 2 · p 3 · p 4 · p 5 .


5.5 Anwendung der Unabhängigkeit <strong>in</strong> der Zahlentheorie 41<br />

S 1 S 2<br />

S 3 S 4 S 5<br />

Abbildung 5: Schaltkreis<br />

5.5 Anwendung der Unabhängigkeit <strong>in</strong> der Zahlentheorie<br />

5.5.1 Primzahlen und Unabhängigkeit<br />

Sei N ∈ N. Dann gilt N = p α 1<br />

1 · · · p α k<br />

k<br />

für geeignete Primzahlen p i und α i ∈ N.<br />

Sei ϕ(N) = #{i ∈ N|i < N mit GGT(i, N) = 1} <strong>die</strong> Anzahl der natürlichen Zahlen, <strong>die</strong><br />

kle<strong>in</strong>er N und zu N teilerfremd s<strong>in</strong>d.<br />

Beispiel:<br />

N 2 3 4 5 6 7 8 9 10<br />

ϕ(N) 1 2 2 4 2 6 4 6 4<br />

Die „1“ zählt stets mit!<br />

Behauptung: ϕ(N) = N ·<br />

k∏<br />

(1 − 1 p j<br />

) (Eulersche Funktion).<br />

j=1<br />

Wir übersetzen <strong>die</strong> Aufgabenstellung <strong>in</strong> <strong>die</strong> Sprache der Wahrsche<strong>in</strong>lichkeitsrechnung:<br />

Def<strong>in</strong>iere Ω N := {i ∈ N|1 ≤ i ≤ N} = {1, . . . , N}. Für A ⊂ Ω N sei P (A) := #A<br />

#Ω N<br />

.<br />

Sei A i = {m ∈ Ω N |p i teilt m} <strong>die</strong> Teilmenge der Zahlen aus Ω N , <strong>die</strong> durch p i teilbar s<strong>in</strong>d.<br />

Dann ist #A i = N p i<br />

(Bemerkung:<br />

N<br />

p i<br />

ist e<strong>in</strong>e natürliche Zahl, da p i e<strong>in</strong> Faktor <strong>in</strong> der<br />

Primzahlzerlegung von N ist.) und P (A i ) = N/p i<br />

N = 1 p i<br />

.<br />

Weiter gilt: P (A i1 ∩...∩A il ) = 1<br />

p i1 ...p il<br />

= l ∏<br />

j=1<br />

∏<br />

1<br />

p ij<br />

= l P (A ij ), denn |A i1 ∩. . .∩A il | =<br />

j=1<br />

Die Ereignisse A 1 , . . . , A k s<strong>in</strong>d also unabhängig. Folglich gilt<br />

P (Zahl ≤ N ist teilerfremd zu N) = P (A c 1 ∩ . . . ∩ A c k ) = ∏ k ∏<br />

P (A c j) = k (1 − 1 p j<br />

).<br />

Und damit folgt <strong>die</strong> Behauptung ϕ(N) = N ·<br />

k∏<br />

(1 − 1 p j<br />

).<br />

j=1<br />

j=1<br />

j=1<br />

N<br />

p i1 ...p il<br />

.<br />

5.5.2 2-dimensionaler Fall<br />

Wähle zufällig 2 Zahlen ≤ N. Dabei soll „zufällig“ heißen, daß jedes Paar (i, j) mit derselben<br />

Wahrsche<strong>in</strong>lichkeit gewählt wird. Wie groß ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit, daß <strong>die</strong>se<br />

1<br />

N 2<br />

beiden Zahlen teilerfremd s<strong>in</strong>d?


42 5 BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT<br />

Der Grundraum ist Ω 2 N = {(i, j)|i, j ∈ N, max(i, j) ≤ N}. Für A ⊂ Ω2 N<br />

Da N ∈ N ist, gibt es e<strong>in</strong>deutig bestimmte Primzahlen p i und α i ∈ N mit N = p α 1<br />

1 . . . p α k<br />

sei P (A) =<br />

#A<br />

#N .<br />

Sei A m := {(i, j)|p m teilt i und p m teilt j}∩Ω N . Dann ist #A m = ( N p m<br />

) 2 und P (A m ) = 1 .<br />

p 2 m<br />

Ebenso wie im 1-dimensionalen Fall folgt: Die A 1 , . . . , A k s<strong>in</strong>d unabhängig und<br />

k∏<br />

k∏<br />

P (Zahlenpaar ≤ N ist teilerfremd) = P (A c 1 ∩ ... ∩ A c k) = P (A c j) = −<br />

j=1<br />

j=1(1 1 ).<br />

p 2 j<br />

Betrachten wir nun den Grenzübergang N → ∞:<br />

k∏<br />

lim P (Zahlenpaar ≤ N ist teilerfremd) = lim<br />

N→∞ k→∞<br />

Dabei folgt das Ergebnis aus dem folgenden Lemma:<br />

5.5.3 Lemma<br />

Für s > 1 sei ζ(s) = ∑ n≥1<br />

n −s . Dann gilt<br />

Insbesondere ist ζ(2) = lim<br />

p≤N<br />

p prim<br />

ζ(s) = lim<br />

N→∞<br />

∏<br />

N→∞ p≤N<br />

p prim<br />

∏<br />

p≤N<br />

p prim<br />

j=1(1 − 1 p 2 j<br />

(<br />

1 − 1 p s ) −1<br />

.<br />

(1 − 1 ) −1 = ∑ n −2 = π2 .<br />

p 2 6<br />

n≥1<br />

) = 6<br />

π 2 .<br />

Beweis:<br />

Das folgende Produkt ist e<strong>in</strong> Produkt geometrischer Reihen.<br />

∏<br />

(<br />

1 − 1 ) −1<br />

= ∏ (<br />

1 + 1 p s p + 1 )<br />

s p + . . . = ∑<br />

2s<br />

p≤N<br />

p prim<br />

(α 1 ,...,α l )<br />

1<br />

p sα 1<br />

1 · · · p sα l<br />

l<br />

Dabei s<strong>in</strong>d p i <strong>die</strong> Primzahlen mit p 1 < p 2 < . . . < p l ≤ N < p l+1 . Nun gilt aber weiter,<br />

da sich jedes n ≤ N als Produkt von Potenzen von p i angeben läßt, daß obige Summe<br />

größer gleich ∑ ist. Andererseits ist <strong>die</strong>se Summe kle<strong>in</strong>er gleich ζ(s). Folglich gilt<br />

n≤N<br />

1<br />

n s<br />

0 ≤ ζ(s) − ∏ p≤N<br />

p prim<br />

(1 − 1 )<br />

≤ ∑ p s n>N<br />

Da für s > 1 <strong>die</strong> rechte Seite für N → ∞ gegen 0 konvergiert, folgt <strong>die</strong> Behauptung.<br />

5.5.4 Bemerkung<br />

Läßt sich das oben def<strong>in</strong>ierte P im Fall N → ∞ als Wahrsche<strong>in</strong>lichkeitsmaß auf N × N<br />

<strong>in</strong>terpretieren?<br />

Antwort: Ne<strong>in</strong>! Denn sei für A ⊂ N × N<br />

Q(A) = lim<br />

N→∞ P (A ∩ Ω N), so ist Q ke<strong>in</strong> Wahrsche<strong>in</strong>lichkeitsmaß, da für jedes Paar<br />

(i, j) ∈ N 2 gilt: Q({(i, j)}) = lim N→∞<br />

1<br />

N 2 = 0 und damit ∑ (i,j)<br />

Q({(i, j)}) = 0 im Widerspruch<br />

zu Q(N × N) = 1.<br />

1<br />

n s .<br />

k .


43<br />

6 Zufallsvariable und ihre Verteilung<br />

6.1 Zufallsvariable, Verteilung e<strong>in</strong>er Zufallsvariable<br />

6.1.1 Def<strong>in</strong>ition (Verteilung)<br />

Sei (Ω, P ) e<strong>in</strong> Wahrsche<strong>in</strong>lichkeitsraum. E<strong>in</strong>e Zufallsvariable ist e<strong>in</strong>e Abbildung X : Ω →<br />

R. Durch q(x) := P {ω|X(ω) = x} wird e<strong>in</strong>e Wahrsche<strong>in</strong>lichkeitsfunktion auf X(Ω) ⊂ R<br />

def<strong>in</strong>iert. Das zugehörige Wahrsche<strong>in</strong>lichkeitsmaß Q : P(X(Ω)) → [0, 1], Q(A) = ∑ x∈A<br />

q(x)<br />

heißt Verteilung von X. Man schreibt auch P X für Q.<br />

Sei p(x) = P ({x}) <strong>die</strong> Wahrsche<strong>in</strong>lichkeitsfunktion von P . Für x ∈ X(Ω) ist im obigen<br />

Bild q(x) = p(w 1 ) + p(w 2 ) + p(w 3 ).<br />

q ist Wahrsche<strong>in</strong>lichkeitsfunktion, da<br />

∑<br />

x∈X(Ω)<br />

q(x) =<br />

∑<br />

x∈X(Ω)<br />

= ∑<br />

x∈X(Ω)<br />

P ({ω|X(ω) = x})<br />

∑<br />

ω|X(ω)=x<br />

= ∑ ω∈Ω<br />

p(ω) = 1.<br />

p(ω)<br />

Für A ⊂ X(Ω) ist<br />

Q(A) = ∑ q(x)<br />

x∈A<br />

= ∑ P ({ω|X(ω) = x})<br />

x∈A<br />

= P ({ω|X(ω) ∈ A})<br />

= P ( X −1 (A) ) .


44 6 ZUFALLSVARIABLE UND IHRE VERTEILUNG<br />

6.1.2 Beispiel<br />

Wir betrachten <strong>die</strong> Summe der Augenzahlen zweier Würfelwürfe. Bei zwei Würfelwürfen<br />

ist der Grundraum Ω 2 = {ω = (ω 1 , ω 2 )|ω i ∈ {1, . . . , 6}, i = 1, 2}. Wir können nun jedem<br />

ω = (ω 1 , ω 2 ) ∈ Ω 2 e<strong>in</strong>e reelle Zahl X(ω) = ω 1 + ω 2 zuordnen. Dann ist X e<strong>in</strong>e Abbildung<br />

von Ω 2 → R und damit e<strong>in</strong>e Zufallsvariable.<br />

Für <strong>die</strong> Wahrsche<strong>in</strong>lichkeitsfunktion und das Wahrsche<strong>in</strong>lichkeitsmaß auf Ω 2 gilt:<br />

p(ω) = 1<br />

#Ω 2<br />

und P (A) = #A<br />

#Ω 2<br />

.<br />

Die zu X gehörende Wahrsche<strong>in</strong>lichkeitsfunktion q : R → [0, 1] hat folgende Gestalt:<br />

q(k) = P ({ω ∈ Ω 2 |X(ω) = k} = P ({ω = (ω 1 , ω 2 ) ∈ Ω 2 |ω 1 + ω 2 = k} = #{ω|ω 1+ω 2 =k}<br />

#Ω 2<br />

.<br />

q(2) = #{ω|ω 1 + ω 2 = 2}<br />

#Ω 2<br />

=<br />

q(3) = #{ω|ω 1 + ω 2 = 3}<br />

#Ω 2<br />

=<br />

.<br />

#{(1, 1)}<br />

= 1 36 36<br />

#{(1, 2), (2, 1)}<br />

36<br />

= 2 36<br />

q(7) = . . . = 6 36<br />

.<br />

q(11) = #{ω|ω 1 + ω 2 = 11}<br />

#Ω 2<br />

=<br />

q(12) = #{ω|ω 1 + ω 2 = 12}<br />

#Ω 2<br />

=<br />

#{(5, 6), (6, 5)}<br />

36<br />

#{(6, 6)}<br />

= 1 36 36<br />

= 2 36<br />

Sei A ⊂ R. Dann gilt für <strong>die</strong> Verteilung von X: Q(A) = ∑ k∈A<br />

q(k). Sei beispielsweise<br />

A = {k ∈ R|k ≤ 3}. So ist Q(A) = ∑ ∑<br />

q(k) = 3 q(k) = 1 . 12<br />

k≤3 k=2<br />

Bemerkungen<br />

1. Die Verteilung von X kann auch als Maß auf R angesehen werden. Man setzt<br />

P X (A) := P X (A ∩ X(Ω)) = P ( X −1 (A) ) für A ⊂ R.<br />

P X ist aber e<strong>in</strong> Wahrsche<strong>in</strong>lichkeitsmaß auf R. Denn<br />

P X (R) = P X (X(Ω)) = P (Ω) = 1<br />

und<br />

( ∞<br />

)<br />

⋃<br />

P X A i =<br />

i=1<br />

∞∑<br />

P X (A i )<br />

i=1


6.2 Unabhängigkeit von Zufallsvariablen 45<br />

für A i ⊂ R, paarweise disjunkt. Denn:<br />

( ∞<br />

) ( (<br />

⋃<br />

∞<br />

))<br />

⋃<br />

P X A i = P X −1 A i<br />

i=1<br />

i=1<br />

( ∞<br />

)<br />

⋃<br />

= P X −1 (A i )<br />

=<br />

=<br />

i=1<br />

∞∑<br />

P (X −1 (A i ))<br />

i=1<br />

∞∑<br />

P X (A i ).<br />

i=1<br />

2. Sei e<strong>in</strong>e Wahrsche<strong>in</strong>lichkeitsfunktion p auf e<strong>in</strong>er diskreten Teilmenge W =<br />

{x 1 , x 2 , . . .} ⊂ R gegeben. Durch X : W → R mit X(x i ) := x i wird e<strong>in</strong>e Zufallsvariable<br />

auf W erklärt, deren Verteilung P X <strong>die</strong> Wahrsche<strong>in</strong>lichkeitsfunktion p<br />

hat. Denn:<br />

q(x i ) = P X ({x i }) = P ({z ∈ W |X(z) = x i }) = p(x i ).<br />

3. Wegen 2) spricht man von e<strong>in</strong>er Verteilung, wenn e<strong>in</strong>e Wahrsche<strong>in</strong>lichkeitsfunktion<br />

p auf e<strong>in</strong>er diskreten Teilmenge von R gegeben wird.<br />

6.1.3 Beispiele von Verteilungen<br />

1) B<strong>in</strong>omial-Verteilung b(n, p)<br />

b(n, p; k) = ( n<br />

k)<br />

p k (1 − p) n−k def<strong>in</strong>iert e<strong>in</strong>e Wahrsche<strong>in</strong>lichkeitsfunktion auf {0, 1, ..., n}.<br />

2) Bernoulliverteilung b(1, p)<br />

b(1, p; k) = p k (1 − p) 1−k für k ∈ {0, 1}.<br />

Die Bernoulliverteilung ist e<strong>in</strong> Spezialfall der B<strong>in</strong>omialverteilung für n = 1.<br />

3) Poisson-Verteilung pois(λ)<br />

pois(λ; k) = λk<br />

k! e−λ ist e<strong>in</strong>e Wahrsche<strong>in</strong>lichkeitsfunktion auf N ∪ {0}.<br />

4) Pascal-Verteilung pasc(r, p)<br />

pasc(r, p; n) = ( n−1<br />

r−1)<br />

p r (1 − p) n−r für n ∈ {r, r + 1, r + 2, ...}, r ∈ N.<br />

5) Geometrische Verteilung<br />

Speziell: Für r = 1 ergibt sich pasc(1, p; n) = p(1 − p) n−1 .<br />

6.2 Unabhängigkeit von Zufallsvariablen<br />

6.2.1 Def<strong>in</strong>ition (Unabhängigkeit von Zufallsvariablen)<br />

X 1 , X 2 , ..., X n seien Zufallsvariablen auf (Ω, P ) und<br />

X i (Ω) sei der Wertebereich von X i für i = 1, ..., n.


46 6 ZUFALLSVARIABLE UND IHRE VERTEILUNG<br />

X 1 , ..., X n heißen unabhängig, falls für alle z i ∈ X i (Ω) für i = 1, . . . , n gilt:<br />

( n<br />

)<br />

⋂<br />

n∏<br />

P {X i = z i } = P ({X i = z i }) .<br />

i=1<br />

i=1<br />

Dabei haben wir <strong>die</strong> Kurzschreibweise: {X i = z i } = {ω ∈ Ω|X i (ω) = z i } verwendet.<br />

6.2.2 Satz<br />

X 1 , .., X n seien Zufallsvariablen auf (Ω, P ). Dann s<strong>in</strong>d folgende Aussagen äquivalent:<br />

(1) X 1 , ..., X n s<strong>in</strong>d unabhängig. ( n<br />

)<br />

⋂<br />

∏<br />

(2) Für alle A 1 , . . . , A n ⊂ R gilt: P {X i ∈ A i } = n P ({X i ∈ A i }).<br />

i=1<br />

i=1<br />

Dabei bedeutet {X i ∈ A i } := {ω ∈ Ω|X i (ω) ∈ A i }.<br />

Beweis:<br />

(2) ⇒ (1) trivial.<br />

(1) ⇒ (2) Seien A 1 , ..., A n gegeben.<br />

Da nur <strong>die</strong> Elemente aus X i (Ω) ∩ A i e<strong>in</strong>e Wahrsche<strong>in</strong>lichkeit ≥ 0 haben und X i (Ω) abzählbar<br />

ist, können wir o.B.d.A. annehmen, daß <strong>die</strong> A i abzählbar s<strong>in</strong>d und <strong>die</strong> Form<br />

A i = {y i1 , y i2 , . . .} haben. Damit können wir <strong>die</strong> Mengen {X i ∈ A i } folgendermaßen<br />

zerlegen: {X i ∈ A i } = ⋃ {X i = y ij }.<br />

j<br />

Somit gilt<br />

n⋂<br />

{X i ∈ A i } =<br />

i=1<br />

n⋂ ⋃<br />

i=1<br />

j i<br />

{X i = y iji } =<br />

⋃<br />

j 1 ,...,j n<br />

{X 1 = y 1j1 , X 2 = y 2j2 , ..., X n = y njn }<br />

und damit<br />

P<br />

( ⋂<br />

i<br />

)<br />

{X i ∈ A i } = ∑<br />

P ({X 1 = y 1j1 , X 2 = y 2j2 , ..., X n = y njn })<br />

j 1 ,...,j n<br />

= ∑<br />

=<br />

=<br />

n<br />

∏<br />

j 1 ,...,j n i=1<br />

P (X i = y iji )<br />

(<br />

n∏ ∑<br />

P ({X i = y iji }))<br />

j i<br />

i=1<br />

n∏<br />

P ({X i ∈ A i }) .<br />

i=1


6.2 Unabhängigkeit von Zufallsvariablen 47<br />

6.2.3 Beispiel (n-facher Münzenwurf e<strong>in</strong>er p-Münze)<br />

Beim n-fachen Münzwurf ist der Grundraum Ω = {ω = (ω 1 , ..., ω n )|ω i ∈ {0, 1}} und das<br />

dazugehörige Wahrsche<strong>in</strong>lichkeitsmaß P ({(ω 1 , ..., ω n )}) = p P ω i<br />

(1 − p) n−P ω i<br />

.<br />

Wir def<strong>in</strong>ieren <strong>die</strong> Zufallsvariablen X i : Ω → {0, 1}, X i (ω) = ω i für i = 1, . . . , n.<br />

Behauptung: X 1 , ..., X n s<strong>in</strong>d unabhängig.<br />

Beweis: Sei (ω 1, ′ ..., ω n) ′ ∈ Ω beliebig. Dann gilt:<br />

( n<br />

)<br />

⋂<br />

P {X i = ω i}<br />

′ = P ({(ω 1, ′ ..., ω n)}) ′ = p P ω i ′ (1 − p)<br />

n− P ∏ n<br />

ω i ′ = P ({X i = ω i})<br />

′<br />

i=1<br />

und damit s<strong>in</strong>d X 1 , ..., X n unabhängig.<br />

∑<br />

Sei nun S n = n X i . Dann gilt:<br />

i=1<br />

({ n∑<br />

})<br />

P (S n = k) = P X i = k<br />

i=1<br />

({<br />

})<br />

n∑<br />

= P ω<br />

X<br />

∣ i (ω) = k<br />

i=1<br />

= ∑<br />

P ({(ω 1 , ..., ω n )})<br />

ω| P ω i =k<br />

= ∑<br />

=<br />

ω| P ω i =k<br />

p k (1 − p) n−k<br />

( n<br />

k)<br />

p k (1 − p) n−k .<br />

i=1<br />

S<strong>in</strong>d also <strong>die</strong> X i Bernoulli-verteilt, d.h. P (X i = ω i ) = p ω i<br />

(1 − p) 1−ω i<br />

, ω i ∈ {0, 1}, so ist<br />

<strong>die</strong> Summe S n der X i nach b(n, p)-verteilt.<br />

Allgeme<strong>in</strong>er gilt: Seien X 1 , ..., X n unabhängig und b(1, p) verteilt und Y 1 , ..., Y m ebenfalls<br />

∑<br />

unabhängig und b(1, p) verteilt. Dann ist n ∑<br />

X i + m Y i b(n + m, p)-verteilt.<br />

i=1<br />

j=1<br />

6.2.4 Satz (Konstruktion e<strong>in</strong>es Wahrsche<strong>in</strong>lichkeitsraumes aus n unabhängigen<br />

Zufallsgrößen zu vorgegebenen Verteilungen)<br />

Seien (Ω i , P i ) Wahrsche<strong>in</strong>lichkeitsräume mit Ω i ⊂ R für i = 1, . . . , n und p i , <strong>die</strong> zu den<br />

Wahrsche<strong>in</strong>lichkeitsmaßen P i gehörigen Wahrsche<strong>in</strong>lichkeitsfunktionen.<br />

∏<br />

Weiter sei Ω = Ω 1 ×. . .×Ω n = {ω = (ω 1 , ..., ω n )|ω i ∈ Ω i , i = 1, ..., n} und p(ω) = n p i (ω i ).<br />

Seien X i (ω) = ω i für i = 1, ..., n Zufallsvariablen und sei P das zu p gehörige Wahrsche<strong>in</strong>lichkeitsmaß.<br />

Dann gilt:<br />

a) p(ω) ist e<strong>in</strong>e Wahrsche<strong>in</strong>lichkeitsfunktion auf Ω.<br />

i=1


48 6 ZUFALLSVARIABLE UND IHRE VERTEILUNG<br />

b) Die Zufallsvariable X i ist nach P i verteilt.<br />

c) X 1 , ..., X n s<strong>in</strong>d unabhängig.<br />

Beweis:<br />

∑<br />

zu (a): p(ω) =<br />

∑ n∏<br />

p i (ω i ) = ∑ . . . ∑ ∏ n<br />

p i (ω i )<br />

ω 1 ω n<br />

ω∈Ω<br />

(ω 1 ,...,ω n) i=1<br />

)<br />

i=1<br />

( ( ∑ ∑<br />

= p 1 (ω 1 ) . . . p n (ω n ) = 1<br />

ω 1 ω n<br />

)<br />

zu (b): {X i ∈ A i } = {ω|X i (ω) ∈ A i }<br />

= {ω|ω i ∈ A i }<br />

= Ω 1 × . . . × Ω i−1 × A i × Ω i+1 × . . . × Ω n<br />

P ({X i ∈ A i }) = P (Ω 1 × . . . × Ω i−1 × A i × Ω i+1 × . . . × Ω n )<br />

= P 1 (Ω 1 ) · · · P i−1 (Ω i−1 ) · P i (A i ) · P i+1 (Ω i+1 ) · · · P n (Ω n )<br />

= P i (A i )<br />

zu (c):<br />

n⋂<br />

{X i ∈ A i } = {ω|X i (ω) ∈ A i , i = 1, . . . , n}<br />

i=1<br />

= {ω|ω i ∈ A i , i = 1, . . . , n}<br />

= A 1 × A 2 × . . . × A n<br />

n⋂<br />

P ( {X i ∈ A i }) = P (A 1 × ... × A n )<br />

i=1<br />

∑<br />

=<br />

ω∈A 1 ×...×A n<br />

p(ω)<br />

∑ ∏ n<br />

=<br />

p i (ω i )<br />

( ω∈A 1 ×...×A n i=1)<br />

( )<br />

∑<br />

∑<br />

= p 1 (ω 1 ) . . . p n (ω n )<br />

ω 1 ∈A 1 ω n∈A n<br />

= P 1 (A 1 ) . . . P n (A n )<br />

n∏<br />

= P ({X i ∈ A i })<br />

i=1<br />

6.2.5 Satz (Summe von B<strong>in</strong>omialverteilungen, Poissonverteilungen, Pascalverteilungen)<br />

Seien X 1 und X 2 unabhängige Zufallsvariablen.<br />

a) S<strong>in</strong>d <strong>die</strong> X i B<strong>in</strong>omial-verteilt nach b(n i , p) für i = 1, 2, dann ist X 1 + X 2 B<strong>in</strong>omialverteilt<br />

nach b(n 1 + n 2 , p).


6.2 Unabhängigkeit von Zufallsvariablen 49<br />

b) S<strong>in</strong>d <strong>die</strong> X i Poisson-verteilt mit Parameter λ i für i = 1, 2, dann ist X 1 + X 2 Poissonverteilt<br />

mit Parameter λ 1 + λ 2 .<br />

Beweis:<br />

⋃<br />

zu (a): P ({X 1 + X 2 = l}) = P ( l {X 1 = i, X 2 = l − i})<br />

=<br />

=<br />

=<br />

=<br />

i=0<br />

l∑<br />

P ({X 1 = i, X 2 = l − i})<br />

i=0<br />

l∑<br />

P ({X 1 = i})P ({X 2 = l − i})<br />

i=0<br />

l∑<br />

(<br />

n1<br />

i=0<br />

)<br />

(<br />

p i (1 − p) n n2<br />

1−i<br />

l − i<br />

i<br />

l∑<br />

p l (1 − p) n 1+n 2 −l<br />

i=0<br />

= p l (1 − p) n 1+n 2 −l<br />

= p l (1 − p) n 1+n 2 −l<br />

l∑<br />

( )(<br />

n1 n2<br />

i<br />

( i=0<br />

n1 + n 2<br />

)<br />

p l−i (1 − p) n 2−l+i<br />

)<br />

l − i<br />

)<br />

( )(<br />

n1 n2<br />

⋃<br />

zu (b): P ({X 1 + X 2 = l}) = P ( l {X 1 = i, X 2 = l − i})<br />

=<br />

=<br />

i=0<br />

l<br />

i<br />

l − i<br />

)<br />

l∑<br />

P ({X 1 = i})P ({X 2 = l − i})<br />

i=0<br />

l∑<br />

i=0<br />

λ i 1<br />

= e −(λ 1+λ 2 )<br />

= e −(λ 1+λ 2 ) 1 l!<br />

λ l−i<br />

i! e−λ 1 2<br />

(l − i)! e−λ 2<br />

l∑<br />

i=0<br />

λ i 1<br />

λ l−i<br />

2<br />

i! (l − i)!<br />

l∑<br />

i=0<br />

= e −(λ 1+λ 2 ) (λ 1 + λ 2 ) l<br />

l!<br />

( l<br />

i)<br />

λ i 1λ l−i<br />

2 , da<br />

( )<br />

l! l<br />

i!(l − i)! = i<br />

(b<strong>in</strong>omische Formel)


50 7 ERWARTUNGSWERT UND VARIANZ VON VERTEILUNGEN<br />

7 Erwartungswert und Varianz von Verteilungen<br />

7.1 Der Erwartungswert<br />

7.1.1 Beispiele<br />

1) Spiel mit e<strong>in</strong>em Würfel: Der Gew<strong>in</strong>n sei „i“, falls der Würfel „i“ ergibt. Was ist e<strong>in</strong><br />

fairer E<strong>in</strong>satz?<br />

Antwort: 1 · 1 + 1 · 2 + ... + 1 · 6 = 3, 5.<br />

6 6 6<br />

2) Sei n i <strong>die</strong> Anzahl der Familien mit „i“ K<strong>in</strong>dern.<br />

Dann ist n = n 0 + n 1 + ... + n 18 <strong>die</strong> Anzahl der Familien,<br />

und m = n 1 + 2n 2 + ... + 18n 18 <strong>die</strong> Anzahl der K<strong>in</strong>der.<br />

Mittlere Anzahl der K<strong>in</strong>der pro Familie ist m n .<br />

7.1.2 Def<strong>in</strong>ition (Erwartungswert)<br />

Sei (Ω, P ) e<strong>in</strong> Wahrsche<strong>in</strong>lichkeitsraum, p <strong>die</strong> zu P gehörige Wahrsche<strong>in</strong>lichkeitsfunktion<br />

und X e<strong>in</strong>e Zufallsgröße auf Ω.<br />

E(X) := ∑ ω∈Ω<br />

X(ω)p(ω)<br />

heißt Erwartungswert von X, falls X ≥ 0 oder ∑ |X(ω)|p(ω) < ∞ gilt.<br />

ω∈Ω<br />

7.1.3 Bemerkungen<br />

(1) Der Erwartungswert ist der mittlere Wert e<strong>in</strong>er Zufallsvariablen bzw. ihrer Verteilung.<br />

(2) Sei f : R → R e<strong>in</strong>e Funktion. Dann ist f ◦ X e<strong>in</strong>e Zufallsgröße und wenn ihr Erwartungswert<br />

existiert, so ist <strong>die</strong>ser E(f ◦ X) = ∑ ω∈Ω<br />

f(X(ω))p(ω).<br />

(3) EX = ∞ ist möglich, falls X ≥ 0 ist! Siehe Beispiel 7.2.4.<br />

(4) Falls ∑ |X(ω)|p(ω) < ∞, so gilt E|X| = ∑ |X(ω)|p(ω).<br />

ω∈Ω<br />

ω∈Ω<br />

Dies sieht man so: Da auf der rechten Seite e<strong>in</strong>e absolut konvergente Reihe steht, kann<br />

man <strong>die</strong> Reihe ∑ X(ω)p(ω) umordnen. Es gilt<br />

ω∈Ω<br />

E(X) = ∑ ω<br />

X + (ω)p(ω) − ∑ ω<br />

X − (ω)p(ω) = E(X + ) − E(X − ),<br />

wobei X + (ω) := X(ω)∨0 und X − (ω) := (−X(ω)∨0) s<strong>in</strong>d. Es gilt außerdem X ± (ω) ≥<br />

0. Da |X(ω)| = X + (ω) + X − (ω) ist, gilt auch E|X| = E(X + ) + E(X − ).


7.1 Der Erwartungswert 51<br />

7.1.4 Eigenschaften des Erwartungswertes<br />

(1) E(α · X) = α · E(X).<br />

(2) Für A ⊆ Ω gilt: E(1 A ) = P (A), wobei 1 A (ω) =<br />

(3) |EX| ≤ E|X|<br />

{ 1 falls ω ∈ A<br />

0 falls ω /∈ A .<br />

(4) S<strong>in</strong>d E|X| und E|Y | kle<strong>in</strong>er unendlich, so gilt E(X + Y ) = E(X) + E(Y ).<br />

(5) S<strong>in</strong>d X, Y Zufallsvariablen mit P ({ω|X(ω) ≤ Y (ω)}) = 1, so gilt: E(X) ≤ E(Y ).<br />

Beweis:<br />

Zu (1): E(αX) = ∑ αX(ω)p(ω) = α ∑ X(ω)p(ω) = αE(X).<br />

ω∈Ω<br />

ω∈Ω<br />

Zu (2): E(1 A ) = ∑ 1 A (ω)p(ω) = ∑ p(ω) = P (A).<br />

ω∈Ω<br />

ω∈A<br />

Zu (3): |EX| = |E(X + ) − E(X − )| ≤ |EX + | + |EX − | = E(X + + X − ) = E|X|.<br />

Zu (4):<br />

E(X + Y ) = ∑ ω∈Ω(X(ω) + Y (ω))p(ω)<br />

= ∑ X(ω)p(ω) + ∑ Y (ω)p(ω)<br />

ω∈Ω<br />

ω∈Ω<br />

= E(X) + E(Y )<br />

Zu (5):<br />

E(X) = ∑ ω∈Ω<br />

X(ω)p(ω)<br />

=<br />

(∗)<br />

≤<br />

=<br />

∑<br />

ω∈{ω|X(ω)≤Y (ω)}<br />

∑<br />

ω∈{ω|X(ω)≤Y (ω)}<br />

∑<br />

ω∈{ω|X(ω)≤Y (ω)}<br />

= ∑ ω∈Ω<br />

Y (ω)p(ω)<br />

= E(Y )<br />

X(ω)p(ω) +<br />

Y (ω)p(ω) +<br />

Y (ω)p(ω) +<br />

(*) P (X ≤ Y ) = 1, und damit P (X > Y ) = 0<br />

und schließlich p(ω) = 0 auf {ω | X(ω) > Y (ω)}.<br />

∑<br />

ω∈{ω|X(ω)>Y (ω)}<br />

∑<br />

ω∈{ω|X(ω)>Y (ω)}<br />

∑<br />

ω∈{ω|X(ω)>Y (ω)}<br />

X(ω)p(ω)<br />

X(ω) · 0<br />

Y (ω)p(ω)


52 7 ERWARTUNGSWERT UND VARIANZ VON VERTEILUNGEN<br />

7.1.5 Folgerung (Po<strong>in</strong>carés E<strong>in</strong>- und Ausschlußformel)<br />

Unter Verwendung des Erwartungswertes läßt sich Po<strong>in</strong>carés E<strong>in</strong>- und Ausschlußformel<br />

⋃<br />

P ( n ∑<br />

A k ) = n ∑<br />

(−1) k−1 P (A i1 ∩ ... ∩ A ik ) ganz e<strong>in</strong>fach beweisen.<br />

i 1 ,...,i k<br />

k=1<br />

Beweis:<br />

k=1<br />

n⋃<br />

n⋃<br />

1 − P ( A k ) = P (( A k ) c )<br />

k=1<br />

= P (<br />

k=1<br />

n⋂<br />

A c k)<br />

k=1<br />

= E(1 nT<br />

= E(<br />

= E(<br />

k=1<br />

)<br />

A c k<br />

n∏<br />

1 A c<br />

k<br />

)<br />

k=1<br />

n∏<br />

(1 − 1 Ak ))<br />

k=1<br />

n∑ ∑<br />

k∏<br />

= E(1 + (−1) k 1 Aij )<br />

k=1 i 1 ,...,i k j=1<br />

n∑ ∑<br />

= 1 + (−1) k E(1 Ai1 ∩...∩A ik<br />

)<br />

k=1 i 1 ,...,i k<br />

n∑ ∑<br />

= 1 + (−1) k P (A i1 ∩ ... ∩ A ik )<br />

k=1 i 1 ,...,i k<br />

n∑ ∑<br />

= 1 − (−1) k−1 P (A i1 ∩ ... ∩ A ik )<br />

i 1 ,...,i k<br />

k=1<br />

7.1.6 Satz (Transformationssatz)<br />

Sei (Ω, P ) e<strong>in</strong> Wahrsche<strong>in</strong>lichkeitsraum und X e<strong>in</strong>e Zufallsvariable mit der Wertemenge<br />

X(Ω) = {x 1 , x 2 , ...}. Für x ∈ X(Ω) sei q(x) = P ({ω|X(ω) = x}). Weiter sei f : R → R<br />

und es gelte f ≥ 0 oder E|f(X)| < ∞. Dann gilt:<br />

a) E(f(X)) =<br />

∞∑<br />

f(x i )q(x i ).<br />

i=1<br />

b) Ist Y e<strong>in</strong>e weitere Zufallsvariable auf (Ω, P ) mit Y (Ω) = {y 1 , y 2 , . . .}. Sei g : R 2 → R<br />

und gelte g ≥ 0 oder E|g(X, Y )| < ∞. Dann gilt<br />

Eg(X, Y ) = ∑ i,j<br />

g(x i , y j )q(x i , y j ) mit q(x i , y j ) = P (X = x i , Y = y j ).


7.2 Beispiele von Erwartungswerten 53<br />

Beweis:<br />

zu a) E(f(X)) = ∑ ω∈Ω<br />

f(X(ω))p(ω)<br />

=<br />

=<br />

=<br />

=<br />

∞∑<br />

∑<br />

i=1 {ω|X(ω)=x i }<br />

∞∑<br />

f(x i )<br />

i=1<br />

f(X(ω))p(ω)<br />

∑<br />

{ω|X(ω)=x i }<br />

p(ω)<br />

∞∑<br />

f(x i )P ({ω|X(ω) = x i })<br />

i=1<br />

∞∑<br />

f(x i )q(x i )<br />

i=1<br />

zu b) Der Beweis geht entsprechend wie a).<br />

7.2 Beispiele von Erwartungswerten<br />

7.2.1 B<strong>in</strong>omial-Verteilung<br />

Seien X 1 , ..., X n Zufallsvariablen mit P (X i = 1) = p i = 1 − P (X i = 0) für i = 1, ..., n.<br />

Dann gilt : E(X i ) = 1 · P (X i = 1) + 0 · P (X i = 0) = p i .<br />

∑<br />

Außerdem gilt: E(X 1 + X 2 + ... + X n ) = E(X 1 ) + ... + E(X n ) = n p i .<br />

Gilt p i = p für i = 1, ..., n, so liegt <strong>die</strong> B<strong>in</strong>omial-Verteilung vor. Für den Erwartungswert<br />

der B<strong>in</strong>omial-Verteilung gilt: E(X 1 + ... + X n ) = np.<br />

Auf dasselbe Ergebnis kommt man auch mit Hilfe von Satz 7.1.6:<br />

P (X = k) = q(k) = ( n<br />

k)<br />

p k (1 − p) n−k . Also gilt:<br />

(*) ( n<br />

k<br />

)<br />

=<br />

n<br />

k<br />

E(X) =<br />

( n−1<br />

)<br />

k−1<br />

=<br />

n∑<br />

k=0<br />

n∑<br />

k=1<br />

( n<br />

k p<br />

k)<br />

k (1 − p) n−k<br />

( n<br />

k p<br />

k)<br />

k (1 − p) n−k<br />

(∗)<br />

{}}{<br />

n∑<br />

( ) n − 1<br />

= n p k (1 − p) n−k<br />

k − 1<br />

k=1<br />

n∑<br />

( ) n − 1<br />

= np<br />

p k−1 (1 − p) n−k<br />

k − 1<br />

k=1<br />

∑n−1<br />

( ) n − 1<br />

= np<br />

p l (1 − p) (n−1)−l<br />

l<br />

l=0<br />

} {{ }<br />

= np.<br />

=1<br />

i=1<br />

(b<strong>in</strong>omische Formel)


54 7 ERWARTUNGSWERT UND VARIANZ VON VERTEILUNGEN<br />

7.2.2 Poisson-Verteilung<br />

P (X = k) = λk<br />

k! e−λ = q(k)<br />

E(X) =<br />

∞∑<br />

k · P (X = k)<br />

k=0<br />

∞∑<br />

= k λk<br />

k! e−λ<br />

k=1<br />

∞∑ λ k−1<br />

= λ<br />

(k − 1)! e−λ<br />

k=1<br />

∞∑ λ l<br />

= λ<br />

l! e−λ<br />

l=0<br />

∞∑<br />

= λ q(l)<br />

= λ,<br />

da q Wahrsche<strong>in</strong>lichkeitsfunktion auf N 0 ist.<br />

l=0<br />

7.2.3 Geometrische Verteilung<br />

P (X = k) = p(1 − p) k−1 für k = 1, 2, . . ..<br />

∑<br />

E(X) = ∞ ∑<br />

kp(1 − p) k−1 = p ∞ k(1 − p) k−1 = p · 1 = 1.<br />

p 2 p<br />

k=1<br />

k=1<br />

∞∑<br />

Dabei haben wir folgende Identität verwendet: kx k−1 = 1 für |x| ≤ 1.<br />

(x−1) 2<br />

E<strong>in</strong> anderer Weg: Ohne Beweis sei folgender Satz angegeben: Ist X e<strong>in</strong>e Zufallsvariable<br />

∑<br />

mit Werten <strong>in</strong> Z + , so gilt: E(X) = ∞ P (X ≥ n).<br />

∑<br />

E(X) = ∞ ∑<br />

P (X ≥ n) = ∞ ∑<br />

(1 − p) n−1 = ∞ (1 − p) m 1<br />

= = 1.<br />

1−(1−p) p<br />

n=1<br />

n=1<br />

7.2.4 Beispiel für E(T ) = ∞<br />

n=1<br />

m=0<br />

Seien X i für i = 1, 2, ... unabhängige Zufallsvariablen mit P (X i = 1) = 1 = P (X 2 i = −1).<br />

∑<br />

Die Gew<strong>in</strong>nsumme nach n Spielen beträgt S n = n X i .<br />

Für den Erwartungswert der X i gilt: EX i = 1 · 1 + (−1) · 1 = 0.<br />

2 2<br />

∑<br />

Der Erwartungswert der Gew<strong>in</strong>nsumme nach n Spielen ist: ES n = n<br />

k=1<br />

i=1<br />

i=1<br />

EX i = 0.<br />

Sei T = m<strong>in</strong>{n ≥ 1|S n = 1} <strong>die</strong> Anzahl der Spiele bis, <strong>die</strong> Gew<strong>in</strong>nsumme zum ersten Mal<br />

den Wert 1 annimmt.<br />

Fragen:<br />

1) Wie groß ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit, daß man irgendwann <strong>die</strong> Gew<strong>in</strong>nsumme 1 hat?<br />

2) Wie lang muß man im Mittel werfen, bis <strong>die</strong> Gew<strong>in</strong>nsumme 1 erreicht wird?


7.3 Varianz und Kovarianz 55<br />

Antworten:<br />

1) P (T < ∞) = 1.<br />

2) E(T ) = ∞.<br />

Beweis: später !!<br />

7.3 Varianz und Kovarianz<br />

7.3.1 Def<strong>in</strong>ition (Varianz, Standardabweichung)<br />

X sei e<strong>in</strong>e Zufallsvariable auf (Ω, P ) mit E(X 2 ) < ∞.<br />

Dann heißt Var(X) = E(X − E(X)) 2 Varianz von X<br />

und σ(X) = √ Var(X) Standardabweichung von X.<br />

7.3.2 Bemerkungen:<br />

(1) Beide Größen s<strong>in</strong>d Maßzahlen für <strong>die</strong> Streubreite der Verteilung von X um E(X)<br />

herum.<br />

(2) Durch <strong>die</strong> Forderung E(X 2 ) < ∞ ist <strong>die</strong> Varianz wohldef<strong>in</strong>iert, denn es gilt:<br />

|X| ≤ 1 + X 2 ⇒ E|X| ≤ 1 + E(X 2 ) < ∞ ⇒ |E(X)| < ∞.<br />

(3) Var(X) = E(X 2 ) − (E(X)) 2 , denn:<br />

Setze µ = E(X). Dann ist Var(X) = E(X − µ) 2 = E(X 2 − 2Xµ + µ 2 )<br />

= E(X 2 ) − 2µE(X) + µ 2 = E(X 2 ) − 2µ 2 + µ 2 = E(X 2 ) − µ 2 .<br />

(4) Es gilt 0 ≤ Var(X) < ∞, denn wegen (3) ist<br />

0 ≤ Var(X) = E(X − µ) 2 = EX 2 − (EX) 2 ≤ EX 2 ≤ ∞<br />

(5) Var(aX + b) = a 2 Var(X), denn:<br />

Var(aX + b) = E(aX + b − E(aX + b)) 2<br />

= E(aX − E(aX)) 2<br />

= E(a(X − E(X))) 2<br />

= a 2 E(X − E(X)) 2<br />

= a 2 Var(X).<br />

7.3.3 Def<strong>in</strong>ition (Kovarianz, Korrelationskoeffizient)<br />

X und Y seien Zufallsvariablen mit Var(X) < ∞ und Var(Y ) < ∞.<br />

Dann heißt<br />

Kov(X, Y ) := E(XY − E(X)E(Y ))<br />

Kovarianz von X und Y<br />

und<br />

Kor(X, Y ) := Kov(X, Y )<br />

σ(X)σ(Y )<br />

heißt Korrelationskoeffizient von X und Y .


56 7 ERWARTUNGSWERT UND VARIANZ VON VERTEILUNGEN<br />

7.3.4 Bemerkungen<br />

1) Es gilt −∞ < Kov(X, Y ) < ∞<br />

Für a, b ∈ R gilt 2|a · b| ≤ a 2 + b 2 . Setze a = |X − EX| und b = |Y − EY |, so folgt<br />

|(X − EX)(Y − EY )| ≤ (X − EX) 2 + (Y − EY ) 2 und damit |Kov(X, Y )| ≤ E|(X −<br />

EX)(Y − EY )| ≤ 1 (Var(X) + Var(Y )) < ∞<br />

2<br />

2) Es gilt Kov(X, Y ) = E(X · Y ) − EX · EY.<br />

Kov(X, Y ) = E ((X − EX)(Y − EY ))<br />

= E (X · Y − XEY − Y EX + EX · EY )<br />

= E(X · Y ) − EX · EY.<br />

3) S<strong>in</strong>d X und Y unabhängig, so gilt E(XY ) = E(X)E(Y ) und damit Kov(X, Y ) = 0<br />

und Kor(X, Y ) = 0. Die Umkehrung gilt im Allgeme<strong>in</strong>en nicht.<br />

Beweis:<br />

E(XY )<br />

= ∑ Satz 7.1.6 ∑<br />

X(ω)Y (ω)p(ω) = x i y j P ({ω | X(ω) = x i , Y (ω) = y j })<br />

ω∈Ω<br />

i,j<br />

= ∑ x i y j P ({ω | X(ω) = x i })P ({ω | Y (ω) = y j })<br />

i,j<br />

= ( ∑ i<br />

x i P ({ω | X(ω) = x i }))( ∑ j<br />

y j P ({ω | Y (ω) = y j }))<br />

Satz 7.1.6<br />

= E(X)E(Y )<br />

7.3.5 Satz<br />

∑<br />

Seien X i , i = 1, . . . , n Zufallsvariablen für i = 1, . . . , n mit E(Xi 2 ) < ∞ und S n = n X i .<br />

Dann gilt:<br />

∑<br />

(1) Var(S n ) = n Var(X i ) + ∑ Kov(X i , X j ).<br />

i=1 i≠j<br />

(2) Falls X 1 , X 2 , . . . , X n unabhängig s<strong>in</strong>d, ist<br />

∑<br />

Var(S n ) = n Var(X i ).<br />

i=1<br />

Diese Gleichung heißt Gleichung von Bienaymé.<br />

Beweis:<br />

Zu (1): Sei µ k = E(X k ).<br />

∑<br />

(S n − E(S n )) 2 = ( n ∑<br />

(X i − µ i )) 2 = ( n ∑<br />

(X i − µ i ))( n (X j − µ j ))<br />

i=1<br />

∑<br />

=<br />

i=1(X n i − µ i ) 2 + ∑ (X i − µ i )(X j − µ j )<br />

i≠j<br />

Bildet man auf beiden Seiten den Erwartungswert, dann folgt (1).<br />

i=1<br />

Zu (2): S<strong>in</strong>d <strong>die</strong> X i unabhängig, so gilt Kov(X i , X j ) = 0 für i ≠ j. Daraus folgt <strong>die</strong><br />

Behauptung.<br />

j=1<br />

i=1


7.4 Varianzen e<strong>in</strong>iger Verteilungen 57<br />

7.4 Varianzen e<strong>in</strong>iger Verteilungen<br />

7.4.1 Gleichverteilung auf e<strong>in</strong>er endlichen Menge<br />

Sei Ω = {1, ..., n} und p(i) = 1 für alle i ∈ Ω. Weiter sei X : Ω → R e<strong>in</strong>e Zufallsvariable<br />

n<br />

und X(Ω) = {x 1 , ..., x n } ihr Wertebereich. Dann gilt:<br />

n∑<br />

n∑<br />

E(X) = 1 x<br />

n i =: x n , Var(X) = 1 (x<br />

n i − x n ) 2 .<br />

i=1<br />

i=1<br />

n∑<br />

n∑<br />

Da Var(X) = E(X 2 ) − [E(X)] 2 , gilt: 1 (x<br />

n i − x n ) 2 = 1 x 2 n i − x 2 n und damit<br />

i=1<br />

i=1<br />

n∑ ∑<br />

x 2 i = n (x i − x n ) 2 + nx 2 n.<br />

i=1<br />

i=1<br />

7.4.2 Bernoulli-Variablen und ihre Summen<br />

Seien X 1 , . . . , X n unabhängige Zufallsvariablen mit P (X i = 1) = p i und P (X i = 0) =<br />

1 − p i . Dann gilt: E(X i ) = p i und Var(x i ) = p i − p 2 i = p i (1 − p i ).<br />

∑<br />

Sei S n = n ∑<br />

X i . Dann ist wegen E(S n ) = n ∑<br />

p i und Var(S n ) = n ∑<br />

p i − n p 2 i .<br />

Sei p := 1 n<br />

i=1<br />

n∑<br />

p i . Dann gilt<br />

i=1<br />

i=1<br />

Var(S n ) wird maximal, wenn p i = p für alle i. In <strong>die</strong>sem Fall ist dann Var(S n ) = np(1−p).<br />

Beweis: Var(S n ) = np − n ∑<br />

7.4.1<br />

p 2 {}}{<br />

i<br />

i=1<br />

∑<br />

= np − (np 2 + n (p i − p) 2 )<br />

∑<br />

Die rechte Seite wird m<strong>in</strong>imal, falls n (p i − p) 2 = 0. Dies gilt genau dann, wenn p i = p<br />

für alle i ist.<br />

7.4.3 Poisson-Verteilung<br />

Sei X Poisson-verteilt mit Parameter λ. Dann gilt:<br />

E(X) = λ und Var(X) = E(X 2 ) − [E(X)] 2 = λ, denn:<br />

i=1<br />

∞∑<br />

E(X 2 ) = k 2 λk<br />

k! e−λ<br />

k=1<br />

∞∑<br />

= λ k<br />

λk−1<br />

(k − 1)! e−λ<br />

k=1<br />

= λ 2 ∞<br />

∑<br />

k=2<br />

= λ 2 ∞<br />

∑<br />

l=0<br />

= λ 2 + λ.<br />

i=1<br />

λ k−2<br />

(k − 2)! e−λ + λ<br />

λ l<br />

l! e−λ<br />

} {{ }<br />

=1<br />

Und damit ist Var(X) = λ 2 + λ − λ 2 = λ.<br />

+λ<br />

∞∑<br />

k=1<br />

∞∑ λ m<br />

m! e−λ<br />

m=0<br />

} {{ }<br />

=1<br />

i=1<br />

λ k−1<br />

(k − 1)! e−λ<br />

i=1


58 7 ERWARTUNGSWERT UND VARIANZ VON VERTEILUNGEN<br />

7.4.4 Hypergeometrische Verteilung<br />

In e<strong>in</strong>er Urne seien r rote und s schwarze Kugeln. Davon werden n Kugeln ohne Zurücklegen<br />

gezogen (n ≤ r +s). Um <strong>die</strong> Varianz der Anzahl der schwarzen Kugeln <strong>in</strong> der Ziehung<br />

zu bestimmen { def<strong>in</strong>ieren wir für i = 1, . . . , n <strong>die</strong> Zufallsvariablen<br />

1 falls i-te Kugel Schwarz ist<br />

X i =<br />

.<br />

0 sonst<br />

∑<br />

S n = n X i sei <strong>die</strong> Anzahl der schwarzen Kugeln <strong>in</strong> der Ziehung.<br />

i=1<br />

Mit p := P (X 1 = 1) =<br />

s gilt E(X r+s<br />

1) = E(X1) 2 = p und damit Var(X 1 ) = E(X1) 2 −<br />

(E(X 1 )) 2 = p − p 2 = p(1 − p).<br />

Es läßt sich zeigen, daß P (X i = 1) = P (X 1 = 1) = p für alle i und P (X j = 1, X k = 1) =<br />

für alle j ≠ k ist. (Siehe Krengel, Kap 2.7: Austauschbare Verteilungen.)<br />

s<br />

r+s<br />

Damit ist: Var(X i ) = E(X 2 i ) − (E(X i )) 2 = p − p 2 = p(1 − p) = Var(X 1 ) und<br />

Kov(X j , X k ) = E(X j X k ) − E(X j )E(X k ) = P (X j = 1, X k = 1) − p 2<br />

= p s − 1<br />

r + s − 1 − p2<br />

1<br />

= −p(1 − p)<br />

für j ≠ k.<br />

r + s − 1<br />

Unter Verwendung von Satz 7.3.5 folgt daraus:<br />

( n∑<br />

)<br />

n∑<br />

Var(S n ) = Var X i =<br />

i=1<br />

Var(X i ) + ∑<br />

i=1 j≠k<br />

1<br />

= nVar(X 1 ) − n(n − 1)p(1 − p)<br />

r + s − 1<br />

1<br />

= np(1 − p) − np(1 − p)(n − 1)<br />

[<br />

r + s − 1<br />

= np(1 − p) 1 − n − 1 ]<br />

.<br />

r + s − 1<br />

Kov(X j , X k )<br />

Wenn wir alle r + s Kugeln aus der Urne ziehen, erwarten wir natürlich, daß wir alle<br />

schwarzen Kugeln ziehen und somit S n auf jeden Fall den Wert s annimmt. Für n = r + s<br />

erwarten wir also Var(S n ) = 0. E<strong>in</strong> Vergleich mit der Formel bestätigt <strong>die</strong>se.<br />

7.5 Die Tschebychew-Ungleichung und das Gesetz der Großen<br />

Zahlen<br />

Seien X 1 , X 2 , ..., X n unabhängig und X n = 1 n<br />

Var ( ( )<br />

) 1<br />

n∑<br />

X n = Var X i<br />

n<br />

i=1<br />

n∑<br />

X i . Dann gilt:<br />

i=1<br />

= 1 (∑ ) Satz 7.3.5<br />

n Var {}}{<br />

Xi =<br />

2<br />

1<br />

n 2<br />

n∑<br />

Var(X i ).<br />

i=1


7.5 Die Tschebychew-Ungleichung und das Gesetz der Großen Zahlen 59<br />

Haben <strong>die</strong> X 1 , ..., X n alle <strong>die</strong>selbe Verteilung, so gilt:<br />

Var(X n ) = 1 n Var(X 1) und E(X n ) = 1 n<br />

n∑<br />

E(X i ) = E(X 1 ).<br />

i=1<br />

Da <strong>die</strong> Varianz von X n gegen 0 geht für n → ∞, so vermutet man: X n → E(X 1 ). Es ist<br />

aber nicht ganz klar, was Konvergenz hier bedeutet.<br />

7.5.1 Satz (Tschebyschew-Ungleichung)<br />

Sei X e<strong>in</strong>e Zufallsvariable mit E(X 2 ) < ∞. Dann gilt für jedes ε > 0:<br />

P ({ω : |X(ω) − E(X)| > ε}) ≤ Var(X)<br />

ε 2 .<br />

Beweis:<br />

Sei X ′ (ω) := X(ω) − E(X).<br />

Dann gilt: E(X ′ ) = 0, Var(X) = Var(X ′ ) = E(X ′2 ) und damit<br />

P (|X − E(X)| > ε) = P (|X ′ | > ε)<br />

∑<br />

=<br />

≤<br />

≤ 1 ε 2<br />

{x∈X ′ (Ω): |x|>ε}<br />

∑<br />

{x∈X ′ (Ω): |x|>ε}<br />

∑<br />

x∈X ′ (Ω)<br />

= 1 ε 2 E(X′2 )<br />

= 1 ε 2 Var(X′ )<br />

= 1 ε 2 Var(X).<br />

P (X ′ = x)<br />

x 2<br />

ε 2 P (X′ = x)<br />

x 2 P (X ′ = x)<br />

7.5.2 Satz (Gesetz der Großen Zahlen)<br />

Für jedes n seien X i , i = 1, . . . , n unabhängige und identisch verteilte Zufallsvariablen<br />

n∑<br />

mit E(X1) 2 < ∞. Sei X n = 1 X<br />

n i . Dann gilt für jedes ε > 0:<br />

i=1<br />

lim<br />

n→∞ P ({ω : |X n(ω) − E(X 1 )| > ε}) = 0.<br />

Schreibweise: X n<br />

P → E(X 1 ) (stochastische Konvergenz).


60 7 ERWARTUNGSWERT UND VARIANZ VON VERTEILUNGEN<br />

Beweis:<br />

Setze <strong>in</strong> <strong>die</strong> Tschebychew-Ungleichung (Satz 7.5.1) X := X n e<strong>in</strong>. Dann gilt:<br />

( )<br />

P ( |X n − E(X n )| > ε ) ≤ Var ( n∑<br />

n∑<br />

)<br />

1<br />

1<br />

Var X<br />

X n i Var(X<br />

n 2<br />

1 )<br />

n i=1<br />

i=1<br />

=<br />

=<br />

= 1 Var(X 1 )<br />

.<br />

ε 2 ε 2 ε 2 n ε 2<br />

Damit gilt:<br />

lim P ( |X n − E(X n )| > ε ) = lim P ( |X n − E(X 1 )| > ε ) 1 Var(X 1 )<br />

≤ lim<br />

= 0.<br />

n→∞ n→∞ n→∞ n ε 2<br />

7.5.3 Beispiel: Die p-Münze<br />

Wir betrachten e<strong>in</strong>e p-Münze, d. h. P (X i = 1) = p, P (X i = 0) = 1 − p. Damit ist<br />

E(X i ) = p.<br />

n∑<br />

Die X i seien unabhängig und X n = 1 X<br />

n i .<br />

i=1<br />

Die relative Häufigkeit der „1“ bei n Würfen konvergiert gegen p, X P n → E(X 1 ) = p. Das<br />

ist aber genau <strong>die</strong> Aussage des Gesetzes der großen Zahlen.<br />

7.5.4 Anwendung (Wahlumfrage)<br />

Vor e<strong>in</strong>er Wahl werden n Personen befragt, { ob sie <strong>die</strong> Partei A wählen werden oder nicht<br />

1 falls Person i A wählt<br />

(Ja-Ne<strong>in</strong>-Antworten). Dabei gelte X i =<br />

.<br />

0 sonst<br />

und P (X i = 1) = p = 1 − P (X i = 0).<br />

Schätze p mit Hilfe von X n .<br />

Es gilt: E(X n ) = p, Var(X n ) = p(1−p) und X<br />

n n → p.<br />

7.6 Approximation stetiger Funktionen auf dem Intervall [0, 1]<br />

durch Polynome<br />

Auch hierfür kann man das Gesetz der großen Zahlen anwenden.<br />

7.6.1 Satz<br />

Sei f : [0, 1] → R, f stetig.<br />

∑<br />

Sei B n (p) := n f( k )( n<br />

n k)<br />

p k (1 − p) n−k . Dann gilt:<br />

k=0<br />

Die Folge von Funktionen (B n ) n∈N konvergiert gleichmäßig gegen f für n → ∞.<br />

In Formeln: lim max |B<br />

n→∞<br />

n(p) − f(p)| = 0.<br />

0≤p≤1


7.6 Approximation stetiger Funktionen 61<br />

Beweis:<br />

Seien X 1 , ..., X n unabhängige, identisch verteilte Bernoulli-Variablen mit<br />

n∑<br />

P (X i = 1) = p = 1 − P (X i = 0) und S n = 1 X<br />

n i .<br />

Dann ist Ef(S n ) = n ∑<br />

k=0<br />

i=1<br />

f( k n )b(n, p; k), wobei b(n, p; k) = ( n<br />

k)<br />

p k (1 − p) n−k .<br />

Da f auf dem kompakten Intervall [0, 1] stetig ist, ist f gleichmäßig stetig auf [0, 1]. Damit<br />

gilt: ∀ε > 0 ∃δ > 0 mit |f(x) − f(y)| ≤ ε falls, |x − y| ≤ δ.<br />

Außerdem ist f beschränkt, also max |f(x)| ≤ M für e<strong>in</strong> geeignetes M ∈ R.<br />

0≤x≤1<br />

Sei also ε ≥ 0. Dann gibt es e<strong>in</strong> δ ≥ 0 mit |f(x) − f(y)| ≤ ε falls |x − y| ≤ δ und es gilt:<br />

|f(p) − B n (p)| = |<br />

n∑<br />

f(p)b(n, p; k) −<br />

k=0<br />

n∑<br />

k=0<br />

f( k )b(n, p; k)|<br />

n<br />

n∑<br />

= | (f(p) − f( k ))b(n, p; k)|<br />

n<br />

k=0<br />

∑<br />

≤<br />

|f(p) − f( k ∑<br />

)|b(n, p; k) + |f(p) − f( k )|b(n, p; k)<br />

n n<br />

{k:| k n −p|≤δ} {k:| k n<br />

∑<br />

−p|>δ}<br />

≤ ε b(n, p; k) + 2M<br />

∑<br />

b(n, p; k)<br />

{k:| k n −p|≤δ} {k:| k n −p|>δ}<br />

≤<br />

ε + 2M · P ({|S n − p| > δ})<br />

Satz7.5.1<br />

{}}{ p(1 − p)<br />

≤ ε + 2M<br />

nδ 2<br />

≤ ε + 2M 1<br />

4nδ 2<br />

da max p(1 − p) = 1/4 ist,<br />

0≤p≤1<br />

= ε + M<br />

2nδ 2<br />

≤ 2ε, falls n h<strong>in</strong>reichend groß ist.<br />

Wir haben also e<strong>in</strong> n gefunden, das nur von ε und nicht von p ∈ [0, 1] abhängt. Damit ist<br />

<strong>die</strong> Konvergenz gleichmäßig.


62 8 SATZ VON DE MOIVRE-LAPLACE<br />

8 Satz von de Moivre-Laplace und se<strong>in</strong>e Verallgeme<strong>in</strong>erung<br />

8.1 Der Satz von de Moivre-Laplace<br />

Seien X i , i = 1, . . . , n unabhängige Zufallsvariablen mit P (X i = 1) = p = 1−P (X i = 0)<br />

∑<br />

und S n = n X i . Dann ist S n b<strong>in</strong>omialverteilt nach b(n, p).<br />

i=0<br />

8.1.1 Satz (de Moivre-Laplace)<br />

Für alle −∞ ≤ a ≤ b ≤ ∞ gilt:<br />

Dabei ist Φ(y) :=<br />

Bemerkungen:<br />

∫ y<br />

−∞<br />

lim P (a ≤<br />

n→∞<br />

√1<br />

2π<br />

e −x2 /2 dx<br />

S n − np<br />

√<br />

np(1 − p)<br />

≤ b) = Φ(b) − Φ(a)<br />

1) Sn ∗ = √ Sn−np ist e<strong>in</strong>e standardisierte Zufallsvariable, d.h. E(S ∗<br />

np(1−p)<br />

n)=0 und Var(Sn)=1.<br />

∗<br />

Der Satz besagt demnach, daß <strong>die</strong> Verteilungen der standardisierten Variablen konvergieren.<br />

∑<br />

2) Der Satz beschreibt <strong>die</strong> Konvergenz von Flächen: lim b(n, p; k) → Φ(α), wobei<br />

n→∞<br />

k≤α n<br />

α n = np + α √ np(1 − p) ist.<br />

3) Eigenschaften von Φ: Φ(−∞) = 0, Φ(+∞) = 1, Φ ist monoton wachsend und symmetrisch<br />

um “0”.<br />

4) Der Satz wird oft folgendermaßen verwendet:<br />

b−np<br />

P (a ≤ S n ≤ b) ≈ Φ( √ ) − Φ( √a−np<br />

).<br />

np(1−p) np(1−p)<br />

5) Sei ˆp n := Sn<br />

n<br />

Denn S ∗ n =<br />

√<br />

p(1−p)<br />

= X n. Dann besagt Satz 8.1.1: lim<br />

n→∞<br />

P (a ≤ √ n(ˆp n−p)<br />

√ Sn−np =<br />

np(1−p)<br />

Sn n −p q p(1−p)<br />

n<br />

= √ n√ Sn n −p<br />

= √ n(ˆp<br />

√ n−p)<br />

.<br />

p(1−p) p(1−p)<br />

Diese Formulierung drückt <strong>die</strong> statistische Bedeutung von Satz 8.1.1 aus:<br />

Nach dem Gesetz der großen Zahlen gilt: ˆp P n → p für n → ∞, das heißt:<br />

Für alle ε > 0 gilt lim P p (|ˆp n − p| > ε) = 0.<br />

n→∞<br />

Der Satz von de Moivre-Laplace gibt <strong>die</strong> Schwankung von ˆp n um p an.<br />

≤ b) = Φ(b) − Φ(a).<br />

6) Satz 8.1.1 bleibt richtig, wenn wir im Argument von P <strong>die</strong> ≤ durch < ersetzen. Also<br />

lim P (a < √ Sn−np < b) = Φ(b) − Φ(a).<br />

n→∞ np(1−p)


8.1 Der Satz von de Moivre-Laplace 63<br />

8.1.2 Korollar<br />

Seien X 1 , . . . , X n unabhängige Zufallsvariablen mit P (X i = 1) = p = 1 − P (X i = 0) für<br />

i = 1, . . . , n. Dann gilt für alle ε > 0: lim P (| Sn − p| > ε) = 0.<br />

n→∞ n<br />

8.1.3 Beispiel<br />

Wie groß ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit, dass <strong>in</strong> 6000 Würfen mit e<strong>in</strong>em Würfel <strong>die</strong> “6”.<br />

a) mehr als 1100 auftritt?<br />

b) höchstens 950 mal oder m<strong>in</strong>destens 1050 mal auftritt?<br />

Lösung:<br />

a) P (1100 < S 6000 < ∞) = P ( (<br />

100<br />

)<br />

< S 6000 − 6000 · 1 < ∞) 6<br />

100<br />

= P<br />

< S6000 ∗ < ∞ = P (√ 12 < S6000 ∗ < ∞ )<br />

√<br />

6000· 1<br />

6 · 5<br />

6<br />

Satz 8.1.1<br />

{}}{<br />

∼ = Φ (∞) − Φ<br />

(√<br />

12<br />

)<br />

= 1 − Φ<br />

(√<br />

12<br />

)<br />

= 0, 00028.<br />

b) P (S 6000 ≤(<br />

950 oder S 6000 ≥ 1050) = 1)<br />

− P (950 < S 6000 < 1050)<br />

−50<br />

= 1 − P < S6000 ∗ 50<br />

< = 1 − P ( − √ 3 < S6000 ∗ < √ 3 )<br />

√<br />

6000<br />

1 5<br />

6 6<br />

√<br />

6000<br />

1 5<br />

6 6<br />

Satz 8.1.1<br />

{}}{<br />

∼ = 1 −<br />

[<br />

Φ<br />

(√<br />

3<br />

)<br />

− Φ<br />

(<br />

−<br />

√<br />

3<br />

)]<br />

= 0, 0832<br />

8.1.4 Vergleich der normierten B<strong>in</strong>omialverteilung mit Φ<br />

Näherungsweise gilt:<br />

P (S n ≤ b ′ ) = P (S ∗ n ≤<br />

b′ − np<br />

b ′ − np<br />

√ ) ≈ Φ( √ )<br />

np(1 − p) np(1 − p)<br />

wobei S ∗ n =<br />

√ Sn−np .<br />

np(1−p)<br />

Wie gut ist <strong>die</strong>se Näherung für verschiedene n?<br />

Für große n ist <strong>die</strong> Näherung gut, vor allem dann, wenn b ′ <strong>in</strong> der Nähe von np liegt.<br />

Man erhält aber noch bessere Werte, wenn man e<strong>in</strong>e so genannte Stetigkeitskorrektur<br />

vornimmt, <strong>in</strong>dem man b ′ durch b ′ + 1 ersetzt. Das macht sich besonders für kle<strong>in</strong>e n<br />

2<br />

deutlich bemerkbar.<br />

Numerisch:<br />

p = 0, 4 b ′ = np · 0, 8


64 8 SATZ VON DE MOIVRE-LAPLACE<br />

b∑<br />

n b ′ b<br />

b(n, p; k) Φ( √ ′ −np<br />

)<br />

np(1−p)<br />

k=0<br />

Φ( b′ +<br />

√ 1 2 −np<br />

)<br />

np(1−p)<br />

12 4 .4382 .3187 .4298<br />

25 8 .2735 .2071 .2701<br />

50 16 .1561 .1241 .1562<br />

100 32 .0615 .0512 .0629<br />

200 64 .0119 .0105 .0126<br />

Man beachte, daß gilt: P (S n < b ′ ) → 0 für n → ∞<br />

8.1.5 Beispiel: Unsicherheit bei Wahlumfragen<br />

Es werden 2000 Wähler befragt, ob sie <strong>die</strong> Partei A wählen werden. Die Wahrsche<strong>in</strong>lichkeit,<br />

daß e<strong>in</strong>e befragte Person „Ja“ antwortet, sei p 0 = 0, 55.<br />

Frage: Was ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit, daß 55 ± 2, 5% der Befragten mit „Ja“ antworten?<br />

Behauptung: Sei S 2000 <strong>die</strong> Anzahl der Personen, <strong>die</strong> „Ja“ antworten. Dann gilt:<br />

{ }<br />

S2000<br />

P p0<br />

2000 ∈ [p 0 ± 0, 025] ∼ = 0, 9754.<br />

Beweis:<br />

55 ± 2, 5% der befragten Personen s<strong>in</strong>d 1100 ± 50 Personen. Mit Satz 8.1.1 folgt:<br />

P p0 (1050 ≤ S 2000 ≤ 1150)<br />

= P p0 (−50 ≤ S 2000 − 1100 ≤ 50)<br />

(<br />

−50<br />

= P p0 √ ≤<br />

2000 · 0, 55(1 − 0, 55)<br />

S 2000 − 1100<br />

√<br />

2000 · 0, 55(1 − 0, 55)<br />

≤<br />

)<br />

50<br />

√<br />

2000 · 0, 55(1 − 0, 55)<br />

= P p0 (−2, 2473 ≤ S ∗ 2000 ≤ 2, 2473)<br />

≈ Φ(2, 2473) − Φ(−2, 2473) = 0, 9754.<br />

8.2 Die Landauschen Symbole und <strong>die</strong> Stirl<strong>in</strong>g Formel<br />

8.2.1 Def<strong>in</strong>ition (Landausche Symbole)<br />

Seien (a n ) n∈N und (b n ) n∈N Folgen mit Werten <strong>in</strong> R. Sei b n ≠ 0 für alle n.<br />

1. Man schreibt a n = o(b n ) für n → ∞, wenn an<br />

b n<br />

→ 0 für n → ∞.<br />

2. Seien a n > 0 und b n > 0 für alle n. Man schreibt a n = O(b n ) für n → ∞, falls e<strong>in</strong>e<br />

Konstante K > 0 und e<strong>in</strong> n 0 ∈ N existieren, so daß a n ≤ K · b n für n ≥ n 0 gibt.


8.2 Die Landauschen Symbole und <strong>die</strong> Stirl<strong>in</strong>g Formel 65<br />

3. S<strong>in</strong>d a n , b n ≠ 0 für alle n, so schreibt man:<br />

a n ∼ b n für n → ∞ falls a n<br />

b n<br />

→ 1 für n → ∞.<br />

Mann sagt a n is asymptotisch äquivalent zu b n .<br />

8.2.2 Beispiele<br />

1. Die folgenden zwei Aussagen s<strong>in</strong>d äquivalent:<br />

a n = o(1) und a n → 0 für n → ∞.<br />

2. n = o(n 2 ) für n → ∞.<br />

3. ln n = o(n) für n → ∞. Denn setze y = ln n, dann ist:<br />

ln n<br />

= y<br />

y<br />

=<br />

≤ 1<br />

→ 0 für y → ∞<br />

n e y 1+y+ y2<br />

2! + y3<br />

3! +... 1+ y 2! + y2 +... 3!<br />

und y → ∞.<br />

4. Es gilt: a n ∼ b n für n → ∞ ⇔ an<br />

b n<br />

= 1 + o(1) für n → ∞.<br />

Dabei bedeutet a n = b n + o(c n ) für n → ∞: Es existiert e<strong>in</strong>e Folge (d n ) n∈N mit<br />

a n = b n + d n und d n = o(c n ) für n → ∞.<br />

8.2.3 Stirl<strong>in</strong>g Formel: n! ∼ √ 2πnn n e −n .<br />

Sei a n = √ 2πnn n e −n . Dann wird n! für große n gut durch a n approximiert. Es gibt jedoch<br />

zwei Folgen a ′ n und a ′′ n, <strong>die</strong> n! noch etwas besser approximieren und besonders für kle<strong>in</strong>ere<br />

n sehr nützlich s<strong>in</strong>d: a ′ n = a n · e 1<br />

12n und a ′′ n = a n · e 1<br />

Hier ist e<strong>in</strong> Vergleich der Formeln:<br />

12n+1 .<br />

n n! a n a ′ n a ′′ n<br />

1 1 0,922 1,002 0,996<br />

2 2 1,919 2,006 1,997<br />

3 6 5,836 6,003 5,995<br />

4 24 23,506 24,001 23,990<br />

5 120 118,019 120,002 119,969<br />

n 1 2 3 4<br />

a n /n! 0,922 0,9595 0,9771 0,9794<br />

a ′ n/n! 1,002 1,0003 1,00005 1,00004<br />

a ′′ n/n! 0,996 0,9985 0,99917 0,99958<br />

Man sieht, daß <strong>in</strong>sbesondere für kle<strong>in</strong>e n <strong>die</strong> Formeln a ′ n und a ′′ n besser s<strong>in</strong>d. Da aber für alle<br />

drei Formeln asymptotische Äquivalenz zu n! gilt, ist es für mathematische Beweise nicht<br />

wesentlich, welche man nimmt. Deshalb werden wir stets <strong>die</strong> Formel für a n verwenden.


66 8 SATZ VON DE MOIVRE-LAPLACE<br />

8.3 Approximation der B<strong>in</strong>omialverteilung<br />

Die Wahrsche<strong>in</strong>lichkeit bei n Würfen mit e<strong>in</strong>er p-Münze k n E<strong>in</strong>sen zu werfen beträgt<br />

P (X = k n ) = ( )<br />

n<br />

k n<br />

p<br />

k n<br />

(1 − p) n−kn . Für n → ∞ und k n → ∞ so, daß auch n − k n → ∞, gilt<br />

näherungsweise unter Verwendung der Stirl<strong>in</strong>g-Formel (Dabei schreiben wir k für k n ):<br />

√<br />

n!<br />

2πnn<br />

k!(n − k)! pk (1 − p) n−k n e −n p k (1 − p) n−k<br />

∼ √<br />

2πkkk e −k√ 2π(n − k)(n − k) n−k e −(n−k)<br />

=<br />

=<br />

=<br />

=<br />

1<br />

√<br />

( p<br />

2π k (1 − k )n k/n )k ( 1 − p<br />

1 − k/n )n−k<br />

n n<br />

1<br />

√<br />

2πpn (1 − p n )n ( p ) k ( 1 − p<br />

p n<br />

1 − p n<br />

) n−k mit p n = k n<br />

[<br />

1<br />

√ ( p ) pn ( 1 − p ] n<br />

) 1−pn<br />

2πpn (1 − p n )n p n 1 − p n<br />

1<br />

√<br />

2πpn (1 − p n )n e−nI(pn,p)<br />

mit I(q, p) = q ln( q 1−q<br />

) + (1 − q) ln( ), wobei 0 < p < 1 und 0 < q < 1. I(q, p) heißt<br />

p 1−p<br />

relative Entropie von q bezüglich p. Zusammenfassend haben wir folgendes bewiesen.<br />

8.3.1 Satz<br />

Sei 0 < p < 1 und sei δ < m<strong>in</strong>(p, 1 − p). Dann gilt<br />

P p (S n = np n ) =<br />

1<br />

√<br />

2πnpn (1 − p n ) e−nI(pn,p) (1 + o(1))<br />

gleichmäßig für alle Folgen (p n ; n ≥ 1) mit np n ∈ {0, 1, . . . , n} und m<strong>in</strong>(p n , 1 − p n ) > δ/ 2<br />

für n → ∞.<br />

Bemerkung: Gleichmäßig bedeutet hier, daß der o(1)-Term lediglich von δ und n abhängt.<br />

Nun wollen wir den Exponenten nI(p n , p) entwickeln und e<strong>in</strong>en lokalen Grenzwertsatz<br />

herleiten. Dazu brauchen wir e<strong>in</strong>ige Eigenschaften der relativen Entropie.<br />

8.3.2 Eigenschaften von I(q, p)<br />

Es gilt:<br />

1) I(p, p) = 0,<br />

2) I(q, p) > 0 für q ≠ p,<br />

3) I(q, p) ist strikt konvex und zweimal stetig differenzierbar <strong>in</strong> beiden Argumenten.<br />

Folglich ist e<strong>in</strong>e quadratische Approximation nahe p möglich.


8.3 Approximation der B<strong>in</strong>omialverteilung 67<br />

8.3.3 Lemma<br />

(p n−p) 2<br />

Sei 0 < p < 1. Dann gilt I(p n , p) = 1 + o((p 2 p n(1−p n) n − p) 2 ) für p n → p.<br />

Beweis:<br />

I(p n , p) = −p n ln( p p n<br />

) − (1 − p n ) ln( 1 − p<br />

1 − p n<br />

)<br />

= −p n ln(1 − p n − p<br />

) − (1 − p n ) ln(1 − p − p n<br />

)<br />

p n<br />

1 − p n<br />

T aylor<br />

{}}{<br />

= −p n [−( p n − p<br />

p n<br />

) − 1 2 (p n − p<br />

) 2 + o(( p n − p<br />

) 2 )]<br />

p n<br />

p n<br />

−(1 − p n )[−( p − p n<br />

1 − p n<br />

) − 1 2 (p − p n<br />

1 − p n<br />

) 2 + o(( p − p n<br />

1 − p n<br />

) 2 )]<br />

8.2.5,2<br />

{}}{<br />

= [(p n − p) + 1 (p n − p) 2<br />

+ o( (p n − p) 2<br />

)]<br />

2 p n p n<br />

+[(p − p n ) + 1 (p n − p) 2<br />

+ o( (p n − p) 2<br />

)]<br />

2 1 − p n 1 − p n<br />

8.2.5,3<br />

{}}{<br />

= 1 (p n − p) 2<br />

2 p n (1 − p n ) + o((p n − p) 2 ) + o((p n − p) 2 ),<br />

8.2.5,4<br />

{}}{<br />

= 1 (p n − p) 2<br />

2 p n (1 − p n ) + o((p n − p) 2 ) für p n → p,<br />

da ln(1 − x) = −x − 1 2 x2 + o(x 2 ) für x → 1.<br />

Damit ergibt sich folgender Satz:<br />

8.3.4 Satz (Lokaler zentraler Grenzwertsatz)<br />

Sei 0 < p < 1. Dann gilt für jedes K > 0 und alle Folgen (p n ) n∈N mit np n ∈ {0, 1, 2, ..., n}<br />

und |p n − p| ≤ K √ n<br />

für n → ∞ :<br />

n(pn−p)2<br />

1<br />

(1) P p (S n = np n ) = √ e− 2pn(1−pn) (1 + o(1)),<br />

2πpn(1−pn)n 1<br />

(2) P p (S n = np n ) = √ e − n(pn−p)2<br />

2p(1−p) (1 + o(1)).<br />

2πp(1−p)n<br />

Diese Konvergenz ist gleichmäßig für alle Folgen (p n ) n∈N mit den oben genannten Bed<strong>in</strong>gungen.<br />

Beweis:<br />

Zu (1): Sei |p n − p| ≤ √ K n<br />

. Dann existiert e<strong>in</strong>e Folge (a n ) n∈N mit p n = p + √ an<br />

n<br />

und<br />

|a n | ≤ K für alle n. Nach Lemma 8.3.3 ist nI(p n , p) = n[ (pn−p)2 + o((p 2p n(1−p n) n − p) 2 )]. Da<br />

n(p n −p) 2 = n·a2 n<br />

≤ K 2 ist, folgt sofort nI(p<br />

n<br />

n , p) = n(pn−p)2<br />

2p +o(K2 n(1−p n)<br />

) und weil o(K 2 ) = o(1)<br />

ist, ergibt sich nI(p n , p) = n(pn−p)2<br />

2p n(1−p n)<br />

+ o(1). Damit ist<br />

e −nI(pn,p) = e − n(pn−p)2<br />

2pn(1−pn) +o(1) = e − n(pn−p)2<br />

2pn(1−pn) e o(1) = e − n(pn−p)2<br />

2pn(1−pn) (1 + o(1)).


68 8 SATZ VON DE MOIVRE-LAPLACE<br />

Also gilt mit 8.3.1<br />

P (S n = np n ) =<br />

1<br />

√<br />

2πpn (1 − p n )n e−nI(pn,p) (1+o(1)) =<br />

1<br />

n(pn−p)2<br />

√ e− 2pn(1−pn) (1+o(1)) 2 ,<br />

2πpn (1 − p n )n<br />

woraus Behauptung (1) folgt.<br />

Zu (2): Führe <strong>die</strong>sen Fall auf (1) zurück: Zeige<br />

n(p n − p) 2 1<br />

[<br />

2 p(1 − p) − 1<br />

p n (1 − p n ) ] = o(1) gleichmäßig für |a n| ≤ K.<br />

Es gilt: n(pn−p)2 1<br />

[ − 1<br />

] = n(pn−p)2<br />

2 p(1−p) p n(1−p n)<br />

[ 1 − 1<br />

2 p p n<br />

+ 1 − 1<br />

1−p<br />

Weiter gilt: 1 − 1 =<br />

an/√ n<br />

p p n<br />

p(p+a n/ √ n) =<br />

Entsprechend zeigt man:<br />

1<br />

1−p − 1<br />

1−p n<br />

an/√ n<br />

∼ an/√ n<br />

p 2 (1+ an<br />

p √ n ) p 2<br />

= o(1).<br />

≤ |K| √ np 2<br />

1−p n<br />

].<br />

= o(1).<br />

Zusammen mit n(p n − p) 2 ≤ K 2 folgt daraus: n(pn−p)2 1<br />

[ − 1<br />

] = o(1).<br />

2 p(1−p) p n(1−p n)<br />

1<br />

Außerdem ist √ = √<br />

1<br />

(1 + o(1)) gleichmäßig für |p n − p| ≤ √ K<br />

pn(1−pn) p(1−p) n<br />

für n → ∞.<br />

Damit ist der Satz bewiesen.<br />

Jetzt können wir den Satz von de Moivre-Laplace beweisen:<br />

Beweis von Satz 8.1.1<br />

1. Fall: Sei −∞ < a < b < ∞. Setze nun a n = np + a √ p(1 − p)n und b n = np +<br />

b √ p(1 − p)n. Dann gilt aufgrund des lokalen Grenzwertsatzes<br />

P (a ≤<br />

S n − np<br />

√ ≤ b) = P (a n ≤ S n ≤ b n )<br />

np(1 − p)<br />

∑<br />

( ) n<br />

=<br />

p k (1 − p) n−k<br />

k<br />

a n≤k≤b n<br />

∑<br />

= √ e − 1 (k−np) 2<br />

2 np(1−p) (1 + o(1))<br />

2πnp(1 − p)<br />

Mit l = k − np =<br />

Setze nun h = 1 √ n<br />

=<br />

a n≤k≤b n<br />

1<br />

∑<br />

1<br />

√ e − 1 l 2<br />

2 np(1−p) (1 + o(1))<br />

2πnp(1 − p)<br />

√ √<br />

a np(1−p)≤l≤b np(1−p)<br />

∑<br />

h<br />

√ e − 1 (lh) 2<br />

2 p(1−p) (1 + o(1))<br />

2πp(1 − p)<br />

a √ p(1−p)≤l·h≤b √ p(1−p)<br />

Dies s<strong>in</strong>d aber Riemann-Summen e<strong>in</strong>er stetigen Funktion auf e<strong>in</strong>em kompakten Intervall.<br />

Folglich hat mal Konvergenz für h → 0<br />

−→<br />

√ b p(1−p)<br />

∫<br />

1<br />

√ e −<br />

2πp(1 − p)<br />

z2<br />

2p(1−p) dz.<br />

a √ p(1−p)


8.4 Der Zentrale Grenzwertsatz 69<br />

Setze y =<br />

√<br />

z<br />

. Dann folgt:<br />

p(1−p)<br />

√ b p(1−p)<br />

∫<br />

1<br />

√ e − z2<br />

2p(1−p) dz =<br />

2πp(1 − p)<br />

∫b<br />

1<br />

√<br />

2π<br />

e − y2 2 dy<br />

a √ p(1−p)<br />

a<br />

und damit <strong>die</strong> Behauptung.<br />

2. Fall: Sei a = −∞, b ∈ R. Sei ε > 0 vorgegeben. Wegen<br />

∞∫<br />

−∞<br />

√1<br />

2π<br />

e − y2 2 dy = 1 existiert e<strong>in</strong><br />

a ε > 0 mit Φ(−a ε ) + 1 − Φ(a ε ) = ε 2 und −a ε < b < a ε . Nach Teil 1 gilt lim<br />

n→∞<br />

P (−a ε ≤<br />

S ∗ n ≤ a ε ) = Φ(a ε ) − Φ(−a ε ) und damit<br />

P (S ∗ n < −a ε ) ≤ 1 − P (−a ε ≤ S ∗ n ≤ a ε ) → 1 − Φ(a ε ) + Φ(−a ε ) + ε 2 ≤ ε<br />

für n h<strong>in</strong>reichend groß.<br />

Nun gilt für −a ε < b < a ε<br />

∫ b<br />

1<br />

√ e − y2 2 dx − P (S<br />

∗<br />

n ≤ b)<br />

∣ 2π ∣<br />

−∞<br />

∫−a ε<br />

∫ ≤<br />

1<br />

b<br />

√ e − y2 2 dy − P (S<br />

∗ 1<br />

n ≤ −a ε ) + √ e − y2 2 dy − P (−aε ≤ Sn ∗ ≤ b)<br />

∣ 2π 2π ∣<br />

−∞<br />

−a ε ∣ ∫−a ε<br />

∣∣∣∣∣ ∫ ≤<br />

1<br />

b<br />

√ e − y2 2 dy + |P (Sn ∗ ≤ −a ε )| +<br />

∣ 2π √ e − y2 2 dy − P (−aε ≤ Sn ∗ ≤ b)<br />

∣ 2π ∣<br />

−∞<br />

≤ ε 2 + ε + ε 2 = 2ε<br />

−a ε<br />

1<br />

für n h<strong>in</strong>reichend groß!<br />

8.4 Der Zentrale Grenzwertsatz<br />

E<strong>in</strong>e wesentliche Verallgeme<strong>in</strong>erung des Satzes von de Moivre-Laplace ist möglich.<br />

8.4.1 Satz<br />

Seien X 1 , ..., X n , ... unabhängige und identisch verteilte Zufallsvariablen<br />

mit EX 2 1 < ∞.<br />

Dann gilt für −∞ ≤ a < b ≤ ∞<br />

lim P (a ≤ S n − nE(X 1 )<br />

√<br />

n→∞ nVar(X1 )<br />

≤ b) = Φ(b) − Φ(a).


70 8 SATZ VON DE MOIVRE-LAPLACE<br />

Der Beweis wird hier nicht gegeben. Es soll aber daraufh<strong>in</strong>gewiesen werden, daß z.B. für<br />

unabhängige Poission-Variable X 1 , . . . , X n mit E(X 1 ) = λ gilt<br />

(<br />

lim P a ≤ S )<br />

n − nλ<br />

√ ≤ b = Φ(b) − Φ(a).<br />

n→∞ nλ


71<br />

9 Erzeugende Funktionen<br />

9.1 Def<strong>in</strong>ition und Eigenschaften erzeugender Funktionen<br />

9.1.1 Def<strong>in</strong>ition (erzeugende Funktion)<br />

Sei X Zufallsgröße mit Werten <strong>in</strong> N ∪ {0}. Dann heißt<br />

∑<br />

f X (z) = ∞ P (X = n)z n , −1 ≤ z ≤ 1,<br />

n=0<br />

<strong>die</strong> erzeugende Funktion der Verteilung von X.<br />

Bemerkung:<br />

1) f X (z) ist für |z| ≤ 1 wohldef<strong>in</strong>iert, da<br />

P (X = n)|z n | ≤ P (X = n) für |z| ≤ 1 und ∞ ∑<br />

2) Es gilt: Ez X = ∑ ω<br />

Trafosatz<br />

p(ω)z X(ω) {}}{<br />

=<br />

n=0<br />

P (X = n) = 1 gilt.<br />

∞∑<br />

P (X = n)z n = f X (z).<br />

3) f X legt <strong>die</strong> Verteilung von X e<strong>in</strong>deutig fest (siehe Satz 9.1.2),<br />

<strong>die</strong> Verteilung von X legt f X e<strong>in</strong>deutig fest.<br />

n=0<br />

9.1.2 Satz<br />

Es gilt:<br />

1) a) f X (0) = P (X = 0),<br />

b) f X (1) = 1,<br />

c) P (X = n) = f (n)<br />

X (0)<br />

.<br />

n!<br />

2) f X (z) ist für 0 ≤ z ≤ 1 monoton wachsend (f ′ (z) ≥ 0) und konvex (f ′′ (z) ≥ 0).<br />

3) Falls E(X) < ∞ ist, gilt f X ′ (1) = lim f X ′ (z) = E(X).<br />

z↗1<br />

4) Falls E(X 2 ) < ∞ ist, gilt f X ′′ (1) = lim f X ′′ (z) = z↗1 E(X2 ) − E(X)<br />

Beweis:<br />

Zu 1): Nachrechnen.<br />

Zu 2): Gliedweises differenzieren liefert für 0 ≤ z < 1 f ′ (z) ≥ 0, f ′′ (z) ≥ 0.


72 9 ERZEUGENDE FUNKTIONEN<br />

Zu 3):<br />

Lemma von Abel<br />

∞∑<br />

a<br />

∑<br />

Sei c n konvergente Reihe mit c n ∈ R dann konvergiert f(x) = ∞ c n x n<br />

n=0<br />

für x ∈ [0, 1] und f ist im Intervall [0, 1] stetig.<br />

∑<br />

Insbesondere: lim f(x) = f(1) = ∞ c n .<br />

x↗1 n=0<br />

a s. Forster Band 1,S.180<br />

n=0<br />

∑<br />

Da EX = ∞ kP (X = k) < ∞, liefert das Lemma von Abel, angewandt auf<br />

k=1<br />

f X ′ (z) = ∑ ∞ kP (X = k)z k−1 , <strong>die</strong> Behauptung:<br />

k=1<br />

f X ′ (1) = lim f X ′ (z) = lim ( ∑ ∞ ∑<br />

kP (X = k)z k−1 ) = ∞ kP (X = k) = E(X).<br />

z↗1 z↗1 k=1<br />

k=1<br />

Zu 4): EX 2 < ∞ ⇒ E(X) < ∞. Wende das Lemma von Abel auf f X ′′ an:<br />

f X ′′ (z) = d ( ∑ ∞ ∑<br />

P (X = k)kz k−1 ) = ∞ P (X = k)k(k − 1)z k−2<br />

dz<br />

k=1<br />

k=2<br />

(Terme mit k = 0 und k = 1 verschw<strong>in</strong>den).<br />

∞∑<br />

f X ′′ (1) = lim X (z) = lim P (X = k)k(k − 1)z k−2<br />

Abel<br />

{}}{<br />

= ∞ ∑<br />

k=2<br />

z↗1 f ′′<br />

z↗1 k=2<br />

P (X = k)(k 2 − k) = E(X 2 ) − E(X).<br />

9.1.3 Satz<br />

Seien X und Y unabhängige Zufallsgrößen mit Werten <strong>in</strong> N ∪ {0}.<br />

Dann gilt: f X+Y (z) = f X (z)f Y (z).<br />

Beweis: Zu Satz 9.1.3:<br />

f X+Y (z) = E(z (X+Y ) ) = E(z X z Y )<br />

= ∑ ω∈Ω<br />

z X(ω) z Y (ω) p(ω)<br />

Trafosatz<br />

{}}{<br />

= ∑ k,l<br />

z k z l P (X = k, Y = l)<br />

= ∑ k,l<br />

z k z l P (X = k)P (Y = l)<br />

= ( ∑ k<br />

z k P (X = k))( ∑ l<br />

z l P (Y = l))<br />

= f X (z)f Y (z)


9.1 Def<strong>in</strong>ition und Eigenschaften erzeugender Funktionen 73<br />

9.1.4 Folgerung<br />

∏<br />

Seien X 1 , X 2 , ..., X n unabhängige Zufallsgrößen. Dann gilt: f nP (z) = n f Xi (z).<br />

X i<br />

9.1.5 Beispiele<br />

1) Seien X 1 , ..., X n unabhängig und Bernoulli-verteilt mit P (X i = 1) = p, P (X i = 0) = q.<br />

∑<br />

Dann gilt: f Xi (z) = q + pz. Setzt man S n = n X i , so gilt für <strong>die</strong> erzeugende Funktion:<br />

f Sn (z) = (q + pz) n = n ∑<br />

k=0<br />

( n<br />

)<br />

k p k q n−k z k .<br />

Wie zu erwarten war, ist das <strong>die</strong> erzeugende Funktion der B<strong>in</strong>omialverteilung.<br />

2) Seien X 1 , X 2 , ..., X n unabhängig und geometrisch verteilt mit<br />

P (X i = k) = pq k , (k = 0, 1, 2, ...), so ergibt sich als erzeugende Funktion:<br />

∑<br />

f Xi (z) = ∞ pq k z k = und mit Satz 9.1.2, 3 folgt:<br />

k=0<br />

p<br />

1−qz<br />

E(X i ) = f ′ X i<br />

(1) =<br />

i=1<br />

∑<br />

Setzen wir wieder S n = n X i , so folgt weiter:<br />

i=1<br />

p<br />

f Sn (z) = (<br />

1 − qz )n = p n (1 − qz) −n =<br />

i=1<br />

pq<br />

(1 − qz) 2 | z=1 = q p .<br />

i=1<br />

∞∑<br />

( ) −n<br />

p n (−q) k z k<br />

k<br />

Dabei haben wir <strong>die</strong>allgeme<strong>in</strong>e b<strong>in</strong>omische Formel angewandt:<br />

( ( ( a a a<br />

(1 + s) a = 1 + s + s<br />

1)<br />

2)<br />

2 + s<br />

3)<br />

3 + ... mit |s| < 1, a ∈ R.<br />

k=0<br />

Hierbei ist ( )<br />

a<br />

k :=<br />

a(a−1)...(a−k+1)<br />

, a ∈ R, k ∈ N ∪ {0},<br />

k!<br />

und es gilt: ( −n<br />

k<br />

Damit ist: f Sn (z) = ∞ ∑<br />

)<br />

=<br />

(−n)(−n−1)...(−n−k+1)<br />

k=0<br />

= (−1) k n(n+1)...(n+k−1)<br />

= (−1) k( n+k−1<br />

k! k! k<br />

( n+k−1<br />

)<br />

k p n q k z k<br />

und P (S n = k) = ( )<br />

n+k−1<br />

k p n q k .<br />

3) Seien X 1 , X 2 , ..., X n unabhängig und Poisson-verteilt mit<br />

P (X i = k) = λk i<br />

k! e−λ i<br />

, (k = 0, 1, 2, ...), so ist <strong>die</strong> erzeugende Funktion:<br />

∑<br />

f Xi (z) = ∞ λ k i zk<br />

e −λ i<br />

= e λ iz−λ i<br />

= e λi(z−1) .<br />

k!<br />

k=0<br />

∑<br />

Für <strong>die</strong> erzeugende Funktion von S n = n X i gilt dann: f Sn (z) = e<br />

∑<br />

Wegen Satz 9.1.2 gilt: S n ist Poisson-verteilt mit Parameter n λ i .<br />

i=1<br />

i=1<br />

nP<br />

i=1<br />

λ i (z−1)<br />

.<br />

)<br />

.


74 9 ERZEUGENDE FUNKTIONEN<br />

9.2 Poisson-Prozesse<br />

9.2.1 Herleitung des Poisson-Prozesses durch erzeugende Funktionen<br />

Sei X t <strong>die</strong> Anzahl der „Anrufe“ im Zeit<strong>in</strong>tervall [0, t] und X 0 = 0, 0 ≤ t ≤ K.<br />

Annahme:<br />

1) Sei 0 < t 1 < t 2 < ... < t k < K. Dann s<strong>in</strong>d X t1 , X t2 − X t1 , ..., X tk − X tk−1 unabhängig.<br />

2) X t+a − X s+a ist für alle a > 0 genau so verteilt wie X t − X s .<br />

3) a) P (X t+δ − X t = 1) = λδ + o(δ) für δ → 0,<br />

b) P (X t+δ − X t = 0) = 1 − λδ + o(δ) für δ → 0,<br />

Bemerkung: (a) & (b)⇒ P (X t+δ − X t > 1) = o(δ) für δ → 0,<br />

denn<br />

P (X t+δ − X t > 1) = 1 − P (X t+δ − X t = 0) − P (X t+δ − X t = 1)<br />

= 1 − [1 − λδ + o(δ)] − [λδ + o(δ)]<br />

= 2o(δ)<br />

= o(δ) für δ → 0.<br />

Aufgabe: Berechne unter den Annahmen (1)-(3) <strong>die</strong> erzeugende Funktion von X t .<br />

Behauptung: f Xt (z) = e λt(z−1) . X t ist Poisson-verteilt mit Parameter λt.<br />

Beweisidee:<br />

Zerlege das Intervall [0, t] <strong>in</strong> N Stücke der Länge t N<br />

von X t/N . Berechne anschließend X t .<br />

und berechne <strong>die</strong> erzeugende Funktion<br />

Aus 3)a), 3)b) und 3)c) folgt: f X tN<br />

(z) = 1 − λ t + λz t + o( t ) für N → ∞.<br />

N N N<br />

Wegen 2) ist <strong>die</strong>s auch e<strong>in</strong>e erzeugende Funktion von X 2t −X t<br />

Da X t = N ∑<br />

k=0<br />

(<br />

X jt<br />

N<br />

− X (j−1)t<br />

N<br />

, X 3t<br />

N N N<br />

)<br />

ist, folgt mit 1) und Satz 9.1.3<br />

f Xt (z) = (f X tN<br />

(z)) N<br />

= (1 − λt<br />

N + λzt<br />

N + o( t N ))N<br />

= (1 + λt(z − 1) + o( 1 ) N<br />

) N für N → ∞<br />

N<br />

= e λt(z−1) für N → ∞.<br />

−X 2t<br />

N<br />

Dabei haben wir verwendet: (1 + xn n )n → e x , falls x n → x und n → ∞.<br />

, ..., X t −X (N−1)t .<br />

N


9.3 Ausgedünnte Poisson-Prozesse 75<br />

9.2.2 Def<strong>in</strong>ition (Poisson-Prozess)<br />

Die Menge der Zufallsvariablen {X t , 0 ≤ t ≤ K} mit den Eigenschaften (1)–(3) heißt<br />

Poisson-Prozess zum Parameter λ.<br />

X t<br />

t<br />

zufällige Zeiten<br />

Bemerkung: Eigenschaft (3) lässt sich ersetzen durch (3’): Für 0 ≤ s ≤ t gilt: X t − X s<br />

ist Poisson-verteilt mit Parameter λ(t − s). Wir haben <strong>in</strong> 7.1.9, 3) gezeigt: (1)-(3)⇒(3’).<br />

Umgekehrt läßt sich leicht zeigen: (1)+(2)+(3’)⇒(3).<br />

9.3 Ausgedünnte Poisson-Prozesse<br />

9.3.1 Satz<br />

Sei {X t , t ∈ [0, K]} Poisson-Prozess mit Parameter λ. Seien Z 1 , Z 2 , ... Bernoulli-Variable<br />

mit P (Z i = 1) = p. Weiter seien X t , Z 1 , Z 2 , ... für unabhängig (d.h. für jedes n ≥ 1 und<br />

s<strong>in</strong>d X t , Z 1 , Z 2 , ..., Z n unabhängig).<br />

∑<br />

Dann ist Y t = Xt<br />

Z i Poisson-verteilt mit Parameter λpt.<br />

i=1<br />

Weitergehend ist {Y t , t ∈ [0, K]} Poisson-Prozess mit Parameter λp, wenn <strong>die</strong> geforderte<br />

Unabhängigkeitseigenschaft für alle t > 0 gilt.<br />

Beweis:<br />

Zeige, dass f Yt (z) = e λpt(z−1) gilt. Sei S n = n ∑<br />

P (Y t = k) = P (S Xt = k) =<br />

i=1<br />

Z i . Dann ist:<br />

∞∑<br />

P (X t = n, S n = k) =<br />

n=0<br />

∞∑<br />

P (X t = n)P (S n = k)<br />

n=0<br />

f Yt (z) =<br />

=<br />

=<br />

∞∑<br />

P (Y t = k)z k<br />

k=0<br />

∞∑<br />

k=0 n=0<br />

∞∑<br />

P (Y t = n)P (S n = k)z k<br />

∞∑<br />

∞∑<br />

P (X t = n)( P (S n = k)z k )<br />

n=0<br />

k=0


76 9 ERZEUGENDE FUNKTIONEN<br />

=<br />

Satz 9.1.3<br />

{}}{<br />

=<br />

∞∑<br />

P (X t = n)f Sn (z)<br />

n=0<br />

∞∑<br />

P (X t = n)(f Z1 (z)) n<br />

n=0<br />

= f Xt (f Z1 (z))<br />

= f Xt (1 + p(z − 1))<br />

= e λtp(z−1) .<br />

9.3.2 Korollar<br />

∑<br />

Sei Y t := Xt<br />

i=1<br />

∑<br />

Z i und W t := Xt<br />

(1 − Z i ). Dann s<strong>in</strong>d Y t und W t unabhängig.<br />

i=1<br />

Beweis:<br />

Aus Satz 9.3.1 folgt, daß auch W t Poisson-verteilt ist mit Parameter λ(1−p). Die Aussage<br />

über <strong>die</strong> Unabhängigkeit folgt aus dem folgenden Lemma, wenn man N = X t setzt.<br />

9.3.3 Lemma<br />

Sei N Poisson-verteilte Zufallsvariable mit Parameter λ. Seien Z 1 , Z 2 , . . . Bernoulli-Variable<br />

mit P (Z i = 1) = p. Für jedes n ≥ 1 seien N, Z 1 , Z 2 , . . . , Z n unabhängig. Dann s<strong>in</strong>d <strong>die</strong><br />

Zufallsvariablen<br />

N∑<br />

N∑<br />

Y = Z i , W = (1 − Z i )<br />

unabhängig.<br />

i=1<br />

Beweis:<br />

Es gilt wegen der Unabhängigkeitsvoraussetzung und wegen N = Y + W<br />

P (Y = k, W = n − k) = P (Y = k, W = n − k, N = n)<br />

i=1<br />

= P (Y = k, W = n − k|N = n) P (N = n)<br />

( n∑<br />

)<br />

n∑<br />

= P Z i = k, (1 − Z i ) = n − k P (N = n)<br />

i=1<br />

i=1<br />

( n∑<br />

)<br />

= P Z i = k P (N = n)<br />

i=1<br />

=<br />

n!<br />

k!(n − k)! pk n−k λn<br />

(1 − p)<br />

n! e−λ<br />

= (pλ)k pλ [(1 − p)λ]n−k<br />

e<br />

k! (n − k)!<br />

= P (Y = k) P (W = n − k).<br />

e −(1−p)λ<br />

Die letzte Gleichung benutzt von Satz 9.3.1 <strong>die</strong> erste Aussage.


9.4 Poisson-Prozess über dem E<strong>in</strong>heitsquadrat 77<br />

Die Kükenaufgabe:<br />

Auf e<strong>in</strong>er Farm legen <strong>die</strong> Hühner <strong>in</strong>nerhalb e<strong>in</strong>es Jahres N Eier, N sei Poisson-verteilt<br />

mit Parameter λ. Aus jedem Ei schlüpft unabhängig von den anderen Eier e<strong>in</strong> Küken<br />

mit Wahrsche<strong>in</strong>lichkeit p. Wenn Y <strong>die</strong> Anzahl der geschlüpften Küken ist, was ist<br />

E(N|Y = k)?<br />

∑<br />

Nun ist Y = N Z i , mit Z i<br />

W =<br />

N ∑<br />

i=1<br />

i=1<br />

unabhängig und Bernoulli-verteilt mit Parameter p. Sei<br />

(1 − Z i ). Dann ist N = Y + W und Y und W s<strong>in</strong>d unabhängig nach dem<br />

Lemma. Somit gilt<br />

1<br />

E(N|Y = k) =<br />

P (Y = k) E ( )<br />

NI {Y =k}<br />

∞∑ P (N = l, Y = k)<br />

= l<br />

P (Y = k)<br />

l=0<br />

∞∑ P (W = l − k, Y = k)<br />

= l<br />

P (Y = k)<br />

l=k<br />

∞∑<br />

mit m = l − k = k + m P (W = m)<br />

m=0<br />

= k + λ(1 − p).<br />

Dies folgt, da W Poisson-verteilt ist mit Parameter λ(1 − p).<br />

9.4 Poisson-Prozess über dem E<strong>in</strong>heitsquadrat<br />

Sei E = [0, 1] 2 und B ⊂ E. X B sei <strong>die</strong> Anzahl der „Treffer“ auf B (z.B. Ra<strong>in</strong>drops).<br />

Annahmen:<br />

1) Gilt A, B ⊂ E und A ∩ B = ∅, dann s<strong>in</strong>d X A , X B unabhängig.<br />

2) Sei s ∈ E, A ⊂ E sowie A + s ⊂ E. Dann ist X A+s genauso verteilt wie X A .<br />

3) F (A) sei <strong>die</strong> Fläche von A. Dann gilt für F (A) → 0:<br />

a) P (X A = 1) = λF (A) + o(F (A)),<br />

b) P (X A = 0) = 1 − λF (A) + o(F (A)).


78 9 ERZEUGENDE FUNKTIONEN<br />

Aufgabe: Leite unter den Annahmen 1)-3) <strong>die</strong> erzeugende Funktion für <strong>die</strong> Anzahl der<br />

„Treffer“ her.<br />

Zerlege E <strong>in</strong> n × n kle<strong>in</strong>e Quadrate Q i,n , (i ∈ {1, . . . n 2 }) und nummeriere <strong>die</strong>se durch.<br />

K n bzw. G n seien <strong>die</strong> Indexmengen der<br />

⋃<br />

e<strong>in</strong>beschriebenen bzw. der e<strong>in</strong>beschreibenden<br />

Quadrate der Menge A. Es gilt dann: Q i,n ⊂ A ⊂ ⋃ Q i,n .<br />

i∈K n i∈G n<br />

Def<strong>in</strong>iere: ˜XKn := X S Q i,n<br />

und ˜X Gn := X S Q i,n<br />

.<br />

Kn<br />

Gn<br />

Dann gilt für alle n ˜X Kn ≤ X A ≤ ˜X Gn und damit folgt: lim ↑ ˜X Kn = X A = lim ↓ ˜X Gn .<br />

n→∞ n→∞<br />

Für <strong>die</strong> erzeugenden Funktionen folgt:<br />

f ˜XKn<br />

(z)<br />

(1)<br />

{}}{<br />

= ∏<br />

(3)<br />

{}}{<br />

= ∏<br />

i∈K n<br />

f XQi,n (z)<br />

i∈K n<br />

(1 − λF (Q i,n ) + λF (Q i,n )z + o(F (Q i,n )))<br />

(2)<br />

{}}{<br />

= (1 − λ n 2 + λ n 2 z + o( 1 n 2 ))F (A)n2 (1+o(1)) für n → ∞<br />

→ e λF (A)(z−1) für n → ∞.<br />

Ebenso gilt: f ˜XGn<br />

(z) → e λF (A)(z−1) und damit folgt: f XA (z) = e λF (A)(z−1) d.h. X A ist<br />

Poisson-verteilt mit Parameter λF (A).<br />

Bemerkung :<br />

1) Diese Konstruktion funktioniert auch für [0, 1] k .<br />

2) Satz 9.3.1 und das Korollar gelten entsprechend.


79<br />

10 Markov-Ketten<br />

10.1 Die Ka<strong>in</strong> und Abel-Aufgabe (nach A. Engel)<br />

Abel schlägt se<strong>in</strong>em Bruder Ka<strong>in</strong> folgendes Spiel vor. Sie werfen abwechselnd e<strong>in</strong>e faire<br />

Münze, bis erstmals e<strong>in</strong>e der Ziffernfolgen<br />

a) 1111 oder<br />

b) 0011 auftritt.<br />

Ka<strong>in</strong> gew<strong>in</strong>nt bei (a) und Abel bei (b). Wie groß ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit, daß Ka<strong>in</strong><br />

gew<strong>in</strong>nt? E<strong>in</strong> möglicher Pfad im Verlauf des Spiels ist 01100101110011.<br />

Wir stellen nun <strong>die</strong> Struktur der Aufgabe mit Hilfe e<strong>in</strong>es Graphen dar, wobei <strong>die</strong> “Zustände”<br />

<strong>die</strong> möglichen Ergebnismuster s<strong>in</strong>d und <strong>die</strong> Pfeile <strong>die</strong> möglichen Übergänge angeben.<br />

Alle Übergänge geschehen mit Wahrsche<strong>in</strong>lichkeit 1 2 .<br />

0 1 3 5 7<br />

*<br />

1 11 111 1111<br />

0 00 001 0011<br />

2<br />

4 6 8<br />

Abbildung 10.1: Der Graph der möglichen Übergänge<br />

Die Zustände s<strong>in</strong>d mit den Ziffern 0 bis 8 bezeichnet, wobei “0” den Zustand benennt, bei<br />

dem noch ke<strong>in</strong> Ergebnis vorliegt. Der angegebene Spielverlauf 01100101110011 übersetzt<br />

sich nun (<strong>in</strong> e<strong>in</strong>e<strong>in</strong>deutiger Zuordnung) <strong>in</strong> 21324621352468. Wie läßt sich nun <strong>die</strong> Aufgabe<br />

lösen? Wir bezeichnen mit p i <strong>die</strong> Wahrsche<strong>in</strong>lichkeit bei Start im Zustand “i” den Zustand<br />

“7” zu erreichen bevor man den Zustand “8” erreicht hat. Dann gilt natürlich sofort p 7 = 1<br />

und p 8 = 0. Außerdem s<strong>in</strong>d <strong>die</strong> folgenden Gleichungen <strong>in</strong>tuitiv plausibel.<br />

p 1 = 1 2 p 2 + 1 2 p 3<br />

p 2 = 1 2 p 1 + 1 2 p 4<br />

p 3 = 1 2 p 2 + 1 2 p 5<br />

p 4 = 1 2 p 4 + 1 2 p 6<br />

p 5 = 1 2 + 1 2 p 2<br />

p 6 = 1 2 p 2.


80 10 MARKOV-KETTEN<br />

Das Schema ist e<strong>in</strong> l<strong>in</strong>eares Gleichungssystem mit sechs Unbekannten und Gleichungen.<br />

Durch E<strong>in</strong>setzen erhält man sofort<br />

p 4 = p 6 = 1 2 p 2<br />

p 1 = 3 2 p 2<br />

p 3 = 1 4 + 3 4 p 2<br />

sowie p 1 = 1 8 + 7 8 p 2.<br />

Damit ist p 1 = 3 , p 10 2 = 1 und folglich p 5 0 = 1 . Das heißt Ka<strong>in</strong> gew<strong>in</strong>nt nur mit Wahrsche<strong>in</strong>lichkeit<br />

1.<br />

4<br />

4<br />

10.2 Def<strong>in</strong>ition von Markov-Ketten und erste Folgerungen<br />

10.2.1 Def<strong>in</strong>ition (Markov-Kette)<br />

(Ω, P ) sei Wahrsche<strong>in</strong>lichkeitsraum, E sei endliche Menge. Seien X i : Ω → E,<br />

i = 0, 1, 2, 3, . . . Zufallsvariablen. Die Menge der Zufallsvariablen X = {X 0 , X 1 , X 2 , . . . , X n , . . . }<br />

heißt Markov-Kette (der Länge n), falls<br />

P (X i = x i | X 0 = x 0 , . . . , X i−1 = x i−1 ) = P (X i = x i | X i−1 = x i−1 )<br />

für i = 1, 2, . . . , n, . . . gilt. E<strong>in</strong>e Markov-Kette X heißt stationär, falls<br />

für i = 1, 2, . . . gilt.<br />

Bezeichnungsweisen<br />

1. E heißt Zustandsraum,<br />

P (X i = x 1 | X i−1 = x 0 ) = P (X 1 = x 1 | X 0 = x 0 )<br />

2. q(x, y), x, y ∈ E heißt stochastische Matrix, falls q(x, y) ≥ 0 und ∑ y∈E<br />

q(x, y) = 1,<br />

∀ x ∈ E gilt,<br />

3. π(x 0 ) = P (X 0 = x 0 ) mit x 0 ∈ E heißt Startverteilung.<br />

Konstruktion von stationären Markov-Ketten<br />

Gegeben seien:<br />

1. E endlich oder abzählbar,<br />

2. q(x, y), x, y ∈ E e<strong>in</strong>e stochastische Matrix,<br />

3. π(x), x ∈ E e<strong>in</strong>e Wahrsche<strong>in</strong>lichkeitsfunktion auf E, d.h. π(x) ≥ 0 für alle x ∈ E<br />

und ∑ x∈E<br />

π(x) = 1.


10.2 Markov-Ketten 81<br />

Zur Existenz:<br />

Sei Ω n+1 := {ω = (x 0 , . . . , x n ) | x i ∈ E, i = 0, . . . , n} und X i (ω) := x i , für i = 0, 1, . . . , n.<br />

10.2.2 Satz:<br />

Sei n ∈ N. Durch p(ω) := π(x 0 )q(x 0 , x 1 ) . . . q(x n−1 , x n ) wird e<strong>in</strong>e Wahrsche<strong>in</strong>lichkeitsfunktion<br />

auf Ω n+1 gegeben, so dass gilt:<br />

1. P (X 0 = x 0 ) = π(x 0 ),<br />

2. P (X 0 = x 0 , X 1 = x 1 , . . . , X n = x n ) = p(ω),<br />

3. P (X i+1 = x i+1 |X 0 = x 0 , . . . , X i = x i ) = q(x i , x i+1 ) = P (X i+1 = x i+1 |X i = x i )<br />

für i = 0, . . . , n − 1.<br />

Beweis:<br />

Zu (2):<br />

Sei ω = (x 0 , . . . , x n ). Mit p(ω) = π(x 0 )q(x 0 , x 1 ) . . . q(x n−1 , x n ) gilt: p(ω) ≥ 0 und<br />

∑<br />

ω∈Ω n+1<br />

p(ω) = 1. Da X i (ω) = x i ist, folgt P ({ω|X i (ω) = x i , i = 0, . . . , n}) = P ({ω}) =<br />

p(ω).<br />

Zu (1):<br />

(+) P ({X 0 = x 0 , . . . , X i = x i }) = ∑<br />

für i = 0, 1, 2, . . . , n − 1.<br />

Zu (3):<br />

Es gilt<br />

x i+1 ,...,x n<br />

π(x 0 )q(x 0 , x 1 )q(x i−1 , x i ) . . . q(x n−1 , x n )<br />

= π(x 0 )q(x 0 , x 1 ) . . . q(x i−1 , x i )<br />

P (X i+1 = x i+1 | X 0 = x 0 , . . . , X i = x i ) = π(x 0)q(x 0 , x 1 ) . . . q(x i−1 , x i ), q(x i , x i+1 )<br />

π(x 0 )q(x 0 , x 1 ) . . . q(x i−1 , x i )<br />

= q(x i , x i+1 )<br />

sowie<br />

P (X i+1 = x i+1 |X i = x i ) = P (X i+1 = x i+1 , X i = x i )<br />

P (X i = x i )<br />

∑<br />

π(x 0 )q(x 0 , x 1 ) . . . q(x i−1 , x i )q(x i , x i+1 )<br />

x 0 ,...,x i−1<br />

= ∑<br />

π(x 0 )q(x 0 , x 1 ) . . . q(x i−1 , x i )<br />

x 0 ,...,x i−1<br />

= q(x i , x i+1 ).<br />

Bemerkungen:<br />

1. P (X i = x i ) = ∑ π(x 0 )q(x 0 , x 1 ) . . . q(x i−1 , x i ) = ∑ π(x 0 )q i (x 0 , x i ).<br />

x 0 ,...,x i−1 x 0<br />

Dabei ist q n+1 (x, y) = ∑ q n (x, z) q(z, y) das n + 1-fache Matrixprodukt.<br />

z∈E


82 10 MARKOV-KETTEN<br />

2. Mit Satz 10.2.2 ist e<strong>in</strong>e Markov-Kette der Länge n konstruiert!<br />

3. Wegen (+) im Beweis von Satz 10.2.2 ist <strong>die</strong> Markov-Kette der Länge i e<strong>in</strong>gebettet<br />

<strong>in</strong> e<strong>in</strong>e Markov-Kette der Länge n für i ≤ n.<br />

4. Mit der Bed<strong>in</strong>gung (+) lässt sich e<strong>in</strong>e Markov-Kette beliebiger Länge konstruieren.<br />

10.2.3 Beispiele für Markov-Ketten<br />

1) Ka<strong>in</strong> und Abel-Aufgabe:<br />

Der Zustandsraum ist E = {0, 1, 2, . . . , 8}. Für π gilt π(0) = 1. Weiter ist<br />

⎛<br />

0 1 1<br />

0 0 0 0 0 0<br />

⎞<br />

2 2 0 0 1 1<br />

0 0 0 0 0<br />

2 2 0 1 0 0 1 0 0 0 0<br />

2 2 0 0 1 0 0 1 0 0 0<br />

2 2<br />

(q(x, y)) x,y∈E =<br />

0 0 0 0 1 2 0 1 0 0<br />

2 0 0 1 2 0 0 0 0 1 0<br />

.<br />

2 0 0 1<br />

⎜<br />

0 0 0 0 0 1 2 2<br />

⎟<br />

⎝0 0 0 0 0 0 0 1 0⎠<br />

0 0 0 0 0 0 0 0 1<br />

2) Sei E = {1, 2, 3},<br />

⎛ ⎞<br />

0 3 4<br />

1<br />

4<br />

⎛<br />

q(x, y) = ⎝ 1<br />

0 1 ⎠ und q 2 (x, y) = ⎝<br />

2 2<br />

1 0 0<br />

5<br />

0 3 8 8<br />

1 3 1<br />

2 8 8<br />

0 3 1<br />

4 4<br />

Für jede Startverteilung π mit π(x) > 0 für x ∈ E gilt lim<br />

mit α(1) = 8<br />

19 , α(2) = 6<br />

19 , α(3) = 5<br />

19 .<br />

⎞<br />

⎠.<br />

n→∞<br />

∑<br />

x∈E<br />

π(x)q n (x, y) = α(y)<br />

∑<br />

3) Seien Y 1 , Y 2 , . . . unabhängig, X i = i Y j und X 0 = x 0 . Dann ist {X 0 , X 1 , X 2 , . . .} e<strong>in</strong>e<br />

Markov-Kette.<br />

Beweis:<br />

Sei m ∈ N und sei y i = x i − x i−1 für i ≥ 1 und y 0 = x 0 . Dann ist:<br />

j=1<br />

P (X m+1 = x|X 0 = x 0 , . . . , X m = x m )<br />

= P (X m+1 = x|X 0 = y 0 , X 1 = y 0 + y 1 , X 2 = y 0 + y 1 + y 2 , . . . , X m = y 0 + · · · + y m )<br />

= P (Y m+1 = x − (y 0 + y 1 + · · · + y m )|Y 0 = y 0 , Y 1 = y 1 , . . . , Y m = y m )<br />

= P (Y m+1 = x − (y 0 + y 1 + · · · + y m ))P (Y 0 = y 0 )P (Y 1 = y 1 ) · · · P (Y m = y m )<br />

P (Y 0 = y 0 )P (Y 1 = y 1 ) · · · P (Y m = y m )<br />

= P (Y m+1 = x − (y 0 + y 1 + · · · + y m ))<br />

= P (X m+1 = x|X m = x m ).


10.3 Absorbierende Zustände 83<br />

4) Ehrenfestsches Urnenmodell<br />

N Teilchen bef<strong>in</strong>den sich <strong>in</strong> den Behältern 1 und 2.<br />

i Teilchen seien <strong>in</strong> Behälter 1, N − i Teilchen <strong>in</strong> Behälter 2.<br />

In jeder Zeite<strong>in</strong>heit spr<strong>in</strong>gt e<strong>in</strong> Teilchen entweder von 1 → 2 oder von 2 → 1.<br />

1<br />

2<br />

Abbildung 10.2: Ehrenfestsches Urnenmodell<br />

Die stochastische Matrix wird gegeben durch q(i, i + 1) = N−i<br />

N , q(i, i − 1) = i N und<br />

q(i, j) = 0 für j ≠ i ± 1.<br />

10.3 Absorbierende Zustände<br />

Wir können e<strong>in</strong>e Markov-Kette als Bewegung e<strong>in</strong>es Teilchens durch <strong>die</strong> Zustände auffassen.<br />

In manchen Markov-Ketten gibt es Zustände, <strong>die</strong> nicht verlassen werden können. Solche<br />

Zustände heißen absorbierend.<br />

10.3.1 Def<strong>in</strong>ition (absorbierender Zustand, absorbierender Rand)<br />

Sei X = {X 0 , X 1 , . . .} e<strong>in</strong>e stationäre Markov-Kette mit Zustandsraum E.<br />

E<strong>in</strong> Zustand x ∈ E heißt absorbierend, wenn gilt q(x, x) = 1.<br />

Die Menge A ⊂ E aller absorbierender Zustände heißt absorbierender Rand von X .<br />

Bei der “Ka<strong>in</strong> und Abel”-Aufgabe ist {7, 8} der absorbierende Rand. Der folgende Satz<br />

liefert e<strong>in</strong>e Begründung für <strong>die</strong> Ka<strong>in</strong> und Abel-Aufgabe.<br />

10.3.2 Satz<br />

Sei X e<strong>in</strong>e stationäre Markov-Kette und A ⊂ E ihr absorbierender Rand. Wir nehmen<br />

an, dass für jedes x ∈ E <strong>die</strong> Wahrsche<strong>in</strong>lichkeit nach A zu kommen gleich 1 ist.<br />

Sei A = A 1 ∪ A 2 und A 1 ∩ A 2 = ∅. Sei P A1 (x) <strong>die</strong> Wahrsche<strong>in</strong>lichkeit bei Start <strong>in</strong> x beim<br />

ersten E<strong>in</strong>tritt <strong>in</strong> A nach A 1 zu gelangen. Dann gilt:<br />

(a) P A1 (x) = 1 für x ∈ A 1 und P A1 (x) = 0 für x ∈ A 2 ,<br />

(b) Für x /∈ A ist P A1 (x) = ∑ q(x, z) + ∑ ∑<br />

q(x, x 1 )q(x 1 , x 2 ) . . . q(x n−1 , z),<br />

z∈A 1 n≥2<br />

(c) Es gilt stets P A1 (x) = ∑ y∈E<br />

q(x, y)P A1 (y).<br />

x i /∈A für<br />

i=1,...,n−1,<br />

z∈A 1


84 10 MARKOV-KETTEN<br />

Beweis:<br />

Zu (a): Dies folgt direkt aus der Def<strong>in</strong>ition.<br />

Zu (b): Sei x /∈ A. Dann ist<br />

( ⋃<br />

)<br />

P A1 (x) = P (X 0 = x, X 1 ∈ A 1 ) + P {X 0 = x, X i /∈ A für i < n, X n ∈ A 1 }<br />

n≥2<br />

= ∑ z∈A 1<br />

q(x, z) + ∑ n≥2<br />

P ({X 0 = x, X i /∈ A für i < n, X n ∈ A 1 })<br />

= ∑ z∈A 1<br />

q(x, z) + ∑ n≥2<br />

Zu (c): Sei x /∈ A. So gilt<br />

∑<br />

x 1 ,x 2 ,...,x n−1 /∈A,<br />

z∈A 1<br />

q(x, x 1 ) . . . q(x n−1 , z).<br />

P A1 (x) = P (X 0 = x, X 1 ∈ A 1 ) + P (X 0 = x, X 1 /∈ A, X 2 ∈ A 1 )<br />

+ P (X 0 = x, ∃n ≥ 3 mit X n ∈ A 1 und X i /∈ A für i < n)<br />

= ∑ q(x, y) + ∑<br />

q(x, y)q(y, z)<br />

y∈A 1 y /∈A,z∈A 1<br />

+ ∑ ∑ ∑<br />

n≥3<br />

y /∈A x i /∈A,<br />

i=2,...,n−1,<br />

z∈A 1<br />

q(x, y)q(y, x 2 ) . . . q(x n−1 , z)<br />

(∗)<br />

= ∑ q(x, y)P A1 (y) + ∑ ( ∑<br />

q(x, y)<br />

y∈A<br />

y /∈A<br />

∑<br />

= ∑ y∈A<br />

+ ∑ ( ∑<br />

q(x, y)<br />

y /∈A<br />

n≥3<br />

)<br />

q(y, z)<br />

z∈A 1<br />

x i /∈A,<br />

i=2,...,n−1,<br />

z∈A 1<br />

q(y, x 2 ) . . . q(x n−1 , z)<br />

q(x, y)P A1 (y) + ∑ y /∈A<br />

q(x, y)P A1 (y)<br />

)<br />

= ∑ y<br />

q(x, y)P A1 (y).<br />

(*) P A1 (x) = 1 für x ∈ A 1 und P A1 (x) = 0 für x ∈ A\A 1 .<br />

Bemerkung: Die Gleichung c) aus Satz 10.3.2 lautet <strong>in</strong> Vektorschreibweise P A1 = qP A1 .<br />

Dies bedeutet P A1 ist rechter Eigenvektor von q zum Eigenwert 1. Man sagt auch, P A1 ist<br />

harmonisch oder P A1 erfüllt <strong>die</strong> Mittelwerteigenschaft.<br />

10.3.3 Berechnung von Ru<strong>in</strong>-Wahrsche<strong>in</strong>lichkeiten<br />

Hans und Rudolf spielen e<strong>in</strong> Spiel. In jeder Runde gew<strong>in</strong>nt Hans mit der Wahrsche<strong>in</strong>lichkeit<br />

p und Rudolf gew<strong>in</strong>nt mit der Wahrsche<strong>in</strong>lichkeit q = 1 − p. Der Gew<strong>in</strong>ner e<strong>in</strong>er<br />

Runde erhält von se<strong>in</strong>em Gegner e<strong>in</strong>en Euro. Es wird so lange gespielt bis e<strong>in</strong>er der Spieler<br />

ke<strong>in</strong> Geld mehr hat. Wie hoch ist <strong>die</strong> Ru<strong>in</strong>-Wahrsche<strong>in</strong>lichkeit P (x) von Hans, wenn Hans<br />

zu Beg<strong>in</strong>n x Euro hat und Hans und Rudolf zusammen b Euro haben?


10.3 Absorbierende Zustände 85<br />

Seien x, b ∈ N mit 0 < x < b. Weiter seien X 1 , X 2 , . . . unabhängige Zufallsvariablen mit<br />

∑<br />

P (X i = 1) = p = 1 − P (X i = −1) für alle i und es sei S 0 = x und S n = x + n X i für<br />

n ≥ 1. Damit ist S 0 , S 1 , S 2 , . . . e<strong>in</strong>e Markov-Kette und S n ist das Kapital, das Hans nach<br />

n Runden besitzt. Wir frage nach der Ru<strong>in</strong>-Wahrsche<strong>in</strong>lichkeit:<br />

P (x) = P (∃n mit S n = 0 und 0 < S i < b für i < n | S 0 = x) .<br />

i=1<br />

Abbildung 10.3: Ru<strong>in</strong>-Wahrsche<strong>in</strong>lichkeiten<br />

10.3.4 Satz<br />

Sei q = 1 − p.<br />

Für p = 1 2 gilt P (x) = 1 − x b<br />

Für p ≠ 1 2 gilt P (x) = ( q p )b − ( q p )x<br />

( q p )b − 1<br />

für 0 ≤ x ≤ b.<br />

für 0 ≤ x ≤ b.<br />

Beweis:<br />

Fall 1: Sei p = 1.<br />

2<br />

Satz 10.3.2 liefert: P (x) = 1P (x − 1) + 1 2 2<br />

P (x + 1) für 0 < x < b, P (0) = 1, P (b) = 0.<br />

Durch Lösen <strong>die</strong>ses l<strong>in</strong>earen Gleichungssystems ergibt sich: P (x) = 1 − x.<br />

b<br />

Fall 2: Sei p ≠ 1.<br />

2<br />

Satz 10.3.2 liefert: P (x) = pP (x + 1) + qP (x − 1) für 0 < x < b, P (b) = 0, P (0) = 1.<br />

Dann ist<br />

P (x) = pP (x + 1) + qP (x − 1)<br />

pP (x) + qP (x) = pP (x + 1) + qP (x − 1)<br />

P (x + 1) − P (x) = q (P (x) − P (x − 1)).<br />

p<br />

Wiederholtes Anwenden liefert<br />

P (x + 1) − P (x) = ( q p )x (P (1) − P (0)).<br />

Sei r := q . p<br />

Aufad<strong>die</strong>ren liefert P (x) − P (0) = rx −1(P (1) − P (0)).<br />

r−1<br />

Wegen P (0) = 1 gilt P (x) = 1 + rx −1(P (1) − 1).<br />

r−1<br />

Wegen P (b) = 0 gilt P (1) − 1 = − r−1 . r b −1<br />

E<strong>in</strong>setzen <strong>in</strong> <strong>die</strong> vorangegangene Gleichung liefert <strong>die</strong> Behauptung.


86 10 MARKOV-KETTEN<br />

10.4 Rekurrente und transiente Zustände<br />

10.4.1 Bezeichnungen<br />

Sei f n (x, y) := P (X n = y, X i ≠ y für 1 ≤ i < n|X 0 = x). Dann bezeichnet f n (x, y) <strong>die</strong><br />

Wahrsche<strong>in</strong>lichkeit bei Start <strong>in</strong> x nach n Schritten erstmals den Zustand y zu erreichen.<br />

f ∗ (x, y) := P (X n = y für e<strong>in</strong> n ≥ 1|X 0 = x) = ∑ n≥1<br />

f n (x, y) ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit bei<br />

Start <strong>in</strong> x irgendwann nach y zu gelangen.<br />

∑<br />

q ∗ (x, y) := ∞ q n (x, y) ist <strong>die</strong> erwartete Anzahl der Besuche <strong>in</strong> y bei Start <strong>in</strong> x, denn:<br />

n=0<br />

q ∗ (x, y) =<br />

=<br />

∞∑<br />

∞∑<br />

q n (x, y) = P (X n = y|X 0 = x)<br />

n=0<br />

n=0<br />

(<br />

∞∑<br />

∑ ∞<br />

E(1 {Xn=y}|X 0 = x) = E<br />

n=0<br />

n=0<br />

1 {Xn=y}<br />

)<br />

∣ X 0 = x .<br />

10.4.2 Def<strong>in</strong>ition (rekurrenter Zustand)<br />

x ∈ E heißt rekurrent, falls f ∗ (x, x) = 1,<br />

x ∈ E heißt transient, falls f ∗ (x, x) < 1.<br />

10.4.3 Satz<br />

1. x ∈ E ist rekurrent ⇔ q ∗ (x, x) = ∞,<br />

2. x ∈ E ist transient ⇔ q ∗ (x, x) < ∞.<br />

Beweis: Dieser folgt aus nachfolgendem Lemma.<br />

10.4.4 Lemma<br />

Es gilt<br />

a) q ∗ (x, y) = f ∗ (x, y) q ∗ (y, y) + δ(x, y),<br />

b) f ∗ (x, x) = q∗ (x,x)−1<br />

q ∗ (x,x)<br />

,<br />

c) q ∗ (x, x) =<br />

1<br />

1−f ∗ (x,x) .<br />

Beweis:<br />

Für alle x, y ∈ E gilt: q n (x, y) = n ∑<br />

T y = m<strong>in</strong>{m ≥ 1|X m = y}<br />

i=1<br />

q n (x, y) = P (X n = y|X 0 = x)<br />

f i (x, y)q n−i (y, y). Denn es gilt mit


10.4 Rekurrente und transiente Zustände 87<br />

=<br />

=<br />

=<br />

=<br />

n∑<br />

P (T y = i|X 0 = x)P (X n = y|T y = i, X 0 = x)<br />

i=1<br />

n∑<br />

f i (x, y)P (X n = y|X i = y)<br />

i=1<br />

n∑<br />

f i (x, y)P (X n−i = y|X 0 = y)<br />

i=1<br />

n∑<br />

f i (x, y)q n−i (y, y).<br />

i=1<br />

Weiter gilt nach Vertauschung der Summation<br />

q ∗ (x, y) =<br />

=<br />

=<br />

=<br />

∞∑<br />

q n (x, y) + δ(x, y)<br />

i=1<br />

∞∑<br />

n=1 i=1<br />

∞∑<br />

i=1<br />

n∑<br />

f i (x, y)q n−i (y, y) + δ(x, y)<br />

∞∑<br />

f i (x, y)q n−i (y, y) + δ(x, y)<br />

n=i<br />

∞∑<br />

f i (x, y)<br />

i=1<br />

∞∑<br />

q m (y, y) + δ(x, y)<br />

m=0<br />

= f ∗ (x, y) · q ∗ (y, y) + δ(x, y).<br />

Damit ist a) gezeigt. Für x = y folgt q ∗ (x, x) − f ∗ (x, x)q ∗ (x, x) = 1.<br />

Auflösen nach q ∗ (x, x) liefert q ∗ (x, x)(1 − f ∗ (x, x)) = 1 und damit q ∗ (x, x) =<br />

1<br />

1−f ∗ (x,x) .<br />

Auflösen nach f ∗ (x, x) liefert: f ∗ (x, x) = q∗ (x,x)−1<br />

q ∗ (x,x)<br />

.<br />

10.4.5 Beispiel auf Z (Irrfahrt auf Z )<br />

Seien Y 1 , Y 2 , . . . unabhängige Zufallsvariable mit P (Y i = 1) = p, P (Y i = −1) = q für alle<br />

i. Weiter sei X 0 = 0 und X n = Y 1 + Y 2 + · · · + Y n für n ≥ 1.<br />

Behauptung: Für p = q = 1 ist 0 rekurrent, für p ≠ q ist 0 transient.<br />

2<br />

Beweis:<br />

Wende Satz 10.4.3 an! Sei n ∈ N. Nach 2n + 1 Schritten liegt e<strong>in</strong> ungerader Zustand vor,<br />

also kann X 2n+1 nicht 0 se<strong>in</strong> und damit gilt: q 2n+1 (0, 0) = 0. Fällt <strong>in</strong> 2n Experimenten<br />

<strong>in</strong>sgesamt n-mal <strong>die</strong> 1 und n-mal <strong>die</strong> −1, so ist X 2n = 0 und es gilt: q 2n (0, 0) = ( )<br />

2n<br />

n p n q n .<br />

Für große n können wir <strong>die</strong> Stirl<strong>in</strong>g’schen Formel anwenden:<br />

q 2n (0, 0) ∼ 1 √ πn<br />

(4pq) n , da<br />

( 2n<br />

n<br />

)<br />

∼ 1 √ πn<br />

2 2n .<br />

Fall 1: p ≠ q ⇒ (4pq) < 1 ⇒ ∑ n≥1 q2n (0, 0) = ∑ √1<br />

πn<br />

(4pq) n (1 + o(1)) < ∞ ⇒ „0“ ist<br />

n≥1<br />

transient.<br />

Fall 2: p = q = 1 ⇒ (4pq) = 1<br />

2


88 10 MARKOV-KETTEN<br />

⇒ q 2n (0, 0) ∼ √ 1<br />

πn<br />

⇒ ∑ q 2n (0, 0) ∼ ∑<br />

n<br />

n<br />

√1<br />

πn<br />

= ∞ ⇒ „0“ ist rekurrent.<br />

10.4.6 Def<strong>in</strong>ition (irreduzibel)<br />

Die stochastische Matrix q heißt irreduzibel, falls für alle x, y ∈ E e<strong>in</strong> m ∈ N existiert mit<br />

q m (x, y) > 0.<br />

10.4.7 Satz<br />

Sei q irreduzibel. Dann gilt: Existiert e<strong>in</strong> z ∈ E, das rekurrent ist, so s<strong>in</strong>d alle x ∈ E<br />

rekurrent.<br />

Beweis:<br />

Sei x ∈ E beliebig. Dann existieren k, l ∈ N mit q k (x, z) > 0 und q l (z, x) > 0.<br />

Dann ist<br />

q n (x, x) ≥ q k (x, z)q m (z, z)q l (z, x),<br />

falls n = k + m + l ist. Es folgt<br />

q ∗ (x, x) = ∑ n≥0<br />

q n (x, x) = q k (x, z) ∑ m≥0<br />

q m (z, z)q l (z, x).<br />

Da <strong>die</strong> rechte Seite nach Voraussetzung gleich unendlich ist, ist auch q ∗ (x, x) = ∞ und<br />

damit f ∗ (x, x) = 1.<br />

10.5 Stationäre Verteilungen<br />

10.5.1 Def<strong>in</strong>ition (stationäre Verteilung)<br />

E<strong>in</strong>e Wahrsche<strong>in</strong>lichkeitsfunktion π auf E heißt stationär bezüglich q, falls für alle y ∈ E<br />

gilt:<br />

∑<br />

π(x)q(x, y) = π(y).<br />

x<br />

In Vektorschreibweise: π T q = π T , d. h. π ist l<strong>in</strong>ker Eigenvektor von q mit Eigenwert 1.<br />

10.5.2 Bemerkung<br />

Ist π stationär und Startverteilung von X , d.h. P (X 0 = x) = π(x), so gilt:<br />

P (X n = y) = π(y).<br />

Beweis: Es gilt<br />

P (X n = y) = ∑ x<br />

P (X n = y | X 0 = x)π(x)


10.5 Stationäre Verteilungen 89<br />

= ∑ x<br />

= ∑ x<br />

= ∑ z<br />

= ∑ z<br />

π(x)q n (x, y)<br />

π(x) ∑ q(x, z)q n−1 (z, y)<br />

z<br />

∑<br />

π(x)q(x, z)q n−1 (z, y)<br />

x<br />

q n−1 (z, y)π(z)<br />

.<br />

= π(y).<br />

10.5.3 Beispiel (Ehrenfestsches Urnenmodell)<br />

Behauptung:<br />

π(i) = ( N<br />

i<br />

)<br />

2 −N ist stationäre Verteilung des Ehrenfestschen Urnenmodells.<br />

Beweis:<br />

Zu zeigen: ∑ i<br />

∑<br />

π(i)q(i, j)<br />

i<br />

= ∑ i<br />

π(i)q(i, j) = π(j).<br />

( N<br />

i<br />

)<br />

2 −N q(i, j)<br />

=<br />

( )<br />

( )<br />

N −N N − (j − 1) N<br />

2 + 2 −N j + 1<br />

j − 1 N j + 1 N<br />

[<br />

N!<br />

=<br />

(j − 1)!(N − (j − 1))!<br />

[<br />

=<br />

(N − 1)!<br />

(j − 1)!(N − j)!<br />

N − (j − 1)<br />

N<br />

j<br />

j + (N − 1)!<br />

j!(N − j − 1)!<br />

+<br />

N!<br />

(j + 1)!(N − (j + 1))!<br />

]<br />

N − j<br />

2 −N<br />

N − j<br />

]<br />

j + 1<br />

2 −N<br />

N<br />

=<br />

=<br />

(N − 1)!j + (N − 1)!(N − j)<br />

2 −N<br />

j!(N − j)!<br />

( N<br />

j<br />

)<br />

2 −N = π(j).<br />

Es gibt noch e<strong>in</strong>en e<strong>in</strong>facheren Weg <strong>die</strong> Stationarität von π zu zeigen. Man verwendet<br />

dazu das folgende Lemma.


90 10 MARKOV-KETTEN<br />

10.5.4 Lemma<br />

Gilt für alle x, y ∈ E π(x)q(x, y) = π(y)q(y, x), so ist π stationär.<br />

Beweis:<br />

∑<br />

π(x)q(x, y) = ∑ π(y)q(y, x)<br />

x<br />

x<br />

= π(y) ∑ q(y, x)<br />

x<br />

= π(y).<br />

Bemerkung:<br />

Gleichung ( N<br />

i<br />

) N−i<br />

N<br />

Für das Ehrenfestsche Urnenmodell lautet <strong>die</strong> <strong>in</strong> 10.5.4 vorausgesetzte<br />

= ( )<br />

N i+1<br />

. Es ist offensichtlich, daß <strong>die</strong>se gilt.<br />

i+1 N<br />

Der folgende Satz liefert <strong>die</strong> Existenz e<strong>in</strong>er stationären Verteilung.<br />

10.5.5 Satz<br />

Sei q irreduzibel. Dann s<strong>in</strong>d folgende Aussagen äquivalent:<br />

a) Es existiert e<strong>in</strong> z ∈ E mit E(T z |X 0 = z) < ∞,<br />

b) Für alle x, y ∈ E gilt E(T y |X 0 = x) < ∞,<br />

c) Es existiert e<strong>in</strong>e stationäre Wahrsche<strong>in</strong>lichkeitsfunktion π bezüglich q.<br />

Bemerkung: Bed<strong>in</strong>gung (a) ist stärker als Rekurrenz, denn es gibt Markov-Ketten mit<br />

e<strong>in</strong>em rekurrenten Zustand x für den E(T x |X 0 = x) = ∞ gilt. Siehe z.B. <strong>die</strong> Irrfahrt von<br />

oben.<br />

Beweisskizze: Zeige (a) ⇒ (c) Setze: P z (·) = P (·|X 0 = z). Dann ist P z das Wahrsche<strong>in</strong>lichkeitsmaß<br />

bei Start <strong>in</strong> z.<br />

∑<br />

Sei H(x) := ∞ P z (X n = x, T z ≥ n). Dann gilt H(z) = 1 und weiter<br />

n=1<br />

∑<br />

H(x) =<br />

x∈E<br />

=<br />

∞∑ ∑<br />

P z (X n = x, T z ≥ n)<br />

n=1 x∈E<br />

∞∑<br />

P z (T z ≥ n) = E z T z .<br />

n=1<br />

Wir behaupten (+): H(y) = ∑ x∈E<br />

H(x)q(x, y).<br />

Setzt man nun π(x) = H(x)<br />

E zT z<br />

, so ist π(y) = ∑ x<br />

stationäre Verteilung.<br />

Zeige Behauptung (+):<br />

π(x)q(x, y) und ∑ y<br />

π(y) = 1, d.h. π ist


10.6 Konvergenz gegen <strong>die</strong> stationäre Verteilung 91<br />

∞∑<br />

H(y) = P z (X n = y, T z ≥ n)<br />

n=1<br />

= P z (X 1 = y) + ∑ n≥2<br />

P z (X n = y, X j ≠ z für 1 ≤ j ≤ n − 1)<br />

= q(z, y) + ∑ n≥2<br />

= q(z, y) + ∑<br />

= q(z, y) + ∑<br />

= q(z, y) + ∑<br />

= q(z, y) + ∑<br />

∑<br />

P z (X n−1 = x, X n = y, X j ≠ z für 1 ≤ j ≤ n − 1)<br />

x∈E\{z}<br />

x∈E\{z} n≥2<br />

x∈E\{z} n≥2<br />

x∈E\{z} l≥1<br />

x∈E\{z}<br />

= ∑ H(x)q(x, y).<br />

x<br />

∑<br />

P z (X n−1 = x, X n = y, X j ≠ z für 1 ≤ j ≤ n − 1)<br />

∑<br />

P z (X n−1 = x, X j ≠ z für 1 ≤ j ≤ n − 1) · P (X n = y|X n−1 = x)<br />

∑<br />

P z (X l = x, X j ≠ z für 1 ≤ j ≤ l) · P (X n = y|X n−1 = x)<br />

H(x)q(x, y)<br />

10.5.6 Korollar<br />

Es gilt<br />

und <strong>in</strong>sbesondere<br />

wobei<br />

H(x) =<br />

π(x) = H(x)<br />

E z T z<br />

π(z) = 1<br />

E z T z<br />

,<br />

∞∑<br />

P z (X n = x, T z ≥ n) ist für z ∈ E.<br />

n=1<br />

Bemerkung: Beim Ehrenfestschen Urnenmodell sei σ(i) = m<strong>in</strong>{n > 0 | X n = i}. Dann<br />

ist nach dem Korollar: E 0 σ(0) = 2 2k und E k σ(k) = ( )<br />

2k −1<br />

k 2 2k , wobei k = N/2 ist. Setzt<br />

man N = 6 · 10 23 und ist e<strong>in</strong> Zeitschritt 1 Sekunde lang, so ist E k σ(k) ∼ = 10 12 Sekunden,<br />

aber E 0 σ(0) ∼ = 10 1,8·1023 Sekunden.<br />

10.6 Konvergenz gegen <strong>die</strong> stationäre Verteilung<br />

10.6.1 Def<strong>in</strong>ition (Periode, aperiodisch)<br />

Sei q e<strong>in</strong>e irreduzible stochastische Matrix. Weiter sei N(x, y) := {n ∈ N|q n (x, y) > 0}.<br />

Wir def<strong>in</strong>ieren <strong>die</strong> Periode von x ∈ E durch d(x) := ggT (N(x, x)), wobei ggT (B) :=<br />

sup{k ∈ N|B ⊂ k · N} der größte geme<strong>in</strong>same Teiler der Menge B ist. q heißt aperiodisch,<br />

falls d(x) = 1 ist für alle x ∈ E. q hat Periode k, falls d(x) = k ist für alle x ∈ E.


92 10 MARKOV-KETTEN<br />

10.6.2 Beispiel<br />

Für <strong>die</strong> stochastische Matrix beim Ehrenfestschen Urnenmodell gilt d = 2.<br />

10.6.3 Satz<br />

Sei q irreduzibel und aperiodisch mit stationärer Verteilung π. Dann gilt für alle x ∈ E<br />

∑<br />

lim |q n (x, y) − π(x)| = 0.<br />

n→∞<br />

y∈E<br />

Sei q irreduzibel mit Periode k und mit stationärer Verteilung π, so gilt<br />

∑<br />

lim ∣ q nk (x, y) − π(x) ∣ = 0.<br />

n→∞<br />

y∈E<br />

Beweis: Zum Beweis siehe Dümbgen, S. 129.<br />

10.6.4 Satz<br />

Sei<br />

∑<br />

q irreduzibel und aperiodisch mit stationärer Verteilung π. Sei f : E → R, so daß<br />

|f(x)|π(x) < ∞ ist. Dann gilt für jede Startverteilung µ mit P µ -Wahrsche<strong>in</strong>lichkeit 1:<br />

x∈E<br />

lim<br />

N→∞<br />

1<br />

N<br />

N∑<br />

f(x k ) = ∑ f(x)π(x).<br />

x∈E<br />

k=1<br />

Bemerkung: Dies ist e<strong>in</strong> grundlegender Satz für Markov-Ketten, der dem Gesetz der<br />

Großen Zahlen für unabhängige Beobachtungen entspricht. Es ist e<strong>in</strong> Basisresultat für <strong>die</strong><br />

Simulation bei Markov-Ketten, der sogenannten MCMC-Methode.<br />

10.6.5 Bemerkungen zum Ehrenfestschen Urnenmodell<br />

Dieses Modell wurde entwickelt, um e<strong>in</strong>e Streitfrage <strong>in</strong> der statistischen Physik zu klären.<br />

Boltzmann behauptete, e<strong>in</strong> großes Teilchensystem ten<strong>die</strong>re sehr schnell zu se<strong>in</strong>em<br />

Gleichgewicht, Zermelo entgegnete, auch dann müßten aus physikalischen Gründen sehr<br />

unwahrsche<strong>in</strong>liche Zustände angenommen werden können. Dies erschien paradox. Das<br />

Ehrenfestsche Modell gestattet <strong>die</strong> Details zu berechnen.<br />

Sei N = 2k. Sei τ(k) = <strong>in</strong>f{n ≥ 0 | X n = k}. Dann gilt:<br />

a) E 0 (τ(k)) = k ln k + k + O(1)<br />

b) E k (τ(0)) = 1<br />

2k 22k (1 + o( 1 )) für k → ∞.<br />

k


93<br />

11 Wahrsche<strong>in</strong>lichkeitsmaße mit Dichten<br />

11.1 Wahrsche<strong>in</strong>lichkeits-Dichte, Verteilungsfunktion, σ-Algebren<br />

11.1.1 Def<strong>in</strong>ition (Wahrsche<strong>in</strong>lichkeits-Dichte)<br />

∞∫<br />

E<strong>in</strong>e Funktion f : R → [0, ∞) mit f(x)dx = 1 heißt Wahrsche<strong>in</strong>lichkeits-Dichte auf R.<br />

−∞<br />

11.1.2 Beispiele<br />

a) Exponentialverteilung mit Parameter { λ > 0:<br />

f λ (x) = λ · e −λx 1 falls x ∈ A<br />

· 1 [0,∞) (x), 1 A (x) =<br />

0 falls x /∈ A ,<br />

b) Gleichverteilung auf [a, b]: f(x) = 1<br />

b−a · 1 [a,b](x),<br />

c) Normalverteilung N(µ, σ 2 ): f(x) = 1 √<br />

2πσ 2 e−(x−µ)2 /2σ 2 ,<br />

d) Gamma-Verteilung G(α, β): f(x) = βα<br />

Γ(α) xα−1 e −βx 1 [0,∞) (x).<br />

11.1.3 Def<strong>in</strong>ition (Verteilungsfunktion)<br />

x∫<br />

Sei f e<strong>in</strong>e Wahrsche<strong>in</strong>lichkeits-Dichte auf R und F (x) := f(x)dy.<br />

Dann heißt F Verteilungsfunktion zur Dichte f.<br />

−∞<br />

Eigenschaften von F<br />

1) F (−∞) = 0, F (∞) = 1,<br />

2) F ist monoton wachsend, d.h. x ≤ y ⇒ F (x) ≤ F (y),<br />

3) F ist stetig.<br />

11.1.4 Beispiele<br />

1) F (x) = (1 − e −λx ) =<br />

2) F (x) =<br />

3) F (x) =<br />

x∫<br />

−∞<br />

x∫<br />

0<br />

√1<br />

2π<br />

e −y2 /2 = Φ(x),<br />

x∫<br />

λe −λy dy für x ≥ 0,<br />

0<br />

β α<br />

Γ(α) yα−1 e −βy dy für x ≥ 0.


94 11 WAHRSCHEINLICHKEITSMAßE MIT DICHTEN<br />

Bemerkung: f legt F fest (Integrieren von −∞ bis x), F legt f fest (Differenzieren nach<br />

der oberen Grenze). F und f stehen also <strong>in</strong> e<strong>in</strong>e<strong>in</strong>deutiger Beziehung zue<strong>in</strong>ander. Zu f und<br />

F gehört genau e<strong>in</strong> Wahrsche<strong>in</strong>lichkeitsmaß Q : B → [0, 1]. (Dabei ist B <strong>die</strong> σ-Algebra<br />

der Borelschen Mengen. Die Def<strong>in</strong>ition folgt weiter unten.) Dies kann auf verschiedene<br />

Weisen angegeben werden:<br />

x∫<br />

1) Q((−∞, x]) = f(y)dy = F (x),<br />

2) Q(A) =<br />

∞∫<br />

−∞<br />

−∞<br />

Eigenschaften von Q<br />

1 A (x)f(x)dx, falls A Borelmenge ist.<br />

Für A i disjunkt gilt: Q ist σ-additiv, denn<br />

( ∞<br />

)<br />

⋃<br />

∫<br />

Q A i =<br />

i=1<br />

∫<br />

=<br />

=<br />

=<br />

1 ∞S<br />

i=1<br />

∑ ∞<br />

i=1<br />

∞∑<br />

∫<br />

i=1<br />

∞∑<br />

Q(A i ).<br />

i=1<br />

A i<br />

(x)f(x)dy<br />

1 Ai (x)f(x)dx<br />

1 Ai (x)f(x)dx<br />

Nun zum Def<strong>in</strong>itionsbereich von Wahrsche<strong>in</strong>lichkeitsmaßen. Potenzmengen s<strong>in</strong>d im Allgeme<strong>in</strong>en<br />

zu groß. Die passenden Mengensysteme s<strong>in</strong>d σ-Algebren.<br />

11.1.5 Def<strong>in</strong>ition (σ-Algebra)<br />

E<strong>in</strong> System A von Teilmengen von Ω heißt σ-Algebra, falls gilt:<br />

a) Ω ∈ A,<br />

b) A ∈ A ⇒ A C ∈ A,<br />

⋃<br />

c) A i ∈ A für i = 1, 2, 3, . . . ⇒ ∞ A i ∈ A.<br />

11.1.6 Folgerungen<br />

Es gilt<br />

1) ∅ ∈ A,<br />

i=1<br />

⋂<br />

2) A i ∈ A für i = 1, 2, 3, . . . ⇒ ∞ A i ∈ A.<br />

i=1<br />

Demnach ist e<strong>in</strong>e σ-Algebra e<strong>in</strong> Mengensystem, das unter abzählbaren Durchschnitten,<br />

abzählbaren Vere<strong>in</strong>igungen und der Komplementbildung abgeschlossen ist.


11.2 Wahrsche<strong>in</strong>lichkeitsmaße und Zufallsvariablen auf R k 95<br />

11.1.7 Beispiele<br />

1) P(Ω) ist σ-Algebra.<br />

2) Sei I ≠ ∅ und für jedes i ∈ I sei A i e<strong>in</strong>e σ-Algebra.<br />

Dann ist A = ⋂ i∈I<br />

A i e<strong>in</strong>e σ-Algebra.<br />

3) Sei S ⊂ P (Ω). Dann existiert σ(S) :=<br />

Dies ist <strong>die</strong> von S erzeugte σ-Algebra.<br />

⋂<br />

A ist σ-Algebra,<br />

S⊂A<br />

A.<br />

Die Beweise für <strong>die</strong> Folgerungen und <strong>die</strong> Beispiele s<strong>in</strong>d <strong>in</strong> e<strong>in</strong>em Buch über Maßtheorie<br />

(z.B. Elstrodt) nachzulesen.<br />

11.1.8 Beispiel und Def<strong>in</strong>ition (Borelsche σ-Algebra)<br />

Sei S = {[a, b)|a, b ∈ R k }.<br />

Dann heißt B k := σ(S) <strong>die</strong> Borelsche σ-Algebra auf R k . Wir schreiben B für B 1 .<br />

A ∈ B heißt Borelsche Menge oder kurz borelsch.<br />

11.2 Wahrsche<strong>in</strong>lichkeitsmaße und Zufallsvariablen auf R k<br />

11.2.1 Def<strong>in</strong>ition (Wahrsche<strong>in</strong>lichkeitsdichte / Wahrsche<strong>in</strong>lichkeitsmaß auf<br />

R k )<br />

E<strong>in</strong>e Funktion f : R k → [0, ∞) mit ∫ R k f(x)dx = 1 heißt Wahrsche<strong>in</strong>lichkeitsdichte auf R k .<br />

Das zugehörige Wahrsche<strong>in</strong>lichkeitsmaß Q ist erklärt als Q(A) = ∫ R k 1 A (x)f(x)dx,<br />

A ∈<br />

B k .<br />

11.2.2 Def<strong>in</strong>ition (Wahrsche<strong>in</strong>lichkeitsraum)<br />

E<strong>in</strong> Wahrsche<strong>in</strong>lichkeitsraum ist e<strong>in</strong> Tripel (Ω, A, P ), bestehend aus e<strong>in</strong>er nicht leeren<br />

Menge Ω, e<strong>in</strong>er σ-Algebra A und e<strong>in</strong>em Wahrsche<strong>in</strong>lichkeitsmaß P auf (Ω, A).<br />

Dabei heißt P Wahrsche<strong>in</strong>lichkeitsmaß auf (Ω, A), falls P : A → [0, 1] mit P σ-additiv<br />

und P (Ω) = 1 ist.<br />

P heißt σ-additiv auf A, falls P ( ⋃ ∞<br />

i=1 A ∑<br />

i) = ∞ P (A i ) für A i ∈ A, i = 1, 2, ..., mit A i<br />

paarweise disjunkt.<br />

i=1<br />

11.2.3 Def<strong>in</strong>ition (Zufallsvariable)<br />

(Ω, A, P ) sei e<strong>in</strong> Wahrsche<strong>in</strong>lichkeitsraum.<br />

E<strong>in</strong>e Funktion X : Ω → R heißt Zufallsvariable, falls X −1 (B) ∈ A für alle B ∈ B ist.


96 11 WAHRSCHEINLICHKEITSMAßE MIT DICHTEN<br />

Bemerkung zum S<strong>in</strong>n <strong>die</strong>ser Def<strong>in</strong>ition<br />

1) Man will P ({ω|X(ω) ∈ B}) = P ({X ∈ B}) = P (X −1 (B)) wohldef<strong>in</strong>iert haben für<br />

alle B ∈ B.<br />

2) Damit X Zufallsvariable ist genügt es für alle α ∈ R zu fordern: {X ≤ α} =<br />

X −1 ((−∞, α]) ∈ A.<br />

11.2.4 Def<strong>in</strong>ition (Wahrsche<strong>in</strong>lichkeitsverteilung e<strong>in</strong>er Zufallsvariable)<br />

Sei X e<strong>in</strong>e Zufallsvariable. Die Verteilung von X ist def<strong>in</strong>iert durch Q(B) := P (X −1 (B))<br />

für alle B ∈ B. Damit ist Q e<strong>in</strong> Wahrsche<strong>in</strong>lichkeitsmaß auf (R, B).<br />

Bemerkung: Zur Dichte f existiert stets e<strong>in</strong>e Zufallsvariable X so, dass <strong>die</strong> Verteilung<br />

von X <strong>die</strong> Dichte f hat. Wähle X(z) = z für z ∈ R.<br />

11.3 Erwartungswert und Varianz<br />

11.3.1 Def<strong>in</strong>ition (Erwartungswert)<br />

Sei X Zufallsvariable und sei f Wahrsche<strong>in</strong>lichkeits-Dichte und g : R → R messbar (d.h.<br />

g −1 (B) ∈ B für B ∈ B). Dann heißt<br />

∫<br />

Eg(X) := g(x)f(x)dx<br />

der Erwartungswert von g(X).<br />

Bemerkung: Der Erwartungswert e<strong>in</strong>er Zufallsvariable X mit Dichte f ist<br />

R<br />

E(X) =<br />

∫ ∞<br />

−∞<br />

xf(x)dx und E(X p ) =<br />

∫ ∞<br />

−∞<br />

x p f(x)dx<br />

ist das p-te Moment. Diese Erwartungswerte existieren genau dann, wenn <strong>die</strong> uneigentlichen<br />

Integrale existieren. Existiert E(X 2 ), so gilt:<br />

Var(X) =<br />

∫ ∞<br />

(x − E(X)) 2 f(x)dx = E((X − E(X)) 2 ) = E(X 2 ) − (EX) 2 .<br />

−∞<br />

Im Übrigen gelten <strong>die</strong> gleichen Gesetze wie im diskreten Fall.<br />

11.3.2 Beispiele<br />

Ist X normalverteilt nach N(µ, σ 2 ), d.h. F X (α) = P (X ≤ α) =<br />

so gilt E(X) = µ und Var(X) = σ 2 , denn<br />

α∫<br />

−∞<br />

√ 1<br />

/2σ 2<br />

2πσ<br />

dx,<br />

2 e−(x−µ)2


11.4 Unabhängigkeit von Zufallsvariablen 97<br />

a) E(X) =<br />

∫ ∞<br />

1<br />

/2σ<br />

x√ 2 2πσ<br />

2 e−(x−µ)2 dx<br />

=<br />

−∞<br />

∫ ∞<br />

1<br />

/2σ<br />

(x − µ) √ 2 2πσ<br />

2 e−(x−µ)2 dx + µ<br />

=<br />

−∞<br />

∫ ∞<br />

1 /2σ<br />

y √ 2 2πσ<br />

2 e−y2 dy + µ,<br />

wenn y = x − µ gesetzt wird,<br />

−∞<br />

= µ.<br />

Das Integral ist Null, da über e<strong>in</strong>e antisymmetrische Funktion <strong>in</strong>tegriert wird.<br />

b) Var(X) =<br />

∫ ∞<br />

(x − µ) 2 1<br />

√<br />

2πσ<br />

2 e−(x−µ)2 /2σ 2 dx<br />

−∞<br />

∫∞<br />

= σ 2 z 2 1<br />

√ e −z2 /2 dz, wenn z = x − µ<br />

2π σ<br />

−∞<br />

⎡<br />

⎤<br />

= σ 2 ⎣√ −z<br />

∞<br />

∫ ∞<br />

e −z2 /2<br />

+ e −z2 /2<br />

√ dz ⎦<br />

2π ∣<br />

2π<br />

= σ 2 .<br />

−∞<br />

−∞<br />

Hier wurde partielle Integration angewandt.<br />

gesetzt wird,<br />

11.3.3 Weiteres Beispiel<br />

Was ist <strong>die</strong> Dichte von X 2 , wenn X nach N(0, 1) verteilt ist? Es gilt<br />

P (X 2 < β) = P (|X| < √ β) =<br />

√ β ∫<br />

1<br />

√ e −z2 /2 dz = √ 1<br />

2π 2π<br />

∫β<br />

y − 1 2 e −y/2 dy.<br />

− √ β<br />

0<br />

Hierbei wurde z 2 = y gesetzt.<br />

11.4 Unabhängigkeit von Zufallsvariablen<br />

11.4.1 Def<strong>in</strong>ition (Unabhängigkeit von Zufallsvariablen)<br />

Die Zufallsvariablen X 1 , ..., X k heißen unabhängig, falls gilt:<br />

für α i ∈ R, i = 1, ..., k.<br />

P (X 1 ≤ α 1 , X 2 ≤ α 2 , ..., X k ≤ α k ) =<br />

k∏<br />

P (X i ≤ α i )<br />

i=1


98 11 WAHRSCHEINLICHKEITSMAßE MIT DICHTEN<br />

11.4.2 Folgerung<br />

S<strong>in</strong>d X 1 , ..., X k unabhängig und hat <strong>die</strong> Verteilung von X i <strong>die</strong> Dichte f i , so hat <strong>die</strong> geme<strong>in</strong>same<br />

Verteilung von (X 1 , . . . , X k ) <strong>die</strong> Wahrsche<strong>in</strong>lichkeitsdichte f = k f i<br />

∏<br />

.<br />

Beweis:<br />

Es gilt<br />

P (X 1 ≤ α 1 , X 2 ≤ α 2 , ..., X k ≤ α k ) =<br />

=<br />

=<br />

=<br />

k∏<br />

P (X i ≤ α i )<br />

i=1<br />

∫ α i<br />

k∏<br />

i=1<br />

−∞<br />

∫ α 1 ∫ α k<br />

−∞<br />

∫ α 1<br />

...<br />

...<br />

f i (x i )dx i<br />

−∞<br />

i=1<br />

∫ α k<br />

i=1<br />

k∏<br />

f i (x i )dx 1 . . . dx n<br />

f(x)dx.<br />

−∞<br />

−∞<br />

11.4.3 Folgerung<br />

S<strong>in</strong>d X und Y unabhängig mit Dichten f und g. Dann hat <strong>die</strong> Verteilung von Z = X + Y<br />

∞∫<br />

<strong>die</strong> Dichte (f ∗ g)(t) := f(t − s)g(s)ds. f ∗ g heißt Faltung von f und g.<br />

Beweis:<br />

Es gilt<br />

−∞<br />

P (Z ≤ α) = P (X + Y ≤ α)<br />

∫<br />

=<br />

f(x)g(y)dxdy<br />

=<br />

=<br />

{(x,y)|x+y≤α}<br />

∫<br />

{(x,y)|t≤α}<br />

∫ α ∫ ∞<br />

(<br />

f(t − s)g(s)dsdt<br />

f(t − s)g(s)ds)dt<br />

−∞<br />

−∞<br />

∞∫<br />

mit t = x + y und s = y. Damit ist f(t − s)g(s)ds <strong>die</strong> Dichte von Z = X + Y .<br />

−∞


11.4 Unabhängigkeit von Zufallsvariablen 99<br />

11.4.4 Beispiel<br />

Die Exponentialverteilung hat <strong>die</strong> Dichte f(x) = λe −λx 1 [0,∞) (x).<br />

Für n ≥ 1 gilt: (f ∗ ) n (z) = λn z n−1<br />

(n−1)! e−λz 1 [0.∞) (z).<br />

Dabei ist (f ∗ ) n := f ∗ f ∗ f ∗ f ∗ ... ∗ f das n-fache Faltungsprodukt.<br />

Beweis durch Induktion:<br />

Induktionsanfang: Richtig für n = 1.<br />

Induktionsvorraussetzung: (f ∗ ) n (z) = λn z n−1<br />

(n−1)! e−λz 1 [0,∞) (z).<br />

Induktionsschritt: (n → n + 1)<br />

(f ∗ ) n+1 (z) = f ∗ (f ∗ ) n (z)<br />

=<br />

=<br />

∫ ∞<br />

−∞<br />

∫ ∞<br />

−∞<br />

f(z − x)(f ∗ ) n (x)dx<br />

λe −λ(z−x) 1 [0,∞) (z − x) λn x n−1<br />

−∞<br />

(n − 1)! e−λx 1 [0,∞) (x)dx<br />

∫∞<br />

= λ n+1 e −λz x n−1<br />

(n − 1)! 1 (−∞,z](x)1 [0,∞) (x)dx<br />

∫z<br />

= λ n+1 e −λz<br />

n+1 zn<br />

= λ<br />

n! e−λz 1 [0,∞) (z).<br />

0<br />

x n−1<br />

dx für z ≥ 0 und = 0 für z < 0<br />

(n − 1)!<br />

Bemerkung: Die Gammaverteilung G(α, β) mit den Parametern(α, β) hat <strong>die</strong> Dichte<br />

f(x) = βα<br />

Γ(α) xα−1 e −βx 1 [0,∞) (x). Folglich ist (f ∗ ) n <strong>die</strong> Dichte e<strong>in</strong>er G(n, λ)-Verteilung.<br />

11.4.5 Beispiel: Herleitung des Poisson-Prozesses über exponential verteilte<br />

Zufallsvariablen<br />

X i sei exponentialverteilt mit Parameter λ. X i sei <strong>die</strong> Wartezeit zwischen dem (i − 1)-<br />

∑<br />

ten und dem i-ten Anruf. S n = n X i sei <strong>die</strong> Gesamtwartezeit bis zum n-ten Anruf, mit<br />

i=1<br />

S 0 = 0. Die Anzahl der Anrufe bis zur Zeit t ist N t = max{k ≥ 0|S k ≤ t}. Was ist <strong>die</strong><br />

Verteilung von N t ? Es gilt<br />

P (N t = n) = P (S n ≤ t, S n+1 > t)<br />

= P (S n+1 > t) − P (S n > t)<br />

=<br />

∫ ∞<br />

t<br />

n+1 sn<br />

λ<br />

n! e−λs ds −<br />

∣<br />

= −λ n sn ∣∣<br />

∞<br />

n! e−λs t<br />

∫ ∞<br />

t<br />

λ n<br />

s n−1<br />

(n − 1)! e−λs ds


100 11 WAHRSCHEINLICHKEITSMAßE MIT DICHTEN<br />

Folglich ist P (N t = n) = (λt)n<br />

n!<br />

e −λt .<br />

= (λt)n e −λt .<br />

n!<br />

11.5 Momenterzeugende Funktionen<br />

In Analogie zu Kapitel 9 def<strong>in</strong>iert man für Verteilungen mit Dichten <strong>die</strong> sogenannte momenterzeugenden<br />

Funktionen (MEF). Ist X Zufallsvariable mit Dichte f, so ist M X (t) =<br />

Ee tX = ∫ e tx f(x)dx <strong>die</strong> MEF der Verteilung von X.<br />

Für <strong>die</strong> MEFs gelten entsprechende Ausssagen wie für <strong>die</strong> erzeugende Funktionen von<br />

Kaptitel 9:<br />

a) E<strong>in</strong>deutigkeit,<br />

b) Faltungseigenschaft (M X+Y (t) = M X (t)M Y (t)) bei Unabhängigkeit,<br />

c) Berechnung von Momenten.<br />

11.5.1 Beispiel: Die MEF von N(µ, σ 2 )<br />

Es gilt<br />

M(t) =<br />

1<br />

√<br />

2πσ<br />

2<br />

∫ ∞<br />

−∞<br />

e tx e −(x−µ)2 /2σ 2 dx = e tµ+ 1 2 σ2 t 2· 1<br />

√<br />

2πσ<br />

2<br />

∫ ∞<br />

−∞<br />

e −(x−(µ+σ2 t)) 2 /2σ 2 dx = e tµ+ 1 2 σ2 t 2 .<br />

11.5.2 Beispiel zur Faltung<br />

Sei X nach N(µ 1 , σ 2 1) und Y nach N(µ 2 , σ 2 2) verteilt. Außerdem seien X und Y unabhängig.<br />

Dann gilt für <strong>die</strong> MEF von X + Y :<br />

M X+Y (t) = Ee tX Ee tY = e tµ 1+ 1 2 σ2 1 t2 e tµ 2+ 1 2 σ2 2 t2 = e t(µ 1+µ 2 )+ 1 2 (σ2 1 +σ2 2 )t2 .<br />

Dies ist <strong>die</strong> MEF von N(µ 1 +µ 2 , σ 2 1 +σ 2 2), d.h. X +Y ist nach N(µ 1 +µ 2 , σ 2 1 +σ 2 2) verteilt.<br />

11.5.3 Die MEF der Gammaverteilung<br />

Es gilt Γ(α) =<br />

∞∫<br />

0<br />

x α−1 e −x dx und damit<br />

M(t) =<br />

βα<br />

Γ(α)<br />

= βα<br />

Γ(α)<br />

∫ ∞<br />

0<br />

∫ ∞<br />

0<br />

e tx x α−1 e −βx dx<br />

e −(β−t)x x α−1 dx


11.6 χ 2 k-Verteilung 101<br />

=<br />

β α<br />

(β − t) α<br />

= (1 − t β )−α .<br />

Weiterh<strong>in</strong> gilt E(X) = M ′ (0) = α β , Var(X) = M ′′ (0) − [M ′ (0)] 2 = α β 2 .<br />

11.6 χ 2 k -Verteilung<br />

11.6.1 Def<strong>in</strong>ition (χ 2 k -verteilt)<br />

Seien Y 1 , ..., Y k unabhängige Zufallsvariablen und alle nach N(0, 1)-verteilt. Dann ist V :=<br />

Y1 2 + Y2 2 + ... + Yk<br />

2 nach χ2 k-verteilt, d.h. Chiquadrat-verteilt mit k Freiheitsgraden.<br />

Berechnung der Dichte von V<br />

( k<br />

)<br />

∑<br />

Was ist P Yi<br />

2 ≤ β ?<br />

i=1<br />

α∫<br />

1<br />

Es gilt: P (Y i ≤ α) = √<br />

2π<br />

e − x2 i<br />

2 dx i .<br />

−∞<br />

∑<br />

Wir def<strong>in</strong>ieren K(β) := {(y 1 , ..., y k )| k yi 2 ≤ β}. Damit ist:<br />

(*) wegen Unabhängigkeit,<br />

∑<br />

(**) setze r 2 = k yi 2 ,<br />

i=1<br />

P ((Y 1 , ..., Y k ) ∈ K(β)) (∗)<br />

=<br />

i=1<br />

=<br />

∫<br />

K(β)<br />

1<br />

(2π) k 2<br />

(∗∗)<br />

= B 1 ·<br />

(***) z = r 2 ⇒ dz = 2rdr. Dabei ist B 2 = 2− k 2<br />

∫<br />

Zusammenfassend: P (V ≤ β) = 2− k β<br />

2<br />

Γ( k) 2<br />

0<br />

k∏<br />

i=1<br />

∫<br />

S k−1<br />

( 1<br />

√<br />

2π · e − y2 i<br />

2<br />

)<br />

dy 1 ...dy k<br />

∫<br />

K(β)<br />

e − kP 1<br />

2<br />

i=1<br />

√ β<br />

∫<br />

dσ<br />

∫β<br />

(∗∗∗)<br />

= B 2 e − z k<br />

2 z 2 −1 dz.<br />

0<br />

Γ( k 2 ).<br />

e − z 2 z<br />

k<br />

2 −1 dz.<br />

0<br />

yi<br />

2 dy 1 ...dy k<br />

e − r2 2 r k−1 dr<br />

Dies ist <strong>die</strong> Verteilungsfunktion e<strong>in</strong>er χ 2 k -Verteilung. Insbesondere ist <strong>die</strong>se e<strong>in</strong>e G( k 2 , 1 2 )-<br />

Verteilung. Ihre MEF ist daher M(t) = (1 − 2t) −k/2 .


102 11 WAHRSCHEINLICHKEITSMAßE MIT DICHTEN<br />

11.6.2 Empirischer Mittelwert und empirische Varianzen bei der Normalverteilung<br />

Seien X 1 , ..., X n unabhängig nach N(µ, σ 2 ) verteilt und T n := 1 n<br />

n∑<br />

(X i − µ) 2 .<br />

Dann ist ET n =<br />

(<br />

σ 2 und n T<br />

σ 2 n ist<br />

)<br />

χ 2 n-verteilt.<br />

n∑<br />

n∑<br />

1<br />

Denn: ET n = E (X<br />

n i − µ) 2 = 1 E((X<br />

n<br />

i − µ) 2 ) = 1 nVar(X n 1) = σ 2<br />

i=1<br />

i=1<br />

n∑<br />

∑<br />

und n T<br />

σ 2 n = 1 (X<br />

σ 2 i − µ) 2 = n ( X i−µ<br />

) 2 .<br />

σ<br />

Seien X n = 1 n<br />

i=1<br />

n∑<br />

i=1<br />

Denn: EX n = E<br />

(<br />

und ESn 2 = E<br />

n∑<br />

= 1 (σ 2 − 2 n−1<br />

n<br />

i=1<br />

i=1<br />

X i und S 2 n = 1<br />

n−1<br />

(<br />

1<br />

n<br />

1<br />

n−1<br />

n∑<br />

j=1<br />

i=1<br />

n∑<br />

(X i − X n ) 2 . Dann gilt: EX n = µ und ESn 2 = σ 2 .<br />

i=1<br />

)<br />

n∑<br />

n∑<br />

X i = 1 E(X<br />

n<br />

i ) = 1 nE(X n 1) = µ<br />

i=1<br />

i=1 )<br />

n∑<br />

n∑<br />

(X i − X n ) 2 = 1 E[((X i − µ) − (X n − µ)) 2 ]<br />

i=1<br />

n−1<br />

i=1<br />

E[(X i − µ)(X j − µ)] + σ2 ) = 1 n−1<br />

nσ2 = n n−1 n σ2 .<br />

11.6.3 Wie ist S 2 n = 1<br />

n−1<br />

n∑<br />

(X i − X n ) 2 verteilt?<br />

i=1<br />

Um <strong>die</strong> Verteilung von S 2 n zu berechnen brauchen wir folgende Lemmata:<br />

Lemma 1<br />

Die Zufallsvariable X n ist unabhängig von (X 1 − X n , ..., X n − X n ).<br />

Lemma 2<br />

X n und S 2 n s<strong>in</strong>d unabhängig.<br />

Beweis:<br />

S 2 n ist e<strong>in</strong>e Funktion von (X 1 − X n , ..., X n − X n ) und folglich unabhängig von X n .<br />

Lemma 3<br />

n<br />

(X<br />

σ 2 n − µ) 2 ist χ 2 1-verteilt.


11.7 t n -Verteilung 103<br />

11.6.4 Satz<br />

n−1<br />

σ 2 S 2 n = 1<br />

σ 2<br />

n∑<br />

(X i − X n ) 2 ist χ 2 n−1-verteilt.<br />

i=1<br />

Beweis:<br />

Nach Bemerkung (11.6.2) gilt: W := 1<br />

σ 2<br />

W = 1 σ 2<br />

n∑<br />

(X i − µ) 2 = n T<br />

σ 2 n ist χ 2 n-verteilt. Weiter gilt<br />

i=1<br />

n∑ [<br />

(Xi − X n ) + (X n − µ) ] 2<br />

i=1<br />

= 1 σ 2 [ n∑<br />

i=1<br />

(X i − X n ) 2 + 2<br />

]<br />

n∑<br />

(X i − X n )(X n − µ) + n(X n − µ) 2<br />

i=1<br />

= 1 n∑<br />

(X<br />

σ 2 i − X n ) 2 + n σ (X 2 n − µ) 2 ,<br />

i=1<br />

} {{ }<br />

U<br />

} {{ }<br />

V<br />

∑<br />

denn n (X i − X n ) = 0 und damit der geme<strong>in</strong>same Term gleich Null.<br />

i=1<br />

Die l<strong>in</strong>ke Seite ist χ 2 n-verteilt.<br />

Nach Lemma 1 ist Ee tW = Ee t(U+V ) = Ee tU Ee tV .<br />

Dann folgt mit Lemma 3: Ee tU = Ee tW /Ee tV = (1−2t)−n/2<br />

(1−2t) −1/2<br />

Damit ist U χ 2 n−1-verteilt.<br />

= (1 − 2t) − n−1<br />

2 .<br />

11.7 t n -Verteilung<br />

11.7.1 Def<strong>in</strong>ition (t n -Verteilung)<br />

Ist X nach N(0, 1)-verteilt und V nach χ 2 n-verteilt und s<strong>in</strong>d X und V unabhängig, so<br />

X<br />

heißt <strong>die</strong> Verteilung von √ t-Verteilung mit n Freiheitsgraden (kurz: t n -Verteilung).<br />

V/n<br />

11.7.2 Korollar<br />

S<strong>in</strong>d X n und S 2 n wie oben, so ist Xn−µ<br />

S n/ √ n<br />

Beweis:<br />

Es ist<br />

X = √ n Xn−µ<br />

σ<br />

√<br />

X n − µ n<br />

X n−µ<br />

S n / √ n = σ<br />

√<br />

S<br />

2<br />

n /σ = √<br />

2<br />

t n−1-verteilt.<br />

1<br />

n−1<br />

√ n<br />

X n−µ<br />

σ<br />

.<br />

n∑<br />

(X i − X n ) 2 /σ 2<br />

i=1<br />

ist N(0, 1)-verteilt, der Term unter der Wurzel ist χ 2 n−1-verteilt.


104 11 WAHRSCHEINLICHKEITSMAßE MIT DICHTEN<br />

11.7.3 Satz<br />

Die t-Verteilung mit n Freiheitsgraden hat <strong>die</strong> Dichte<br />

f n (z) =<br />

n+1<br />

Γ( ) 2<br />

√ πnΓ(<br />

n<br />

2<br />

z2 n+1<br />

+ )− 2 .<br />

)(1 n<br />

Beweis:<br />

Sei U = X √ n. Dann ist U nach N(0, n) verteilt und V χ 2 n-verteilt. Weiter gilt wegen der<br />

Unabhängigkeit von U und V<br />

P (U/ √ V ≤ α) =<br />

mit z := u √ v<br />

und folglich<br />

∫<br />

{(u,v)|u/ √ v≤α}<br />

f(u)g(v)dudv =<br />

∫ α<br />

0<br />

(∫<br />

f(z √ v)g(v) √ )<br />

vdv dz<br />

} {{ }<br />

h(z)<br />

h(z) = 1 √<br />

2πn<br />

1<br />

=<br />

∫∞<br />

2 n/2 Γ( n) 2<br />

0<br />

0<br />

e − vz2<br />

2n<br />

v<br />

n<br />

2 −1 e −v/2√ v dv<br />

∫∞<br />

1<br />

√<br />

2πn2<br />

n/2<br />

Γ( n) v n+1<br />

2 −1 e − v 2 (1+ z2 n ) dv<br />

2<br />

= 2 n+1<br />

2 (1+ z2 n+1<br />

)− 2<br />

n Γ( n+1)<br />

2<br />

√<br />

2πn2<br />

n/2<br />

Γ( n)<br />

2<br />

= Γ ( )<br />

n+1<br />

) −<br />

n+1<br />

2<br />

√ (<br />

πnΓ<br />

n<br />

)<br />

(1 + z2 2<br />

.<br />

n<br />

2<br />

Bemerkung: Sei F n <strong>die</strong> Verteilungsfunktion der t-Verteilung. Dann gilt: F n (z) → Φ(z)<br />

für n → ∞ und f n (z) → ϕ(z) = √ 1<br />

2π<br />

e −z2 /2 für n → ∞, denn (1 + z2 n+1<br />

)− 2 → e −z2 /2 , da<br />

n<br />

(1 + x n )n → e x , falls n → ∞.


105<br />

12 Schließende Statistik<br />

12.1 E<strong>in</strong>führendes Beispiel: Füllt <strong>die</strong> Brauerei zu wenig ab?<br />

In e<strong>in</strong>er Brauerei wird e<strong>in</strong>e Masch<strong>in</strong>e e<strong>in</strong>gesetzt um Flaschen mit 0,5l Inhalt abzufüllen.<br />

Die Masch<strong>in</strong>e kann <strong>in</strong> der Abfüllmenge variiert werden. Für <strong>die</strong> abgefüllte Menge <strong>in</strong> 8<br />

verschiedenen Flaschen werden <strong>die</strong> folgenden Werte gemessen (<strong>in</strong> Litern):<br />

x 1 = 0,489 x 5 = 0,496<br />

x 2 = 0,502 x 6 = 0,482<br />

x 3 = 0,508 x 7 = 0,503<br />

x 4 = 0,497 x 8 = 0,483<br />

Tabelle 3: Messwerte Flaschenabfüllung<br />

Annahme: Die Daten x 1 , ..., x 8 s<strong>in</strong>d Realisierungen von Zufallsvariablen X 1 , ..., X 8 , wobei<br />

<strong>die</strong> X i unabhängig und nach N(µ, σ 2 ) verteilt s<strong>in</strong>d. µ und σ werden als unbekannt angenommen.<br />

Es stellen sich folgende Aufgaben bzw. Fragen:<br />

1) Schätze µ.<br />

2) Schätze σ 2 .<br />

3) Wie stark schwankt der Schätzer von µ?<br />

4) Wie stark schwankt der Schätzer von σ 2 ?<br />

5) Füllt <strong>die</strong> Brauerei zu wenig ab?<br />

Antworten:<br />

1) Wir wählen den Mittelwert als Schätzer für µ:<br />

n∑<br />

ˆµ n = 1 x<br />

n i = x n ,<br />

i=1<br />

ˆµ 8 = 1 8 (0,489 + 0,502 + ... + 0,483) = 1 8 · 3,96 = 0,495 =: x 8.<br />

2) E<strong>in</strong> Schätzer für <strong>die</strong> Varianz σ 2 :<br />

n∑<br />

ˆσ n 2 = 1 (x<br />

n−1 i − x n ) 2 ,<br />

i=1<br />

8∑<br />

ˆσ 8 2 = 1 (x<br />

7 i − x 8 ) 2 = [0,006 2 + ... + 0,008 2 + 0,012] 2 = 9, 086 · 10 −5 .<br />

i=1<br />

Damit ergibt sich als Schätzung für <strong>die</strong> Standardabweichung:<br />

ˆσ 8 = √ˆσ 2 8 = 9,532 · 10 −3 ≈ 0,01.<br />

Die Fragen 3)–5) beantworten wir weiter unten.


106 12 SCHLIEßENDE STATISTIK<br />

12.2 Punktschätzer<br />

Gegeben sei e<strong>in</strong> statistisches Modell (Ω, A, P θ , θ ∈ Θ). Dabei ist Ω <strong>die</strong> Beobachtungsmenge,<br />

A <strong>die</strong> σ-Algebra über Ω und {P θ ; θ ∈ Θ} e<strong>in</strong>e durch Θ ⊂ R k <strong>in</strong>dizierte Schar von<br />

Wahrsche<strong>in</strong>lichkeitsmaßen.<br />

12.2.1 Def<strong>in</strong>ition (Schätzer)<br />

E<strong>in</strong> Vektor T = (T 1 , . . . , T k ), bestehend aus Zufallsvariablen, heißt Schätzer, falls T (Ω) ⊂<br />

Θ gilt.<br />

12.2.2 Def<strong>in</strong>ition (Maximum-Likelihood-Schätzer)<br />

Sei {f θ (ω)|θ ∈ Θ} e<strong>in</strong>e durch θ <strong>in</strong>dizierte Schar von Wahrsche<strong>in</strong>lichkeitsfunktionen oder<br />

Wahrsche<strong>in</strong>lichkeitsdichten auf Ω. Dann heißt ˆθ(ω) := arg max f θ(ω) Maximum-Likelihoodθ∈Θ<br />

Schätzer von θ. Es gilt fˆθ(ω)<br />

(ω) = max f θ (ω).<br />

θ<br />

Somit stellt sich <strong>die</strong> Aufgabe: Maximiere für das beobachtete ω <strong>die</strong> Funktion θ ↦→ f θ (ω).<br />

12.2.3 Beispiele:<br />

1) B<strong>in</strong>omialverteilung:<br />

f θ (k) = ( n<br />

k)<br />

θ k (1 − θ) n−k , 0 ≤ k ≤ n, 0 ≤ θ ≤ 1.<br />

Hier ist der Maximum-Likelihood-Schätzer: ˆθ(k) = k n . Denn:<br />

∂<br />

∂θ f θ(k) = ! 0<br />

( n<br />

⇔ [kθ<br />

k)<br />

k−1 (1 − θ) n−k − (n − k)(1 − θ) n−k−1 θ k !<br />

] = 0<br />

( n<br />

⇒ θ<br />

k)<br />

k−1 (1 − θ) n−k−1 (k(1 − θ) − (n − k)θ) = 0<br />

⇒ k − kθ − nθ + kθ = 0<br />

⇒ k = nθ<br />

⇒ θ = k n<br />

⇒ ˆθ = k n .<br />

2) Poisson-Verteilung<br />

f θ (k) = θk<br />

k! e−θ , θ ∈ (0,∞), k ∈ N ∪ {0}.<br />

Hier ist ˆθ = k, da<br />

0 = ! ∂ ∂θ f θ(k) = kθk−1<br />

e −θ − θk<br />

k! k! e−θ<br />

⇒ 0 ! = k − θ ⇒ ˆθ = k.


12.2 Punktschätzer 107<br />

3) Exponentialverteilung<br />

f θ (x) = θe −θx 1 [0,∞) (x), θ ∈ (0,∞)<br />

Man beobachtet <strong>in</strong> unabhängigen Experimenten <strong>die</strong> Messwerte x 1 , . . . , x n :<br />

∏<br />

f θ (x 1 , ..., x n ) = n θe −θx i<br />

= θ n e −θ P n x i<br />

i=1<br />

i=1<br />

0 = ! ∂ f ∂θ θ(x 1 , ..., x n ) = nθ n−1 e −θ P x i<br />

∑<br />

− θ n ( n x i )e −θ P x i<br />

⇒ n − θ n ∑<br />

Nebenbei:<br />

!<br />

x i<br />

i=1<br />

= 0 ⇒ ˆθ n = n<br />

nP .<br />

x i<br />

i=1<br />

n∑<br />

x i /n ist auch Maximum-Likelihood-Schätzer von θ −1 .<br />

i=1<br />

4) Normalverteilung<br />

Man beobachtet <strong>in</strong> unabhängigen Experimenten <strong>die</strong> Messwerte x 1 , . . . , x n :<br />

θ = (µ, σ 2 ), µ ∈ R, σ ∈ (0,∞).<br />

∏<br />

f θ (x 1 , ..., x n ) = n √ 1<br />

2πσ 2 e−(x i−µ) 2 /2σ 2 (x<br />

1<br />

i −µ)<br />

= √<br />

2 /2σ 2<br />

i=1<br />

i=1<br />

i=1<br />

(2πσ 2 ) n e− n P<br />

Weil <strong>die</strong> logarithmische Funktion streng monoton wachsend ist, hat e<strong>in</strong>e Funktion<br />

genau dann e<strong>in</strong> Maximum, wenn ihr Logarithmus e<strong>in</strong> Maximum hat. Also erhalten wir<br />

dasselbe Ergebnis, wenn wir <strong>die</strong> Funktion l θ (x 1 , ..., x n ) := log f θ (x 1 , ..., x n ) maximieren:<br />

a) ∂l θ<br />

∂µ<br />

b) ∂l θ<br />

∂σ<br />

!<br />

= 0 ⇒ 1<br />

2σ 2<br />

l θ (x 1 , ..., x n ) = log f θ (x 1 , ..., x n )<br />

= −n log σ − n log( √ 2π) − 1<br />

2σ 2<br />

n∑<br />

2(x i − µ) = 0 ⇒ ˆµ n =<br />

i=1<br />

!<br />

= 0 ⇒ − n σ + 1<br />

σ 3<br />

nP<br />

x i<br />

i=1<br />

. n<br />

n∑<br />

(x i − µ) 2 = 0 ⇒ ˆσ n 2 = 1 n<br />

i=1<br />

Setze nun ˆµ n e<strong>in</strong>, so erhält man ˆσ 2 n = 1 n<br />

n∑<br />

(x i − µ) 2<br />

i=1<br />

n∑<br />

(x i − µ) 2 .<br />

i=1<br />

n∑<br />

(x i − x n ) 2 .<br />

i=1<br />

5) Hypergeometrische Verteilung<br />

f θ (k) = (θ k)( N−θ<br />

n−k)<br />

, 0 ≤ θ ≤ N<br />

( N k)<br />

E<strong>in</strong>e kurze Rechnung ergibt: ˆθ(k) = [ N·k ], wobei [·] <strong>die</strong> Gauss-Klammer ist.<br />

n<br />

Das Ergebnis ist auch <strong>in</strong>tuitiv plausibel. „Stochastischer Dreisatz“: k ∼ θ ⇒ θ ∼ N·k<br />

n N<br />

n .<br />

12.2.4 Def<strong>in</strong>ition (stochastische Konvergenz)<br />

Sei P e<strong>in</strong> Wahrsche<strong>in</strong>lichkeitsmaß und für jedes n ∈ N sei X n e<strong>in</strong>e Zufallvariable. Die Folge<br />

(X n ) n∈N konvergiert P -stochastisch gegen <strong>die</strong> Zufallsvariable X, <strong>in</strong> Formeln X n P → X,<br />

wenn für alle ε > 0 gilt: lim<br />

n→∞<br />

P (|X n − X| > ε) = 0.


108 12 SCHLIEßENDE STATISTIK<br />

Bemerkung: In den oben aufgeführten Beispielen 1), 3) und 4) kann man mit Hilfe des<br />

Gesetzes der großen Zahlen zeigen, dass für alle θ 0 gilt: ˆθ<br />

P θ0<br />

n → θ0 .<br />

Diese Konvergenzeigenschaft e<strong>in</strong>es Schätzers heißt Konsistenz!<br />

12.2.5 Satz (Konsistenz des M-L-Schätzers)<br />

Für unabhängige Beobachtungen gilt unter geeigneten Glattheitsannahmen an f θ (x), daß<br />

ˆθ n<br />

P θ0<br />

→ θ0 .<br />

Beweisskizze:<br />

Wegen dem Gesetz der großen Zahlen gilt:<br />

1<br />

l n∑<br />

n θ(x 1 , ..., x n ) = 1 log f<br />

n<br />

θ (x i ) → E θ0 log f θ (x 1 ).<br />

i=1<br />

θ ↦→ E θ0 log f θ (X 1 ) wird maximal <strong>in</strong> θ = θ 0 , da wegen der Jensen-Ungleichung<br />

E θ0 log f ∫<br />

θ(X 1 )<br />

f θ0 (X 1 ) ≤ log E f θ (X 1 )<br />

θ 0<br />

f θ0 (X 1 ) = 0 ist. Man beachte, E f θ (X 1 )<br />

θ 0<br />

f θ0 (X 1 ) = f θ (x)dx = 1.<br />

Daraus folgt E θ0 log f θ (X 1 ) ≤ E θ0 log f θ0 (X 1 ). Wegen Stetigkeit folgt<br />

1<br />

arg max l<br />

θ<br />

n θ → arg max E θ0 log f θ = θ 0 .<br />

θ<br />

12.3 Bewertung von Schätzern:<br />

Die Risikofunktion bei Bernoulli-Beobachtungen<br />

Seien X 1 , ..., X n unabhängige Bernoulli-verteilte Zufallsvariablen, <strong>die</strong> alle <strong>die</strong>selbe unbekannte<br />

Erfolgswahrsche<strong>in</strong>lichkeit θ haben. T (X 1 , ..., X n ) sei e<strong>in</strong> Schätzer von θ.<br />

Als e<strong>in</strong> Maß für <strong>die</strong> Abweichung von T def<strong>in</strong>ieren wir <strong>die</strong> Risikofunktion (auch mittlerer<br />

quadratischen Fehler genannt) durch: R(θ, T ) := E θ ((T (X 1 , ..., X n ) − θ) 2 ).<br />

Aufgabe: Suche e<strong>in</strong>en Schätzer mit möglichst kle<strong>in</strong>er Risikofunktion.<br />

12.3.1 Beispiele:<br />

1) T 1 (x) = n ∑<br />

Dann gilt:<br />

i=1<br />

x i<br />

n<br />

2) T 2 (x) = θ 0 0 < θ 0 < 1 3) T 3 (x) =<br />

nP<br />

x i + √ n/2<br />

i=1<br />

n+ √ n<br />

1) R(θ, T 1 ) = θ(1−θ)<br />

n<br />

2) R(θ, T 2 ) = (θ 0 − θ) 2 3) R(θ, T 3 ) =<br />

1<br />

4( √ n+1) 2<br />

12.3.2 Folgerung<br />

E<strong>in</strong> Schätzer T ∗ , der besser als alle Schätzer wäre, müsste e<strong>in</strong>e Risikofunktion haben mit<br />

R(θ, T ∗ ) ≡ 0, weil alle Schätzer vom Typ T 2 m<strong>in</strong>orisiert werden müßten.<br />

Tatsächlich ist T 3 der Schätzer mit der kle<strong>in</strong>sten konstanten Risikofunktion (Siehe D<strong>in</strong>ges-<br />

Rost: M<strong>in</strong>imax-Schätzer).<br />

E<strong>in</strong>e schwächere Eigenschaft ist folgende:


12.4 Konfidenz<strong>in</strong>tervalle 109<br />

12.3.3 Def<strong>in</strong>ition (zulässig)<br />

E<strong>in</strong> Schätzer T ′ heißt zulässig, falls für jeden Schätzer T mit R(θ, T ) ≤ R(θ, T ′ ) für alle<br />

θ ∈ Θ gilt: R(θ, T ) = R(θ, T ′ ) für alle θ.<br />

Bemerkung: Sowohl T 1 als auch T 3 s<strong>in</strong>d zulässig.<br />

12.3.4 Satz (Die Cramer–Rao-Ungleichung)<br />

Seien X 1 , . . . , X n unabhängig identisch verteilte Zufallsvariablen mit Ws-Dichte oder Ws-<br />

Funktion f θ (x).<br />

Sei T n (X 1 , ..., X n ) e<strong>in</strong> Schätzer von θ mit Werten <strong>in</strong> Θ ⊂ R, sei E θ T n differenzierbar <strong>in</strong> θ<br />

und gelte ∂ E ∂θ θT n = ∫ T n (x) ∂ f n ∂θ θ (x)dx mit f θ n(x) = ∏ n f θ (x n ). Sei b n (θ) := E θ T n − θ und<br />

I(θ) = E θ (( ∂ ∂ξ log f ξ(X 1 )| ξ=θ ) 2 ). Dann gilt:<br />

i=1<br />

E θ (T n − θ) 2 ≥ (1 + b′ n(θ)) 2<br />

.<br />

nI(θ)<br />

Beweis: Siehe Krengel, Paragraph 4.5: Die Informationsungleichung.<br />

Bemerkung: Die Cramer–Rao-Ungleichung gibt e<strong>in</strong>e Abschätzung nach unten für <strong>die</strong><br />

Risikofunktion R(θ, T ). I(θ) heißt Fischer-Information (nach Sir Ronald Fischer).<br />

Für <strong>die</strong> Beispiele (1)–(4) des ML-Schätzers gilt, dass <strong>die</strong> untere Schranke der Cramer–<br />

Rao-Ungleichung angenommen wird. Dabei ist stets E θ T n = θ.<br />

Was ist I(θ)?<br />

1) B<strong>in</strong>omialverteilung: I(θ) = n<br />

θ(1−θ)<br />

2) Poisson-Verteilung: I(θ) = 1 θ<br />

3) Exponentialverteilung: I(θ) = 1<br />

θ 2<br />

4) Normalverteilung (µ unbekannt): I(θ) = 1<br />

σ 2<br />

12.4 Konfidenz<strong>in</strong>tervalle<br />

Hier wird nun behandelt, wie stark <strong>die</strong> Schätzer schwanken.<br />

Wir beg<strong>in</strong>nen mit e<strong>in</strong>em Beispiel zu Aussagen mit Irrtumswahrsche<strong>in</strong>lichkeiten.


110 12 SCHLIEßENDE STATISTIK<br />

12.4.1 Beispiel: Fischteichgröße<br />

Aus e<strong>in</strong>em Fischteich werden 50 Fische gefangen, markiert und wieder ausgesetzt. Bei<br />

e<strong>in</strong>em erneuten Fang von 50 Fischen ist ke<strong>in</strong> markierter Fisch dabei. Was läßt sich über<br />

<strong>die</strong> Größe des Fischteichs N sagen?<br />

Re<strong>in</strong> logisch, daß m<strong>in</strong>destens 100 Fische im Teich s<strong>in</strong>d. Aber hätte man nur e<strong>in</strong>en markierten<br />

Fisch gefangen, so wäre der Maximum Likelihood-Schätzer (berechnet im Hypergeometrischen<br />

Modell) ˆN = 2500. Folglich ist N wohl viel größer.<br />

Sei p N = P N ( ke<strong>in</strong> markierter Fisch im Fang ),<br />

)<br />

dann ist p N =<br />

( N−50<br />

50<br />

( N<br />

50) im Hypergeometrischen Modell.<br />

Sei α > 0 vorgegeben und N(α) so gewählt, daß p N(α) ≤ α aber p N(α)+1 > α ist. Dann<br />

gilt auch max p N ≤ α. Nun kann man, falls ke<strong>in</strong> markierter Fisch im Fang ist, mit e<strong>in</strong>er<br />

N≤N(α)<br />

Irrtumswahrsche<strong>in</strong>lichkeit α folgern, daß N ≥ N(α) ist.<br />

Die folgende Tabelle liefert α <strong>in</strong> Abhängigkeit von N, e<strong>in</strong>mal exakt und e<strong>in</strong>mal als B<strong>in</strong>omialapproximation<br />

p N ≈ ( )<br />

N−50 50.<br />

N Für große N ist <strong>die</strong> Approximation erstaunlich gut.<br />

N α α B<strong>in</strong><br />

300 4, 33 · 10 −5 1, 09 · 10 −4<br />

600 0,0106 0,0128<br />

1200 0,1137 0,1191<br />

2500 0,3605 0,3642<br />

5000 0,6035 0,6050<br />

12.4.2 Def<strong>in</strong>ition (Konfidenz<strong>in</strong>tervall)<br />

Sei Ω ⊂ R n und P θ e<strong>in</strong>e Schar von Ws-Maßen, θ ∈ Θ ⊂ R. Sei R <strong>die</strong> Menge der abgeschlossenen<br />

Intervalle auf R. I : Ω → R heißt Konfidenz<strong>in</strong>tervall (K.I.) mit Sicherheitswahrsche<strong>in</strong>lichkeit<br />

1−α mit 0 < α < 1, wenn für alle θ ∈ Θ gilt: P θ ({ω|θ ∈ I(ω)}) ≥ 1−α.<br />

Bemerkungen:<br />

1) I(ω) = Θ ist Konfidenz<strong>in</strong>tervall mit Sicherheitswahrsche<strong>in</strong>lichkeit (SWS) 1.<br />

2) E<strong>in</strong> Konfidenz<strong>in</strong>tervall sollte aber möglichst kle<strong>in</strong> se<strong>in</strong>.<br />

12.4.3 Beispiele zu Konfidenz<strong>in</strong>tervallen bei Normalverteilung<br />

Seien X 1 , ..., X n unabhängig und alle nach N(µ, σ 2 )-verteilt.<br />

a) σ 2 sei bekannt, µ sei unbekannt. Sei k α so, dass Φ(k α ) = α ist. Es gilt −k α = k 1−α . Sei<br />

x = (x 1 , ..., x n ). I n (x) = [ˆµ n (x) − k √1−α<br />

n<br />

σ, ˆµ n (x) + k √1−α<br />

n<br />

σ] ist zweiseitiges Konfidenz<strong>in</strong>tervall<br />

zur Sicherheitswahrsche<strong>in</strong>lichkeit 1 − 2α. Denn:<br />

P µ,σ 2<br />

({<br />

x∣ µ ∈<br />

[<br />

ˆµ n (x) ± k ]}) ({<br />

1−α<br />

√ σ = P µ,σ 2<br />

n<br />

√ })<br />

x∣<br />

n(ˆµn (x) − µ)<br />

∣ σ ∣ ≤ k 1−α


12.4 Konfidenz<strong>in</strong>tervalle 111<br />

= 1 − 2Φ(k α )<br />

= 1 − 2α.<br />

b) σ 2 und µ seien unbekannt. Sei t β;n def<strong>in</strong>iert durch P (T n ≤ t β;n ) = β, wobei T n e<strong>in</strong>e<br />

nach t n -verteilte Zufallsvariable ist. Es gilt −t α;n = t 1−α;n . Ersetze <strong>in</strong> I n σ 2 durch<br />

n∑<br />

se<strong>in</strong>en Schätzer ˆσ n 2 = 1 (x<br />

n−1 i − x n ) 2 . Ĩn(x) = [ˆµ n (x) ± t 1−α;n−1<br />

√ n<br />

ˆσ n (x)] ist (1 − 2α)-<br />

Konfidenz<strong>in</strong>tervall, denn:<br />

i=1<br />

({<br />

[<br />

P µ,σ 2({x|µ ∈ Ĩn(x)}) = P µ,σ 2 x∣ µ ∈ ˆµ n (x) ± t ]})<br />

1−α;n−1<br />

√ ˆσ n (x) n<br />

({<br />

√ })<br />

= P µ,σ 2 x∣<br />

n(ˆµn (x) − µ)<br />

∣ ˆσ n (x) ∣ ≤ t 1−α;n−1<br />

= 1 − 2α.<br />

Wir kommen nun zurück zum Bierabfüllproblem und beantworten <strong>die</strong> anfangs gestellten<br />

Fragen 3)–5).<br />

3. E<strong>in</strong> (1 − α)-zweiseitiges Konfidenz-Intervall für µ lautet:<br />

[<br />

x n − ˆσ n<br />

√ n<br />

t 1−<br />

α<br />

2 ;n−1 , x n + ˆσ n<br />

√ n<br />

t 1−<br />

α<br />

2 ;n−1 ]<br />

.<br />

Für α = 0,10 ergibt sich t 0,95;7 = 1,895. Dies ist das obere 5 %-Quantil der t 7 Verteilung.<br />

Das Konfidenz<strong>in</strong>tervall für µ ist [0,4886; 0,5014], denn:<br />

P µ;σ 2<br />

( [<br />

µ ∈ X n ± ˆσ ])<br />

n<br />

√ t 1−α/2;n−1<br />

n<br />

(<br />

√ n(Xn − µ)<br />

= P µ;σ 2<br />

− t α/2 ;n−1 ≤<br />

= 1 − 2 α 2 = 1 − α<br />

}<br />

ˆσ {{ n }<br />

t n−1 -verteilt<br />

≤ t 1−α/2;n−1<br />

)<br />

4. Zweiseitiges 95 %-Konfidenz<strong>in</strong>tervall für σ 2 . Aus Abschnitt 11.6 wissen wir, daß<br />

ˆσ n 2 nach χ 2 n−1-verteilt ist. E<strong>in</strong> (1 − α)-Konfidenz<strong>in</strong>tervall für σ 2 ist<br />

n−1<br />

σ 2<br />

[<br />

]<br />

(n − 1)ˆσ n<br />

2 ; (n − 1)ˆσ2 n<br />

.<br />

χ 2 1−α/2;n−1<br />

χ 2 α/2;n−1<br />

Für α = 0,05 ist χ 2 0,975;7 = 16, 01 und χ 2 0,025;7 = 1,69.<br />

Das 95 %-Konfidenz<strong>in</strong>tervall für σ 2 lautet [3,97 · 10 −3 ; 37,64 · 10 −5 ].<br />

Begründung: P (σ 2 ∈ KI) = P µ,σ 2[χ 2 α/2;n−1 ≤ (n−1)<br />

σ 2 ˆσ 2 n ≤ χ 2 1−α/2;n−1 ] = 1 − α.


112 12 SCHLIEßENDE STATISTIK<br />

5. Präzisierung der Frage: Kann man mit e<strong>in</strong>er Irrtumswahrsche<strong>in</strong>lichkeit α (z.B. 1 %)<br />

sagen, dass <strong>die</strong> Brauerei zu wenig abfüllt?<br />

Sei µ 0 = 0, 5. Wir geben nun e<strong>in</strong> e<strong>in</strong>seitiges Konfidenz<strong>in</strong>tervall I n an, für das gilt:<br />

P µ (µ ∈ I n ) ≥ 1 − α für alle µ. (*)<br />

Liegt aber µ 0 nicht <strong>in</strong> I n , so schließen wir mit e<strong>in</strong>er Irrtumswahrsche<strong>in</strong>lichkeit α,<br />

daß <strong>die</strong> Brauerei zu wenig abfüllt. Das Konfidenz<strong>in</strong>tervall lautet:<br />

I n =<br />

(<br />

−∞, X n + ˆσ n<br />

√ n<br />

t 1−α;n−1<br />

)<br />

.<br />

Dies erfüllt (*), denn<br />

P µ (µ ∈ I n ) = P µ<br />

(<br />

µ ≤ X n + ˆσ n<br />

√ n<br />

t 1−α;n−1<br />

)<br />

= P µ<br />

(<br />

µ ≤ X n − ˆσ n<br />

√ n<br />

t α;n−1<br />

)<br />

= P µ<br />

( √n X n − µ<br />

ˆσ n<br />

≥ t α;n−1<br />

)<br />

= 1 − α.<br />

Setze nun α = 0, 01. Dann ist: x 8 + √ ˆσ 8<br />

8<br />

t 0,99;7 = 0, 495 + 0,01 √<br />

8 · 3 = 0, 505 weil t 0,99;7 = 3<br />

ist. Weil µ 0 < 0, 505 ist, lässt sich mit e<strong>in</strong>er Irrtumswahrsche<strong>in</strong>lichkeit von 1% nicht<br />

behaupten, <strong>die</strong> Brauerei fülle zu wenig ab.<br />

Oft läßt sich das Konfidenz<strong>in</strong>tervall nur näherungsweise angeben. Dabei hilft dann der<br />

folgende Satz über <strong>die</strong> asymptotische Verteilung des ML-Schätzers.<br />

12.4.4 Satz<br />

Sei Φ <strong>die</strong> Verteilungsfunktion von N(0,1). ˆθ n sei ML-Schätzer. Unter Glattheitsvoraussetzungen<br />

an f θ (x) gilt für β ∈ R:<br />

lim P θ( √ nI(θ)(ˆθ n − θ) ≤ β) = Φ(β)<br />

n→∞<br />

mit I(θ) der Fisher-Information. Ist I(θ) stetig, so gilt auch<br />

(√<br />

)<br />

lim P θ nI(ˆθ n )(ˆθ n − θ) ≤ β = Φ(β).<br />

n→∞<br />

Bemerkung: Setzt man Φ(−β α ) = α, so gilt P θ<br />

(ˆθn − √nI(ˆθ βα<br />

≤ θ ≤ ˆθ<br />

)<br />

n + √<br />

βα<br />

→<br />

n) nI(ˆθ n)<br />

1 − 2Φ(−β α ) = 1 − 2α. Das heißt, wir haben e<strong>in</strong> näherungsweises Konfidenz<strong>in</strong>tervall zur<br />

Sicherheitswahrsche<strong>in</strong>lichkeit (1 − 2α) vorliegen.


12.4 Konfidenz<strong>in</strong>tervalle 113<br />

12.4.5 Beispiel: Hufschlagtote <strong>in</strong> der Preußischen Armee<br />

Man hat als Datensatz <strong>die</strong> Anzahl der Hufschlagtoten <strong>in</strong> 14 Kavallerie-Corps der Preußischen<br />

Armee über 20 Jahre von 1875 bis 1894.<br />

Zusammengefaßt ergibt sich folgende Tabelle:<br />

Anzahl Tote <strong>in</strong> Corps p.a. Häufigkeit <strong>in</strong> Corps p.a.<br />

0 144<br />

1 91<br />

2 32<br />

3 11<br />

4 2<br />

≥ 5 0<br />

Abbildung 6: Hufschlagtote<br />

Die Daten werden sehr gut durch e<strong>in</strong>e Poisson-verteilte Zufallsvariable X beschrieben. Dies<br />

ergibt sich aus e<strong>in</strong>em χ 2 -Anpassungstest, den wir hier nicht weiter diskutieren wollen. Es<br />

stellt sich <strong>die</strong> Frage nach Parameterschätzung und Konfidenz<strong>in</strong>tervall von θ, dem Poisson-<br />

Parameter.<br />

14 Corps über 20 Jahre entspricht 280 Corpsjahren. Der ML-Schätzer lautet:<br />

ˆθ 280 = 196<br />

280<br />

= 0,7 Todesfälle pro Corpsjahr.<br />

E<strong>in</strong> asymptotisches 95 %-Konfidenz<strong>in</strong>tervall ergibt sich mit<br />

n = 280, ˆθ n = 0,7 und I(ˆθ n ) = 1 als 0,7<br />

ˆθ n ± √nI(ˆθ 1,96 = 0,7 ± 0,098 und damit als [0,602; 0,798].<br />

n)


114 12 SCHLIEßENDE STATISTIK<br />

Anhang A<br />

Mit Hilfe der Bayesschen Formel erfolgreich klassifizieren<br />

Angenommen es gäbe k mögliche Zustände. Man entscheide möglichst optimal, welcher<br />

der Zustände vorliegt.<br />

Gegeben seien <strong>die</strong> Wahrsche<strong>in</strong>lichkeiten π(i) des i-ten Zustandes vor der Ziehung. Dabei<br />

∑<br />

gelte π(i) ≥ 0 für i = 1, ..., k und k π(i) = 1.<br />

i=1<br />

p(x|i), x ∈ X sei <strong>die</strong> Wahrsche<strong>in</strong>lichkeit x zu beobachten, wenn der Zustand i vorliegt.<br />

Nach der Bayesschen Formel gilt:<br />

p(j|x) =<br />

∑<br />

p(x|j)π(j)<br />

p(x|i)π(i) .<br />

i<br />

E<strong>in</strong>e Abbildung d : X → {1, ..., k} heißt Klassifikationsvariable.<br />

Beispiel:<br />

d ∗ (x) = j, falls p(j|x) ≥ p(i|x)∀i.<br />

π(i) heißt a priori-Wahrsche<strong>in</strong>lichkeit,<br />

p(i|x) nennt man a posteriori-Wahrsche<strong>in</strong>lichkeit.<br />

Ist d e<strong>in</strong>e Klassifikationsvariable, so ist das Risiko e<strong>in</strong>e falsche Entscheidung zu treffen<br />

∑<br />

R(d) = k π(i)P i ({x ∈ X|d(x) ≠ i}). Dabei ist P i das Wahrsche<strong>in</strong>lichkeitsmaß auf X bei<br />

i=1<br />

Vorliegen des i-ten Zustandes.<br />

Satz<br />

Für alle Klassifikationsvariablen d gilt R(d ∗ ) ≤ R(d).<br />

Beweis:<br />

d ∗ (x) = j ⇔ p(j|x) = max p(i|x)<br />

i<br />

⇔ p(x|j)π(j) = max p(x|i)π(i)<br />

i


12.4 Konfidenz<strong>in</strong>tervalle 115<br />

wobei 1 A (x) =<br />

1 − R(d) = 1 −<br />

=<br />

=<br />

=<br />

=<br />

k∑<br />

π(i)P i ({x ∈ X|d(x) ≠ i})<br />

i=1<br />

k∑<br />

π(i) −<br />

i=1<br />

k∑<br />

π(i)P i ({x ∈ X|d(x) ≠ i})<br />

i=1<br />

k∑<br />

π(i)(1 − P i ({x ∈ X|d(x) ≠ i}))<br />

i=1<br />

k∑<br />

π(i)P i ({x ∈ X|d(x) = i})<br />

i=1<br />

k∑<br />

i=1<br />

= ∑ x∈X<br />

∑<br />

x∈X<br />

d(x)=i<br />

p(x|i)π(i)<br />

k∑<br />

1 {x ′ ∈X|d(x ′ )=i}(x)p(x|i)π(i)<br />

i=1<br />

≤ ∑ max p(x|j)π(j)<br />

j<br />

x∈X<br />

= ∑ x∈X<br />

k∑<br />

=<br />

=<br />

=<br />

i=1<br />

k∑<br />

1 {x ′ |d ∗ (x ′ )=i}(x)p(x|i)π(i)<br />

i=1<br />

∑<br />

x∈X<br />

d ∗ (x)=i<br />

p(x|i)π(i)<br />

k∑<br />

π(i)P i ({x ∈ X|d ∗ (x) = i})<br />

i=1<br />

k∑<br />

π(i)(1 − P i ({x ∈ X|d ∗ (x) ≠ i}))<br />

i=1<br />

= 1 −<br />

{<br />

1 für x ∈ A<br />

0 für x /∈ A .<br />

k∑<br />

π(i)P i ({x ∈ X|d ∗ (x) ≠ i})<br />

i=1<br />

= 1 − R(d ∗ ),


116 12 SCHLIEßENDE STATISTIK<br />

Literaturverzeichnis<br />

Literatur:<br />

D<strong>in</strong>ges-Rost : Pr<strong>in</strong>zipien der <strong>Stochastik</strong>, Teubner Stu<strong>die</strong>nbücher, 1982<br />

Dümbgen, L. : <strong>Stochastik</strong> für Informatiker, Spr<strong>in</strong>ger, 2003<br />

Engel, A. : Wahrsche<strong>in</strong>lichkeitsrechnung und Statistik I - II, Klett, 1973<br />

Feller, W. : An Introduction to Probability and its Applications, Vol I, Wiley, 1957<br />

Georgii, H.-O. : <strong>Stochastik</strong>, Walter de Gruyter, 2002<br />

Krengel, U. : E<strong>in</strong>führung <strong>in</strong> <strong>die</strong> Wahrsche<strong>in</strong>lichkeitstheorie und <strong>die</strong> Statistik, Vieweg,<br />

2002, 3. Aufl.<br />

Krickeberg-Ziezold : Stochastische Methoden, Spr<strong>in</strong>ger, 4. Aufl., 1995<br />

Pfanzagl, J. : Elementare Wahrsche<strong>in</strong>lichkeitsrechnung, Walter de Gruyter, 1991<br />

Shiryaev, A. : Probability, Spr<strong>in</strong>ger, 1984<br />

Zur Historie:<br />

Hoffmann-Jørgensen, J. : Probability with a View towards Statistics, Chapman &<br />

Hall, 1994<br />

E<strong>in</strong>führend:<br />

Pitman, J. : Probability, Spr<strong>in</strong>ger 1994

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!