Einführung in die Stochastik, Prof. Lerche - Abteilung für ...
Einführung in die Stochastik, Prof. Lerche - Abteilung für ...
Einführung in die Stochastik, Prof. Lerche - Abteilung für ...
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
E<strong>in</strong>führung <strong>in</strong> <strong>die</strong> <strong>Stochastik</strong><br />
<strong>Prof</strong>. Dr. H. R. <strong>Lerche</strong><br />
Institut für Mathematische <strong>Stochastik</strong><br />
Universität Freiburg<br />
W<strong>in</strong>tersemester 2007/2008<br />
Stand: 5. August 2009
ii<br />
INHALTSVERZEICHNIS<br />
Inhaltsverzeichnis<br />
1 E<strong>in</strong>führung 1<br />
1.1 Was ist <strong>Stochastik</strong>? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1<br />
1.2 Stochastische Tätigkeiten im Alltag . . . . . . . . . . . . . . . . . . . . . . 1<br />
1.3 Bemerkungen zu Gew<strong>in</strong>nchancen und Gew<strong>in</strong>nquoten . . . . . . . . . . . . 3<br />
1.4 Geschichtliches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5<br />
2 Wahrsche<strong>in</strong>lichkeiten bekannter Zufallsmechanismen 7<br />
2.1 Elementare Mengenlehre und Sprechweisen . . . . . . . . . . . . . . . . . . 7<br />
2.2 Beispiele mit dem Würfel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7<br />
2.3 Etwas anderere Würfel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10<br />
2.4 Das Münzwurfmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11<br />
3 Grundbegriffe 13<br />
3.1 Diskreter Wahrsche<strong>in</strong>lichkeitsraum . . . . . . . . . . . . . . . . . . . . . . 13<br />
4 Gleichverteilungen und Komb<strong>in</strong>atorik 19<br />
4.1 Die Gleichverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19<br />
4.2 Das Komb<strong>in</strong>ationspr<strong>in</strong>zip . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19<br />
4.3 Urnen- und Schachtelmodelle . . . . . . . . . . . . . . . . . . . . . . . . . 20<br />
4.4 Verteilungen, <strong>die</strong> aus Gleichverteilungen entstehen . . . . . . . . . . . . . . 22<br />
4.5 Hypergeometrische Verteilung und B<strong>in</strong>omialverteilung . . . . . . . . . . . . 23<br />
4.6 Kompliziertere Verteilungen, <strong>die</strong> aus Gleichverteilungen entstehen . . . . . 26<br />
4.7 Die probalilistische Methode <strong>in</strong> der Komb<strong>in</strong>atorik . . . . . . . . . . . . . . 27<br />
5 Bed<strong>in</strong>gte Wahrsche<strong>in</strong>lichkeiten und Unabhängigkeit 29<br />
5.1 Bed<strong>in</strong>gte Wahrsche<strong>in</strong>lichkeit: Def<strong>in</strong>ition und Folgerungen . . . . . . . . . . 29<br />
5.2 Satz von der vollständigen Wahrsche<strong>in</strong>lichkeit . . . . . . . . . . . . . . . . 32<br />
5.3 Bayessche Formel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33<br />
5.4 Unabhängigkeit von Ereignissen . . . . . . . . . . . . . . . . . . . . . . . . 35<br />
5.5 Anwendung der Unabhängigkeit <strong>in</strong> der Zahlentheorie . . . . . . . . . . . . 41<br />
6 Zufallsvariable und ihre Verteilung 43<br />
6.1 Zufallsvariable, Verteilung e<strong>in</strong>er Zufallsvariable . . . . . . . . . . . . . . . . 43<br />
6.2 Unabhängigkeit von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . 45
INHALTSVERZEICHNIS<br />
iii<br />
7 Erwartungswert und Varianz von Verteilungen 50<br />
7.1 Der Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50<br />
7.2 Beispiele von Erwartungswerten . . . . . . . . . . . . . . . . . . . . . . . . 53<br />
7.3 Varianz und Kovarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55<br />
7.4 Varianzen e<strong>in</strong>iger Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . 57<br />
7.5 Die Tschebychew-Ungleichung und das Gesetz der Großen Zahlen . . . . . 58<br />
7.6 Approximation stetiger Funktionen . . . . . . . . . . . . . . . . . . . . . . 60<br />
8 Satz von de Moivre-Laplace 62<br />
8.1 Der Satz von de Moivre-Laplace . . . . . . . . . . . . . . . . . . . . . . . . 62<br />
8.2 Die Landauschen Symbole und <strong>die</strong> Stirl<strong>in</strong>g Formel . . . . . . . . . . . . . . 64<br />
8.3 Approximation der B<strong>in</strong>omialverteilung . . . . . . . . . . . . . . . . . . . . 66<br />
8.4 Der Zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . 69<br />
9 Erzeugende Funktionen 71<br />
9.1 Def<strong>in</strong>ition und Eigenschaften erzeugender Funktionen . . . . . . . . . . . . 71<br />
9.2 Poisson-Prozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74<br />
9.3 Ausgedünnte Poisson-Prozesse . . . . . . . . . . . . . . . . . . . . . . . . . 75<br />
9.4 Poisson-Prozess über dem E<strong>in</strong>heitsquadrat . . . . . . . . . . . . . . . . . . 77<br />
10 Markov-Ketten 79<br />
10.1 Die Ka<strong>in</strong> und Abel-Aufgabe . . . . . . . . . . . . . . . . . . . . . . . . . . 79<br />
10.2 Markov-Ketten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80<br />
10.3 Absorbierende Zustände . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83<br />
10.4 Rekurrente und transiente Zustände . . . . . . . . . . . . . . . . . . . . . . 86<br />
10.5 Stationäre Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88<br />
10.6 Konvergenz gegen <strong>die</strong> stationäre Verteilung . . . . . . . . . . . . . . . . . . 91<br />
11 Wahrsche<strong>in</strong>lichkeitsmaße mit Dichten 93<br />
11.1 Wahrsche<strong>in</strong>lichkeits-Dichte, Verteilungsfunktion, σ-Algebren . . . . . . . . 93<br />
11.2 Wahrsche<strong>in</strong>lichkeitsmaße und Zufallsvariablen auf R k . . . . . . . . . . . . 95<br />
11.3 Erwartungswert und Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . 96<br />
11.4 Unabhängigkeit von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . 97<br />
11.5 Momenterzeugende Funktionen . . . . . . . . . . . . . . . . . . . . . . . . 100<br />
11.6 χ 2 k-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101<br />
11.7 t n -Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
iv<br />
INHALTSVERZEICHNIS<br />
12 Schließende Statistik 105<br />
12.1 E<strong>in</strong>führendes Beispiel: Füllt <strong>die</strong> Brauerei zu wenig ab? . . . . . . . . . . . 105<br />
12.2 Punktschätzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106<br />
12.3 Bewertung von Schätzern:<br />
Die Risikofunktion bei Bernoulli-Beobachtungen . . . . . . . . . . . . . . . 108<br />
12.4 Konfidenz<strong>in</strong>tervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
1<br />
1 E<strong>in</strong>führung<br />
1.1 Was ist <strong>Stochastik</strong>?<br />
<strong>Stochastik</strong> ist der Oberbegriff von Wahrsche<strong>in</strong>lichkeitsrechnung und mathematischer Statistik.<br />
In der <strong>Stochastik</strong> werden mathematische Modelle von Zufallsersche<strong>in</strong>ungen konstruiert,<br />
deren Gesetzmäßigkeiten stu<strong>die</strong>rt und ihre Anwendbarkeit auf reale Daten untersucht<br />
wird. Die Modelle basieren auf Zufallsbegriffen, wie z.B. dem der „Wahrsche<strong>in</strong>lichkeit“. Diese<br />
werden durch mathematische Axiome beschrieben. Die Axiome erklären jedoch nicht<br />
das Wesen des Zufalls. Dieses ist bis heute, trotz diverser mathematischer Ansätze durch<br />
von Miser und Kolmogorov, noch weitgehend ungeklärt.<br />
1.2 Stochastische Tätigkeiten im Alltag<br />
1. Raten<br />
2. Entscheiden<br />
3. Schätzen<br />
4. Vergleichen / Testen<br />
5. Vorhersagen<br />
6. Versichern<br />
7. Kontrollieren<br />
8. Messen<br />
1.–3. kennt man schon aus dem K<strong>in</strong>desalter. Alle acht Typen von Tätigkeiten haben zum<br />
Ziel den Zufall unter Kontrolle zu br<strong>in</strong>gen.<br />
1.2.1 Beispiele<br />
Raten<br />
a) In welcher Hand ist der Gegenstand?<br />
b) Welche Antwort ist richtig bei Unwissenheit, z. B. bei “Wer wird Millionär”?<br />
c) Wer wird der nächste US-Präsident?<br />
Entscheiden<br />
a) Das Spiel: Ste<strong>in</strong>–Schere–Papier<br />
b) Wann und wo lege ich me<strong>in</strong> Geld an?
2 1 EINFÜHRUNG<br />
c) Zu welchem Arzt gehe ich?<br />
d) Wenn ich im Zentrum e<strong>in</strong>er Stadt parken will, ab welcher Entfernung lohnt es sich den<br />
nächsten freien Parkplatz zu nehmen?<br />
Schätzen<br />
a) Wieviel Sprit ist noch im Tank?<br />
b) Wie hoch ist das Steueraufkommen <strong>in</strong> der BRD <strong>in</strong> Jahr 2007?<br />
c) Wie häufig ist e<strong>in</strong>e Krankheit <strong>in</strong> der Bevölkerung (Inzidenzrate)?<br />
Vergleichen / Testen<br />
a) ärztl. Untersuchung auf Krankheit<br />
b) Vergleich von ärztlichen Behandlungen<br />
c) Entwicklung von Medikamenten<br />
Vorhersagen<br />
a) Tippen: Toto, Lotto, E<strong>in</strong>zelspiele<br />
b) Dollarkurs an Weihnachten<br />
c) Das Wetter morgen <strong>in</strong> Freiburg<br />
Versichern<br />
Auto/ Haus/ Leben<br />
Kontrollieren<br />
a) Kontrollieren des Blutdrucks<br />
b) Fehlerkontrolle <strong>in</strong> der Produktion e<strong>in</strong>es <strong>in</strong>dustriellen Teils<br />
c) Flugsicherung<br />
Messen von physikalischen Größen <strong>in</strong> Experimenten wie Masse, Länge, Temperatur, Geschw<strong>in</strong>digkeit,<br />
Energie, Impuls<br />
a) Die Komb<strong>in</strong>ation der Ergebnisse geschieht <strong>in</strong> der Regel mit der mit der sogenannten<br />
Fehlerausgleichsrechnung.<br />
b) Will man sehr genau messen, kann man <strong>in</strong> Konflikt mit der Unschärferelation von<br />
Heisenberg geraten. Diese gibt e<strong>in</strong>e untere Schranke für <strong>die</strong> Maßgenauigkeit zweier zue<strong>in</strong>ander<br />
konjugierter physikalischer Größen, wie z.B. Ort und Impuls e<strong>in</strong>es Teilchens.<br />
Die von Heisenberg, Schrödiger u.a. entwickelte Theorie ist stochastischer Natur. Aus<br />
heutiger Sicht funktioniert sie <strong>in</strong> der Praxis sehr gut, ist aber von ihren Grundlagen<br />
her noch immer unvollständig. Es sche<strong>in</strong>t heute aber ziemlich klar, daß E<strong>in</strong>ste<strong>in</strong> mit<br />
se<strong>in</strong>em Spruch: “Gott würfelt nicht” nur dann recht hat, wenn es Gott tatsächlich nicht<br />
gibt.
1.3 Bemerkungen zu Gew<strong>in</strong>nchancen und Gew<strong>in</strong>nquoten 3<br />
1.3 Bemerkungen zu Gew<strong>in</strong>nchancen und Gew<strong>in</strong>nquoten bei Cas<strong>in</strong>o-<br />
Spielen und anderen Wetten<br />
Wir betrachen e<strong>in</strong> Zufallsexperiment mit zwei Ausgängen E und NE und nehmen an,<br />
daß W s(E) = p und W s(NE) = 1 − p ist. Was ist e<strong>in</strong>e faire Gew<strong>in</strong>nquote G bei e<strong>in</strong>er<br />
Wette auf E<strong>in</strong>treten von E bei e<strong>in</strong>em E<strong>in</strong>satz von e<strong>in</strong>er Gelde<strong>in</strong>heit? Die Antwort lautet<br />
oder anschaulicher ausgedrückt<br />
G = 1 − p<br />
p<br />
1<br />
G =<br />
p<br />
1 − p .<br />
Dies heißt E<strong>in</strong>satz und Gew<strong>in</strong>n stehen im selben Verhältnis zue<strong>in</strong>ander wie <strong>die</strong> zugehörigen<br />
Wahrsche<strong>in</strong>lichkeiten. Betrachten wir z.B. <strong>die</strong> Wette auf e<strong>in</strong>e bestimmte Zahl, z.B. 13 bei<br />
e<strong>in</strong>em Roulette mit 37 möglichen Ausgängen, d.h. mit nur e<strong>in</strong>er 0. Das Cas<strong>in</strong>o bietet dafür<br />
üblicherweise als Gew<strong>in</strong>nquoten 35 zu 1. Fair wäre aber 36 zu 1. Der Abschlag von 1 ist 37<br />
<strong>die</strong> Gew<strong>in</strong>nmarge des Cas<strong>in</strong>os (im Englischen house percentage). Allgeme<strong>in</strong> läßt sich <strong>die</strong><br />
Gew<strong>in</strong>nmarge pro Gelde<strong>in</strong>heit E<strong>in</strong>satz als<br />
1 − W s(E)(G + 1)<br />
angeben. Dabei ist (G + 1) <strong>die</strong> Zahlung des Cas<strong>in</strong>os, wenn das Ereignis E e<strong>in</strong>tritt. Das<br />
Cas<strong>in</strong>o zahlt Gew<strong>in</strong>n plus E<strong>in</strong>satz aus.<br />
Ähnlich ist es auch bei Fußballwetten wie jenen von ODDSET oder bw<strong>in</strong>. Bei <strong>die</strong>sen Wetten<br />
s<strong>in</strong>d <strong>die</strong> Erfolgswahrsche<strong>in</strong>lichkeiten im Vorh<strong>in</strong>e<strong>in</strong> aber nicht exakt bekannt, sondern<br />
werden durch den Wettanbieter meist aus Vergangenheitswerten geschätzt. Entsprechend<br />
höher s<strong>in</strong>d auch deren Gew<strong>in</strong>nmargen (oder besser Sicherheitsspannen). Betrachten wir<br />
e<strong>in</strong>e ODDSET-Wette aus dem Jahr 2004 für das 2. Ligaspiel TSV 1860 gegen KSC. Die<br />
Quoten lauteten:<br />
bei Heimsieg(1) : 1,6<br />
bei Unentschieden (0) : 3<br />
bei Niederlage (2) : 4.<br />
Dies s<strong>in</strong>d im Grunde drei Wetten auf drei Ereignisse, <strong>die</strong> eng mite<strong>in</strong>ander verbunden s<strong>in</strong>d.<br />
Die Auszahlung ist z.B. bei Unentschieden 3, d.h. der ausgezahlte Gew<strong>in</strong>n ist 2. Bei <strong>die</strong>sen<br />
Wetten ist der E<strong>in</strong>satz <strong>in</strong> den Quoten enthalten. Aus den Quoten, nennen wir sie Q i für<br />
i = 0, 1, 2, läßt sich auf <strong>die</strong> zugrundeliegenden Wahrsche<strong>in</strong>lichkeiten schließen.<br />
Sei p i = 1 Q i<br />
. Dann ist<br />
oder anders geschrieben<br />
1 = Q i · p i = (G i + 1)p i<br />
1 − p i<br />
p i<br />
= G i .<br />
Das heißt, legt man e<strong>in</strong>e faire Wette zugrunde, so erhält man aus Q i (bzw. G i ) <strong>die</strong> von<br />
den Wettanbietern zugrundegelegten Wahrsche<strong>in</strong>lichkeiten p i . Dies gilt für alle i = 0, 1, 2.<br />
Nun gilt aber <strong>in</strong> unserem Beispiel<br />
p 1 = 10<br />
16 , p 0 = 1 3 , p 2 = 1 4
4 1 EINFÜHRUNG<br />
und damit<br />
p 0 + p 1 + p 2 = 58<br />
48 > 1.<br />
Offensichtlich ist <strong>die</strong> Wette nicht fair. Da <strong>die</strong> Wahrsche<strong>in</strong>lichkeiten <strong>in</strong>sgesamt zu groß s<strong>in</strong>d,<br />
s<strong>in</strong>d <strong>die</strong> Quoten zu niedrig.<br />
Fair wäre z.B. 2,4 anstelle von 1,6 für Q 1 . Denn dann wäre p 1 = 1<br />
p 0 + p 1 + p 2 = 1.<br />
= 20<br />
2,4 48<br />
und damit<br />
Die Quoten s<strong>in</strong>d offensichtlich so gestellt, daß e<strong>in</strong>e beträchtliche Sicherheitsspanne (oder<br />
auch Gew<strong>in</strong>nmarge) zugunsten des Wettanbieters vorhanden ist. Wie groß ist <strong>die</strong>se Sicherheitsspanne?<br />
Wir normieren <strong>die</strong> aus den Quoten bestimmten p i so, daß sie zu Wahrsche<strong>in</strong>lichkeiten<br />
werden.<br />
Seien<br />
˜p i =<br />
p i<br />
für i = 0, 1, 2.<br />
2∑<br />
p i<br />
Die erwarteten Auszahlungen unter <strong>die</strong>sen Wahrsche<strong>in</strong>lichkeiten s<strong>in</strong>d<br />
A i = ∑<br />
Q i˜p i<br />
j p j<br />
i=0<br />
= ∑<br />
1<br />
j p j<br />
< 1 für i = 0, 1, 2.<br />
Die Sicherheitsspanne ist für alle i <strong>die</strong>selbe und sie beträgt 1 − 1 Pj p j .<br />
Für das oben betrachtete Beispiel ist sie 1 − 48 = 10 = 0, 172, das heißt 17,2 % behält der<br />
58 58<br />
Wettanbieter <strong>in</strong> se<strong>in</strong>er Vorausschau im Mittel e<strong>in</strong>. Da <strong>die</strong> tatsächlichen Wahrsche<strong>in</strong>lichkeiten<br />
nicht exakt bekannt s<strong>in</strong>d, ist es e<strong>in</strong>e s<strong>in</strong>nvolle Vorsichtsmaßnahme e<strong>in</strong>e genügend<br />
große Sicherheitsspanne zu wählen.<br />
Betrachten wir nun e<strong>in</strong> Szenario, das von den Erwartungen des Wettanbieters abweicht.<br />
Was ist <strong>die</strong> Gew<strong>in</strong>nerwartung über alle drei Wetten im obigen Beispiel, wenn tatsächlich<br />
<strong>die</strong> p i = 1 s<strong>in</strong>d? Angenommen für alle drei Wetten geht gleich viel Geld e<strong>in</strong>, sagen wir<br />
3<br />
jeweils e<strong>in</strong>e Gelde<strong>in</strong>heit. Angenommen (1) tritt e<strong>in</strong>, so muß der Wettanbieter 1,6 zahlen<br />
bei e<strong>in</strong>er E<strong>in</strong>nahme von 3, d.h. er macht 1,4 E<strong>in</strong>heiten Gew<strong>in</strong>n, bei (0) zahlt er 3 und<br />
nimmt 3 e<strong>in</strong>, bei (2) zahlt er 4 und nimmt 3 e<strong>in</strong>. Er verliert also 1. Folglich hat er<br />
1 · 1, 4 − 1 · 1 = 0, 133 als erwarteten Gew<strong>in</strong>n, <strong>die</strong>s s<strong>in</strong>d immer noch 4,4% aller <strong>die</strong>ses Spiel<br />
3 3<br />
betreffenden Umsätze.
1.4 Geschichtliches 5<br />
1.4 Geschichtliches<br />
• Astragalus (1,3,4,6) 2000-3000 v. Chr. (Art Vorform des Würfels)<br />
• Würfel (von den Ägyptern e<strong>in</strong>geführt) 1500 v. Chr.<br />
1.4.1 Geschichte der Wahrsche<strong>in</strong>lichkeitstheorie<br />
1494 Pacioli: 1. Aufgabensammlung:<br />
2 Spieler A & B spielen „balla“.<br />
Wer zuerst 6 Spiele gew<strong>in</strong>nt, bekommt den E<strong>in</strong>satz. Beim Stand von 5:3 zugunsten<br />
von A wird das Spiel unterbrochen. Wie ist der E<strong>in</strong>satz fair zu verteilen, wenn man<br />
davon ausgeht, daß beide Spieler gleich geschickt s<strong>in</strong>d?<br />
Erst 1656 gab Pascal <strong>die</strong> richtige Antwort.<br />
1550 Cardano: Liber de Ludo Alea<br />
erstmals <strong>die</strong> Formeln P (A ∪ B) = P (A) + P (B) − P (A ∩ B)<br />
A, B unabhängig ⇒ P (A ∩ B) = P (A) · P (B)<br />
1650 Briefwechsel zwischen Fermat und Pascal<br />
1656 Huygens: De Rationiciis <strong>in</strong> Alea Ludo<br />
14. Problem aus dem Buch:<br />
Wenn e<strong>in</strong> anderer und ich abwechselnd 2 Würfel werfen, gew<strong>in</strong>ne ich wenn ich zuerst<br />
7 Punkte geworfen habe. Und er gew<strong>in</strong>nt, wenn er zuerst 6 Punkte geworfen hat.<br />
Was ist das Chancenverhältnis, wenn ich ihn anfangen lasse? (Antwort 31<br />
60 )<br />
1713 Bernoulli: Ars Conjectandi (erstmals Gesetz der großen Zahlen)<br />
1733 De Moivre: Doctr<strong>in</strong>e of Chance (erstmals zentraler Grenzwertsatz aber ohne Kenntnis<br />
der Grenzverteilung)<br />
1808 Adra<strong>in</strong> und<br />
1809 C. F. Gauss entdecken <strong>die</strong> Normalverteilung<br />
1812 Laplace: Théorie Analytique de Probabilités<br />
1890 Tchebychev, Markov: Ungleichungen etc.<br />
1900 Hilberts 6. Problem: Axiomatisierung der Wahrsche<strong>in</strong>lichkeitsrechnung<br />
1914 Borel: Le hasard,<br />
„Weniger als e<strong>in</strong>e Million Leute leben <strong>in</strong> Paris. Täglich berichten mir<br />
<strong>die</strong> Zeitungen über <strong>die</strong> merkwürdigen Ereignisse und Unfälle, <strong>die</strong> e<strong>in</strong>igen<br />
von ihnen zustoßen. Unser Leben wäre unmöglich, wenn wir uns um all<br />
<strong>die</strong> Ereignisse sorgen würden, über <strong>die</strong> wir lesen. So kann man sagen, von<br />
e<strong>in</strong>em prakitischen Standpunkt aus können wir alle Eregnisse ignorieren,<br />
<strong>die</strong> e<strong>in</strong>e Wahrsche<strong>in</strong>lichkeit kle<strong>in</strong>er als 1/1 000 000 haben.“<br />
1933 Kolmogorov: Axiomatisierung der Wahrsche<strong>in</strong>lichkeitsrechnung.
6 1 EINFÜHRUNG<br />
1.4.2 Geschichte der Statistik („Wissenschaft des Staates“)<br />
1 v. Chr. Augustus veranlasst Volkszählung<br />
1538 He<strong>in</strong>rich VIII veranlasst Volkszählung wegen Pest (Bill of Mortality)<br />
1661 John Graunt: „Natural and Political Observations upon the Bill of Mortality“<br />
Er schätzt <strong>die</strong> Größe der Bevölkerung von London auf 380.160.<br />
1693 Halley: Sterbetafeln von Breslau<br />
1800 Gauss und Legendre entdeckten <strong>die</strong> statistische Ausgleichsrechnung<br />
1880 Lexis: Epidemiologie<br />
1923 R. Fischer: Grundlegende Methoden der Statistik<br />
1933 Neyman-Peason: Testtheorie<br />
1948 A. Wald: Entscheidungstheorie
7<br />
2 Wahrsche<strong>in</strong>lichkeiten bekannter Zufallsmechanismen<br />
2.1 Elementare Mengenlehre und Sprechweisen<br />
2.1.1 Elementare Mengenlehre<br />
Wir benutzen <strong>die</strong> folgenden Bezeichnungen:<br />
Ω : Grundmenge (Menge aller möglichen Ereignisse)<br />
∅ : leere Menge<br />
∈ : enthalten se<strong>in</strong><br />
/∈ : nicht enthalten se<strong>in</strong><br />
A c : Komplement von A (<strong>in</strong> Ω)<br />
P(Ω) : Potenzmenge von Ω<br />
2.1.2 Sprechweisen<br />
A ⊂ Ω heißt „Ereignis“<br />
Ω heißt „sicheres Ereignis“<br />
∅ heißt „unmögliches Ereignis“<br />
A c heißt „Komplementärereignis von A“<br />
A ∪ B heißt „A oder B tritt e<strong>in</strong>“ (ke<strong>in</strong> ausschließendes oder)<br />
A ∩ B heißt „A und B treten e<strong>in</strong>“<br />
#A heißt „Anzahl der Elemente von A“<br />
2.2 Beispiele mit dem Würfel<br />
2.2.1 Beispiel 1: Der faire Würfel<br />
Die Grundmenge (Menge aller möglichen Ereignisse) ist Ω = {1, . . . , 6}.<br />
Ws(Ergebnis ist „i“) = 1 6<br />
(i = 1, . . . , 6)<br />
Ist A ⊂ Ω, so ist W s(A) = #A<br />
#Ω = #A<br />
6 .<br />
Hier s<strong>in</strong>d e<strong>in</strong>ige Aussagen:<br />
a) Ergebnis ist „1“ oder „2“<br />
b) Ergebnis ist gerade<br />
c) Ergebnis ist ungerade<br />
d) Ergebnis ist gerade und kle<strong>in</strong>er als „4“.<br />
Die zu <strong>die</strong>sen Aussagen gehörenden Wahrsche<strong>in</strong>lichkeiten s<strong>in</strong>d:<br />
a) {1, 2} ⇒ Ws({1, 2}) = 2 6 = 1 3
8 2 WAHRSCHEINLICHKEITEN BEKANNTER ZUFALLSMECHANISMEN<br />
b) {2, 4, 6} ⇒ Ws({2, 4, 6}) = 1 2<br />
c) {1, 3, 5} ⇒ Ws({1, 3, 5}) = 1 2<br />
d) {2} = {2, 4, 6} ∩ {1, 2, 3} ⇒ Ws({2}) = 1 6<br />
2.2.2 Beispiel 2: Zwei Würfe<br />
Betrachtet man zwei Würfe, so ist <strong>die</strong> Grundmenge Ω 2 gleich der Menge aller geordneten<br />
Paare mit E<strong>in</strong>trägen aus {1, . . . , 6}: Ω 2 = {(i, j)|1 ≤ i, j ≤ 6} = {(1, 1), (1, 2), . . . , (6, 5), (6, 6)}.<br />
Für <strong>die</strong> Wahrsche<strong>in</strong>lichkeit W s({(i, j)}) das Paar (i, j) zu würfeln gilt:<br />
W s({(i, j)}) = 1<br />
#Ω 2 = 1<br />
36 .<br />
Für A ⊂ Ω 2 ist W s(A) = #A<br />
#Ω 2 = #A<br />
36 .<br />
1. Was ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit, dass <strong>die</strong> Summe zweier Würfe gleich k ist?<br />
Sei A k := {Summe beider Würfe ist gleich k} = {(i, j) ∈ Ω 2 |i + j = k}.<br />
W s(A 2 ) =<br />
W s(A 3 ) =<br />
W s(A 4 ) =<br />
W s(A 5 ) =<br />
W s(A 6 ) =<br />
W s(A 7 ) =<br />
W s(A 8 ) =<br />
W s(A 9 ) =<br />
W s(A 10 ) =<br />
W s(A 11 ) =<br />
W s(A 12 ) =<br />
W s(A k ) =<br />
#{(1, 1)}<br />
= 1 36 36<br />
#{(1, 2), (2, 1)}<br />
= 2 36 36 = 1 18<br />
#{(1, 3), (2, 2), (3, 1)}<br />
= 3 36<br />
36 = 1 12<br />
#{(1, 4), (2, 3), (3, 2), (4, 1)}<br />
= 4 36<br />
36 = 1 9<br />
#{(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)}<br />
= 5 36<br />
36<br />
#{(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}<br />
36<br />
#{(2, 6), (3, 5), (4, 4), (5, 3), (6, 2)}<br />
= 5 36<br />
36<br />
#{(3, 6), (4, 5), (5, 4), (6, 3)}<br />
= 4 36<br />
36 = 1 9<br />
#{(4, 6), (5, 5), (6, 4)}<br />
= 3 36<br />
36 = 1 12<br />
#{(5, 6), (6, 5)}<br />
= 2 36 36 = 1 18<br />
#{(6, 6)}<br />
= 1 36 36<br />
6 − |k − 7|<br />
36<br />
= 6 36 = 1 6<br />
2. Wie hoch ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit, dass <strong>die</strong> Summe zweier Würfe kle<strong>in</strong>er gleich 10
2.2 Beispiele mit dem Würfel 9<br />
ist?<br />
W s(Summe ≤ 10) = 1 − W s(Summe > 10)<br />
2.2.3 E<strong>in</strong>schub: Produktmengen<br />
= 1 − (W s(Summe = 11) + W s(Summe = 12))<br />
= 1 − 2 36 − 1 36 = 33<br />
36 = 11<br />
12<br />
Produkt von zwei Mengen<br />
Seien A und B Mengen. Die Produktmenge von A und B ist def<strong>in</strong>iert durch:<br />
A × B := {(a, b)|a ∈ A und b ∈ B}.<br />
Für <strong>die</strong> Mächtigkeit der Produktmenge gilt: #(A × B) = #A · #B.<br />
Produkt von endlich vielen Mengen<br />
Seien A 1 , . . . , A n Mengen.<br />
Man def<strong>in</strong>iert: A 1 × . . . × A n := {(a 1 , . . . , a n )|a i ∈ A i , i = 1, . . . , n}.<br />
∏<br />
Es gilt: #(A 1 × . . . × A n ) = n #A i .<br />
i=1<br />
2.2.4 Beispiel 3: n Würfe e<strong>in</strong>es Würfels<br />
Bei n Würfen ist <strong>die</strong> Grundmenge:<br />
Ω n =<br />
}<br />
Ω × .<br />
{{<br />
. . × Ω<br />
}<br />
= {(a 1 , . . . , a n )|1 ≤ a i ≤ 6, i = 1, . . . , n}.<br />
n-mal<br />
Für A ⊂ Ω n ist W s(A) = #A<br />
#Ω n<br />
Oder <strong>in</strong> Worten: W s(A) =<br />
Anzahl der günstigen Fälle<br />
Anzahl der möglichen Fälle .<br />
Das folgende Beispiel zeigt, daß <strong>die</strong>se Formel nicht immer gilt.<br />
2.2.5 Beispiel 4: E<strong>in</strong> 2-Stufen-Experiment<br />
1. Stufe: E<strong>in</strong> Würfel wird e<strong>in</strong>mal geworfen mit Ereignis „i“.<br />
2. Stufe: Es wird i-mal gewürfelt und jedes Ereignis festgehalten.<br />
Was ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit, daß <strong>die</strong> Summe der Würfe der 2. Stufe ≤ 6 ist?<br />
Der Grundraum ist:<br />
⋃<br />
Ω = 6 ({i} × Ω i ) mit Ω i = {(a 1 , . . . , a i )|1 ≤ a j ≤ 6, j = 1, . . . , i}.<br />
i=1<br />
Das Ereignis A ist gegeben durch:<br />
⋃<br />
A = {Summe ≤ 6} = 6 ({i} × A i ) mit A i = {(a 1 , . . . , a i )|1 ≤ a j ≤ 6,<br />
i=1<br />
i∑<br />
a j ≤ 6}<br />
j=1
10 2 WAHRSCHEINLICHKEITEN BEKANNTER ZUFALLSMECHANISMEN<br />
Damit ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit, daß <strong>die</strong> Summe der Würfe der 2. Stufe ≤ 6 ist:<br />
⋃<br />
W s(A) = W s( 6 ∑<br />
({i} × A i )) = 6 ∑<br />
W s({i} × A i ) = 6 6∑<br />
W s({i}) · W s(A i ) = 1 W s(A<br />
6<br />
i ).<br />
i=1<br />
i=1<br />
Bestimme <strong>die</strong> A i und ihre Mächtigkeiten:<br />
A 1 = {1, .., 6}<br />
A 2 = {(1, 1), (1, 2), . . . , (1, 5), (2, 1), . . . , (2, 4), . . . , (5, 1)}<br />
A 3 = {(1, 1, 1), . . . , (4, 1, 1)}<br />
.<br />
#A 1 = 6<br />
#A 2 = 15<br />
#A 3 = 20<br />
#A 4 = 15<br />
#A 5 = 6<br />
#A 6 = 1<br />
Somit ist <strong>die</strong> gesuchte Wahrsche<strong>in</strong>lichkeit<br />
W s(Summme ≤ 6) = 1 15<br />
(1 + + 20 + 15 + 6 + 1 ) = 0, 254.<br />
6 6 2 6 3 6 4 6 5 6 6<br />
i=1<br />
i=1<br />
2.3 Etwas anderere Würfel<br />
Schere-Ste<strong>in</strong>-Papier:<br />
Zwei Spieler treten gegene<strong>in</strong>ander an. Auf e<strong>in</strong> Kommando formen beide ihre Hand entweder<br />
zu „Schere“, zu „Ste<strong>in</strong>“ oder zu „Papier“. Es gilt: Ste<strong>in</strong>>Schere>Papier>Ste<strong>in</strong>.<br />
Das bedeutet: Ste<strong>in</strong> gew<strong>in</strong>nt gegen Schere, Schere gew<strong>in</strong>nt gegen Papier und Papier gew<strong>in</strong>nt<br />
gegen Ste<strong>in</strong>.<br />
Efron-Würfel:<br />
E<strong>in</strong>e Variante zu Schere-Ste<strong>in</strong>-Papier ist <strong>die</strong> zufällige Auswahl von je 2 Efron-Würfeln.<br />
Das s<strong>in</strong>d drei unterschiedliche Würfel A, B, C, auf denen <strong>die</strong> folgenden Zahlen stehen:<br />
A ↔ (1, 6, 8), B ↔ (2, 4, 9), C ↔ (3, 5, 7).<br />
Die Wahrsche<strong>in</strong>lichkeiten, daß mit e<strong>in</strong>em Würfel e<strong>in</strong>e höhere Zahl gewürfelt wird als mit<br />
e<strong>in</strong>em anderen, betragen:<br />
W s(A > B) = 4 9 , W s(B > C) = 4 9 , W s(C > A) = 4 9 ,<br />
denn<br />
W s(A < B) = W s({A = 1}) + W s(A = 8, B = 9) + W s(A = 6, B = 9)<br />
= 1 3 + 1 3 · 1<br />
3 + 1 3 · 1<br />
3<br />
= 5 9 .<br />
Damit ist ke<strong>in</strong> Würfel besser als <strong>die</strong> beiden anderen.
2.4 Das Münzwurfmodell 11<br />
2.4 Das Münzwurfmodell<br />
2.4.1 Die p-Münze<br />
Die möglichen Ergebnisse bei e<strong>in</strong>em Münzwurf s<strong>in</strong>d „Zahl“ und „Wappen“ bzw. „1“ und<br />
„0“. Die Grungmenge ist also Ω = {0, 1}. Die Wahrsche<strong>in</strong>lichkeit für Zahl ist W s(1) = p,<br />
<strong>die</strong> Wahrsche<strong>in</strong>lichkeit für Wappen ist W s(0) = 1 − p (Modell e<strong>in</strong>er p-Münze).<br />
Ist p = 1 , so sprechen wir vom fairen Münzwurf.<br />
2<br />
Warum ist <strong>die</strong> Annahme p ≠ 1 2 s<strong>in</strong>nvoll?<br />
Drei Beispiele dazu:<br />
a) Würfel<br />
1, falls Ergebnis beim Würfel = 6: W s(1) = 1 6 ,<br />
0, falls Ergebnis beim Würfel ≠ 6: W s(0) = 5 6 .<br />
In <strong>die</strong>sem Fall ist p = 1 6 .<br />
b) Wahlumfrage<br />
1, falls Ja zur CDU: W s(1) = 0, 46,<br />
0, falls Ne<strong>in</strong> zur CDU: W s(0) = 0, 54.<br />
In <strong>die</strong>sem Fall ist p = 0, 46.<br />
c) Roulette<br />
1, falls Ergebnis „Rot“: W s(1) = 18<br />
37<br />
0, falls Ergebnis „nicht Rot“ (also „Schwarz oder Zéro“): W s(0) = 19<br />
In <strong>die</strong>sem Fall ist p = 18.<br />
37<br />
Wie e<strong>in</strong>en Würfel kann man auch e<strong>in</strong>e p-Münze mehrfach werfen:<br />
37 .<br />
2.4.2 Zwei Würfe<br />
Hier ist <strong>die</strong> Grundmenge Ω 2 = {(1, 1), (1, 0), (0, 1), (0, 0)}.<br />
W s((1, 1)) = p 2 , W s((1, 0)) = p(1 − p),<br />
W s((0, 1)) = (1 − p)p, W s((0, 0)) = (1 − p) 2 .<br />
Die Wahrsche<strong>in</strong>lichkeit <strong>in</strong> zwei Würfen genau e<strong>in</strong>e 1 zu werfen ist:<br />
W s(<strong>in</strong> zwei Würfen genau e<strong>in</strong>e 1) = W s((1, 0)) + W s((0, 1)) = 2p(1 − p).<br />
2.4.3 n Münzwürfe<br />
Beispiel n = 5<br />
W s({(1, 1, 0, 0, 1)}) = W s(1)W s(1)W s(0)W s(0)W s(1) = p 3 (1 − p) 2<br />
Allgeme<strong>in</strong>: Die Grundmenge ist Ω n = {(e 1 , . . . , e n )|e i ∈ {0, 1}, i = 1, . . . , n}.<br />
Sei (α 1 , . . . , α n ) e<strong>in</strong>e gegebene 0-1-Folge der Länge n. Dann gilt für <strong>die</strong> Wahrsche<strong>in</strong>lichkeit,<br />
daß mit n Würfen genau <strong>die</strong> Folge (α 1 , . . . , α n ) geworfen wird:<br />
nP<br />
α i<br />
W s((α 1 , . . . , α n )) = pi=1<br />
(1 − p) n− P n α i ∑<br />
i=1 = p k (1 − p) n−k mit k = n α i ,<br />
k= Anzahl der „1“ <strong>in</strong> der Folge (α 1 , . . . , α n ).<br />
i=1
12 2 WAHRSCHEINLICHKEITEN BEKANNTER ZUFALLSMECHANISMEN<br />
2.4.4 B<strong>in</strong>omialverteilung<br />
Frage: Was ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit p k mit e<strong>in</strong>er p-Münze <strong>in</strong> n Würfen k E<strong>in</strong>sen zu<br />
werfen?<br />
p k = W s({(e 1 , . . . , e n ) ∈ Ω n |<br />
=<br />
∑<br />
n∑<br />
e i = k})<br />
i=1<br />
nP<br />
(α 1 ,...,α n)∈{(e 1 ,...,e n)∈Ω n | e i =k}<br />
i=1<br />
= #{(e 1 , . . . , e n ) ∈ Ω n |<br />
=<br />
( n<br />
k)<br />
p k (1 − p) n−k<br />
W s((α 1 , . . . , α n ))<br />
n∑<br />
e i = k} · p k (1 − p) n−k<br />
i=1<br />
( n<br />
)<br />
k heißt B<strong>in</strong>omialkoeffizient und beschreibt <strong>die</strong> Anzahl der k-elementigen Teilmengen<br />
e<strong>in</strong>er n-elementigen Menge. Aus der Analysisvorlesung istbekannt daß ( )<br />
n =<br />
n!<br />
n! = n(n − 1)(n − 2) . . . 1. (B<strong>in</strong>omische Formel (a + b) n = n ∑<br />
Aufgrund der B<strong>in</strong>omischen Formel gilt ∑ p k = 1.<br />
k<br />
k=0<br />
( n<br />
k<br />
k<br />
k!(n−k)!<br />
mit<br />
)<br />
a k b n−k , n ∈ N, a, b ∈ R)
13<br />
3 Grundbegriffe<br />
3.1 Diskreter Wahrsche<strong>in</strong>lichkeitsraum<br />
3.1.1 Def<strong>in</strong>ition (Diskreter Wahrsche<strong>in</strong>lichkeitsraum)<br />
E<strong>in</strong> diskreter Wahrsche<strong>in</strong>lichkeitsraum (Ω, P ) besteht aus e<strong>in</strong>er höchstens abzählbaren<br />
Menge Ω und e<strong>in</strong>er Abbildung P : P(Ω) → [0, 1] mit den folgenden Eigenschaften:<br />
a) P (Ω) = 1<br />
⋃<br />
b) P ( ∞ ∑<br />
A i ) = ∞ P (A i ) für jede Folge A i (A i ⊂ Ω, i = 1, 2, . . .) mit A i ∩A j = ∅ für i ≠ j.<br />
i=1<br />
i=1<br />
Bemerkung<br />
Die Abbildung P : P(Ω) → [0, 1] heißt diskretes Wahrsche<strong>in</strong>lichkeitsmaß. Ω heißt Grundraum.<br />
P (A) heißt Wahrsche<strong>in</strong>lichkeit von A. P(Ω) bezeichnet <strong>die</strong> Potenzmenge von Ω.<br />
3.1.2 Def<strong>in</strong>ition (Wahrsche<strong>in</strong>lichkeitsfunktion)<br />
Sei Ω e<strong>in</strong>e nichtleere höchstens abzählbar Menge. E<strong>in</strong>e Abbildung p : Ω → [0, 1] heißt<br />
Wahrsche<strong>in</strong>lichkeitsfunktion, falls ∑ ω∈Ω<br />
p(ω) = 1.<br />
3.1.3 Satz 1 (Zusammenhang zwischen Ws-Maß und Ws-Funktion)<br />
1. Sei p e<strong>in</strong>e Wahrsche<strong>in</strong>lichkeitsfunktion auf Ω und A ⊂ Ω.<br />
Durch P (A) := ∑ ω∈A<br />
p(ω) wird e<strong>in</strong> Ws-Maß def<strong>in</strong>iert.<br />
2. Sei P e<strong>in</strong> Ws-Maß.<br />
Durch p : Ω → [0, 1], p(ω) := P ({ω}) wird e<strong>in</strong>e Wahrsche<strong>in</strong>lichkeitsfunktion erklärt.<br />
Der Satz besagt: Wahrsche<strong>in</strong>lichkeitsmaß und Wahrsche<strong>in</strong>lichkeitsfunktion stehen <strong>in</strong> e<strong>in</strong>e<strong>in</strong>deutiger<br />
Beziehung zue<strong>in</strong>ander.<br />
Beweis:<br />
Zu (1): Es s<strong>in</strong>d <strong>die</strong> Eigenschaften des Wahrsche<strong>in</strong>lichkeitsmaßes nachzuweisen.<br />
a) P (Ω) = ∑ Def<strong>in</strong>ition<br />
{}}{<br />
p(ω) = 1.<br />
ω∈Ω<br />
b) Seien A i ⊂ Ω, i ≥ 1 disjunkt. Dann ist:<br />
⋃<br />
P ( ∞ A i ) =<br />
∑ Reihenumordnungssatz<br />
{}}{ ∞∑ ∑ ∑<br />
p(ω) =<br />
p(ω) = ∞ P (A<br />
i=1 ω∈ S i ).<br />
A i i=1 ω∈A i i=1<br />
Zu<br />
∑<br />
(2): Es ist <strong>die</strong> Eigenschaft der Wahrsche<strong>in</strong>lichkeitsfunktion nachzuprüfen.<br />
p(ω) = ∑ P ({ω}) = P ( ⋃ {ω}) = P (Ω) = 1.<br />
ω∈Ω ω∈Ω<br />
ω∈Ω
14 3 GRUNDBEGRIFFE<br />
3.1.4 Beispiele<br />
1. Würfel: Ω = {1, 2, . . . , 6}, p(ω) = 1 6 .<br />
2. Fairer Münzenwurf: Ω n = {ω = (ω 1 , . . . , ω n )|ω i ∈ {0, 1}, i = 1, ..., n}, p(ω) = 1<br />
2 n .<br />
3. Gleichverteilung: Ω endlich, p(ω) = 1<br />
#Ω .<br />
4. B<strong>in</strong>omialverteilung: Ω = {0, 1, . . . , n} und 0 < p < 1,<br />
p(ω) = ( n<br />
ω)<br />
p ω (1 − p) n−ω .<br />
5. Poisson-Verteilung: Ω = {0, 1, 2, . . .} = N ∪ {0}, λ > 0.<br />
p(ω) = λω<br />
ω! e−λ , ∑ p(ω) = 1, denn ∑<br />
ω∈Ω<br />
ω<br />
p(ω) = e −λ<br />
∞ ∑<br />
ω=0<br />
λ ω<br />
ω!<br />
= e −λ e λ = 1.<br />
6. Empirische Verteilung beim Würfel: Ω = {1, . . . , 6}.<br />
E<strong>in</strong> Würfel werde n-mal geworfen. n ω sei <strong>die</strong> Anzahl der Würfe mit Ergebnis ω.<br />
6∑<br />
Dann ist n ω = n. p(ω) = nω , 6∑<br />
p(ω) = 1, p selbst ist hierbei zufällig.<br />
n<br />
ω=1<br />
ω=1<br />
3.1.5 Folgerungen aus der Def<strong>in</strong>ition:<br />
(1) P (∅) = 0,<br />
⋃<br />
(2) P ( n ∑<br />
A i ) = n P (A i ) für A i disjunkt,<br />
i=1<br />
i=1<br />
⋃<br />
(3) P ( ∞ ∑<br />
A i ) ≤ ∞ P (A i ) für beliebige A i ⊂ Ω,<br />
i=1<br />
i=1<br />
⋃<br />
(4) P ( n ∑<br />
A i ) ≤ n P (A i ) für beliebige A i ⊂ Ω,<br />
i=1<br />
i=1<br />
(5) P (A c ) = 1 − P (A),<br />
(6) P (A) ≤ P (B) falls A ⊂ B,<br />
(7) P (A ∪ B) = P (A) + P (B) − P (A ∩ B),<br />
∑<br />
(8) P (A 1 ∪ . . . ∪ A n ) = n ∑<br />
(−1) k−1 P (A i1 ∩ . . . ∩ A ik ).<br />
k=1 {i 1 ,...,i k }∈P k<br />
Dabei ist P k <strong>die</strong> Menge aller k-elementigen Teilmengen der Menge {1, . . . , n}.<br />
(9) Sei A n ⊂ Ω, A n ⊂ A n+1 für n ≥ 1 und A = ∞ ⋃<br />
(10) Sei A n ⊂ Ω, A n ⊃ A n+1 für n ≥ 1 und A = ∞ ⋂<br />
i=1<br />
n=1<br />
A i . Dann gilt P (A) = lim<br />
n→∞<br />
P (A n ).<br />
A n . Dann gilt P (A) = lim<br />
n→∞<br />
P (A n ).
3.1 Diskreter Wahrsche<strong>in</strong>lichkeitsraum 15<br />
Beweis:<br />
Zu (1): P (∅) = P (∪ n∈N ∅) = ∑ n∈N<br />
P (∅). Da P (∅) ∈ [0, 1], folgt P (∅) = 0.<br />
Zu (2): Seien A 1 , . . . , A n ⊂ Ω disjunkt. Setze A i = ∅ für i > n. Dann ist:<br />
⋃<br />
P ( n ⋃<br />
A i ) = P ( ∞ Def<strong>in</strong>ition<br />
{}}{ ∞∑ ∑<br />
A i ) = P (A i ) = n ∑<br />
P (A i ) +<br />
∞ (1)<br />
{}}{ ∑<br />
P (∅) = n P (A i ).<br />
i=1<br />
i=1<br />
i=1<br />
i=1<br />
i=n+1<br />
Zu (4): (4) ist e<strong>in</strong> Spezialfall von (3). Setze <strong>in</strong> (3) A i = ∅ für i > n. Dann ist:<br />
⋃<br />
P ( n ⋃<br />
A i ) = P ( n ⋃<br />
A i ) + P (∅) = P ( n ⋃<br />
A i ) + P ( ∞<br />
i=1<br />
∑<br />
= n P (A i ) +<br />
i=1<br />
i=1<br />
∞ ∑<br />
i=n+1<br />
(1)<br />
i=1<br />
{}}{ ∑<br />
P (∅) = n P (A i ).<br />
i=1<br />
i=n+1<br />
i=1<br />
i=1<br />
(3)<br />
⋃<br />
A i ) = P ( ∞ {}}{<br />
A i ) ≤<br />
∞ ∑<br />
i=1<br />
P (A i )<br />
Zu (5): P (A)+P (A c ) = P (A∪A c ) = P (Ω) = 1. Subtraktion von P (A) auf beiden Seiten<br />
ergibt <strong>die</strong> Behauptung P (A c ) = 1 − P (A).<br />
Zu (6): Sei A ⊂ B. Dann ist B = A ∪ (A c ∩ B), A und A c ∩ B s<strong>in</strong>d disjunkt. Also gilt<br />
nach (2): P(B) = P (A) + P (A c ∩ B) ≥ P (A).<br />
Zu (7): Für A und B gilt: B = (A ∩ B) ∪ (A c ∩ B) und <strong>die</strong> Mengen A ∩ B und A c ∩ B<br />
s<strong>in</strong>d disjunkt. Also ist P (B) = P (A ∩ B) + P (A c ∩ B) und damit:<br />
(∗) P (A c ∩ B) = P (B) − P (A ∩ B).<br />
Abbildung 1: A c ∩ B<br />
Daraus folgt: P (A ∪ B) = P (A) + P (A c {}}{<br />
∩ B) = P (A) + P (B) − P (A ∩ B).<br />
(∗)<br />
Etwas allgeme<strong>in</strong>er:<br />
P (A ∩ B ∩ C) = P (A) + P (B) + P (C) − P (A ∩ B) − P (A ∩ C) − P (B ∩ C) + P (A ∩ B ∩ C).<br />
Zu (8) :<br />
Wir schreiben <strong>die</strong> Aussage wie folgt um:<br />
( ⋃ n<br />
P A i ) =<br />
i=1<br />
∑<br />
I⊂{1,...,n}<br />
)<br />
(−1) |I|−1 P<br />
(A I<br />
Dabei ist A I := ⋂ i∈I A i und I bezeichnet e<strong>in</strong>e nichtleere Teilmenge von {1, . . . , n}.
16 3 GRUNDBEGRIFFE<br />
Zeige <strong>die</strong> rechte Seite ist gleich der l<strong>in</strong>ken. Sei J w = {i | w ∈ A i }. Dann gilt w ∈ A I genau<br />
dann, wenn I ⊂ J w . Die rechts Seite ist folglich gleich<br />
∑<br />
I⊂{1,...,n}<br />
Sei nun |J w | = j ≥ 1.<br />
( ∑ )<br />
(−1) |I|−1 p(w) = ∑<br />
w∈A I<br />
w∈ S n<br />
i=1 A i<br />
( ∑ )<br />
p(w) (−1) |I|−1 .<br />
I⊂J w<br />
Dann gilt<br />
∑<br />
(−1) |I|−1 =<br />
I⊂J w<br />
j∑<br />
( ) j<br />
(−1) i−1 i<br />
i=1<br />
= 1 −<br />
= 1<br />
j∑<br />
( ) j<br />
(−1) i i<br />
i=1<br />
Der 2. Term ist gleich null wegen der b<strong>in</strong>omischen Formel.<br />
E<strong>in</strong>setzen liefert <strong>die</strong> Behauptung.<br />
Zu (9): A ist <strong>die</strong> abzählbare Vere<strong>in</strong>igung der disjunkten Mengen B 1 := A 1 , B 2 := A 2 \A 1 ,<br />
B 3 := A 3 \A 2 , . . ., und A n ist <strong>die</strong> endliche disjunkte Vere<strong>in</strong>igung der Mengen B 1 , . . . , B n .<br />
⋃<br />
Also gilt: P (A) = P ( ∞ Def<strong>in</strong>ition<br />
(2)<br />
{}}{ ∞∑<br />
n∑ {}}{ ⋃<br />
B i ) = P (B i ) = lim P (B i ) = lim P ( n B i ) = lim P (A n ).<br />
n→∞ n→∞<br />
i=1<br />
i=1<br />
n→∞ i=1<br />
⋂<br />
Zu (10): Mit A n ⊃ A n+1 für n = 1, 2, 3, . . . und A = ∞ A i gilt auch A c n ⊂ A c n+1 für<br />
⋃<br />
n = 1, 2, 3, . . . und A c = ∞ A c i.<br />
i=i<br />
(9)<br />
Also gilt: P (A) = 1 − P (A c {}}{<br />
) = 1 − lim P (A c<br />
n→∞<br />
n) = 1 − ( lim (1 − P (A n )) = lim P (A n ).<br />
n→∞ n→∞<br />
i=1<br />
i=1<br />
Beispiel zur Stetigkeit des Wahrsche<strong>in</strong>lichkeitsmaßes<br />
Wir betrachten e<strong>in</strong>e p-Münze mit 0 < p ≤ 1.<br />
Behauptung: Wenn man e<strong>in</strong>e p-Münze mehrfach wirft, kommt irgendwann e<strong>in</strong>e „1“. Man<br />
muß nur oft genug werfen. In Formeln: P (irgendwann kommt „1“) = 1.<br />
Beweis:<br />
1. Möglichkeit: Der Grundraum ist hier <strong>die</strong> Menge aller unendlich langen 0-1-Folgen<br />
Ω = {(ω 1 , ω 2 , . . .)|ω i ∈ {0, 1}} und unser Ereignis ist A = {irgendwann kommt „1“}.<br />
Wir def<strong>in</strong>ieren <strong>die</strong> Ereignisse A n := {unter den ersten n Würfen kommt e<strong>in</strong>e „1“}<br />
(n = 1, 2, 3, . . .). Dann s<strong>in</strong>d <strong>die</strong> Komplementärereignisse zu A und den A n :<br />
A c = {(ω 1 , ω 2 , . . .)|ω i = 0, i = 1, 2, 3, . . .} = {(0, 0, 0, . . .)},<br />
A c n = {((0, . . . , 0<br />
} {{ }<br />
n-mal ′ 0 ′ , ω n+1 , . . .)|ω n+i ∈ {0, 1} für i ≥ 1}.
3.1 Diskreter Wahrsche<strong>in</strong>lichkeitsraum 17<br />
⋂<br />
Da A c n ⊃ A c n+1 für alle n und A c = ∞ A c n, können wir Formel (10) aus den Folgerungen<br />
i=1<br />
anwenden: P (A c ) = lim P (A c<br />
n→∞<br />
n) = lim (1 − p) n = 0. Damit ist P (A) = 1 − P (A c ) = 1.<br />
n→∞<br />
2. Möglichkeit: Man kann <strong>die</strong>s auch so erhalten:<br />
∑<br />
P (irgendwann kommt „1“) = ∞ P („1“ kommt erstmals im i-ten Wurf)<br />
i=1<br />
∑<br />
= ∞ ∑<br />
P ({( 0, . . . , 0 , 1)}) = ∞ ∑<br />
(1 − p)<br />
i=1<br />
} {{ }<br />
i−1 p = p ∞ (1 − p) j 1<br />
= p = 1.<br />
1−(1−p)<br />
i=1<br />
j=0<br />
(i−1)-mal ′ 0 ′<br />
Fixpunktfreie Permutationen<br />
Das ist e<strong>in</strong> Beispiel für Po<strong>in</strong>carés E<strong>in</strong>- und Ausschlußformel.<br />
Aufgabe: n Personen kommen mit je e<strong>in</strong>em Geschenk zu e<strong>in</strong>er Party. Die Geschenke<br />
werden zufällig unter den Gästen verteilt. Wie groß ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit, dass m<strong>in</strong>destens<br />
e<strong>in</strong>e Person ihr Geschenk zurückerhält?<br />
Lösung: Nummeriere <strong>die</strong> Personen von 1, . . . , n. Die Permutation ω = (ω 1 , ω 2 , . . . , ω n )<br />
bedeute, daß Person 1 das Geschenk von Person ω 1 erhält, Person 2 erhält das Geschenk<br />
von Person ω 2 , . . . und Person n erhält das Geschenk von Person ω n . Die Menge all <strong>die</strong>ser<br />
Permutationen ergibt den Grundraum Ω = {ω = (ω 1 , . . . , ω n )|1 ≤ ω i ≤ n, ω i ≠ ω j , i ≠ j}.<br />
Jede <strong>die</strong>ser Permutationen soll mit gleicher Wahrsche<strong>in</strong>lichkeit e<strong>in</strong>treten. Wir können also<br />
von e<strong>in</strong>er Gleichverteilung auf Ω ausgehen. Da #Ω = n!, gilt für <strong>die</strong> Wahrsche<strong>in</strong>lichkeitsfunktion<br />
p(ω) = 1 und für das Wahrsche<strong>in</strong>lichkeitsmaß P (A) = #A .<br />
n! #Ω<br />
A i sei das Ereignis, daß Person i ihr Geschenk zurückerhält (i = 1, . . . , n). Also ist das<br />
Ereignis A, daß m<strong>in</strong>destens e<strong>in</strong>e Person ihr Geschenk zurückerhält A = A 1 ∪ . . . ∪ A n . Mit<br />
der E<strong>in</strong>- und Ausschlußformel läßt sich <strong>die</strong>ser Ausdruck umformen zu:<br />
∑<br />
P (A 1 ∪ . . . ∪ A n ) = n ∑<br />
(−1) k−1 P (A i1 ∩ . . . ∩ A ik ).<br />
k=1 {i 1 ,...,i k }∈P k<br />
Berechnen wir nun P (A i1 ∩ . . . ∩ A ik ):<br />
A i1 ∩ . . . ∩ A ik ist <strong>die</strong> Menge der Permutationen, <strong>die</strong> <strong>die</strong> Punkte i 1 , . . . , i k als Fixpunkte<br />
haben. O.B.d.A. seien <strong>die</strong>s <strong>die</strong> Punkte 1, . . . , k. Die Anzahl der Permutationen, <strong>die</strong> <strong>die</strong><br />
ersten k Elemente als Fixpunkte haben, ist gleich der Anzahl der Permutationen der<br />
übrigen n − k Elemente, also (n − k)!. Damit ist:<br />
P (A i1 ∩ . . . ∩ A ik ) = P (A 1 ∩ . . . ∩ A k ) = #(A 1∩...∩A k )<br />
= (n−k)! .<br />
#Ω n!<br />
Zurück zur Aufgabe: Mit der gefundenen Beziehung ergibt sich weiter:<br />
∑<br />
P (A 1 ∪ . . . ∪ A n ) = n ∑<br />
∑<br />
= n (−1) k−1( )<br />
n (n−k)!<br />
n! k n!<br />
( n k)= n!<br />
k!(n−k)!<br />
{}}{<br />
=<br />
(−1) k−1 (n−k)!<br />
k=1 {i 1 ,...,i n}∈P k<br />
n∑<br />
(−1) k−1 1 = 1 − ∑ n (−1) k 1 .<br />
k! k!<br />
k=1<br />
k=0<br />
Die Wahrsche<strong>in</strong>lichkeit, daß m<strong>in</strong>destens e<strong>in</strong> Gast se<strong>in</strong> Geschenk zurückerhält ist folglich:<br />
∑<br />
1 − n<br />
k=0<br />
(−1) k<br />
k!<br />
.<br />
Für sehr viele Gäste (n → ∞) konvergiert <strong>die</strong>se Wahrsche<strong>in</strong>lichkeit gegen 1 − e −1 .<br />
k=1
18 3 GRUNDBEGRIFFE<br />
Das Komplementärereignis hierzu ist, daß ke<strong>in</strong> Gast se<strong>in</strong> mitgebrachtes Geschenk zurückerhält.<br />
Die Wahrsche<strong>in</strong>lichkeit dafür konvergiert gegen e −1 ∼ = 0, 37. Folglich s<strong>in</strong>d für große<br />
n etwa 37% aller Permutationen fixpunktfrei.
19<br />
4 Gleichverteilungen und Komb<strong>in</strong>atorik<br />
4.1 Die Gleichverteilung<br />
4.1.1 Die Gleichverteilung<br />
Bei der Gleichverteilung betrachten wir e<strong>in</strong>en endlichen Grundraum Ω und gehen davon<br />
aus, daß alle Elementarereignisse aus Ω mit der gleichen Wahrsche<strong>in</strong>lichkeit e<strong>in</strong>treten.<br />
(E<strong>in</strong> Element ω ∈ Ω heißt Elementarereignis.)<br />
Aus 1 = ∑ p(ω) = #Ω · p(ω) folgt p(ω) = 1 für alle ω ∈ Ω.<br />
#Ω<br />
ω∈Ω<br />
Für A ⊂ Ω gilt: P (A) = #A<br />
Anzahl der günstigen Fälle<br />
. In Worten: P (A) = .<br />
#Ω Anzahl der möglichen Fälle<br />
E<strong>in</strong> Gleichverteilungsproblem besteht also <strong>in</strong> der Bestimmung der Anzahl der günstigen<br />
Fälle und der Anzahl der möglichen Fälle.<br />
4.1.2 E<strong>in</strong>leitendes Beispiel<br />
In e<strong>in</strong>er Urne s<strong>in</strong>d 5 weiße und 4 schwarze nicht nummerierte Kugeln. Es werden 3 Kugeln<br />
gezogen. Was ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit 2 weiße und e<strong>in</strong>e schwarze Kugel zu ziehen?<br />
Die Anzahl der möglichen Fälle ist ( 9<br />
3)<br />
. Die Anzahl der günstigen Fälle ist<br />
( 5<br />
2)( 4<br />
1)<br />
.<br />
Die gesuchte Wahrsche<strong>in</strong>lichkeit beträgt also (5 2)( 4 1)<br />
( 9 3)<br />
= 10<br />
21 .<br />
4.2 Das Komb<strong>in</strong>ationspr<strong>in</strong>zip<br />
4.2.1 Das Komb<strong>in</strong>ationspr<strong>in</strong>zip <strong>in</strong> Worten<br />
Sei Ω e<strong>in</strong>e Menge von n-Tupeln ω = (ω 1 , . . . , ω n ), <strong>die</strong> man als Ergebnisse e<strong>in</strong>es aus n<br />
Teilexperimenten bestehenden Zufallsexperiments auffassen kann, wobei ω i das Ergebnis<br />
des i-ten Teilexperiments ist. Für das erste Teilexperiment gebe es k 1 mögliche Ausgänge.<br />
Für jedes i sei k i <strong>die</strong> Zahl der möglichen Ausgänge des i-ten Teilexperimentes, unabhängig<br />
davon wie <strong>die</strong> früheren Teilexperimente ausgegangen s<strong>in</strong>d. Dann ist #Ω = k 1 . . . k n .<br />
4.2.2 Das Komb<strong>in</strong>ationspr<strong>in</strong>zip <strong>in</strong> Formeln<br />
Seien A 1 , A 2 , . . . , A n endliche Mengen und Ω ⊂ A 1 × . . . × A n .<br />
Sei k j ∈ N mit k 1 = |A 1 |, k j ≤ |A j | für j = 2, . . . , n.<br />
Sei Ω j ω ′ 1 ,...,ω′ j−1<br />
= {(ω 1 , . . . , ω j )|ω i = ω ′ i, i = 1, . . . , j − 1} für j = 2, . . . , n und<br />
sei Ω = {(ω 1 , . . . , ω n )|ω 1 ∈ A 1 , (ω 1 , . . . , ω i ) ∈ Ω i ω 1 ,...,ω i−1<br />
für i = 2, . . . , n}.<br />
∏<br />
Gilt für j = 2, . . . , n |Ω j ω 1 ,...,ω j−1<br />
| = k j für alle (ω 1 , . . . , ω j−1 ), so folgt #Ω = n k j .<br />
j=1
20 4 GLEICHVERTEILUNGEN UND KOMBINATORIK<br />
4.3 Urnen- und Schachtelmodelle<br />
4.3.1 Das Urnenmodell<br />
In e<strong>in</strong>er Urne seien N nummerierte Kugeln. Man zieht n-mal aus der Urne e<strong>in</strong>e Kugel. Man<br />
kann mit oder ohne Zurücklegen und mit oder ohne Beachtung der Reihenfolge ziehen.<br />
Folgende vier Fälle werden unterschieden:<br />
1) Ziehen mit Zurücklegen und mit Beachtung der Reihenfolge.<br />
2) Ziehen mit Zurücklegen und ohne Beachtung der Reihenfolge.<br />
3) Ziehen ohne Zurücklegen und mit Beachtung der Reihenfolge.<br />
4) Ziehen ohne Zurücklegen und ohne Beachtung der Reihenfolge.<br />
4.3.2 Das Schachtelmodell<br />
E<strong>in</strong> komplementäres Modell ist das Schachtelmodell.<br />
Es werden n Kugeln auf N nummerierte Schachteln verteilt. Man kann nun Mehrfachbelegungen<br />
der Schachteln zulassen oder nicht und man kann <strong>die</strong> Kugeln nummerieren oder<br />
nicht. Auch hier gibt es vier Möglichkeiten:<br />
1) Verteilung mit Mehrfachbesetzung und mit Nummerierung.<br />
2) Verteilung mit Mehrfachbesetzung und ohne Nummerierung.<br />
3) Verteilung ohne Mehrfachbesetzung und mit Nummerierung.<br />
4) Verteilung ohne Mehrfachbesetzung und ohne Nummerierung.<br />
4.3.3 Zusammenhang zwischen Urnenmodell und Schachtelmodell<br />
Zwischen dem Urnenmodell und dem Schachtelmodell besteht e<strong>in</strong> ganz enger Zusammenhang.<br />
Die Fragen: „Wie viele Möglichkeiten gibt es n Kugeln aus e<strong>in</strong>er Urne mit N Kugeln<br />
zu ziehen?“ und „Wie viele Möglichkeiten gibt es n Kugeln auf N Schachteln zu verteilen?“<br />
s<strong>in</strong>d äquivalent. Dabei ist das Zurücklegen <strong>in</strong> <strong>die</strong> Urne äquivalent zur Mehrfachbesetzung<br />
der Schachteln und das Beachten der Reihenfolge ist äquivalent zur Angabe der Schachtelnummern,<br />
<strong>in</strong> <strong>die</strong> <strong>die</strong> Kugeln fallen.<br />
So gibt es zum Beispiel genau so viele Möglichkeiten 3 Kugeln aus e<strong>in</strong>er Urne mit 8 Kugeln<br />
ohne Zurücklegen und mit Beachtung der Reihenfolge zu ziehen wie es Möglichkeiten gibt<br />
3 nummerierte Kugeln auf 8 Schachteln zu verteilen.<br />
4.3.4 Anzahl der Elemente der Grundräume<br />
Hier ist e<strong>in</strong>e Übersicht, wie man <strong>die</strong> Anzahl der möglichen Fälle berechnet. Dabei bedeutet<br />
[N] n := (n+N−1)! = N(N + 1) . . . (N + n − 1) <strong>die</strong> ober Faktorielle und<br />
(N−1)!<br />
[N] n := N! = N(N − 1) . . . (N − n + 1) <strong>die</strong> unter Faktorielle.<br />
(N−n)!
4.3 Urnen- und Schachtelmodelle 21<br />
Urnenmodell mit Zurücklegen ohne Zurücklegen<br />
mit Reihenfolge N n [N] n nummeriert<br />
[N]<br />
ohne Reihenfolge<br />
n<br />
[N] n<br />
= ( )<br />
N<br />
nicht nummeriert<br />
n!<br />
n! n<br />
mit Mehrfachbesetzung ohne Mehrfachbesetzung Schachtelmodell<br />
4.3.5 Beispiel: Lotto „6 aus 49“<br />
Tabelle 1: Urnenmodell und Schachtelmodell<br />
In e<strong>in</strong>er Urne bef<strong>in</strong>den sich 49 nummerierte Kugeln. Davon werden 6 ohne Zurücklegen<br />
gezogen. Es kommt nur auf <strong>die</strong> gezogenen Nummern an, nicht auf deren Reihenfolge.<br />
Die Mächtigkeit des Grundraumes ist somit ( )<br />
49<br />
6 . Für i richtig getippte Zahlen ist <strong>die</strong><br />
Anzahl der günstigen Fälle ( )(<br />
6 43<br />
i 6−i)<br />
. Somit ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit für „i Richtige“:<br />
P („i“ Richtige) = i)( 6−i) (6 43<br />
, 1 ≤ i ≤ 6.<br />
( 49 6 )<br />
6−(i+1))<br />
( 49<br />
6 )<br />
P („i“ Richtige mit Zusatzzahl) = (1 1)( 6 i)(<br />
42<br />
, 0 ≤ i ≤ 5.<br />
Die Chance für „6-Richtige“ ist: P (“i = 6 ′′ ) = 1<br />
( 49<br />
6 ) = 1<br />
13.983.816<br />
Richtige Günstige Fälle Chance<br />
6R 1 1/13983816<br />
5R+Z 6 1/2330636<br />
5R 258 1/54200<br />
4R+Z 630 1/22196<br />
4R 13545 1/1032<br />
3R 246820 1/57<br />
Tabelle 2: Lotto ’6 aus 49’<br />
4.3.6 E<strong>in</strong>e komb<strong>in</strong>atorische Aufgabe<br />
In e<strong>in</strong>er Urne seien n weiße und n schwarze Kugeln. n Personen ziehen je zwei Kugel ohne<br />
Zurücklegen und ohne Beachtung der Reihenfolge.<br />
Frage: Wie hoch ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit, daß jede Personen e<strong>in</strong>e weiße und e<strong>in</strong>e schwarze<br />
Kugel zieht?<br />
Antwort: Sei A = {1, 2, . . . , n, n + 1, . . . , 2n} <strong>die</strong> Menge der Kugeln <strong>in</strong> der Urne. Der<br />
} {{ } } {{ }<br />
weiß schwarz<br />
⋃<br />
Grundraum ist dann: Ω = {({a 1 , b 1 }, . . . , {a n , b n })|a i , b i ∈ A, n {a i , b i } = A}.<br />
Die erste Person zieht zwei Kugeln ohne Zurücklegen und ohne Beachtung der Reihenfolge.<br />
Dafür gibt es ( )<br />
2n<br />
2 Möglichkeiten.<br />
Nun zieht <strong>die</strong> zweite Person. In der Urne bef<strong>in</strong>den sich jetzt nur noch 2n − 2 Kugeln. Für<br />
i=1
22 4 GLEICHVERTEILUNGEN UND KOMBINATORIK<br />
<strong>die</strong> zweite Person gibt es also noch ( )<br />
2n−2<br />
2 Möglichkeiten.<br />
Führt man <strong>die</strong>sen Gedanken fort, so gibt es für <strong>die</strong> k-te Person ( )<br />
2n+2−2k<br />
2 Möglichkeiten<br />
und für <strong>die</strong> letzte Person gibt es dann nur noch ( ) (<br />
2n+2−2n<br />
2 = 2<br />
)<br />
2 = 1 Möglichkeit.<br />
Nach dem Komb<strong>in</strong>ationspr<strong>in</strong>zip ist somit <strong>die</strong> Mächtigkeit des Grundraumes:<br />
#Ω = ( )(<br />
2n 2n−2<br />
)( 2n−4<br />
) (<br />
2 2 2 . . . 2<br />
2)<br />
=<br />
(2n)(2n−1) (2n−2)(2n−3)<br />
. . . 1 = (2n)! .<br />
2<br />
2 2 n<br />
⋃<br />
Sei B n := {({a 1 , b 1 }, . . . , {a n , b n }) ∈ Ω|a i ∈ {1, . . . , n}, b i ∈ {n + 1, . . . , 2n}, n {a i , b i } =<br />
A} ⊂ Ω das Ereignis, daß alle n Person zwei Kugeln mit unterschiedlichen Farben ziehen.<br />
Dann ist <strong>die</strong> Mächtigkeit von B n : #B n = n · n · (n − 1) · (n − 1) · . . . · 1 = (n!) 2 .<br />
Damit ist P (B n ) =<br />
(n!)2 .<br />
(2n)!/2 n<br />
Für große n läßt sich <strong>die</strong> Wahrsche<strong>in</strong>lichkeit näherungsweise berechnen:<br />
P (B n ) = (n!)2 2 n<br />
∼ (2πn)n<br />
(2n)! = 2n e<br />
√ −2n·2n<br />
4πn(2n)<br />
= √ πn 1·2n = √ πn 1 .<br />
2n e −2n 2 2n 2 n<br />
Dabei haben wir <strong>die</strong> Stirl<strong>in</strong>g-Formel verwendet. Diese lautet n! ∼ √ 2πnn n e −n , das heißt<br />
n!/ √ 2πnn n e −n → 1 für n → ∞.<br />
i=1<br />
4.4 Verteilungen, <strong>die</strong> aus Gleichverteilungen entstehen<br />
In e<strong>in</strong>er Urne seien N Kugeln. Davon seien W weiß und S schwarz, N = W + S. Es<br />
werden n Kugeln gezogen. Was ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit r weiße Kugeln zu ziehen?<br />
Die Menge der Kugeln <strong>in</strong> der Urne wird beschrieben durch A = {1, . . . , N}, oder genauer:<br />
A = {1, . . . , W , W + 1, . . . , W + S}<br />
} {{ } } {{ }<br />
weiße<br />
schwarze<br />
{<br />
1 falls i ∈ {1, . . . , W }<br />
Wir def<strong>in</strong>ieren e<strong>in</strong>e Funktion ϕ : A → {0, 1} durch: ϕ(i) :=<br />
0 falls i ∈ {W + 1, . . . , W + S}<br />
.<br />
4.4.1 Ziehen mit Zurücklegen und mit Reihenfolge<br />
Sei (ε 1 , . . . , ε n ) e<strong>in</strong>e 0-1-Folge der Länge n. Dann gilt:<br />
P ({(a 1 , . . . , a n )|a i ∈ A, ϕ(a i ) = ε i , i = 1, . . . , n}) = W r S n−r<br />
N n ,<br />
∑<br />
wobei r = n ε i <strong>die</strong> Anzahl der weißen gezogenen Kugeln ist.<br />
i=1<br />
Die Wahrsche<strong>in</strong>lichkeit “r (0 ≤ r ≤ n) weiße Kugeln zu ziehen” beträgt:<br />
P (“r weiße”) = P ({(a 1 , . . . , a n )|<br />
n∑<br />
( )( ) r ( ) n−r n W S<br />
ϕ(a i ) = r}) =<br />
.<br />
r N N<br />
Das ist <strong>die</strong> B<strong>in</strong>omialverteilung mit n Beobachtungen und p = W N , kurz b(n; W N ).<br />
i=1
4.5 Hypergeometrische Verteilung und B<strong>in</strong>omialverteilung 23<br />
4.4.2 Ziehen ohne Zurücklegen und mit Reihenfolge<br />
Sei (a 1 , . . . , a n ), 1 ≤ a i ≤ N für i = 1, . . . , n und a i ≠ a j für i ≠ j e<strong>in</strong>e Folge der Länge n.<br />
Dann gilt: P ({(a 1 , . . . , a n )}) = 1<br />
[N] n<br />
.<br />
Sei (ε 1 , . . . , ε n ) e<strong>in</strong>e 0-1-Folge der Länge n. Dann gilt:<br />
P ({(a 1 , . . . , a n )|a i ≠ a j für i ≠ j und ϕ(a i ) = ε i für i = 1, . . . , n, }) = [W ] r[S] n−r<br />
[N] n<br />
.<br />
Die Wahrsche<strong>in</strong>lichkeit “r (0 ≤ r ≤ n) weiße Kugeln zu ziehen” ist nun:<br />
p(“r weiße”) = P ({(a 1 , . . . , a n ) | a i ≠ a j für i ≠ j und<br />
n∑<br />
ϕ(a i ) = r})<br />
i=1<br />
( ) n [W ]r [S] n−r<br />
=<br />
r [N] n<br />
= [W ] r/r! [S] n−r /(n − r)!<br />
[N] n /n!<br />
( ) ( )<br />
W S<br />
r<br />
=<br />
n − r<br />
( ) , 0 ≤ r ≤ n<br />
N<br />
n<br />
Wir nennen <strong>die</strong>se Wahrsche<strong>in</strong>lichkeit p(r).<br />
Es gilt n ∑<br />
r=0<br />
( W<br />
r<br />
)( S<br />
n−r<br />
n<br />
r=0<br />
) (<br />
=<br />
W +S<br />
) n∑ ⇔ p(r) = 1. Damit ist p e<strong>in</strong>e Wahrsche<strong>in</strong>lichkeitsfunktion<br />
auf {0, . . . , n}. Das dazugehörige Wahrsche<strong>in</strong>lichkeitsmaß heißt <strong>die</strong> hypergeometrische<br />
Verteilung h(n; W, S).<br />
4.5 Hypergeometrische Verteilung und B<strong>in</strong>omialverteilung<br />
Wir gehen wieder von e<strong>in</strong>er Urne mit N Kugeln aus. Davon seien W Kugeln weiß und S<br />
Kugeln schwarz, W + S = N. Wir ziehen n-mal ohne Beachtung der Reihenfolge.<br />
Grundlegende Tatsache: Ist N groß im Verhältnis zu n, so unterscheiden sich „Ziehen<br />
mit Zurücklegen“ (B<strong>in</strong>omialverteilung) und „Ziehen ohne Zurücklegen“ (hypergeometrische<br />
Verteilung) nur wenig.<br />
Beispiel: „Wahlumfrage“:<br />
Anzahl der Wahlberechtigten N = 5 · 10 7 , Anzahl der Befragten n = 1200.<br />
Die genaue Formulierung <strong>die</strong>ser Tatsache lautet:<br />
Für N → ∞ erhöhe sich <strong>die</strong> Anzahl der weißen und der schwarzen Kugeln <strong>in</strong> der Urne.<br />
Das heißt: Die Anzahl W der weißen Kugeln und <strong>die</strong> Anzahl S der schwarzen Kugeln<br />
sollen beide von N abhängen. Um das zu verdeutlichen schreiben wir W N statt W und<br />
S N statt S. Natürlich gilt für alle N: W N + S N = N.
24 4 GLEICHVERTEILUNGEN UND KOMBINATORIK<br />
4.5.1 Satz 1<br />
W<br />
Es gelte außerdem lim N<br />
N→∞<br />
N<br />
= p (0 ≤ p ≤ 1).<br />
Sei n ∈ N fest. Dann gilt für N → ∞: (W N r<br />
)( S N<br />
n−r)<br />
( N n)<br />
→ ( n<br />
r)<br />
p r (1 − p) n−r für 0 ≤ r ≤ n.<br />
Bemerkung Der Satz besagt, dass <strong>die</strong> Wahrsche<strong>in</strong>lichkeitsfunktionen der hypergeometrischen<br />
Verteilungen gegen <strong>die</strong> B<strong>in</strong>omialverteilung b(n; p) konvergieren.<br />
Beweis: Schreibe W statt W N<br />
)<br />
( W<br />
)( N−W<br />
r n−r<br />
( N<br />
n)<br />
( ) n [W ]r [N − W ] n−r<br />
=<br />
Es gilt: [N] n = [N] n−r [N − n + r] r .<br />
r [N]<br />
( ) n<br />
n [W ]r [N − W ] n−r [N] r<br />
=<br />
r [N] r [N] n−r [N − n + r]<br />
} {{ r<br />
}<br />
=:R N (r)<br />
( ) n W (W − 1) . . . (W − r + 1)<br />
=<br />
r N(N − 1) . . . (N − r + 1)<br />
( n<br />
→ p<br />
r)<br />
r (1 − p) n−r<br />
(N − W )(N − W − 1) . . . (N − W − n + r + 1)<br />
N(N − 1) . . . (N − n + r + 1)<br />
, weil R N (r) −→<br />
N→∞<br />
1 für 0 ≤ r ≤ n und n fest.<br />
· R N (r)<br />
4.5.2 Anwendung <strong>in</strong> der Qualitätskontrolle<br />
Sowohl B<strong>in</strong>omial- als auch Hypergeomoetrische Verteilung treten <strong>in</strong> der Qualitätskontrolle<br />
auf.<br />
In e<strong>in</strong>er Warenlieferung oder Produktionse<strong>in</strong>heit (engl. batch) sei W <strong>die</strong> Anzahl der defekten<br />
Stücke und S <strong>die</strong> Anzahl der <strong>in</strong>takten Stücke.<br />
Wird e<strong>in</strong>e Produktionse<strong>in</strong>heit verkauft, so e<strong>in</strong>igen sich Produzent und Abnehmer darauf,<br />
daß der Verkauf nur dann stattf<strong>in</strong>det, wenn <strong>die</strong> Lieferung gewisse Qualitätsstandards erfüllt.<br />
Der Qualitätsstandard gelte als erfüllt, wenn der Anteil der defekten Stücke <strong>in</strong> der<br />
Lieferung maximal c ist.<br />
Es wäre ideal, wenn es e<strong>in</strong>e Möglichkeit gäbe, den Anteil der defekten Stücke exakt zu<br />
bestimmen. Das ist jedoch nur möglich, wenn man jedes e<strong>in</strong>zelne Stück prüft. E<strong>in</strong>e Untersuchung<br />
aller Stücke hat jedoch manchmal ungewollte Folgen. Wird z.B. bei e<strong>in</strong>er Lieferung<br />
von Feuerwerkskörpern oder E<strong>in</strong>malblitzlichtern jedes Stück untersucht, so bedeutet<br />
das <strong>die</strong> Zerstörung der ganzen Lieferung. Außerdem kostet <strong>die</strong> Kontrolle jedes Stücks Zeit<br />
und Geld.<br />
Also bleibt nur <strong>die</strong> Möglichkeit aufgrund von Stichproben <strong>die</strong> im Allgeme<strong>in</strong>en unbekannten<br />
Größen W und S zu schätzen. E<strong>in</strong> Testverfahren soll folgendes beachten:<br />
1) Der Stichprobenumfang soll möglichst kle<strong>in</strong> se<strong>in</strong>, damit <strong>die</strong> ungewollten Nebenwirkungen<br />
des Tests ger<strong>in</strong>g s<strong>in</strong>d.<br />
2) Es soll <strong>die</strong> unbekannten Größen W und S möglichst genau schätzen, und <strong>die</strong> Wahrsche<strong>in</strong>lichkeit<br />
e<strong>in</strong>es Meßfehlers ger<strong>in</strong>g halten.
4.5 Hypergeometrische Verteilung und B<strong>in</strong>omialverteilung 25<br />
Wenn A(p) <strong>die</strong> Abnahmewahrsche<strong>in</strong>lichkeit e<strong>in</strong>er Lieferung bezeichnet, <strong>in</strong> der e<strong>in</strong> Anteil<br />
p von Stücken defekt ist, wäre e<strong>in</strong> Prüfverfahren ideal, für das gilt:<br />
{<br />
1 falls p ≤ c<br />
A(p) =<br />
.<br />
0 falls p > c<br />
Das geht jedoch nur mit e<strong>in</strong>er Volluntersuchung aller Stücke, wobei wir beim oben genannten<br />
Problem wären. Man muß sich also für e<strong>in</strong>en Mittelweg zwischen Umfang der<br />
Stichprobe und Genauigkeit des Testverfahrens entscheiden.<br />
Bei e<strong>in</strong>er Qualitätskontrolle werden n Teile aus e<strong>in</strong>er E<strong>in</strong>heit gezogen und überprüft. Die<br />
Wahrsche<strong>in</strong>lichkeit bei <strong>die</strong>ser Stichprobe vom Umfang n genau r defekte Stücke zu f<strong>in</strong>den<br />
beträgt<br />
( W<br />
p(r) =<br />
r<br />
)( ) S<br />
/<br />
n − r<br />
( W + S<br />
Man legt e<strong>in</strong>e Grenze c fest, bei der <strong>die</strong> E<strong>in</strong>heit gerade noch akzeptiert wird, d.h. s<strong>in</strong>d<br />
höchstens c Teile <strong>in</strong> <strong>die</strong>ser Stichprobe defekt, wird <strong>die</strong> Produktionse<strong>in</strong>heit abgenommen.<br />
Wir def<strong>in</strong>ieren zwei Größen:<br />
Das Produzentenrisiko α ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit, daß e<strong>in</strong>e Prokuktionse<strong>in</strong>heit, <strong>in</strong><br />
der maximal e<strong>in</strong> Anteil von p 1 Stücken defekt ist, nicht abgenommen wird.<br />
Das Abnehmerrisiko β ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit, daß e<strong>in</strong>e Produktionse<strong>in</strong>heit, <strong>in</strong> der<br />
der Anteil der defekten Stücke größer oder gleich p 2 ist, abgenommen wird.<br />
Um den Rechenaufwand zu verr<strong>in</strong>gern verwendet man <strong>die</strong> B<strong>in</strong>omialverteilung als Näherung<br />
der hypergeometrischen Verteilung. p ist dabei der Anteil der defekten Teile <strong>in</strong> der<br />
untersuchten E<strong>in</strong>heit. Damit ist<br />
c∑<br />
( ) n<br />
P p (höchstens c defekte Teile <strong>in</strong> Stichprobe vom Umfang n) = p i (1−p) n−i =: A(p)<br />
i<br />
<strong>die</strong> Wahrsche<strong>in</strong>lichkeit, daß <strong>die</strong> Produktionse<strong>in</strong>heit abgenommen wird.<br />
Trägt man für e<strong>in</strong>en festen Stichprobenumfang <strong>die</strong> Abnahmewahrsche<strong>in</strong>lichkeit A(p) gegen<br />
den Anteil p der defekten Stücke auf, so ergibt sich folgendes Schaubild, das man<br />
„operation characteristic“ (OC) nennt:<br />
n<br />
)<br />
.<br />
i=0<br />
Abbildung 2: OC-Kurve
26 4 GLEICHVERTEILUNGEN UND KOMBINATORIK<br />
Wenn p 1 , p 2 , α und β festgelegt s<strong>in</strong>d, stellt sich <strong>die</strong> Frage nach n und c. Im Allgeme<strong>in</strong>en<br />
wird <strong>die</strong> OC-Funktion steiler, wenn n größer wird. (Und damit wird es e<strong>in</strong>facher <strong>die</strong><br />
Grenzen e<strong>in</strong>zuhalten.)<br />
4.5.3 Beispiel<br />
Für n = 100 und c = 5 gilt:<br />
a) A(0, 05) = 0, 9601,<br />
b) A(0, 10) = 0, 005.<br />
4.6 Kompliziertere Verteilungen, <strong>die</strong> aus Gleichverteilungen entstehen<br />
In e<strong>in</strong>er Urne seien N Kugeln. Davon seien N i vom Typ i (i = 1, . . . , k und k ≥ 2),<br />
wobei der Typ z.B. <strong>die</strong> „Farbe“ oder den „physikalischen Energiezustand“ bezeichnen soll.<br />
∑<br />
Natürlich gilt wieder k N i = N.<br />
i=1<br />
Es werden n Kugeln gezogen.<br />
Frage: Was ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit jeweils n i Kugeln vom Typ i zu ziehen (i = 1, .., k)?<br />
∑<br />
Dabei ist k n i = n.<br />
i=1<br />
E<strong>in</strong>schub: Mult<strong>in</strong>omialkoeffizient: ( )<br />
n<br />
n1...n k<br />
ist Anzahl der Möglichkeiten e<strong>in</strong>e n-elementige<br />
k∑<br />
Menge <strong>in</strong> k Teilmengen vom Umfang n i , i = 1, . . . , k, zu zerlegen, wobei n i = n.<br />
Für k = 2 gilt: ( )<br />
n<br />
n 1 n 2<br />
=<br />
n!<br />
= ( )<br />
n<br />
n 1 !n 2 ! n 1<br />
.<br />
Für ( k ≥ 2 gilt:<br />
n<br />
) (<br />
n 1 ...n k<br />
=<br />
n<br />
)( n−n1<br />
)( n−n1 −n 2<br />
) (<br />
n 1 n 2 n 3<br />
. . .<br />
nk<br />
)<br />
n k<br />
=<br />
n!<br />
(n−n 1 )!<br />
n 1 !(n−n 1 )! n 2 !(n−n 1 −n 2 )!<br />
(n−n 1 −n 2 )!<br />
i=1<br />
n 3 !(n−n 1 −n 2 −n 3 )! . . . 1 = n!<br />
n 1 !n 2 !...n k ! .<br />
4.6.1 Ziehen mit Zurücklegen und mit Reihenfolge<br />
∑<br />
Die Wahrsche<strong>in</strong>lichkeit jeweils n i Kugeln vom Typ i zu ziehen (mit k n i = n) ist:<br />
P ({(n 1 , . . . , n k )}) = ( n<br />
n 1 ...n )N n 1<br />
k<br />
1 ...N n k<br />
l<br />
= ( )<br />
n<br />
N n n 1 ...n k<br />
p<br />
n 1<br />
1 . . . p n k<br />
k<br />
∑<br />
∑<br />
Es gilt: P ({(n 1 , . . . , n k )}) =<br />
n 1 +...+n k =n<br />
n 1 +...+n k =n<br />
mit p i = N i<br />
N .<br />
Dabei haben wir <strong>die</strong> Mult<strong>in</strong>omialformel<br />
∑ (<br />
(a 1 + a 2 + . . . + a k ) n =<br />
n<br />
)<br />
n 1 ...n k<br />
a<br />
n 1<br />
1 . . . a n k<br />
k<br />
verwendet.<br />
n 1 +...+n k =n<br />
i=1<br />
( n<br />
n 1 ...n k<br />
)<br />
p<br />
n 1<br />
1 . . . p n k<br />
k<br />
= (p 1 + . . . + p k ) n = 1.<br />
Damit wird durch P e<strong>in</strong>e Wahrsche<strong>in</strong>lichkeitsfunktion erklärt. Sie heißt Mult<strong>in</strong>omialverteilung.<br />
In der Physik wird <strong>die</strong>se Verteilung auch Maxwell-Bolzmann-Verteilung genannt. Sie gibt<br />
an, wieviele Teilchen sich im Energieniveau „i“ bef<strong>in</strong>den. Dabei wird angenommen, dass<br />
<strong>die</strong> Teilchen unterscheidbar (nummerierbar) s<strong>in</strong>d; e<strong>in</strong>e typische Annahme der klassischen
4.7 Die probalilistische Methode <strong>in</strong> der Komb<strong>in</strong>atorik 27<br />
Physik!<br />
In den folgenden Beispielen s<strong>in</strong>d <strong>die</strong> Teilchen nicht unterscheidbar, was typisch für <strong>die</strong><br />
Quantenmechanik ist.<br />
4.6.2 Ziehen ohne Zurücklegen und ohne Reihenfolge<br />
P ({(n 1 , . . . , n k )}) =<br />
( N1<br />
) (<br />
n 1<br />
. . .<br />
Nk<br />
( N<br />
0 ≤ n i ≤ N i , i = 1, . . . , k<br />
n)<br />
In der Physik auch Fermi-Dirac-Verteilung genannt.<br />
Im Schachtelbild: e<strong>in</strong> Teilchen pro Schachtel gemäß Pauli-Verbot.<br />
Typische Teilchen: Elektronen.<br />
n k<br />
)<br />
4.6.3 Ziehen mit Zurücklegen und ohne Reihenfolge<br />
P ({(n 1 , . . . , n k )}) =<br />
( N1 +n 1 −1<br />
n 1<br />
( N+n−1<br />
n<br />
) (<br />
. . .<br />
Nk +n k<br />
)<br />
−1<br />
n<br />
) k<br />
0 ≤ n i ≤ N i , i = 1, . . . , k<br />
In der Physik auch Bose-E<strong>in</strong>ste<strong>in</strong>-Verteilung genannt.<br />
Im Schachtelbild: mehrere Teilchen pro Schachtel, ke<strong>in</strong> Pauli-Verbot.<br />
Typische Teilchen: Photonen<br />
4.7 Die probalilistische Methode <strong>in</strong> der Komb<strong>in</strong>atorik<br />
Wir untersuchen Ramsey-Zahlen. Dazu betrachten wir den vollständigne Graphen K N<br />
mit N Ecken. Dieser Graph verb<strong>in</strong>det alle N Ecken mite<strong>in</strong>ander.<br />
4.7.1 Beispiele<br />
usw.<br />
K 2 K 3 K 4 K 5<br />
Abbildung 3: vollständige Graphen mit N Ecken<br />
Wir sagen K N hat <strong>die</strong> Eigenschaft (m, n), wenn, egal wie wir <strong>die</strong> Kanten von K N rot oder<br />
blau färben, es immer e<strong>in</strong>en vollständigen Untergraphen K m gibt, dessen Kanten alle rot<br />
s<strong>in</strong>d, oder es e<strong>in</strong>en vollständigen Untergraphen K n gibt, dessen Kanten alle blau s<strong>in</strong>d. Ist<br />
s ≥ N, so hat K s auch <strong>die</strong>se Eigenschaft. Die kle<strong>in</strong>ste Zahl N mit der Eigenschaft (m, n)<br />
heißt Ramsey-Zahl R(m, n).
28 4 GLEICHVERTEILUNGEN UND KOMBINATORIK<br />
Bemerkung: Es gilt R(m, 2) = m ebenso R(2, m) = m. Denn, entweder s<strong>in</strong>d alle Kanten<br />
von K m rot oder es gibt e<strong>in</strong>e blaue Kante, also e<strong>in</strong> blaues K 2 .<br />
Man kann zeigen: Für m, n ≥ 2 ist<br />
( )<br />
m + n − 2<br />
R(m, n) ≤<br />
,<br />
m − 1<br />
und <strong>in</strong>sbesondere R(k, k) ≤ 2 2k−3 für k ≥ 2. Wir leiten nun e<strong>in</strong>e untere Schranke für<br />
R(k, k) her. Dazu müssen wir zeigen, daß für e<strong>in</strong> möglichst großes N < R(k, k) es ke<strong>in</strong>e<br />
Färbung von K N gibt, für <strong>die</strong> e<strong>in</strong> roter oder blauer K k auftritt.<br />
4.7.2 Satz (Erdös, P.)<br />
R(k, k) ≥ 2 k/2 für k ≥ 2<br />
Beweis: Wir wissen R(2, 2) = 2. Außerdem ist R(3, 3) ≥ 6, wegen der folgenden Fünfeckfärbung:<br />
den Rand außen blau und alle Diagonalen rot. Sei k ≥ 4 und angenommen, daß<br />
N < 2 k/2 . Wir betrachten alle rot-blau Färbungen von K N , wobei jede Kante unabhängig<br />
mit Wahrsche<strong>in</strong>lichkeit 1 2 rot oder blau gefärbt wird. Alle Färbungen, es gibt 2 (<br />
N2<br />
), s<strong>in</strong>d<br />
gleichwahrsche<strong>in</strong>lich. Sei A e<strong>in</strong>e Eckenmenge der Größe k. Die Wahrsche<strong>in</strong>lichkeit des Er-<br />
(<br />
eignisses A R , alle Kanten <strong>in</strong> A s<strong>in</strong>d rot gefärbt, ist 2 − k2<br />
). Dann ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit,<br />
daß irgende<strong>in</strong>e k-Menge rot gefärbt ist,<br />
⎛ ⎞<br />
P R = P ⎝ ⋃<br />
A R<br />
⎠ ≤ ∑ ( ) ( N<br />
P (A R ) = · 2 − k2<br />
).<br />
k<br />
Mit N < 2 k 2<br />
P R ≤<br />
|A|=k<br />
( ) N<br />
und k ≥ 4 und wegen<br />
k<br />
|A|=k<br />
≤ N k<br />
2 k−1 für k ≥ 2 folgt<br />
( N<br />
k<br />
)<br />
2 − (<br />
k2<br />
)<br />
≤ N k<br />
2 k−1 2− (<br />
k2<br />
)<br />
< 2 k2 2 − (<br />
k2 )−k+1 = 2 − k 2 +1 ≤ 1 2 ⇒ P R < 1 2 .<br />
Ganz entsprechend folgt, daß <strong>die</strong> Wahrsche<strong>in</strong>lichkeit P B , daß irgende<strong>in</strong>e k-Menge blau<br />
gefärbt ist P B < 1 2<br />
⇒ P R + P B < 1 für N < 2 k/2 .<br />
D.h. es muß e<strong>in</strong>e Färbung ohne rote oder blaue K k geben, d.h. K N hat nicht <strong>die</strong> Eigenschaft<br />
(k, k).
29<br />
5 Bed<strong>in</strong>gte Wahrsche<strong>in</strong>lichkeiten und Unabhängigkeit<br />
5.1 Bed<strong>in</strong>gte Wahrsche<strong>in</strong>lichkeit: Def<strong>in</strong>ition und Folgerungen<br />
5.1.1 Beispiel:<br />
E<strong>in</strong>e faire Münze wird dreimal geworfen. Die Ergebnismenge ist Ω = {0, 1}×{0, 1}×{0, 1}.<br />
Dabei steht 1 für Zahl und 0 für Wappen. Sei B das Ergebnis “m<strong>in</strong>destens zweimal Zahl”:<br />
B = {(0, 1, 1), (1, 0, 1), (1, 1, 0), (1, 1, 1)}. Für <strong>die</strong> faire Münze ist<br />
P (B) = |B| · 2 −3 = 4 8 = 1 2 .<br />
Angenommen wir wissen bereits, daß der erste Wurf “Zahl”, d.h. “1” ergab, wie ändert<br />
sich <strong>die</strong> Wahrsche<strong>in</strong>lichkeit für das Ergebnis von B? Wir wissen also, daß das Ereignis<br />
A = {(1, 0, 0), (1, 1, 0), (1, 0, 1), (1, 1, 1)} auf alle Fälle e<strong>in</strong>tritt. Daher kann nur noch e<strong>in</strong><br />
Elementarereignis von A e<strong>in</strong>treten, d.h. A ist der neue Grundraum. Da alle Elementarereignisse<br />
gleichwahrsche<strong>in</strong>lich s<strong>in</strong>d, hat man<br />
|A ∩ B|<br />
|A|<br />
= 3 4 .<br />
Dabei ist<br />
|A ∩ B|/|Ω|<br />
|B|/|Ω|<br />
=<br />
P (A ∩ B)<br />
.<br />
P (B)<br />
5.1.2 Def<strong>in</strong>ition (Bed<strong>in</strong>gte Wahrsche<strong>in</strong>lichkeit)<br />
Für A, B ⊂ Ω mit P (A) > 0 ist <strong>die</strong> bed<strong>in</strong>gte Wahrsche<strong>in</strong>lichkeit von B gegeben A def<strong>in</strong>iert<br />
als<br />
P (A ∩ B)<br />
P (B|A) = .<br />
P (A)<br />
Bemerkung: Die Sprechweise „gegeben A“ <strong>in</strong> der Def<strong>in</strong>ition bedeutet, man weiß, daß A<br />
e<strong>in</strong>getreten ist.<br />
5.1.3 Folgerungen<br />
(1) P (·|A) ist Wahrsche<strong>in</strong>lichkeitsmaß auf P(Ω) mit P (B|A) = 1 für B ⊃ A und P (C|A) =<br />
0 für C ⊂ A c .<br />
(2) P (B)P (A|B) = P (A ∩ B) = P (A)P (B|A).<br />
(3) Seien A 1 , A 2 , . . . , A k ⊂ Ω mit P (A 1 ∩ A 2 ∩ . . . ∩ A k ) > 0. Dann gilt:<br />
P (A 1 ∩ A 2 ∩ . . . ∩ A k ) = P (A 1 )P (A 2 |A 1 )P (A 3 |A 1 ∩ A 2 ) . . . P (A k |A 1 ∩ . . . ∩ A k−1 ).
30 5 BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT<br />
Beweis:<br />
Zu (1):<br />
a) P (Ω|A) = P (A∩Ω)<br />
P (A)<br />
= P (A)<br />
P (A) = 1.<br />
b) Seien B i ⊂ Ω disjunkt. Dann gilt:<br />
⋃<br />
P ( ∞ B i |A) =<br />
i=1<br />
P ([ ∞ S<br />
B i ]∩A) P ( ∞ S<br />
[B i ∩A])<br />
i=1<br />
i=1<br />
=<br />
=<br />
P (A) P (A)<br />
∞P<br />
P (B i ∩A)<br />
i=1<br />
P (A)<br />
Damit ist P (·|A) e<strong>in</strong> Wahrsche<strong>in</strong>lichkeitsmaß auf P(Ω).<br />
Sei B ⊃ A und C ⊂ A c .<br />
Dann gilt: P (B|A) = P (A∩B)<br />
P (A)<br />
= P (A)<br />
P (A)<br />
∑<br />
= ∞ P (B i |A).<br />
i=1<br />
= 1 und P (C|A) =<br />
P (A∩C)<br />
P (A)<br />
= P (∅)<br />
P (A) = 0.<br />
Zu (3): Beweis mit Induktion. Richtig für k = 2 per Def<strong>in</strong>ition. Gelte <strong>die</strong> Formel für<br />
k − 1, d.h.<br />
so schreibe<br />
P (A 1 ∩ . . . ∩ A k−1 ) = P (A 1 )P (A 2 |A 1 ) . . . P (A k−1 |A 1 ∩ . . . ∩ A k−2 )<br />
P (A 1 ∩ . . . ∩ A k ) = P (A k |A 1 ∩ . . . A k−1 ) · P (A 1 ∩ . . . A k−1 )<br />
und setze <strong>die</strong> Formel für k − 1 e<strong>in</strong>.<br />
5.1.4 Beispiel: (Das Geburtstagsproblem)<br />
k Personen bef<strong>in</strong>den sich <strong>in</strong> e<strong>in</strong>em Raum. Mit welcher Wahrsche<strong>in</strong>lichkeit haben m<strong>in</strong>destens<br />
zwei von ihnen am selben Tag Geburtstag?<br />
Wir setzen voraus<br />
• das Jahr hat 365 Tage,<br />
• jeder Tag kommt mit gleicher Wahrsche<strong>in</strong>lichkeit als Geburtstag <strong>in</strong> Frage,<br />
• es besteht ke<strong>in</strong>e Abhängigkeit zwischen den Geburtstagen verschiedener Personen<br />
(also ke<strong>in</strong>e Zwill<strong>in</strong>ge!).<br />
Der E<strong>in</strong>fachheit halber denken wir uns <strong>die</strong> Personen von 1 bis k nummeriert und stellen<br />
uns vor, daß wir sie der Reihe nach befragen. Sei<br />
Ω = {1, . . . , 365} k = {ω|ω = (ω 1 , . . . , ω k ); ω i ∈ {1, . . . , 365}}.<br />
Dabei ist ω i der Geburtstag der i-ten Person.<br />
Sei<br />
D j = {(j + 1)-te Person hat an e<strong>in</strong>em anderen Tag Geburtstag als <strong>die</strong> Personen<br />
1 bis j}<br />
= {ω ∈ Ω|ω j+1 ≠ ω i für 1 ≤ i ≤ j}.
5.1 Bed<strong>in</strong>gte Wahrsche<strong>in</strong>lichkeit: Def<strong>in</strong>ition und Folgerungen 31<br />
Dann gilt<br />
365 · 364<br />
P (D 1 ) = P (ω 1 ≠ ω 2 ) =<br />
365 · 365 = 364<br />
365 .<br />
Sei nun j ≥ 2. Auf dem Ereignis D 1 ∩ . . . ∩ D j−1 haben <strong>die</strong> Personen 1, . . . , j an j<br />
verschiedenen Tagen Geburtstag. Damit ergibt sich <strong>die</strong> bed<strong>in</strong>gte Wahrsche<strong>in</strong>lichkeit des<br />
Ereignisses D j gegeben D 1 ∩ . . . ∩ D j−1 zu<br />
P (D j |D 1 ∩ . . . ∩ D j−1 ) = 365 − j = 1 − j<br />
365 365 .<br />
(Man beachte, daß <strong>die</strong>s bed<strong>in</strong>gte Wahrsche<strong>in</strong>lichkeiten s<strong>in</strong>d. So ist etwa P (D 3 |D2) c =<br />
364/365.) Wir erhalten nun<br />
P (D 1 ∩ D 2 ∩ . . . ∩ D k−1 )<br />
= P (D 1 )P (D 2 |D 1 )P (D 3 |D 1 ∩ D 2 ) . . . P (D k−1 |D 1 ∩ D 2 ∩ . . . ∩ D k−2 )<br />
(<br />
= 1 − 1 ) (<br />
1 − 2 ) (<br />
. . . 1 − k − 1 )<br />
365 365<br />
365<br />
k−1<br />
∏<br />
(<br />
= 1 − j )<br />
.<br />
365<br />
j=1<br />
Für größere Werte von k bietet sich folgende Näherung an. Es gilt log(1 − h) ≈ −h und<br />
somit<br />
∑k−1<br />
∑k−1<br />
log(P (D 1 ∩ D 2 ∩ . . . ∩ D k−1 )) = log(1 − j/365) ≈ −(1/365) j<br />
j=1<br />
k(k − 1)<br />
= −<br />
2 · 365 .<br />
Die Wahrsche<strong>in</strong>lichkeit, daß m<strong>in</strong>destens zwei Personen am selben Tag Geburtstag haben,<br />
ist daher näherungsweise<br />
1 − e − k(k−1)<br />
2·365 .<br />
Die Näherung ist sehr gut. Für k = 23 liefert sie 0.500 im Vergleich zu dem exakten Wert<br />
0.506.<br />
j=1<br />
5.1.5 Beispiel: Sterbetafeln<br />
Wir betrachten e<strong>in</strong>e Bevölkerungsgruppe, z.B. <strong>die</strong> E<strong>in</strong>wohner e<strong>in</strong>er Stadt oder e<strong>in</strong>es Landes<br />
und wollen <strong>die</strong> Lebensdauern ihrer E<strong>in</strong>wohner erfassen. Dazu ordnen wir jedem Individuum<br />
se<strong>in</strong> ganzzahliges Lebensalter zu. Wir nennen <strong>die</strong>se Größe T . T ist e<strong>in</strong>e ganzzahlige<br />
Größe, <strong>die</strong> vom Zufall abhängt. Sei p(k) <strong>die</strong> Wahrsche<strong>in</strong>lichkeit im Alter k zu sterben.<br />
Diese ist dann p(k) = P (T = k). Im Versicherungswesen, <strong>in</strong>sbesondere bei Lebensversicherungen<br />
<strong>in</strong>teressiert <strong>die</strong> Sterberate. Diese wird wie folgt erklärt.<br />
Sei S(l) := P (T ≥ l) <strong>die</strong> Wahrsche<strong>in</strong>lichkeit m<strong>in</strong>destens l Jahre alt zu werden (Überlebenswahrsche<strong>in</strong>lichkeit)<br />
und sei h(l) = P (T = l|T ≥ l) <strong>die</strong> Wahrsche<strong>in</strong>lichkeit im Alter<br />
von l Jahren zu sterben, wenn man bereits <strong>die</strong>ses Lebensjahr erreicht hat (Sterberate).<br />
Es gilt:<br />
h(l) = P (T = l|T ≥ l) =<br />
P (T = l, T ≥ l)<br />
P (T ≥ l)<br />
=<br />
P (T = l)<br />
P (T ≥ l) = p(l)<br />
S(l)<br />
S(l) − S(l + 1)<br />
= .<br />
S(l)
32 5 BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT<br />
Darstellung von S(l) durch h(l):<br />
Es gilt: S(l) = l−1 ∏<br />
(1 − h(i)). Das ergibt sich aus der Anwendung der Folgerung (3):<br />
i=1<br />
S(l) = P (T ≥ l) = l−1 ∏<br />
i=1<br />
P (T ≥ i + 1|T ≥ i) = l−1 ∏<br />
i=1<br />
S(i+1)<br />
S(i)<br />
∏<br />
(1 − h(i)).<br />
= l−1<br />
i=1<br />
Beispiel:<br />
Wir nehmen folgendes an: Die Wahrsche<strong>in</strong>lichkeit im Alter i zu sterben gegeben man hat<br />
das Alter i bereits erreicht, sei für alle i gleich p. In Formeln: h(i) = p für alle i.<br />
Dann ist S(l) = (1 − p) l−1 und<br />
P (T =k)<br />
p(k) = P (T = k) = · P (T ≥ k) = h(k)S(k) = p(1 − P (T ≥k) p)k−1 für k ∈ N.<br />
Dies ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeitsfunktion der geometrischen Verteilung.<br />
Beispiel: Sterbetafel von Breslau nach Halley (1693)<br />
Überlebenswahrsche<strong>in</strong>lichkeit berechnet nach der Halleyschen Tafel:<br />
S(1) = P (T ≥ 1) = 1 p(1) = 0<br />
S(2) = P (T ≥ 2) = 855/1000 p(2) = 145/1000 h(2) = 145/855<br />
S(3) = P (T ≥ 3) = 798/1000 p(3) = 57/1000 h(3) = 57/798<br />
S(4) = P (T ≥ 4) = 760/1000 p(4) = 38/1000 h(4) = 38/760<br />
.<br />
.<br />
.<br />
S(82) = 28/1000 p(82) = 5/1000 h(82) = 5/28<br />
S(83) = 23/1000 p(83) = 4/1000 h(83) = 4/23<br />
S(84) = 19/1000 p(84) = 19/1000 h(84) = 1<br />
S(85) = 0 p(85) = 0 h(85) = 0<br />
5.2 Satz von der vollständigen Wahrsche<strong>in</strong>lichkeit<br />
5.2.1 Satz (Satz von der vollständigen Wahrsche<strong>in</strong>lichkeit)<br />
⋃<br />
Es seien A 1 , A 2 , ... paarweise disjunkte Mengen mit ∞ A i = Ω. Weiter sei B ⊂ Ω. Dann<br />
∑<br />
gilt: P (B) = ∞ P (B|A i )P (A i ). Dabei setzt man P (B|A k )P (A k ) = 0, falls P (A k ) = 0.<br />
i=1<br />
Beweis:<br />
⋃<br />
A 1 ∩ B, A 2 ∩ B, ... s<strong>in</strong>d paarweise disjunkt und ∞ (A i ∩ B) = B.<br />
⋃<br />
Damit gilt: P (B) = P ( ∞ ∑<br />
(A i ∩ B)) = ∞ ∑<br />
P (A i ∩ B) = ∞ P (B|A i )P (A i ).<br />
i=1<br />
i=1<br />
i=1<br />
i=1<br />
i=1
5.3 Bayessche Formel 33<br />
5.2.2 Beispiel: Das Ziegenproblem (Aufgabe 4 auf dem ersten Übungsblatt)<br />
Es gibt zwei mögliche Strategien. Die e<strong>in</strong>e ist ohne Wechseln, <strong>die</strong> andere ist mit Wechseln.<br />
Welche ist besser?<br />
1. Strategie: Ohne Zusatz<strong>in</strong>formationen wird man mit Gleichverteilung raten. Die Wahrsche<strong>in</strong>lichkeit<br />
beim ersten Raten den Hauptgew<strong>in</strong>n zu treffen ist 1 . Da man nicht wechselt,<br />
3<br />
ändert sich durch den zweiten Rateversuch nichts an der Gew<strong>in</strong>nwahrsche<strong>in</strong>lichkeit. Die<br />
Wahrsche<strong>in</strong>lichkeit zu gew<strong>in</strong>nen ist also 1.<br />
3<br />
2. Strategie: Das erste Rateergebniss wird unter Benutzung der Information des Showmasters<br />
korrigiert. R i , i = 1, 2 seien <strong>die</strong> Rateergebnisse <strong>in</strong> Stufe i.<br />
Sei P 1 das Wahrsche<strong>in</strong>lichkeitsmaß, das vorliegt, falls der Hauptgew<strong>in</strong>n h<strong>in</strong>ter Tür 1 steht.<br />
Es gilt P 1 (R 1 = j) = 1 , j = 1, 2, 3.<br />
3<br />
Bei Methode 2 gilt auch noch:<br />
a) P 1 (R 2 = 1|R 1 = 1) = 0<br />
b) P 1 (R 2 = 1|R 1 = 2) = 1<br />
c) P 1 (R 2 = 1|R 1 = 3) = 1<br />
Dies folgt, da der Quizmaster Tür 3 oder Tür 2 als nicht besetzt zeigen muß.<br />
Nach Satz 5.2.1 gilt:<br />
P 1 (R 2 = 1) =<br />
3∑<br />
i=1<br />
P 1 (R 2 = 1|R 1 = i)P 1 (R 1 = i) = 0 · 1<br />
3 + 1 · 1<br />
3 + 1 · 1<br />
3 = 2 3 .<br />
5.3 Bayessche Formel<br />
5.3.1 Satz (Bayessche Formel)<br />
Sei (Ω, P ) e<strong>in</strong> Wahrsche<strong>in</strong>lichkeitsraum, {B 1 , ..., B l } disjunkte Zerlegung von Ω und A ⊂<br />
Ω. Dann gilt <strong>die</strong> Bayessche Formel:<br />
Beweis:<br />
P (B j |A) = P (A ∩ B j)<br />
P (A)<br />
P (B j |A) =<br />
5.3.2 Beispiel: Farbenbl<strong>in</strong>dheit<br />
P (A|B j )P (B j )<br />
.<br />
l∑<br />
P (A|B m )P (B m )<br />
m=1<br />
5.1.3,(2)<br />
{}}{<br />
= P (A|B 5.2.1<br />
j)P (B j ) {}}{<br />
=<br />
P (A)<br />
P (A|B j )P (B j )<br />
.<br />
l∑<br />
P (A|B m )P (B m )<br />
M männlich, W weiblich, fb farbenbl<strong>in</strong>d.<br />
P (M) = P (W ) = 1, P (fb|M) = 1 , P (fb|W ) = 1 .<br />
2 12 288<br />
Was ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit männlich zu se<strong>in</strong>, wenn man farbenbl<strong>in</strong>d ist?<br />
m=1<br />
P (M|fb) =<br />
1<br />
P (fb|M)P (M)<br />
P (fb|M)P (M) + P (fb|W )P (W ) =<br />
12 · 1<br />
2<br />
1 · 1 + 1 · 1<br />
12 2 288 2<br />
= 24<br />
25 .
34 5 BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT<br />
5.3.3 Beispiel: Diagnostischer Test<br />
Wir betrachten e<strong>in</strong>en Test auf Vorhandense<strong>in</strong> e<strong>in</strong>er Krankheit, z.B. den PSA-Test auf<br />
Prostata-Karz<strong>in</strong>om. Der Test hat <strong>die</strong> Ausgänge “positiv” und “negativ”. Aus “positiv”<br />
schließt man auf Vorhandense<strong>in</strong> der Krankheit, aus “negativ” auf Nichtvorhandense<strong>in</strong>.<br />
Doch der Test kann e<strong>in</strong> falsches Ergebnis liefern. Man unterscheidet zwischen zwei Fehlern:<br />
Fehler 1. Art: falsch negativ (Die Krankheit wurde nicht entdeckt; ke<strong>in</strong> Alarm trotz<br />
Gefahr)<br />
Fehler 2. Art: falsch positiv (Es liegt ke<strong>in</strong>e Krankheit vor; falscher Alarm)<br />
Wir betrachen das folgende Diagnose-Beispiel:<br />
Krankheitsrate: 1%; Testfehler: 10%.<br />
Die Anwendung der Bayesschen Formel ergibt folgendes:<br />
P (k|+) =<br />
9<br />
P (+|k)P (k)<br />
P (+|k)P (k) + P (+|g)P (g) =<br />
10 · 1<br />
100<br />
9 · 1<br />
+ 1 · 99<br />
10 100 10 100<br />
= 1 12 .<br />
Dabei steht k für krank, + steht für “der Test war positiv” und − steht für “der Test war<br />
negativ”.<br />
E<strong>in</strong> Weg ohne <strong>die</strong> Bayessche Formel und ohne Wahrsche<strong>in</strong>lichkeitsrechung das Resultat<br />
zu erhalten, geht so: Man stellt sich <strong>die</strong> Größen <strong>in</strong> e<strong>in</strong>er Vierfelder-Tafel bezogen auf 1000<br />
Probanden dar und liest das Ergebnis daraus ab.<br />
gesamt Test positiv Test negativ<br />
krank 10 9 1<br />
gesund 990 99 891<br />
gesamt 1000 108 892<br />
Wie groß ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit krank zu se<strong>in</strong>, wenn der Test positiv ist?<br />
9<br />
Antwort: = 1 .<br />
108 12<br />
5.3.4 Beispiel<br />
E<strong>in</strong>e Urne enthalte 3 Kugeln, von denen jede weiß oder schwarz se<strong>in</strong> kann. Es werden zwei<br />
Kugeln nache<strong>in</strong>ander ohne Zurücklegen gezogen. Die erste Kugel ist „schwarz“, <strong>die</strong> zweite<br />
„weiß“.<br />
Welches s<strong>in</strong>d <strong>die</strong> bed<strong>in</strong>gten Wahrsche<strong>in</strong>lichkeiten für <strong>die</strong> Urnenbelegungen, falls vor der<br />
Ziehung alle Urnenbelegungen als gleich wahrsche<strong>in</strong>lich gelten (Siehe Abbildung 3).<br />
Mögliche Urnenbelegungen:<br />
1. Ziehung: „schwarz“<br />
P ( 3<br />
}{{}<br />
Urne<br />
| S<br />
}{{}<br />
Farbe<br />
) =<br />
i=1<br />
2 · 1<br />
3 4<br />
P (S|3)P (3)<br />
=<br />
4∑<br />
1<br />
P (S|i)P (i)<br />
(0 + 1 + 2 + 1) = 1 3 ,<br />
4 3 3<br />
P (2|S) = 1 6 , P (4|S) = 1 , P (1|S) = 0.<br />
2
5.4 Unabhängigkeit von Ereignissen 35<br />
Abbildung 4: Urnenbelegung<br />
2. Ziehung: „weiß“<br />
P (3|S, W ) =<br />
P (S, W |3)P (3)<br />
=<br />
4∑<br />
P (S, W |i)P (i)<br />
i=1<br />
2 · 1 · 1<br />
3 2 4<br />
1<br />
(0 + 1 + 1 + 0) = 1 2 ,<br />
4 3 3<br />
P (2|S, W ) = 1 , P (1|S, W ) = P (4|S, W ) = 0.<br />
2<br />
Probe: Wenn unsere Rechnung richtig ist, und bei e<strong>in</strong>er dritten Ziehung wieder e<strong>in</strong>e weiße<br />
Kugel gezogen wird, so muß <strong>die</strong> Wahrsche<strong>in</strong>lichkeit, daß Urne 2 vorlag, 1 se<strong>in</strong> und <strong>die</strong><br />
Wahrsche<strong>in</strong>lichkeit, daß e<strong>in</strong>e andere Urne vorlag 0.<br />
3. Ziehung: „weiß“<br />
P (2|S, W, W ) =<br />
P (S, W, W |2)P (2)<br />
=<br />
4∑<br />
P (S, W, W |i)P (i)<br />
i=1<br />
1<br />
4 (0 + 1 3<br />
1 · 1<br />
3 4<br />
+ 0 + 0)<br />
= 1.<br />
Für jede andere Urne steht im Zähler e<strong>in</strong>e Null und der Nenner ist verschieden von Null.<br />
Somit ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit für alle anderen Urnen 0.<br />
5.4 Unabhängigkeit von Ereignissen<br />
Beim Münzenwurfproblem s<strong>in</strong>d wir schon davon ausgegangen, daß <strong>die</strong> Wahrsche<strong>in</strong>lichkeit<br />
für <strong>die</strong> Ergebnisse verschiedener Würfe mite<strong>in</strong>ander multipliziert werden können. Hier nun<br />
der formale H<strong>in</strong>tergrund.<br />
5.4.1 Def<strong>in</strong>ition<br />
Zwei Ereignisse A, B ⊂ Ω heißen (stochastisch) unabhängig, falls<br />
P (A ∩ B) = P (A) · P (B)<br />
gilt.<br />
S<strong>in</strong>d A und B unabhängig und gilt P (B) > 0, so ist<br />
P (A|B) =<br />
P (A ∩ B)<br />
P (B)<br />
=<br />
P (A)P (B)<br />
P (B)<br />
= P (A).
36 5 BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT<br />
S<strong>in</strong>d A und B unabhängig und gilt P (A) > 0, so ist<br />
P (B|A) = P (B).<br />
Stochastische Unabhängigkeit zweier Ereignisse bedeutet, daß Kenntnis über das E<strong>in</strong>treten<br />
des e<strong>in</strong>en Ereignisses ke<strong>in</strong>e Information h<strong>in</strong>sichtlich des E<strong>in</strong>tretens des anderen<br />
Ereignisses liefert.<br />
S<strong>in</strong>d A und B unabhängig, so s<strong>in</strong>d auch A und B c , A c und B sowie A c und B c unabhängig.<br />
Dann ist nämlich<br />
P (A ∩ B c ) = P (A) − P (A ∩ B) = P (A) − P (A)P (B) = P (A)(1 − P (B))<br />
= P (A)P (B c ).<br />
Betrachtet man mehr als zwei Ereignisse gleichzeitig, so muß man mit der Def<strong>in</strong>ition<br />
vorsichtig se<strong>in</strong>.<br />
5.4.2 Def<strong>in</strong>ition<br />
Drei Ereignisse A, B und C heißen unabhängig, falls <strong>die</strong> folgenden vier Gleichungen gelten:<br />
P (A ∩ B) = P (A)P (B)<br />
P (A ∩ C) = P (A)P (C)<br />
P (B ∩ C) = P (B)P (C)<br />
P (A ∩ B ∩ C) = P (A)P (B)P (C).<br />
Paarweise Unabhängigkeit impliziert nicht Unabhängigkeit von drei Ereignissen. (Dies<br />
soll heißen, <strong>die</strong> ersten drei Gleichungen implizieren nicht <strong>die</strong> dritte.) Wir zeigen das <strong>in</strong><br />
folgendem Beispiel.<br />
5.4.3 Beispiel<br />
Sei Ω = {0, 1} × {0, 1} und P ({ω}) = 1/4 für ω ∈ Ω, d.h. wir betrachten zweimaliges<br />
Werfen e<strong>in</strong>er fairen Münze.<br />
Sei A = {(0, 1), (0, 0)}, B = {(0, 1), (1, 1)} und C = {(0, 0), (1, 1)}.<br />
Dann gilt |A| = |B| = |C| = 2 und |A ∩ B| = |A ∩ C| = |B ∩ C| = 1. Folglich gelten<br />
P (A) = P (B) = P (C) = 1/2 und P (A ∩ B) = P (A ∩ C) = P (B ∩ C) = 1/4. Aber<br />
P (A ∩ B ∩ C) = 0, da A ∩ B ∩ C = ∅. Somit gilt P (A ∩ B ∩ C) ≠ P (A) · P (B) · P (C).<br />
5.4.4 Def<strong>in</strong>ition (Unabhängigkeit von Ereignissen)<br />
Die Ereignisse A 1 , ..., A n heißen unabhängig, falls für jede Teilmenge I ⊂ {1, ..., n} gilt<br />
( ) ⋂<br />
P A j = ∏ P (A j ) .<br />
j∈I j∈I<br />
Bemerkung: Dies s<strong>in</strong>d 2 n − n − 1 nichttriviale Gleichungen bei n Ereignissen. Für n = 4<br />
also 11 Gleichungen.
5.4 Unabhängigkeit von Ereignissen 37<br />
5.4.5 Satz<br />
Seien A 1 , ..., A n unabhängig und C i ∈ {∅, A i , A C i , Ω} für i = 1, ..., n.<br />
Dann s<strong>in</strong>d C 1 , ..., C n unabhängig. In Formeln:<br />
P<br />
( ⋂<br />
i∈I<br />
C i<br />
)<br />
= ∏ i∈I<br />
P (C i ) für alle I ⊂ {1, . . . , n}.<br />
Insbesondere s<strong>in</strong>d A c 1, ..., A c n unabhängig.<br />
Beweis:<br />
Es genügt den Fall I = {1, . . . , n} zu betrachten.<br />
Ist e<strong>in</strong>es der C i = ∅, so steht auf der l<strong>in</strong>ken Seite P (∅) und auf der rechten Seite steht e<strong>in</strong><br />
Produkt, <strong>in</strong> dem e<strong>in</strong> Faktor 0 ist.<br />
Ist e<strong>in</strong>es der C i = Ω, so können ( wir o.B.d.A. annehmen, daß das C n ist. In <strong>die</strong>sem Fall<br />
n<br />
) ([<br />
⋂<br />
n−1<br />
] ) (<br />
⋂<br />
n−1 ⋂<br />
steht auf der l<strong>in</strong>ken Seite: P C i = P C i ∩ Ω = P C i<br />
). Auf der rechten<br />
[ i=1<br />
i=1<br />
i=1<br />
n∏<br />
n−1<br />
]<br />
∏<br />
Seite steht: P (C i ) = P (C i ) P (Ω) = n−1 ∏<br />
P (C i ). Somit können wir <strong>die</strong> C i = Ω<br />
ignorieren.<br />
i=1<br />
i=1<br />
O.B.d.A. nehmen wir an, daß C i ∈ {A i , A c i} und nach eventueller Umnummerierung<br />
C i = A c i für i = 1, ..., m und C i = A i für i = m + 1, ..., n ist.<br />
1. Fall: m + 1 ≤ n<br />
Mit A m =<br />
n ⋂<br />
j=m+1<br />
A j gilt dann:<br />
( n<br />
) (<br />
⋂<br />
⋂ m<br />
P C i = P A c j ∩<br />
i=1<br />
j=1<br />
n⋂<br />
j=m+1<br />
( m<br />
)<br />
⋂<br />
= P A c j ∩ A m<br />
j=1<br />
A j<br />
)<br />
(( m<br />
) c )<br />
⋃<br />
= P A j ∩ A m<br />
j=1<br />
i=1<br />
= P ( (<br />
) m<br />
))<br />
⋃<br />
A m − P<br />
(A m ∩ A j<br />
j=1<br />
= P ( (<br />
) ⋃ m<br />
( ) )<br />
A m − P Am ∩ A j<br />
j=1
38 5 BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT<br />
= P ( A m<br />
)<br />
−<br />
m<br />
∑<br />
= P ( A m<br />
)<br />
+<br />
m<br />
∑<br />
⎡<br />
= P ( )<br />
A m<br />
⎣1 +<br />
∑<br />
k=1 {i 1 ,...,i k }⊂{1,...,n}<br />
∑<br />
k=1 {i 1 ,...,i k }<br />
m∑<br />
∑<br />
k=1 {i 1 ,...,i k }<br />
= P ( ) ∏<br />
m<br />
A m (1 − P (A j ))<br />
j=1<br />
= P ( A m<br />
) m ∏<br />
=<br />
=<br />
n∏<br />
j=m+1<br />
j=1<br />
P (A j )<br />
n∏<br />
P (C i ) .<br />
i=1<br />
P ( )<br />
A c j<br />
m∏<br />
P ( Aj) c .<br />
j=1<br />
(−1) k−1 P ( A m ∩ A i1 ∩ . . . ∩ A ik<br />
)<br />
(−1) k P ( A m<br />
)<br />
P (Ai1 ) . . . P (A ik )<br />
⎤<br />
(−1) k P (A i1 ) . . . P (A ik ) ⎦<br />
2. Fall: m = n<br />
Hier ist C i = A c i für i = 1, ..., n. Nun setzt man für A m = Ω und argumentiert bis zur<br />
drittletzten Zeile genauso!<br />
5.4.6 Korollar<br />
Seien A 1 , ..., A n unabhängig. Dann gilt:<br />
( n<br />
) (<br />
)<br />
⋃<br />
n∏<br />
n∑<br />
P A i = 1 − (1 − P (A i )) ≥ 1 − exp − P (A i ) .<br />
i=1<br />
i=1<br />
i=1<br />
Beweis:<br />
Es gilt<br />
( n<br />
) ((<br />
⋃<br />
n<br />
) c )<br />
⋃<br />
P A i = 1 − P A i<br />
i=1<br />
= 1 − P<br />
= 1 −<br />
= 1 −<br />
( n<br />
⋂<br />
i=1<br />
i=1<br />
A c i<br />
n∏<br />
P (A c i)<br />
i=1<br />
)<br />
n∏<br />
(1 − P (A i )) .<br />
i=1
5.4 Unabhängigkeit von Ereignissen 39<br />
Wegen exp(−x) ≥ 1 − x gilt weiter<br />
( n<br />
)<br />
⋃<br />
n∏<br />
P A i ≥ 1 − exp (−P (A i ))<br />
i=1<br />
i=1<br />
[<br />
= 1 − exp −<br />
]<br />
n∑<br />
P (A i ) .<br />
i=1<br />
5.4.7 Def<strong>in</strong>ition<br />
E<strong>in</strong>e Folge von Ereignissen (A n ; n ≥ 1) heißt unabhängig, falls A 1 , . . . , A k unabhängig<br />
s<strong>in</strong>d für alle k ≥ 1.<br />
5.4.8 Korollar (Borel-Cantelli Lemma)<br />
Sei (A n ) n≥1 e<strong>in</strong>e Folge von Ereignissen und A = lim sup A n := ∞ ⋂<br />
Dann gilt:<br />
∑<br />
(1) ∞ P (A n ) < ∞ ⇒ P (A) = 0.<br />
n=1<br />
∞⋃<br />
n=1 m=n<br />
∑<br />
(2) S<strong>in</strong>d A 1 , A 2 , ... unabhängig und gilt ∞ P (A k ) = ∞ ⇒ P (A) = 1.<br />
n=1<br />
Beweis:<br />
∑<br />
Zu (1): Sei ε > 0. Dann gilt wegen ∞ ⋃<br />
P (A n ) < ∞ und A ⊂ ∞ A m für n ≥ 1:<br />
( n=1<br />
m=n<br />
∞<br />
)<br />
⋃ ∑<br />
P (A) ≤ P A m ≤ ∞ P (A m ) < ε für e<strong>in</strong> h<strong>in</strong>reichend großes n.<br />
m=n<br />
m=n<br />
P (A) ist also kle<strong>in</strong>er als jede positive Zahl. Damit folgt P (A) = 0.<br />
Zu (2): Es gilt<br />
Folglich ist P (A) = 1.<br />
P (A) = lim<br />
n→∞<br />
P<br />
( ∞<br />
⋃<br />
= lim<br />
n→∞<br />
lim<br />
p→∞<br />
P<br />
⎛<br />
p→∞ ⎜<br />
≥ lim<br />
n→∞<br />
lim<br />
= 1<br />
A m<br />
)<br />
m=n<br />
( n+p ⋃<br />
m=n<br />
A m<br />
)<br />
)<br />
n+p<br />
∑<br />
− P (A m )<br />
⎟<br />
m=n ⎠<br />
} {{ }<br />
→0 für p→∞<br />
⎝ 1 − exp (<br />
⎞<br />
A m .<br />
Was ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit, daß im k-ten Wurf erstmals e<strong>in</strong>e “6” gewürfelt wird.
40 5 BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT<br />
Erstmals im k-ten Wurf e<strong>in</strong>e “6” zu werfen, bedeutet, <strong>in</strong> den vorangegangenen k−1 Würfen<br />
ke<strong>in</strong>e “6” , dann aber e<strong>in</strong>e “6” zu werfen. Folglich ist<br />
( ) k−1 5<br />
P (erstmals “6” im k-ten Wurf) = · 1<br />
6 6 =: p k, k ≥ 1<br />
Es muß natürlich ∑ k≥1<br />
p k = 1 gelten, was man leicht mit Hilfe der geometrische Reihe<br />
∞∑<br />
k=1<br />
( 5<br />
) k−1<br />
6 = 6 e<strong>in</strong>sieht.<br />
Gamblers Rules<br />
Angenommen man spielt e<strong>in</strong> Spiel sehr oft h<strong>in</strong>tere<strong>in</strong>ander und dessen Gew<strong>in</strong>nchance ist<br />
1/N. Wie oft muß man spielen, damit man mit m<strong>in</strong>destens 50% Wahrsche<strong>in</strong>lichkeit wenigstens<br />
e<strong>in</strong>mal gew<strong>in</strong>nt?<br />
(<br />
P (ke<strong>in</strong> Gew<strong>in</strong>n <strong>in</strong> n Spielen) = 1 − 1 ) n<br />
N<br />
(<br />
P (Gew<strong>in</strong>n <strong>in</strong> n Spielen) = 1 − 1 − 1 ) n<br />
≥ 1 N 2<br />
(<br />
⇔ 1 − 1 ) n<br />
≤ 1 N 2<br />
(<br />
⇔ n log 1 − 1 )<br />
≤ log 1 N 2 .<br />
Sei n ∗ = [log( 1) / log(1 − 1 )]; dabei ist [x] <strong>die</strong> kle<strong>in</strong>ste ganze Zahl größer als x für x ∈ R.<br />
2 N<br />
Da log(1 + z) ∼ z für z → 0 gilt, ist <strong>die</strong> rechte Seite von n ∗ asymptotisch gleich<br />
( ) /( )<br />
1 −1<br />
log<br />
= N log 2, wobei log(2) ≈ 0, 69 ≈ 2/3.<br />
2 N<br />
Im Fall des Würfels benötigt man also<br />
[ ( ) /( 1 5<br />
n ∗ = log<br />
= [3, 8] = 4<br />
2 6)]<br />
Würfe um mit m<strong>in</strong>destens 50% Wahrsche<strong>in</strong>lichkeit e<strong>in</strong>e ”6“ zu werfen.<br />
Beispiel: Fluß <strong>in</strong> e<strong>in</strong>em Leiter<br />
Angenommen für jeden von den Schaltern <strong>in</strong> dem folgenden Schaltkreis ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit,<br />
daß der Schalter geschlossen ist p i und daß er offen ist q i = 1 − p i , i = 1, . . . , 5.<br />
Man berechne <strong>die</strong> Wahrsche<strong>in</strong>lichkeit, daß e<strong>in</strong> Strom durch den Schaltkreis fließt unter<br />
der Annahme, daß <strong>die</strong> Zustände der Schalter unabhängig s<strong>in</strong>d.<br />
P (Strom fließt) = P (Strom fließt oben entlang) + P (Strom fließt unten entlang)<br />
−P (Strom fließt sowohl oben als auch unten entlang )<br />
Dabei ist wegen der Unabhängigkeit P (Strom fließt oben) = p 1·p 2 , P (Strom fließt unten) =<br />
p 3 · p 4 · p 5 und P (Strom fließt oben und unten) = p 1 · p 2 · p 3 · p 4 · p 5 und damit<br />
P (Strom fließt ) = p 1 · p 2 + p 3 · p 4 · p 5 − p 1 · p 2 · p 3 · p 4 · p 5 .
5.5 Anwendung der Unabhängigkeit <strong>in</strong> der Zahlentheorie 41<br />
S 1 S 2<br />
S 3 S 4 S 5<br />
Abbildung 5: Schaltkreis<br />
5.5 Anwendung der Unabhängigkeit <strong>in</strong> der Zahlentheorie<br />
5.5.1 Primzahlen und Unabhängigkeit<br />
Sei N ∈ N. Dann gilt N = p α 1<br />
1 · · · p α k<br />
k<br />
für geeignete Primzahlen p i und α i ∈ N.<br />
Sei ϕ(N) = #{i ∈ N|i < N mit GGT(i, N) = 1} <strong>die</strong> Anzahl der natürlichen Zahlen, <strong>die</strong><br />
kle<strong>in</strong>er N und zu N teilerfremd s<strong>in</strong>d.<br />
Beispiel:<br />
N 2 3 4 5 6 7 8 9 10<br />
ϕ(N) 1 2 2 4 2 6 4 6 4<br />
Die „1“ zählt stets mit!<br />
Behauptung: ϕ(N) = N ·<br />
k∏<br />
(1 − 1 p j<br />
) (Eulersche Funktion).<br />
j=1<br />
Wir übersetzen <strong>die</strong> Aufgabenstellung <strong>in</strong> <strong>die</strong> Sprache der Wahrsche<strong>in</strong>lichkeitsrechnung:<br />
Def<strong>in</strong>iere Ω N := {i ∈ N|1 ≤ i ≤ N} = {1, . . . , N}. Für A ⊂ Ω N sei P (A) := #A<br />
#Ω N<br />
.<br />
Sei A i = {m ∈ Ω N |p i teilt m} <strong>die</strong> Teilmenge der Zahlen aus Ω N , <strong>die</strong> durch p i teilbar s<strong>in</strong>d.<br />
Dann ist #A i = N p i<br />
(Bemerkung:<br />
N<br />
p i<br />
ist e<strong>in</strong>e natürliche Zahl, da p i e<strong>in</strong> Faktor <strong>in</strong> der<br />
Primzahlzerlegung von N ist.) und P (A i ) = N/p i<br />
N = 1 p i<br />
.<br />
Weiter gilt: P (A i1 ∩...∩A il ) = 1<br />
p i1 ...p il<br />
= l ∏<br />
j=1<br />
∏<br />
1<br />
p ij<br />
= l P (A ij ), denn |A i1 ∩. . .∩A il | =<br />
j=1<br />
Die Ereignisse A 1 , . . . , A k s<strong>in</strong>d also unabhängig. Folglich gilt<br />
P (Zahl ≤ N ist teilerfremd zu N) = P (A c 1 ∩ . . . ∩ A c k ) = ∏ k ∏<br />
P (A c j) = k (1 − 1 p j<br />
).<br />
Und damit folgt <strong>die</strong> Behauptung ϕ(N) = N ·<br />
k∏<br />
(1 − 1 p j<br />
).<br />
j=1<br />
j=1<br />
j=1<br />
N<br />
p i1 ...p il<br />
.<br />
5.5.2 2-dimensionaler Fall<br />
Wähle zufällig 2 Zahlen ≤ N. Dabei soll „zufällig“ heißen, daß jedes Paar (i, j) mit derselben<br />
Wahrsche<strong>in</strong>lichkeit gewählt wird. Wie groß ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit, daß <strong>die</strong>se<br />
1<br />
N 2<br />
beiden Zahlen teilerfremd s<strong>in</strong>d?
42 5 BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT<br />
Der Grundraum ist Ω 2 N = {(i, j)|i, j ∈ N, max(i, j) ≤ N}. Für A ⊂ Ω2 N<br />
Da N ∈ N ist, gibt es e<strong>in</strong>deutig bestimmte Primzahlen p i und α i ∈ N mit N = p α 1<br />
1 . . . p α k<br />
sei P (A) =<br />
#A<br />
#N .<br />
Sei A m := {(i, j)|p m teilt i und p m teilt j}∩Ω N . Dann ist #A m = ( N p m<br />
) 2 und P (A m ) = 1 .<br />
p 2 m<br />
Ebenso wie im 1-dimensionalen Fall folgt: Die A 1 , . . . , A k s<strong>in</strong>d unabhängig und<br />
k∏<br />
k∏<br />
P (Zahlenpaar ≤ N ist teilerfremd) = P (A c 1 ∩ ... ∩ A c k) = P (A c j) = −<br />
j=1<br />
j=1(1 1 ).<br />
p 2 j<br />
Betrachten wir nun den Grenzübergang N → ∞:<br />
k∏<br />
lim P (Zahlenpaar ≤ N ist teilerfremd) = lim<br />
N→∞ k→∞<br />
Dabei folgt das Ergebnis aus dem folgenden Lemma:<br />
5.5.3 Lemma<br />
Für s > 1 sei ζ(s) = ∑ n≥1<br />
n −s . Dann gilt<br />
Insbesondere ist ζ(2) = lim<br />
p≤N<br />
p prim<br />
ζ(s) = lim<br />
N→∞<br />
∏<br />
N→∞ p≤N<br />
p prim<br />
∏<br />
p≤N<br />
p prim<br />
j=1(1 − 1 p 2 j<br />
(<br />
1 − 1 p s ) −1<br />
.<br />
(1 − 1 ) −1 = ∑ n −2 = π2 .<br />
p 2 6<br />
n≥1<br />
) = 6<br />
π 2 .<br />
Beweis:<br />
Das folgende Produkt ist e<strong>in</strong> Produkt geometrischer Reihen.<br />
∏<br />
(<br />
1 − 1 ) −1<br />
= ∏ (<br />
1 + 1 p s p + 1 )<br />
s p + . . . = ∑<br />
2s<br />
p≤N<br />
p prim<br />
(α 1 ,...,α l )<br />
1<br />
p sα 1<br />
1 · · · p sα l<br />
l<br />
Dabei s<strong>in</strong>d p i <strong>die</strong> Primzahlen mit p 1 < p 2 < . . . < p l ≤ N < p l+1 . Nun gilt aber weiter,<br />
da sich jedes n ≤ N als Produkt von Potenzen von p i angeben läßt, daß obige Summe<br />
größer gleich ∑ ist. Andererseits ist <strong>die</strong>se Summe kle<strong>in</strong>er gleich ζ(s). Folglich gilt<br />
n≤N<br />
1<br />
n s<br />
0 ≤ ζ(s) − ∏ p≤N<br />
p prim<br />
(1 − 1 )<br />
≤ ∑ p s n>N<br />
Da für s > 1 <strong>die</strong> rechte Seite für N → ∞ gegen 0 konvergiert, folgt <strong>die</strong> Behauptung.<br />
5.5.4 Bemerkung<br />
Läßt sich das oben def<strong>in</strong>ierte P im Fall N → ∞ als Wahrsche<strong>in</strong>lichkeitsmaß auf N × N<br />
<strong>in</strong>terpretieren?<br />
Antwort: Ne<strong>in</strong>! Denn sei für A ⊂ N × N<br />
Q(A) = lim<br />
N→∞ P (A ∩ Ω N), so ist Q ke<strong>in</strong> Wahrsche<strong>in</strong>lichkeitsmaß, da für jedes Paar<br />
(i, j) ∈ N 2 gilt: Q({(i, j)}) = lim N→∞<br />
1<br />
N 2 = 0 und damit ∑ (i,j)<br />
Q({(i, j)}) = 0 im Widerspruch<br />
zu Q(N × N) = 1.<br />
1<br />
n s .<br />
k .
43<br />
6 Zufallsvariable und ihre Verteilung<br />
6.1 Zufallsvariable, Verteilung e<strong>in</strong>er Zufallsvariable<br />
6.1.1 Def<strong>in</strong>ition (Verteilung)<br />
Sei (Ω, P ) e<strong>in</strong> Wahrsche<strong>in</strong>lichkeitsraum. E<strong>in</strong>e Zufallsvariable ist e<strong>in</strong>e Abbildung X : Ω →<br />
R. Durch q(x) := P {ω|X(ω) = x} wird e<strong>in</strong>e Wahrsche<strong>in</strong>lichkeitsfunktion auf X(Ω) ⊂ R<br />
def<strong>in</strong>iert. Das zugehörige Wahrsche<strong>in</strong>lichkeitsmaß Q : P(X(Ω)) → [0, 1], Q(A) = ∑ x∈A<br />
q(x)<br />
heißt Verteilung von X. Man schreibt auch P X für Q.<br />
Sei p(x) = P ({x}) <strong>die</strong> Wahrsche<strong>in</strong>lichkeitsfunktion von P . Für x ∈ X(Ω) ist im obigen<br />
Bild q(x) = p(w 1 ) + p(w 2 ) + p(w 3 ).<br />
q ist Wahrsche<strong>in</strong>lichkeitsfunktion, da<br />
∑<br />
x∈X(Ω)<br />
q(x) =<br />
∑<br />
x∈X(Ω)<br />
= ∑<br />
x∈X(Ω)<br />
P ({ω|X(ω) = x})<br />
∑<br />
ω|X(ω)=x<br />
= ∑ ω∈Ω<br />
p(ω) = 1.<br />
p(ω)<br />
Für A ⊂ X(Ω) ist<br />
Q(A) = ∑ q(x)<br />
x∈A<br />
= ∑ P ({ω|X(ω) = x})<br />
x∈A<br />
= P ({ω|X(ω) ∈ A})<br />
= P ( X −1 (A) ) .
44 6 ZUFALLSVARIABLE UND IHRE VERTEILUNG<br />
6.1.2 Beispiel<br />
Wir betrachten <strong>die</strong> Summe der Augenzahlen zweier Würfelwürfe. Bei zwei Würfelwürfen<br />
ist der Grundraum Ω 2 = {ω = (ω 1 , ω 2 )|ω i ∈ {1, . . . , 6}, i = 1, 2}. Wir können nun jedem<br />
ω = (ω 1 , ω 2 ) ∈ Ω 2 e<strong>in</strong>e reelle Zahl X(ω) = ω 1 + ω 2 zuordnen. Dann ist X e<strong>in</strong>e Abbildung<br />
von Ω 2 → R und damit e<strong>in</strong>e Zufallsvariable.<br />
Für <strong>die</strong> Wahrsche<strong>in</strong>lichkeitsfunktion und das Wahrsche<strong>in</strong>lichkeitsmaß auf Ω 2 gilt:<br />
p(ω) = 1<br />
#Ω 2<br />
und P (A) = #A<br />
#Ω 2<br />
.<br />
Die zu X gehörende Wahrsche<strong>in</strong>lichkeitsfunktion q : R → [0, 1] hat folgende Gestalt:<br />
q(k) = P ({ω ∈ Ω 2 |X(ω) = k} = P ({ω = (ω 1 , ω 2 ) ∈ Ω 2 |ω 1 + ω 2 = k} = #{ω|ω 1+ω 2 =k}<br />
#Ω 2<br />
.<br />
q(2) = #{ω|ω 1 + ω 2 = 2}<br />
#Ω 2<br />
=<br />
q(3) = #{ω|ω 1 + ω 2 = 3}<br />
#Ω 2<br />
=<br />
.<br />
#{(1, 1)}<br />
= 1 36 36<br />
#{(1, 2), (2, 1)}<br />
36<br />
= 2 36<br />
q(7) = . . . = 6 36<br />
.<br />
q(11) = #{ω|ω 1 + ω 2 = 11}<br />
#Ω 2<br />
=<br />
q(12) = #{ω|ω 1 + ω 2 = 12}<br />
#Ω 2<br />
=<br />
#{(5, 6), (6, 5)}<br />
36<br />
#{(6, 6)}<br />
= 1 36 36<br />
= 2 36<br />
Sei A ⊂ R. Dann gilt für <strong>die</strong> Verteilung von X: Q(A) = ∑ k∈A<br />
q(k). Sei beispielsweise<br />
A = {k ∈ R|k ≤ 3}. So ist Q(A) = ∑ ∑<br />
q(k) = 3 q(k) = 1 . 12<br />
k≤3 k=2<br />
Bemerkungen<br />
1. Die Verteilung von X kann auch als Maß auf R angesehen werden. Man setzt<br />
P X (A) := P X (A ∩ X(Ω)) = P ( X −1 (A) ) für A ⊂ R.<br />
P X ist aber e<strong>in</strong> Wahrsche<strong>in</strong>lichkeitsmaß auf R. Denn<br />
P X (R) = P X (X(Ω)) = P (Ω) = 1<br />
und<br />
( ∞<br />
)<br />
⋃<br />
P X A i =<br />
i=1<br />
∞∑<br />
P X (A i )<br />
i=1
6.2 Unabhängigkeit von Zufallsvariablen 45<br />
für A i ⊂ R, paarweise disjunkt. Denn:<br />
( ∞<br />
) ( (<br />
⋃<br />
∞<br />
))<br />
⋃<br />
P X A i = P X −1 A i<br />
i=1<br />
i=1<br />
( ∞<br />
)<br />
⋃<br />
= P X −1 (A i )<br />
=<br />
=<br />
i=1<br />
∞∑<br />
P (X −1 (A i ))<br />
i=1<br />
∞∑<br />
P X (A i ).<br />
i=1<br />
2. Sei e<strong>in</strong>e Wahrsche<strong>in</strong>lichkeitsfunktion p auf e<strong>in</strong>er diskreten Teilmenge W =<br />
{x 1 , x 2 , . . .} ⊂ R gegeben. Durch X : W → R mit X(x i ) := x i wird e<strong>in</strong>e Zufallsvariable<br />
auf W erklärt, deren Verteilung P X <strong>die</strong> Wahrsche<strong>in</strong>lichkeitsfunktion p<br />
hat. Denn:<br />
q(x i ) = P X ({x i }) = P ({z ∈ W |X(z) = x i }) = p(x i ).<br />
3. Wegen 2) spricht man von e<strong>in</strong>er Verteilung, wenn e<strong>in</strong>e Wahrsche<strong>in</strong>lichkeitsfunktion<br />
p auf e<strong>in</strong>er diskreten Teilmenge von R gegeben wird.<br />
6.1.3 Beispiele von Verteilungen<br />
1) B<strong>in</strong>omial-Verteilung b(n, p)<br />
b(n, p; k) = ( n<br />
k)<br />
p k (1 − p) n−k def<strong>in</strong>iert e<strong>in</strong>e Wahrsche<strong>in</strong>lichkeitsfunktion auf {0, 1, ..., n}.<br />
2) Bernoulliverteilung b(1, p)<br />
b(1, p; k) = p k (1 − p) 1−k für k ∈ {0, 1}.<br />
Die Bernoulliverteilung ist e<strong>in</strong> Spezialfall der B<strong>in</strong>omialverteilung für n = 1.<br />
3) Poisson-Verteilung pois(λ)<br />
pois(λ; k) = λk<br />
k! e−λ ist e<strong>in</strong>e Wahrsche<strong>in</strong>lichkeitsfunktion auf N ∪ {0}.<br />
4) Pascal-Verteilung pasc(r, p)<br />
pasc(r, p; n) = ( n−1<br />
r−1)<br />
p r (1 − p) n−r für n ∈ {r, r + 1, r + 2, ...}, r ∈ N.<br />
5) Geometrische Verteilung<br />
Speziell: Für r = 1 ergibt sich pasc(1, p; n) = p(1 − p) n−1 .<br />
6.2 Unabhängigkeit von Zufallsvariablen<br />
6.2.1 Def<strong>in</strong>ition (Unabhängigkeit von Zufallsvariablen)<br />
X 1 , X 2 , ..., X n seien Zufallsvariablen auf (Ω, P ) und<br />
X i (Ω) sei der Wertebereich von X i für i = 1, ..., n.
46 6 ZUFALLSVARIABLE UND IHRE VERTEILUNG<br />
X 1 , ..., X n heißen unabhängig, falls für alle z i ∈ X i (Ω) für i = 1, . . . , n gilt:<br />
( n<br />
)<br />
⋂<br />
n∏<br />
P {X i = z i } = P ({X i = z i }) .<br />
i=1<br />
i=1<br />
Dabei haben wir <strong>die</strong> Kurzschreibweise: {X i = z i } = {ω ∈ Ω|X i (ω) = z i } verwendet.<br />
6.2.2 Satz<br />
X 1 , .., X n seien Zufallsvariablen auf (Ω, P ). Dann s<strong>in</strong>d folgende Aussagen äquivalent:<br />
(1) X 1 , ..., X n s<strong>in</strong>d unabhängig. ( n<br />
)<br />
⋂<br />
∏<br />
(2) Für alle A 1 , . . . , A n ⊂ R gilt: P {X i ∈ A i } = n P ({X i ∈ A i }).<br />
i=1<br />
i=1<br />
Dabei bedeutet {X i ∈ A i } := {ω ∈ Ω|X i (ω) ∈ A i }.<br />
Beweis:<br />
(2) ⇒ (1) trivial.<br />
(1) ⇒ (2) Seien A 1 , ..., A n gegeben.<br />
Da nur <strong>die</strong> Elemente aus X i (Ω) ∩ A i e<strong>in</strong>e Wahrsche<strong>in</strong>lichkeit ≥ 0 haben und X i (Ω) abzählbar<br />
ist, können wir o.B.d.A. annehmen, daß <strong>die</strong> A i abzählbar s<strong>in</strong>d und <strong>die</strong> Form<br />
A i = {y i1 , y i2 , . . .} haben. Damit können wir <strong>die</strong> Mengen {X i ∈ A i } folgendermaßen<br />
zerlegen: {X i ∈ A i } = ⋃ {X i = y ij }.<br />
j<br />
Somit gilt<br />
n⋂<br />
{X i ∈ A i } =<br />
i=1<br />
n⋂ ⋃<br />
i=1<br />
j i<br />
{X i = y iji } =<br />
⋃<br />
j 1 ,...,j n<br />
{X 1 = y 1j1 , X 2 = y 2j2 , ..., X n = y njn }<br />
und damit<br />
P<br />
( ⋂<br />
i<br />
)<br />
{X i ∈ A i } = ∑<br />
P ({X 1 = y 1j1 , X 2 = y 2j2 , ..., X n = y njn })<br />
j 1 ,...,j n<br />
= ∑<br />
=<br />
=<br />
n<br />
∏<br />
j 1 ,...,j n i=1<br />
P (X i = y iji )<br />
(<br />
n∏ ∑<br />
P ({X i = y iji }))<br />
j i<br />
i=1<br />
n∏<br />
P ({X i ∈ A i }) .<br />
i=1
6.2 Unabhängigkeit von Zufallsvariablen 47<br />
6.2.3 Beispiel (n-facher Münzenwurf e<strong>in</strong>er p-Münze)<br />
Beim n-fachen Münzwurf ist der Grundraum Ω = {ω = (ω 1 , ..., ω n )|ω i ∈ {0, 1}} und das<br />
dazugehörige Wahrsche<strong>in</strong>lichkeitsmaß P ({(ω 1 , ..., ω n )}) = p P ω i<br />
(1 − p) n−P ω i<br />
.<br />
Wir def<strong>in</strong>ieren <strong>die</strong> Zufallsvariablen X i : Ω → {0, 1}, X i (ω) = ω i für i = 1, . . . , n.<br />
Behauptung: X 1 , ..., X n s<strong>in</strong>d unabhängig.<br />
Beweis: Sei (ω 1, ′ ..., ω n) ′ ∈ Ω beliebig. Dann gilt:<br />
( n<br />
)<br />
⋂<br />
P {X i = ω i}<br />
′ = P ({(ω 1, ′ ..., ω n)}) ′ = p P ω i ′ (1 − p)<br />
n− P ∏ n<br />
ω i ′ = P ({X i = ω i})<br />
′<br />
i=1<br />
und damit s<strong>in</strong>d X 1 , ..., X n unabhängig.<br />
∑<br />
Sei nun S n = n X i . Dann gilt:<br />
i=1<br />
({ n∑<br />
})<br />
P (S n = k) = P X i = k<br />
i=1<br />
({<br />
})<br />
n∑<br />
= P ω<br />
X<br />
∣ i (ω) = k<br />
i=1<br />
= ∑<br />
P ({(ω 1 , ..., ω n )})<br />
ω| P ω i =k<br />
= ∑<br />
=<br />
ω| P ω i =k<br />
p k (1 − p) n−k<br />
( n<br />
k)<br />
p k (1 − p) n−k .<br />
i=1<br />
S<strong>in</strong>d also <strong>die</strong> X i Bernoulli-verteilt, d.h. P (X i = ω i ) = p ω i<br />
(1 − p) 1−ω i<br />
, ω i ∈ {0, 1}, so ist<br />
<strong>die</strong> Summe S n der X i nach b(n, p)-verteilt.<br />
Allgeme<strong>in</strong>er gilt: Seien X 1 , ..., X n unabhängig und b(1, p) verteilt und Y 1 , ..., Y m ebenfalls<br />
∑<br />
unabhängig und b(1, p) verteilt. Dann ist n ∑<br />
X i + m Y i b(n + m, p)-verteilt.<br />
i=1<br />
j=1<br />
6.2.4 Satz (Konstruktion e<strong>in</strong>es Wahrsche<strong>in</strong>lichkeitsraumes aus n unabhängigen<br />
Zufallsgrößen zu vorgegebenen Verteilungen)<br />
Seien (Ω i , P i ) Wahrsche<strong>in</strong>lichkeitsräume mit Ω i ⊂ R für i = 1, . . . , n und p i , <strong>die</strong> zu den<br />
Wahrsche<strong>in</strong>lichkeitsmaßen P i gehörigen Wahrsche<strong>in</strong>lichkeitsfunktionen.<br />
∏<br />
Weiter sei Ω = Ω 1 ×. . .×Ω n = {ω = (ω 1 , ..., ω n )|ω i ∈ Ω i , i = 1, ..., n} und p(ω) = n p i (ω i ).<br />
Seien X i (ω) = ω i für i = 1, ..., n Zufallsvariablen und sei P das zu p gehörige Wahrsche<strong>in</strong>lichkeitsmaß.<br />
Dann gilt:<br />
a) p(ω) ist e<strong>in</strong>e Wahrsche<strong>in</strong>lichkeitsfunktion auf Ω.<br />
i=1
48 6 ZUFALLSVARIABLE UND IHRE VERTEILUNG<br />
b) Die Zufallsvariable X i ist nach P i verteilt.<br />
c) X 1 , ..., X n s<strong>in</strong>d unabhängig.<br />
Beweis:<br />
∑<br />
zu (a): p(ω) =<br />
∑ n∏<br />
p i (ω i ) = ∑ . . . ∑ ∏ n<br />
p i (ω i )<br />
ω 1 ω n<br />
ω∈Ω<br />
(ω 1 ,...,ω n) i=1<br />
)<br />
i=1<br />
( ( ∑ ∑<br />
= p 1 (ω 1 ) . . . p n (ω n ) = 1<br />
ω 1 ω n<br />
)<br />
zu (b): {X i ∈ A i } = {ω|X i (ω) ∈ A i }<br />
= {ω|ω i ∈ A i }<br />
= Ω 1 × . . . × Ω i−1 × A i × Ω i+1 × . . . × Ω n<br />
P ({X i ∈ A i }) = P (Ω 1 × . . . × Ω i−1 × A i × Ω i+1 × . . . × Ω n )<br />
= P 1 (Ω 1 ) · · · P i−1 (Ω i−1 ) · P i (A i ) · P i+1 (Ω i+1 ) · · · P n (Ω n )<br />
= P i (A i )<br />
zu (c):<br />
n⋂<br />
{X i ∈ A i } = {ω|X i (ω) ∈ A i , i = 1, . . . , n}<br />
i=1<br />
= {ω|ω i ∈ A i , i = 1, . . . , n}<br />
= A 1 × A 2 × . . . × A n<br />
n⋂<br />
P ( {X i ∈ A i }) = P (A 1 × ... × A n )<br />
i=1<br />
∑<br />
=<br />
ω∈A 1 ×...×A n<br />
p(ω)<br />
∑ ∏ n<br />
=<br />
p i (ω i )<br />
( ω∈A 1 ×...×A n i=1)<br />
( )<br />
∑<br />
∑<br />
= p 1 (ω 1 ) . . . p n (ω n )<br />
ω 1 ∈A 1 ω n∈A n<br />
= P 1 (A 1 ) . . . P n (A n )<br />
n∏<br />
= P ({X i ∈ A i })<br />
i=1<br />
6.2.5 Satz (Summe von B<strong>in</strong>omialverteilungen, Poissonverteilungen, Pascalverteilungen)<br />
Seien X 1 und X 2 unabhängige Zufallsvariablen.<br />
a) S<strong>in</strong>d <strong>die</strong> X i B<strong>in</strong>omial-verteilt nach b(n i , p) für i = 1, 2, dann ist X 1 + X 2 B<strong>in</strong>omialverteilt<br />
nach b(n 1 + n 2 , p).
6.2 Unabhängigkeit von Zufallsvariablen 49<br />
b) S<strong>in</strong>d <strong>die</strong> X i Poisson-verteilt mit Parameter λ i für i = 1, 2, dann ist X 1 + X 2 Poissonverteilt<br />
mit Parameter λ 1 + λ 2 .<br />
Beweis:<br />
⋃<br />
zu (a): P ({X 1 + X 2 = l}) = P ( l {X 1 = i, X 2 = l − i})<br />
=<br />
=<br />
=<br />
=<br />
i=0<br />
l∑<br />
P ({X 1 = i, X 2 = l − i})<br />
i=0<br />
l∑<br />
P ({X 1 = i})P ({X 2 = l − i})<br />
i=0<br />
l∑<br />
(<br />
n1<br />
i=0<br />
)<br />
(<br />
p i (1 − p) n n2<br />
1−i<br />
l − i<br />
i<br />
l∑<br />
p l (1 − p) n 1+n 2 −l<br />
i=0<br />
= p l (1 − p) n 1+n 2 −l<br />
= p l (1 − p) n 1+n 2 −l<br />
l∑<br />
( )(<br />
n1 n2<br />
i<br />
( i=0<br />
n1 + n 2<br />
)<br />
p l−i (1 − p) n 2−l+i<br />
)<br />
l − i<br />
)<br />
( )(<br />
n1 n2<br />
⋃<br />
zu (b): P ({X 1 + X 2 = l}) = P ( l {X 1 = i, X 2 = l − i})<br />
=<br />
=<br />
i=0<br />
l<br />
i<br />
l − i<br />
)<br />
l∑<br />
P ({X 1 = i})P ({X 2 = l − i})<br />
i=0<br />
l∑<br />
i=0<br />
λ i 1<br />
= e −(λ 1+λ 2 )<br />
= e −(λ 1+λ 2 ) 1 l!<br />
λ l−i<br />
i! e−λ 1 2<br />
(l − i)! e−λ 2<br />
l∑<br />
i=0<br />
λ i 1<br />
λ l−i<br />
2<br />
i! (l − i)!<br />
l∑<br />
i=0<br />
= e −(λ 1+λ 2 ) (λ 1 + λ 2 ) l<br />
l!<br />
( l<br />
i)<br />
λ i 1λ l−i<br />
2 , da<br />
( )<br />
l! l<br />
i!(l − i)! = i<br />
(b<strong>in</strong>omische Formel)
50 7 ERWARTUNGSWERT UND VARIANZ VON VERTEILUNGEN<br />
7 Erwartungswert und Varianz von Verteilungen<br />
7.1 Der Erwartungswert<br />
7.1.1 Beispiele<br />
1) Spiel mit e<strong>in</strong>em Würfel: Der Gew<strong>in</strong>n sei „i“, falls der Würfel „i“ ergibt. Was ist e<strong>in</strong><br />
fairer E<strong>in</strong>satz?<br />
Antwort: 1 · 1 + 1 · 2 + ... + 1 · 6 = 3, 5.<br />
6 6 6<br />
2) Sei n i <strong>die</strong> Anzahl der Familien mit „i“ K<strong>in</strong>dern.<br />
Dann ist n = n 0 + n 1 + ... + n 18 <strong>die</strong> Anzahl der Familien,<br />
und m = n 1 + 2n 2 + ... + 18n 18 <strong>die</strong> Anzahl der K<strong>in</strong>der.<br />
Mittlere Anzahl der K<strong>in</strong>der pro Familie ist m n .<br />
7.1.2 Def<strong>in</strong>ition (Erwartungswert)<br />
Sei (Ω, P ) e<strong>in</strong> Wahrsche<strong>in</strong>lichkeitsraum, p <strong>die</strong> zu P gehörige Wahrsche<strong>in</strong>lichkeitsfunktion<br />
und X e<strong>in</strong>e Zufallsgröße auf Ω.<br />
E(X) := ∑ ω∈Ω<br />
X(ω)p(ω)<br />
heißt Erwartungswert von X, falls X ≥ 0 oder ∑ |X(ω)|p(ω) < ∞ gilt.<br />
ω∈Ω<br />
7.1.3 Bemerkungen<br />
(1) Der Erwartungswert ist der mittlere Wert e<strong>in</strong>er Zufallsvariablen bzw. ihrer Verteilung.<br />
(2) Sei f : R → R e<strong>in</strong>e Funktion. Dann ist f ◦ X e<strong>in</strong>e Zufallsgröße und wenn ihr Erwartungswert<br />
existiert, so ist <strong>die</strong>ser E(f ◦ X) = ∑ ω∈Ω<br />
f(X(ω))p(ω).<br />
(3) EX = ∞ ist möglich, falls X ≥ 0 ist! Siehe Beispiel 7.2.4.<br />
(4) Falls ∑ |X(ω)|p(ω) < ∞, so gilt E|X| = ∑ |X(ω)|p(ω).<br />
ω∈Ω<br />
ω∈Ω<br />
Dies sieht man so: Da auf der rechten Seite e<strong>in</strong>e absolut konvergente Reihe steht, kann<br />
man <strong>die</strong> Reihe ∑ X(ω)p(ω) umordnen. Es gilt<br />
ω∈Ω<br />
E(X) = ∑ ω<br />
X + (ω)p(ω) − ∑ ω<br />
X − (ω)p(ω) = E(X + ) − E(X − ),<br />
wobei X + (ω) := X(ω)∨0 und X − (ω) := (−X(ω)∨0) s<strong>in</strong>d. Es gilt außerdem X ± (ω) ≥<br />
0. Da |X(ω)| = X + (ω) + X − (ω) ist, gilt auch E|X| = E(X + ) + E(X − ).
7.1 Der Erwartungswert 51<br />
7.1.4 Eigenschaften des Erwartungswertes<br />
(1) E(α · X) = α · E(X).<br />
(2) Für A ⊆ Ω gilt: E(1 A ) = P (A), wobei 1 A (ω) =<br />
(3) |EX| ≤ E|X|<br />
{ 1 falls ω ∈ A<br />
0 falls ω /∈ A .<br />
(4) S<strong>in</strong>d E|X| und E|Y | kle<strong>in</strong>er unendlich, so gilt E(X + Y ) = E(X) + E(Y ).<br />
(5) S<strong>in</strong>d X, Y Zufallsvariablen mit P ({ω|X(ω) ≤ Y (ω)}) = 1, so gilt: E(X) ≤ E(Y ).<br />
Beweis:<br />
Zu (1): E(αX) = ∑ αX(ω)p(ω) = α ∑ X(ω)p(ω) = αE(X).<br />
ω∈Ω<br />
ω∈Ω<br />
Zu (2): E(1 A ) = ∑ 1 A (ω)p(ω) = ∑ p(ω) = P (A).<br />
ω∈Ω<br />
ω∈A<br />
Zu (3): |EX| = |E(X + ) − E(X − )| ≤ |EX + | + |EX − | = E(X + + X − ) = E|X|.<br />
Zu (4):<br />
E(X + Y ) = ∑ ω∈Ω(X(ω) + Y (ω))p(ω)<br />
= ∑ X(ω)p(ω) + ∑ Y (ω)p(ω)<br />
ω∈Ω<br />
ω∈Ω<br />
= E(X) + E(Y )<br />
Zu (5):<br />
E(X) = ∑ ω∈Ω<br />
X(ω)p(ω)<br />
=<br />
(∗)<br />
≤<br />
=<br />
∑<br />
ω∈{ω|X(ω)≤Y (ω)}<br />
∑<br />
ω∈{ω|X(ω)≤Y (ω)}<br />
∑<br />
ω∈{ω|X(ω)≤Y (ω)}<br />
= ∑ ω∈Ω<br />
Y (ω)p(ω)<br />
= E(Y )<br />
X(ω)p(ω) +<br />
Y (ω)p(ω) +<br />
Y (ω)p(ω) +<br />
(*) P (X ≤ Y ) = 1, und damit P (X > Y ) = 0<br />
und schließlich p(ω) = 0 auf {ω | X(ω) > Y (ω)}.<br />
∑<br />
ω∈{ω|X(ω)>Y (ω)}<br />
∑<br />
ω∈{ω|X(ω)>Y (ω)}<br />
∑<br />
ω∈{ω|X(ω)>Y (ω)}<br />
X(ω)p(ω)<br />
X(ω) · 0<br />
Y (ω)p(ω)
52 7 ERWARTUNGSWERT UND VARIANZ VON VERTEILUNGEN<br />
7.1.5 Folgerung (Po<strong>in</strong>carés E<strong>in</strong>- und Ausschlußformel)<br />
Unter Verwendung des Erwartungswertes läßt sich Po<strong>in</strong>carés E<strong>in</strong>- und Ausschlußformel<br />
⋃<br />
P ( n ∑<br />
A k ) = n ∑<br />
(−1) k−1 P (A i1 ∩ ... ∩ A ik ) ganz e<strong>in</strong>fach beweisen.<br />
i 1 ,...,i k<br />
k=1<br />
Beweis:<br />
k=1<br />
n⋃<br />
n⋃<br />
1 − P ( A k ) = P (( A k ) c )<br />
k=1<br />
= P (<br />
k=1<br />
n⋂<br />
A c k)<br />
k=1<br />
= E(1 nT<br />
= E(<br />
= E(<br />
k=1<br />
)<br />
A c k<br />
n∏<br />
1 A c<br />
k<br />
)<br />
k=1<br />
n∏<br />
(1 − 1 Ak ))<br />
k=1<br />
n∑ ∑<br />
k∏<br />
= E(1 + (−1) k 1 Aij )<br />
k=1 i 1 ,...,i k j=1<br />
n∑ ∑<br />
= 1 + (−1) k E(1 Ai1 ∩...∩A ik<br />
)<br />
k=1 i 1 ,...,i k<br />
n∑ ∑<br />
= 1 + (−1) k P (A i1 ∩ ... ∩ A ik )<br />
k=1 i 1 ,...,i k<br />
n∑ ∑<br />
= 1 − (−1) k−1 P (A i1 ∩ ... ∩ A ik )<br />
i 1 ,...,i k<br />
k=1<br />
7.1.6 Satz (Transformationssatz)<br />
Sei (Ω, P ) e<strong>in</strong> Wahrsche<strong>in</strong>lichkeitsraum und X e<strong>in</strong>e Zufallsvariable mit der Wertemenge<br />
X(Ω) = {x 1 , x 2 , ...}. Für x ∈ X(Ω) sei q(x) = P ({ω|X(ω) = x}). Weiter sei f : R → R<br />
und es gelte f ≥ 0 oder E|f(X)| < ∞. Dann gilt:<br />
a) E(f(X)) =<br />
∞∑<br />
f(x i )q(x i ).<br />
i=1<br />
b) Ist Y e<strong>in</strong>e weitere Zufallsvariable auf (Ω, P ) mit Y (Ω) = {y 1 , y 2 , . . .}. Sei g : R 2 → R<br />
und gelte g ≥ 0 oder E|g(X, Y )| < ∞. Dann gilt<br />
Eg(X, Y ) = ∑ i,j<br />
g(x i , y j )q(x i , y j ) mit q(x i , y j ) = P (X = x i , Y = y j ).
7.2 Beispiele von Erwartungswerten 53<br />
Beweis:<br />
zu a) E(f(X)) = ∑ ω∈Ω<br />
f(X(ω))p(ω)<br />
=<br />
=<br />
=<br />
=<br />
∞∑<br />
∑<br />
i=1 {ω|X(ω)=x i }<br />
∞∑<br />
f(x i )<br />
i=1<br />
f(X(ω))p(ω)<br />
∑<br />
{ω|X(ω)=x i }<br />
p(ω)<br />
∞∑<br />
f(x i )P ({ω|X(ω) = x i })<br />
i=1<br />
∞∑<br />
f(x i )q(x i )<br />
i=1<br />
zu b) Der Beweis geht entsprechend wie a).<br />
7.2 Beispiele von Erwartungswerten<br />
7.2.1 B<strong>in</strong>omial-Verteilung<br />
Seien X 1 , ..., X n Zufallsvariablen mit P (X i = 1) = p i = 1 − P (X i = 0) für i = 1, ..., n.<br />
Dann gilt : E(X i ) = 1 · P (X i = 1) + 0 · P (X i = 0) = p i .<br />
∑<br />
Außerdem gilt: E(X 1 + X 2 + ... + X n ) = E(X 1 ) + ... + E(X n ) = n p i .<br />
Gilt p i = p für i = 1, ..., n, so liegt <strong>die</strong> B<strong>in</strong>omial-Verteilung vor. Für den Erwartungswert<br />
der B<strong>in</strong>omial-Verteilung gilt: E(X 1 + ... + X n ) = np.<br />
Auf dasselbe Ergebnis kommt man auch mit Hilfe von Satz 7.1.6:<br />
P (X = k) = q(k) = ( n<br />
k)<br />
p k (1 − p) n−k . Also gilt:<br />
(*) ( n<br />
k<br />
)<br />
=<br />
n<br />
k<br />
E(X) =<br />
( n−1<br />
)<br />
k−1<br />
=<br />
n∑<br />
k=0<br />
n∑<br />
k=1<br />
( n<br />
k p<br />
k)<br />
k (1 − p) n−k<br />
( n<br />
k p<br />
k)<br />
k (1 − p) n−k<br />
(∗)<br />
{}}{<br />
n∑<br />
( ) n − 1<br />
= n p k (1 − p) n−k<br />
k − 1<br />
k=1<br />
n∑<br />
( ) n − 1<br />
= np<br />
p k−1 (1 − p) n−k<br />
k − 1<br />
k=1<br />
∑n−1<br />
( ) n − 1<br />
= np<br />
p l (1 − p) (n−1)−l<br />
l<br />
l=0<br />
} {{ }<br />
= np.<br />
=1<br />
i=1<br />
(b<strong>in</strong>omische Formel)
54 7 ERWARTUNGSWERT UND VARIANZ VON VERTEILUNGEN<br />
7.2.2 Poisson-Verteilung<br />
P (X = k) = λk<br />
k! e−λ = q(k)<br />
E(X) =<br />
∞∑<br />
k · P (X = k)<br />
k=0<br />
∞∑<br />
= k λk<br />
k! e−λ<br />
k=1<br />
∞∑ λ k−1<br />
= λ<br />
(k − 1)! e−λ<br />
k=1<br />
∞∑ λ l<br />
= λ<br />
l! e−λ<br />
l=0<br />
∞∑<br />
= λ q(l)<br />
= λ,<br />
da q Wahrsche<strong>in</strong>lichkeitsfunktion auf N 0 ist.<br />
l=0<br />
7.2.3 Geometrische Verteilung<br />
P (X = k) = p(1 − p) k−1 für k = 1, 2, . . ..<br />
∑<br />
E(X) = ∞ ∑<br />
kp(1 − p) k−1 = p ∞ k(1 − p) k−1 = p · 1 = 1.<br />
p 2 p<br />
k=1<br />
k=1<br />
∞∑<br />
Dabei haben wir folgende Identität verwendet: kx k−1 = 1 für |x| ≤ 1.<br />
(x−1) 2<br />
E<strong>in</strong> anderer Weg: Ohne Beweis sei folgender Satz angegeben: Ist X e<strong>in</strong>e Zufallsvariable<br />
∑<br />
mit Werten <strong>in</strong> Z + , so gilt: E(X) = ∞ P (X ≥ n).<br />
∑<br />
E(X) = ∞ ∑<br />
P (X ≥ n) = ∞ ∑<br />
(1 − p) n−1 = ∞ (1 − p) m 1<br />
= = 1.<br />
1−(1−p) p<br />
n=1<br />
n=1<br />
7.2.4 Beispiel für E(T ) = ∞<br />
n=1<br />
m=0<br />
Seien X i für i = 1, 2, ... unabhängige Zufallsvariablen mit P (X i = 1) = 1 = P (X 2 i = −1).<br />
∑<br />
Die Gew<strong>in</strong>nsumme nach n Spielen beträgt S n = n X i .<br />
Für den Erwartungswert der X i gilt: EX i = 1 · 1 + (−1) · 1 = 0.<br />
2 2<br />
∑<br />
Der Erwartungswert der Gew<strong>in</strong>nsumme nach n Spielen ist: ES n = n<br />
k=1<br />
i=1<br />
i=1<br />
EX i = 0.<br />
Sei T = m<strong>in</strong>{n ≥ 1|S n = 1} <strong>die</strong> Anzahl der Spiele bis, <strong>die</strong> Gew<strong>in</strong>nsumme zum ersten Mal<br />
den Wert 1 annimmt.<br />
Fragen:<br />
1) Wie groß ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit, daß man irgendwann <strong>die</strong> Gew<strong>in</strong>nsumme 1 hat?<br />
2) Wie lang muß man im Mittel werfen, bis <strong>die</strong> Gew<strong>in</strong>nsumme 1 erreicht wird?
7.3 Varianz und Kovarianz 55<br />
Antworten:<br />
1) P (T < ∞) = 1.<br />
2) E(T ) = ∞.<br />
Beweis: später !!<br />
7.3 Varianz und Kovarianz<br />
7.3.1 Def<strong>in</strong>ition (Varianz, Standardabweichung)<br />
X sei e<strong>in</strong>e Zufallsvariable auf (Ω, P ) mit E(X 2 ) < ∞.<br />
Dann heißt Var(X) = E(X − E(X)) 2 Varianz von X<br />
und σ(X) = √ Var(X) Standardabweichung von X.<br />
7.3.2 Bemerkungen:<br />
(1) Beide Größen s<strong>in</strong>d Maßzahlen für <strong>die</strong> Streubreite der Verteilung von X um E(X)<br />
herum.<br />
(2) Durch <strong>die</strong> Forderung E(X 2 ) < ∞ ist <strong>die</strong> Varianz wohldef<strong>in</strong>iert, denn es gilt:<br />
|X| ≤ 1 + X 2 ⇒ E|X| ≤ 1 + E(X 2 ) < ∞ ⇒ |E(X)| < ∞.<br />
(3) Var(X) = E(X 2 ) − (E(X)) 2 , denn:<br />
Setze µ = E(X). Dann ist Var(X) = E(X − µ) 2 = E(X 2 − 2Xµ + µ 2 )<br />
= E(X 2 ) − 2µE(X) + µ 2 = E(X 2 ) − 2µ 2 + µ 2 = E(X 2 ) − µ 2 .<br />
(4) Es gilt 0 ≤ Var(X) < ∞, denn wegen (3) ist<br />
0 ≤ Var(X) = E(X − µ) 2 = EX 2 − (EX) 2 ≤ EX 2 ≤ ∞<br />
(5) Var(aX + b) = a 2 Var(X), denn:<br />
Var(aX + b) = E(aX + b − E(aX + b)) 2<br />
= E(aX − E(aX)) 2<br />
= E(a(X − E(X))) 2<br />
= a 2 E(X − E(X)) 2<br />
= a 2 Var(X).<br />
7.3.3 Def<strong>in</strong>ition (Kovarianz, Korrelationskoeffizient)<br />
X und Y seien Zufallsvariablen mit Var(X) < ∞ und Var(Y ) < ∞.<br />
Dann heißt<br />
Kov(X, Y ) := E(XY − E(X)E(Y ))<br />
Kovarianz von X und Y<br />
und<br />
Kor(X, Y ) := Kov(X, Y )<br />
σ(X)σ(Y )<br />
heißt Korrelationskoeffizient von X und Y .
56 7 ERWARTUNGSWERT UND VARIANZ VON VERTEILUNGEN<br />
7.3.4 Bemerkungen<br />
1) Es gilt −∞ < Kov(X, Y ) < ∞<br />
Für a, b ∈ R gilt 2|a · b| ≤ a 2 + b 2 . Setze a = |X − EX| und b = |Y − EY |, so folgt<br />
|(X − EX)(Y − EY )| ≤ (X − EX) 2 + (Y − EY ) 2 und damit |Kov(X, Y )| ≤ E|(X −<br />
EX)(Y − EY )| ≤ 1 (Var(X) + Var(Y )) < ∞<br />
2<br />
2) Es gilt Kov(X, Y ) = E(X · Y ) − EX · EY.<br />
Kov(X, Y ) = E ((X − EX)(Y − EY ))<br />
= E (X · Y − XEY − Y EX + EX · EY )<br />
= E(X · Y ) − EX · EY.<br />
3) S<strong>in</strong>d X und Y unabhängig, so gilt E(XY ) = E(X)E(Y ) und damit Kov(X, Y ) = 0<br />
und Kor(X, Y ) = 0. Die Umkehrung gilt im Allgeme<strong>in</strong>en nicht.<br />
Beweis:<br />
E(XY )<br />
= ∑ Satz 7.1.6 ∑<br />
X(ω)Y (ω)p(ω) = x i y j P ({ω | X(ω) = x i , Y (ω) = y j })<br />
ω∈Ω<br />
i,j<br />
= ∑ x i y j P ({ω | X(ω) = x i })P ({ω | Y (ω) = y j })<br />
i,j<br />
= ( ∑ i<br />
x i P ({ω | X(ω) = x i }))( ∑ j<br />
y j P ({ω | Y (ω) = y j }))<br />
Satz 7.1.6<br />
= E(X)E(Y )<br />
7.3.5 Satz<br />
∑<br />
Seien X i , i = 1, . . . , n Zufallsvariablen für i = 1, . . . , n mit E(Xi 2 ) < ∞ und S n = n X i .<br />
Dann gilt:<br />
∑<br />
(1) Var(S n ) = n Var(X i ) + ∑ Kov(X i , X j ).<br />
i=1 i≠j<br />
(2) Falls X 1 , X 2 , . . . , X n unabhängig s<strong>in</strong>d, ist<br />
∑<br />
Var(S n ) = n Var(X i ).<br />
i=1<br />
Diese Gleichung heißt Gleichung von Bienaymé.<br />
Beweis:<br />
Zu (1): Sei µ k = E(X k ).<br />
∑<br />
(S n − E(S n )) 2 = ( n ∑<br />
(X i − µ i )) 2 = ( n ∑<br />
(X i − µ i ))( n (X j − µ j ))<br />
i=1<br />
∑<br />
=<br />
i=1(X n i − µ i ) 2 + ∑ (X i − µ i )(X j − µ j )<br />
i≠j<br />
Bildet man auf beiden Seiten den Erwartungswert, dann folgt (1).<br />
i=1<br />
Zu (2): S<strong>in</strong>d <strong>die</strong> X i unabhängig, so gilt Kov(X i , X j ) = 0 für i ≠ j. Daraus folgt <strong>die</strong><br />
Behauptung.<br />
j=1<br />
i=1
7.4 Varianzen e<strong>in</strong>iger Verteilungen 57<br />
7.4 Varianzen e<strong>in</strong>iger Verteilungen<br />
7.4.1 Gleichverteilung auf e<strong>in</strong>er endlichen Menge<br />
Sei Ω = {1, ..., n} und p(i) = 1 für alle i ∈ Ω. Weiter sei X : Ω → R e<strong>in</strong>e Zufallsvariable<br />
n<br />
und X(Ω) = {x 1 , ..., x n } ihr Wertebereich. Dann gilt:<br />
n∑<br />
n∑<br />
E(X) = 1 x<br />
n i =: x n , Var(X) = 1 (x<br />
n i − x n ) 2 .<br />
i=1<br />
i=1<br />
n∑<br />
n∑<br />
Da Var(X) = E(X 2 ) − [E(X)] 2 , gilt: 1 (x<br />
n i − x n ) 2 = 1 x 2 n i − x 2 n und damit<br />
i=1<br />
i=1<br />
n∑ ∑<br />
x 2 i = n (x i − x n ) 2 + nx 2 n.<br />
i=1<br />
i=1<br />
7.4.2 Bernoulli-Variablen und ihre Summen<br />
Seien X 1 , . . . , X n unabhängige Zufallsvariablen mit P (X i = 1) = p i und P (X i = 0) =<br />
1 − p i . Dann gilt: E(X i ) = p i und Var(x i ) = p i − p 2 i = p i (1 − p i ).<br />
∑<br />
Sei S n = n ∑<br />
X i . Dann ist wegen E(S n ) = n ∑<br />
p i und Var(S n ) = n ∑<br />
p i − n p 2 i .<br />
Sei p := 1 n<br />
i=1<br />
n∑<br />
p i . Dann gilt<br />
i=1<br />
i=1<br />
Var(S n ) wird maximal, wenn p i = p für alle i. In <strong>die</strong>sem Fall ist dann Var(S n ) = np(1−p).<br />
Beweis: Var(S n ) = np − n ∑<br />
7.4.1<br />
p 2 {}}{<br />
i<br />
i=1<br />
∑<br />
= np − (np 2 + n (p i − p) 2 )<br />
∑<br />
Die rechte Seite wird m<strong>in</strong>imal, falls n (p i − p) 2 = 0. Dies gilt genau dann, wenn p i = p<br />
für alle i ist.<br />
7.4.3 Poisson-Verteilung<br />
Sei X Poisson-verteilt mit Parameter λ. Dann gilt:<br />
E(X) = λ und Var(X) = E(X 2 ) − [E(X)] 2 = λ, denn:<br />
i=1<br />
∞∑<br />
E(X 2 ) = k 2 λk<br />
k! e−λ<br />
k=1<br />
∞∑<br />
= λ k<br />
λk−1<br />
(k − 1)! e−λ<br />
k=1<br />
= λ 2 ∞<br />
∑<br />
k=2<br />
= λ 2 ∞<br />
∑<br />
l=0<br />
= λ 2 + λ.<br />
i=1<br />
λ k−2<br />
(k − 2)! e−λ + λ<br />
λ l<br />
l! e−λ<br />
} {{ }<br />
=1<br />
Und damit ist Var(X) = λ 2 + λ − λ 2 = λ.<br />
+λ<br />
∞∑<br />
k=1<br />
∞∑ λ m<br />
m! e−λ<br />
m=0<br />
} {{ }<br />
=1<br />
i=1<br />
λ k−1<br />
(k − 1)! e−λ<br />
i=1
58 7 ERWARTUNGSWERT UND VARIANZ VON VERTEILUNGEN<br />
7.4.4 Hypergeometrische Verteilung<br />
In e<strong>in</strong>er Urne seien r rote und s schwarze Kugeln. Davon werden n Kugeln ohne Zurücklegen<br />
gezogen (n ≤ r +s). Um <strong>die</strong> Varianz der Anzahl der schwarzen Kugeln <strong>in</strong> der Ziehung<br />
zu bestimmen { def<strong>in</strong>ieren wir für i = 1, . . . , n <strong>die</strong> Zufallsvariablen<br />
1 falls i-te Kugel Schwarz ist<br />
X i =<br />
.<br />
0 sonst<br />
∑<br />
S n = n X i sei <strong>die</strong> Anzahl der schwarzen Kugeln <strong>in</strong> der Ziehung.<br />
i=1<br />
Mit p := P (X 1 = 1) =<br />
s gilt E(X r+s<br />
1) = E(X1) 2 = p und damit Var(X 1 ) = E(X1) 2 −<br />
(E(X 1 )) 2 = p − p 2 = p(1 − p).<br />
Es läßt sich zeigen, daß P (X i = 1) = P (X 1 = 1) = p für alle i und P (X j = 1, X k = 1) =<br />
für alle j ≠ k ist. (Siehe Krengel, Kap 2.7: Austauschbare Verteilungen.)<br />
s<br />
r+s<br />
Damit ist: Var(X i ) = E(X 2 i ) − (E(X i )) 2 = p − p 2 = p(1 − p) = Var(X 1 ) und<br />
Kov(X j , X k ) = E(X j X k ) − E(X j )E(X k ) = P (X j = 1, X k = 1) − p 2<br />
= p s − 1<br />
r + s − 1 − p2<br />
1<br />
= −p(1 − p)<br />
für j ≠ k.<br />
r + s − 1<br />
Unter Verwendung von Satz 7.3.5 folgt daraus:<br />
( n∑<br />
)<br />
n∑<br />
Var(S n ) = Var X i =<br />
i=1<br />
Var(X i ) + ∑<br />
i=1 j≠k<br />
1<br />
= nVar(X 1 ) − n(n − 1)p(1 − p)<br />
r + s − 1<br />
1<br />
= np(1 − p) − np(1 − p)(n − 1)<br />
[<br />
r + s − 1<br />
= np(1 − p) 1 − n − 1 ]<br />
.<br />
r + s − 1<br />
Kov(X j , X k )<br />
Wenn wir alle r + s Kugeln aus der Urne ziehen, erwarten wir natürlich, daß wir alle<br />
schwarzen Kugeln ziehen und somit S n auf jeden Fall den Wert s annimmt. Für n = r + s<br />
erwarten wir also Var(S n ) = 0. E<strong>in</strong> Vergleich mit der Formel bestätigt <strong>die</strong>se.<br />
7.5 Die Tschebychew-Ungleichung und das Gesetz der Großen<br />
Zahlen<br />
Seien X 1 , X 2 , ..., X n unabhängig und X n = 1 n<br />
Var ( ( )<br />
) 1<br />
n∑<br />
X n = Var X i<br />
n<br />
i=1<br />
n∑<br />
X i . Dann gilt:<br />
i=1<br />
= 1 (∑ ) Satz 7.3.5<br />
n Var {}}{<br />
Xi =<br />
2<br />
1<br />
n 2<br />
n∑<br />
Var(X i ).<br />
i=1
7.5 Die Tschebychew-Ungleichung und das Gesetz der Großen Zahlen 59<br />
Haben <strong>die</strong> X 1 , ..., X n alle <strong>die</strong>selbe Verteilung, so gilt:<br />
Var(X n ) = 1 n Var(X 1) und E(X n ) = 1 n<br />
n∑<br />
E(X i ) = E(X 1 ).<br />
i=1<br />
Da <strong>die</strong> Varianz von X n gegen 0 geht für n → ∞, so vermutet man: X n → E(X 1 ). Es ist<br />
aber nicht ganz klar, was Konvergenz hier bedeutet.<br />
7.5.1 Satz (Tschebyschew-Ungleichung)<br />
Sei X e<strong>in</strong>e Zufallsvariable mit E(X 2 ) < ∞. Dann gilt für jedes ε > 0:<br />
P ({ω : |X(ω) − E(X)| > ε}) ≤ Var(X)<br />
ε 2 .<br />
Beweis:<br />
Sei X ′ (ω) := X(ω) − E(X).<br />
Dann gilt: E(X ′ ) = 0, Var(X) = Var(X ′ ) = E(X ′2 ) und damit<br />
P (|X − E(X)| > ε) = P (|X ′ | > ε)<br />
∑<br />
=<br />
≤<br />
≤ 1 ε 2<br />
{x∈X ′ (Ω): |x|>ε}<br />
∑<br />
{x∈X ′ (Ω): |x|>ε}<br />
∑<br />
x∈X ′ (Ω)<br />
= 1 ε 2 E(X′2 )<br />
= 1 ε 2 Var(X′ )<br />
= 1 ε 2 Var(X).<br />
P (X ′ = x)<br />
x 2<br />
ε 2 P (X′ = x)<br />
x 2 P (X ′ = x)<br />
7.5.2 Satz (Gesetz der Großen Zahlen)<br />
Für jedes n seien X i , i = 1, . . . , n unabhängige und identisch verteilte Zufallsvariablen<br />
n∑<br />
mit E(X1) 2 < ∞. Sei X n = 1 X<br />
n i . Dann gilt für jedes ε > 0:<br />
i=1<br />
lim<br />
n→∞ P ({ω : |X n(ω) − E(X 1 )| > ε}) = 0.<br />
Schreibweise: X n<br />
P → E(X 1 ) (stochastische Konvergenz).
60 7 ERWARTUNGSWERT UND VARIANZ VON VERTEILUNGEN<br />
Beweis:<br />
Setze <strong>in</strong> <strong>die</strong> Tschebychew-Ungleichung (Satz 7.5.1) X := X n e<strong>in</strong>. Dann gilt:<br />
( )<br />
P ( |X n − E(X n )| > ε ) ≤ Var ( n∑<br />
n∑<br />
)<br />
1<br />
1<br />
Var X<br />
X n i Var(X<br />
n 2<br />
1 )<br />
n i=1<br />
i=1<br />
=<br />
=<br />
= 1 Var(X 1 )<br />
.<br />
ε 2 ε 2 ε 2 n ε 2<br />
Damit gilt:<br />
lim P ( |X n − E(X n )| > ε ) = lim P ( |X n − E(X 1 )| > ε ) 1 Var(X 1 )<br />
≤ lim<br />
= 0.<br />
n→∞ n→∞ n→∞ n ε 2<br />
7.5.3 Beispiel: Die p-Münze<br />
Wir betrachten e<strong>in</strong>e p-Münze, d. h. P (X i = 1) = p, P (X i = 0) = 1 − p. Damit ist<br />
E(X i ) = p.<br />
n∑<br />
Die X i seien unabhängig und X n = 1 X<br />
n i .<br />
i=1<br />
Die relative Häufigkeit der „1“ bei n Würfen konvergiert gegen p, X P n → E(X 1 ) = p. Das<br />
ist aber genau <strong>die</strong> Aussage des Gesetzes der großen Zahlen.<br />
7.5.4 Anwendung (Wahlumfrage)<br />
Vor e<strong>in</strong>er Wahl werden n Personen befragt, { ob sie <strong>die</strong> Partei A wählen werden oder nicht<br />
1 falls Person i A wählt<br />
(Ja-Ne<strong>in</strong>-Antworten). Dabei gelte X i =<br />
.<br />
0 sonst<br />
und P (X i = 1) = p = 1 − P (X i = 0).<br />
Schätze p mit Hilfe von X n .<br />
Es gilt: E(X n ) = p, Var(X n ) = p(1−p) und X<br />
n n → p.<br />
7.6 Approximation stetiger Funktionen auf dem Intervall [0, 1]<br />
durch Polynome<br />
Auch hierfür kann man das Gesetz der großen Zahlen anwenden.<br />
7.6.1 Satz<br />
Sei f : [0, 1] → R, f stetig.<br />
∑<br />
Sei B n (p) := n f( k )( n<br />
n k)<br />
p k (1 − p) n−k . Dann gilt:<br />
k=0<br />
Die Folge von Funktionen (B n ) n∈N konvergiert gleichmäßig gegen f für n → ∞.<br />
In Formeln: lim max |B<br />
n→∞<br />
n(p) − f(p)| = 0.<br />
0≤p≤1
7.6 Approximation stetiger Funktionen 61<br />
Beweis:<br />
Seien X 1 , ..., X n unabhängige, identisch verteilte Bernoulli-Variablen mit<br />
n∑<br />
P (X i = 1) = p = 1 − P (X i = 0) und S n = 1 X<br />
n i .<br />
Dann ist Ef(S n ) = n ∑<br />
k=0<br />
i=1<br />
f( k n )b(n, p; k), wobei b(n, p; k) = ( n<br />
k)<br />
p k (1 − p) n−k .<br />
Da f auf dem kompakten Intervall [0, 1] stetig ist, ist f gleichmäßig stetig auf [0, 1]. Damit<br />
gilt: ∀ε > 0 ∃δ > 0 mit |f(x) − f(y)| ≤ ε falls, |x − y| ≤ δ.<br />
Außerdem ist f beschränkt, also max |f(x)| ≤ M für e<strong>in</strong> geeignetes M ∈ R.<br />
0≤x≤1<br />
Sei also ε ≥ 0. Dann gibt es e<strong>in</strong> δ ≥ 0 mit |f(x) − f(y)| ≤ ε falls |x − y| ≤ δ und es gilt:<br />
|f(p) − B n (p)| = |<br />
n∑<br />
f(p)b(n, p; k) −<br />
k=0<br />
n∑<br />
k=0<br />
f( k )b(n, p; k)|<br />
n<br />
n∑<br />
= | (f(p) − f( k ))b(n, p; k)|<br />
n<br />
k=0<br />
∑<br />
≤<br />
|f(p) − f( k ∑<br />
)|b(n, p; k) + |f(p) − f( k )|b(n, p; k)<br />
n n<br />
{k:| k n −p|≤δ} {k:| k n<br />
∑<br />
−p|>δ}<br />
≤ ε b(n, p; k) + 2M<br />
∑<br />
b(n, p; k)<br />
{k:| k n −p|≤δ} {k:| k n −p|>δ}<br />
≤<br />
ε + 2M · P ({|S n − p| > δ})<br />
Satz7.5.1<br />
{}}{ p(1 − p)<br />
≤ ε + 2M<br />
nδ 2<br />
≤ ε + 2M 1<br />
4nδ 2<br />
da max p(1 − p) = 1/4 ist,<br />
0≤p≤1<br />
= ε + M<br />
2nδ 2<br />
≤ 2ε, falls n h<strong>in</strong>reichend groß ist.<br />
Wir haben also e<strong>in</strong> n gefunden, das nur von ε und nicht von p ∈ [0, 1] abhängt. Damit ist<br />
<strong>die</strong> Konvergenz gleichmäßig.
62 8 SATZ VON DE MOIVRE-LAPLACE<br />
8 Satz von de Moivre-Laplace und se<strong>in</strong>e Verallgeme<strong>in</strong>erung<br />
8.1 Der Satz von de Moivre-Laplace<br />
Seien X i , i = 1, . . . , n unabhängige Zufallsvariablen mit P (X i = 1) = p = 1−P (X i = 0)<br />
∑<br />
und S n = n X i . Dann ist S n b<strong>in</strong>omialverteilt nach b(n, p).<br />
i=0<br />
8.1.1 Satz (de Moivre-Laplace)<br />
Für alle −∞ ≤ a ≤ b ≤ ∞ gilt:<br />
Dabei ist Φ(y) :=<br />
Bemerkungen:<br />
∫ y<br />
−∞<br />
lim P (a ≤<br />
n→∞<br />
√1<br />
2π<br />
e −x2 /2 dx<br />
S n − np<br />
√<br />
np(1 − p)<br />
≤ b) = Φ(b) − Φ(a)<br />
1) Sn ∗ = √ Sn−np ist e<strong>in</strong>e standardisierte Zufallsvariable, d.h. E(S ∗<br />
np(1−p)<br />
n)=0 und Var(Sn)=1.<br />
∗<br />
Der Satz besagt demnach, daß <strong>die</strong> Verteilungen der standardisierten Variablen konvergieren.<br />
∑<br />
2) Der Satz beschreibt <strong>die</strong> Konvergenz von Flächen: lim b(n, p; k) → Φ(α), wobei<br />
n→∞<br />
k≤α n<br />
α n = np + α √ np(1 − p) ist.<br />
3) Eigenschaften von Φ: Φ(−∞) = 0, Φ(+∞) = 1, Φ ist monoton wachsend und symmetrisch<br />
um “0”.<br />
4) Der Satz wird oft folgendermaßen verwendet:<br />
b−np<br />
P (a ≤ S n ≤ b) ≈ Φ( √ ) − Φ( √a−np<br />
).<br />
np(1−p) np(1−p)<br />
5) Sei ˆp n := Sn<br />
n<br />
Denn S ∗ n =<br />
√<br />
p(1−p)<br />
= X n. Dann besagt Satz 8.1.1: lim<br />
n→∞<br />
P (a ≤ √ n(ˆp n−p)<br />
√ Sn−np =<br />
np(1−p)<br />
Sn n −p q p(1−p)<br />
n<br />
= √ n√ Sn n −p<br />
= √ n(ˆp<br />
√ n−p)<br />
.<br />
p(1−p) p(1−p)<br />
Diese Formulierung drückt <strong>die</strong> statistische Bedeutung von Satz 8.1.1 aus:<br />
Nach dem Gesetz der großen Zahlen gilt: ˆp P n → p für n → ∞, das heißt:<br />
Für alle ε > 0 gilt lim P p (|ˆp n − p| > ε) = 0.<br />
n→∞<br />
Der Satz von de Moivre-Laplace gibt <strong>die</strong> Schwankung von ˆp n um p an.<br />
≤ b) = Φ(b) − Φ(a).<br />
6) Satz 8.1.1 bleibt richtig, wenn wir im Argument von P <strong>die</strong> ≤ durch < ersetzen. Also<br />
lim P (a < √ Sn−np < b) = Φ(b) − Φ(a).<br />
n→∞ np(1−p)
8.1 Der Satz von de Moivre-Laplace 63<br />
8.1.2 Korollar<br />
Seien X 1 , . . . , X n unabhängige Zufallsvariablen mit P (X i = 1) = p = 1 − P (X i = 0) für<br />
i = 1, . . . , n. Dann gilt für alle ε > 0: lim P (| Sn − p| > ε) = 0.<br />
n→∞ n<br />
8.1.3 Beispiel<br />
Wie groß ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit, dass <strong>in</strong> 6000 Würfen mit e<strong>in</strong>em Würfel <strong>die</strong> “6”.<br />
a) mehr als 1100 auftritt?<br />
b) höchstens 950 mal oder m<strong>in</strong>destens 1050 mal auftritt?<br />
Lösung:<br />
a) P (1100 < S 6000 < ∞) = P ( (<br />
100<br />
)<br />
< S 6000 − 6000 · 1 < ∞) 6<br />
100<br />
= P<br />
< S6000 ∗ < ∞ = P (√ 12 < S6000 ∗ < ∞ )<br />
√<br />
6000· 1<br />
6 · 5<br />
6<br />
Satz 8.1.1<br />
{}}{<br />
∼ = Φ (∞) − Φ<br />
(√<br />
12<br />
)<br />
= 1 − Φ<br />
(√<br />
12<br />
)<br />
= 0, 00028.<br />
b) P (S 6000 ≤(<br />
950 oder S 6000 ≥ 1050) = 1)<br />
− P (950 < S 6000 < 1050)<br />
−50<br />
= 1 − P < S6000 ∗ 50<br />
< = 1 − P ( − √ 3 < S6000 ∗ < √ 3 )<br />
√<br />
6000<br />
1 5<br />
6 6<br />
√<br />
6000<br />
1 5<br />
6 6<br />
Satz 8.1.1<br />
{}}{<br />
∼ = 1 −<br />
[<br />
Φ<br />
(√<br />
3<br />
)<br />
− Φ<br />
(<br />
−<br />
√<br />
3<br />
)]<br />
= 0, 0832<br />
8.1.4 Vergleich der normierten B<strong>in</strong>omialverteilung mit Φ<br />
Näherungsweise gilt:<br />
P (S n ≤ b ′ ) = P (S ∗ n ≤<br />
b′ − np<br />
b ′ − np<br />
√ ) ≈ Φ( √ )<br />
np(1 − p) np(1 − p)<br />
wobei S ∗ n =<br />
√ Sn−np .<br />
np(1−p)<br />
Wie gut ist <strong>die</strong>se Näherung für verschiedene n?<br />
Für große n ist <strong>die</strong> Näherung gut, vor allem dann, wenn b ′ <strong>in</strong> der Nähe von np liegt.<br />
Man erhält aber noch bessere Werte, wenn man e<strong>in</strong>e so genannte Stetigkeitskorrektur<br />
vornimmt, <strong>in</strong>dem man b ′ durch b ′ + 1 ersetzt. Das macht sich besonders für kle<strong>in</strong>e n<br />
2<br />
deutlich bemerkbar.<br />
Numerisch:<br />
p = 0, 4 b ′ = np · 0, 8
64 8 SATZ VON DE MOIVRE-LAPLACE<br />
b∑<br />
n b ′ b<br />
b(n, p; k) Φ( √ ′ −np<br />
)<br />
np(1−p)<br />
k=0<br />
Φ( b′ +<br />
√ 1 2 −np<br />
)<br />
np(1−p)<br />
12 4 .4382 .3187 .4298<br />
25 8 .2735 .2071 .2701<br />
50 16 .1561 .1241 .1562<br />
100 32 .0615 .0512 .0629<br />
200 64 .0119 .0105 .0126<br />
Man beachte, daß gilt: P (S n < b ′ ) → 0 für n → ∞<br />
8.1.5 Beispiel: Unsicherheit bei Wahlumfragen<br />
Es werden 2000 Wähler befragt, ob sie <strong>die</strong> Partei A wählen werden. Die Wahrsche<strong>in</strong>lichkeit,<br />
daß e<strong>in</strong>e befragte Person „Ja“ antwortet, sei p 0 = 0, 55.<br />
Frage: Was ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit, daß 55 ± 2, 5% der Befragten mit „Ja“ antworten?<br />
Behauptung: Sei S 2000 <strong>die</strong> Anzahl der Personen, <strong>die</strong> „Ja“ antworten. Dann gilt:<br />
{ }<br />
S2000<br />
P p0<br />
2000 ∈ [p 0 ± 0, 025] ∼ = 0, 9754.<br />
Beweis:<br />
55 ± 2, 5% der befragten Personen s<strong>in</strong>d 1100 ± 50 Personen. Mit Satz 8.1.1 folgt:<br />
P p0 (1050 ≤ S 2000 ≤ 1150)<br />
= P p0 (−50 ≤ S 2000 − 1100 ≤ 50)<br />
(<br />
−50<br />
= P p0 √ ≤<br />
2000 · 0, 55(1 − 0, 55)<br />
S 2000 − 1100<br />
√<br />
2000 · 0, 55(1 − 0, 55)<br />
≤<br />
)<br />
50<br />
√<br />
2000 · 0, 55(1 − 0, 55)<br />
= P p0 (−2, 2473 ≤ S ∗ 2000 ≤ 2, 2473)<br />
≈ Φ(2, 2473) − Φ(−2, 2473) = 0, 9754.<br />
8.2 Die Landauschen Symbole und <strong>die</strong> Stirl<strong>in</strong>g Formel<br />
8.2.1 Def<strong>in</strong>ition (Landausche Symbole)<br />
Seien (a n ) n∈N und (b n ) n∈N Folgen mit Werten <strong>in</strong> R. Sei b n ≠ 0 für alle n.<br />
1. Man schreibt a n = o(b n ) für n → ∞, wenn an<br />
b n<br />
→ 0 für n → ∞.<br />
2. Seien a n > 0 und b n > 0 für alle n. Man schreibt a n = O(b n ) für n → ∞, falls e<strong>in</strong>e<br />
Konstante K > 0 und e<strong>in</strong> n 0 ∈ N existieren, so daß a n ≤ K · b n für n ≥ n 0 gibt.
8.2 Die Landauschen Symbole und <strong>die</strong> Stirl<strong>in</strong>g Formel 65<br />
3. S<strong>in</strong>d a n , b n ≠ 0 für alle n, so schreibt man:<br />
a n ∼ b n für n → ∞ falls a n<br />
b n<br />
→ 1 für n → ∞.<br />
Mann sagt a n is asymptotisch äquivalent zu b n .<br />
8.2.2 Beispiele<br />
1. Die folgenden zwei Aussagen s<strong>in</strong>d äquivalent:<br />
a n = o(1) und a n → 0 für n → ∞.<br />
2. n = o(n 2 ) für n → ∞.<br />
3. ln n = o(n) für n → ∞. Denn setze y = ln n, dann ist:<br />
ln n<br />
= y<br />
y<br />
=<br />
≤ 1<br />
→ 0 für y → ∞<br />
n e y 1+y+ y2<br />
2! + y3<br />
3! +... 1+ y 2! + y2 +... 3!<br />
und y → ∞.<br />
4. Es gilt: a n ∼ b n für n → ∞ ⇔ an<br />
b n<br />
= 1 + o(1) für n → ∞.<br />
Dabei bedeutet a n = b n + o(c n ) für n → ∞: Es existiert e<strong>in</strong>e Folge (d n ) n∈N mit<br />
a n = b n + d n und d n = o(c n ) für n → ∞.<br />
8.2.3 Stirl<strong>in</strong>g Formel: n! ∼ √ 2πnn n e −n .<br />
Sei a n = √ 2πnn n e −n . Dann wird n! für große n gut durch a n approximiert. Es gibt jedoch<br />
zwei Folgen a ′ n und a ′′ n, <strong>die</strong> n! noch etwas besser approximieren und besonders für kle<strong>in</strong>ere<br />
n sehr nützlich s<strong>in</strong>d: a ′ n = a n · e 1<br />
12n und a ′′ n = a n · e 1<br />
Hier ist e<strong>in</strong> Vergleich der Formeln:<br />
12n+1 .<br />
n n! a n a ′ n a ′′ n<br />
1 1 0,922 1,002 0,996<br />
2 2 1,919 2,006 1,997<br />
3 6 5,836 6,003 5,995<br />
4 24 23,506 24,001 23,990<br />
5 120 118,019 120,002 119,969<br />
n 1 2 3 4<br />
a n /n! 0,922 0,9595 0,9771 0,9794<br />
a ′ n/n! 1,002 1,0003 1,00005 1,00004<br />
a ′′ n/n! 0,996 0,9985 0,99917 0,99958<br />
Man sieht, daß <strong>in</strong>sbesondere für kle<strong>in</strong>e n <strong>die</strong> Formeln a ′ n und a ′′ n besser s<strong>in</strong>d. Da aber für alle<br />
drei Formeln asymptotische Äquivalenz zu n! gilt, ist es für mathematische Beweise nicht<br />
wesentlich, welche man nimmt. Deshalb werden wir stets <strong>die</strong> Formel für a n verwenden.
66 8 SATZ VON DE MOIVRE-LAPLACE<br />
8.3 Approximation der B<strong>in</strong>omialverteilung<br />
Die Wahrsche<strong>in</strong>lichkeit bei n Würfen mit e<strong>in</strong>er p-Münze k n E<strong>in</strong>sen zu werfen beträgt<br />
P (X = k n ) = ( )<br />
n<br />
k n<br />
p<br />
k n<br />
(1 − p) n−kn . Für n → ∞ und k n → ∞ so, daß auch n − k n → ∞, gilt<br />
näherungsweise unter Verwendung der Stirl<strong>in</strong>g-Formel (Dabei schreiben wir k für k n ):<br />
√<br />
n!<br />
2πnn<br />
k!(n − k)! pk (1 − p) n−k n e −n p k (1 − p) n−k<br />
∼ √<br />
2πkkk e −k√ 2π(n − k)(n − k) n−k e −(n−k)<br />
=<br />
=<br />
=<br />
=<br />
1<br />
√<br />
( p<br />
2π k (1 − k )n k/n )k ( 1 − p<br />
1 − k/n )n−k<br />
n n<br />
1<br />
√<br />
2πpn (1 − p n )n ( p ) k ( 1 − p<br />
p n<br />
1 − p n<br />
) n−k mit p n = k n<br />
[<br />
1<br />
√ ( p ) pn ( 1 − p ] n<br />
) 1−pn<br />
2πpn (1 − p n )n p n 1 − p n<br />
1<br />
√<br />
2πpn (1 − p n )n e−nI(pn,p)<br />
mit I(q, p) = q ln( q 1−q<br />
) + (1 − q) ln( ), wobei 0 < p < 1 und 0 < q < 1. I(q, p) heißt<br />
p 1−p<br />
relative Entropie von q bezüglich p. Zusammenfassend haben wir folgendes bewiesen.<br />
8.3.1 Satz<br />
Sei 0 < p < 1 und sei δ < m<strong>in</strong>(p, 1 − p). Dann gilt<br />
P p (S n = np n ) =<br />
1<br />
√<br />
2πnpn (1 − p n ) e−nI(pn,p) (1 + o(1))<br />
gleichmäßig für alle Folgen (p n ; n ≥ 1) mit np n ∈ {0, 1, . . . , n} und m<strong>in</strong>(p n , 1 − p n ) > δ/ 2<br />
für n → ∞.<br />
Bemerkung: Gleichmäßig bedeutet hier, daß der o(1)-Term lediglich von δ und n abhängt.<br />
Nun wollen wir den Exponenten nI(p n , p) entwickeln und e<strong>in</strong>en lokalen Grenzwertsatz<br />
herleiten. Dazu brauchen wir e<strong>in</strong>ige Eigenschaften der relativen Entropie.<br />
8.3.2 Eigenschaften von I(q, p)<br />
Es gilt:<br />
1) I(p, p) = 0,<br />
2) I(q, p) > 0 für q ≠ p,<br />
3) I(q, p) ist strikt konvex und zweimal stetig differenzierbar <strong>in</strong> beiden Argumenten.<br />
Folglich ist e<strong>in</strong>e quadratische Approximation nahe p möglich.
8.3 Approximation der B<strong>in</strong>omialverteilung 67<br />
8.3.3 Lemma<br />
(p n−p) 2<br />
Sei 0 < p < 1. Dann gilt I(p n , p) = 1 + o((p 2 p n(1−p n) n − p) 2 ) für p n → p.<br />
Beweis:<br />
I(p n , p) = −p n ln( p p n<br />
) − (1 − p n ) ln( 1 − p<br />
1 − p n<br />
)<br />
= −p n ln(1 − p n − p<br />
) − (1 − p n ) ln(1 − p − p n<br />
)<br />
p n<br />
1 − p n<br />
T aylor<br />
{}}{<br />
= −p n [−( p n − p<br />
p n<br />
) − 1 2 (p n − p<br />
) 2 + o(( p n − p<br />
) 2 )]<br />
p n<br />
p n<br />
−(1 − p n )[−( p − p n<br />
1 − p n<br />
) − 1 2 (p − p n<br />
1 − p n<br />
) 2 + o(( p − p n<br />
1 − p n<br />
) 2 )]<br />
8.2.5,2<br />
{}}{<br />
= [(p n − p) + 1 (p n − p) 2<br />
+ o( (p n − p) 2<br />
)]<br />
2 p n p n<br />
+[(p − p n ) + 1 (p n − p) 2<br />
+ o( (p n − p) 2<br />
)]<br />
2 1 − p n 1 − p n<br />
8.2.5,3<br />
{}}{<br />
= 1 (p n − p) 2<br />
2 p n (1 − p n ) + o((p n − p) 2 ) + o((p n − p) 2 ),<br />
8.2.5,4<br />
{}}{<br />
= 1 (p n − p) 2<br />
2 p n (1 − p n ) + o((p n − p) 2 ) für p n → p,<br />
da ln(1 − x) = −x − 1 2 x2 + o(x 2 ) für x → 1.<br />
Damit ergibt sich folgender Satz:<br />
8.3.4 Satz (Lokaler zentraler Grenzwertsatz)<br />
Sei 0 < p < 1. Dann gilt für jedes K > 0 und alle Folgen (p n ) n∈N mit np n ∈ {0, 1, 2, ..., n}<br />
und |p n − p| ≤ K √ n<br />
für n → ∞ :<br />
n(pn−p)2<br />
1<br />
(1) P p (S n = np n ) = √ e− 2pn(1−pn) (1 + o(1)),<br />
2πpn(1−pn)n 1<br />
(2) P p (S n = np n ) = √ e − n(pn−p)2<br />
2p(1−p) (1 + o(1)).<br />
2πp(1−p)n<br />
Diese Konvergenz ist gleichmäßig für alle Folgen (p n ) n∈N mit den oben genannten Bed<strong>in</strong>gungen.<br />
Beweis:<br />
Zu (1): Sei |p n − p| ≤ √ K n<br />
. Dann existiert e<strong>in</strong>e Folge (a n ) n∈N mit p n = p + √ an<br />
n<br />
und<br />
|a n | ≤ K für alle n. Nach Lemma 8.3.3 ist nI(p n , p) = n[ (pn−p)2 + o((p 2p n(1−p n) n − p) 2 )]. Da<br />
n(p n −p) 2 = n·a2 n<br />
≤ K 2 ist, folgt sofort nI(p<br />
n<br />
n , p) = n(pn−p)2<br />
2p +o(K2 n(1−p n)<br />
) und weil o(K 2 ) = o(1)<br />
ist, ergibt sich nI(p n , p) = n(pn−p)2<br />
2p n(1−p n)<br />
+ o(1). Damit ist<br />
e −nI(pn,p) = e − n(pn−p)2<br />
2pn(1−pn) +o(1) = e − n(pn−p)2<br />
2pn(1−pn) e o(1) = e − n(pn−p)2<br />
2pn(1−pn) (1 + o(1)).
68 8 SATZ VON DE MOIVRE-LAPLACE<br />
Also gilt mit 8.3.1<br />
P (S n = np n ) =<br />
1<br />
√<br />
2πpn (1 − p n )n e−nI(pn,p) (1+o(1)) =<br />
1<br />
n(pn−p)2<br />
√ e− 2pn(1−pn) (1+o(1)) 2 ,<br />
2πpn (1 − p n )n<br />
woraus Behauptung (1) folgt.<br />
Zu (2): Führe <strong>die</strong>sen Fall auf (1) zurück: Zeige<br />
n(p n − p) 2 1<br />
[<br />
2 p(1 − p) − 1<br />
p n (1 − p n ) ] = o(1) gleichmäßig für |a n| ≤ K.<br />
Es gilt: n(pn−p)2 1<br />
[ − 1<br />
] = n(pn−p)2<br />
2 p(1−p) p n(1−p n)<br />
[ 1 − 1<br />
2 p p n<br />
+ 1 − 1<br />
1−p<br />
Weiter gilt: 1 − 1 =<br />
an/√ n<br />
p p n<br />
p(p+a n/ √ n) =<br />
Entsprechend zeigt man:<br />
1<br />
1−p − 1<br />
1−p n<br />
an/√ n<br />
∼ an/√ n<br />
p 2 (1+ an<br />
p √ n ) p 2<br />
= o(1).<br />
≤ |K| √ np 2<br />
1−p n<br />
].<br />
= o(1).<br />
Zusammen mit n(p n − p) 2 ≤ K 2 folgt daraus: n(pn−p)2 1<br />
[ − 1<br />
] = o(1).<br />
2 p(1−p) p n(1−p n)<br />
1<br />
Außerdem ist √ = √<br />
1<br />
(1 + o(1)) gleichmäßig für |p n − p| ≤ √ K<br />
pn(1−pn) p(1−p) n<br />
für n → ∞.<br />
Damit ist der Satz bewiesen.<br />
Jetzt können wir den Satz von de Moivre-Laplace beweisen:<br />
Beweis von Satz 8.1.1<br />
1. Fall: Sei −∞ < a < b < ∞. Setze nun a n = np + a √ p(1 − p)n und b n = np +<br />
b √ p(1 − p)n. Dann gilt aufgrund des lokalen Grenzwertsatzes<br />
P (a ≤<br />
S n − np<br />
√ ≤ b) = P (a n ≤ S n ≤ b n )<br />
np(1 − p)<br />
∑<br />
( ) n<br />
=<br />
p k (1 − p) n−k<br />
k<br />
a n≤k≤b n<br />
∑<br />
= √ e − 1 (k−np) 2<br />
2 np(1−p) (1 + o(1))<br />
2πnp(1 − p)<br />
Mit l = k − np =<br />
Setze nun h = 1 √ n<br />
=<br />
a n≤k≤b n<br />
1<br />
∑<br />
1<br />
√ e − 1 l 2<br />
2 np(1−p) (1 + o(1))<br />
2πnp(1 − p)<br />
√ √<br />
a np(1−p)≤l≤b np(1−p)<br />
∑<br />
h<br />
√ e − 1 (lh) 2<br />
2 p(1−p) (1 + o(1))<br />
2πp(1 − p)<br />
a √ p(1−p)≤l·h≤b √ p(1−p)<br />
Dies s<strong>in</strong>d aber Riemann-Summen e<strong>in</strong>er stetigen Funktion auf e<strong>in</strong>em kompakten Intervall.<br />
Folglich hat mal Konvergenz für h → 0<br />
−→<br />
√ b p(1−p)<br />
∫<br />
1<br />
√ e −<br />
2πp(1 − p)<br />
z2<br />
2p(1−p) dz.<br />
a √ p(1−p)
8.4 Der Zentrale Grenzwertsatz 69<br />
Setze y =<br />
√<br />
z<br />
. Dann folgt:<br />
p(1−p)<br />
√ b p(1−p)<br />
∫<br />
1<br />
√ e − z2<br />
2p(1−p) dz =<br />
2πp(1 − p)<br />
∫b<br />
1<br />
√<br />
2π<br />
e − y2 2 dy<br />
a √ p(1−p)<br />
a<br />
und damit <strong>die</strong> Behauptung.<br />
2. Fall: Sei a = −∞, b ∈ R. Sei ε > 0 vorgegeben. Wegen<br />
∞∫<br />
−∞<br />
√1<br />
2π<br />
e − y2 2 dy = 1 existiert e<strong>in</strong><br />
a ε > 0 mit Φ(−a ε ) + 1 − Φ(a ε ) = ε 2 und −a ε < b < a ε . Nach Teil 1 gilt lim<br />
n→∞<br />
P (−a ε ≤<br />
S ∗ n ≤ a ε ) = Φ(a ε ) − Φ(−a ε ) und damit<br />
P (S ∗ n < −a ε ) ≤ 1 − P (−a ε ≤ S ∗ n ≤ a ε ) → 1 − Φ(a ε ) + Φ(−a ε ) + ε 2 ≤ ε<br />
für n h<strong>in</strong>reichend groß.<br />
Nun gilt für −a ε < b < a ε<br />
∫ b<br />
1<br />
√ e − y2 2 dx − P (S<br />
∗<br />
n ≤ b)<br />
∣ 2π ∣<br />
−∞<br />
∫−a ε<br />
∫ ≤<br />
1<br />
b<br />
√ e − y2 2 dy − P (S<br />
∗ 1<br />
n ≤ −a ε ) + √ e − y2 2 dy − P (−aε ≤ Sn ∗ ≤ b)<br />
∣ 2π 2π ∣<br />
−∞<br />
−a ε ∣ ∫−a ε<br />
∣∣∣∣∣ ∫ ≤<br />
1<br />
b<br />
√ e − y2 2 dy + |P (Sn ∗ ≤ −a ε )| +<br />
∣ 2π √ e − y2 2 dy − P (−aε ≤ Sn ∗ ≤ b)<br />
∣ 2π ∣<br />
−∞<br />
≤ ε 2 + ε + ε 2 = 2ε<br />
−a ε<br />
1<br />
für n h<strong>in</strong>reichend groß!<br />
8.4 Der Zentrale Grenzwertsatz<br />
E<strong>in</strong>e wesentliche Verallgeme<strong>in</strong>erung des Satzes von de Moivre-Laplace ist möglich.<br />
8.4.1 Satz<br />
Seien X 1 , ..., X n , ... unabhängige und identisch verteilte Zufallsvariablen<br />
mit EX 2 1 < ∞.<br />
Dann gilt für −∞ ≤ a < b ≤ ∞<br />
lim P (a ≤ S n − nE(X 1 )<br />
√<br />
n→∞ nVar(X1 )<br />
≤ b) = Φ(b) − Φ(a).
70 8 SATZ VON DE MOIVRE-LAPLACE<br />
Der Beweis wird hier nicht gegeben. Es soll aber daraufh<strong>in</strong>gewiesen werden, daß z.B. für<br />
unabhängige Poission-Variable X 1 , . . . , X n mit E(X 1 ) = λ gilt<br />
(<br />
lim P a ≤ S )<br />
n − nλ<br />
√ ≤ b = Φ(b) − Φ(a).<br />
n→∞ nλ
71<br />
9 Erzeugende Funktionen<br />
9.1 Def<strong>in</strong>ition und Eigenschaften erzeugender Funktionen<br />
9.1.1 Def<strong>in</strong>ition (erzeugende Funktion)<br />
Sei X Zufallsgröße mit Werten <strong>in</strong> N ∪ {0}. Dann heißt<br />
∑<br />
f X (z) = ∞ P (X = n)z n , −1 ≤ z ≤ 1,<br />
n=0<br />
<strong>die</strong> erzeugende Funktion der Verteilung von X.<br />
Bemerkung:<br />
1) f X (z) ist für |z| ≤ 1 wohldef<strong>in</strong>iert, da<br />
P (X = n)|z n | ≤ P (X = n) für |z| ≤ 1 und ∞ ∑<br />
2) Es gilt: Ez X = ∑ ω<br />
Trafosatz<br />
p(ω)z X(ω) {}}{<br />
=<br />
n=0<br />
P (X = n) = 1 gilt.<br />
∞∑<br />
P (X = n)z n = f X (z).<br />
3) f X legt <strong>die</strong> Verteilung von X e<strong>in</strong>deutig fest (siehe Satz 9.1.2),<br />
<strong>die</strong> Verteilung von X legt f X e<strong>in</strong>deutig fest.<br />
n=0<br />
9.1.2 Satz<br />
Es gilt:<br />
1) a) f X (0) = P (X = 0),<br />
b) f X (1) = 1,<br />
c) P (X = n) = f (n)<br />
X (0)<br />
.<br />
n!<br />
2) f X (z) ist für 0 ≤ z ≤ 1 monoton wachsend (f ′ (z) ≥ 0) und konvex (f ′′ (z) ≥ 0).<br />
3) Falls E(X) < ∞ ist, gilt f X ′ (1) = lim f X ′ (z) = E(X).<br />
z↗1<br />
4) Falls E(X 2 ) < ∞ ist, gilt f X ′′ (1) = lim f X ′′ (z) = z↗1 E(X2 ) − E(X)<br />
Beweis:<br />
Zu 1): Nachrechnen.<br />
Zu 2): Gliedweises differenzieren liefert für 0 ≤ z < 1 f ′ (z) ≥ 0, f ′′ (z) ≥ 0.
72 9 ERZEUGENDE FUNKTIONEN<br />
Zu 3):<br />
Lemma von Abel<br />
∞∑<br />
a<br />
∑<br />
Sei c n konvergente Reihe mit c n ∈ R dann konvergiert f(x) = ∞ c n x n<br />
n=0<br />
für x ∈ [0, 1] und f ist im Intervall [0, 1] stetig.<br />
∑<br />
Insbesondere: lim f(x) = f(1) = ∞ c n .<br />
x↗1 n=0<br />
a s. Forster Band 1,S.180<br />
n=0<br />
∑<br />
Da EX = ∞ kP (X = k) < ∞, liefert das Lemma von Abel, angewandt auf<br />
k=1<br />
f X ′ (z) = ∑ ∞ kP (X = k)z k−1 , <strong>die</strong> Behauptung:<br />
k=1<br />
f X ′ (1) = lim f X ′ (z) = lim ( ∑ ∞ ∑<br />
kP (X = k)z k−1 ) = ∞ kP (X = k) = E(X).<br />
z↗1 z↗1 k=1<br />
k=1<br />
Zu 4): EX 2 < ∞ ⇒ E(X) < ∞. Wende das Lemma von Abel auf f X ′′ an:<br />
f X ′′ (z) = d ( ∑ ∞ ∑<br />
P (X = k)kz k−1 ) = ∞ P (X = k)k(k − 1)z k−2<br />
dz<br />
k=1<br />
k=2<br />
(Terme mit k = 0 und k = 1 verschw<strong>in</strong>den).<br />
∞∑<br />
f X ′′ (1) = lim X (z) = lim P (X = k)k(k − 1)z k−2<br />
Abel<br />
{}}{<br />
= ∞ ∑<br />
k=2<br />
z↗1 f ′′<br />
z↗1 k=2<br />
P (X = k)(k 2 − k) = E(X 2 ) − E(X).<br />
9.1.3 Satz<br />
Seien X und Y unabhängige Zufallsgrößen mit Werten <strong>in</strong> N ∪ {0}.<br />
Dann gilt: f X+Y (z) = f X (z)f Y (z).<br />
Beweis: Zu Satz 9.1.3:<br />
f X+Y (z) = E(z (X+Y ) ) = E(z X z Y )<br />
= ∑ ω∈Ω<br />
z X(ω) z Y (ω) p(ω)<br />
Trafosatz<br />
{}}{<br />
= ∑ k,l<br />
z k z l P (X = k, Y = l)<br />
= ∑ k,l<br />
z k z l P (X = k)P (Y = l)<br />
= ( ∑ k<br />
z k P (X = k))( ∑ l<br />
z l P (Y = l))<br />
= f X (z)f Y (z)
9.1 Def<strong>in</strong>ition und Eigenschaften erzeugender Funktionen 73<br />
9.1.4 Folgerung<br />
∏<br />
Seien X 1 , X 2 , ..., X n unabhängige Zufallsgrößen. Dann gilt: f nP (z) = n f Xi (z).<br />
X i<br />
9.1.5 Beispiele<br />
1) Seien X 1 , ..., X n unabhängig und Bernoulli-verteilt mit P (X i = 1) = p, P (X i = 0) = q.<br />
∑<br />
Dann gilt: f Xi (z) = q + pz. Setzt man S n = n X i , so gilt für <strong>die</strong> erzeugende Funktion:<br />
f Sn (z) = (q + pz) n = n ∑<br />
k=0<br />
( n<br />
)<br />
k p k q n−k z k .<br />
Wie zu erwarten war, ist das <strong>die</strong> erzeugende Funktion der B<strong>in</strong>omialverteilung.<br />
2) Seien X 1 , X 2 , ..., X n unabhängig und geometrisch verteilt mit<br />
P (X i = k) = pq k , (k = 0, 1, 2, ...), so ergibt sich als erzeugende Funktion:<br />
∑<br />
f Xi (z) = ∞ pq k z k = und mit Satz 9.1.2, 3 folgt:<br />
k=0<br />
p<br />
1−qz<br />
E(X i ) = f ′ X i<br />
(1) =<br />
i=1<br />
∑<br />
Setzen wir wieder S n = n X i , so folgt weiter:<br />
i=1<br />
p<br />
f Sn (z) = (<br />
1 − qz )n = p n (1 − qz) −n =<br />
i=1<br />
pq<br />
(1 − qz) 2 | z=1 = q p .<br />
i=1<br />
∞∑<br />
( ) −n<br />
p n (−q) k z k<br />
k<br />
Dabei haben wir <strong>die</strong>allgeme<strong>in</strong>e b<strong>in</strong>omische Formel angewandt:<br />
( ( ( a a a<br />
(1 + s) a = 1 + s + s<br />
1)<br />
2)<br />
2 + s<br />
3)<br />
3 + ... mit |s| < 1, a ∈ R.<br />
k=0<br />
Hierbei ist ( )<br />
a<br />
k :=<br />
a(a−1)...(a−k+1)<br />
, a ∈ R, k ∈ N ∪ {0},<br />
k!<br />
und es gilt: ( −n<br />
k<br />
Damit ist: f Sn (z) = ∞ ∑<br />
)<br />
=<br />
(−n)(−n−1)...(−n−k+1)<br />
k=0<br />
= (−1) k n(n+1)...(n+k−1)<br />
= (−1) k( n+k−1<br />
k! k! k<br />
( n+k−1<br />
)<br />
k p n q k z k<br />
und P (S n = k) = ( )<br />
n+k−1<br />
k p n q k .<br />
3) Seien X 1 , X 2 , ..., X n unabhängig und Poisson-verteilt mit<br />
P (X i = k) = λk i<br />
k! e−λ i<br />
, (k = 0, 1, 2, ...), so ist <strong>die</strong> erzeugende Funktion:<br />
∑<br />
f Xi (z) = ∞ λ k i zk<br />
e −λ i<br />
= e λ iz−λ i<br />
= e λi(z−1) .<br />
k!<br />
k=0<br />
∑<br />
Für <strong>die</strong> erzeugende Funktion von S n = n X i gilt dann: f Sn (z) = e<br />
∑<br />
Wegen Satz 9.1.2 gilt: S n ist Poisson-verteilt mit Parameter n λ i .<br />
i=1<br />
i=1<br />
nP<br />
i=1<br />
λ i (z−1)<br />
.<br />
)<br />
.
74 9 ERZEUGENDE FUNKTIONEN<br />
9.2 Poisson-Prozesse<br />
9.2.1 Herleitung des Poisson-Prozesses durch erzeugende Funktionen<br />
Sei X t <strong>die</strong> Anzahl der „Anrufe“ im Zeit<strong>in</strong>tervall [0, t] und X 0 = 0, 0 ≤ t ≤ K.<br />
Annahme:<br />
1) Sei 0 < t 1 < t 2 < ... < t k < K. Dann s<strong>in</strong>d X t1 , X t2 − X t1 , ..., X tk − X tk−1 unabhängig.<br />
2) X t+a − X s+a ist für alle a > 0 genau so verteilt wie X t − X s .<br />
3) a) P (X t+δ − X t = 1) = λδ + o(δ) für δ → 0,<br />
b) P (X t+δ − X t = 0) = 1 − λδ + o(δ) für δ → 0,<br />
Bemerkung: (a) & (b)⇒ P (X t+δ − X t > 1) = o(δ) für δ → 0,<br />
denn<br />
P (X t+δ − X t > 1) = 1 − P (X t+δ − X t = 0) − P (X t+δ − X t = 1)<br />
= 1 − [1 − λδ + o(δ)] − [λδ + o(δ)]<br />
= 2o(δ)<br />
= o(δ) für δ → 0.<br />
Aufgabe: Berechne unter den Annahmen (1)-(3) <strong>die</strong> erzeugende Funktion von X t .<br />
Behauptung: f Xt (z) = e λt(z−1) . X t ist Poisson-verteilt mit Parameter λt.<br />
Beweisidee:<br />
Zerlege das Intervall [0, t] <strong>in</strong> N Stücke der Länge t N<br />
von X t/N . Berechne anschließend X t .<br />
und berechne <strong>die</strong> erzeugende Funktion<br />
Aus 3)a), 3)b) und 3)c) folgt: f X tN<br />
(z) = 1 − λ t + λz t + o( t ) für N → ∞.<br />
N N N<br />
Wegen 2) ist <strong>die</strong>s auch e<strong>in</strong>e erzeugende Funktion von X 2t −X t<br />
Da X t = N ∑<br />
k=0<br />
(<br />
X jt<br />
N<br />
− X (j−1)t<br />
N<br />
, X 3t<br />
N N N<br />
)<br />
ist, folgt mit 1) und Satz 9.1.3<br />
f Xt (z) = (f X tN<br />
(z)) N<br />
= (1 − λt<br />
N + λzt<br />
N + o( t N ))N<br />
= (1 + λt(z − 1) + o( 1 ) N<br />
) N für N → ∞<br />
N<br />
= e λt(z−1) für N → ∞.<br />
−X 2t<br />
N<br />
Dabei haben wir verwendet: (1 + xn n )n → e x , falls x n → x und n → ∞.<br />
, ..., X t −X (N−1)t .<br />
N
9.3 Ausgedünnte Poisson-Prozesse 75<br />
9.2.2 Def<strong>in</strong>ition (Poisson-Prozess)<br />
Die Menge der Zufallsvariablen {X t , 0 ≤ t ≤ K} mit den Eigenschaften (1)–(3) heißt<br />
Poisson-Prozess zum Parameter λ.<br />
X t<br />
t<br />
zufällige Zeiten<br />
Bemerkung: Eigenschaft (3) lässt sich ersetzen durch (3’): Für 0 ≤ s ≤ t gilt: X t − X s<br />
ist Poisson-verteilt mit Parameter λ(t − s). Wir haben <strong>in</strong> 7.1.9, 3) gezeigt: (1)-(3)⇒(3’).<br />
Umgekehrt läßt sich leicht zeigen: (1)+(2)+(3’)⇒(3).<br />
9.3 Ausgedünnte Poisson-Prozesse<br />
9.3.1 Satz<br />
Sei {X t , t ∈ [0, K]} Poisson-Prozess mit Parameter λ. Seien Z 1 , Z 2 , ... Bernoulli-Variable<br />
mit P (Z i = 1) = p. Weiter seien X t , Z 1 , Z 2 , ... für unabhängig (d.h. für jedes n ≥ 1 und<br />
s<strong>in</strong>d X t , Z 1 , Z 2 , ..., Z n unabhängig).<br />
∑<br />
Dann ist Y t = Xt<br />
Z i Poisson-verteilt mit Parameter λpt.<br />
i=1<br />
Weitergehend ist {Y t , t ∈ [0, K]} Poisson-Prozess mit Parameter λp, wenn <strong>die</strong> geforderte<br />
Unabhängigkeitseigenschaft für alle t > 0 gilt.<br />
Beweis:<br />
Zeige, dass f Yt (z) = e λpt(z−1) gilt. Sei S n = n ∑<br />
P (Y t = k) = P (S Xt = k) =<br />
i=1<br />
Z i . Dann ist:<br />
∞∑<br />
P (X t = n, S n = k) =<br />
n=0<br />
∞∑<br />
P (X t = n)P (S n = k)<br />
n=0<br />
f Yt (z) =<br />
=<br />
=<br />
∞∑<br />
P (Y t = k)z k<br />
k=0<br />
∞∑<br />
k=0 n=0<br />
∞∑<br />
P (Y t = n)P (S n = k)z k<br />
∞∑<br />
∞∑<br />
P (X t = n)( P (S n = k)z k )<br />
n=0<br />
k=0
76 9 ERZEUGENDE FUNKTIONEN<br />
=<br />
Satz 9.1.3<br />
{}}{<br />
=<br />
∞∑<br />
P (X t = n)f Sn (z)<br />
n=0<br />
∞∑<br />
P (X t = n)(f Z1 (z)) n<br />
n=0<br />
= f Xt (f Z1 (z))<br />
= f Xt (1 + p(z − 1))<br />
= e λtp(z−1) .<br />
9.3.2 Korollar<br />
∑<br />
Sei Y t := Xt<br />
i=1<br />
∑<br />
Z i und W t := Xt<br />
(1 − Z i ). Dann s<strong>in</strong>d Y t und W t unabhängig.<br />
i=1<br />
Beweis:<br />
Aus Satz 9.3.1 folgt, daß auch W t Poisson-verteilt ist mit Parameter λ(1−p). Die Aussage<br />
über <strong>die</strong> Unabhängigkeit folgt aus dem folgenden Lemma, wenn man N = X t setzt.<br />
9.3.3 Lemma<br />
Sei N Poisson-verteilte Zufallsvariable mit Parameter λ. Seien Z 1 , Z 2 , . . . Bernoulli-Variable<br />
mit P (Z i = 1) = p. Für jedes n ≥ 1 seien N, Z 1 , Z 2 , . . . , Z n unabhängig. Dann s<strong>in</strong>d <strong>die</strong><br />
Zufallsvariablen<br />
N∑<br />
N∑<br />
Y = Z i , W = (1 − Z i )<br />
unabhängig.<br />
i=1<br />
Beweis:<br />
Es gilt wegen der Unabhängigkeitsvoraussetzung und wegen N = Y + W<br />
P (Y = k, W = n − k) = P (Y = k, W = n − k, N = n)<br />
i=1<br />
= P (Y = k, W = n − k|N = n) P (N = n)<br />
( n∑<br />
)<br />
n∑<br />
= P Z i = k, (1 − Z i ) = n − k P (N = n)<br />
i=1<br />
i=1<br />
( n∑<br />
)<br />
= P Z i = k P (N = n)<br />
i=1<br />
=<br />
n!<br />
k!(n − k)! pk n−k λn<br />
(1 − p)<br />
n! e−λ<br />
= (pλ)k pλ [(1 − p)λ]n−k<br />
e<br />
k! (n − k)!<br />
= P (Y = k) P (W = n − k).<br />
e −(1−p)λ<br />
Die letzte Gleichung benutzt von Satz 9.3.1 <strong>die</strong> erste Aussage.
9.4 Poisson-Prozess über dem E<strong>in</strong>heitsquadrat 77<br />
Die Kükenaufgabe:<br />
Auf e<strong>in</strong>er Farm legen <strong>die</strong> Hühner <strong>in</strong>nerhalb e<strong>in</strong>es Jahres N Eier, N sei Poisson-verteilt<br />
mit Parameter λ. Aus jedem Ei schlüpft unabhängig von den anderen Eier e<strong>in</strong> Küken<br />
mit Wahrsche<strong>in</strong>lichkeit p. Wenn Y <strong>die</strong> Anzahl der geschlüpften Küken ist, was ist<br />
E(N|Y = k)?<br />
∑<br />
Nun ist Y = N Z i , mit Z i<br />
W =<br />
N ∑<br />
i=1<br />
i=1<br />
unabhängig und Bernoulli-verteilt mit Parameter p. Sei<br />
(1 − Z i ). Dann ist N = Y + W und Y und W s<strong>in</strong>d unabhängig nach dem<br />
Lemma. Somit gilt<br />
1<br />
E(N|Y = k) =<br />
P (Y = k) E ( )<br />
NI {Y =k}<br />
∞∑ P (N = l, Y = k)<br />
= l<br />
P (Y = k)<br />
l=0<br />
∞∑ P (W = l − k, Y = k)<br />
= l<br />
P (Y = k)<br />
l=k<br />
∞∑<br />
mit m = l − k = k + m P (W = m)<br />
m=0<br />
= k + λ(1 − p).<br />
Dies folgt, da W Poisson-verteilt ist mit Parameter λ(1 − p).<br />
9.4 Poisson-Prozess über dem E<strong>in</strong>heitsquadrat<br />
Sei E = [0, 1] 2 und B ⊂ E. X B sei <strong>die</strong> Anzahl der „Treffer“ auf B (z.B. Ra<strong>in</strong>drops).<br />
Annahmen:<br />
1) Gilt A, B ⊂ E und A ∩ B = ∅, dann s<strong>in</strong>d X A , X B unabhängig.<br />
2) Sei s ∈ E, A ⊂ E sowie A + s ⊂ E. Dann ist X A+s genauso verteilt wie X A .<br />
3) F (A) sei <strong>die</strong> Fläche von A. Dann gilt für F (A) → 0:<br />
a) P (X A = 1) = λF (A) + o(F (A)),<br />
b) P (X A = 0) = 1 − λF (A) + o(F (A)).
78 9 ERZEUGENDE FUNKTIONEN<br />
Aufgabe: Leite unter den Annahmen 1)-3) <strong>die</strong> erzeugende Funktion für <strong>die</strong> Anzahl der<br />
„Treffer“ her.<br />
Zerlege E <strong>in</strong> n × n kle<strong>in</strong>e Quadrate Q i,n , (i ∈ {1, . . . n 2 }) und nummeriere <strong>die</strong>se durch.<br />
K n bzw. G n seien <strong>die</strong> Indexmengen der<br />
⋃<br />
e<strong>in</strong>beschriebenen bzw. der e<strong>in</strong>beschreibenden<br />
Quadrate der Menge A. Es gilt dann: Q i,n ⊂ A ⊂ ⋃ Q i,n .<br />
i∈K n i∈G n<br />
Def<strong>in</strong>iere: ˜XKn := X S Q i,n<br />
und ˜X Gn := X S Q i,n<br />
.<br />
Kn<br />
Gn<br />
Dann gilt für alle n ˜X Kn ≤ X A ≤ ˜X Gn und damit folgt: lim ↑ ˜X Kn = X A = lim ↓ ˜X Gn .<br />
n→∞ n→∞<br />
Für <strong>die</strong> erzeugenden Funktionen folgt:<br />
f ˜XKn<br />
(z)<br />
(1)<br />
{}}{<br />
= ∏<br />
(3)<br />
{}}{<br />
= ∏<br />
i∈K n<br />
f XQi,n (z)<br />
i∈K n<br />
(1 − λF (Q i,n ) + λF (Q i,n )z + o(F (Q i,n )))<br />
(2)<br />
{}}{<br />
= (1 − λ n 2 + λ n 2 z + o( 1 n 2 ))F (A)n2 (1+o(1)) für n → ∞<br />
→ e λF (A)(z−1) für n → ∞.<br />
Ebenso gilt: f ˜XGn<br />
(z) → e λF (A)(z−1) und damit folgt: f XA (z) = e λF (A)(z−1) d.h. X A ist<br />
Poisson-verteilt mit Parameter λF (A).<br />
Bemerkung :<br />
1) Diese Konstruktion funktioniert auch für [0, 1] k .<br />
2) Satz 9.3.1 und das Korollar gelten entsprechend.
79<br />
10 Markov-Ketten<br />
10.1 Die Ka<strong>in</strong> und Abel-Aufgabe (nach A. Engel)<br />
Abel schlägt se<strong>in</strong>em Bruder Ka<strong>in</strong> folgendes Spiel vor. Sie werfen abwechselnd e<strong>in</strong>e faire<br />
Münze, bis erstmals e<strong>in</strong>e der Ziffernfolgen<br />
a) 1111 oder<br />
b) 0011 auftritt.<br />
Ka<strong>in</strong> gew<strong>in</strong>nt bei (a) und Abel bei (b). Wie groß ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit, daß Ka<strong>in</strong><br />
gew<strong>in</strong>nt? E<strong>in</strong> möglicher Pfad im Verlauf des Spiels ist 01100101110011.<br />
Wir stellen nun <strong>die</strong> Struktur der Aufgabe mit Hilfe e<strong>in</strong>es Graphen dar, wobei <strong>die</strong> “Zustände”<br />
<strong>die</strong> möglichen Ergebnismuster s<strong>in</strong>d und <strong>die</strong> Pfeile <strong>die</strong> möglichen Übergänge angeben.<br />
Alle Übergänge geschehen mit Wahrsche<strong>in</strong>lichkeit 1 2 .<br />
0 1 3 5 7<br />
*<br />
1 11 111 1111<br />
0 00 001 0011<br />
2<br />
4 6 8<br />
Abbildung 10.1: Der Graph der möglichen Übergänge<br />
Die Zustände s<strong>in</strong>d mit den Ziffern 0 bis 8 bezeichnet, wobei “0” den Zustand benennt, bei<br />
dem noch ke<strong>in</strong> Ergebnis vorliegt. Der angegebene Spielverlauf 01100101110011 übersetzt<br />
sich nun (<strong>in</strong> e<strong>in</strong>e<strong>in</strong>deutiger Zuordnung) <strong>in</strong> 21324621352468. Wie läßt sich nun <strong>die</strong> Aufgabe<br />
lösen? Wir bezeichnen mit p i <strong>die</strong> Wahrsche<strong>in</strong>lichkeit bei Start im Zustand “i” den Zustand<br />
“7” zu erreichen bevor man den Zustand “8” erreicht hat. Dann gilt natürlich sofort p 7 = 1<br />
und p 8 = 0. Außerdem s<strong>in</strong>d <strong>die</strong> folgenden Gleichungen <strong>in</strong>tuitiv plausibel.<br />
p 1 = 1 2 p 2 + 1 2 p 3<br />
p 2 = 1 2 p 1 + 1 2 p 4<br />
p 3 = 1 2 p 2 + 1 2 p 5<br />
p 4 = 1 2 p 4 + 1 2 p 6<br />
p 5 = 1 2 + 1 2 p 2<br />
p 6 = 1 2 p 2.
80 10 MARKOV-KETTEN<br />
Das Schema ist e<strong>in</strong> l<strong>in</strong>eares Gleichungssystem mit sechs Unbekannten und Gleichungen.<br />
Durch E<strong>in</strong>setzen erhält man sofort<br />
p 4 = p 6 = 1 2 p 2<br />
p 1 = 3 2 p 2<br />
p 3 = 1 4 + 3 4 p 2<br />
sowie p 1 = 1 8 + 7 8 p 2.<br />
Damit ist p 1 = 3 , p 10 2 = 1 und folglich p 5 0 = 1 . Das heißt Ka<strong>in</strong> gew<strong>in</strong>nt nur mit Wahrsche<strong>in</strong>lichkeit<br />
1.<br />
4<br />
4<br />
10.2 Def<strong>in</strong>ition von Markov-Ketten und erste Folgerungen<br />
10.2.1 Def<strong>in</strong>ition (Markov-Kette)<br />
(Ω, P ) sei Wahrsche<strong>in</strong>lichkeitsraum, E sei endliche Menge. Seien X i : Ω → E,<br />
i = 0, 1, 2, 3, . . . Zufallsvariablen. Die Menge der Zufallsvariablen X = {X 0 , X 1 , X 2 , . . . , X n , . . . }<br />
heißt Markov-Kette (der Länge n), falls<br />
P (X i = x i | X 0 = x 0 , . . . , X i−1 = x i−1 ) = P (X i = x i | X i−1 = x i−1 )<br />
für i = 1, 2, . . . , n, . . . gilt. E<strong>in</strong>e Markov-Kette X heißt stationär, falls<br />
für i = 1, 2, . . . gilt.<br />
Bezeichnungsweisen<br />
1. E heißt Zustandsraum,<br />
P (X i = x 1 | X i−1 = x 0 ) = P (X 1 = x 1 | X 0 = x 0 )<br />
2. q(x, y), x, y ∈ E heißt stochastische Matrix, falls q(x, y) ≥ 0 und ∑ y∈E<br />
q(x, y) = 1,<br />
∀ x ∈ E gilt,<br />
3. π(x 0 ) = P (X 0 = x 0 ) mit x 0 ∈ E heißt Startverteilung.<br />
Konstruktion von stationären Markov-Ketten<br />
Gegeben seien:<br />
1. E endlich oder abzählbar,<br />
2. q(x, y), x, y ∈ E e<strong>in</strong>e stochastische Matrix,<br />
3. π(x), x ∈ E e<strong>in</strong>e Wahrsche<strong>in</strong>lichkeitsfunktion auf E, d.h. π(x) ≥ 0 für alle x ∈ E<br />
und ∑ x∈E<br />
π(x) = 1.
10.2 Markov-Ketten 81<br />
Zur Existenz:<br />
Sei Ω n+1 := {ω = (x 0 , . . . , x n ) | x i ∈ E, i = 0, . . . , n} und X i (ω) := x i , für i = 0, 1, . . . , n.<br />
10.2.2 Satz:<br />
Sei n ∈ N. Durch p(ω) := π(x 0 )q(x 0 , x 1 ) . . . q(x n−1 , x n ) wird e<strong>in</strong>e Wahrsche<strong>in</strong>lichkeitsfunktion<br />
auf Ω n+1 gegeben, so dass gilt:<br />
1. P (X 0 = x 0 ) = π(x 0 ),<br />
2. P (X 0 = x 0 , X 1 = x 1 , . . . , X n = x n ) = p(ω),<br />
3. P (X i+1 = x i+1 |X 0 = x 0 , . . . , X i = x i ) = q(x i , x i+1 ) = P (X i+1 = x i+1 |X i = x i )<br />
für i = 0, . . . , n − 1.<br />
Beweis:<br />
Zu (2):<br />
Sei ω = (x 0 , . . . , x n ). Mit p(ω) = π(x 0 )q(x 0 , x 1 ) . . . q(x n−1 , x n ) gilt: p(ω) ≥ 0 und<br />
∑<br />
ω∈Ω n+1<br />
p(ω) = 1. Da X i (ω) = x i ist, folgt P ({ω|X i (ω) = x i , i = 0, . . . , n}) = P ({ω}) =<br />
p(ω).<br />
Zu (1):<br />
(+) P ({X 0 = x 0 , . . . , X i = x i }) = ∑<br />
für i = 0, 1, 2, . . . , n − 1.<br />
Zu (3):<br />
Es gilt<br />
x i+1 ,...,x n<br />
π(x 0 )q(x 0 , x 1 )q(x i−1 , x i ) . . . q(x n−1 , x n )<br />
= π(x 0 )q(x 0 , x 1 ) . . . q(x i−1 , x i )<br />
P (X i+1 = x i+1 | X 0 = x 0 , . . . , X i = x i ) = π(x 0)q(x 0 , x 1 ) . . . q(x i−1 , x i ), q(x i , x i+1 )<br />
π(x 0 )q(x 0 , x 1 ) . . . q(x i−1 , x i )<br />
= q(x i , x i+1 )<br />
sowie<br />
P (X i+1 = x i+1 |X i = x i ) = P (X i+1 = x i+1 , X i = x i )<br />
P (X i = x i )<br />
∑<br />
π(x 0 )q(x 0 , x 1 ) . . . q(x i−1 , x i )q(x i , x i+1 )<br />
x 0 ,...,x i−1<br />
= ∑<br />
π(x 0 )q(x 0 , x 1 ) . . . q(x i−1 , x i )<br />
x 0 ,...,x i−1<br />
= q(x i , x i+1 ).<br />
Bemerkungen:<br />
1. P (X i = x i ) = ∑ π(x 0 )q(x 0 , x 1 ) . . . q(x i−1 , x i ) = ∑ π(x 0 )q i (x 0 , x i ).<br />
x 0 ,...,x i−1 x 0<br />
Dabei ist q n+1 (x, y) = ∑ q n (x, z) q(z, y) das n + 1-fache Matrixprodukt.<br />
z∈E
82 10 MARKOV-KETTEN<br />
2. Mit Satz 10.2.2 ist e<strong>in</strong>e Markov-Kette der Länge n konstruiert!<br />
3. Wegen (+) im Beweis von Satz 10.2.2 ist <strong>die</strong> Markov-Kette der Länge i e<strong>in</strong>gebettet<br />
<strong>in</strong> e<strong>in</strong>e Markov-Kette der Länge n für i ≤ n.<br />
4. Mit der Bed<strong>in</strong>gung (+) lässt sich e<strong>in</strong>e Markov-Kette beliebiger Länge konstruieren.<br />
10.2.3 Beispiele für Markov-Ketten<br />
1) Ka<strong>in</strong> und Abel-Aufgabe:<br />
Der Zustandsraum ist E = {0, 1, 2, . . . , 8}. Für π gilt π(0) = 1. Weiter ist<br />
⎛<br />
0 1 1<br />
0 0 0 0 0 0<br />
⎞<br />
2 2 0 0 1 1<br />
0 0 0 0 0<br />
2 2 0 1 0 0 1 0 0 0 0<br />
2 2 0 0 1 0 0 1 0 0 0<br />
2 2<br />
(q(x, y)) x,y∈E =<br />
0 0 0 0 1 2 0 1 0 0<br />
2 0 0 1 2 0 0 0 0 1 0<br />
.<br />
2 0 0 1<br />
⎜<br />
0 0 0 0 0 1 2 2<br />
⎟<br />
⎝0 0 0 0 0 0 0 1 0⎠<br />
0 0 0 0 0 0 0 0 1<br />
2) Sei E = {1, 2, 3},<br />
⎛ ⎞<br />
0 3 4<br />
1<br />
4<br />
⎛<br />
q(x, y) = ⎝ 1<br />
0 1 ⎠ und q 2 (x, y) = ⎝<br />
2 2<br />
1 0 0<br />
5<br />
0 3 8 8<br />
1 3 1<br />
2 8 8<br />
0 3 1<br />
4 4<br />
Für jede Startverteilung π mit π(x) > 0 für x ∈ E gilt lim<br />
mit α(1) = 8<br />
19 , α(2) = 6<br />
19 , α(3) = 5<br />
19 .<br />
⎞<br />
⎠.<br />
n→∞<br />
∑<br />
x∈E<br />
π(x)q n (x, y) = α(y)<br />
∑<br />
3) Seien Y 1 , Y 2 , . . . unabhängig, X i = i Y j und X 0 = x 0 . Dann ist {X 0 , X 1 , X 2 , . . .} e<strong>in</strong>e<br />
Markov-Kette.<br />
Beweis:<br />
Sei m ∈ N und sei y i = x i − x i−1 für i ≥ 1 und y 0 = x 0 . Dann ist:<br />
j=1<br />
P (X m+1 = x|X 0 = x 0 , . . . , X m = x m )<br />
= P (X m+1 = x|X 0 = y 0 , X 1 = y 0 + y 1 , X 2 = y 0 + y 1 + y 2 , . . . , X m = y 0 + · · · + y m )<br />
= P (Y m+1 = x − (y 0 + y 1 + · · · + y m )|Y 0 = y 0 , Y 1 = y 1 , . . . , Y m = y m )<br />
= P (Y m+1 = x − (y 0 + y 1 + · · · + y m ))P (Y 0 = y 0 )P (Y 1 = y 1 ) · · · P (Y m = y m )<br />
P (Y 0 = y 0 )P (Y 1 = y 1 ) · · · P (Y m = y m )<br />
= P (Y m+1 = x − (y 0 + y 1 + · · · + y m ))<br />
= P (X m+1 = x|X m = x m ).
10.3 Absorbierende Zustände 83<br />
4) Ehrenfestsches Urnenmodell<br />
N Teilchen bef<strong>in</strong>den sich <strong>in</strong> den Behältern 1 und 2.<br />
i Teilchen seien <strong>in</strong> Behälter 1, N − i Teilchen <strong>in</strong> Behälter 2.<br />
In jeder Zeite<strong>in</strong>heit spr<strong>in</strong>gt e<strong>in</strong> Teilchen entweder von 1 → 2 oder von 2 → 1.<br />
1<br />
2<br />
Abbildung 10.2: Ehrenfestsches Urnenmodell<br />
Die stochastische Matrix wird gegeben durch q(i, i + 1) = N−i<br />
N , q(i, i − 1) = i N und<br />
q(i, j) = 0 für j ≠ i ± 1.<br />
10.3 Absorbierende Zustände<br />
Wir können e<strong>in</strong>e Markov-Kette als Bewegung e<strong>in</strong>es Teilchens durch <strong>die</strong> Zustände auffassen.<br />
In manchen Markov-Ketten gibt es Zustände, <strong>die</strong> nicht verlassen werden können. Solche<br />
Zustände heißen absorbierend.<br />
10.3.1 Def<strong>in</strong>ition (absorbierender Zustand, absorbierender Rand)<br />
Sei X = {X 0 , X 1 , . . .} e<strong>in</strong>e stationäre Markov-Kette mit Zustandsraum E.<br />
E<strong>in</strong> Zustand x ∈ E heißt absorbierend, wenn gilt q(x, x) = 1.<br />
Die Menge A ⊂ E aller absorbierender Zustände heißt absorbierender Rand von X .<br />
Bei der “Ka<strong>in</strong> und Abel”-Aufgabe ist {7, 8} der absorbierende Rand. Der folgende Satz<br />
liefert e<strong>in</strong>e Begründung für <strong>die</strong> Ka<strong>in</strong> und Abel-Aufgabe.<br />
10.3.2 Satz<br />
Sei X e<strong>in</strong>e stationäre Markov-Kette und A ⊂ E ihr absorbierender Rand. Wir nehmen<br />
an, dass für jedes x ∈ E <strong>die</strong> Wahrsche<strong>in</strong>lichkeit nach A zu kommen gleich 1 ist.<br />
Sei A = A 1 ∪ A 2 und A 1 ∩ A 2 = ∅. Sei P A1 (x) <strong>die</strong> Wahrsche<strong>in</strong>lichkeit bei Start <strong>in</strong> x beim<br />
ersten E<strong>in</strong>tritt <strong>in</strong> A nach A 1 zu gelangen. Dann gilt:<br />
(a) P A1 (x) = 1 für x ∈ A 1 und P A1 (x) = 0 für x ∈ A 2 ,<br />
(b) Für x /∈ A ist P A1 (x) = ∑ q(x, z) + ∑ ∑<br />
q(x, x 1 )q(x 1 , x 2 ) . . . q(x n−1 , z),<br />
z∈A 1 n≥2<br />
(c) Es gilt stets P A1 (x) = ∑ y∈E<br />
q(x, y)P A1 (y).<br />
x i /∈A für<br />
i=1,...,n−1,<br />
z∈A 1
84 10 MARKOV-KETTEN<br />
Beweis:<br />
Zu (a): Dies folgt direkt aus der Def<strong>in</strong>ition.<br />
Zu (b): Sei x /∈ A. Dann ist<br />
( ⋃<br />
)<br />
P A1 (x) = P (X 0 = x, X 1 ∈ A 1 ) + P {X 0 = x, X i /∈ A für i < n, X n ∈ A 1 }<br />
n≥2<br />
= ∑ z∈A 1<br />
q(x, z) + ∑ n≥2<br />
P ({X 0 = x, X i /∈ A für i < n, X n ∈ A 1 })<br />
= ∑ z∈A 1<br />
q(x, z) + ∑ n≥2<br />
Zu (c): Sei x /∈ A. So gilt<br />
∑<br />
x 1 ,x 2 ,...,x n−1 /∈A,<br />
z∈A 1<br />
q(x, x 1 ) . . . q(x n−1 , z).<br />
P A1 (x) = P (X 0 = x, X 1 ∈ A 1 ) + P (X 0 = x, X 1 /∈ A, X 2 ∈ A 1 )<br />
+ P (X 0 = x, ∃n ≥ 3 mit X n ∈ A 1 und X i /∈ A für i < n)<br />
= ∑ q(x, y) + ∑<br />
q(x, y)q(y, z)<br />
y∈A 1 y /∈A,z∈A 1<br />
+ ∑ ∑ ∑<br />
n≥3<br />
y /∈A x i /∈A,<br />
i=2,...,n−1,<br />
z∈A 1<br />
q(x, y)q(y, x 2 ) . . . q(x n−1 , z)<br />
(∗)<br />
= ∑ q(x, y)P A1 (y) + ∑ ( ∑<br />
q(x, y)<br />
y∈A<br />
y /∈A<br />
∑<br />
= ∑ y∈A<br />
+ ∑ ( ∑<br />
q(x, y)<br />
y /∈A<br />
n≥3<br />
)<br />
q(y, z)<br />
z∈A 1<br />
x i /∈A,<br />
i=2,...,n−1,<br />
z∈A 1<br />
q(y, x 2 ) . . . q(x n−1 , z)<br />
q(x, y)P A1 (y) + ∑ y /∈A<br />
q(x, y)P A1 (y)<br />
)<br />
= ∑ y<br />
q(x, y)P A1 (y).<br />
(*) P A1 (x) = 1 für x ∈ A 1 und P A1 (x) = 0 für x ∈ A\A 1 .<br />
Bemerkung: Die Gleichung c) aus Satz 10.3.2 lautet <strong>in</strong> Vektorschreibweise P A1 = qP A1 .<br />
Dies bedeutet P A1 ist rechter Eigenvektor von q zum Eigenwert 1. Man sagt auch, P A1 ist<br />
harmonisch oder P A1 erfüllt <strong>die</strong> Mittelwerteigenschaft.<br />
10.3.3 Berechnung von Ru<strong>in</strong>-Wahrsche<strong>in</strong>lichkeiten<br />
Hans und Rudolf spielen e<strong>in</strong> Spiel. In jeder Runde gew<strong>in</strong>nt Hans mit der Wahrsche<strong>in</strong>lichkeit<br />
p und Rudolf gew<strong>in</strong>nt mit der Wahrsche<strong>in</strong>lichkeit q = 1 − p. Der Gew<strong>in</strong>ner e<strong>in</strong>er<br />
Runde erhält von se<strong>in</strong>em Gegner e<strong>in</strong>en Euro. Es wird so lange gespielt bis e<strong>in</strong>er der Spieler<br />
ke<strong>in</strong> Geld mehr hat. Wie hoch ist <strong>die</strong> Ru<strong>in</strong>-Wahrsche<strong>in</strong>lichkeit P (x) von Hans, wenn Hans<br />
zu Beg<strong>in</strong>n x Euro hat und Hans und Rudolf zusammen b Euro haben?
10.3 Absorbierende Zustände 85<br />
Seien x, b ∈ N mit 0 < x < b. Weiter seien X 1 , X 2 , . . . unabhängige Zufallsvariablen mit<br />
∑<br />
P (X i = 1) = p = 1 − P (X i = −1) für alle i und es sei S 0 = x und S n = x + n X i für<br />
n ≥ 1. Damit ist S 0 , S 1 , S 2 , . . . e<strong>in</strong>e Markov-Kette und S n ist das Kapital, das Hans nach<br />
n Runden besitzt. Wir frage nach der Ru<strong>in</strong>-Wahrsche<strong>in</strong>lichkeit:<br />
P (x) = P (∃n mit S n = 0 und 0 < S i < b für i < n | S 0 = x) .<br />
i=1<br />
Abbildung 10.3: Ru<strong>in</strong>-Wahrsche<strong>in</strong>lichkeiten<br />
10.3.4 Satz<br />
Sei q = 1 − p.<br />
Für p = 1 2 gilt P (x) = 1 − x b<br />
Für p ≠ 1 2 gilt P (x) = ( q p )b − ( q p )x<br />
( q p )b − 1<br />
für 0 ≤ x ≤ b.<br />
für 0 ≤ x ≤ b.<br />
Beweis:<br />
Fall 1: Sei p = 1.<br />
2<br />
Satz 10.3.2 liefert: P (x) = 1P (x − 1) + 1 2 2<br />
P (x + 1) für 0 < x < b, P (0) = 1, P (b) = 0.<br />
Durch Lösen <strong>die</strong>ses l<strong>in</strong>earen Gleichungssystems ergibt sich: P (x) = 1 − x.<br />
b<br />
Fall 2: Sei p ≠ 1.<br />
2<br />
Satz 10.3.2 liefert: P (x) = pP (x + 1) + qP (x − 1) für 0 < x < b, P (b) = 0, P (0) = 1.<br />
Dann ist<br />
P (x) = pP (x + 1) + qP (x − 1)<br />
pP (x) + qP (x) = pP (x + 1) + qP (x − 1)<br />
P (x + 1) − P (x) = q (P (x) − P (x − 1)).<br />
p<br />
Wiederholtes Anwenden liefert<br />
P (x + 1) − P (x) = ( q p )x (P (1) − P (0)).<br />
Sei r := q . p<br />
Aufad<strong>die</strong>ren liefert P (x) − P (0) = rx −1(P (1) − P (0)).<br />
r−1<br />
Wegen P (0) = 1 gilt P (x) = 1 + rx −1(P (1) − 1).<br />
r−1<br />
Wegen P (b) = 0 gilt P (1) − 1 = − r−1 . r b −1<br />
E<strong>in</strong>setzen <strong>in</strong> <strong>die</strong> vorangegangene Gleichung liefert <strong>die</strong> Behauptung.
86 10 MARKOV-KETTEN<br />
10.4 Rekurrente und transiente Zustände<br />
10.4.1 Bezeichnungen<br />
Sei f n (x, y) := P (X n = y, X i ≠ y für 1 ≤ i < n|X 0 = x). Dann bezeichnet f n (x, y) <strong>die</strong><br />
Wahrsche<strong>in</strong>lichkeit bei Start <strong>in</strong> x nach n Schritten erstmals den Zustand y zu erreichen.<br />
f ∗ (x, y) := P (X n = y für e<strong>in</strong> n ≥ 1|X 0 = x) = ∑ n≥1<br />
f n (x, y) ist <strong>die</strong> Wahrsche<strong>in</strong>lichkeit bei<br />
Start <strong>in</strong> x irgendwann nach y zu gelangen.<br />
∑<br />
q ∗ (x, y) := ∞ q n (x, y) ist <strong>die</strong> erwartete Anzahl der Besuche <strong>in</strong> y bei Start <strong>in</strong> x, denn:<br />
n=0<br />
q ∗ (x, y) =<br />
=<br />
∞∑<br />
∞∑<br />
q n (x, y) = P (X n = y|X 0 = x)<br />
n=0<br />
n=0<br />
(<br />
∞∑<br />
∑ ∞<br />
E(1 {Xn=y}|X 0 = x) = E<br />
n=0<br />
n=0<br />
1 {Xn=y}<br />
)<br />
∣ X 0 = x .<br />
10.4.2 Def<strong>in</strong>ition (rekurrenter Zustand)<br />
x ∈ E heißt rekurrent, falls f ∗ (x, x) = 1,<br />
x ∈ E heißt transient, falls f ∗ (x, x) < 1.<br />
10.4.3 Satz<br />
1. x ∈ E ist rekurrent ⇔ q ∗ (x, x) = ∞,<br />
2. x ∈ E ist transient ⇔ q ∗ (x, x) < ∞.<br />
Beweis: Dieser folgt aus nachfolgendem Lemma.<br />
10.4.4 Lemma<br />
Es gilt<br />
a) q ∗ (x, y) = f ∗ (x, y) q ∗ (y, y) + δ(x, y),<br />
b) f ∗ (x, x) = q∗ (x,x)−1<br />
q ∗ (x,x)<br />
,<br />
c) q ∗ (x, x) =<br />
1<br />
1−f ∗ (x,x) .<br />
Beweis:<br />
Für alle x, y ∈ E gilt: q n (x, y) = n ∑<br />
T y = m<strong>in</strong>{m ≥ 1|X m = y}<br />
i=1<br />
q n (x, y) = P (X n = y|X 0 = x)<br />
f i (x, y)q n−i (y, y). Denn es gilt mit
10.4 Rekurrente und transiente Zustände 87<br />
=<br />
=<br />
=<br />
=<br />
n∑<br />
P (T y = i|X 0 = x)P (X n = y|T y = i, X 0 = x)<br />
i=1<br />
n∑<br />
f i (x, y)P (X n = y|X i = y)<br />
i=1<br />
n∑<br />
f i (x, y)P (X n−i = y|X 0 = y)<br />
i=1<br />
n∑<br />
f i (x, y)q n−i (y, y).<br />
i=1<br />
Weiter gilt nach Vertauschung der Summation<br />
q ∗ (x, y) =<br />
=<br />
=<br />
=<br />
∞∑<br />
q n (x, y) + δ(x, y)<br />
i=1<br />
∞∑<br />
n=1 i=1<br />
∞∑<br />
i=1<br />
n∑<br />
f i (x, y)q n−i (y, y) + δ(x, y)<br />
∞∑<br />
f i (x, y)q n−i (y, y) + δ(x, y)<br />
n=i<br />
∞∑<br />
f i (x, y)<br />
i=1<br />
∞∑<br />
q m (y, y) + δ(x, y)<br />
m=0<br />
= f ∗ (x, y) · q ∗ (y, y) + δ(x, y).<br />
Damit ist a) gezeigt. Für x = y folgt q ∗ (x, x) − f ∗ (x, x)q ∗ (x, x) = 1.<br />
Auflösen nach q ∗ (x, x) liefert q ∗ (x, x)(1 − f ∗ (x, x)) = 1 und damit q ∗ (x, x) =<br />
1<br />
1−f ∗ (x,x) .<br />
Auflösen nach f ∗ (x, x) liefert: f ∗ (x, x) = q∗ (x,x)−1<br />
q ∗ (x,x)<br />
.<br />
10.4.5 Beispiel auf Z (Irrfahrt auf Z )<br />
Seien Y 1 , Y 2 , . . . unabhängige Zufallsvariable mit P (Y i = 1) = p, P (Y i = −1) = q für alle<br />
i. Weiter sei X 0 = 0 und X n = Y 1 + Y 2 + · · · + Y n für n ≥ 1.<br />
Behauptung: Für p = q = 1 ist 0 rekurrent, für p ≠ q ist 0 transient.<br />
2<br />
Beweis:<br />
Wende Satz 10.4.3 an! Sei n ∈ N. Nach 2n + 1 Schritten liegt e<strong>in</strong> ungerader Zustand vor,<br />
also kann X 2n+1 nicht 0 se<strong>in</strong> und damit gilt: q 2n+1 (0, 0) = 0. Fällt <strong>in</strong> 2n Experimenten<br />
<strong>in</strong>sgesamt n-mal <strong>die</strong> 1 und n-mal <strong>die</strong> −1, so ist X 2n = 0 und es gilt: q 2n (0, 0) = ( )<br />
2n<br />
n p n q n .<br />
Für große n können wir <strong>die</strong> Stirl<strong>in</strong>g’schen Formel anwenden:<br />
q 2n (0, 0) ∼ 1 √ πn<br />
(4pq) n , da<br />
( 2n<br />
n<br />
)<br />
∼ 1 √ πn<br />
2 2n .<br />
Fall 1: p ≠ q ⇒ (4pq) < 1 ⇒ ∑ n≥1 q2n (0, 0) = ∑ √1<br />
πn<br />
(4pq) n (1 + o(1)) < ∞ ⇒ „0“ ist<br />
n≥1<br />
transient.<br />
Fall 2: p = q = 1 ⇒ (4pq) = 1<br />
2
88 10 MARKOV-KETTEN<br />
⇒ q 2n (0, 0) ∼ √ 1<br />
πn<br />
⇒ ∑ q 2n (0, 0) ∼ ∑<br />
n<br />
n<br />
√1<br />
πn<br />
= ∞ ⇒ „0“ ist rekurrent.<br />
10.4.6 Def<strong>in</strong>ition (irreduzibel)<br />
Die stochastische Matrix q heißt irreduzibel, falls für alle x, y ∈ E e<strong>in</strong> m ∈ N existiert mit<br />
q m (x, y) > 0.<br />
10.4.7 Satz<br />
Sei q irreduzibel. Dann gilt: Existiert e<strong>in</strong> z ∈ E, das rekurrent ist, so s<strong>in</strong>d alle x ∈ E<br />
rekurrent.<br />
Beweis:<br />
Sei x ∈ E beliebig. Dann existieren k, l ∈ N mit q k (x, z) > 0 und q l (z, x) > 0.<br />
Dann ist<br />
q n (x, x) ≥ q k (x, z)q m (z, z)q l (z, x),<br />
falls n = k + m + l ist. Es folgt<br />
q ∗ (x, x) = ∑ n≥0<br />
q n (x, x) = q k (x, z) ∑ m≥0<br />
q m (z, z)q l (z, x).<br />
Da <strong>die</strong> rechte Seite nach Voraussetzung gleich unendlich ist, ist auch q ∗ (x, x) = ∞ und<br />
damit f ∗ (x, x) = 1.<br />
10.5 Stationäre Verteilungen<br />
10.5.1 Def<strong>in</strong>ition (stationäre Verteilung)<br />
E<strong>in</strong>e Wahrsche<strong>in</strong>lichkeitsfunktion π auf E heißt stationär bezüglich q, falls für alle y ∈ E<br />
gilt:<br />
∑<br />
π(x)q(x, y) = π(y).<br />
x<br />
In Vektorschreibweise: π T q = π T , d. h. π ist l<strong>in</strong>ker Eigenvektor von q mit Eigenwert 1.<br />
10.5.2 Bemerkung<br />
Ist π stationär und Startverteilung von X , d.h. P (X 0 = x) = π(x), so gilt:<br />
P (X n = y) = π(y).<br />
Beweis: Es gilt<br />
P (X n = y) = ∑ x<br />
P (X n = y | X 0 = x)π(x)
10.5 Stationäre Verteilungen 89<br />
= ∑ x<br />
= ∑ x<br />
= ∑ z<br />
= ∑ z<br />
π(x)q n (x, y)<br />
π(x) ∑ q(x, z)q n−1 (z, y)<br />
z<br />
∑<br />
π(x)q(x, z)q n−1 (z, y)<br />
x<br />
q n−1 (z, y)π(z)<br />
.<br />
= π(y).<br />
10.5.3 Beispiel (Ehrenfestsches Urnenmodell)<br />
Behauptung:<br />
π(i) = ( N<br />
i<br />
)<br />
2 −N ist stationäre Verteilung des Ehrenfestschen Urnenmodells.<br />
Beweis:<br />
Zu zeigen: ∑ i<br />
∑<br />
π(i)q(i, j)<br />
i<br />
= ∑ i<br />
π(i)q(i, j) = π(j).<br />
( N<br />
i<br />
)<br />
2 −N q(i, j)<br />
=<br />
( )<br />
( )<br />
N −N N − (j − 1) N<br />
2 + 2 −N j + 1<br />
j − 1 N j + 1 N<br />
[<br />
N!<br />
=<br />
(j − 1)!(N − (j − 1))!<br />
[<br />
=<br />
(N − 1)!<br />
(j − 1)!(N − j)!<br />
N − (j − 1)<br />
N<br />
j<br />
j + (N − 1)!<br />
j!(N − j − 1)!<br />
+<br />
N!<br />
(j + 1)!(N − (j + 1))!<br />
]<br />
N − j<br />
2 −N<br />
N − j<br />
]<br />
j + 1<br />
2 −N<br />
N<br />
=<br />
=<br />
(N − 1)!j + (N − 1)!(N − j)<br />
2 −N<br />
j!(N − j)!<br />
( N<br />
j<br />
)<br />
2 −N = π(j).<br />
Es gibt noch e<strong>in</strong>en e<strong>in</strong>facheren Weg <strong>die</strong> Stationarität von π zu zeigen. Man verwendet<br />
dazu das folgende Lemma.
90 10 MARKOV-KETTEN<br />
10.5.4 Lemma<br />
Gilt für alle x, y ∈ E π(x)q(x, y) = π(y)q(y, x), so ist π stationär.<br />
Beweis:<br />
∑<br />
π(x)q(x, y) = ∑ π(y)q(y, x)<br />
x<br />
x<br />
= π(y) ∑ q(y, x)<br />
x<br />
= π(y).<br />
Bemerkung:<br />
Gleichung ( N<br />
i<br />
) N−i<br />
N<br />
Für das Ehrenfestsche Urnenmodell lautet <strong>die</strong> <strong>in</strong> 10.5.4 vorausgesetzte<br />
= ( )<br />
N i+1<br />
. Es ist offensichtlich, daß <strong>die</strong>se gilt.<br />
i+1 N<br />
Der folgende Satz liefert <strong>die</strong> Existenz e<strong>in</strong>er stationären Verteilung.<br />
10.5.5 Satz<br />
Sei q irreduzibel. Dann s<strong>in</strong>d folgende Aussagen äquivalent:<br />
a) Es existiert e<strong>in</strong> z ∈ E mit E(T z |X 0 = z) < ∞,<br />
b) Für alle x, y ∈ E gilt E(T y |X 0 = x) < ∞,<br />
c) Es existiert e<strong>in</strong>e stationäre Wahrsche<strong>in</strong>lichkeitsfunktion π bezüglich q.<br />
Bemerkung: Bed<strong>in</strong>gung (a) ist stärker als Rekurrenz, denn es gibt Markov-Ketten mit<br />
e<strong>in</strong>em rekurrenten Zustand x für den E(T x |X 0 = x) = ∞ gilt. Siehe z.B. <strong>die</strong> Irrfahrt von<br />
oben.<br />
Beweisskizze: Zeige (a) ⇒ (c) Setze: P z (·) = P (·|X 0 = z). Dann ist P z das Wahrsche<strong>in</strong>lichkeitsmaß<br />
bei Start <strong>in</strong> z.<br />
∑<br />
Sei H(x) := ∞ P z (X n = x, T z ≥ n). Dann gilt H(z) = 1 und weiter<br />
n=1<br />
∑<br />
H(x) =<br />
x∈E<br />
=<br />
∞∑ ∑<br />
P z (X n = x, T z ≥ n)<br />
n=1 x∈E<br />
∞∑<br />
P z (T z ≥ n) = E z T z .<br />
n=1<br />
Wir behaupten (+): H(y) = ∑ x∈E<br />
H(x)q(x, y).<br />
Setzt man nun π(x) = H(x)<br />
E zT z<br />
, so ist π(y) = ∑ x<br />
stationäre Verteilung.<br />
Zeige Behauptung (+):<br />
π(x)q(x, y) und ∑ y<br />
π(y) = 1, d.h. π ist
10.6 Konvergenz gegen <strong>die</strong> stationäre Verteilung 91<br />
∞∑<br />
H(y) = P z (X n = y, T z ≥ n)<br />
n=1<br />
= P z (X 1 = y) + ∑ n≥2<br />
P z (X n = y, X j ≠ z für 1 ≤ j ≤ n − 1)<br />
= q(z, y) + ∑ n≥2<br />
= q(z, y) + ∑<br />
= q(z, y) + ∑<br />
= q(z, y) + ∑<br />
= q(z, y) + ∑<br />
∑<br />
P z (X n−1 = x, X n = y, X j ≠ z für 1 ≤ j ≤ n − 1)<br />
x∈E\{z}<br />
x∈E\{z} n≥2<br />
x∈E\{z} n≥2<br />
x∈E\{z} l≥1<br />
x∈E\{z}<br />
= ∑ H(x)q(x, y).<br />
x<br />
∑<br />
P z (X n−1 = x, X n = y, X j ≠ z für 1 ≤ j ≤ n − 1)<br />
∑<br />
P z (X n−1 = x, X j ≠ z für 1 ≤ j ≤ n − 1) · P (X n = y|X n−1 = x)<br />
∑<br />
P z (X l = x, X j ≠ z für 1 ≤ j ≤ l) · P (X n = y|X n−1 = x)<br />
H(x)q(x, y)<br />
10.5.6 Korollar<br />
Es gilt<br />
und <strong>in</strong>sbesondere<br />
wobei<br />
H(x) =<br />
π(x) = H(x)<br />
E z T z<br />
π(z) = 1<br />
E z T z<br />
,<br />
∞∑<br />
P z (X n = x, T z ≥ n) ist für z ∈ E.<br />
n=1<br />
Bemerkung: Beim Ehrenfestschen Urnenmodell sei σ(i) = m<strong>in</strong>{n > 0 | X n = i}. Dann<br />
ist nach dem Korollar: E 0 σ(0) = 2 2k und E k σ(k) = ( )<br />
2k −1<br />
k 2 2k , wobei k = N/2 ist. Setzt<br />
man N = 6 · 10 23 und ist e<strong>in</strong> Zeitschritt 1 Sekunde lang, so ist E k σ(k) ∼ = 10 12 Sekunden,<br />
aber E 0 σ(0) ∼ = 10 1,8·1023 Sekunden.<br />
10.6 Konvergenz gegen <strong>die</strong> stationäre Verteilung<br />
10.6.1 Def<strong>in</strong>ition (Periode, aperiodisch)<br />
Sei q e<strong>in</strong>e irreduzible stochastische Matrix. Weiter sei N(x, y) := {n ∈ N|q n (x, y) > 0}.<br />
Wir def<strong>in</strong>ieren <strong>die</strong> Periode von x ∈ E durch d(x) := ggT (N(x, x)), wobei ggT (B) :=<br />
sup{k ∈ N|B ⊂ k · N} der größte geme<strong>in</strong>same Teiler der Menge B ist. q heißt aperiodisch,<br />
falls d(x) = 1 ist für alle x ∈ E. q hat Periode k, falls d(x) = k ist für alle x ∈ E.
92 10 MARKOV-KETTEN<br />
10.6.2 Beispiel<br />
Für <strong>die</strong> stochastische Matrix beim Ehrenfestschen Urnenmodell gilt d = 2.<br />
10.6.3 Satz<br />
Sei q irreduzibel und aperiodisch mit stationärer Verteilung π. Dann gilt für alle x ∈ E<br />
∑<br />
lim |q n (x, y) − π(x)| = 0.<br />
n→∞<br />
y∈E<br />
Sei q irreduzibel mit Periode k und mit stationärer Verteilung π, so gilt<br />
∑<br />
lim ∣ q nk (x, y) − π(x) ∣ = 0.<br />
n→∞<br />
y∈E<br />
Beweis: Zum Beweis siehe Dümbgen, S. 129.<br />
10.6.4 Satz<br />
Sei<br />
∑<br />
q irreduzibel und aperiodisch mit stationärer Verteilung π. Sei f : E → R, so daß<br />
|f(x)|π(x) < ∞ ist. Dann gilt für jede Startverteilung µ mit P µ -Wahrsche<strong>in</strong>lichkeit 1:<br />
x∈E<br />
lim<br />
N→∞<br />
1<br />
N<br />
N∑<br />
f(x k ) = ∑ f(x)π(x).<br />
x∈E<br />
k=1<br />
Bemerkung: Dies ist e<strong>in</strong> grundlegender Satz für Markov-Ketten, der dem Gesetz der<br />
Großen Zahlen für unabhängige Beobachtungen entspricht. Es ist e<strong>in</strong> Basisresultat für <strong>die</strong><br />
Simulation bei Markov-Ketten, der sogenannten MCMC-Methode.<br />
10.6.5 Bemerkungen zum Ehrenfestschen Urnenmodell<br />
Dieses Modell wurde entwickelt, um e<strong>in</strong>e Streitfrage <strong>in</strong> der statistischen Physik zu klären.<br />
Boltzmann behauptete, e<strong>in</strong> großes Teilchensystem ten<strong>die</strong>re sehr schnell zu se<strong>in</strong>em<br />
Gleichgewicht, Zermelo entgegnete, auch dann müßten aus physikalischen Gründen sehr<br />
unwahrsche<strong>in</strong>liche Zustände angenommen werden können. Dies erschien paradox. Das<br />
Ehrenfestsche Modell gestattet <strong>die</strong> Details zu berechnen.<br />
Sei N = 2k. Sei τ(k) = <strong>in</strong>f{n ≥ 0 | X n = k}. Dann gilt:<br />
a) E 0 (τ(k)) = k ln k + k + O(1)<br />
b) E k (τ(0)) = 1<br />
2k 22k (1 + o( 1 )) für k → ∞.<br />
k
93<br />
11 Wahrsche<strong>in</strong>lichkeitsmaße mit Dichten<br />
11.1 Wahrsche<strong>in</strong>lichkeits-Dichte, Verteilungsfunktion, σ-Algebren<br />
11.1.1 Def<strong>in</strong>ition (Wahrsche<strong>in</strong>lichkeits-Dichte)<br />
∞∫<br />
E<strong>in</strong>e Funktion f : R → [0, ∞) mit f(x)dx = 1 heißt Wahrsche<strong>in</strong>lichkeits-Dichte auf R.<br />
−∞<br />
11.1.2 Beispiele<br />
a) Exponentialverteilung mit Parameter { λ > 0:<br />
f λ (x) = λ · e −λx 1 falls x ∈ A<br />
· 1 [0,∞) (x), 1 A (x) =<br />
0 falls x /∈ A ,<br />
b) Gleichverteilung auf [a, b]: f(x) = 1<br />
b−a · 1 [a,b](x),<br />
c) Normalverteilung N(µ, σ 2 ): f(x) = 1 √<br />
2πσ 2 e−(x−µ)2 /2σ 2 ,<br />
d) Gamma-Verteilung G(α, β): f(x) = βα<br />
Γ(α) xα−1 e −βx 1 [0,∞) (x).<br />
11.1.3 Def<strong>in</strong>ition (Verteilungsfunktion)<br />
x∫<br />
Sei f e<strong>in</strong>e Wahrsche<strong>in</strong>lichkeits-Dichte auf R und F (x) := f(x)dy.<br />
Dann heißt F Verteilungsfunktion zur Dichte f.<br />
−∞<br />
Eigenschaften von F<br />
1) F (−∞) = 0, F (∞) = 1,<br />
2) F ist monoton wachsend, d.h. x ≤ y ⇒ F (x) ≤ F (y),<br />
3) F ist stetig.<br />
11.1.4 Beispiele<br />
1) F (x) = (1 − e −λx ) =<br />
2) F (x) =<br />
3) F (x) =<br />
x∫<br />
−∞<br />
x∫<br />
0<br />
√1<br />
2π<br />
e −y2 /2 = Φ(x),<br />
x∫<br />
λe −λy dy für x ≥ 0,<br />
0<br />
β α<br />
Γ(α) yα−1 e −βy dy für x ≥ 0.
94 11 WAHRSCHEINLICHKEITSMAßE MIT DICHTEN<br />
Bemerkung: f legt F fest (Integrieren von −∞ bis x), F legt f fest (Differenzieren nach<br />
der oberen Grenze). F und f stehen also <strong>in</strong> e<strong>in</strong>e<strong>in</strong>deutiger Beziehung zue<strong>in</strong>ander. Zu f und<br />
F gehört genau e<strong>in</strong> Wahrsche<strong>in</strong>lichkeitsmaß Q : B → [0, 1]. (Dabei ist B <strong>die</strong> σ-Algebra<br />
der Borelschen Mengen. Die Def<strong>in</strong>ition folgt weiter unten.) Dies kann auf verschiedene<br />
Weisen angegeben werden:<br />
x∫<br />
1) Q((−∞, x]) = f(y)dy = F (x),<br />
2) Q(A) =<br />
∞∫<br />
−∞<br />
−∞<br />
Eigenschaften von Q<br />
1 A (x)f(x)dx, falls A Borelmenge ist.<br />
Für A i disjunkt gilt: Q ist σ-additiv, denn<br />
( ∞<br />
)<br />
⋃<br />
∫<br />
Q A i =<br />
i=1<br />
∫<br />
=<br />
=<br />
=<br />
1 ∞S<br />
i=1<br />
∑ ∞<br />
i=1<br />
∞∑<br />
∫<br />
i=1<br />
∞∑<br />
Q(A i ).<br />
i=1<br />
A i<br />
(x)f(x)dy<br />
1 Ai (x)f(x)dx<br />
1 Ai (x)f(x)dx<br />
Nun zum Def<strong>in</strong>itionsbereich von Wahrsche<strong>in</strong>lichkeitsmaßen. Potenzmengen s<strong>in</strong>d im Allgeme<strong>in</strong>en<br />
zu groß. Die passenden Mengensysteme s<strong>in</strong>d σ-Algebren.<br />
11.1.5 Def<strong>in</strong>ition (σ-Algebra)<br />
E<strong>in</strong> System A von Teilmengen von Ω heißt σ-Algebra, falls gilt:<br />
a) Ω ∈ A,<br />
b) A ∈ A ⇒ A C ∈ A,<br />
⋃<br />
c) A i ∈ A für i = 1, 2, 3, . . . ⇒ ∞ A i ∈ A.<br />
11.1.6 Folgerungen<br />
Es gilt<br />
1) ∅ ∈ A,<br />
i=1<br />
⋂<br />
2) A i ∈ A für i = 1, 2, 3, . . . ⇒ ∞ A i ∈ A.<br />
i=1<br />
Demnach ist e<strong>in</strong>e σ-Algebra e<strong>in</strong> Mengensystem, das unter abzählbaren Durchschnitten,<br />
abzählbaren Vere<strong>in</strong>igungen und der Komplementbildung abgeschlossen ist.
11.2 Wahrsche<strong>in</strong>lichkeitsmaße und Zufallsvariablen auf R k 95<br />
11.1.7 Beispiele<br />
1) P(Ω) ist σ-Algebra.<br />
2) Sei I ≠ ∅ und für jedes i ∈ I sei A i e<strong>in</strong>e σ-Algebra.<br />
Dann ist A = ⋂ i∈I<br />
A i e<strong>in</strong>e σ-Algebra.<br />
3) Sei S ⊂ P (Ω). Dann existiert σ(S) :=<br />
Dies ist <strong>die</strong> von S erzeugte σ-Algebra.<br />
⋂<br />
A ist σ-Algebra,<br />
S⊂A<br />
A.<br />
Die Beweise für <strong>die</strong> Folgerungen und <strong>die</strong> Beispiele s<strong>in</strong>d <strong>in</strong> e<strong>in</strong>em Buch über Maßtheorie<br />
(z.B. Elstrodt) nachzulesen.<br />
11.1.8 Beispiel und Def<strong>in</strong>ition (Borelsche σ-Algebra)<br />
Sei S = {[a, b)|a, b ∈ R k }.<br />
Dann heißt B k := σ(S) <strong>die</strong> Borelsche σ-Algebra auf R k . Wir schreiben B für B 1 .<br />
A ∈ B heißt Borelsche Menge oder kurz borelsch.<br />
11.2 Wahrsche<strong>in</strong>lichkeitsmaße und Zufallsvariablen auf R k<br />
11.2.1 Def<strong>in</strong>ition (Wahrsche<strong>in</strong>lichkeitsdichte / Wahrsche<strong>in</strong>lichkeitsmaß auf<br />
R k )<br />
E<strong>in</strong>e Funktion f : R k → [0, ∞) mit ∫ R k f(x)dx = 1 heißt Wahrsche<strong>in</strong>lichkeitsdichte auf R k .<br />
Das zugehörige Wahrsche<strong>in</strong>lichkeitsmaß Q ist erklärt als Q(A) = ∫ R k 1 A (x)f(x)dx,<br />
A ∈<br />
B k .<br />
11.2.2 Def<strong>in</strong>ition (Wahrsche<strong>in</strong>lichkeitsraum)<br />
E<strong>in</strong> Wahrsche<strong>in</strong>lichkeitsraum ist e<strong>in</strong> Tripel (Ω, A, P ), bestehend aus e<strong>in</strong>er nicht leeren<br />
Menge Ω, e<strong>in</strong>er σ-Algebra A und e<strong>in</strong>em Wahrsche<strong>in</strong>lichkeitsmaß P auf (Ω, A).<br />
Dabei heißt P Wahrsche<strong>in</strong>lichkeitsmaß auf (Ω, A), falls P : A → [0, 1] mit P σ-additiv<br />
und P (Ω) = 1 ist.<br />
P heißt σ-additiv auf A, falls P ( ⋃ ∞<br />
i=1 A ∑<br />
i) = ∞ P (A i ) für A i ∈ A, i = 1, 2, ..., mit A i<br />
paarweise disjunkt.<br />
i=1<br />
11.2.3 Def<strong>in</strong>ition (Zufallsvariable)<br />
(Ω, A, P ) sei e<strong>in</strong> Wahrsche<strong>in</strong>lichkeitsraum.<br />
E<strong>in</strong>e Funktion X : Ω → R heißt Zufallsvariable, falls X −1 (B) ∈ A für alle B ∈ B ist.
96 11 WAHRSCHEINLICHKEITSMAßE MIT DICHTEN<br />
Bemerkung zum S<strong>in</strong>n <strong>die</strong>ser Def<strong>in</strong>ition<br />
1) Man will P ({ω|X(ω) ∈ B}) = P ({X ∈ B}) = P (X −1 (B)) wohldef<strong>in</strong>iert haben für<br />
alle B ∈ B.<br />
2) Damit X Zufallsvariable ist genügt es für alle α ∈ R zu fordern: {X ≤ α} =<br />
X −1 ((−∞, α]) ∈ A.<br />
11.2.4 Def<strong>in</strong>ition (Wahrsche<strong>in</strong>lichkeitsverteilung e<strong>in</strong>er Zufallsvariable)<br />
Sei X e<strong>in</strong>e Zufallsvariable. Die Verteilung von X ist def<strong>in</strong>iert durch Q(B) := P (X −1 (B))<br />
für alle B ∈ B. Damit ist Q e<strong>in</strong> Wahrsche<strong>in</strong>lichkeitsmaß auf (R, B).<br />
Bemerkung: Zur Dichte f existiert stets e<strong>in</strong>e Zufallsvariable X so, dass <strong>die</strong> Verteilung<br />
von X <strong>die</strong> Dichte f hat. Wähle X(z) = z für z ∈ R.<br />
11.3 Erwartungswert und Varianz<br />
11.3.1 Def<strong>in</strong>ition (Erwartungswert)<br />
Sei X Zufallsvariable und sei f Wahrsche<strong>in</strong>lichkeits-Dichte und g : R → R messbar (d.h.<br />
g −1 (B) ∈ B für B ∈ B). Dann heißt<br />
∫<br />
Eg(X) := g(x)f(x)dx<br />
der Erwartungswert von g(X).<br />
Bemerkung: Der Erwartungswert e<strong>in</strong>er Zufallsvariable X mit Dichte f ist<br />
R<br />
E(X) =<br />
∫ ∞<br />
−∞<br />
xf(x)dx und E(X p ) =<br />
∫ ∞<br />
−∞<br />
x p f(x)dx<br />
ist das p-te Moment. Diese Erwartungswerte existieren genau dann, wenn <strong>die</strong> uneigentlichen<br />
Integrale existieren. Existiert E(X 2 ), so gilt:<br />
Var(X) =<br />
∫ ∞<br />
(x − E(X)) 2 f(x)dx = E((X − E(X)) 2 ) = E(X 2 ) − (EX) 2 .<br />
−∞<br />
Im Übrigen gelten <strong>die</strong> gleichen Gesetze wie im diskreten Fall.<br />
11.3.2 Beispiele<br />
Ist X normalverteilt nach N(µ, σ 2 ), d.h. F X (α) = P (X ≤ α) =<br />
so gilt E(X) = µ und Var(X) = σ 2 , denn<br />
α∫<br />
−∞<br />
√ 1<br />
/2σ 2<br />
2πσ<br />
dx,<br />
2 e−(x−µ)2
11.4 Unabhängigkeit von Zufallsvariablen 97<br />
a) E(X) =<br />
∫ ∞<br />
1<br />
/2σ<br />
x√ 2 2πσ<br />
2 e−(x−µ)2 dx<br />
=<br />
−∞<br />
∫ ∞<br />
1<br />
/2σ<br />
(x − µ) √ 2 2πσ<br />
2 e−(x−µ)2 dx + µ<br />
=<br />
−∞<br />
∫ ∞<br />
1 /2σ<br />
y √ 2 2πσ<br />
2 e−y2 dy + µ,<br />
wenn y = x − µ gesetzt wird,<br />
−∞<br />
= µ.<br />
Das Integral ist Null, da über e<strong>in</strong>e antisymmetrische Funktion <strong>in</strong>tegriert wird.<br />
b) Var(X) =<br />
∫ ∞<br />
(x − µ) 2 1<br />
√<br />
2πσ<br />
2 e−(x−µ)2 /2σ 2 dx<br />
−∞<br />
∫∞<br />
= σ 2 z 2 1<br />
√ e −z2 /2 dz, wenn z = x − µ<br />
2π σ<br />
−∞<br />
⎡<br />
⎤<br />
= σ 2 ⎣√ −z<br />
∞<br />
∫ ∞<br />
e −z2 /2<br />
+ e −z2 /2<br />
√ dz ⎦<br />
2π ∣<br />
2π<br />
= σ 2 .<br />
−∞<br />
−∞<br />
Hier wurde partielle Integration angewandt.<br />
gesetzt wird,<br />
11.3.3 Weiteres Beispiel<br />
Was ist <strong>die</strong> Dichte von X 2 , wenn X nach N(0, 1) verteilt ist? Es gilt<br />
P (X 2 < β) = P (|X| < √ β) =<br />
√ β ∫<br />
1<br />
√ e −z2 /2 dz = √ 1<br />
2π 2π<br />
∫β<br />
y − 1 2 e −y/2 dy.<br />
− √ β<br />
0<br />
Hierbei wurde z 2 = y gesetzt.<br />
11.4 Unabhängigkeit von Zufallsvariablen<br />
11.4.1 Def<strong>in</strong>ition (Unabhängigkeit von Zufallsvariablen)<br />
Die Zufallsvariablen X 1 , ..., X k heißen unabhängig, falls gilt:<br />
für α i ∈ R, i = 1, ..., k.<br />
P (X 1 ≤ α 1 , X 2 ≤ α 2 , ..., X k ≤ α k ) =<br />
k∏<br />
P (X i ≤ α i )<br />
i=1
98 11 WAHRSCHEINLICHKEITSMAßE MIT DICHTEN<br />
11.4.2 Folgerung<br />
S<strong>in</strong>d X 1 , ..., X k unabhängig und hat <strong>die</strong> Verteilung von X i <strong>die</strong> Dichte f i , so hat <strong>die</strong> geme<strong>in</strong>same<br />
Verteilung von (X 1 , . . . , X k ) <strong>die</strong> Wahrsche<strong>in</strong>lichkeitsdichte f = k f i<br />
∏<br />
.<br />
Beweis:<br />
Es gilt<br />
P (X 1 ≤ α 1 , X 2 ≤ α 2 , ..., X k ≤ α k ) =<br />
=<br />
=<br />
=<br />
k∏<br />
P (X i ≤ α i )<br />
i=1<br />
∫ α i<br />
k∏<br />
i=1<br />
−∞<br />
∫ α 1 ∫ α k<br />
−∞<br />
∫ α 1<br />
...<br />
...<br />
f i (x i )dx i<br />
−∞<br />
i=1<br />
∫ α k<br />
i=1<br />
k∏<br />
f i (x i )dx 1 . . . dx n<br />
f(x)dx.<br />
−∞<br />
−∞<br />
11.4.3 Folgerung<br />
S<strong>in</strong>d X und Y unabhängig mit Dichten f und g. Dann hat <strong>die</strong> Verteilung von Z = X + Y<br />
∞∫<br />
<strong>die</strong> Dichte (f ∗ g)(t) := f(t − s)g(s)ds. f ∗ g heißt Faltung von f und g.<br />
Beweis:<br />
Es gilt<br />
−∞<br />
P (Z ≤ α) = P (X + Y ≤ α)<br />
∫<br />
=<br />
f(x)g(y)dxdy<br />
=<br />
=<br />
{(x,y)|x+y≤α}<br />
∫<br />
{(x,y)|t≤α}<br />
∫ α ∫ ∞<br />
(<br />
f(t − s)g(s)dsdt<br />
f(t − s)g(s)ds)dt<br />
−∞<br />
−∞<br />
∞∫<br />
mit t = x + y und s = y. Damit ist f(t − s)g(s)ds <strong>die</strong> Dichte von Z = X + Y .<br />
−∞
11.4 Unabhängigkeit von Zufallsvariablen 99<br />
11.4.4 Beispiel<br />
Die Exponentialverteilung hat <strong>die</strong> Dichte f(x) = λe −λx 1 [0,∞) (x).<br />
Für n ≥ 1 gilt: (f ∗ ) n (z) = λn z n−1<br />
(n−1)! e−λz 1 [0.∞) (z).<br />
Dabei ist (f ∗ ) n := f ∗ f ∗ f ∗ f ∗ ... ∗ f das n-fache Faltungsprodukt.<br />
Beweis durch Induktion:<br />
Induktionsanfang: Richtig für n = 1.<br />
Induktionsvorraussetzung: (f ∗ ) n (z) = λn z n−1<br />
(n−1)! e−λz 1 [0,∞) (z).<br />
Induktionsschritt: (n → n + 1)<br />
(f ∗ ) n+1 (z) = f ∗ (f ∗ ) n (z)<br />
=<br />
=<br />
∫ ∞<br />
−∞<br />
∫ ∞<br />
−∞<br />
f(z − x)(f ∗ ) n (x)dx<br />
λe −λ(z−x) 1 [0,∞) (z − x) λn x n−1<br />
−∞<br />
(n − 1)! e−λx 1 [0,∞) (x)dx<br />
∫∞<br />
= λ n+1 e −λz x n−1<br />
(n − 1)! 1 (−∞,z](x)1 [0,∞) (x)dx<br />
∫z<br />
= λ n+1 e −λz<br />
n+1 zn<br />
= λ<br />
n! e−λz 1 [0,∞) (z).<br />
0<br />
x n−1<br />
dx für z ≥ 0 und = 0 für z < 0<br />
(n − 1)!<br />
Bemerkung: Die Gammaverteilung G(α, β) mit den Parametern(α, β) hat <strong>die</strong> Dichte<br />
f(x) = βα<br />
Γ(α) xα−1 e −βx 1 [0,∞) (x). Folglich ist (f ∗ ) n <strong>die</strong> Dichte e<strong>in</strong>er G(n, λ)-Verteilung.<br />
11.4.5 Beispiel: Herleitung des Poisson-Prozesses über exponential verteilte<br />
Zufallsvariablen<br />
X i sei exponentialverteilt mit Parameter λ. X i sei <strong>die</strong> Wartezeit zwischen dem (i − 1)-<br />
∑<br />
ten und dem i-ten Anruf. S n = n X i sei <strong>die</strong> Gesamtwartezeit bis zum n-ten Anruf, mit<br />
i=1<br />
S 0 = 0. Die Anzahl der Anrufe bis zur Zeit t ist N t = max{k ≥ 0|S k ≤ t}. Was ist <strong>die</strong><br />
Verteilung von N t ? Es gilt<br />
P (N t = n) = P (S n ≤ t, S n+1 > t)<br />
= P (S n+1 > t) − P (S n > t)<br />
=<br />
∫ ∞<br />
t<br />
n+1 sn<br />
λ<br />
n! e−λs ds −<br />
∣<br />
= −λ n sn ∣∣<br />
∞<br />
n! e−λs t<br />
∫ ∞<br />
t<br />
λ n<br />
s n−1<br />
(n − 1)! e−λs ds
100 11 WAHRSCHEINLICHKEITSMAßE MIT DICHTEN<br />
Folglich ist P (N t = n) = (λt)n<br />
n!<br />
e −λt .<br />
= (λt)n e −λt .<br />
n!<br />
11.5 Momenterzeugende Funktionen<br />
In Analogie zu Kapitel 9 def<strong>in</strong>iert man für Verteilungen mit Dichten <strong>die</strong> sogenannte momenterzeugenden<br />
Funktionen (MEF). Ist X Zufallsvariable mit Dichte f, so ist M X (t) =<br />
Ee tX = ∫ e tx f(x)dx <strong>die</strong> MEF der Verteilung von X.<br />
Für <strong>die</strong> MEFs gelten entsprechende Ausssagen wie für <strong>die</strong> erzeugende Funktionen von<br />
Kaptitel 9:<br />
a) E<strong>in</strong>deutigkeit,<br />
b) Faltungseigenschaft (M X+Y (t) = M X (t)M Y (t)) bei Unabhängigkeit,<br />
c) Berechnung von Momenten.<br />
11.5.1 Beispiel: Die MEF von N(µ, σ 2 )<br />
Es gilt<br />
M(t) =<br />
1<br />
√<br />
2πσ<br />
2<br />
∫ ∞<br />
−∞<br />
e tx e −(x−µ)2 /2σ 2 dx = e tµ+ 1 2 σ2 t 2· 1<br />
√<br />
2πσ<br />
2<br />
∫ ∞<br />
−∞<br />
e −(x−(µ+σ2 t)) 2 /2σ 2 dx = e tµ+ 1 2 σ2 t 2 .<br />
11.5.2 Beispiel zur Faltung<br />
Sei X nach N(µ 1 , σ 2 1) und Y nach N(µ 2 , σ 2 2) verteilt. Außerdem seien X und Y unabhängig.<br />
Dann gilt für <strong>die</strong> MEF von X + Y :<br />
M X+Y (t) = Ee tX Ee tY = e tµ 1+ 1 2 σ2 1 t2 e tµ 2+ 1 2 σ2 2 t2 = e t(µ 1+µ 2 )+ 1 2 (σ2 1 +σ2 2 )t2 .<br />
Dies ist <strong>die</strong> MEF von N(µ 1 +µ 2 , σ 2 1 +σ 2 2), d.h. X +Y ist nach N(µ 1 +µ 2 , σ 2 1 +σ 2 2) verteilt.<br />
11.5.3 Die MEF der Gammaverteilung<br />
Es gilt Γ(α) =<br />
∞∫<br />
0<br />
x α−1 e −x dx und damit<br />
M(t) =<br />
βα<br />
Γ(α)<br />
= βα<br />
Γ(α)<br />
∫ ∞<br />
0<br />
∫ ∞<br />
0<br />
e tx x α−1 e −βx dx<br />
e −(β−t)x x α−1 dx
11.6 χ 2 k-Verteilung 101<br />
=<br />
β α<br />
(β − t) α<br />
= (1 − t β )−α .<br />
Weiterh<strong>in</strong> gilt E(X) = M ′ (0) = α β , Var(X) = M ′′ (0) − [M ′ (0)] 2 = α β 2 .<br />
11.6 χ 2 k -Verteilung<br />
11.6.1 Def<strong>in</strong>ition (χ 2 k -verteilt)<br />
Seien Y 1 , ..., Y k unabhängige Zufallsvariablen und alle nach N(0, 1)-verteilt. Dann ist V :=<br />
Y1 2 + Y2 2 + ... + Yk<br />
2 nach χ2 k-verteilt, d.h. Chiquadrat-verteilt mit k Freiheitsgraden.<br />
Berechnung der Dichte von V<br />
( k<br />
)<br />
∑<br />
Was ist P Yi<br />
2 ≤ β ?<br />
i=1<br />
α∫<br />
1<br />
Es gilt: P (Y i ≤ α) = √<br />
2π<br />
e − x2 i<br />
2 dx i .<br />
−∞<br />
∑<br />
Wir def<strong>in</strong>ieren K(β) := {(y 1 , ..., y k )| k yi 2 ≤ β}. Damit ist:<br />
(*) wegen Unabhängigkeit,<br />
∑<br />
(**) setze r 2 = k yi 2 ,<br />
i=1<br />
P ((Y 1 , ..., Y k ) ∈ K(β)) (∗)<br />
=<br />
i=1<br />
=<br />
∫<br />
K(β)<br />
1<br />
(2π) k 2<br />
(∗∗)<br />
= B 1 ·<br />
(***) z = r 2 ⇒ dz = 2rdr. Dabei ist B 2 = 2− k 2<br />
∫<br />
Zusammenfassend: P (V ≤ β) = 2− k β<br />
2<br />
Γ( k) 2<br />
0<br />
k∏<br />
i=1<br />
∫<br />
S k−1<br />
( 1<br />
√<br />
2π · e − y2 i<br />
2<br />
)<br />
dy 1 ...dy k<br />
∫<br />
K(β)<br />
e − kP 1<br />
2<br />
i=1<br />
√ β<br />
∫<br />
dσ<br />
∫β<br />
(∗∗∗)<br />
= B 2 e − z k<br />
2 z 2 −1 dz.<br />
0<br />
Γ( k 2 ).<br />
e − z 2 z<br />
k<br />
2 −1 dz.<br />
0<br />
yi<br />
2 dy 1 ...dy k<br />
e − r2 2 r k−1 dr<br />
Dies ist <strong>die</strong> Verteilungsfunktion e<strong>in</strong>er χ 2 k -Verteilung. Insbesondere ist <strong>die</strong>se e<strong>in</strong>e G( k 2 , 1 2 )-<br />
Verteilung. Ihre MEF ist daher M(t) = (1 − 2t) −k/2 .
102 11 WAHRSCHEINLICHKEITSMAßE MIT DICHTEN<br />
11.6.2 Empirischer Mittelwert und empirische Varianzen bei der Normalverteilung<br />
Seien X 1 , ..., X n unabhängig nach N(µ, σ 2 ) verteilt und T n := 1 n<br />
n∑<br />
(X i − µ) 2 .<br />
Dann ist ET n =<br />
(<br />
σ 2 und n T<br />
σ 2 n ist<br />
)<br />
χ 2 n-verteilt.<br />
n∑<br />
n∑<br />
1<br />
Denn: ET n = E (X<br />
n i − µ) 2 = 1 E((X<br />
n<br />
i − µ) 2 ) = 1 nVar(X n 1) = σ 2<br />
i=1<br />
i=1<br />
n∑<br />
∑<br />
und n T<br />
σ 2 n = 1 (X<br />
σ 2 i − µ) 2 = n ( X i−µ<br />
) 2 .<br />
σ<br />
Seien X n = 1 n<br />
i=1<br />
n∑<br />
i=1<br />
Denn: EX n = E<br />
(<br />
und ESn 2 = E<br />
n∑<br />
= 1 (σ 2 − 2 n−1<br />
n<br />
i=1<br />
i=1<br />
X i und S 2 n = 1<br />
n−1<br />
(<br />
1<br />
n<br />
1<br />
n−1<br />
n∑<br />
j=1<br />
i=1<br />
n∑<br />
(X i − X n ) 2 . Dann gilt: EX n = µ und ESn 2 = σ 2 .<br />
i=1<br />
)<br />
n∑<br />
n∑<br />
X i = 1 E(X<br />
n<br />
i ) = 1 nE(X n 1) = µ<br />
i=1<br />
i=1 )<br />
n∑<br />
n∑<br />
(X i − X n ) 2 = 1 E[((X i − µ) − (X n − µ)) 2 ]<br />
i=1<br />
n−1<br />
i=1<br />
E[(X i − µ)(X j − µ)] + σ2 ) = 1 n−1<br />
nσ2 = n n−1 n σ2 .<br />
11.6.3 Wie ist S 2 n = 1<br />
n−1<br />
n∑<br />
(X i − X n ) 2 verteilt?<br />
i=1<br />
Um <strong>die</strong> Verteilung von S 2 n zu berechnen brauchen wir folgende Lemmata:<br />
Lemma 1<br />
Die Zufallsvariable X n ist unabhängig von (X 1 − X n , ..., X n − X n ).<br />
Lemma 2<br />
X n und S 2 n s<strong>in</strong>d unabhängig.<br />
Beweis:<br />
S 2 n ist e<strong>in</strong>e Funktion von (X 1 − X n , ..., X n − X n ) und folglich unabhängig von X n .<br />
Lemma 3<br />
n<br />
(X<br />
σ 2 n − µ) 2 ist χ 2 1-verteilt.
11.7 t n -Verteilung 103<br />
11.6.4 Satz<br />
n−1<br />
σ 2 S 2 n = 1<br />
σ 2<br />
n∑<br />
(X i − X n ) 2 ist χ 2 n−1-verteilt.<br />
i=1<br />
Beweis:<br />
Nach Bemerkung (11.6.2) gilt: W := 1<br />
σ 2<br />
W = 1 σ 2<br />
n∑<br />
(X i − µ) 2 = n T<br />
σ 2 n ist χ 2 n-verteilt. Weiter gilt<br />
i=1<br />
n∑ [<br />
(Xi − X n ) + (X n − µ) ] 2<br />
i=1<br />
= 1 σ 2 [ n∑<br />
i=1<br />
(X i − X n ) 2 + 2<br />
]<br />
n∑<br />
(X i − X n )(X n − µ) + n(X n − µ) 2<br />
i=1<br />
= 1 n∑<br />
(X<br />
σ 2 i − X n ) 2 + n σ (X 2 n − µ) 2 ,<br />
i=1<br />
} {{ }<br />
U<br />
} {{ }<br />
V<br />
∑<br />
denn n (X i − X n ) = 0 und damit der geme<strong>in</strong>same Term gleich Null.<br />
i=1<br />
Die l<strong>in</strong>ke Seite ist χ 2 n-verteilt.<br />
Nach Lemma 1 ist Ee tW = Ee t(U+V ) = Ee tU Ee tV .<br />
Dann folgt mit Lemma 3: Ee tU = Ee tW /Ee tV = (1−2t)−n/2<br />
(1−2t) −1/2<br />
Damit ist U χ 2 n−1-verteilt.<br />
= (1 − 2t) − n−1<br />
2 .<br />
11.7 t n -Verteilung<br />
11.7.1 Def<strong>in</strong>ition (t n -Verteilung)<br />
Ist X nach N(0, 1)-verteilt und V nach χ 2 n-verteilt und s<strong>in</strong>d X und V unabhängig, so<br />
X<br />
heißt <strong>die</strong> Verteilung von √ t-Verteilung mit n Freiheitsgraden (kurz: t n -Verteilung).<br />
V/n<br />
11.7.2 Korollar<br />
S<strong>in</strong>d X n und S 2 n wie oben, so ist Xn−µ<br />
S n/ √ n<br />
Beweis:<br />
Es ist<br />
X = √ n Xn−µ<br />
σ<br />
√<br />
X n − µ n<br />
X n−µ<br />
S n / √ n = σ<br />
√<br />
S<br />
2<br />
n /σ = √<br />
2<br />
t n−1-verteilt.<br />
1<br />
n−1<br />
√ n<br />
X n−µ<br />
σ<br />
.<br />
n∑<br />
(X i − X n ) 2 /σ 2<br />
i=1<br />
ist N(0, 1)-verteilt, der Term unter der Wurzel ist χ 2 n−1-verteilt.
104 11 WAHRSCHEINLICHKEITSMAßE MIT DICHTEN<br />
11.7.3 Satz<br />
Die t-Verteilung mit n Freiheitsgraden hat <strong>die</strong> Dichte<br />
f n (z) =<br />
n+1<br />
Γ( ) 2<br />
√ πnΓ(<br />
n<br />
2<br />
z2 n+1<br />
+ )− 2 .<br />
)(1 n<br />
Beweis:<br />
Sei U = X √ n. Dann ist U nach N(0, n) verteilt und V χ 2 n-verteilt. Weiter gilt wegen der<br />
Unabhängigkeit von U und V<br />
P (U/ √ V ≤ α) =<br />
mit z := u √ v<br />
und folglich<br />
∫<br />
{(u,v)|u/ √ v≤α}<br />
f(u)g(v)dudv =<br />
∫ α<br />
0<br />
(∫<br />
f(z √ v)g(v) √ )<br />
vdv dz<br />
} {{ }<br />
h(z)<br />
h(z) = 1 √<br />
2πn<br />
1<br />
=<br />
∫∞<br />
2 n/2 Γ( n) 2<br />
0<br />
0<br />
e − vz2<br />
2n<br />
v<br />
n<br />
2 −1 e −v/2√ v dv<br />
∫∞<br />
1<br />
√<br />
2πn2<br />
n/2<br />
Γ( n) v n+1<br />
2 −1 e − v 2 (1+ z2 n ) dv<br />
2<br />
= 2 n+1<br />
2 (1+ z2 n+1<br />
)− 2<br />
n Γ( n+1)<br />
2<br />
√<br />
2πn2<br />
n/2<br />
Γ( n)<br />
2<br />
= Γ ( )<br />
n+1<br />
) −<br />
n+1<br />
2<br />
√ (<br />
πnΓ<br />
n<br />
)<br />
(1 + z2 2<br />
.<br />
n<br />
2<br />
Bemerkung: Sei F n <strong>die</strong> Verteilungsfunktion der t-Verteilung. Dann gilt: F n (z) → Φ(z)<br />
für n → ∞ und f n (z) → ϕ(z) = √ 1<br />
2π<br />
e −z2 /2 für n → ∞, denn (1 + z2 n+1<br />
)− 2 → e −z2 /2 , da<br />
n<br />
(1 + x n )n → e x , falls n → ∞.
105<br />
12 Schließende Statistik<br />
12.1 E<strong>in</strong>führendes Beispiel: Füllt <strong>die</strong> Brauerei zu wenig ab?<br />
In e<strong>in</strong>er Brauerei wird e<strong>in</strong>e Masch<strong>in</strong>e e<strong>in</strong>gesetzt um Flaschen mit 0,5l Inhalt abzufüllen.<br />
Die Masch<strong>in</strong>e kann <strong>in</strong> der Abfüllmenge variiert werden. Für <strong>die</strong> abgefüllte Menge <strong>in</strong> 8<br />
verschiedenen Flaschen werden <strong>die</strong> folgenden Werte gemessen (<strong>in</strong> Litern):<br />
x 1 = 0,489 x 5 = 0,496<br />
x 2 = 0,502 x 6 = 0,482<br />
x 3 = 0,508 x 7 = 0,503<br />
x 4 = 0,497 x 8 = 0,483<br />
Tabelle 3: Messwerte Flaschenabfüllung<br />
Annahme: Die Daten x 1 , ..., x 8 s<strong>in</strong>d Realisierungen von Zufallsvariablen X 1 , ..., X 8 , wobei<br />
<strong>die</strong> X i unabhängig und nach N(µ, σ 2 ) verteilt s<strong>in</strong>d. µ und σ werden als unbekannt angenommen.<br />
Es stellen sich folgende Aufgaben bzw. Fragen:<br />
1) Schätze µ.<br />
2) Schätze σ 2 .<br />
3) Wie stark schwankt der Schätzer von µ?<br />
4) Wie stark schwankt der Schätzer von σ 2 ?<br />
5) Füllt <strong>die</strong> Brauerei zu wenig ab?<br />
Antworten:<br />
1) Wir wählen den Mittelwert als Schätzer für µ:<br />
n∑<br />
ˆµ n = 1 x<br />
n i = x n ,<br />
i=1<br />
ˆµ 8 = 1 8 (0,489 + 0,502 + ... + 0,483) = 1 8 · 3,96 = 0,495 =: x 8.<br />
2) E<strong>in</strong> Schätzer für <strong>die</strong> Varianz σ 2 :<br />
n∑<br />
ˆσ n 2 = 1 (x<br />
n−1 i − x n ) 2 ,<br />
i=1<br />
8∑<br />
ˆσ 8 2 = 1 (x<br />
7 i − x 8 ) 2 = [0,006 2 + ... + 0,008 2 + 0,012] 2 = 9, 086 · 10 −5 .<br />
i=1<br />
Damit ergibt sich als Schätzung für <strong>die</strong> Standardabweichung:<br />
ˆσ 8 = √ˆσ 2 8 = 9,532 · 10 −3 ≈ 0,01.<br />
Die Fragen 3)–5) beantworten wir weiter unten.
106 12 SCHLIEßENDE STATISTIK<br />
12.2 Punktschätzer<br />
Gegeben sei e<strong>in</strong> statistisches Modell (Ω, A, P θ , θ ∈ Θ). Dabei ist Ω <strong>die</strong> Beobachtungsmenge,<br />
A <strong>die</strong> σ-Algebra über Ω und {P θ ; θ ∈ Θ} e<strong>in</strong>e durch Θ ⊂ R k <strong>in</strong>dizierte Schar von<br />
Wahrsche<strong>in</strong>lichkeitsmaßen.<br />
12.2.1 Def<strong>in</strong>ition (Schätzer)<br />
E<strong>in</strong> Vektor T = (T 1 , . . . , T k ), bestehend aus Zufallsvariablen, heißt Schätzer, falls T (Ω) ⊂<br />
Θ gilt.<br />
12.2.2 Def<strong>in</strong>ition (Maximum-Likelihood-Schätzer)<br />
Sei {f θ (ω)|θ ∈ Θ} e<strong>in</strong>e durch θ <strong>in</strong>dizierte Schar von Wahrsche<strong>in</strong>lichkeitsfunktionen oder<br />
Wahrsche<strong>in</strong>lichkeitsdichten auf Ω. Dann heißt ˆθ(ω) := arg max f θ(ω) Maximum-Likelihoodθ∈Θ<br />
Schätzer von θ. Es gilt fˆθ(ω)<br />
(ω) = max f θ (ω).<br />
θ<br />
Somit stellt sich <strong>die</strong> Aufgabe: Maximiere für das beobachtete ω <strong>die</strong> Funktion θ ↦→ f θ (ω).<br />
12.2.3 Beispiele:<br />
1) B<strong>in</strong>omialverteilung:<br />
f θ (k) = ( n<br />
k)<br />
θ k (1 − θ) n−k , 0 ≤ k ≤ n, 0 ≤ θ ≤ 1.<br />
Hier ist der Maximum-Likelihood-Schätzer: ˆθ(k) = k n . Denn:<br />
∂<br />
∂θ f θ(k) = ! 0<br />
( n<br />
⇔ [kθ<br />
k)<br />
k−1 (1 − θ) n−k − (n − k)(1 − θ) n−k−1 θ k !<br />
] = 0<br />
( n<br />
⇒ θ<br />
k)<br />
k−1 (1 − θ) n−k−1 (k(1 − θ) − (n − k)θ) = 0<br />
⇒ k − kθ − nθ + kθ = 0<br />
⇒ k = nθ<br />
⇒ θ = k n<br />
⇒ ˆθ = k n .<br />
2) Poisson-Verteilung<br />
f θ (k) = θk<br />
k! e−θ , θ ∈ (0,∞), k ∈ N ∪ {0}.<br />
Hier ist ˆθ = k, da<br />
0 = ! ∂ ∂θ f θ(k) = kθk−1<br />
e −θ − θk<br />
k! k! e−θ<br />
⇒ 0 ! = k − θ ⇒ ˆθ = k.
12.2 Punktschätzer 107<br />
3) Exponentialverteilung<br />
f θ (x) = θe −θx 1 [0,∞) (x), θ ∈ (0,∞)<br />
Man beobachtet <strong>in</strong> unabhängigen Experimenten <strong>die</strong> Messwerte x 1 , . . . , x n :<br />
∏<br />
f θ (x 1 , ..., x n ) = n θe −θx i<br />
= θ n e −θ P n x i<br />
i=1<br />
i=1<br />
0 = ! ∂ f ∂θ θ(x 1 , ..., x n ) = nθ n−1 e −θ P x i<br />
∑<br />
− θ n ( n x i )e −θ P x i<br />
⇒ n − θ n ∑<br />
Nebenbei:<br />
!<br />
x i<br />
i=1<br />
= 0 ⇒ ˆθ n = n<br />
nP .<br />
x i<br />
i=1<br />
n∑<br />
x i /n ist auch Maximum-Likelihood-Schätzer von θ −1 .<br />
i=1<br />
4) Normalverteilung<br />
Man beobachtet <strong>in</strong> unabhängigen Experimenten <strong>die</strong> Messwerte x 1 , . . . , x n :<br />
θ = (µ, σ 2 ), µ ∈ R, σ ∈ (0,∞).<br />
∏<br />
f θ (x 1 , ..., x n ) = n √ 1<br />
2πσ 2 e−(x i−µ) 2 /2σ 2 (x<br />
1<br />
i −µ)<br />
= √<br />
2 /2σ 2<br />
i=1<br />
i=1<br />
i=1<br />
(2πσ 2 ) n e− n P<br />
Weil <strong>die</strong> logarithmische Funktion streng monoton wachsend ist, hat e<strong>in</strong>e Funktion<br />
genau dann e<strong>in</strong> Maximum, wenn ihr Logarithmus e<strong>in</strong> Maximum hat. Also erhalten wir<br />
dasselbe Ergebnis, wenn wir <strong>die</strong> Funktion l θ (x 1 , ..., x n ) := log f θ (x 1 , ..., x n ) maximieren:<br />
a) ∂l θ<br />
∂µ<br />
b) ∂l θ<br />
∂σ<br />
!<br />
= 0 ⇒ 1<br />
2σ 2<br />
l θ (x 1 , ..., x n ) = log f θ (x 1 , ..., x n )<br />
= −n log σ − n log( √ 2π) − 1<br />
2σ 2<br />
n∑<br />
2(x i − µ) = 0 ⇒ ˆµ n =<br />
i=1<br />
!<br />
= 0 ⇒ − n σ + 1<br />
σ 3<br />
nP<br />
x i<br />
i=1<br />
. n<br />
n∑<br />
(x i − µ) 2 = 0 ⇒ ˆσ n 2 = 1 n<br />
i=1<br />
Setze nun ˆµ n e<strong>in</strong>, so erhält man ˆσ 2 n = 1 n<br />
n∑<br />
(x i − µ) 2<br />
i=1<br />
n∑<br />
(x i − µ) 2 .<br />
i=1<br />
n∑<br />
(x i − x n ) 2 .<br />
i=1<br />
5) Hypergeometrische Verteilung<br />
f θ (k) = (θ k)( N−θ<br />
n−k)<br />
, 0 ≤ θ ≤ N<br />
( N k)<br />
E<strong>in</strong>e kurze Rechnung ergibt: ˆθ(k) = [ N·k ], wobei [·] <strong>die</strong> Gauss-Klammer ist.<br />
n<br />
Das Ergebnis ist auch <strong>in</strong>tuitiv plausibel. „Stochastischer Dreisatz“: k ∼ θ ⇒ θ ∼ N·k<br />
n N<br />
n .<br />
12.2.4 Def<strong>in</strong>ition (stochastische Konvergenz)<br />
Sei P e<strong>in</strong> Wahrsche<strong>in</strong>lichkeitsmaß und für jedes n ∈ N sei X n e<strong>in</strong>e Zufallvariable. Die Folge<br />
(X n ) n∈N konvergiert P -stochastisch gegen <strong>die</strong> Zufallsvariable X, <strong>in</strong> Formeln X n P → X,<br />
wenn für alle ε > 0 gilt: lim<br />
n→∞<br />
P (|X n − X| > ε) = 0.
108 12 SCHLIEßENDE STATISTIK<br />
Bemerkung: In den oben aufgeführten Beispielen 1), 3) und 4) kann man mit Hilfe des<br />
Gesetzes der großen Zahlen zeigen, dass für alle θ 0 gilt: ˆθ<br />
P θ0<br />
n → θ0 .<br />
Diese Konvergenzeigenschaft e<strong>in</strong>es Schätzers heißt Konsistenz!<br />
12.2.5 Satz (Konsistenz des M-L-Schätzers)<br />
Für unabhängige Beobachtungen gilt unter geeigneten Glattheitsannahmen an f θ (x), daß<br />
ˆθ n<br />
P θ0<br />
→ θ0 .<br />
Beweisskizze:<br />
Wegen dem Gesetz der großen Zahlen gilt:<br />
1<br />
l n∑<br />
n θ(x 1 , ..., x n ) = 1 log f<br />
n<br />
θ (x i ) → E θ0 log f θ (x 1 ).<br />
i=1<br />
θ ↦→ E θ0 log f θ (X 1 ) wird maximal <strong>in</strong> θ = θ 0 , da wegen der Jensen-Ungleichung<br />
E θ0 log f ∫<br />
θ(X 1 )<br />
f θ0 (X 1 ) ≤ log E f θ (X 1 )<br />
θ 0<br />
f θ0 (X 1 ) = 0 ist. Man beachte, E f θ (X 1 )<br />
θ 0<br />
f θ0 (X 1 ) = f θ (x)dx = 1.<br />
Daraus folgt E θ0 log f θ (X 1 ) ≤ E θ0 log f θ0 (X 1 ). Wegen Stetigkeit folgt<br />
1<br />
arg max l<br />
θ<br />
n θ → arg max E θ0 log f θ = θ 0 .<br />
θ<br />
12.3 Bewertung von Schätzern:<br />
Die Risikofunktion bei Bernoulli-Beobachtungen<br />
Seien X 1 , ..., X n unabhängige Bernoulli-verteilte Zufallsvariablen, <strong>die</strong> alle <strong>die</strong>selbe unbekannte<br />
Erfolgswahrsche<strong>in</strong>lichkeit θ haben. T (X 1 , ..., X n ) sei e<strong>in</strong> Schätzer von θ.<br />
Als e<strong>in</strong> Maß für <strong>die</strong> Abweichung von T def<strong>in</strong>ieren wir <strong>die</strong> Risikofunktion (auch mittlerer<br />
quadratischen Fehler genannt) durch: R(θ, T ) := E θ ((T (X 1 , ..., X n ) − θ) 2 ).<br />
Aufgabe: Suche e<strong>in</strong>en Schätzer mit möglichst kle<strong>in</strong>er Risikofunktion.<br />
12.3.1 Beispiele:<br />
1) T 1 (x) = n ∑<br />
Dann gilt:<br />
i=1<br />
x i<br />
n<br />
2) T 2 (x) = θ 0 0 < θ 0 < 1 3) T 3 (x) =<br />
nP<br />
x i + √ n/2<br />
i=1<br />
n+ √ n<br />
1) R(θ, T 1 ) = θ(1−θ)<br />
n<br />
2) R(θ, T 2 ) = (θ 0 − θ) 2 3) R(θ, T 3 ) =<br />
1<br />
4( √ n+1) 2<br />
12.3.2 Folgerung<br />
E<strong>in</strong> Schätzer T ∗ , der besser als alle Schätzer wäre, müsste e<strong>in</strong>e Risikofunktion haben mit<br />
R(θ, T ∗ ) ≡ 0, weil alle Schätzer vom Typ T 2 m<strong>in</strong>orisiert werden müßten.<br />
Tatsächlich ist T 3 der Schätzer mit der kle<strong>in</strong>sten konstanten Risikofunktion (Siehe D<strong>in</strong>ges-<br />
Rost: M<strong>in</strong>imax-Schätzer).<br />
E<strong>in</strong>e schwächere Eigenschaft ist folgende:
12.4 Konfidenz<strong>in</strong>tervalle 109<br />
12.3.3 Def<strong>in</strong>ition (zulässig)<br />
E<strong>in</strong> Schätzer T ′ heißt zulässig, falls für jeden Schätzer T mit R(θ, T ) ≤ R(θ, T ′ ) für alle<br />
θ ∈ Θ gilt: R(θ, T ) = R(θ, T ′ ) für alle θ.<br />
Bemerkung: Sowohl T 1 als auch T 3 s<strong>in</strong>d zulässig.<br />
12.3.4 Satz (Die Cramer–Rao-Ungleichung)<br />
Seien X 1 , . . . , X n unabhängig identisch verteilte Zufallsvariablen mit Ws-Dichte oder Ws-<br />
Funktion f θ (x).<br />
Sei T n (X 1 , ..., X n ) e<strong>in</strong> Schätzer von θ mit Werten <strong>in</strong> Θ ⊂ R, sei E θ T n differenzierbar <strong>in</strong> θ<br />
und gelte ∂ E ∂θ θT n = ∫ T n (x) ∂ f n ∂θ θ (x)dx mit f θ n(x) = ∏ n f θ (x n ). Sei b n (θ) := E θ T n − θ und<br />
I(θ) = E θ (( ∂ ∂ξ log f ξ(X 1 )| ξ=θ ) 2 ). Dann gilt:<br />
i=1<br />
E θ (T n − θ) 2 ≥ (1 + b′ n(θ)) 2<br />
.<br />
nI(θ)<br />
Beweis: Siehe Krengel, Paragraph 4.5: Die Informationsungleichung.<br />
Bemerkung: Die Cramer–Rao-Ungleichung gibt e<strong>in</strong>e Abschätzung nach unten für <strong>die</strong><br />
Risikofunktion R(θ, T ). I(θ) heißt Fischer-Information (nach Sir Ronald Fischer).<br />
Für <strong>die</strong> Beispiele (1)–(4) des ML-Schätzers gilt, dass <strong>die</strong> untere Schranke der Cramer–<br />
Rao-Ungleichung angenommen wird. Dabei ist stets E θ T n = θ.<br />
Was ist I(θ)?<br />
1) B<strong>in</strong>omialverteilung: I(θ) = n<br />
θ(1−θ)<br />
2) Poisson-Verteilung: I(θ) = 1 θ<br />
3) Exponentialverteilung: I(θ) = 1<br />
θ 2<br />
4) Normalverteilung (µ unbekannt): I(θ) = 1<br />
σ 2<br />
12.4 Konfidenz<strong>in</strong>tervalle<br />
Hier wird nun behandelt, wie stark <strong>die</strong> Schätzer schwanken.<br />
Wir beg<strong>in</strong>nen mit e<strong>in</strong>em Beispiel zu Aussagen mit Irrtumswahrsche<strong>in</strong>lichkeiten.
110 12 SCHLIEßENDE STATISTIK<br />
12.4.1 Beispiel: Fischteichgröße<br />
Aus e<strong>in</strong>em Fischteich werden 50 Fische gefangen, markiert und wieder ausgesetzt. Bei<br />
e<strong>in</strong>em erneuten Fang von 50 Fischen ist ke<strong>in</strong> markierter Fisch dabei. Was läßt sich über<br />
<strong>die</strong> Größe des Fischteichs N sagen?<br />
Re<strong>in</strong> logisch, daß m<strong>in</strong>destens 100 Fische im Teich s<strong>in</strong>d. Aber hätte man nur e<strong>in</strong>en markierten<br />
Fisch gefangen, so wäre der Maximum Likelihood-Schätzer (berechnet im Hypergeometrischen<br />
Modell) ˆN = 2500. Folglich ist N wohl viel größer.<br />
Sei p N = P N ( ke<strong>in</strong> markierter Fisch im Fang ),<br />
)<br />
dann ist p N =<br />
( N−50<br />
50<br />
( N<br />
50) im Hypergeometrischen Modell.<br />
Sei α > 0 vorgegeben und N(α) so gewählt, daß p N(α) ≤ α aber p N(α)+1 > α ist. Dann<br />
gilt auch max p N ≤ α. Nun kann man, falls ke<strong>in</strong> markierter Fisch im Fang ist, mit e<strong>in</strong>er<br />
N≤N(α)<br />
Irrtumswahrsche<strong>in</strong>lichkeit α folgern, daß N ≥ N(α) ist.<br />
Die folgende Tabelle liefert α <strong>in</strong> Abhängigkeit von N, e<strong>in</strong>mal exakt und e<strong>in</strong>mal als B<strong>in</strong>omialapproximation<br />
p N ≈ ( )<br />
N−50 50.<br />
N Für große N ist <strong>die</strong> Approximation erstaunlich gut.<br />
N α α B<strong>in</strong><br />
300 4, 33 · 10 −5 1, 09 · 10 −4<br />
600 0,0106 0,0128<br />
1200 0,1137 0,1191<br />
2500 0,3605 0,3642<br />
5000 0,6035 0,6050<br />
12.4.2 Def<strong>in</strong>ition (Konfidenz<strong>in</strong>tervall)<br />
Sei Ω ⊂ R n und P θ e<strong>in</strong>e Schar von Ws-Maßen, θ ∈ Θ ⊂ R. Sei R <strong>die</strong> Menge der abgeschlossenen<br />
Intervalle auf R. I : Ω → R heißt Konfidenz<strong>in</strong>tervall (K.I.) mit Sicherheitswahrsche<strong>in</strong>lichkeit<br />
1−α mit 0 < α < 1, wenn für alle θ ∈ Θ gilt: P θ ({ω|θ ∈ I(ω)}) ≥ 1−α.<br />
Bemerkungen:<br />
1) I(ω) = Θ ist Konfidenz<strong>in</strong>tervall mit Sicherheitswahrsche<strong>in</strong>lichkeit (SWS) 1.<br />
2) E<strong>in</strong> Konfidenz<strong>in</strong>tervall sollte aber möglichst kle<strong>in</strong> se<strong>in</strong>.<br />
12.4.3 Beispiele zu Konfidenz<strong>in</strong>tervallen bei Normalverteilung<br />
Seien X 1 , ..., X n unabhängig und alle nach N(µ, σ 2 )-verteilt.<br />
a) σ 2 sei bekannt, µ sei unbekannt. Sei k α so, dass Φ(k α ) = α ist. Es gilt −k α = k 1−α . Sei<br />
x = (x 1 , ..., x n ). I n (x) = [ˆµ n (x) − k √1−α<br />
n<br />
σ, ˆµ n (x) + k √1−α<br />
n<br />
σ] ist zweiseitiges Konfidenz<strong>in</strong>tervall<br />
zur Sicherheitswahrsche<strong>in</strong>lichkeit 1 − 2α. Denn:<br />
P µ,σ 2<br />
({<br />
x∣ µ ∈<br />
[<br />
ˆµ n (x) ± k ]}) ({<br />
1−α<br />
√ σ = P µ,σ 2<br />
n<br />
√ })<br />
x∣<br />
n(ˆµn (x) − µ)<br />
∣ σ ∣ ≤ k 1−α
12.4 Konfidenz<strong>in</strong>tervalle 111<br />
= 1 − 2Φ(k α )<br />
= 1 − 2α.<br />
b) σ 2 und µ seien unbekannt. Sei t β;n def<strong>in</strong>iert durch P (T n ≤ t β;n ) = β, wobei T n e<strong>in</strong>e<br />
nach t n -verteilte Zufallsvariable ist. Es gilt −t α;n = t 1−α;n . Ersetze <strong>in</strong> I n σ 2 durch<br />
n∑<br />
se<strong>in</strong>en Schätzer ˆσ n 2 = 1 (x<br />
n−1 i − x n ) 2 . Ĩn(x) = [ˆµ n (x) ± t 1−α;n−1<br />
√ n<br />
ˆσ n (x)] ist (1 − 2α)-<br />
Konfidenz<strong>in</strong>tervall, denn:<br />
i=1<br />
({<br />
[<br />
P µ,σ 2({x|µ ∈ Ĩn(x)}) = P µ,σ 2 x∣ µ ∈ ˆµ n (x) ± t ]})<br />
1−α;n−1<br />
√ ˆσ n (x) n<br />
({<br />
√ })<br />
= P µ,σ 2 x∣<br />
n(ˆµn (x) − µ)<br />
∣ ˆσ n (x) ∣ ≤ t 1−α;n−1<br />
= 1 − 2α.<br />
Wir kommen nun zurück zum Bierabfüllproblem und beantworten <strong>die</strong> anfangs gestellten<br />
Fragen 3)–5).<br />
3. E<strong>in</strong> (1 − α)-zweiseitiges Konfidenz-Intervall für µ lautet:<br />
[<br />
x n − ˆσ n<br />
√ n<br />
t 1−<br />
α<br />
2 ;n−1 , x n + ˆσ n<br />
√ n<br />
t 1−<br />
α<br />
2 ;n−1 ]<br />
.<br />
Für α = 0,10 ergibt sich t 0,95;7 = 1,895. Dies ist das obere 5 %-Quantil der t 7 Verteilung.<br />
Das Konfidenz<strong>in</strong>tervall für µ ist [0,4886; 0,5014], denn:<br />
P µ;σ 2<br />
( [<br />
µ ∈ X n ± ˆσ ])<br />
n<br />
√ t 1−α/2;n−1<br />
n<br />
(<br />
√ n(Xn − µ)<br />
= P µ;σ 2<br />
− t α/2 ;n−1 ≤<br />
= 1 − 2 α 2 = 1 − α<br />
}<br />
ˆσ {{ n }<br />
t n−1 -verteilt<br />
≤ t 1−α/2;n−1<br />
)<br />
4. Zweiseitiges 95 %-Konfidenz<strong>in</strong>tervall für σ 2 . Aus Abschnitt 11.6 wissen wir, daß<br />
ˆσ n 2 nach χ 2 n−1-verteilt ist. E<strong>in</strong> (1 − α)-Konfidenz<strong>in</strong>tervall für σ 2 ist<br />
n−1<br />
σ 2<br />
[<br />
]<br />
(n − 1)ˆσ n<br />
2 ; (n − 1)ˆσ2 n<br />
.<br />
χ 2 1−α/2;n−1<br />
χ 2 α/2;n−1<br />
Für α = 0,05 ist χ 2 0,975;7 = 16, 01 und χ 2 0,025;7 = 1,69.<br />
Das 95 %-Konfidenz<strong>in</strong>tervall für σ 2 lautet [3,97 · 10 −3 ; 37,64 · 10 −5 ].<br />
Begründung: P (σ 2 ∈ KI) = P µ,σ 2[χ 2 α/2;n−1 ≤ (n−1)<br />
σ 2 ˆσ 2 n ≤ χ 2 1−α/2;n−1 ] = 1 − α.
112 12 SCHLIEßENDE STATISTIK<br />
5. Präzisierung der Frage: Kann man mit e<strong>in</strong>er Irrtumswahrsche<strong>in</strong>lichkeit α (z.B. 1 %)<br />
sagen, dass <strong>die</strong> Brauerei zu wenig abfüllt?<br />
Sei µ 0 = 0, 5. Wir geben nun e<strong>in</strong> e<strong>in</strong>seitiges Konfidenz<strong>in</strong>tervall I n an, für das gilt:<br />
P µ (µ ∈ I n ) ≥ 1 − α für alle µ. (*)<br />
Liegt aber µ 0 nicht <strong>in</strong> I n , so schließen wir mit e<strong>in</strong>er Irrtumswahrsche<strong>in</strong>lichkeit α,<br />
daß <strong>die</strong> Brauerei zu wenig abfüllt. Das Konfidenz<strong>in</strong>tervall lautet:<br />
I n =<br />
(<br />
−∞, X n + ˆσ n<br />
√ n<br />
t 1−α;n−1<br />
)<br />
.<br />
Dies erfüllt (*), denn<br />
P µ (µ ∈ I n ) = P µ<br />
(<br />
µ ≤ X n + ˆσ n<br />
√ n<br />
t 1−α;n−1<br />
)<br />
= P µ<br />
(<br />
µ ≤ X n − ˆσ n<br />
√ n<br />
t α;n−1<br />
)<br />
= P µ<br />
( √n X n − µ<br />
ˆσ n<br />
≥ t α;n−1<br />
)<br />
= 1 − α.<br />
Setze nun α = 0, 01. Dann ist: x 8 + √ ˆσ 8<br />
8<br />
t 0,99;7 = 0, 495 + 0,01 √<br />
8 · 3 = 0, 505 weil t 0,99;7 = 3<br />
ist. Weil µ 0 < 0, 505 ist, lässt sich mit e<strong>in</strong>er Irrtumswahrsche<strong>in</strong>lichkeit von 1% nicht<br />
behaupten, <strong>die</strong> Brauerei fülle zu wenig ab.<br />
Oft läßt sich das Konfidenz<strong>in</strong>tervall nur näherungsweise angeben. Dabei hilft dann der<br />
folgende Satz über <strong>die</strong> asymptotische Verteilung des ML-Schätzers.<br />
12.4.4 Satz<br />
Sei Φ <strong>die</strong> Verteilungsfunktion von N(0,1). ˆθ n sei ML-Schätzer. Unter Glattheitsvoraussetzungen<br />
an f θ (x) gilt für β ∈ R:<br />
lim P θ( √ nI(θ)(ˆθ n − θ) ≤ β) = Φ(β)<br />
n→∞<br />
mit I(θ) der Fisher-Information. Ist I(θ) stetig, so gilt auch<br />
(√<br />
)<br />
lim P θ nI(ˆθ n )(ˆθ n − θ) ≤ β = Φ(β).<br />
n→∞<br />
Bemerkung: Setzt man Φ(−β α ) = α, so gilt P θ<br />
(ˆθn − √nI(ˆθ βα<br />
≤ θ ≤ ˆθ<br />
)<br />
n + √<br />
βα<br />
→<br />
n) nI(ˆθ n)<br />
1 − 2Φ(−β α ) = 1 − 2α. Das heißt, wir haben e<strong>in</strong> näherungsweises Konfidenz<strong>in</strong>tervall zur<br />
Sicherheitswahrsche<strong>in</strong>lichkeit (1 − 2α) vorliegen.
12.4 Konfidenz<strong>in</strong>tervalle 113<br />
12.4.5 Beispiel: Hufschlagtote <strong>in</strong> der Preußischen Armee<br />
Man hat als Datensatz <strong>die</strong> Anzahl der Hufschlagtoten <strong>in</strong> 14 Kavallerie-Corps der Preußischen<br />
Armee über 20 Jahre von 1875 bis 1894.<br />
Zusammengefaßt ergibt sich folgende Tabelle:<br />
Anzahl Tote <strong>in</strong> Corps p.a. Häufigkeit <strong>in</strong> Corps p.a.<br />
0 144<br />
1 91<br />
2 32<br />
3 11<br />
4 2<br />
≥ 5 0<br />
Abbildung 6: Hufschlagtote<br />
Die Daten werden sehr gut durch e<strong>in</strong>e Poisson-verteilte Zufallsvariable X beschrieben. Dies<br />
ergibt sich aus e<strong>in</strong>em χ 2 -Anpassungstest, den wir hier nicht weiter diskutieren wollen. Es<br />
stellt sich <strong>die</strong> Frage nach Parameterschätzung und Konfidenz<strong>in</strong>tervall von θ, dem Poisson-<br />
Parameter.<br />
14 Corps über 20 Jahre entspricht 280 Corpsjahren. Der ML-Schätzer lautet:<br />
ˆθ 280 = 196<br />
280<br />
= 0,7 Todesfälle pro Corpsjahr.<br />
E<strong>in</strong> asymptotisches 95 %-Konfidenz<strong>in</strong>tervall ergibt sich mit<br />
n = 280, ˆθ n = 0,7 und I(ˆθ n ) = 1 als 0,7<br />
ˆθ n ± √nI(ˆθ 1,96 = 0,7 ± 0,098 und damit als [0,602; 0,798].<br />
n)
114 12 SCHLIEßENDE STATISTIK<br />
Anhang A<br />
Mit Hilfe der Bayesschen Formel erfolgreich klassifizieren<br />
Angenommen es gäbe k mögliche Zustände. Man entscheide möglichst optimal, welcher<br />
der Zustände vorliegt.<br />
Gegeben seien <strong>die</strong> Wahrsche<strong>in</strong>lichkeiten π(i) des i-ten Zustandes vor der Ziehung. Dabei<br />
∑<br />
gelte π(i) ≥ 0 für i = 1, ..., k und k π(i) = 1.<br />
i=1<br />
p(x|i), x ∈ X sei <strong>die</strong> Wahrsche<strong>in</strong>lichkeit x zu beobachten, wenn der Zustand i vorliegt.<br />
Nach der Bayesschen Formel gilt:<br />
p(j|x) =<br />
∑<br />
p(x|j)π(j)<br />
p(x|i)π(i) .<br />
i<br />
E<strong>in</strong>e Abbildung d : X → {1, ..., k} heißt Klassifikationsvariable.<br />
Beispiel:<br />
d ∗ (x) = j, falls p(j|x) ≥ p(i|x)∀i.<br />
π(i) heißt a priori-Wahrsche<strong>in</strong>lichkeit,<br />
p(i|x) nennt man a posteriori-Wahrsche<strong>in</strong>lichkeit.<br />
Ist d e<strong>in</strong>e Klassifikationsvariable, so ist das Risiko e<strong>in</strong>e falsche Entscheidung zu treffen<br />
∑<br />
R(d) = k π(i)P i ({x ∈ X|d(x) ≠ i}). Dabei ist P i das Wahrsche<strong>in</strong>lichkeitsmaß auf X bei<br />
i=1<br />
Vorliegen des i-ten Zustandes.<br />
Satz<br />
Für alle Klassifikationsvariablen d gilt R(d ∗ ) ≤ R(d).<br />
Beweis:<br />
d ∗ (x) = j ⇔ p(j|x) = max p(i|x)<br />
i<br />
⇔ p(x|j)π(j) = max p(x|i)π(i)<br />
i
12.4 Konfidenz<strong>in</strong>tervalle 115<br />
wobei 1 A (x) =<br />
1 − R(d) = 1 −<br />
=<br />
=<br />
=<br />
=<br />
k∑<br />
π(i)P i ({x ∈ X|d(x) ≠ i})<br />
i=1<br />
k∑<br />
π(i) −<br />
i=1<br />
k∑<br />
π(i)P i ({x ∈ X|d(x) ≠ i})<br />
i=1<br />
k∑<br />
π(i)(1 − P i ({x ∈ X|d(x) ≠ i}))<br />
i=1<br />
k∑<br />
π(i)P i ({x ∈ X|d(x) = i})<br />
i=1<br />
k∑<br />
i=1<br />
= ∑ x∈X<br />
∑<br />
x∈X<br />
d(x)=i<br />
p(x|i)π(i)<br />
k∑<br />
1 {x ′ ∈X|d(x ′ )=i}(x)p(x|i)π(i)<br />
i=1<br />
≤ ∑ max p(x|j)π(j)<br />
j<br />
x∈X<br />
= ∑ x∈X<br />
k∑<br />
=<br />
=<br />
=<br />
i=1<br />
k∑<br />
1 {x ′ |d ∗ (x ′ )=i}(x)p(x|i)π(i)<br />
i=1<br />
∑<br />
x∈X<br />
d ∗ (x)=i<br />
p(x|i)π(i)<br />
k∑<br />
π(i)P i ({x ∈ X|d ∗ (x) = i})<br />
i=1<br />
k∑<br />
π(i)(1 − P i ({x ∈ X|d ∗ (x) ≠ i}))<br />
i=1<br />
= 1 −<br />
{<br />
1 für x ∈ A<br />
0 für x /∈ A .<br />
k∑<br />
π(i)P i ({x ∈ X|d ∗ (x) ≠ i})<br />
i=1<br />
= 1 − R(d ∗ ),
116 12 SCHLIEßENDE STATISTIK<br />
Literaturverzeichnis<br />
Literatur:<br />
D<strong>in</strong>ges-Rost : Pr<strong>in</strong>zipien der <strong>Stochastik</strong>, Teubner Stu<strong>die</strong>nbücher, 1982<br />
Dümbgen, L. : <strong>Stochastik</strong> für Informatiker, Spr<strong>in</strong>ger, 2003<br />
Engel, A. : Wahrsche<strong>in</strong>lichkeitsrechnung und Statistik I - II, Klett, 1973<br />
Feller, W. : An Introduction to Probability and its Applications, Vol I, Wiley, 1957<br />
Georgii, H.-O. : <strong>Stochastik</strong>, Walter de Gruyter, 2002<br />
Krengel, U. : E<strong>in</strong>führung <strong>in</strong> <strong>die</strong> Wahrsche<strong>in</strong>lichkeitstheorie und <strong>die</strong> Statistik, Vieweg,<br />
2002, 3. Aufl.<br />
Krickeberg-Ziezold : Stochastische Methoden, Spr<strong>in</strong>ger, 4. Aufl., 1995<br />
Pfanzagl, J. : Elementare Wahrsche<strong>in</strong>lichkeitsrechnung, Walter de Gruyter, 1991<br />
Shiryaev, A. : Probability, Spr<strong>in</strong>ger, 1984<br />
Zur Historie:<br />
Hoffmann-Jørgensen, J. : Probability with a View towards Statistics, Chapman &<br />
Hall, 1994<br />
E<strong>in</strong>führend:<br />
Pitman, J. : Probability, Spr<strong>in</strong>ger 1994