Stochastische Populationsmodelle - Abteilung fÃ¼r Mathematische ...

Stochastische Populationsmodelle 

Andrej Depperschmidt 

Vorlesungsskript 

Universität Freiburg 

Wintersemester 2011 

Version: 12. November 2012

1 Bienaymé-Galton-Watson-Prozess 

Bienaymé-Galton-Watson-Prozess ist der älteste und der einfachste Verzweigungsprozess. F. Galton 

betrachtete das Aussterben von Familiennamen und veröffentlichte zusammen mit H.W. Watson 

in 1984 die Arbeit On the probability of extinction of families. Erst 1972 fand man heraus, 

dass I.J. Bienaymé dasselbe Problem schon 1845 betrachtete. Aus diesem Grund sind mittlerweile 

beide Bezeichnungen, d.h. sowohl Galton-Watson, als auch Bienaymé-Galton-Watson-Prozess 

im Gebrauch. 

Man kann ein Bienaymé-Galton-Watson-Prozess (BGWP) wie folgt beschreiben: Wir starten 

mit einem Individuum. Es lebt genau eine Zeiteinheit und hinterlässt nach seinem Tod 

Nachkommen dessen Anzahl gemäß einer festgelegten Verteilung auf N 0 verteilt ist. Dann verhalten 

sich die Nachkommen wie unabhängige Kopien (auch unabhängig vom Vorfahr) ihres 

Vorfahren, d.h. jeder von denen lebt genau eine Zeiteinheit und hinterlässt Nachkommen gemäß 

derselben Verteilung. Deren Nachkommen verhalten sich wieder wie unabhängige Kopien 

des Vorfahren u.s.w. In diesem Kapitel definieren wir den BGWP und studieren die Aussterbebzw. 

die Überlebenswahrscheinlichkeiten und das asymptotische Verhalten in Abhängigkeit der 

Nachkommensverteilung. 

1.1 Definition und elementare Eigenschaften 

Hier definieren wir den Bienaymé-Galton-Watson-Prozess (BGWP) und diskutieren die ersten 

elementaren Eigenschaften. 

Definition 1.1 (BGWP). Es sei Z 0 eine N 0 -wertige Zufallsvariable und sei {ξ nk : n ∈ N 0 , k ∈ 

N} eine Familie von unabhängigen und identisch verteilten (u.i.v.) Zufallsvariablen mit Verteilung 

p j = P[ξ nk = j], j ∈ N 0 . Der Bienaymé-Galton-Watson-Prozess (auch Verzweigungsprozess) 

mit Start in Z 0 und Nachkommensverteilung {p j : j ∈ N 0 } ist eine Markovkette (Z n ) n≥0 

die durch 

∑Z n 

Z n+1 = ξ nk , n ≥ 0 (1.1) 

k=1 

rekursiv definiert ist. Ferner definieren wir m := E[ξ 11 ] und σ 2 := Var[ξ 11 ]. Wir nennen einen 

BGWP superkritisch falls m > 1, kritisch falls m = 1, und subkritisch falls m < 1 ist (diese 

Bezeichnungen werden später klar). 

Wir werden stets m < ∞ annehmen, σ 2 = ∞ ist dagegen bei manchen Resultaten möglich. 

In der obigen Definitionen interpretieren wir Z n als die Populationsgröße zur Zeit n und ξ nk als 

die Anzahl der Nachkommen des k-ten Individuums der n-ten Generation. Wie schon erwähnt 

ist (Z n ) n≥0 eine Markovkette. Die zugehörigen Übergangswahrscheinlichkeiten sind 

{ 

p ∗i 

j falls i ≥ 1, j ≥ 0 

p ij := P[Z n+1 = j|Z n = i] = 

(1.2) 

δ 0j falls i = 0, j ≥ 0, 

2


wobei δ ij das Kronecker-Delta ist und {p ∗i 

j : j = 0, 1, . . . } die i-fache Faltung von {p j : j = 

0, 1, . . . } bezeichnet. Der Erweiterungssatz von Kolmogorov garantiert die Existenz eines Wahrscheinlichkeitsraumes 

(Ω, F, P) auf dem man die Folge (Z n ) n≥0 definieren kann. Wir bezeichnen 

mit (F n ) n≥0 die natürliche Filtration von (Z n ) n≥0 , d.h. F n = σ(Z k : 0 ≤ k ≤ n). Falls wir 

den Anfangswert der Population betonen möchten, schreiben wir oft P i für die Verteilung von 

(Z n ) n≥0 wenn Z 0 = i ist. Den zugehörigen Erwartungswert und die Varianz bezeichnen wir dann 

entsprechend mit E i bzw. Var i . 

Bemerkung 1.2 (Triviale Spezialfälle). Falls p j = 1 für ein j ∈ N 0 ist, dann ist (bis auf möglicherweise 

zufällige Anfangsverteilung) die Markovkette (Z n ) deterministisch: jedes Individuum 

stirbt nach einer Zeiteinheit und bekommt j Nachkommen mit Wahrscheinlichkeit 1. 

Falls p 0 , p 1 ∈ (0, 1) und p 0 +p 1 = 1 ist, dann ist die Evolution der Population auch nicht interessant, 

denn dann stirbt jede der Z 0 ursprünglichen Familien nach jeweils einer geometrischen 

Anzahl von Versuchen mit Parameter p 0 aus. 

Annahme 1.1. Im Folgenden nehmen wir stets an, dass p j ≠ 1 für alle j und p 0 + p 1 < 1 gilt. 

Bemerkung 1.3 (Additivität). Wegen der Unabhängigkeit ist 

∑Z 0 

Z n = Z n (j) , 

j=1 

wobei Z n 

(j) die Nachkommen des j-ten Individuums der 0-ten in der n-ten Generation sind. 

Damit ist (Z n ) n≥0 Summe von Z 0 u.i.v. BGWP die jeweils in 1 starten. Daher nehmen wir im 

Folgenden meistens Z 0 = 1 an. Allgemeine Resultate folgen oft aus diesem Spezialfall. 

Beispiel 1.4 (binäres Verzweigen). Es sei p ∈ (0, 1) und sei p 0 = 1 − p und p 2 = p, dann gilt 

{ 

0 falls k ungerade, 

P j [Z 1 = k] = ( j 

k/2) 

p k/2 (1 − p) j−k/2 falls k gerade, 

wobei ( j 

i) 

= 0 ist wenn i > j. Mit k0 = 1/2 (so lässt sich die Formel kompakter schreiben) gilt 

n∏ 

( ) ( ) ∑ n 

2ki−1 p 

i=1 k i 

P 1 [Z 1 = 2k 1 , Z 2 = 2k 2 , . . . , Z n = 2k n ] = 

(1 − p) 2 ∑ n−1 

i=0 k i 

. 

k i 1 − p 

1.2 Erzeugende Funktionen 

i=1 

In diesem Abschnitt erinnern wir an die wahrscheinlichkeitserzeugenden Funktionen, die genauso 

wie momentenerzeugende und charakteristische Funktionen eine wichtige Rolle in der Wahrscheinlichkeitstheorie 

spielen, und sich besonders gut für die Analyse von Verzweigungsprozessen 

eignen. 

Definition 1.5 (erzeugende Funktion). Es sei X eine N 0 -wertige Zufallsvariable. Dann ist die 

(wahrscheinlichkeits)erzeugende Funktion definiert durch 

g X (t) := E[t X ] = 

∞∑ 

P[X = k]t k , t ∈ [0, 1]. (1.3) 

k=0 

3


Lemma 1.6. Es sei X eine N 0 -wertige ZV mit E[X] < ∞, dann gilt 

und 

E[X] = g ′ X(1) 

Var[X] = g ′′ X(1) + g ′ X(1) − (g ′ X(1)) 2 , 

wobei die letzte Gleichung in dem Sinne gilt, dass wenn die eine Seite endlich ist, dann ist 

auch die andere endlich und die beiden sind gleich. Insbesondere gilt g 

X ′′ (t) → ∞ für t ↑ 1 falls 

Var[X] = ∞. 

Beweis. Für t ∈ (0, 1) gilt 

g ′ X(t) = 

∞∑ 

kP[X = k]t k−1 

k=1 

t↑1 

−−→ 

∞∑ 

kP[X = k] = E[X]. 

k=1 

Der Beweis der zweiten Formel ist eine Übungsaufgabe. 

Lemma 1.7. Es seien X 1 , X 2 , . . . u.i.v. N 0 -wertige ZV mit erzeugender Funktion g X und sei 

Y auch N 0 -wertig und unabhängig mit erzeugender Funktion g Y . Mit S = ∑ Y 

k=1 X k gilt 

g S (t) = g Y ◦ g X (t), t ∈ [0, 1], 

E[S] = E[X 1 ]E[Y ], 

Var[S] = Var[X 1 ]E[Y ] + E 2 [X 1 ] Var[Y ], 

wobei die letzten zwei Gleichungen in dem Sinne gelten, dass wenn die eine Seite endlich ist, 

dann ist auch die andere endlich und die beiden sind gleich. 

Beweis. Wir zeigen nur die erste Gleichung. Die beiden anderen (bekannten) Gleichungen können 

daraus mit Hilfe von Lemma 1.6 gefolgert werden. Es gilt 

g S (t) = E[t S ] = E[t ∑ Y 

k=1 X k 

] = 

= 

∞∑ 

j=0 

∞∑ 

(E[t X 1 

]) j P[Y = j] = 

j=0 

E[t ∑ j 

k=1 X k 

]P[Y = j] = 

∞∑ 

j=0 k=1 

∞∑ 

(g X (t)) j P[Y = j] = g Y (g X (t)). 

j=0 

j∏ 

E[t X k 

]P[Y = j] 

Nun betrachten wir die erzeugenden Funktionen von Z n . Dazu setzen wir g n (t) = E 1 [t Zn ] und 

g(t) = g 1 (t) = g ξ11 (t), wobei ξ 11 wie in Definition 1.1 ist. Wenden wir Lemma 1.7 auf (1.30) an, 

so erhalten wir 

g n = g n−1 ◦ g = · · · = g ◦ g n−1 

E[Z n ] = mE[Z n−1 ] 

Var[Z n ] = σ 2 E[Z n−1 ] + m 2 Var[Z n−1 ]. 

Rekursiv erhält man daraus das folgende Theorem. 

4


Theorem 1.8. Wenn Z 0 = 1 ist, dann ist die erzeugende Funktion von Z n gegeben durch 

g ◦ · · · ◦ g (n mal) und es gilt 

E[Z n ] = m n , (1.4) 

{ σ 2 m n−1 (m n −1) 

Var[Z n ] = 

m−1 

falls m ≠ 1, 

nσ 2 (1.5) 

falls m = 1. 

Beweis. Bis auf die Formel für die Varianz sind alle Aussagen klar. Für die Varianz kann man 

sich überlegen, dass 

n−1 

∑ 

Var[Z n ] = σ 2 (m n−1 + · · · + m 2n−2 ) = σ 2 m n−1 

gilt. Mit der Formel für die (endliche) geometrische Summe erhält man die Behauptung. 

Lemma 1.9 (Eigenschaften von g). Unter der Annahme 1.1 (die ab jetzt stillschweigend vorausgesetzt 

wird) gilt 

(i) g ist strikt konvex und wachsend in [0, 1]; 

(ii) g(0) = p 0 , g(1) = 1; 

(iii) ist m ≤ 1, so gilt g(t) > t für t ∈ [0, 1); 

(iv) ist m > 1, dann hat g(t) = t genau eine Lösung in [0, 1). 

Beweis. (i) Wegen p k ≥ 0 und ∑ ∞ 

k=0 p k = 1 ist nach Annahme p k > 0 für ein k ≥ 2. Damit 

sind g ′ (t) = ∑ ∞ 

k=1 p kkt k−1 und g ′′ (t) = ∑ ∞ 

k=2 p kk(k − 1)t k−2 positiv auf (0, 1]. 

(ii) ist klar. 

(iii) Wenn g ′ (1) = m ≤ 1 ist, dann gilt (g(t) − t) ′ = g ′ (t) − 1 < g ′ (1) − 1 ≤ 0. Damit ist 

t ↦→ g(t) − t strikt fallend und wegen g(1) = 1 folgt g(t) > t für t ∈ [0, 1). 

(iv) Wegen Konvexität gibt es höchstens zwei Lösungen der Gleichung g(t) = t. Eine davon ist 

in t = 1. Aus g ′ (1) > 1 und g(0) = p 0 ≥ 0 folgt, dass es noch eine Lösung in [0, 1) gibt. 

k=0 

m k 

Es sei q die kleinste Lösung der Gleichung g(t) = t in [0, 1], dann gilt nach dem obigen 

Lemma: Ist m ≤ 1, dann ist q = 1; ist m > 1, dann ist q < 1. Nach dem folgenden Lemma ist 

q ein attraktiver Gleichgewicht des, durch g definierten, dynamischen Systems x n+1 = g(x n ), 

x 0 ∈ [0, 1]. 

Lemma 1.10. (i) Ist t ∈ [0, q), so gilt g n (t) ↑ q für n → ∞, 

(ii) Ist t ∈ (q, 1), so gilt g n (t) ↓ q für n → ∞, 

(iii) Ist t ∈ {q, 1}, so gilt g n (t) = t für alle n. 

5


Beweis. Teil (iii) ist klar, also zeigen wir (i) und (ii). Für 0 ≤ t < q gilt nach Lemma 1.9 

t < g(t) < g(q) und es folgt 

t < g 1 (t) < g 2 (t) < · · · < g n (t) < g n (q) = q 

für alle n ≥ 1. Damit gilt g n (t) ↑ L für ein L ≤ q. Da g stetig ist gilt aber L = lim n→∞ g n (t) = 

lim n→∞ g n+1 (t) = g (lim n→∞ g n (t)) = g(L). Nach Voraussetzung ist q die kleinste Lösung in 

[0, 1] und somit gilt L = q. Ist nun q < t < 1, dann zeigt man mit einem ähnlichen Argument, 

dass 1 > g n (t) ↓ L ≥ q ist und L = g(L). Nach Lemma 1.9 gibt es in (q, 1) keine weitere 

Lösungen, was L = q impliziert. 

1.3 Aussterbewahrscheinlichkeit 

Definition 1.11. Das Aussterbeereignis des Verzweigungsprozesses (Z n ) n≥0 ist definiert durch 

∞⋃ ∞⋂ 

{ } 

n→∞ 

Q := {Z k = 0} = Z n −−−→ 0 = { es gibt ein N mit Z n = 0 für alle n ≥ N} 

n=1 k=n 

und die dessen Wahrscheinlichkeit heißt die Aussterbewahrscheinlichkeit. 

Da aus Z k = 0 stets Z n = 0 für n ≥ k folgt, gilt auch (Übungsaufgabe!) 

∞⋃ 

Q = {Z n = 0}. 

Damit ist 

[ n 

] 

⋃ 

P[Q] = lim 

n→∞ P {Z k = 0} 

k=1 

n=1 

= lim 

n→∞ P[Z n = 0] = lim 

n→∞ g n(0). 

Es gilt also das folgende Theorem. 

= lim 

n→∞ P [Z k = 0 für ein 1 ≤ k ≤ n] 

Theorem 1.12. Die Aussterbewahrscheinlichkeit des Verzweigungsprozesses (Z n ) n≥0 ist die 

kleinste Lösung q von g(t) = t in [0, 1]. Dabei ist q = 1, wenn m ≤ 1 und q < 1 wenn m > 1. 

Außerdem kann man sich überlegen, dass bis auf den absorbierenden Zustand 0 alle Zustände 

eines Verzweigungsprozesses transient sind. Für k ≥ 1 gilt nämlich 

{ 

p k 0 falls p 0 > 0, 

P[Z n+i ≠ k, i ≥ 1|Z n = k] ≥ 

1 − p k 1 falls p 0 = 0. 

Hier ist p k 0 die Wahrscheinlichkeit, dass alle k Individuen in einem Schritt aussterben ohne 

Nachkommen zu produzieren und 1 − p k 1 ist die Wahrscheinlichkeit, dass mindestens einer der k 

Individuen mehr als einen Nachkommen hat. In jedem Fall ist die rechte Seite im letzten Display 

positiv, was die Transienz zeigt. Wir fassen das Resultat im nächstem Theorem zusammen. 

Theorem 1.13. Für alle k ≥ 1 gilt (u.o. steht unten für unendlich oft) 

Ferner gilt 

lim P[Z n = k] = P[Z n = k u.o. ] = 0. 

n→∞ 

P[ lim 

n→∞ Z n = 0] = 1 − P[ lim 

n→∞ Z n = ∞] = q. 

6


1.4 Kritische Verzweigungsprozesse 

Hier betrachten wir genauer den kritischen Fall m = 1. Wir wissen bereits, dass 

P[Z n → 0] = 1, 

E[Z n ] = 1, 

Var[Z n ] → ∞. 

Ist also Z n nicht 0 sollte man wegen der großen Varianz auch große Werte erwarten. 

Lemma 1.14. Es sei m = 1 und σ 2 < ∞. Dann gilt 

[ 

1 1 

lim 

n→∞ n 1 − g n (s) − 1 ] 

= σ2 

1 − s 2 

(1.6) 

gleichmäßig in s ∈ [0, 1). 

Beweis. Es sei s ∈ [0, 1). Mit Taylorentwicklung in 1 gilt 

g(s) = g(1) + g ′ (1)(s − 1) + g′′ (1) 

2 (1 − s)2 + r(s)(1 − s) 2 , 

für ein r mit lim s↑1 r(s) = 0. Mit g(1) = 1, g ′ (1) = m = 1 und σ 2 = g ′′ (1)+g ′ (1)−(g ′ (1)) 2 = g ′′ (1) 

(siehe Lemma 1.6) erhalten wir 

Es folgt 

g(s) = s + σ2 

2 (1 − s)2 + r(s)(1 − s) 2 . 

1 

1 − g(s) − 1 

σ 

1 − s = g(s) − s 

2 

(1 − g(s))(1 − s) = 2 (1 − s)2 + r(s)(1 − s) 2 

(1 − g(s))(1 − s) 

= 1 − s 

1 − g(s) 

( σ 

2 

2 + r(s) ) 

= σ2 

2 + ρ(s), 

wobei 

ρ(s) := 

1 

1 − g(s) − 1 

1 − s − σ2 

2 = 1 − s ( ) σ 

2 

1 − g(s) 2 + r(s) − σ2 

2 

→ 0 für s ↑ 1. 

Wir können diese Gleichung iterieren und erhalten 

[ 

1 1 

n 1 − g n (s) − 1 ] 

1 − s 

= 1 n−1 

∑ 

[ 

] 

1 

n 1 − g(g j (s)) − 1 

1 − g j (s) 

j=0 

= σ2 

2 + 1 n−1 

∑ 

ρ(g j (s)). 

n 

Da g n (0) ≤ g n (s) ≤ 1 und g n (0) ↑ 1 ist die Konvergenz g n (s) → 1 uniform in s ∈ [0, 1). Da ρ 

beschränkt ist folgt die Behauptung. 

j=0 

7


Theorem 1.15. Ist m = 1 und σ 2 < ∞, so gilt 

(i) 

(ii) 

(iii) 

Beweis. 

lim nP[Z n > 0] = 2 

n→∞ σ 2 , 

[ 

lim E Zn 

n→∞ n |Z n > 0 

] 

= σ2 

2 , 

[ 

Zn 

lim 

n→∞ P n ≤ u|Z n > 0 

] 

= 1 − e −2u/σ2 , u ≥ 0. 

(i) Mit s = 0 in (1.6) gilt 

[ ( 

) 1 1 

nP[Z n > 0] = n(1 − g n (0)) = 

n 1 − g n (0) − 1 + 1 ] −1 

→ 2 n σ 2 . 

(ii) Allgemein gilt für Verzweigungsprozesse E[Z n ] = E[Z n |Z n > 0]P[Z n > 0] + 0 · P[Z n = 0] 

und somit E[Z n |Z n > 0] = E[Z n ]/P[Z n > 0]. Damit und mit (i) erhalten wir 

[ ] 

Zn 

E 

n |Z 1 

n > 0 = 

nP[Z n > 0] → σ2 

2 . 

(iii) Wir haben zu zeigen, dass bedingt auf Z n > 0 die Folge Z n /n gegen eine exponentiell 

verteilte Zufallsvariable mit Parameter 2/σ 2 in Verteilung konvergiert. Dazu reicht es 

zu zeigen, dass die bedingte Laplace-Transformierte E [exp(−uZ n /n)|Z n > 0] gegen die 

Laplace-Transformierte der Exponentialverteilung mit Parameter 2/σ 2 konvergiert. Letztere 

ist gegeben durch 

u ↦→ 

∫ ∞ 

0 

e −ux 2 σ 2 e− 2 

σ 2 x dx = 

Wenn u = 0 ist, dann ist nichts zu zeigen. Für u > 0 gilt 

1 

1 + uσ 2 /2 . 

g n (exp(−u/n)) = E [ exp(−u/n) Zn] = E [exp(−uZ n /n)] 

= E [exp(−uZ n /n)|Z n > 0] P[Z n > 0] + 1 · P[Z n = 0] 

= E [exp(−uZ n /n)|Z n > 0] (1 − g n (0)) + g n (0). 

Nun können wir nach dem bedingten Erwartungswert auflösen und erhalten 

E [exp(−uZ n /n)|Z n > 0] = g n(exp(−u/n)) − g n (0) 

1 − g n (0) 

Den zweiten Term können wir wie folgt umschreiben 

= 1 − 1 − g n(exp(−u/n)) 

. 

1 − g n (0) 

[ 

1 1 

n(1 − g n (0)) n · 

= 

1 

n(1 − g n (0)) 

1 

1 − g n (exp(−u/n)) 

[ ( 1 

n 

] −1 

1 

1 − g n (exp(−u/n)) − 1 

n→∞ 

−−−→ σ2 

2 

1 − exp(−u/n) 

( σ 

2 

2 + 1 u 

) 

+ 1 n · 

] 

1 −1 

1 − exp(−u/n) 

) −1 

= σ2 u 

σ 2 u + 2 = 1 − 1 

σ 2 u/2 + 1 . 

8


Damit folgt 

E [exp(−uZ n /n)|Z n > 0] n→∞ −−−→ 

1 

σ 2 u/2 + 1 . 

1.5 Wichtiges Lemma 

Bevor wir mit den Sub- und Superkritischen Fällen weitermachen beweisen wir hier ein Lemma, 

das im Folgenden wichtig sein wird. Dazu betrachten wir die Taylorentwicklung von g um 1: 

Es gilt 

und 

g(s) = 1 − m(1 − s) + r(s)(1 − s), 0 ≤ s ≤ 1. (1.7) 

r(s) = m − 1 − g(s) 

1 − s , 

r(0) = m − (1 − p 0 ) ≥ 0, 

r(q) = m − 1, wenn q < 1, 

r(1−) = 0, 

r ′ (s) ≤ 0, 0 ≤ s < 1. 

Damit ist r eine fallende Funktion von [0, 1) nach [0, m]. 

Lemma 1.16. Für alle δ ∈ (0, 1) gilt 

∞∑ 

r(1 − δ k ) < ∞ ⇐⇒ 

k=1 

∞∑ 

p k k log k < ∞. (1.8) 

Die Bedingung auf der rechten Seite ist gleichbedeutend mit E 1 [Z 1 log Z 1 ] < ∞. 

Beweis. Für s ∈ [0, 1) gilt 

n=0 

k=1 

) 

∞∑ 

∞∑ 

r(s) = m − s 

(1 n − p k s k 

∞∑ ∞∑ 

= m − s n + 

n=0 

k=0 

n=0 

( n∑ 

k=0 

p k 

) 

s n = m − 

∞∑ 

a n s n , 

n=0 

wobei 

∞∑ 

a n = p k . 

k=n+1 

9


Man beachte auch, dass ∑ ∞ 

n=0 a n = m ist. Wir schreiben α = − log δ (sodass e −αx = δ x ) und 

fixieren ein j ∈ N, j > 1. Einerseits erhalten wir durch Abschätzung des Integrals durch die 

Untersumme 

∫ j 

j∑ 

j∑ 

r(1 − δ) + r(1 − e −αx ) dx ≥ r(1 − δ) + r(1 − δ k ) = r(1 − δ k ). 

1 

Da die letzte Summe aber die Obersumme enthält folgt andererseits auch 

j∑ 

∫ j 

r(1 − δ k ) ≥ r(1 − e −αx ) dx. 

k=1 

Nach Substitution s = 1 − e −αx folgt 

Insgesamt ist also 

r(1 − δ) + 1 α 

∫ j 

1 

r(1 − e −αx ) dx = 1 α 

∫ 1−δ j 

1−δ 

1 

k=2 

∫ 1−δ j 

1−δ 

r(s) 

1 − s ds. 

r(s) 

j∑ 

1 − s ds ≥ r(1 − δ k ) ≥ 1 α 

Da diese Ungleichung für alle j > 1 und δ > 0 gilt folgt 

∞∑ 

∫ 1 

r(1 − δ k r(s) 

) < ∞ ⇐⇒ ds < ∞. 

1 − s 

k=1 

k=1 

0 

k=1 

∫ 1−δ j 

Als nächstes schauen wir uns an, wann die rechte Seite endlich ist. Es gilt 

r(s) 

∞ 

1 − s = ∑ 

∞∑ 

∞∑ ∑ 

∞ 

s k (m − a n s n ) = s k a n (1 − s n ) 

und damit 

0 ≤ 

∫ 1 

0 

= 

k=0 

n=0 

∞∑ ∑ 

∞ 

a n (s k − s k+n ) = 

n=0 

k=0 

∫ 

r(s) 

1 

1 − s ds = 

= 

0 

∞∑ 

n=0 

∞∑ 

a n 

n−1 

n=0 k=0 

n−1 

∑ 

a n 

1 

k=0 

k=0 

∞∑ 

n=0 

∑ 

s k ds 

n=0 

∑ 

n−1 

a n s k 

k=0 

1−δ 

r(s) 

1 − s . 

∞ 

k + 1 = ∑ 

a n (log n + O(1)). 

Die rechte Seite ist genau dann endlich, wenn ∑ ∞ 

n=1 a n log n endlich ist. Es gilt 

∞∑ 

∞∑ ∑ 

a n log n = p k log n 

n=1 

= 

= 

n=1 k>n 

∞∑ 

k=2 

∑ 

log n = 

p k 

k−1 

n=1 

n=1 

∞∑ 

p k log ((k − 1)!) 

k=2 

∞∑ 

p k [(k − 1) log(k − 1) + o(k log k)] . 

k=2 

10


Wobei man die letzte Gleichung mit der Stirling-Formel (n! ∼ √ 2πn(n/e) n ) bekommt. Insgesamt 

erhalten wir, dass ∑ ∞ 

n=1 a n log n genau dann endlich ist, wenn ∑ ∞ 

k=1 p kk log k endlich ist. 

1.6 Subkritische Verzweigungsprozesse 

In diesem Abschnitt betrachten wir den subkritischen Fall m < 1. Wenn wir die Taylorentwicklung 

von g um 1 (siehe (1.7)) auf g k (s) anwenden, dann erhalten wir 

bzw. 

g k+1 (s) = g(g k (s)) = 1 − m(1 − g k (s)) + r(g k (s))(1 − g k (s)), (1.9) 

1 − g k+1 (s) 

1 − g k (s) 

Teleskopprodukt dieser Gleichungen liefert 

( 

= m 1 − r(g ) 

k(s)) 

. (1.10) 

m 

1 − g n (s) 

1 − s 

n−1 

∏ 

= m n 

k=0 

( 

1 − r(g ) 

k(s)) 

. (1.11) 

m 

Da 0 ≤ r(s)/m ≤ 1 für s ∈ [0, 1] ist, gibt es zu jedem s ∈ [0, 1] ein φ(s) ≥ 0 mit 

Insbesondere ist 

m −n 1 − g n(s) 

1 − s 

↓ φ(s), für n → ∞. (1.12) 

P[Z n > 0] = 1 − g n (0) ∼ m n φ(0), (1.13) 

wobei wir wie üblich a n ∼ b n schreiben, falls a n /b n → 1 für n → ∞. 

Ein nützliches und leicht zu beweisendes Kriterium, das Konvergenz von Reihen und Produkten 

in Verbindung bringt ist das folgende Resultat (Übung!). 

Lemma 1.17. Es sei (a n ) n≥0 eine Folge mit 0 ≤ a n ≤ 1. Dann konvergiert ∏ ∞ 

n=1 (1 − a n) genau 

dann gegen eine positive Zahl, wenn die Reihe ∑ ∞ 

n=1 a n konvergiert. 

Mit diesem Lemma gilt φ(0) > 0 genau dann, wenn ∑ ∞ 

k=0 r(g k(0)) < ∞. Aus 1 − g(s) ≤ 

m(1 − s) (was z.B. aus (1.7) folgt) erhalten wir induktiv 

1 − g k (s) ≤ m k (1 − s) 

für alle k. Aus der Konvexität von g folgt für s ≥ s 0 

woraus wir induktiv 

1 − g(s) 

1 − s 

≥ g ′ (s 0 ), 

1 − g k (s) ≥ (g ′ (s 0 )) k (1 − s) 

erhalten. Mit s 0 = p 0 (was zwangsläufig positiv im subkritischen Fall ist) und a = g ′ (p 0 ) folgt 

1 − m k ≤ g k (0) = g k−1 (g(0)) = g k−1 (p 0 ) ≤ 1 − a k−1 (1 − p 0 ) ≤ 1 − b k , 

wobei b k = a ∧ (1 − p 0 ) ist. Nach Lemma 1.16 gilt also ∑ ∞ 

k=0 r(g k(0)) < ∞ genau dann, wenn 

∑ ∞ 

k=1 p kk log k < ∞ ist. Es gilt also das folgende Theorem. 

11


Theorem 1.18. Für einen subkritischen Verzweigungsprozess (Z n ) n≥0 gilt 

{ 

0 : wenn ∑ ∞ 

lim 

n→∞ m−n k=1 

P[Z n > 0] = 

p kk log k = ∞, 

φ(0) > 0 : sonst. 

Nun beweisen wir noch das Theorem von Yaglom, das eine Aussage über das Verhalten des 

subkritischen Prozesses zur Zeit n macht bedingt auf Überleben bis zu dieser Zeit. 

Theorem 1.19. Im subkritischen Fall (mit p 0 < 1) existiert 

für alle k ∈ N, und es gilt 

lim P[Z n = k|Z n > 0] = b k , (1.14) 

n→∞ 

∞∑ 

b k = 1, (1.15) 

k=1 

∞∑ 

kb k = 1 

∞ φ(0) < ∞ ⇐⇒ ∑ 

p k k log k < ∞. (1.16) 

k=1 

Ferner gilt für die erzeugende Funktion f(s) := ∑ ∞ 

k=1 kb k der Verteilung (b k : k ∈ N): 

Beweis. Wir definieren 

k=1 

f(g(s)) = mf(s) + 1 − m. 

f n (s) = E[s Zn |Z n > 0] = g n(s) − g n (0) 

1 − g n (0) 

n−1 

∏ 1 − r(g k (s))/m 

= 1 − (1 − s) 

1 − r(g k (0))/m 

k=0 

= 1 − 1 − g n(s) 

1 − g n (0) 

da g k nicht-fallend und r nicht-wachsend sind, konvergieren die Terme in dem Produkt von oben 

gegen 1 für k → ∞. Es gibt also eine Funktion f mit f n ↑ f für n → ∞. Da f n erzeugende 

Funktionen (von positiven ZV) sind gilt 

∞∑ 

f(s) = b k s k . 

Insbesondere ist f(0) = 0. Ferner gilt für n → ∞ 

f n (g k (0)) = 1 − 1 − g n(g k (0)) 

1 − g n (0) 

k=1 

= 1 − 1 − g k(g n (0)) 

1 − g n (0) 

→ 1 − m k . 

Die rechte Seite konvergiert gegen 1 und somit (da g k (0) → 1 gilt) f(1−) = 1, was (1.15) zeigt. 

Die Aussage (1.16) folgt mit Theorem 1.18 aus 

∞∑ 

kb k = f ′ 1 − f(g k (0)) 

1 

(1−) = lim 

= lim 

k→∞ 1 − g k (0) k→∞ mk 1 − g k (0) = 1 

φ(0) . 

k=1 

Schließlich folgt die letzte Aussage aus 

f n (g(s)) = 1 − 1 − g n+1(s) 

1 − g n+1 (0) · 1 − g(g n(0)) 

= 1 − (1 − f n+1 (s)) · 1 − g(g n(0)) 

→ 1 − (1 − f(s))m. 

1 − g n (0) 

1 − g n (0) 

12


1.7 Superkritische Verzweigungsprozesse 

In diesem Abschnitt beschäftigen wir uns hauptsächlich mit dem superkritischen Fall, m > 1. 

Einige Aussagen gelten aber für jedes m ∈ (0, ∞). Wir werden hier einige Resultate aus der 

Martingaltheorie voraussetzen müssen. Wir verweisen an dieser Stelle auf z.B.(Klenke 2006). 

Es sei also m ∈ (0, ∞) und (Z n ) n≥0 ein Verzweigungsprozess aus Definition 1.1. Mit Markoveigenschaft 

(und zeitlicher Homogenität) erhalten wir 

E[Z n+k |Z n = i n , Z n−1 = i n−1 , . . . , Z 1 = i 1 , Z 0 = i 0 ] 

Für W n := m −n Z n folgt 

= E[Z n+k |Z n = i n ] = i n E[Z k |Z 1 = 1] = i n m k . 

E[W n+k |W 0 , . . . , W n ] = m −(n+k) E[Z n+k |Z n ] = m −(n+k) m k Z n = W n , f.s. (1.17) 

Es gilt also das folgende Theorem. 

Theorem 1.20. Es sei m ∈ (0, ∞), F n = σ(Z 0 , . . . , Z n ) die natürliche Filtration von (Z n ) n≥0 . 

Dann ist (W n , F n ; n = 0, 1, . . . ) ein nicht-negatives Martingal und es gibt eine Zufallsvariable 

W mit 

W n 

n→∞ 

−−−→ W f.s. (1.18) 

Beweis. Die Martingaleigenschaft wurde in (1.17) bereits gezeigt und (1.18) folgt mit bekannten 

Martingalkonvergenzsätzen. Man beachte, dass W n ein nicht-negatives Supermartingal ist und 

siehe z.B. Korollar 11.5 in (Klenke 2006). 

Nach dem obigen Theorem ist es klar, dass Z n (ω) sich asymptotisch wie m n W (ω) verhält. 

Martingalkonvergenzsätze liefern aber nicht ausreichend Informationen über W . Nach dem Lemma 

von Fatou haben wir zwar 

E[W ] = E[ lim 

n→∞ W n] ≤ lim inf 

n→∞ E[W n] = E[Z 0 ], (1.19) 

es schließt aber nicht aus, dass E[W ] = 0 und somit W = 0 f.s. gilt. Im kritischen und subkritischen 

Fall gilt für genügend große n Z n = 0 f.s. und somit gilt in diesen Fällen auch W = 0 

f.s. Wir betrachten also im Folgenden den superkritischen Fall m > 1 und interessieren uns für 

Bedingungen unter denen {W > 0} positive Wahrscheinlichkeit hat. Das erste Resultat geht von 

endlichen zweiten Momenten aus und ist relativ einfach. 

Theorem 1.21. Ist m > 1, σ 2 < ∞ und Z 0 = 1, dann gilt 

(i) lim n→∞ E [ (W n − W ) 2] = 0, d.h. W n 

(ii) E[W ] = 1, Var[W ] = 

σ 2 

m 2 − m ; 

(iii) P[W = 0] = q = P[Z n = 0 für ein n]. 

n→∞ 

−−−→ W in L 2 ; 

13


Beweis. Aus (1.5) und (1.4) erhalten wir 

E[Wn] 2 = 1 

m 2n E[Z2 n] = 1 

m 2n (Var[Z n] + E 2 [Z n ]) = 1 ( σ 2 m n−1 (m n ) 

− 1) 

m 2n + m 2n 

m − 1 

= σ2 (1 − m −n ) 

m 2 − m + 1. 

Es folgt sup n E[W 2 n] = lim n→∞ E[W 2 n] = σ 2 /(m 2 − m) + 1 < ∞. Die Aussagen (i) und (ii) folgen 

also mit L 2 -Konvergenzsatz (siehe z.B. Korollar 11.11 in (Klenke 2006)). 

Sei nun r = P[W = 0]. Aus E[W ] = 1 folgt r < 1. Ferner gilt 

r = 

∞∑ 

P[W = 0|Z 1 = k]P[Z 1 = k] = 

k=0 

∞∑ 

p k (P[W = 0]) k = 

k=0 

∞∑ 

p k r k = g(r). 

Da die Gleichung g(s) = s eine eindeutige Lösung in (0, 1) hat muss r = q gelten. 

Das folgende Theorem von Seneta und Heyde besagt, dass man einen superkritischen Verzweigungsprozess 

stets so reskalieren kann, dass der reskalierte Prozess fast sicher gegen eine 

nicht-triviale Zufallsvariable konvergiert. 

Theorem 1.22. Es sei 1 < m < ∞ und Z 0 = 1. Dann gibt es eine Folge (C n ) n∈N0 von positiven 

Zahlen so, dass 

• C n+1 /C n → m für n → ∞; 

• ˜W n := Z n /C n konvergiert fast sicher gegen eine Zufallsvariable ˜W , die fast sicher endlich 

und nicht-negativ ist. Ferner gilt P[˜W = 0] = q. 

Beweis. Sei g 0 (s) = s die Identität auf [0, 1] und sei gn 

−1 die Inverse von g n , wobei wir g −1 für 

g1 −1 schreiben. Die Funktion g −1 ist wachsend, konkav und differenzierbar. Außerdem bildet sie 

das Intervall [q, 1] bijektiv auf sich selbst ab. 

Wegen g(s) ≤ s für q ≤ s ≤ 1 gilt g −1 (s) ≥ s und daher gibt es ein g∞ 

−1 

gilt 

s = g n (gn 

−1 (s)) ≤ g n (g∞ −1 (s)) → q 

k=0 

mit g −1 

n 

↑ g −1 

∞ . Ferner 

wenn g∞ −1 (s) < 1. Also muss g∞ −1 (s) = 1 für s > q gelten. 

Für s ∈ [q, 1] setze X n (s) := ( gn 

−1 (s) ) Z n 

. Diese Folge ist ein nicht-negatives Martingal, denn 

es gilt f.s. 

[ (g ] [ 

−1 

E[X n+1 (s)|F n ] = E n+1 (s)) Z n+1 (g ] 

−1 

|F n = E n+1 (s)) Z Zn 1 

= g(g 

−1 

n+1 (s))Zn 

= (gn 

−1 (s)) Zn = X n (s). 

Es gibt also X ∞ (s) mit X n (s) → X ∞ (s) f.s. Wegen 0 ≤ X n (s) ≤ 1 können wir den Satz von 

dominierter Konvergenz benutzen und erhalten 

E[X ∞ (s)] = E[X 1 (s)] = s. 

14


Die Folge (X 2 n(s)) ist ein [0, 1]-wertiger Submartingal. Für s < 1 gilt daher (hier ist nach unserer 

Annahme 1.1 Z 1 nicht-trivial in dem Sinne, dass P[Z 1 = 0] < 1) 

E[X 2 ∞(s)] ≥ E[X 2 1(s)] > E 2 [X 1 (s)]. 

Insgesamt ist X ∞ (s) eine Zufallsvariable mit positiver Varianz. 

Wir definieren C n (s) := (− log gn 

−1 (s)) −1 und ˜W (s) := − log X ∞ (s) (der Wert unendlich ist 

zunächst mal nicht ausgeschlossen). Es gilt nun 

1 

C n (s) Z n = − log(g −1 

n (s))Z n = − log(X n (s)) → ˜W (s) f.s. 

Um zu zeigen, dass ˜W (s) f.s. endlich ist betrachten wir die Taylorentwicklung von g. Wie wir 

im Abschnitt 1.5 gesehen haben ist 

1 − g(s) = (m − r(s))(1 − s). 

Ersetzen wir s durch g −1 (s) für q < s < 1 dann gilt 

Produkt über k = 1, . . . , n liefert 

k 

1 − g −1 

k 

(s) 

1 − g −1 

k−1 (s) = 1 

m(1 − r(g −1 

k 

(s))/m). 

m n (1 − g −1 

n (s)) = 

∏ n 

k=1 

1 − s 

(1.20) 

(1 − r(g−1 

k 

(s))/m). 

Wegen − log x ∼ 1 − x für x ↑ 1 und gn 

−1 (s) ↑ 1 für n → ∞ und s > q folgt 

lim 

n→∞ 

C n (s) 

C n−1 (s) = lim 1 − g −1 

n→∞ 

Nun können wir die f.s. Endlichkeit von ˜W zeigen. Es gilt 

P[˜W (s) < ∞] = E[P[ lim 

[ [ 

= E P 

n→∞ C−1 

lim 

n→∞ 

( 

= g P[˜W (s) < ∞] 

n−1 (s) 

1 − g −1 n (s) = m. 

n (s)Z n < ∞|Z 1 ]] 

] ] 

C n−1 (s) 

Z1 

C n (s) C−1 n−1 (s)Z n−1 < ∞ 

) 

. 

Analog zeigt man, dass 

( 

) 

P[˜W (s) = 0] = g P[˜W (s) = 0] . 

Da die Wahrscheinlichkeit auf der linken Seite kleiner 1 ist, folgt P[˜W (s) = 0] = q. Schließlich 

ist 

s = E[X ∞ (s)] = E[e −˜W (s) ] ≤ P[˜W (s) < ∞] 

und somit ist P[˜W (s) < ∞] = 1 für s > q. Ansonsten hätten wir nach Lemma 1.10 q < s ≤ 

P[˜W (s) < ∞] = g n (P[˜W (s) < ∞]) → q für n → ∞, was zu einem Widerspruch führt. 

15


Das folgende Theorem von Kesten und Stigun benutzt wieder die bekannte E[Z 1 log Z 1 ] < ∞ 

Bedingung um die Reskalierungsfolge aus dem vorherigen Theorem genauer anzugeben. 

Theorem 1.23. Es sei 1 < m < ∞, Z 0 = 1 und setzte W n := m −n Z n und W := lim n→∞ W n . Ist 

E[Z 1 log Z 1 ] < ∞, dann gilt W n → W in L 1 und insbesondere E[W ] = 1. Ist E[Z 1 log Z 1 ] = ∞, 

dann ist E[W ] = 0 (was wegen W ≥ 0 f.s. zu P[W = 0] = 1 äquivalent ist). 

Beweis. Für q < s < 1 gilt gn 

−1 (s) ↑ 1 und somit Cn 

−1 (s) = − log gn 

−1 (s) ∼ 1−gn −1 (s) für n → ∞. 

Mit (1.20) folgt 

lim 

n→∞ C−1 n 

(s)m n < ∞ ⇔ 

∞∏ 

(1 − r(g −1 

k (s))/m) > 0 

k=1 

und nach Lemma 1.17 gilt 

lim 

n→∞ C−1 n 

(s)m n < ∞ ⇔ 

∞∑ 

k=1 

r(g −1 

k 

(s)) < ∞. (1.21) 

Wähle nun q < s 0 < 1 mit m 0 := g ′ (s 0 ) > 1. Für s 0 ≤ s < 1 gibt es nach dem Mittelwertsatz 

ein ŝ ∈ [s, 1] mit (1 − g(s))/(1 − s) = g ′ (ŝ) und wegen der Konvexität gilt m 0 ≤ g ′ (ŝ) ≤ m. Es 

folgt 

m 0 ≤ 1 − g(s) 

1 − s 

≤ m 

und somit 

m 0 ≤ 

Mit Teleskopprodukt erhalten wir wieder 

1 − g k(s) 

1 − g k−1 (s) ≤ m. 

m n 0 (1 − s) ≤ 1 − g n (s) ≤ m n (1 − s), 

woraus wir durch Substitution von gn 

−1 (s) für s 

1 − m −n 

0 (1 − s) ≤ g−1 n (s) ≤ 1 − m −n (1 − s) 

erhalten. Für genügend große k ∈ N gilt m −k 

0 ≤ 1 − s und somit folgt 

1 − m −n−k 

0 ≤ 1 − m −n 

0 (1 − s) ≤ g−1 n (s) ≤ 1 − m −n 1 − s) ≤ 1 − m −n . 

Auf diese Ungleichung wenden wir die Funktion r an, die auf (0, 1] wachsend ist und erhalten 

r(1 − m −n−k 

0 ) ≤ r(1 − m −n 

0 (1 − s)) ≤ r(g−1 n (s)) ≤ r(1 − m −n (1 − s)) ≤ r(1 − m −n ). 

Wir summieren über n, nutzen (1.21) und Lemma 1.16 und bekommen 

E[Z 1 log Z 1 ] < ∞ ⇔ 

lim 

n→∞ C−1 n (s)m n < ∞, 

16


d.h. wir können C n = m n als Reskalierungsfolge in Theorem 1.22 nehmen. Ist E[Z 1 log Z 1 ] = ∞ 

so folgt m −n Z n → 0 f.s. 

Es bleibt zu zeigen, dass W n gegen W in L 1 konvergiert, was wiederum aus gleichgradiger 

Integrierbarkeit von W n folgt. Dafür reicht es zu zeigen, dass E[sup n W n ] < ∞. Es gilt 

P[W > at] ≥ P[W > at, sup W n > t] 

= 

= 

= 

n 

∞∑ 

P[W > at, W n > t, W k ≤ t für 0 ≤ k < n] 

n=0 

∞∑ 

P[W > at|Z n > tm n , W k ≤ t für 0 ≤ k < n]P[W n > t, W k ≤ t für 0 ≤ k < n] 

n=0 

∞∑ 

P[W > at|Z n > tm n ]P[W n > t, W k ≤ t für 0 ≤ k < n], 

n=0 

wobei wir hier die Markoveigenschaft benutzt haben. Seien W (j) u.i.v. Kopien von W . Auf dem 

Ereignis {Z n > tm n } starten zur Zeit n mindestens (ganzzahliger Anteil von) tm n u.i.v. Familien 

von Verzweigungsprozessen. Damit gilt 

⎡ 

⎤ 

P[W > at|Z n > tm n ] ≥ P ⎣ 1 ∑ 

W (j) > a⎦ . 

tm n tm n 

Nach dem Gesetz der großen Zahlen gibt es für jedes positive a < E[W ] ein b > 0 mit 

⎡ 

⎤ 

P ⎣ 1 ∑ 

W (j) > a⎦ > b 

tm n tm n 

j=1 

für alle n (die Wahrscheinlichkeit ist nämlich für alle n positiv und konvergiert gegen 1). Es folgt 

P[W > at] ≥ b 

∞∑ 

n=0 

j=1 

P[W n > t, W k ≤ t für 0 ≤ k < n] = bP[sup W n > t]. 

n 

für t ≥ 1 (für t < 1 ist die Wahrscheinlichkeit auf der rechten Seite gleich 1). Da sup n W n 

nicht-negativ ist gilt 

E[sup W n ] = 

n 

∫ ∞ 

0 

≤ 1 + 1 b 

P[sup W n > t] dt 

n 

∫ ∞ 

0 

P[W > at] dt = 1 + 1 ab 

∫ ∞ 

0 

P[W > t] dt 

= 1 + 1 ab E[W ] < ∞. 17


1.8 Beispiel: Die gebrochen-rationale Nachkommensverteilung 

Wir betrachten hier ein Beispiel, bei dem man die erzeugende Funktion von Z n direkt berechnen 

kann (was typischerweise kaum möglich ist). 

Für b, p ∈ (0, 1) mit b+p ≤ 1 sei p k = bp k−1 für k = 1, 2, . . . und p 0 = 1− ∑ ∞ 

i=1 p i = 1−b/(1−p). 

Dann ist 

∞∑ 

∞∑ 

g(s) = p k s k = p 0 + bs (ps) k = 1 − 

b 

1 − p + bs 

(1.22) 

1 − ps 

und 

k=0 

k=0 

m = g ′ (1−) = 

b 

(1 − p) 2 . 

Man beachte, dass die Potenzreihe von g den Konvergenzradius 1/p hat. Für u, v aus dem 

Konvergenzbereich folgt mit (1.22) 

g(s) − g(u) 

g(s) − g(v) = s − u 

s − v · 1 − pv 

1 − pu . (1.23) 

Die Gleichung g(s) = s hat zwei Lösungen ̂q und 1, die auch zusammenfallen können. Wenn 

m > 1 ist, dann ist ̂q = q < 1; ist m = 1, so ist ̂q = q = 1; ist m < 1 so ist ̂q > 1 = q. Nehmen 

wir nun u = ̂q und v = 1 in (1.23), dann folgt für m ≠ 1 

1 − p 

1 − p̂q 

= 

g(s) − ̂q 

s − ̂q 

( g(s) − 1 

s − 1 

) −1 

. 

Hier hängt die linke Seite nicht von s ab und deswegen erhalten wir mit s ↑ 1 auf der rechten 

Seite 

Setzen wir das wieder in (1.23) ein, dann folgt 

und nach Iteration dieser Gleichung 

1 − p 

1 − p̂q = 1 m . 

g(s) − ̂q 

g(s) − 1 = 1 m · s − ̂q 

s − 1 

g n (s) − ̂q 

g n (s) − 1 = 1 

m n · s − ̂q 

s − 1 . 

Diese Gleichung kann man nun nach g n (s) auflösen und man erhält für m ≠ 1 

{ 

̂q : wenn m > 1, 

g n (s) = 1 − mn (1 − ̂q)(s − 1) 

m n (s − 1) − (s − ̂q) 

n→∞ 

−−−→ 

Falls m = 1, dann ist b = (1 − p) 2 und ̂q = 1. Damit ist 

1 : wenn m < 1. 

g(s) = 

p − (2p − 1)s 

, (1.24) 

1 − ps 

18


woraus man nach Iteration 

g n (s) = 

np − (np + p − 1)s 

1 − p + np − nps 

(1.25) 

erhält, was für n → ∞ gegen 1 konvergiert. 

Dadurch, dass man g n explizit kennt, kennt man einerseits natürlich die Verteilungen von Z n , 

andererseits findet man leicht die Resultate vorheriger Abschnitte in diesem Spezialfall wieder. 

Ist beispielsweise m = 1, dann gilt (siehe (i) aus Theorem 1.15) 

nP[Z n > 0] = n(1 − g n (0)) = n 

( 

np 

1 − 

1 − p + np 

) 

n→∞ 

−−−→ 1 − p = 

p 

2 

2p/(1 − p) , 

wobei 2p/(1 − p) = Var[Z 1 ] = g ′′ (1) + g ′ (1) − (g ′ (1)) 2 ist (siehe Lemma 1.6). 

Im Fall m > 1 wissen wir, dass wegen g ′′ (1) < ∞ die Zufallsvariable W , gegen die Z n /m n 

fast sicher konvergiert, nicht-trivial ist und ein Atom in 0 hat mit P[W = 0] = q(= ̂q). In 

dem gebrochen-rationalen Fall können wir noch mehr sagen. Wir betrachten dazu die Laplace- 

Transformierte von W . Für λ ≥ 0 gilt 

Nun gilt m n (e − λ 

m n 

E[e −λW ] = lim 

n→∞ E[e− λ 

m n Z n 

] = lim 

n→∞ E[(e− λ 

m n ) Zn ] = lim g n(e − λ 

n→∞ 

( 

) 

m n (1 − q)(e − λ 

m n − 1) 

= lim 

n→∞ 

1 − 

m n (e − λ 

m n 

− 1) → −λ für n → ∞ und somit 

E[e −λW ] = 1 − 

− 1) − (e − λ 

m n − q) 

. 

m n ) 

(1 − q)λ 

λ + (1 − q) . (1.26) 

Andererseits wissen wir, dass es ein W ∗ gibt W ∗ ∈ (0, ∞) f.s. und W = 0·1 {W =0} +W ∗ ·1 {W >0} . 

Damit ist 

Es folgt 

E[e −λW ] = P[W = 0] + (1 − P[W = 0])E[e −λW ∗ ] = q + (1 − q)E[e −λW ∗ ]. (1.27) 

E[e −λW ∗ ] = 1 

1 − q 

( 

1 − q − 

) 

(1 − q)λ 

= 1 − 

λ + (1 − q) 

(1 − q)λ 

λ + (1 − q) = 

1 − q 

λ + (1 − q) . (1.28) 

Dies ist (wie man leicht nachrechnet) die Laplace-Transformierte der Exp(1−q)-Verteilung. Also 

ist für eine unabhängige exponentiell mit Parameter (1 − q) verteilte Zufallsvariable W ∗ 

W = 

{ 

0 : mit Wahrscheinlichkeit q, 

W ∗ : mit Wahrscheinlichkeit 1 − q. 

1.9 “Verwandte” des Bienaymé-Galton-Watson Prozesses 

(1.29) 

Wir schließen dieses Kapitel mit einigen Verallgemeinerungen des Bienaymé-Galton-Watson Prozesses 

ab. 

19


1.9.1 BGWP mit Immigration 

Bei diesem Prozess wird wie zuvor die Generation zur Zeit n + 1 aus den Nachkommen der 

Individuen der n-ten Generation gebildet, zusätzlich kommen (unabhängig viele) Individuen 

dazu, deren Anzahl gemäß einer vorgegebenen Verteilung verteilt ist. 

Es sei die Familie {ξ nk : n ∈ N 0 , k ∈ N} wie in Definition 1.1. Zusätzlich sei {ζ n : n ∈ N 0 } eine 

Folge u.i.v. N 0 -wertiger Zufallsvariablen (auch unabhängig von den ξ’s) mit erzeugenden Funktion 

h. Ein Bienaymé-Galton-Watson-Prozess mit Immigration (BGWI) ist eine Markovkette 

Y := (Y n ) n≥0 , die durch 

Y 0 = ζ 0 und Y n+1 = 

Y n ∑ 

k=1 

ξ nk + ζ n+1 , n ≥ 0 (1.30) 

rekursiv definiert ist. Man könnte an dieser Stelle auch mit einer beliebigen ganzzahligen nichtnegativen 

Zufallsvariablen Y 0 starten. Die Notation wird dadurch aber ein wenig komplizierter. 

Je nachdem ob m = g ′ (1−) = 1, (< 1, > 1) ist, nennt man Y kritisch, (subkritisch, superkritisch). 

Im Prinzip ist nur der Fall P[ζ 0 = 0] < 1 interessant, da andernfalls Y n = 0 für alle n ist. Es 

ist klar, dass in diesem Fall der Zustand 0 nicht mehr absorbierend ist. 

Für s ∈ [0, 1] sei h n (s) = E[s Yn ], h(s) = h 0 (s) und (wie zuvor) g(s) = E[s ξ 11 

]. Dann ist mit 

F n := σ(ζ j , ξ jk : 0 ≤ j ≤ n) 

und man erhält iterativ 

E[s Y n+1 

|F n ] = (g(s)) Yn h(s) 

h n+1 = h · h n ◦ g bzw. h n = 

Es gibt also eine Funktion h ∞ mit h n ↓ h ∞ mit 

n∏ 

h ◦ g j . 

j=0 

h ∞ = h · h ∞ ◦ g. (1.31) 

Da der Prozess Y nicht mehr in 0 absorbiert wird, liegt es nahe sich zu fragen ob und unter 

welchen Bedingungen es gegen nicht-triviale Zufallsvariablen konvergiert. Man muss also h ∞ 

untersuchen. 

Für Beweise folgender Resultate verweisen wir auf (Jagers 1975, 3.1) bzw. auf (Lyons n.d.). 

Theorem 1.24. Es sei Y ein subkritischer BGWI. Dann konvergiert Y n in Verteilung gegen eine 

Zufallsvariable Y ∞ (die möglicherweise mit positiver Wahrscheinlichkeit den Wert ∞ annimmt) 

deren erzeugende Funktion die eindeutige Lösung h ∞ der Gleichung (1.31) ist. Ferner gilt 

d.h. in diesem Fall ist Y ∞ < ∞ f.s. 

h ∞ (1) = 1 ⇔ E[log + ζ 0 ] = 

∞∑ 

P[ζ 0 = k] log k < ∞, 

k=2 

20


Theorem 1.25. Ist m = 1, σ 2 = g ′′ (1−) < ∞ und 0 < a := h ′ (1) < ∞ dann konvergiert Y n /n 

in Verteilung gegen eine gamma verteilte Zufallsvariable mit Dichte 

w(x) = 

1 

Γ(α)β α xα−1 e −x/β , x > 0, (1.32) 

wobei α = 2a/σ 2 und β = σ 2 /2. Insbesondere ist im Falle a = σ 2 /2 

w(x) = 1 x 

σ 2 /2 e− σ 2 /2 

. (1.33) 

Bemerkung 1.26. In Theorem 1.15(iii) haben wir bereits gesehen, dass Z n /n bedingt auf {Z n > 

0} gegen eine Zufallsvariable mit Dichte w(x) aus (1.33) in Verteilung konvergiert. Zusammen 

mit obigem Theorem folgt also daraus, dass das Bedingen auf {Z n > 0} und Immigration mit 

Mittelwert σ 2 /2 denselben Effekt haben. 

Theorem 1.27. Es sei m > 1. Dann gilt 

(i) Ist E[log + ζ 0 ] < ∞, dann konvergiert Z n /m n in Verteilung und der Grenzwert ist f.s. 

endlich. 

(ii) Ist E[log + ζ 0 ] = ∞, dann gilt lim sup n→∞ Z n /c n = ∞ f.s. für jedes c > 0. 

1.9.2 Verzweigungsprozesse in zufälliger Umgebung 

Wie der Name schon vermuten lässt, ist die Evolution eines Verzweigungsprozesses in zufälliger 

Umgebung (engl. branching process in random environment (BPRE)) wie die des “gewöhnlichen” 

Verzweigungsprozesses mit dem Unterschied, dass sich die Nachkommensverteilung von Generation 

zu Generation ändern kann. Man denke beispielsweise an eine Population von Pflanzen mit 

einem Lebenszyklus von einem Jahr, bei der die Nachkommensverteilung von Wetterverhältnissen 

beeinflusst wird. 

Zum ersten mal wurden BPRE in (Athreya and Karlin 1970, Smith and Wilkinson 1969) 

eingeführt. Wir halten uns hier an die Darstellung in (Birkner et al. 2005). 

Es sei ∆ die Menge der Wahrscheinlichkeitsmaße auf N 0 , ausgestattet mit Totalvariationsabstand 

Polnisch ist. Ferner sei Q eine ∆-wertige Zufallsvariable und Π = (Q 1 , Q 2 , . . . ) eine Folge 

von u.i.v. Zufallsvariablen mit derselben Verteilung wie Q. 

Definition 1.28. Eine Folge Z := (Z n ) n=0,1,... von N 0 -wertigen Zufallsvariablen ist ein Verzweigungsprozess 

in zufälliger Umgebung Π falls Z 0 unabhängig von Π ist und gegeben Π die 

Folge Z eine Markovkette ist mit 

[ i∑ 

] 

P[Z n = j|Z n−1 = i, Π = (q 1 , q 2 , . . . )] = P ξ (qn) 

k 

= j 

k=1 

für alle n ≥ 1, i, j ∈ N 0 und q 1 , q 2 , . . . ∆. Dabei sind ξ (q i) 

1 , ξ (q i) 

2 , . . . u.i.v. q i verteilt. 

Im Folgenden nehmen wir immer Z 0 = 1 f.s. an. Mit Z kann man wie folgt eine Irrfarht S = 

(S 0 , S 1 , . . . ) assoziieren. Sei S 0 = 0 und definiere die Inkremente von S durch X n = S n − S n−1 , 

n ≥ 1, wobei 

∞∑ 

X n := log yQ n ({y}), 

y=0 

21


u.i.v. Kopien von 

X := log 

∞∑ 

yQ({y}) 

y=0 

sind. Wir nehmen an, dass X f.s. endlich ist. Dann gilt 

µ n := E[Z n |Π] = e Sn f.s. 

Je nach Verteilung von Q ist gibt es drei Möglichkeiten: 

1. Superkritischer Fall: Wenn lim n→∞ S n = ∞ f.s. gilt, dann ist µ n → ∞ f.s. 

2. Subrkritischer Fall: Wenn lim n→∞ S n = −∞ f.s. gilt, dann ist µ n → 0 f.s. 

3. Kritischer Fall: Wenn lim sup n→∞ S n = ∞ und lim inf n→∞ S n = −∞ f.s. gilt, dann ist 

lim sup n→∞ µ n = ∞ und lim inf n→∞ µ n = 0 f.s. 

Wir betrachten nun die Aussterbewahrscheinlichkeiten in diesen Fällen. Für m ≤ n gilt 

P[Z n > 0|Π] ≤ P[Z m > 0|Π] ≤ µ m 

und es folgt 

( ) 

P[Z n > 0|Π] ≤ min µ m = exp min S m . 

m≤n m≤n 

Im kritischen und subkritischen Fall konvergiert die rechte Seite f.s. gegen 0 und deswegen gilt 

in diesen Fällen auch nach Mitteln über Π (wie intuitiv erwartet werden konnte) 

P[Z n > 0] n→∞ −−−→ 0, 

f.s. 

Anders als bei “gewöhnlichen” Verzweigungsprozessen ist es bei BPRE auch im superkritischen 

Fall möglich, dass die Population fast sicher ausstirbt. Starke Fluktuationen der zufälligen Umgebung 

wirken nämlich wie “Katastrophen” auf die Population. Allgemein gilt das folgende Resultat, 

dass in (Smith 1968, Smith and Wilkinson 1969) bewiesen ist. 

Theorem 1.29. Es sei E[|X|] < ∞, dann ist die Überlebenswahrscheinlichkeit des BPRE Z 

positiv, d.h. 

genau dann, wenn 

lim P[Z n > 0] > 0 

n→∞ 

E[X] > 0 und E[log(1 − Q({0}))] > −∞. 

Die Bedingung E[X] > 0 impliziert, dass Z superkritisch ist, was nach oberen Überlegungen 

notwendig für Überleben mit positiver Wahrscheinlichkeit ist. Die zweite Bedingung besagt insbesondere, 

dass die Wahrscheinlichkeit für “Katastrophen” Q({0} nahe an 1 ist, vernachlässigbar 

klein ist. 

22


Beispiel 1.30. Für l ∈ (0, 1) setze q l (0) = 1−l und q l (⌈2/l⌉) = l. Dadurch ist eine einparametrige 

Verteilung auf N 0 definiert mit Mittelwert 

m l = l · ⌈2/l⌉ > 1. 

Sei nun der Parameter l Realisierung der Zufallsvariablen L mit Verteilung 

P[L ≤ x] = C(− log x) −α , x ∈ (0, 1). 

Dabei ist α ∈ (0, 1) fest und C ist eine Normierungskonstante. Wir setzen Q = q l , wenn L = l 

ist. Dann gilt 

E[X] = E[log(L · ⌈2/L⌉] > 0 

und 

E[log(1 − Q({0}))] = E[log L] = −C 

∫ 1 

= C 

1 + α lim 

A→0 (log A)1+α = −∞. 

0 

log x 1 x α(log x)α−1 ] = −C 

(log x)1+α 

1 + α 

∣ 

∣ 1 0 

23

2 Verzweigungsprozesse in stetiger Zeit 

In diesem Kapitel betrachten wir Verzweigungsprozesse bei denen die Lebensdauer eines Individuums 

exponentiell verteilt ist. Es ist natürlich möglich und oft biologisch auch sinnvoll anders 

verteilte Lebensdauer anzunehmen, im Allgemeinen verliert man die Markovsche Struktur des 

Prozesses. Dank der Gedächtnislosigkeit der Exponentialverteilung sind diese Prozesse zeitlich 

homogene Markovketten in stetiger Zeit. 

Bevor wir einen Verzweigungsprozess in stetiger Zeit (VPSZ) definieren werden wir einige 

Grundlagen zu stochastischen Prozessen in stetiger Zeit wiederholen müssen. Eine intuitive Konstruktion 

ist wie folgt: Für ein λ > 0 sei die Lebensdauer jedes Individuums exponentiell verteilt 

mit Parameter λ. Nach Ablauf dieser Lebensdauer wird das Individuum (genauso wie im Fall 

mit diskreter Zeit) durch Nachkommen ersetzt deren Anzahl gemäß einer festen Nachkommensverteilung 

verteilt ist. Die Lebensdauern der Individuen und die Anzahl der Nachkommen sind 

jeweils unabhängig voneinander und unter Individuen. 

2.1 Stochastische Prozesse in stetiger Zeit 

In diesem Abschnitt wiederholen wir kurz einige Standardbegriffe der stochastischen Prozesse 

in stetiger Zeit (siehe z.B. Kallenberg 2002), die wir benötigen werden. Wir orientieren uns hier 

an (Ethier and Kurtz 1986, Kap. 2 und 3). 

Im Folgenden seien (E, r) ein metrischer Raum, B := B(E) die zugehörige Borel-σ-Algebra 

und R + := [0, ∞). 

Definition 2.1. Ein E-wertiger stochastischer Prozess X := (X(t)) t∈R+ ist eine Familie von 

Zufallsvariablen auf einem Wahrscheinlichkeitsraum (Ω, F, P) mit Werten in (E, B). 

Eine Familie von σ-Algebren (F t : t ≥ 0) mit F t ⊂ F für t ≥ 0 und F s ∈ F t für s ≤ t heißt 

Filtration. Wir sagen, dass X adaptiert an die Filtration (F t : t ≥ 0) ist, falls X t messbar bez. F t 

für jedes t ≥ 0 ist. Die Filtration heißt rechtsstetig, wenn für jedes t ≥ 0, F t = F t+ := ⋂ ε>0 F t+ε 

gilt. 

Für ein festes ω ∈ Ω ist ein Pfad t ↦→ X(t, ω) eine Abbildung von R + nach E. Verzweigungsprozesse 

sind Sprungprozesse haben also keine stetige Pfade, haben aber typischerweise eine 

rechtsstetige Version mit linksseitigen Grenzwerten (r.c.l.l. für engl. right continuous with left 

limits), d.h. die Prozesse haben dieselben endlichdimensionalen Verteilungen. Wir bezeichnen 

den Raum der r.c.l.l. Funktionen von R + nach E mit D E (R + ). Insbesondere kann man also X 

als eine D E (R + )-wertige Zufallsvariable auffassen. Wir führen nun eine Metrik auf diesem Raum 

ein bezüglich der Funktionen mit Sprüngen von “ähnlicher” Höhe zu nahe beieinander liegenden 

Sprungzeiten kleinen Abstand haben. Man betrachte z.B. Funktionen f(x) = 1 [1,∞) (x) und 

f n (x) = 1 [1+1/n,∞) (x) für x ∈ R + . Für jedes n ist der Supremumsabstand von f n und f gleich 

1. In der Skorohod-Metrik (die wir in kürze einführen werden) konvergiert f n aber gegen f. 

24


Es sei Λ die Menge (streng) monoton wachsender Lipschitz stetiger Funktionen λ : R + → R + 

mit λ(0) = 0, λ(t) → ∞ für t → ∞ und 

γ(λ) := sup 

λ(s) − λ(t) 

∣log s − t ∣ < ∞. 

0≤t 0. 

lim 

sup 

n→∞ 0≤t≤T 

r(x n (t), x(λ n (t))) = 0 

Theorem 2.3. Es seien x, x 1 , x 2 , · · · ∈ D E (R + ), dann gilt d(x n , x) → 0 für n → ∞ genau dann 

wenn für jedes t ∈ R + und jede Folge (t n ) n=1,2,... ⊂ R mit lim n→∞ t n = t folgende Aussagen 

gelten 

(i) 

lim r(x n(t n ), x(t)) ∧ r(x n (t n ), x(t−)) = 0; 

n→∞ 

(ii) Ist lim n→∞ r(x n (t n ), x(t)) = 0, dann gilt für jede Folge (s n ) n=1,2,... mit s n ≥ t n und 

lim n→∞ s n = t 

lim r(x n(s n ), x(t)) = 0. 

n→∞ 

(iii) Ist lim n→∞ r(x n (t n ), x(t−)) = 0, dann gilt für jede Folge (s n ) n=1,2,... mit s n ≤ t n und 

lim n→∞ s n = t 

lim r(x n(s n ), x(t−)) = 0. 

n→∞ 

25


Die Charakterisierung aus dem letztem Theorem hat den Vorteil, dass man die einzelnen 

Unterpunkte intuitiv interpretieren kann: Die erste Aussage besagt, dass es höchstens zwei 

Grenzwerte von x(t n ) geben kann. Die zweite gilt wegen Rechtsstetigkeit und die dritte wegen 

linksseitiger Grenzwerte. Mit dem obigen Theorem folgt auch, dass die C E (R + ) (die Menge 

der stetigen Funktionen von R + nach E) ausgestattet mit der Skorohod Metrik abgeschlossen 

in D E (R + ) ist. 

Für Konvergenz von stochastischen Prozessen in Verteilung und insbesondere um Prohorovs 

Theorem anwenden zu können muss der Zustandsraum Polnisch sein, d.h. vollständig und separabel. 

Für die beiden Aussagen im nächsten Resultat verweisen wir auf Theorem 3.5.6 und 

Proposition 3.7.1 in (Ethier and Kurtz 1986). 

Theorem 2.4. (i) Ist (E, r) separabel, so ist (D E (R + ), d) separabel. Ist (E, r) vollständig, so 

ist (D E (R + ), d) vollständig. 

(ii) Definiere für t ≥ 0 Projektionen π t : D E (R + ) → E durch π t (x) = x(t). Ist (E, r) separabel 

und A eine dichte Teilmenge von R + , dann gilt 

B (D E (R + )) = σ(π t : t ∈ A). 

Insbesondere bestimmen die endlichdimensionalen Verteilungen eines Prozesses mit Pfaden 

in D E (R + ) seine Verteilung eindeutig. 

2.2 Generatoren von Markovprozessen 

Wir verwenden hier weiterhin die Bezeichnungen aus dem letzten Abschnitt. 

Definition 2.5. Ein E-wertiger Prozess X = (X(t)) t∈R+ 

Filtration (F t ) falls für alle Γ ∈ B(E) und alle t, s ≥ 0 

ist ein Markovprozess bezüglich der 

P[X(t + s) ∈ Γ|F t ] = P[X(t + s) ∈ Γ|X(t)] f.s. (2.1) 

gilt. Falls beide Seiten von (2.1) nicht von t abhängen, dann ist X ein (zeitlich) homogener 

Markovprozess. Ferner ist X ein starker Markovprozess falls in (2.1) t durch jede f.s. endliche 

Stoppzeit T ersetzt werden kann. 

Typischerweise, aber nicht immer nehmen wir für F t die natürliche (vom Prozess selbst erzeugte) 

Filtration Ft 

X = σ(X(s) : 0 ≤ s ≤ t). 

Bezeichnen wir mit B(E) die Menge der beschränkten messbaren Funktionen auf E, dann 

folgt aus (2.1) 

E[f(X(t + s))|F t ] = E[f(X(t + s))|X(t)] f.s. (2.2) 

für jedes f ∈ B(E). Ein homogener Markovprozess ist charakterisiert durch die Übergangsoperatoren 

P t (x, Γ) := P x [X t ∈ Γ] := P[X t ∈ Γ|X 0 = x], (2.3) 

wobei x ∈ E ist und Γ ∈ B(E). Wegen zeitlicher Homogenität kann man mit der Familie (P t ) t∈R+ 

alle endlichdimensionalen Verteilungen von X bestimmen und somit ist nach Theorem 2.4(ii) 

26


die Verteilung von X auf D E (R + ) durch die Übergangsoperatoren bestimmt, wenn E separabel 

ist. Die Übergangsoperatoren sind durch die Chapman-Kolmogorov Gleichung 

∫ 

P t+s (x, Γ) = P t (x, dy)P s (y, Γ) t, s ≥ 0 (2.4) 

E 

mit der Halbgruppentheorie verbunden und können mithilfe die zugehörigen infinitesimalen Generatoren 

beschrieben werden. 

Definition 2.6 (Halbgruppe). Eine Familie (T t ) t∈R+ von beschränkten linearen Operatoren 

auf einem Banachraum B heißt Halbgruppe falls T 0 = Id und T t+s = T t T s für alle t, s ≥ 0. 

Die Halbgruppe heißt stark stetig, wenn lim t→0 T t f = f ist für alle f ∈ B. Wir sprechen von 

einer Kontraktionshalbgruppe falls ‖T ‖ ≤ 1 ist. Ist B ein Funktionenraum, dann nennen wir die 

Halbgruppe positiv bzw. konservativ, falls für alle t ≥ 0 gilt T t f ≥ 0 für alle f ≥ 0 bzw. T t 1 = 1. 

Man beachte, dass es generell ein M ≥ 1 und w ≥ 0 gibt, sodass ‖T ‖ ≤ Me wt (Ethier and 

Kurtz 1986, Proposition 1.1.1). 

Definition 2.7 (Generator einer Halbgruppe). Der infinitesimale Generator (auch Erzeuger) 

der Halbgruppe (T t ) t∈R+ ist ein linearer Operator A auf B definiert durch 

T f − f 

Af := lim . 

t→0 t 

Der Definitionsbereich D(A) ist die Menge der Elemente von B, für die dieser Grenzwert existiert. 

Der Graph von A ist definiert durch 

G(A) := {(f, Af) : f ∈ D(A)} ⊂ B × B. 

Man sagt, dass A abgeschlossen ist, wenn G(A) abgeschlossen in B ×B ist. Ferner heißt A abschliessbar, 

wenn es eine abgeschlossene lineare Fortsetzung von A gibt. In diesem Fall bezeichnen 

wir als Abschluss, Ā, die minimale Fortsetzung von A. Ist A ein abgeschlossener Generator, 

dann heißt D ⊂ D(A) Core von A, wenn der Abschluss von A eingeschränkt auf D mit A 

übereinstimmt (wenn also D bezüglich der Graphennorm dicht in D(A) ist). 

Der Zusammenhang von A und T wird in dem folgenden Resultat verdeutlicht (siehe Ethier 

and Kurtz 1986, Proposition 1.1.5). 

Theorem 2.8. Es sei (T t ) t∈R+ eine stark stetige Halbgruppe auf L ⊂ B. Dann gelten folgende 

Aussagen: 

(i) Ist f ∈ L und t ≥ 0, dann ist ∫ t 

0 T sf ds ∈ D(A) und es gilt 

T t f − f = A 

∫ t 

0 

T s f ds. 

(ii) Ist f ∈ D(A) und t ≥ 0, dann ist T t f ∈ D(A) und es gilt 

d 

dt T tf = AT t f = T (t)Af. 

27


(iii) Ist f ∈ D(A) und t ≥ 0, dann gilt 

T t f − f = 

∫ t 

0 

AT s f ds = 

∫ t 

0 

T s Af ds. 

Man kann zeigen (siehe Ethier and Kurtz 1986, Abschnitt 1.1), dass der Generator einer stark 

stetigen Halbgruppe eindeutig bestimmt ist, wenn es auf dem Core definiert ist. Außerdem ist 

jede stark stetige Halbgruppe eindeutig charakterisiert durch ihren Generator. 

Nun betrachten wir den Zusammenhang zwischen Markovprozessen und stark stetigen Halbgruppen. 

Sei also X wie zuvor ein homogener Markovprozess auf E. Für L ⊂ B(E) definieren 

wir 

T t f(x) := E x [f(X t )] := E[f(X t )|X 0 = x] = E[f(X t+s )|X s = x]. (2.5) 

Dann ist natürlich T 0 f(x) = f(x) und T t+s f(x) = T t T s f(x) bekommt man mit der Chapman- 

Kolmogorov Gleichung. Man kann zeigen, dass jeder homogener Markovprozess auf diese Weise 

eindeutig durch die so definierte Halbgruppe charakterisiert ist. Jedoch gilt die Umkehrung im 

Allgemeinen nicht: nicht zu jeder Halbgruppe gibt es einen Markovprozess. Eine große Klasse 

von Halbgruppen, für die die Umkehrung gilt sind die Feller-Halbgruppen. 

Definition 2.9. Es sei C 0 (E) die Menge der stetigen Funktionen auf E die bei unendlich 

verschwinden. Eine positive, konservative stark stetige Halbgruppe auf C 0 (E) heißt Feller- 

Halbgruppe und der zugehörige Generator Feller-Generator. 

Für das folgende Theorem verweisen wir auf (Ethier and Kurtz 1986, Theorem 4.2.7). 

Theorem 2.10. Es sei E lokal kompakt und separabel und sei (T t ) t∈R+ eine Feller-Halbgruppe 

auf C 0 (E). Dann gibt es für jedes Wahrscheinlichkeitsmaß ν auf (E, B(E)) einen zu (T t ) t∈R+ 

(mittels (2.5)) gehörigen Markovprozess X mit Anfangsverteilung ν und Pfaden im Skorohod 

Raum D E (R + ). Ferner ist X stark Markovsch bezüglich der (natürlichen, rechtsstetigen) Filtration 

Ft+. 

X 

Wir schließen diesen Abschnitt mit Beispielen ab. 

Beispiel 2.11. 1. Es sei X = (X t ) t∈R+ ein Poissonprozess mit Rate λ. Insbesondere haben 

wir X 0 = 0, X t ∼ Pois(λt) und die Zuwächse sind unabhängig. Für f ∈ C 0 (N 0 ) (also eine 

Nullfolge) gilt 

und 

T t f(x) = E[f(X(t + s))|X(s) = x] = E 0 [f(x + X t )] = 

T t f(x) − f(x) 

t 

= e−λt 

t 

∞∑ 

k=0 

(f(x + k) − f(x)) (λt)k 

k! 

∞∑ 

k=0 

−λt (λt)k 

f(x + k)e 

k! 

∑ 

∞ 

= e −λt λ (f(x + 1) − f(x)) + e −λt (f(x + k) − f(x)) λk t k−1 

t→0 

−−→ λ (f(x + 1) − f(x)) = Af(x). 

k=2 

k! 

28


2. Es sei X eine symmetrische Irrfahrt auf Z in stetiger Zeit, d.h. wenn X s = x ist dann 

springt die Irrfahrt nach einer exponentiell verteilten Zeit mit Parameter λ zu einem der 

nächsten Nachbarn jeweils mit Wahrscheinlichkeit 1/2. Dann kann man für f : Z → R wie 

oben T t f(x) hinschreiben und zeigen, dass 

T t f(x) − f(x) 

t 

t→0 

−−→ λ 2 (f(x + 1) − f(x)) + λ (f(x − 1) − f(x)) = Af(x). 

2 

3. Für diejenigen, die Q-Matrizen gewohnt sind sei bemerkt, dass in den oberen Beispielen 

Af(x) = (Qf) x ist. In der Tat werden Q-Matrizen auch infinitesimale Generatoren 

genannt. Die Q Matrix des Poissonprozesses ist 

⎛ 

Q = 

⎜ 

⎝ 

und (Qf) x = −λf(x) + λf(x + 1) = Af(x). 

2.3 BGWP in stetiger Zeit 

⎞ 

−λ λ 0 0 · · · 

0 −λ λ 0 · · · ⎟ 

⎠ 

. 

. .. . .. 

Hier konstruieren wir den BGWP in stetiger Zeit. Bei diesem Prozess produziert ein Individuum 

unabhängig von den anderen (und von der Vorgeschichte) mit Rate α Nachkommen gemäß 

einer vorher festgelegten Verteilung. Mit anderen Worten ist die Lebensdauer eines Individuums 

exponentiell verteilt mit Rate α. Es sei Z 0 eine N 0 -wertige Zufallsvariable und sei (ξ n ) n∈N0 eine 

Folge von u.i.v. Zufallsvariablen mit Verteilung p j = P[ξ n = j], j ∈ N 0 und erzeugenden Funktion 

g. Ferner sei (T n ) n∈N0 eine Folge exponentiell verteilter Zufallsvariablen mit Parameter 1. 

Schließlich definieren wir die eingebettete Sprungkette (Y n ) n∈N0 und die zugehörigen Inkremente 

der Sprungzeiten ( ˜T n ) n∈N0 durch 

Y n = Z 0 + 

n∑ 

(ξ k − 1) und ˜T n = T n 

. (2.6) 

αY n 

k=1 

Man beachte, dass bedingt auf Y n die Sprungzeit ˜T n wie das Minimum von Y n u.i.v. Zufallsvariablen 

mit Parameter α verteilt ist. 

Der Bienaymé-Galton-Watson-Prozess Z := (Z t ) t∈R+ in stetiger Zeit mit Start in Z 0 ist 

definiert durch 

Z t := 

{ 

Z 0 : falls 0 ≤ t < ˜T 0 

Y n : falls ∑ n−1 k=0 k ≤ t < ∑ n k=0 k . 

(2.7) 

Mit der Konvention T/0 = ∞ folgt auch, dass Z t = 0 für alle t ≥ ∑ n ∗ −1 

k=1 

˜T k , wobei n ∗ = inf{n ≥ 

0 : Y n = 0}. Im Gegensatz zu Prozessen in diskreter Zeit kann es bei Prozessen in stetiger 

Zeit zu unendlich vielen Sprüngen in endlicher Zeit kommen. Man spricht dann von Explosion 

der Markovkette. In diesem Fall wäre (Z t ) t∈R+ kein Prozess mit Pfaden in D N0 (R + ), weil es 

in endlicher Zeit den Wert unendlich erreicht. Das folgende Resultat liefert ein Kriterium das 

Explosion ausschließt (siehe Harris (1963, Thm. III.1) oder Athreya and Ney (1972, Thm. V.9.1)). 

29


Theorem 2.12. Es gilt P[Z t < ∞] = 1 für alle t ∈ R + genau dann, wenn für alle ε ∈ (0, 1) 

das Integral ∫ 1 

1−ε 

ds divergiert. 

1 

g(s)−s 

Korollar 2.13. Ist m = g ′ (1) < ∞, dann gilt P[Z t < ∞] = 1 für alle t ∈ R + . 

Beweis. Es gilt 

und mit g(1) = 1 

g(s) = g(1) + g ′ (1)(s − 1) + o(s − 1), s → 1 

g(s) − s = (1 − g ′ (1))(1 − s) + o(s − 1), s → 1. 

Also ist g ′ (1) < ∞ hinreichend für die Divergenz von ∫ 1 

1−ε 

1 

g(s)−s ds. 

Die Annahme m < ∞ (die wir ab jetzt hier auch immer machen) aus dem vorherigen Kapitel 

garantiert uns also in stetiger Zeit, dass der Prozess nicht explodiert. 

Nun beschreiben wir den BGWP in stetiger Zeit mithilfe des Generators. 

Theorem 2.14. Für f ∈ C 0 (N 0 ) setzen wir 

Af(z) = αz 

∞∑ 

p k (f(z − 1 + k) − f(z)) . (2.8) 

k=0 

Unter der Annahme, dass das Integral in Theorem 2.12 divergiert, ist Z definiert durch (2.7) 

ein zeitlich homogener Feller-Prozess mit Generator A. 

Beweis. Zunächst zeigen wir, dass Z ein zeitlich homogener Feller-Prozess ist. Dazu sind für die 

Halbgruppe (T t ) t∈R+ aus (2.5) die Eigenschaften aus Definition 2.9 nachzuweisen. Dass es sich 

dabei um eine positive, konservative Kontraktionshalbgruppe (siehe Definition 2.6) auf C 0 (N 0 ) 

handelt, ist sofort klar. Wir brauchen also nur noch die starke Stetigkeit zu zeigen. 

Wir definieren die Ereignisse V i (t) := { es gibt genau i Verzweigungsereignisse in [0, t]}. Für 

eine Menge S bezeichnen durch S C das Komplement dieser Menge. Sind f ∈ C 0 (N 0 ) und t ≥ 0, 

dann gilt 

|T t f(z) − f(z)| = |E z [(f(Z t ) − f(z))1 (V 0 (t)) C ]| 

≤ 2‖f‖ ∞ · P[(V 0 (t)) C ] 

= 2‖f‖ ∞ · (1 − e −αzt ) → 0 für t → 0, 

was die punktweise Konvergenz zeigt. Für f ∈ C 0 (N 0 ) gibt es zu jedem ε ein n ε mit sup z≥nε |f(z)| < 

ε. Die obige Abschätzung zeigt 

Für z ≥ n ε gilt 

|T t f(z) − f(z)| ≤ 2‖f‖ ∞ · (1 − e −αnεt ), für z < n ε . (2.9) 

P z [Z t < n ε ] ≤ p 0 (1 − e −αnεt ). (2.10) 

30


Hier steht auf der rechten Seite die Wahrscheinlichkeit, dass mindestens einer der (am Anfang auf 

jeden Fall vorhandenen) n ε Individuen in der Zeit [0, t] stirbt und keine Nachkommen produziert. 

Es folgt 

Insgesamt haben wir 

|T t f(z) − f(z)| ≤ 2ε + 2‖f‖ ∞ p 0 (1 − e −αnεt ), für z ≥ n ε . (2.11) 

|T t f(z) − f(z)| ≤ 2ε + 2‖f‖ ∞ (1 − e −αnεt ), für alle z ∈ N 0 . (2.12) 

Mit t → 0 und dann ε → 0 auf der rechten Seite folgt lim t→0 ‖T f − f‖ ∞ = 0. 

Es bleibt zu zeigen, dass A Generator von Z ist. Dazu genügt es, es auf dem Raum der stetigen 

Funktionen mit kompaktem Träger, welchen wir mit C C (N 0 ) bezeichnen (denn C C (N 0 ) ist Core 

von A auf C 0 (N 0 )). 

Das Ereignis V 1 (t) kann man als disjunkte Vereinigung der Ereignisse 

V 1 

k 

:= { es gibt genau ein Verzweigungsereignis in [0, t] mit genau k Nachkommen } 

schreiben. Damit gilt 

1 

t (T tf(z) − f(z)) = 1 t E z[f(Z t ) − f(z)] 

= 1 t E z[(f(Z t ) − f(z)) 

= 1 t 

∞∑ 

1 V 1 

k (t) ] + R tf(z) 

k=0 

∞∑ 

(f(z − 1 + k) − f(z)) 

k=0 

∫ t 

0 

αze −αzs p k e −α(z−1+k)(t−s) ds + R t f(z) 

(hier ist im Integral αze −αzs die Dichte der “Verzweigungszeit”, p k die W’keit für k-Nachkommen 

und e −α(z−1+k)(t−s) die W’keit, dass die dann vorhandenen z − 1 + k Individuen sich nicht in 

der verbleibenden Zeit [s, t] verzweigen) 

= αz 

∞∑ 

p k (f(z − 1 + k) − f(z)) 1 t 

k=0 

∫ t 

0 

e −αzs e −α(z−1+k)(t−s) ds + R t f(z). 

Das Restglied ist gegeben durch t −1 E z [(f(Z t ) − f(z))1 (V 1 (t)) C ]. Auf V 0 (t) ist Z t = z und damit 

gilt 

|R t f(z)| ≤ 2‖f‖ ∞ 

t 

= 2‖f‖ ∞ αz 

P z [(V 0 (t) ∪ V 1 (t)) C ] 

∞∑ 

k=0 

p k 

t 

∫ t 

0 

e −αzs (1 − e −α(z−1+k)(t−s) ) ds. 

Es sei H die Stammfunktion der Funktion h t (s) := e −αzs (1 − e −α(z−1+k)(t−s) ), die sicherlich 

existiert. Dann gilt 

1 

t 

∫ t 

0 

e −αzs (1 − e −α(z−1+k)(t−s) ) ds = 

H(t) − H(0) 

t 

→ H ′ (0) = h 0 (0) = 0 

31


und es folgt |R t f(z)| → 0 für t → 0. Mit einem ähnlichen Argument zeigt man auch 

1 

t 

∫ t 

Insgesamt folgt für jedes z ∈ N 0 

0 

e −αzs e −α(z−1+k)(t−s) ds → 1 für t → 0. 

1 

t (T tf(z) − f(z)) → Af(z) für t → 0. 

Es bleibt noch Uniformität zu zeigen. Sei n 0 so, dass f(z) = 0 für z ≥ n 0 . Für z ≥ n 0 + 1 gilt 

Für z > n 0 + 1 ist also 

P z [Z t < n 0 ] ≤ αn 0 p 2 0 

∫ t 

0 

e −α(n 0+1)s (1 − e −αn 0(t−s) ) ds. 

1 

t |T tf(z) − f(z)| = 1 t |E z[f(Z t )]| ≤ 1 t ‖f‖ ∞P z [Z t < n 0 ] 

≤ 1 t ‖f‖ ∞αn 0 p 2 0 

∫ t 

0 

e −α(n 0+1)s (1 − e −αn 0(t−s) ) ds. 

Wie oben kann man zeigen, dass die rechte Seite für t → 0 gegen Null konvergiert, was die 

Uniformität zeigt. 

Das folgende Theorem zeigt, dass in ein BGWP in stetiger Zeit stets BGWP in diskreter Zeit 

eingebettet sind. Man kann also Resultate aus dem vorherigen Kapitel auch für Verzweigungsprozesse 

in stetiger Zeit nutzen. Umgekehrt kann man jedoch nicht jeden BGWP in diskreter 

Zeit in einen mit stetiger Zeit einbetten (siehe Athreya and Ney 1972, Abschn. III.12). 

Theorem 2.15. Es sei Z ein BGWP in stetiger Zeit mit Generator A definiert in (2.8) und 

zugehöriger Halbgruppe (T t ) t∈R+ . Für ein festes δ > 0 definieren wir ˜Z n := Z δn , n ∈ N 0 . Dann 

ist ˜Z := ( ˜Z n ) n∈N0 ein BGWP in diskreter Zeit. Die erzeugende Funktion der Nachkommensverteilung 

ist gegeben durch g(s) := T δ h s (1), wobei h s (z) := s z für s ∈ [0, 1] und z ∈ N 0 ist. 

Beweis. Es gilt 

g(s) = E 1 [s ˜Z 1 

] = E 1 [s Z δ 

] = T δ h s (1) 

und da die Verzweigungseigenschaft sich von Z auch überträgt, ist das Theorem bewiesen. 

32

3 Diffusionsapproximation von 

Verzweigungsprozessen 

Ähnlich wie man Brownsche Bewegung als Grenzwert reskalierter Irrfahrten erhält, erhält man 

einen Verzweigungsprozess in stetiger Zeit und auf stetigem Raum (verzweigende Diffusionsprozesse) 

als Grenzwert von reskalierten Bienaymé-Galton-Watson-Prozess. 

Es sei (E, r) ein Polnischer metrischer Raum (d.h. separabel und vollständig) und sei B(E) 

die zugehörige Borel-σ-Algebra. Ferner sei P(E) die Menge aller Wahrscheinlichkeitsmaße auf 

(E, B(E)) ausgestattet mit schwacher Topologie (P n konvergiert schwach gegen P , wenn für alle 

stetigen beschränkten f : E → R gilt ∫ E f(x)P n(dx) → ∫ E 

f(x)P (dx)). 

Unser Ziel ist es, schwache Konvergenz von geeignet reskalierten Verzweigungsprozessen gegen 

verzweigende Diffusionen auf D E (R + ) nachzuweisen. Da Diffusionsprozesse stetige Pfade haben 

werden wir außerdem zeigen müssen, dass Grenzwerte in C(R + , E) liegen (im Raum der stetigen 

Funktionen von R + nach E). 

3.1 Kriterien für schwache Konvergenz von Prozessen 

In diesem Abschnitt erinnern wir an einige Kriterien für schwache Konvergenz. Ist (P n ) eine 

Folge auf P(E), dann wird schwache Konvergenz typischerweise in zwei Schritten gezeigt. 

• Existenz von Grenzwerten: Dazu zeigt man, dass (P n ) relativ kompakt ist, d.h. jede Teilfolge 

enthält eine weitere schwach konvergente Teilfolge. Auf Polnischen Räumen ist diese 

Bedingung nach Prohorov’s Theorem äquivalent zu Straffheit. Dabei heißt (P n ) straff, falls 

zu jedem ε > 0 ein kompaktes K ⊂ E existiert mit P n (K) ≥ 1 − ε für alle n. 

• Eindeutigkeit: Hier zeigt man, dass es höchstens ein Grenzwert geben kann. 

Definition 3.1. Für x ∈ D E (R + ), δ > 0 und T > 0 ist der Stetigkeitsmodul definiert durch 

w ′ (x, δ, T ) := inf max 

{t i } i 

sup 

s,t∈[t i−1 ,t i ) 

r(x(s), x(t)), (3.1) 

mit Infimum über alle Partitionen 0 = t 0 < t 1 < · · · < T ≤ t n mit min 1≤i≤n (t i − t i−1 ) > δ für 

alle n. 

Man kann zeigen, dass der Stetigkeitsmodul fallend in δ ist. Ferner kann man sich auch überlegen, 

dass eine Funktion kleines Stetigkeitsmodul haben kann auch wenn sie große Sprünge 

macht. Dazu dürfen die Sprünge nur nicht zu nah beieinander sein (insbesondere darf es keine 

Häufungspunkte von Sprüngen geben), sodass die Sprünge auf die einzelnen Partitionsabschnitte 

verteilt werden können. 

Das folgende Resultat gibt Kriterien für relative Kompaktheit in D E (R + ) an (siehe Ethier 

and Kurtz 1986, Theorem 3.6.3). 

33

3 Diffusionsapproximation von Verzweigungsprozessen 

Theorem 3.2. Es sei (E, r) ein vollständiger metrischer Raum. Die Menge A ⊂ D E (R + ) 

ist genau dann relativ kompakt (d.h. Abschluss von A ist kompakt), wenn die folgenden zwei 

Bedingungen gelten: 

(i) Für jede rationale Zahl t ≥ 0 gibt es eine Kompakte Menge Γ t ⊂ E, so dass x(t) ∈ Γ t für 

alle x ∈ A. 

(ii) Für alle T > 0 gilt 

lim sup 

δ↓0 x∈A 

w ′ (x, δ, T ) = 0. 

Die Bedingung (i) folgt aus eine stärkeren Bedingung (die ihrerseits aus relativer Kompaktheit 

folgt): Für alle T > 0 gibt es eine kompakte Menge K T ⊂ E so, dass x(t) ∈ K T für alle x ∈ A 

und 0 ≤ t ≤ T ist. 

Für das folgende Theorem verweisen wir auf Theoreme 3.7.2 und 3.8.6 in (Ethier and Kurtz 

1986) sowie auf (Aldous 1978). 

Theorem 3.3. Es sei (E, r) Polnisch und sei (X· (n) ) n=1,2,... eine Folge stochastischer Prozesse 

mit Pfaden in D E (R + ). Ferner sei für jede rationale Zahl t ≥ 0 die Folge (X (n) 

t ) n=1,2,... straff in 

E. Dann ist (X· (n) ) n=1,2,... genau dann straff in D E (R + ), wenn eine der folgenden Bedingungen 

erfüllt ist: 

(i) Für alle ε > 0 und T > 0 gibt es ein δ > 0 mit 

sup P[w ′ (X n , δ, T ) ≥ ε] ≤ ε. (3.2) 

n 

(ii) Für jedes T > 0 gibt es ein p > 0 und eine Familie {Y n (δ) : 0 < δ < 1, n = 1, 2, . . . } von 

nicht-negativen Zufallsvariablen mit 

[( 

) 

E r(X (n) 

p ] 

t+u , X(n) t ) ∧ 1 |F 

X (n) 

t ≤ E[Y n (δ)|Ft X(n) ] (3.3) 

für alle 0 ≤ t ≤ T , 0 ≤ u ≤ δ und 

lim sup 

δ↓0 n 

E[Y n (δ)] = 0. (3.4) 

(iii) Diese äquivalente Bedingung gilt im Fall E = R. Für alle Stoppzeiten T n , die durch T 

beschränkt sind und alle ε > 0 gibt es ein δ > 0 und n 0 so dass 

[ 

] 

sup sup P |X (n) 

T − n+θ X(n) T n 

| > ε ≤ ε. (3.5) 

n≥n 0 θ∈[0,δ] 

Wie zuvor erfüllt eine in D E (R + ) relativ kompakte Folge (X (n) 

· ) die stärkere compact containment 

condition: Für alle ε > 0 und T > 0 existiert eine kompakte Menge K T,ε ⊂ E mit 

inf 

n P[X(n) t ∈ K T,ε für 0 ≤ t ≤ T ] ≥ 1 − ε. (3.6) 

Mit dem folgenden Kriterium kann man relative Kompaktheit von Folgen von E-wertigen 

Prozessen auf Straffheit von reellwertigen Funktionen von diesen Prozessen für eine genügend 

große Funktionenmenge (siehe Ethier and Kurtz 1986, Theorem 3.9.1) zurückführen. 

34


Theorem 3.4. Es sei (E, r) vollständig und separabel und sei (X· (n) ) eine Folge von Prozessen 

mit Pfaden in D E (R + ). Ferner sei die compact ( containment ) condition (3.6) erfüllt. Dann ist 

(X· (n) ) relativ kompakt auf D E (R + ) wenn f(X · (n) ) straff auf D R (R + ) für alle f ∈ H ist, 

wobei H eine dichte Teilmenge von C b (E) ist bezüglich gleichmäßiger Konvergenz auf kompakten 

Mengen. 

Das folgende Resultat zeigt wie man die Straffheit von Familien von Funktionalen mithilfe der 

Generatoren zeigen kann. 

Lemma 3.5. Es sei (X· (n) ) eine Folge von Prozessen mit Pfaden in D E (R + ) mit zugehörigen 

Halbgruppen (T (n) 

t ) und Generatoren A (n) . Ferner ( sei die ) compact containment condition (3.6) 

erfüllt. Dann ist für ein f ∈ C n (E) die Folge f(X (n) straff auf D R (R + ), wenn f, f 2 ∈ 

D(A (n) ) und 

· ) 

sup{‖A (n) f‖ ∞ + ‖A (n) f 2 ‖ ∞ } < ∞. (3.7) 

n 

Beweis. Die Straffheit von f(X (n) 

t ) für jedes t ≥ 0 folgt sofort aus der compact containment 

condition. Es genügt also (ii) aus Theorem 3.3 zu zeigen. Mit Theorem 2.8(iii) erhalten wir 

E [( f(X (n) 

t+u ) − f(X(n) t ) ) 2 ] 

|F 

n 

t 

[ 

] 

[ 

] 

= E f 2 (X (n) 

t+u ) − f 2 (X (n) 

t )|Ft 

n − 2f(X (n) 

t )E f(X (n) 

t+u ) − f(X(n) t |Ft 

n 

= 

∫ u 

0 

T (n) 

s 

A (n) f 2 (X s 

(n) ) ds − 2f(X (n) 

t ) 

≤ u ( ‖A (n) f 2 ‖ ∞ + 2‖f‖ ∞ ‖A (n) f‖ ∞ 

) 

. 

∫ u 

0 

T (n) 

s 

A (n) f(X (n) ) ds 

Nach Voraussetzung ist der Ausdruck in den Klammern gleichmäßig in n beschränkt. Mit u → 0 

folgt (ii) aus Theorem 3.3. 

Um die Eindeutigkeit der Grenzwertes einer Folge von Prozessen zu zeigen genügt es nach 

Theorem 2.4 zu zeigen, dass die endlich-dimensionalen Verteilungen eindeutig sind. Dazu benutzen 

wir die Charakterisierung des Grenzwertes durch ein Martingalproblem. Mit deren Hilfe kann 

man oft ein Prozess mit einem gegebenen Generator beschreiben ohne die zugehörige Halbgruppe 

genau zu kennen. Um Konvergenz einer reskalierten Folge von BGWP gegen eine Diffusion zu 

zeigen werden wir zunächst nachweisen, dass alle Grenzwerte Lösungen eines Martingalproblems 

sind und dann zeigen wir mit Hilfe einer anderen Methode, genannt Dualität, die Eindeutigkeit 

der Lösungen des Martingalproblems. 

Es sei X = (X t ) t≥0 ∈ D R+ (E) ein Markov-Prozess mit Generator A und zugehörigem Definitionsbereich 

D(A). Für f ∈ D(A) setzen wir 

M f t 

:= f(X t ) − 

∫ t 

und F t := F X t . Dann gilt für t, s ≥ 0 mit Theorem 2.8 

E[M f t+s |F t] = T s f(X t ) − 

= f(X t ) − 

∫ s 

0 

∫ t 

0 

0 

Af(X s ) ds (3.8) 

T u Af(X t ) du − 

Af(X u ) du = M f t . 

∫ t 

0 

s 

Af(X u ) du 

35


Also ist (M f t ) t≥0 ein Martingal für jedes f ∈ D(A) wenn X ein Markov-Prozess ist. Umgekehrt 

sagen wir, dass X Lösung des Martingalproblems für Operator A ist, wenn (M f t ) t≥0 ein Martingal 

für jedes f ∈ D(A) ist. Man beachte, dass X genau dann eine Lösung des Martingalproblems 

für Operator A ist, wenn für alle k ∈ N, 0 ≤ t 1 ≤ . . . t k < t k+1 , und h 1 , . . . , h k ∈ C b (E) 

[ ( ∫ tk+1 

k∏ 

] 

E f(X tk+1 ) − f(X tk ) − Af(X s ) ds) 

h i (X tk ) = 0. (3.9) 

t k i=1 

(Wir erinnern an die Eigenschaft der bedingten Erwartungen: E [(ξ − E[ξ|F])ζ] = 0 für jede 

beschränkte F messbare Zufallsvariable ζ). Die Gleichung (3.9) macht nochmal deutlich, dass 

man anhand von endlich dimensionalen Verteilungen entscheiden kann ob ein stochastischer 

Prozess Lösung eines Martingalproblems ist oder nicht. 

Das nächste Resultat zeigt: Konvergieren Lösungen einer Folge von Martingalproblemen schwach, 

so ist der Grenzwert auch eine Lösung des “Grenzwert”-Martingalproblems. 

Theorem 3.6. Es sei (X n ) n=0,1,... eine Folge von D R+ (E)-wertigen Lösungen von Martingalproblemen 

mit Generatoren A n auf B(E) (beschränkte messbare Funktionen auf E). Ferner sei 

A ein Operator auf B(E) und für jedes f ∈ D(A) seien f n ∈ D(A n ) so, dass 

lim ‖f n − f‖ ∞ = 0, 

n→∞ 

lim 

n→∞ ‖An f n − Af‖ ∞ = 0. (3.10) 

Ist X n schwach konvergent gegen X (in Zeichen X n ⇒ X), dann ist X eine Lösung des Martingalproblems 

zu A. 

Beweis. Sei D(X) := {t ∈ R + : P[X t = X t− ] = 1}, 0 ≤ t 1 ≤ . . . t k ≤ s < t ∈ D(X) und 

h i ∈ C b (E) für i = 1, . . . , k. Für f und f n wie in (3.10) gilt dann 

[ ( ∫ t 

) k∏ 

] 

E f(X t ) − f(X s ) − Af(X u ) du h i (X tk ) 

s 

i=1 

[ ( ∫ t 

) k∏ 

] 

= lim E f n (X n 

n→∞ 

t ) − f n (Xs n ) − A n f n (Xu n ) du h i (Xt n k 

) = 0. 

s 

i=1 

Um diese Gleichung auch auf das Komplement von D(X) fortzusetzen, zeigen wir dass es höchstens 

abzählbar ist. Die Behauptung folgt dann mit der Rechtsstetigkeit von X. 

Seien also ε, δ > 0 und T > 0. Angenommen die Menge 

{0 ≤ t ≤ T : P[r(X t , X t− ) ≥ ε] ≥ δ} 

enthält eine Folge (t n ) von unterschiedlichen Punkten, dann 

P[r(X tn , X tn−) ≥ ε unendlich oft ] ≥ δ > 0. 

Dies widerspricht aber der Tatsache, dass jedes x ∈ D E (R + ) in jedem Intervall [0, T ] nur endlich 

viele Sprünge der Höhe ≥ ε hat. Damit ist 

{0 ≤ t ≤ T : P[r(X t , X t− ) ≥ ε] > 0} 

höchstens abzählbar. Die Behauptung folgt dann mit ε → 0. 

36


Genau wie bei gewöhnlichen Differentialgleichungen (z.B. hat die DGL y ′ = √ y zwei Lösungen 

y(x) ≡ 0 und y(x) = x 2 /4 mit derselben Anfangswert y(0) = 0) sind die Lösungen von 

Martingalproblemen im Allgemeinen nicht eindeutig. Genauso wenig müssen die Lösungen Markovprozesse 

sein. Das folgende Resultat (siehe Ethier and Kurtz 1986, Thm. 4.4.2) zeigt, dass die 

letzten beiden Eigenschaften aus der Eindeutigkeit der eindimensionalen Verteilungen folgen. 

Theorem 3.7. Es sei E separabel und sei A ein Operator auf B(E). Ferner seien X und Y zwei 

Lösungen des Martingalproblems zu A mit derselben Startverteilung. Wenn die eindimensionalen 

Verteilungen von X und Y übereinstimmen, dann stimmen auch alle endlich-dimensionalen 

Verteilungen überein. Ferner sind X und Y (zeitlich) homogene Markovprozesse. 

Eindeutigkeit der Lösungen von Martingalproblemen kann oft mit Hilfe der Dualität der Lösung 

zu einem anderen Prozess (welcher auch deterministisch sein kann). Das folgende Theorem 

ist ein Spezialfall von Theorem 4.4.11 in (Ethier and Kurtz 1986). 

Theorem 3.8. Es seien E 1 und E 2 zwei metrische Räume und seien f, g ∈ B(E 1 × E 2 ) mit 

f(x, ·) ∈ C(E 2 ) für alle x ∈ E 1 und g(·, y) ∈ C(E 1 ) für alle y ∈ E 2 . Ferner seien für zwei 

stochastische Prozesse X und Y auf E 1 bzw. E 2 

f(X t , y) − 

∫ t 

0 

g(X s , y) ds und f(x, Y t ) − 

Martingale für alle x ∈ E 1 und y ∈ E 2 . Dann gilt für t ≥ 0 

∫ t 

0 

g(x, Y s ) ds (3.11) 

E X0 [f(X t , Y 0 )] = E Y0 [f(X 0 , Y t )]. (3.12) 

Beweis. Da f und g beschränkt sind können wir in (3.11) Erwartungswerte nehmen und die 

Integrationsreihenfolge vertauschen. Nach Ableiten erhalten wir dann für s ≥ 0 

d 

ds E X 0 

[f(X s , y)] = E X0 [g(X s , y)] 

Es folgt für s ∈ [0, t] 

und 

d 

ds E Y 0 

[f(x, Y s )] = E Y0 [g(x, Y s )]. (3.13) 

d 

ds E X 0 ×Y 0 

[f(X s , Y t−s )] = E X0 ×Y 0 

[g(X s , Y t−s )] − E X0 ×Y 0 

[g(X s , Y t−s )] = 0. (3.14) 

Schließlich liefert Integration über [0, t] 

0 = 

∫ t 

was gerade die Behauptung ist. 

0 

d 

ds E X 0 ×Y 0 

[f(X s , Y t−s )] ds = E X0 ×Y 0 

[f(X t , Y 0 )] − E X0 ×Y 0 

[f(X 0 , Y t )], 

3.2 Diffusionslimes reskalierter BGWP 

Es sei Z (N) eine Folge von BGWP in stetiger Zeit (definiert in Abschnitt 2.3) mit Rate α (für 

die Lebensdauer) und Nachkommensverteilung gegeben durch die Verteilung von ξ (N) . In diesem 

Abschnitt betrachten wir das Verhalten der Folge X (N) := (X (N) 

t ) t≥0 

X (N) 

t 

:= 1 N Z(N) Nt 

(3.15) 

für N → ∞. Wir nehmen an, dass Z (N) 

0 in Verteilung gegen eine Zufallsvariable X 0 konvergiert 

(ansonsten können wir natürlich auch keine Konvergenz auf der Prozessebene erwarten). 

37


Theorem 3.9. Es sei A ein Operator definiert durch 

Af(x) := 1 2 ασ2 xf ′′ (x) + αµxf ′ (x) (3.16) 

für f ∈ CC ∞(R +). Ferner seien E[ξ (N) ] = m (N) = 1 + µ N + o( 1 N ) und Var[ξ(N) ] = σ 2 + o(1) < ∞. 

Konvergiert X (N) 

0 gegen X 0 (deterministisch), dann konvergiert X (N) definiert in (3.15) in Verteilung 

gegen einen stochastischen Prozess X welcher die eindeutige Lösung des Martingalproblems 

zu A auf D R+ (R + ) ist. 

Die Annahme, dass X (N) 

0 deterministisch ist vereinfacht etwas den Beweis ist aber nicht notwendig. 

Beweis. Der Generator A (N) von X (N) ist gegeben durch 

A (N) f(x) = N 2 αx 

∞∑ 

k=0 

( ( 

p (N) 

k 

f x + k − 1 ) ) 

− f(x) , 

N 

wobei hier ein N durch die Zeitskalierung (bzw. Beschleunigung der Rate von α auf Nα) und 

das andere wegen z = Nx auftaucht. Es genügt f ∈ CC 

∞ zu betrachten. Wir wählen so ein f mit 

Träger in [0, K] für ein K > 0. Mit Taylorformel erhalten wir 

( 

∞∑ 

A (N) f(x) = αN 2 x p (N) k − 1 

k 

N f ′ (x) + 1 ( ) k − 1 2 

f ′′ (x) + 1 ∫ ) 

x+ 

k−1 

N 

(x − y) 2 f ′′′ (y) dy 

2 N 

2 

k=0 

und mit 1 = m (N) − µ N + o( 1 N ) 

= αf ′ (x)x 

( 

N 

+ 1 2 αxf ′′ (x) 

+ 1 2 αx 1 N 

∞∑ 

k=0 

∞∑ 

k=0 

( ∞ 

∑ 

k=0 

p (N) 

p (N) 

k 

(k − m (N) ) + µ + o(1) 

p (N) 

k 

(k − m (N) ) 2 + o(1) 

k 

(k − 1) 3 ∫ 1 

0 

) 

) 

y 2 f ′′′ ( 

x + k − 1 

N y ) 

dy. 

Die Summe in der ersten Zeile ist gleich Null und in der zweiten Zeile ist die Summe gleich 

σ 2 + o(1). In den ersten beiden Zeilen haben wir also Af(x) + o(1) stehen. Damit gilt (in der 

x 

38


zweiten Ungleichung nutzen wir unter anderem f(x) = 0 für x > K) 

|A (N) f(x) − Af(x)| 

= 1 2 αx 1 ∞∑ 

N ∣ 

≤ 1 2 αx 1 N 

k=0 

( ∞ 

∑ 

k=2 

p (N) 

k 

(k − 1) 3 ∫ 1 

∫ N(K−x) 1∧ + 

k 

(k − 1) 3 k−1 

p (N) 

0 

0 

y 2 f ′′′ ( 

x + k − 1 

N y ) 

dy 

∣ + o(1) 

∣ ( ∣∣∣ 

y 2 f ′′′ x + k − 1 )∣ ∣∣∣ 

N 

y dy 

+ p (N) 

0 ‖f ′′′ ‖ ∞ 1 {x≤K} 

) 

+ o(1) 

≤ 1 2 αx 1 ∞∑ 

( 

p (N) 

N 

k 

(k − 1) 3 ‖f ′′′ ‖ ∞ 1 ∧ N(K − x) ) 

+ 

+ αK 1 k − 1 

N p(N) 0 ‖f ′′′ ‖ ∞ + o(1) 

k=2 

≤ 1 2 αK‖f ∑ 

∞ ( ) 

′′′ ‖ ∞ p (N) k − 1 

k 

(k − 1) 2 N ∧ K + o(1). 

k=2 

Die Summe in der ersten Zeile konvergiert nach dem Satz von dominierter Konvergenz gegen 

Null und somit gilt ‖A (N) f − Af‖ ∞ → 0 für N → ∞. Für Straffheit in D R+ (R + ) bleibt 

nach Theorem 3.5 und Lemma 3.5 noch die compact containment condition zu zeigen. Dafür 

überzeugen wir uns zunächst davon, dass e −α(m(N) −1)t Z (N) 

t ein Martingal ist. Es gilt 

∞∑ 

A (N) id(x) = αx p (N) 

k 

(x − 1 + k − x) = αx(m (N) − 1) 

und somit 

k=0 

E z [Z (N) 

t ] = z + E 

= z + E 

Die Lösung dieser Gleichung (nach E z [Z (N) 

t 

∫ t 

0 

∫ t 

= z + α(m (N) − 1) 

die Martingaleigenschaft von e −α(m(N) −1)t Z (N) 

t 

für T, c > 0 

P X 

(N) 

0 

[ 

sup X (N) 

t > c 

0≤t≤T 

⎡ 

≤ P Z 

(N) 

0 

≤ 1 c 

= 1 c 

⎣ 

sup 

0≤t≤NT 

sup 

] 

0≤t≤NT 

= P Z 

(N) 

0 

[ 

0 

A (N) id(Z s 

(N) ) ds 

αZ s 

(N) (m (N) − 1) ds 

∫ t 

0 

E[Z s 

(N) ] ds. 

])) ist E z [Z (N) 

t ]) = ze α(m(N) −1)t . Daraus erhält man 

. Mit der Doob’schen Ungleichung erhalten wir 

sup 

0≤t≤NT 

] 

1 

N Z(N) t > c 

( ) 

1 

N Z(N) t e −α(m(N) −1)t 

> c 

e −α(m(N) −1)t 1 N E Z (N) [Z (N) 

Nt −1)NT e−α(m(N) ] 

0 

sup e −α(m(N) −1)t X (N) 

0 . 

0≤t≤NT 

( 

sup e −α(m(N) −1)t 

0≤t≤NT 

) −1 

⎤ 

⎦ 

39


Das Supremum in der letzten Zeile ist beschränkt in N. Wenn µ = m (N) − 1 + o(1/N) < 0 ist 

dann ist es beschränkt durch 1. Anderenfalls ist es gleich e α(µ+o(1))T was gegen e αµT konvergiert 

und somit beschränkt ist. Insgesamt kann man also zu jedem ε > 0 und jedem T > 0 ein c so 

wählen, dass P X 

(N) 

0 

[ 

sup 0≤t≤T X (N) 

t > c 

] 

< ε gilt, was die compact containment condition zeigt. 

Nach Theorem 3.6 ist jeder Grenzwert X gegen den eine Teilfolge von X (N) in Verteilung 

konvergiert eine Lösung von dem Martingalproblem zu A. Für die Konvergenz X (N) ⇒ X bleibt 

also noch die Eindeutigkeit des Grenzwertes zu zeigen. Dies zeigen wir mit Hilfe von Dualität. 

Sei dazu u(t) die eindeutige Lösung von 

d 

dt u(t) = −1 2 ασ2 u 2 (t) + αµu(t), u(0) = u 0 , 

auf R + (u(t) ist natürlich deterministisch). Dann ist 

e −xu(t) − 

∫ t 

0 

x( 1 2 ασ2 u 2 (s) − αµu(s))e −xu(s) ds = e −xu(t) − 

∫ t 

0 

d 

ds e−xu(s) ds = e −xu 0 

ein Martingal für x ∈ R + . Da X eine Lösung des Martingalproblems zu A ist, ist auch 

e −Xtu − 

∫ t 

0 

X s ( 1 2 ασ2 u 2 − αµu)e −Xsu ds 

= f u (X t ) − 

∫ t 

0 

Af u (X s ) ds 

ein Martingal für jedes u ∈ R + , hier ist f u (x) := e −ux . Nach Theorem 3.8 gilt E X0 [e −uXt ] = 

e −utX 0 

dadurch sind die eindimensionalen Verteilungen von X eindeutig festgelegt und mit 

Theorem 3.7 folgt die Eindeutigkeit der endlich dimensionalen Verteilungen. 

Wir haben in dem obigen Theorem Konvergenz in D R+ (R + ) gezeigt. Tatsächlich kann man 

sogar zeigen, dass der Grenzwert X eine Diffusion ist, ein Prozess also, dessen Pfade fast sicher 

in C(R + , R + ) liegen. Ferner kann man X als Lösung der stochastischen Differentialgleichung 

dX t = √ ασ 2 X t dB t + αµX t dt 

auffassen. Dieser Prozess wird oft als Feller-Diffusion bezeichnet (siehe Feller 1951). Es ist ein 

Beispiel für einen Verzweigungsprozess mit stetigem Zustandsraum R + . Ist X ein allgemeiner 

subkritischer oder kritischer Verzweigungsprozess auf R + mit Übergangsoperator p(t, x, ·), so 

gilt (siehe Le Gall 1999) 

E x [e −λXt ] = 

∫ ∞ 

0 

e −λy p(t, x, dy) = e −xut(λ) , λ > 0. 

Hier ist u t (λ) die eindeutige nicht-negative Lösung der Integralgleichung 

wobei 

u t (λ) + 

∫ t 

ψ(u) = αu + βu 2 + 

0 

ψ(u s (λ)) ds = λ 

∫ ∞ 

0 

(e −ru − 1 + ru) π(dr) 

40


mit α, β ≥ 0 und einem σ-endlichen Maß π mit ∫ ∞ 

0 (r ∧r2 )π(dr) < ∞. Die Funktion ψ heißt Verzweigungsmechanismus. 

Außerdem kann man zu jedem (subkritischen oder kritischen) Verzweigungsprozess 

X abhängig von den Parametern α, β und π ein Folge von Verzweigungsprozessen 

mit diskretem Zustandsraum konstruieren, die X approximieren. 

Die Verzweigungsprozesse die wir betrachtet haben, haben alle keine räumliche Struktur. Man 

kann eine solche einführen indem man zum Beispiel jedes Individuum während seiner Lebenszeit 

gemäß einer Irrfahrt auf Z d oder gemäß einer Brownschen Bewegung auf R d sich bewegen lässt. 

Stirbt das Individuum, dann wird es eine zufällige (nach der festen Nachkommensverteilung 

verteilte) Anzahl von Nachkommen ersetzt. Diese verhalten sich dann wie unabhängige Kopien 

ihrer “Mutter”. Solche Prozesse bezeichnet man als verzweigende Irrfahrt bzw. verzweigende 

Brownsche Bewegung und man kann sie als maßwertige Prozesse auffassen. Reskalierungen von 

diesen Prozessen führen zu so genannten Superprozessen (siehe Etheridge 2000). 

41

4 Populationsmodelle mit fester 

Populationsgröße 

In diesem Kapitel betrachten wir populationsgenetische Modelle mit diskretem Zustandsraum. 

Ziel der Populationsgenetik ist es, die Mechanismen wie z.B. Mutation, Selektion, Rekombination, 

zu verstehen, die zu (genetischer) Variabilität führen die man in der Natur beobachten kann. 

In dem ersten Abschnitt behandeln wir kurz das neutrale Wright-Fisher (WF) Modell und in 

dem zweiten etwas ausführlicher das Moran-Modell (das Analogon von WF Modell in stetiger 

Zeit). Für ausführlichere Beschreibung dieser Modelle und deren Erweiterungen verweisen wir 

auf z.B. (Etheridge 2011) und (Tavaré 2004). 

4.1 Wright-Fisher Modell 

Wir betrachten eine Population mit 2N Individuen die jeweils vom Typ A oder a sind. Die 

Population verhält sich gemäß einer Markovkette (X n ) n=0,1,... in diskreter Zeit. Dabei ist 

X n := #Individuen vom Typ A in Generation n. 

Natürlich reicht es die Evolution des einen Typs zu betrachten. Wir betrachten zunächst eine 

neutrale Population ohne Mutation. Neutral bedeutet hier, dass kein Typ bei der Reproduktion 

bevorzugt wird. In diesem Fall kann man die Evolution auch so auffassen, dass die 2N Individuen 

zur Zeit n + 1 sich ihre Mutter zufällig aus der n-ten Generation “ziehen”, d.h. gegeben X n ist 

X n+1 binomial verteilt mit Parameter X n /2N: 

Wegen 

( 2N 

P[X n+1 = k|X n ] = 

k 

) ( ) k ( 

Xn 

1 − X ) 2N−k 

n 

, k ∈ {0, . . . , 2N}. (4.1) 

2N 2N 

E[X n+1 |X 0 , . . . , X n ] = E[X n+1 |X n ] = 2N X n 

2N = X n (4.2) 

ist (X n ) ein Martingal. Insbesondere gilt E[X n ] = E[X 0 ] für alle n ≥ 1. Es ist klar, dass (X n ) eine 

Markovkette auf {0, · · · , 2N} mit absorbierenden Zuständen 0 (Typ a fixiert in der Population) 

und 2N (Typ A fixiert in der Population). 

Es sei p i die Wahrscheinlichkeit für die Absorption in 2N gegeben X 0 = i. Für p i kann man 

dann eine Rekurrenzgleichung mit Randwerten p 0 = 0 und p 2N = 1 hinschreiben und auch lösen 

(siehe Tavaré 2004), man kann sie aber auch mit Hilfe des Martingal-Stoppsatzes lösen. Sei dazu 

τ = inf{n ≥ 0 : X n = 0, oder X n = 2N}, dann kann man sich überlegen, dass τ fast sicher 

endlich ist und es gilt 

i = E[X τ |X 0 = i] = p i 2N + (1 − p i )0 

42

4 Populationsmodelle mit fester Populationsgröße 

und somit 

p i = 

i 

2N . (4.3) 

Also ist die Wahrscheinlichkeit in einem bestimmten Typ zu fixieren ist gleich der relativen 

Häufigkeit des Typs zur Zeit 0. Wie wir später sehen werden stammt für große n die gesamte 

Population von einem Vorfahr aus der Zeit 0 ab. Dieser Vorfahr wird zufällig gewählt und die 

W’keit, dass er vom Typ A ist, ist gerade p i . 

Wie für p i , kann man für die mittlere Absorptionszeit E i [τ] auch eine Rekurrenzgleichung 

hinschreiben. Es ist jedoch kompliziert diese explizit zu lösen. Später bei der Diffusionsapproximation 

werden wir approximativ E i [τ] angeben. 

Nun berechnen wir die Varianz von X n . Es gilt 

Var[X n ] = E[Var[X n |X n−1 ]] + Var[E[X n |X n−1 ]] 

= E[2N X n−1 

2N (1 − X n−1 

2N ] + Var[X n−1] 

= E[X n−1 ] − 1 

2N E[X2 n−1] + Var[X n−1 ] 

= E[X n−1 ] − 1 

2N (Var[X n−1] + E 2 [X n−1 ]) + Var[X n−1 ] 

= E[X 0 ](2N − E[X 0 ]) 1 

2N + (1 − 1 

2N ) Var[X n−1] 

= · · · = E[X 0 ](2N − E[X 0 ])(1 − λ n ) + λ n Var[X 0 ], 

(4.4) 

wobei λ = 1 − 1 

2N . Insbesondere konvergiert die Varianz gegen 2NE[X 0/2N](1 − E[X 0 /2N]) 

(also gegen die Varianz der (2N, E[X 0 ]/2N)-Binomialverteilung) für n → ∞. 

Eine wichtige Größe für Variation in der Population ist die so genannte Heterozygotie. Sie ist 

definiert als die Wahrscheinlichkeit h(r), dass zwei in Generation r zufällig (mit zurücklegen) 

gezogene Individuen unterschiedliche Typen haben, d.h. 

h(r) := 2E 

Mit der Formel für die Varianz erhalten wir 

Es folgt 

[ 

Xr 

2N 

2N − X r 

2N 

E[X r (2N − X r )] = 2NE[X r ] − E[X 2 r ] = 2NE[X 0 ] − Var[X r ] − E 2 [X r ] 

= 2NE[X 0 ] − E[X 0 ](2N − E[X 0 ])(1 − λ r ) − λ r Var[X 0 ] − E 2 [X 0 ] 

= λ r (2NE[X 0 ] − Var[X 0 ] − E 2 [X 0 ]) = λ r E[X 0 (2N − X 0 )]. 

h(r) = λ r h(0). 

Somit nimmt die Heterozygotie geometrisch ab. 

Man kann das Wright-Fisher Modell in verschiedene Richtungen verallgemeinern, und damit 

das Modell “realistischer” machen. So kann man z.B. auch Mutation, Selektion und Rekombination 

modellieren und einen allgemeineren Typenraum zulassen. Einige dieser Verallgemeinerungen 

werden wir bei dem Moran Modell betrachten. 

] 

. 

43


4.2 Moran Modell 

Das Moran Modell ist das stetige Zeit Analogon des Wright-Fisher Modells, das wir uns im letzten 

Abschnitt angesehen haben. Mathematisch ist es einfacher zu handhaben, weil beispielsweise 

im neutralen Zweitypen-Fall ohne Mutation die Allelfrequenzen (Häufigkeiten eines Typs) sich 

wie ein Geburts- und Todesprozess verhalten. Außerdem werden wir sehen, dass die Genealogie 

einer Stichprobe aus einer Population, die sich nach dem Moran Modell entwickelt, durch 

den Kingman-Koaleszenten gegeben ist. Letzterer beschreibt unter bestimmten Voraussetzungen 

auch, jedoch nur approximativ, die Genealogie des Cannings Modells. Das Wright-Fisher Modell 

ist ein spezielles Cannings Modell. 

Definition 4.1 (Neutrales Moran Modell). Eine Population von N Genen (verteilt auf N Individuen) 

entwickelt sich gemäß einem neutralem Moran Modell, wenn nach jeweils exponentiell 

verteilter Wartezeit mit Rate ( ) 

N 

2 ein Paar von Genen zufällig ausgewählt wird. Einer der beiden 

stirbt und wird durch einen Nachkommen des anderen ersetzt. 

Wie bei vielen Markovketten und Teilchensystemen 

in stetiger Zeit der Fall ist, kann man auch 

ein Moran Modell mit Hilfe von Poissonprozessen 

graphisch konstruieren. Es sei U = {1, . . . , N} 

und sei {N i,j : i, j ∈ U} eine Familie von unabhängigen 

Poissonprozessen mit jeweils Rate Eins. 

Zu jedem Sprungzeitpunkt von N i,j findet ein 

Resamplingereignis zwischen i und j statt. Mit 

jeweils Wahrscheinlichkeit 1/2 wird i durch einen 

Nachkommen von j oder umgekehrt ersetzt. Nach 

dem Resampling kriegt das “neue” Individuum 

die Nummer des Individuums, das ersetzt wurde. 

In Abbildung 4.1 sind diese Resamplingereignisse 

durch Pfeile dargestellt. Da die endlich 

vielen Poissonprozesse fast sicher keine gemeinsame 

Sprünge haben gibt es höchsten jeweils ein 

Ereignis pro Zeitpunkt. Die Anzahl ungeordneter 

Paare ist ( ) 

N 

2 und deswegen ist die Wartezeit 

zwischen den Ereignissen Exp( ( ) 

N 

2 ) verteilt. 

(Hier benutzen wir die Tatsache, dass das Minimum 

von n unabhängigen exponentiell verteilten 

Zufallsvariablen mit Rate λ exponentiell verteilt 

sind mit Rate λn.) 

t 

1 2 3 4 5 

Abbildung 4.1: Graphische Konstruktion 

des Moran Modells 

Wie beim Wright-Fisher Modell betrachten wir zunächst den neutralen Fall ohne Mutation mit 

zwei Typen A und a. Sei X t die Häufigkeit der Individuen vom Typ A zur Zeit t. Dann ist 

X = (X t ) t≥0 ein Markovkette in stetiger Zeit mit Zustandsraum {0, 1/N, . . . , (N −1), N}, wobei 

die Zustände 0 und 1 absorbierend sind. 

44


Der Generator A (N) von X sieht wie folgt aus: 

( ) ( ( ( 

N 

A (N) f(p) := p(1 − p) f p + 1 ) 

− f(p) 

2 N 

) 

( ( 

+ (1 − p)p f p − 1 ) )) 

− f(p) . (4.5) 

N 

Für p ∈ {0, 1} ist natürlich A (N) f(p) = 0. Um zu sehen, dass A (N) wirklich der Generator von 

X ist, beachte, dass ( ) 

N 

2 immer die Gesamtrate für ein Ereignis ist. Ist bei einem Ereignis p die 

Häufigkeit des Typs A, dann ändert sie sich nur dann, wenn der Pfeil in der Graphischen Konstruktion 

vom Typ A zu Typ a zeigt oder umgekehrt. Pfeile, die von einem Typ auf denselben 

zeigen, ändern zwar die “Verwandschaftsverhältnisse” im Modell, nicht aber die Typenhäufigkeiten. 

Die Wahrscheinlichkeit für beide Ereignisse p → p + 1/N und p → p − 1/N ist also p(1 − p). 

Ferner finden mit Wahrscheinlichkeit 1 − 2p(1 − p) Ereignisse p → p statt, die die Typenhäufigkeiten 

nicht verändern. Die Wahrscheinlichkeit ein Ereignis in dem Intervall [0, h] zu beobachten 

ist von der Ordnung ( ) 

N 

2 h + O(h 2 ). 

Wir wollen uns nun anschauen, wie sich X, was wir ab jetzt mit X (N) bezeichnen für große 

N verhält. Für dreimal stetig differenzierbare Funktion f erhalten wir mit der Taylorformel 

( ) ( N 1 

A (N) f(p) = p(1 − p) 

2 N f ′ (p) + 1 

( )) 1 

2N 2 f ′′ (p) + O 

N 3 

( ) N 

+ p(1 − p) 

2 

( ) ( N 1 

= p(1 − p) 

2 N 2 f ′′ (p) + O 

= 1 ( ) 1 

2 p(1 − p)f ′′ (p) + O . 

N 

( 

− 1 N f ′ (p) + 1 

2N 2 f ′′ (p) + O 

( 1 

N 3 )) 

Wir fassen dieses Resultat im folgenden Lemma zusammen. 

( 1 

N 3 )) 

Lemma 4.2. Für N → ∞ konvergiert der Generator A (N) des Prozesses der Typenhäufighkeit 

X (N) gegen den Generator der Wright-Fisher Diffusion p = (p t ) t≥0 , der durch 

gegeben ist. 

Af(p) = 1 2 p(1 − p)f ′′ (p) (4.6) 

Bemerkung 4.3 (Konvergenz der reskalierten Wright-Fisher Markovkette). Es sei X (N) = 

(X n 

(N) ) die WF-Markovkette aus dem vorherigen Abschnitt; siehe (4.1). Wir ersetzen dort 2N 

jeweils durch N und setzen 

p t := 1 N X(N) [Nt] . 

Für hinreichend glatte Funktionen f haben wir dann 

d 

dt E[f(p t)|p 0 = p] ∣ ≈ E[f(p 1/N)|p 0 = p] − f(p) 

t=0 1/N 

( 

= N f ′ (p)E[(p 1/N − p)|p 0 = p] + f ′′ ) 

(p) 

E[(p 

2 1/N − p) 2 |p 0 = p] + O(N −2 ) . 

45


Nun ist nach (4.2) 

E[(p 1/N − p)|p 0 = p] = 1 N E[(X(N) 1 − X (N) 

0 )|p 0 = p] = 0 

und nach (4.4) 

E[(p 1/N − p) 2 |p 0 = p] = 1 

N 2 Var[X(N) 1 |X 0 = Np] = 1 

N 2 Np(N − Np)(1 − (1 − 1 p(1 − p) 

)) = 

N N . 

Insgesamt ist also 

d 

dt E[f(p t)|p 0 = p] ∣ ≈ 1 

t=0 2 p(1 − p)f ′′ (p) + O(N −1 ). 

Für N → ∞ konvergiert also der reskalierte Prozess der Häufigkeit der Individuen vom Typ A 

gegen die Wright-Fisher Diffusion. 

Wir haben schon bemerkt, dass für jedes N die Markovkette X (N) in fast sicher endlicher 

Zeit in einem der Zustände 0 oder N absorbiert wird. Dasselbe kann man für die Wright- 

Fisher Diffusion zeigen. Bezeichnen wir mit T (N) 

i 

bzw. T p jeweils die entsprechenden erwarteten 

Absorptionszeiten, dann gilt 

T (N) 

i 

≈ NT i/N . (4.7) 

Als nächstes betrachten wir das Moran Modell mit 

Mutation. Zunächst betrachten wir den einfachen 

Fall mit Typen aus I = {a, A} (wie in der Abbildung 

rechts dargestellt). Mit Mutationsrate θ 1 mutiert ein 

Individuum vom Typ a zum Typ A und mit Rate θ 2 

ein Individuum vom Typ A zum Typ a. Ferner sei 

θ = θ 1 +θ 2 und sei {N i : i ∈ U} eine Familie von unabhängigen 

Poissonprozessen mit Parameter θ. Die 

Sprünge dieser Prozesse sind in der Abbildung durch 

Kreuze dargestellt. An jedem dieser “Kreuze” mutiert 

das Individuum zum Typ A mit Wahrscheinlichkeit 

θ 1 /θ und zum Typ a mit Wahrscheinlichkeit 

θ 2 /θ. In der Abbildung ist entlang der Linien 3 und 5 

jeweils ein Mutationsereignis das keine Auswirkung 

auf den Typ hatte, da das Individuum zum selben 

Typ “mutiert” ist. Für θ 1 = θ 2 = 0 erhalten wir natürlich 

das ursprüngliche neutrale Modell ohne Mutation. 

Sind aber beide Mutationsraten positiv und 

definieren wir X (N) 

t wie zuvor als die Häufigkeit der 

Individuen vom Typ A, so erhalten wir wieder eine 

Markovkette auf {0, 1/N, . . . , 1}. Diese ist aber 

nicht mehr absorbierend. 

t 

1 2 3 4 5 

Abbildung 4.2: Moran Modell mit Mutation 

46


Der Generator von X (N) ist gegeben durch 

A (N) f(p) := A (N) 

res f(p) + A (N) f(p) (4.8) 

mut 

mit 

und 

( ) ( ( ( 

N 

A (N) 

res f(p) = p(1 − p) f p + 1 ) ) ( ( 

− f(p) + (1 − p)p f p − 1 ) )) 

− f(p) 

2 N 

N 

( ( 

A (N) 

mut = Nθ 1(1 − p) f p + 1 ) ) ( ( 

− f(p) + Nθ 2 p f p − 1 ) ) 

− f(p) . 

N 

N 

Den Resampling-Generator A (N) 

res f(p) kennen wir schon. Außerdem haben wir schon gezeigt, dass 

dieser für N → ∞ gegen 1 2 p(1 − p)f ′′ (p) konvergiert. 

Für den Mutationsgenerator erhalten wir 

Insgesamt gilt also 

A (N) 

mut = N (θ 1 (1 − p) 1 N f ′ (p) − Nθ 2 p 1 N f ′ (p) + O(N −2 ) 

= (θ 1 (1 − p) − θ 2 p) f ′ (p) + O(N −1 ). 

A (N) f(p) → 1 2 p(1 − p)f ′′ (p) + (θ 1 (1 − p) − θ 2 p) f ′ (p), N → ∞. 

Das ist der Generator der Wright-Fisher Diffusion mit Mutation. 

4.3 Wright-Fisher Diffusion 

Eine eindimensionale Diffusion ist ein starker Markovprozess auf R mit stetigen Pfaden. Der Zustandsraum 

ist typischerweise ein Intervall (a, b), der endlich oder unendlich ein kann. Außerdem 

können je nach Anwendung beide, einer oder keiner der Randpunkte {a, b} zum Zustandsraum 

gehören. Der Generator hat die Form 

Af(x) = 1 2 σ2 (x)f ′′ (x) + µ(x)f ′ (x). (4.9) 

Je nach Verhalten an den Randpunkten müssen die Funktionen f ∈ D(A) abgesehen von zweimaliger 

Differenzierbarkeit bestimmte Randbedingungen erfüllen. 

Wir nehmen an: 

1. Für jedes kompakte Intervall I ⊂ (a, b) gibt es ein ε mit σ 2 (x) > ε für alle x ∈ I; 

2. Die Funktionen µ und σ 2 sind stetig auf (a, b). 

Für f 1 (x) = x gilt 

1 

Af 1 (X t ) = lim 

h↓0 h E X t 

[X t+h − X t ] = µ(X t ) 

) 

47


und somit für h ↓ 0 

E Xt [X t+h − X t ] = hµ(X t ) + o(h). 

Schreiben wir außerdem (X t+h − X t ) 2 = X 2 t+h − X2 t − 2X t (X t+h − X t ), so gilt mit f 2 (x) = x 2 

und somit für h ↓ 0 

1 

Af 2 (X t ) − 2X t Af 1 (X t ) = lim 

h↓0 h E X t 

[(X t+h − X t ) 2 ] = σ 2 (X t ) 

E Xt [(X t+h − X t ) 2 ] = hσ 2 (X t ) + o(h). 

Aus diesem Grund bezeichnet man mu(x) und σ 2 (x) als infinitesimale Drift bzw. infinitesimale 

Varianz des zugehörigen Diffusionsprozesses. 

Die Skalenfunktion eines Diffusionsprozesses mit Generator (4.9) ist definiert durch 

S(x) := 

∫ x 

x 0 

exp 

wobei x 0 , η ∈ (a, b). Ferner ist die Funktion 

m(x) := 

{ 

− 

∫ y 

η 

1 

σ 2 (x)S ′ (x) 

} 

2µ(z) 

σ 2 (z) dz dy, 

die Dichte des Speed-Maßes. 

Für z ∈ (a, b) setzen wir H z := inf{t ≥ 0 : X t = z}. Mit Hilfe des folgenden Resultates 

kann man bei Diffusionen die Wahrscheinlichkeiten einen Zustand vor dem anderen zu erreichen 

berechnen. 

Lemma 4.4. Für a < a 0 < x 

P x [T a0 < T b0 ] = S(b 0) − S(x) 

S(b 0 ) − S(a 0 ) . (4.10) 

Sind beide Ränder a und b in fast sicher endlicher Zeit erreichbar, dann gilt (4.10) auch für 

a 0 = a und b 0 = b. 

Wright-Fisher Diffusion ohne Mutation ist ein Prozess auf [0, 1] mit µ ≡ 0 und σ 2 (x) = x(1−x). 

Dabei sind beide Ränder absorbierend. Dann ist S(x) = x − x 0 und wir haben 

P x [T 0 < T 1 ] = (1 − x) für x ∈ [0, 1]. 

Dies ist genau dass, was man wegen (4.3) erwarten konnte. 

Es sei T ∗ die Austrittszeit des Prozesses (X t ) t≥0 aus (a, b). Die Green-Funktion G(x, ξ) gibt 

die erwartete Zeit, die der Prozess bis zur Zeit T ∗ in ξ verbringt bei Start in x. Natürlich ist 

G(a, ξ) = G(b, ξ) = 0. Allgemein ist die Green-Funktion einer Diffusion mit Generator (4.9) und 

den entsprechenden Skalenfunktion S und der Dichte des Speed-Maßes m gegeben durch 

{ 

2(S(b) − S(ξ)) 

S(x)−S(a) 

S(b)−S(a) 

m(ξ) : x ≤ ξ < b, 

G(x, ξ) := 

2(S(ξ) − S(a)) S(b)−S(x) 

S(b)−S(a) m(ξ) : a < ξ ≤ x. (4.11) 

48


Mit Hilfe der Green-Funktion kann man verschiedene Funktionale des Prozesses berechnen. Für 

stetige Funktionen g auf (a, b) gilt nämlich 

[ ∫ ] 

T ∗ 

∫ b 

E x g(X s ) ds = G(x, ξ)g(ξ) dξ. (4.12) 

0 

Nehmen wir hier g ≡ 1, so steht hier auf der linken Seite E[T ∗ ]. Für die Wright-Fisher Diffusion 

erhalten wir also für p ∈ (0, 1) 

E p [T ∗ ] = 

= 2 

∫ 1 

= 2p 

0 

∫ 1 

G(p, ξ) dξ 

p 

∫ 1 

p 

a 

∫ 

1 

p 

p(1 − ξ) 

ξ(1 − ξ) dξ + 2 1 

(1 − p)ξ 

ξ(1 − ξ) dξ 

∫ 

1 

p 

ξ dξ + 2(1 − p) 

0 

0 

1 

1 − ξ dξ 

= −2(p log p + (1 − p) log(1 − p)). 

Für große N ist dies auch eine gute Approximation für die erwartete Absorptionszeit in dem 

Moran Modell bei Start des einen Typs mit Häufigkeit p. Für Wright-Fisher Modell auf der 

ursprünglichen Zeitskala und bei Start mit Häufigkeit p gilt wie wir schon in (4.7) bemerkt 

haben 

T (N) 

p 

≈ −2N(p log p + (1 − p) log(1 − p)), 

und insbesondere ist T (N) 

1/2 

≈ 2N log 2. 

Nun betrachten wir die Wright-Fisher Diffusion mit Mutation. In diesem Fall sind die Ränder 

nicht absorbierend also handelt es sich um eine regulären (d.h. jeder Punkt ist mit positiver 

Wahrscheinlichkeit von jedem anderen Punkt aus erreichbar, in der Sprache von Markovketten 

würde man irreduzibel sagen) Diffusion auf einem kompakten Intervall. Damit ist sie auch positiv 

rekurrent und in diesem Fall haben Markovketten eindeutige stationäre Verteilungen. Dasselbe 

ist auch für Diffusion wahr und schauen uns die stationäre Verteilung der Wright-Fisher Diffusion 

an. 

Es sei zunächst allgemein X = (X t ) t≥0 ein Diffusionsprozess auf [a, b] mit Generator (4.9). 

Eine stationäre Verteilung von X ist eine Verteilung Ψ mit der Eigenschaft X t ∼ Ψ für alle 

t ≥ 0, falls X 0 ∼ Ψ. Insbesondere ist dann 

An der Stelle t = 0 erhalten wir 

a 

∫ b 

0 = d dt E[f(X t)|X 0 ∼ Ψ] = d dt 

∫ b 

a 

∫ b 

a 

Af(x)Ψ(dx) = 0 

E[f(X t )|X 0 = x]Ψ(dx). 

für alle f ∈ D(A). Aus dieser Gleichung kann man manchmal Ψ bekommen. Wir schreiben im 

Folgenden ψ(x) dx = Ψ(dx). Mit partieller Integration erhalten wir 

∫ b 

( ) 

1 

0 = 

2 σ2 (x) d2 f df 

(x) + µ(x) 

dx2 dx (x) ψ(x) dx 

= 

a 

( 1 

f(x) 

2 

d 2 

dx 2 (σ2 (x)ψ(x)) − d 

dx (µ(x)ψ(x)) ) 

dx + Randterme. 

49


Diese Gleichung muss für alle f ∈ D(A) gelten und insbesondere können wir die Funktionen 

so wählen, dass jeweils f und f ′ auf dem Rand verschwinden. Für solche Funktionen ist der 

Randterm Null. Also muss für x ∈ (a, b) 

1 

2 dx 2 (σ2 (x)ψ(x)) − d 

dx (µ(x)ψ(x)) = 0 

d 2 

gelten. Nach einer Integration (und Multiplikation beider Seiten mit zwei) erhalten wir 

für eine Konstante C 1 . Damit gilt 

woraus wir 

d 

dx (σ2 (x)ψ(x)) − 2µ(x)ψ(x) = C 1 , 

d 

dy (S′ (y)σ 2 (y)ψ(y)) = S ′′ (y)σ 2 (y)ψ(y) + S ′ (y) d 

dy (σ2 (y)ψ(y)) 

= − 2µ(y) 

σ 2 (y) S′ (y)σ 2 (y)ψ(y) + S ′ (y) d 

dy (σ2 (y)ψ(y)) 

= C 1 S ′ (y), 

S ′ (y)σ 2 (y)ψ(y) = C 1 S(y) + C 2 

erhalten. Diese Gleichung lässt sich nach ψ(y) auflösen: 

S(y) 

ψ(y) = C 1 

S ′ (y)σ 2 (y) + C 1 

2 

S ′ (y)σ 2 (y) = m(y)(C 1S(y) + C 2 ). 

Wenn man nun C 1 und C 2 so wählen kann, dass ψ ≥ 0 und ∫ b 

a 

ψ(y) dy = 1 ist, dann ist ψ die 

Dichte der stationären Verteilung von X. Wenn insbesondere ∫ b 

a m(y) dy < ∞ und wir C 1 = 0 

wählen, dann ist 

ψ(y) = 

m(y) 

∫ b 

a m(y) dy (4.13) 

die Dichte einer stationären Verteilung von X. Ist die Diffusion zudem regulär, dann ist die 

stationäre Verteilung eindeutig und ihre Dichte ist gegeben durch (4.13). Schauen wir uns nun 

wieder die Wright-Fisher Diffusion mit Generator 

Af(p) = 1 2 p(1 − p)f ′′ (p) + (θ 1 (1 − p) − θ 2 p) f ′ (p). 

In diesem Fall ist 

( ∫ p 

S ′ (p) = exp − 

( 

= exp − 

p 

∫ 

0 

p 

p 0 

) 

2µ(z) 

σ 2 (z) dz 

θ 1 (1 − z) − θ 2 z 

z(1 − z) 

) 

dz 

= C exp(−2θ 1 log p − 2θ 2 log(1 − p)) 

= Cp −2θ 1 

(1 − p) −2θ 2 

, 

50


wobei C eine von p 0 abhängige Konstante ist. Es folgt 

Nun ist 

∫ 1 

0 

m(p) = 

m(p) dp = C 

1 

S ′ (p)σ 2 (p) = Cp2θ 1−1 (1 − p) 2θ 2−1 . 

∫ 1 

0 

p 2θ 1−1 (1 − p) 2θ 2−1 dp = C Γ(2θ 1)Γ(2θ 2 ) 

Γ(2(θ 1 + θ 2 )) , 

und die stationäre Verteilung ist gegeben durch die Betaverteilung mit Dichte 

4.4 Kingmann’s Koaleszent 

ψ(p) = Γ(2(θ 1 + θ 2 )) 

Γ(2θ 1 )Γ(2θ 2 ) p2θ 1−1 (1 − p) 2θ 2−1 . 

Wir haben bei dem Wright-Fisher Modell gesagt, dass sich die Individuen der n + 1-ten Generation 

die Eltern unter den Individuen der n-ten Generation zufällig wählen. Diese Beschreibung 

liefert auf natürliche weise eine genealogische Struktur des Wright-Fisher Modells. Diese Struktur 

ist auch bei dem Moran Modell aus der graphischen Konstruktion leicht abzulesen. 

Schauen wir uns erst die Genealogie im Wright-Fisher Modell an (mit N Individuen). Zwei 

Individuen haben (ziehen) einen gemeinsamen Vorfahr in der vorherigen Generation mit W’keit 

1/N. Ist dies nicht der Fall, dann haben ihre Vorfahren einen gemeinsamen Vorfahr in der 

Generation davor mit W’keit 1/N, usw. Damit ist die Zeit T bis zum gemeinsamen Vorfahr 

geometrisch verteilt mit Parameter 1/N, d.h. für k = 1, 2, . . . ist P[T = k] = 1/N(1 − 1/N) k−1 

und E[T ] = N. Beträgt eine Zeiteinheit N Generationen, dann ist für x ≥ 0 

P[Zeit bis zum gem. Vorfahr > x] = 

( 

1 − 1 N 

) Nx 

N→∞ 

−−−−→ e −x , 

d.h. im Grenzwert ist diese Zeit exponentiell verteilt mit Rate 1. 

Nehmen wir eine Stichprobe von k ≥ 2 Individuen. Die W’keit, dass mehr als drei Individuen 

einen gemeinsamen Vorfahr in der vorherigen Generation haben (multipler Koaleszent) ist von 

der Ordnung O(1/N 2 ). Auch die W’keit, dass zwei oder mehr Paare in der vorherigen Generation 

ihre zwei unterschiedlichen Vorfahren finden (simultaner Koaleszent) ist von der Ordnung 

O(1/N 2 ). Bevor wir so ein Ereignis für große N sehen sind alle paare von Individuen miteinander 

verschmolzen, d.h. bei dem Wright-Fisher Modell werden wir für große N in der Genealogie 

nur Verschmelzungen von höchstens zwei Ahnenlinien sehen die jeweils exponentiell mit Rate 1 

verteilt sind. 

Nummerieren die k Individuen durch und betrachten den oben beschriebenen Verschmelzungsprozess, 

den wir hier mit π := (π t ) t≥0 bezeichnen, auf den Äquivalenzklassen [k] := {1, . . . , k}. 

Jede Äquivalenzklasse in π t stellt zur Zeit t einen Vorfahr der in dieser Klasse enthaltenen 

Individuen dar. Der Prozess π startet immer mit einelementigen Äquivalenzklassen 

{{1}, . . . , {k}}. 

ist beispielsweise k = 5 und π t = {{1, 4}, {2, 5}, {3}}, dann bedeutet das, dass 1 und 4, und 

2 und 5 bis zur Zeit t jeweils einen gemeinsamen Vorfahr gefunden haben. Das Individuum 3 

teilt bis zur Zeit t keinen gemeinsamen Vorfahr mit irgendeinem anderen Individuum aus der 

Stichprobe. 

51


Definition 4.5 (Kingmann’s Koaleszent). Der Kingman k-Koaleszent ist eine Markovkette auf 

E k , den Äquivalenzklassen auf [k], mit Übergangsraten q ξ,η , ξ, η ∈ E k definiert durch 

{ 

1 wenn η aus ξ durch Verschmelzen von genau zwei Klassen erhalten werden kann, 

q ξ,η := 

0 sonst. 

Der Kingmann N-Koaleszent ist ein Prozess auf Äquivalenzrelationen auf N mit der Eigenschaft, 

dass jede Einschränkung auf eine Menge der Größe k ein k-Koaleszent ist. In jedem Fall besteht 

die Anfangsbedingung aus einelementigen Äquivalenzklassen. 

Wenn wir nur an der jeweiligen Anzahl der Äquivalenzklassen, nicht jedoch an deren Zusammensetzung 

zur Zeit t interessiert sind, so kann man Kingmann’s k-Koaleszent als eine Todeskette 

auffassen, mit Übergangsraten 

{( k 

) 

q k,j := 

2 

: wenn j = k-1, 

0 : sonst. 

Es sei W k die Zeit bis zum jüngsten gemeinsamen Vorfahr (MRCA=most recent common ancestor) 

von k Individuen. Dann gilt 

W k = T k + T k−1 + · · · + T 2 , 

wobei T l jeweils die Wartezeit für den Sprung von l nach l + 1 ist. Wir erhalten 

E[W k ] = 

k∑ 

( ) l −1 

= 

2 

l=2 

k∑ 

l=2 

2 

k∑ 

( 1 

l(l − 1) = 2 l − 1 − 1 ) 

= 2(1 − 1 ). (4.14) 

l 

k 

Damit ist die erwartete Zeit bis MRCA der ganzen Population durch 2 beschränkt. Außerdem 

gilt für K ≥ k 

l=2 

0 ≤ E[W K − W k ] = 2( 1 k − 1 K ) ≤ 2 k . 

Insbesondere unterscheiden sich die Zeit zum MRCA von k Individuen und der von der ganzen 

Population nur wenig für nicht zu kleine Werte von k. Man beachte auch, dass in (4.14) E[T 2 ] = 1 

den größten Beitrag liefert. 

Für die Varianz von W k erhalten wir 

Var[W k ] = 

k∑ 

Var[T l ] = 

l=2 

k∑ 

( l 

2 

l=2 

) −2 

= 8 

k−1 

∑ 

l=1 

1 

l 2 − 4(1 − 1 k )(3 + 1 k ) 

und es folgt 

1 = Var[W 2 ] ≤ Var[W k ] ≤ lim Var[W k] = 8 π2 

− 12 ≈ 1.16. 

k→∞ 6 

Also kommt auch bei der Varianz der größte Anteil von der Verschmelzungszeit der letzten 

zwei Individuen. Die Verteilung und auch Dichte von W k können auch berechnet werden. Wir 

verweisen auf (Tavaré 2004, 2.3, p. 21). 

52


Wir schauen uns nun eine weitere wichtige Größe, nämlich die Baumlänge der Genealogie von 

k Individuen an, die wir mit L k bezeichnen und die durch 

definiert werden kann. 

Es gilt 

und 

E[L k ] = 

k∑ 

lE[T l ] = 

l=2 

Var[L k ] = 

L k := 2T 2 + · · · + kT k = 

k∑ 

l=2 

l=2 

l=1 

k∑ 

lT l 

l=2 

k∑ 

k−1 

2 

l 

l(l − 1) = 2 ∑ 1 

l 

∑k−1 

l 2 Var[T l ] = 4 

l=1 

∼ 2 log k, für k → ∞ 

1 

l 2 ∼ 2π2 , für k → ∞. 

3 

Insbesondere wächst ist die erwartete Länge unbeschränkt und die Varianz beschränkt in k. 

Nun kommen wir zur Verteilung von L k . Mit E(λ) bezeichnen wir eine exponentiell verteilte 

Zufallsvariable mit Rate λ. Alle solchen Zufallsvariablen die unten auftauchen sind unabhängig 

voneinander. Es gilt 

L k = 

k∑ 

d 

lT l = 

l=2 

k∑ 

( ) l − 1 

E 

2 

l=2 

∑k−1 

d 

= 

l=1 

min E lj(1/2) = 

d 

1≤j≤l 

max E j(1/2). 

1≤j≤k−1 

Es folgt 

P[L k ≤ t] = 

( 

1 − e −t/2) k−1 

, t ≥ 0. 

Daraus erhält man auch dass L k − 2 log k gegen die Gumbel-Verteilung mit Verteilungsfunktion 

e −e−t/2 konvergiert. Denn es ist 

P[L k − 2 log k ≤ t] = 

( ) 

( 

k−1 

1 − e −t/2−log k) k−1 

= 1 − e−t/2 k→∞ 

−−−→ e −e−t/2 . 

k 

Die Genealogie bei dem Moran Modell ist übersichtlicher als die bei dem (endlichen) Wright- 

Fisher Modell. Sie kann einfach von der graphischen Konstruktion abgelesen werden. Verfolgen 

wir eine Stichprobe von k Individuen, rückwärts in der Zeit, dann treffen wir irgendwann auf 

einen Pfeil der zwei Individuen miteinander verbindet. Das Individuum an der Pfeilspitze (wurde 

forwärt in der Zeit ersetzt) verschmilzt mit dem Individuum von dem der Pfeil ausgeht. 

Letzterer bleibt unverändert. Die Rate mit der man auf ein Pfeil zwischen k Individuen triff ist 

rückwärts wie vorwärts gleich und ist gegeben durch ( k 

2) 

. Dies ist genau die Verschmelzungsrate 

im Kingmann’s k-Koaleszent. Die Genealogie des Moran-Modells ist also genau durch den 

Kingman Koaleszent gegeben. 

Die große Stärke der Koaleszenten zeigt sich in der Betrachtung von neutralen Modellen im 

Multitypenfall und insbesondere mit Mutation. Wir erinnern an die graphische Konstruktion 

53


des Moran Modells mit Mutation und zwei Typen in Abbildung 4.2. Anstatt Mutation zwischen 

zwei Typen kann man sich allgemeinere Mutationsmechanismen und Typenräume vorstellen. Bei 

der Graphischen Konstruktion ändern sich nur die Ereignisse an den “Mutationskreuzen”. Wir 

nehmen an, dass Mutationen sich im Moran Modell entlang jeder Linie gemäß unabhängiger 

Poissonprozesse mit Rate θ/2 ereignen. 

Definition 4.6 (Infinitely many alleles model). In dem infinitely many alleles model (IMA) 

wird bei einem Mutationsereignis ein neues Allel erzeugt, das in der Population bis dahin nicht 

vorgekommen ist. Beispielsweise kann man (0, 1) als Typenraum nehmen und bei jeder Mutation 

eine neue unanhängige auf (0, 1) gleichverteilte Zufallsvariable nehmen. 

In dem IMA sind zwei Gene (Individuen) genau dann identisch, wenn auf dem genealogischen 

Baum keine zwischen den beiden kein Mutationsereignis stattgefunden hat. Wenn T die Zeit bis 

zum letzten gemeinsamen Vorfahr ist, dann gilt 

P ( zwei zufällig gezogene Gene sind vom selben Typ ) 

= E [P ( zwei zufällig gezogene Gene sind vom selben Typ| MRCA zur Zeit T )] 

= E [P (keine Poissonpunkte im Intervall [0, 2T ] )] 

[ ] [ ] 

= E e − θ 2 ·2T = E e −θT . 

Also haben wir nachgerechnet, dass die Homozygotie (definiert als 1− Heterozygotie) die Laplacetransformierte 

von T ist. Diese Rechnung funktioniert sowohl im neutralen Fall als auch 

im Fall mit Selektion. Da wir hier schon wissen, dassT exponentiell mit Rate 1 verteilt ist kann 

man leicht nachrechnen, dass die Homozygotie (im lange laufenden IMA-Modell) durch 1/(1+θ) 

gegeben ist. 

54

Literaturverzeichnis 

Aldous, D.: 1978, Stopping times and tightness, Ann. Probab. 6(2), 335–340. 

Athreya, K. B. and Karlin, S.: 1970, Branching processes with random environments, Bull. Amer. Math. 

Soc. 76, 865–870. 

Athreya, K. B. and Ney, P. E.: 1972, Branching processes, Springer-Verlag, New York. Die Grundlehren 

der mathematischen Wissenschaften, Band 196. 

Birkner, M., Geiger, J. and Kersting, G.: 2005, Branching processes in random environment—a view on 

critical and subcritical cases, Interacting stochastic systems, Springer, Berlin, pp. 269–291. 

Etheridge, A.: 2011, Some mathematical models from population genetics, Vol. 2012 of Lecture Notes 

in Mathematics, Springer, Heidelberg. Lectures from the 39th Probability Summer School held in 

Saint-Flour, 2009. 

Etheridge, A. M.: 2000, An introduction to superprocesses, Vol. 20 of University Lecture Series, American 

Mathematical Society, Providence, RI. 

Ethier, S. N. and Kurtz, T. G.: 1986, Markov processes, Wiley Series in Probability and Mathematical Statistics: 

Probability and Mathematical Statistics, John Wiley & Sons Inc., New York. Characterization 

and convergence. 

Feller, W.: 1951, Diffusion processes in genetics, Proceedings of the Second Berkeley Symposium on Mathematical 

Statistics and Probability, 1950, University of California Press, Berkeley and Los Angeles, 

pp. 227–246. 

Harris, T. E.: 1963, The theory of branching processes, Die Grundlehren der Mathematischen Wissenschaften, 

Bd. 119, Springer-Verlag, Berlin. 

Jagers, P.: 1975, Branching processes with biological applications, Wiley-Interscience [John Wiley & Sons], 

London. Wiley Series in Probability and Mathematical Statistics—Applied Probability and Statistics. 

Kallenberg, O.: 2002, Foundations of modern probability, Probability and its Applications (New York), 

second edn, Springer-Verlag, New York. 

Klenke, A.: 2006, Wahrscheinlichkeitstheorie., Berlin: Springer. 

Le Gall, J.-F.: 1999, Spatial branching processes, random snakes and partial differential equations, Lectures 

in Mathematics ETH Zürich, Birkhäuser Verlag, Basel. 

Lyons, R. with Peres, Y.: n.d., Probability on Trees and Networks, Cambridge University Press. 

preparation. Current version available at 

http://mypage.iu.edu/~rdlyons/prbtree/prbtree.html. 

In 

Smith, W. L.: 1968, Necessary conditions for almost sure extinction of a branching process with random 

environment, Ann. Math. Statist 39, 2136–2140. 

Smith, W. L. and Wilkinson, W. E.: 1969, On branching processes in random environments, Ann. Math. 

Statist. 40, 814–827. 

55

Literaturverzeichnis 

Tavaré, S.: 2004, Ancestral inference in population genetics, Lectures on probability theory and statistics, 

Vol. 1837 of Lecture Notes in Math., Springer, Berlin, pp. 1–188. 

56

Stochastische Populationsmodelle - Abteilung fÃ¼r Mathematische ...

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?