Skript

Weitere Magazine

Empfehlungen

Info

$LaTeX, beamer, tikz und Co. - 6. Käschdle (engl. boxes)$

10. Schnell mischende Markov-Ketten 85 Auch diese Markov-Kette ist reversibel, was man zum Beispiel so sieht. Sei i = j und (i, j) ∈ E (die anderen Fälle sind trivial). Dann gilt: piPij = pjPji pi min(1, pj p ) · β/d i pj min(1, pi p ) · β/d j = ⎧ ⎨ pi p / j ⎩ pi p falls pi pj j p = 1 i falls pi > pj p · j pj pi Wegen des folgenden Lemmas kennt man auch sofort die stationäre Verteilung dieser Markov- Kette: Es ist p. 10.5 Lemma. Ist M eine ergodische Markov-Kette und q eine Verteilung mit der Eigenschaft, dass für alle Zustände i und j gilt, dass qiPij = qjPji ist, dann ist q die (eindeutig bestimmte) stationäre Verteilung von M. 10.6 Beweis. Für alle i ist (qP)i = qjPji = j j qiPij = qi j Pij = qi . 10.7 Für den klassischen Algorithmus von Metropolis u. a. (1953) ist eine zeilenstochastische Matrix Q gegeben, die symmetrisch ist (diese Einschränkung wurde von Hastings (1970) beseitigt). Ziel ist aber eine reversible Markov-Kette mit Übergangsmatrix P, deren stationäre Verteilung w nur indirekt gegeben ist. Festgelegt ist nämlich nur eine Funktion H: S → R mit der Eigenschaft, dass e−H(i) proportional zur Wahrscheinlichkeit von Zustand i in w ist. Der Proportionalitätsfaktor ist natürlich Z = i∈S e−H(i) . Q heißt üblicherweise proposal matrix, H energy function und Z partition function. Das Schöne am Metropolis-Algorithmus ist, dass man Z gar nicht kennen muss. (In manchen Anwendungen in der Physik ist S sehr groß.) 10.8 Algorithmus. Der Metropolis-Algorithmus, oder auch Metropolis sampler, funktioniert wie folgt: Man startet in einem beliebigen Zustand i0 ∈ S. Ist man nach t Schritten in Zustand it ∈ S, dann ergibt sich it+1 in zwei Teilschritten: • Zunächst wird gemäß der Verteilung Q(it, ·) zufällig ein j ∈ S bestimmt. • Dann gibt es zwei Möglichkeiten: – Falls H(j) H(it) ist, also wj wit , dann wählt man it+1 = j. – Falls H(j) > H(it) ist, also wj < wit , wählt man j mit Wahrscheinlichkeit wj/wit it+1 = it sonst = eH(it)−H(j) 10.9 Satz. Die durch den Metropolis-Algorithmus festgelegte Markov-Kette auf S ist reversibel und in ihrer stationären Verteilung hat Zustand i Wahrscheinlichkeit e −H(i) /Z. 10.10 Beweis. Sei P die durch den Algorithmus festgelegte Übergangsmatrix. Es genügt zu beweisen, dass für alle i, j ∈ S Balancierheit vorliegt, d. h.: e −H(i) /Z · Pij = e −H(j) /Z · Pji Das ist eine einfache Rechnung analog zu der in Punkt 10.4. 31. Januar 2013 c○ Th. Worsch 2000-2013
10. Schnell mischende Markov-Ketten 86 10.2 Anmerkungen zu Eigenwerten 10.11 Lemma. Es sei P eine zeilenstochastische Matrix. Dann ist 1 ein Eigenwert von P und für jeden Eigenwert λ von P gilt: |λ| 1. 10.12 Beweis. Der erste Teil der Aussage ist wegen P(1, . . . , 1) ⊤ = (1, . . . , 1) ⊤ klar. Sei nun λ ∈ C Eigenwert und P(x1, . . . , xn) ⊤ = λ(x1, . . . , xn) ⊤ . Es sei i0 ein Index mit |xi | = 0 maxj |xj|. Es liegen also alle xj im Kreis um den Ursprung mit Radius |xi |. Es gilt: 0 |λ| · |xi | = |λ · xi | = 0 0 Pi0j|xj| Pi0j|xi | = |xi | 0 0 Pi0j = |xi | . 0 Also ist |λ| 1. j Pi 0jxj Für reversible Markov-Ketten kann man die Aussage von Lemma 10.11 verschärfen. j 10.13 Lemma. Ist P die stochastische Matrix einer reversiblen Markov-Kette, dann hat P nur reelle Eigenwerte. Für einen Beweis konsultiere man z. B. das Vorlesungsskript von Steger (2001) oder Kapitel 3 im Manuskript von Aldous und Fill (1999) 10.14 Im folgenden benutzen wir die Abkürzung λmax = max{ |λ| | λ ist Eigenwert von P und λ = 1}. Auf Grund des Vorangegangenen ist klar, dass λmax 1 ist. 10.15 Falls λN < 0 ist geht man auf bewährte Weise von P zur Matrix P ′ = 1 2 (P + I) über. Für deren Eigenwerte gilt dann λ ′ i = 1 2 (λi + 1), so dass alle Eigenwerte echt größer 0 sind. In diesem Fall ist dann also λmax = λ2. 10.3 Schnell mischende Markov-Ketten Wir interessieren uns nun für die Frage, wie lange es dauert, bis man bei einer Markov-Kette, die man mit einer Verteilung oder in einem bestimmten Zustand begonnen hat, davon ausgehen kann, dass die Wahrscheinlichkeiten, in bestimmten Zuständen zu sein, denen der stationären Verteilung „sehr nahe“ sind. Dazu definieren wir als erstes eine Art Abstandsbegriff für diskrete Wahrscheinlichkeitsverteilungen. 10.16 Definition. Für zwei Verteilungen p und q ist die totale Variationsdistanz p − q tv = 1 2 j |pj − qj| . Man kann sich überlegen, dass p − q tv = maxT ⊆S |p(T) − q(T)| ist, wobei p(T) zu verstehen ist als j∈T pj (und analog q(T)). j∈S 31. Januar 2013 c○ Th. Worsch 2000-2013 j ✸
Seite 1: 10 Schnell mischende Markov-Ketten
Seite 5 und 6: 10.24 Satz. 10. Schnell mischende M
Seite 7 und 8: 10. Schnell mischende Markov-Ketten

Skript

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?