3 Dynamische Spiele mit vollständiger Information 3.1 ...

Spieltheorie (Winter 2009/10) 3-1 Prof. Dr. Ana B. Ania 

3 Dynamische Spiele mit vollständiger 

Information 

Literaturhinweise zu Kapitel 3: 

Osborne (2004), Kapitel 5-7 

Gibbons (1992), Kapitel 2 

MasColell, Whinston, Green (1995), Kapitel 7 und 9A+B 

Fudenberg und Tirole (1991), Kapitel 3 und 4 

3.1 Rückwärtsinduktion 

Bisher hatten wir Situationen betrachtet, in denen beide 

Parteien simultan über ihre Strategie entscheiden müssen. 

Jetzt betrachten wir etwas kompliziertere zeitliche Strukturen. 

Dabei beschränken wir uns zunächst auf Spiele mit 

vollständiger und perfekter Information, d.h., alle Spieler 

spielen sequentiell, und jeder Spieler beobachtet alle vorangegangenen 

Züge. 

Klaus M. Schmidt 2007


Die Zeitstruktur eines Spiels 

① 

 

① 

 

 

Spieler 2 


Aktion 1 Aktion 2 

 

① 

 

 

 


Aktion 3 Aktion 4 Aktion 3 Aktion 4 

 

a 

c 

b 

d 

Beispiel 1: IBM vs. Intel 

 

e 

g 

f 

h 

Abb. 3.1: Ein Spielbaum 

In den frühen 70er Jahren ist Intel der einzige Lieferant 

von IBM für bestimmte Computerchips. IBM steht vor der 

Wahl, entweder Intel als einzigen Lieferanten zu behalten 

oder einen zweiten Lieferanten (AMD) aufzubauen. 

Ohne einen zweiten Lieferanten kann Intel seine Monopolmacht 

ausnutzen. Dann würde IBM einen Gewinn von 10 

und Intel einen Gewinn von 90 erhalten. Intel kündigt jedoch 

an, auf das Ausnutzen der Monopolstellung zu verzichten 

und die Gewinne gleichmäßig aufzuteilen (jeder bekommt 

einen Gewinn von 50). Wenn sich IBM entscheidet, AMD 

als zweiten Lieferanten aufzubauen, erhält IBM einen Gewinn 

von 40 und Intel einen Gewinn von 30.


Sollte IBM eine zweite Lieferantenbeziehung aufbauen oder 

darauf verzichten? 

Zeichnen Sie den Spielbaum für dieses Spiel. 

Bestimmen Sie die Normalform für dieses Spiel.


Beispiel 2: Marktzutrittsspiel 

Zutreter 

① 

 

 

 

0 

2 

N E 

 

① 

k 

 

 

−1 

−1 

Monopolist 

n 

 

2 

1 

Abb. 3.2: Marktzutrittsspiel 

Der Marktzutreter entscheidet, ob er eintritt (E) oder 

nicht (N). 

Der Monopolist entscheidet, ob er kämpft (k) oder nicht 

kämpft und sich den Markt teilt (n). 

Ein sequentielles Spiel mit endlich vielen Stufen und perfekter 

Information wird von hinten (durch Rückwärtsinduktion) 

gelöst. 

Monopolist: Gegeben, dass der Zutreter eingetreten ist, 

ist es für mich optimal, den Markt zu teilen. 

Zutreter: Wenn ich zutrete, wird der Monopolist den 

Markt teilen. Also sollte ich zutreten. 

Das Ergebnis der Rückwärtsinduktion ist also (E,n).


Rückwärtsinduktion und Nash-Gleichgewicht 

Das Ergebnis der Rückwärtsinduktion ist ein Nash-GG: 

Gegeben, dass der Zutreter E spielt, ist für den Monopolisten 

n optimal. 

Gegeben, dass der Monopolist n spielt, ist für den Zutreter 

E optimal. 

❅❅ 

Z 

N 

E 

❅ 

M 

❅ 

❅ 

k 

n 

0, 2 0, 2 

-1, -1 2, 1 

Abb. 3.3: Normalform des Marktzutrittsspiels 

Analyse der Normalform zeigt, dass es noch ein zweites 

Nash-GG gibt: (N,k). 

Diese Strategie des Monopolisten ist nicht optimal, wenn 

der Zutreter E spielen sollte. Aber: Im Nash-GG (N,k) tritt 

der Zutreter eben nicht ein, also ist dieser Fall irrelevant. 

Trotzdem ist das Nash-GG (N,k) nicht überzeugend. Der 

Monopolist “droht”, zu kämpfen, falls der Zutreter zutritt.


Das ist eine unglaubwürdige Drohung, weilesnicht 

im Interesse des Monopolisten liegt, sie im Fall des Falles 

tasächlich wahr zu machen. 

Die Unglaubwürdigkeit einer Drohung lässt sich aus der Normalform 

des Spiels nicht erkennen. Darum werden wir bei 

dynamischen Spielen oft die extensive Form des Spiels 

betrachten, die die Zeit- und Informationsstruktur explizit 

macht. 

Ziel: Verfeinerung des Nash-Gleichgewichts. D.h., 

Ausschluss von Gleichgewichten, die unglaubwürdige Drohungen 

enthalten. 

Bevor wir das tun, werden wir aber ein paar weitere Anwendungsbeispiele 

für Rückwärtsinduktion betrachten


3.2 Anwendungsbeispiele für Rückwärtsinduktion 

3.2.1 Stackelberg-Duopol 

Heinrich von Stackelberg (1934) 

1) Unternehmen 1, der Stackelberg-Führer, wählt seine Menge 

x1. 

2) Unternehmen 2, der Stackelberg-Anpasser, beobachtet 

x1 und wählt seine Menge x2. 

3) Auf dem Markt ergibt sich der Preis als Funktion der 

gesamten Menge: p = p(x1 + x2). 

Dieses Modell wird oft verwendet, wenn es auf einem Markt 

einen dominanten Anbieter gibt, an den alle übrigen Anbieter 

ihr Verhalten anpassen. 

Beispiele: 

Saudi-Arabien als größter Ölproduzent legt seine Menge 

als erster fest. Andere Ölproduzenten passen sich an. 

Südafrika: Dominierender Diamantenproduzent De Beers. 

Andere Marktführer: Microsoft, IBM, Telekom, etc., aber 

hier geht es meist um Preis- und/oder Qualitätswettbewerb 

bei heterogenen Gütern.


Das Entscheidungsproblem des Anpassers 

Der Anpasser maximiert seinen Gewinn 

π2 = p(x1 + x2)x2 − c2(x2) 

durch geeignete Wahl von x2. Dabei liegt die Menge x1 

bereits fest und ist bekannt. 

Bedingung erster Ordnung (BEO) für Gewinnmaximum: 

p(x1 + x ∗ 2)+ dp(x1 + x∗ 2) 

x2 = 

dx2 

dc2(x∗ 2) 

dx2 

Diese Bedingung legt die optimale Menge x ∗ 2 als Funktion 

von x1 fest, d.h.: 

x ∗ 2 = R2(x1) 

Die Funktion R2(x1) wird Reaktionsfunktion von Unternehmen 

2 genannt. 

Beispiel: 

Lineare Nachfrage: p(x1 + x2) =a − b · (x1 + x2) 

Konstante Grenzkosten: c1(x) =c2(x) =c · x 

Gewinnfunktion des Anpassers: 

π2 = [a − b(x1 + x2)] · x2 − c · x2 

BEO für Gewinnmaximum: 

a − b(x1 + x2) − bx2 = c


Gewinnfunktion ist streng konkav: 

dπ2 2 

d2x2 = −2b < 0 

Reaktionsfunktion des Anpassers: 

x2 = a − bx1 − c 

2b 

= a − c 

Das Problem des Marktführers 

2b 

− 1 

2 x1 

Der Marktführer kennt das Entscheidungsproblem des Anpassers 

und weiß, dass er die Menge x ∗ 2 = R2(x1) wählen 

wird. Also ist sein Gewinnmaximierungsproblem: 

max 

x1 p(x1 + R2(x1)) · x1 − c1(x1) 

BEO für Gewinnmaximum: 

p(x ∗ 1 + R(x ∗ ⎜ 

1)) + ⎝1+ dR2 

dx1 

⎛ 

⎞ 

⎟ 

⎠ 

dp 

dx x∗ 1 = dc1 

dx1 

Der Stackelberg-Führer berücksichtigt nicht nur, wie eine 

zusätzliche Einheit den Martkpreis direkt senkt, sondern 

auch, wie sie die Menge seines Konkurrenten und damit 

indirekt den Marktpreis beeinflusst.


Im Beispiel: 

Gewinnfunktion des Marktführers: 

π1 =[a−b(x1 + R2(x1))] · x1 − c · x1 

= a − c 

· x1 − 

2 

b 

2 · x21 BEO für Gewinnmaximum: 

a − c 

2 − bx∗1 = 0 

x ∗ a − c 

1 = 

2b 

Nachdem wir die optimale Menge des Stackelberg-Führers 

kennen, können wir sie in die Reaktionsfunktion des Anpassers 

einsetzen, um dessen Menge, die gesamte Menge, und 

denMarktpreiszubestimmen. 

Einsetzen von x ∗ 1 in R2(x1) ergibt: 

x ∗ 2 = 

Die gesamte Menge ist also: 

x1 + x2 = 

Der Marktpreis ergibt sich als: 

p ∗ = 

a − c 

4b 

3(a − c) 

4b 

a +3c 

4


Vergleich zum Cournot-Duopol 

Der Gewinn des Stackelberg-Führers ist immer höher als 

der Gewinn eines Cournot-Duopolisten. Warum? 

Im Stackelberg-Spiel ist der Anpasser besser informiert 

als ein Duopolist im Cournot-Spiel. Er kann beobachten, 

welche Menge der Stackelberg-Führer auf den Markt 

wirft. Trotzdem geht es dem Anpasser schlechter als 

dem Cournot-Duopolisten. Warum? 

In Ein-Personen-Entscheidungssituationen ist es unmöglich, 

dass sich der Entscheidungsträger schlechter stellt, 

wenn er zusätzliche Informationen oder zusätzliche Handlungsmöglichkeiten 

bekommt. 

In interpersonellen Entscheidungssituationen ist es dagegen 

oft besser, weniger Informationen oder weniger 

Handlungsmöglichkeiten zu haben. Beispiele: 

– Cournot- versus Stackelberg-Spiel. 

– Chicken-Spiel: Angenommen, einer der Fahrer kann 

sein Lenkrad aus dem Fenster werfen und sich damit 

die Möglichkeit zum Ausweichen nehmen. 

⇒ Gegenspieler wird ausweichen. 

– Viele andere Beispiele für Selbstbindung (Commitment).


3.2.2 Löhne und Beschäftigung 

Leontief (1946), später in zahlreichen Variationen. 

Zweistufiges Spiel: 

1. Gewerkschaft bestimmt den Lohnsatz, w. 

2. Unternehmen bestimmt die Beschäftigungsmenge, L. 

Auszahlungsfunktionen: 

Gewerkschaft: 

U(w, L), 

streng monoton steigend in w und L, 

quasikonkav (konvexe Indifferenzkurven) 

Unternehmen: 

π(w, L) =R(L) − wL, 

R(L) steigend und streng konkav, 

limL→0 R ′ (L) =∞, 

limL→∞ R ′ (L) =0.


Rückwärtsinduktion 

Unternehmen: 

R 

max R(L) − wL 

L≥0 

BEO (hier notwendig und hinreichend): 

R ′ (L) − w =0 

Die optimale Beschäftigungsmenge L∗ (w) ist eine fallende 

Funktion von w. (Warum?) 

Isogewinnlinien: 

 

 

 

 

 

 

 

 

 

 

 

 

 

R(L) − wL = c ⇒ w = 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

L 

w 

 

 

 

R(L) − c 

L 

Abb. 3.4: Gewinnmaximum und Isogewinnlinien der 

Unternehmung 

 

 

 

L


Gewerkschaft antizipiert L ∗ (w): 

w 

BEO: 

 

 

 

∂U 

∂w 

max 

w≥0 U(w, L∗ (w)) 

∂U dL 

+ 

∂L 

∗ (w) 

dw 

 

 

 

L 

w 

 

 

 

= 0 

Abb. 3.5: Nutzenmaximum der Gewerkschaft, Ineffizienz 

Bemerkungen: 

1) Gewerkschaft sucht sich den besten Punkt auf der Reaktionsfunktion 

des Unternehmens. 

2) Aber das Ergebnis ist ineffizient: Gewerkschaften und 

Unternehmen könnten sich besser stellen, wenn sie den 

 

 

 

L


Lohn etwas verringerten und die Beschäftigung etwas 

erhöhten. 

3) Die Ineffizienz besteht, weil Gewerkschaft und Unternehmen 

nicht über Beschäftigung und Lohnhöhe gleichzeitig 

verhandeln. Warum wird das nicht gemacht? 

3.2.3 Zeitkonsistenz der Geldpolitik 

Barro und Gordon (1983) 

Zweistufiges Spiel zwischen Zentralbank und privatem Sektor: 

1. Die Privaten bilden Inflationserwartungen πe ,diesich 

insbesondere in Tarifabschlüssen niederschlagen. 

2. Die Zentralbank beobachtet πe und entscheidet über die 

Geldpolitik, die die tatsächliche Inflationsrate π determiniert. 

Stark stilisiertes Modell in reduzierter Form. Tarifabschlüsse, 

Transmissionsmechanismus von Geldpolitik auf realen und 

monetären Sektor etc. werden nicht explizit modelliert. 

Stattdessen: Zentralbank möchte die gesamtwirtschaftliche 

Wohlfahrt maximieren, indem sie die Verlustfunktion 

L(u, π) = u + γπ 2 

minimiert. Dabei ist u>0 die Arbeitslosenquote, γ>0.


Die Volkswirtschaft wird durch eine modifizierte Phillipskurve 

beschrieben: 

u = u n − α(π − π e ) 

Die natürliche Arbeitslosenquote u n > 0 wird durch Tarifabschlüsse 

bestimmt. Die Zentralbank kann die tatsächliche 

Inflationsrate perfekt und ohne Zeitverzögerung steuern. 

Die privaten Wirtschaftssubjekte möchten die tatsächliche 

Inflation so gut wie möglich voraussagen: 

Rückwärtsinduktion 

U(π, π e )=−(π − π e ) 2 

Zentralbank: Inflationserwartungen liegen bereits fest. 

BEO: 

Daraus folgt: 

min 

π u n − α(π − π e )+γπ 2 

dL 

dπ 

= −α +2γπ = 0 

π ∗ = α 

2γ 

Beachten Sie: Die “optimale Inflationsrate” für die Zentralbank 

ist in diesem Modell unabhängig von den Inflationserwartungen 

der Privaten.


Private Wirtschaftssubjekte antizipieren π ∗ : 

max 

πe −(π∗ − π e ) 2 

Daraus folgt: 

π e = π ∗ = α 

2γ 

Für die Arbeitslosenquote ergibt sich: 

Bemerkungen: 

u = u n − α(π ∗ − π e ) = u n 

Ergebnis ist ineffizient: u = u n und π =0wäre besser. 

Problem der Zentralbank: Sie kann sich nicht binden, 

eine Inflationsrate von 0 zu wählen. Die Privaten antizipieren, 

dass die Bank ex post einen Anreiz hat, zu 

inflationieren. 

Der Anreiz zu inflationieren besteht, obwohl die Privaten 

die Inflation perfekt voraussehen und sie darum keine für 

die Zentralbank positiven Effekte hat. 

Regelgebundene Geldpolitik: Wenn die Zentralbank eine 

“Reputation” dafür aufbauen könnte, nie zu inflationieren, 

würde sie sich besserstellen. Siehe dazu das Kapitel 

über wiederholte Spiele.


3.3 Die extensive Form eines Spiels 

Definition 3.1 (Extensive Form) Die extensive 

Form eines Spiels spezifiziert: 

(1) die Menge der Spieler {1,...,n}; 

(2a) zu welchem Zeitpunkt welcher Spieler am 

Zug ist; 

(2b) welche Aktionen einem Spieler zur Verfügung 

stehen, wenn er am Zug ist; 

(2c) was ein Spieler weiß, wenn er am Zug ist; 

(3) die Auszahlung eines jeden Spielers für jede 

mögliche Kombination von Zügen. 

Die Definition der extensiven Form ist ganz analog zu der 

der Normalform. Einziger Unterschied: Die Beschreibung 

der Strategienräume kann sehr viel komplexer sein. 

Spiele in extensiver Form können mit Hilfe eines Spielbaums 

beschrieben werden.


Ein Spielbaum besteht einer Menge von geordneten und 

miteinander verbundenen Knoten: 

Entscheidungsknoten: Hier kann genau ein Spieler 

aus einer Menge von Aktionen auswählen. Jede Aktion 

führt zu einem neuen Entscheidungs- oder Endknoten. 

Endknoten: Hier endet das Spiel, und Auszahlungen 

werden zugeordnet. 

Der Spielbaum beginnt mit genau einem Anfangs-Entscheidungsknoten. 

Wir werden immer annehmen, dass ein Spielbaum sich echt 

verzweigt: 

Er wächst nicht in sich selbst zurück (keine Zyklen); 

Zweige wachsen nicht wieder zusammen (keine gemeinsamen 

Vorgänger). 

Gegenbeispiele?


Zufallszüge der Natur 

In vielen Spielen gibt es exogene Unsicherheit. Wir können 

das modellieren, indem wir einen zusätzlichen Spieler, die 

“Natur”, einführen, die aus der Menge der möglichen Zustände 

der Welt einen nach einer gegebenen Wahrscheinlichkeitsverteilung 

auswählt. 

Z 

① 

 

 

 

0 

2 

N E 

Natur 

① 

1 

1 

2 

2 

M M 

① 

 

① 

 

 

 

 

 

3 

 

−1 

 

1 

3 −1 1 

k n k n 

0 

0 

Abb. 3.6: Marktzutrittsspiel mit exogener Unsicherheit 

Nach der Zutrittsentscheidung realisiert sich der Zustand 

der Welt: 

ist die Nachfrage groß, beide 

können hohe Gewinne machen. 

Mit Wahrscheinlichkeit 1 

2 

ist die Nachfrage niedrig, beide 

machen bei Wettbewerb Verluste. 

Mit Wahrscheinlichkeit 1 

2


Informationsmengen 

Definition 3.2 (Informationsmenge) Eine Informationsmenge 

ist eine Menge von Entscheidungsknoten 

mit den Eigenschaften: 

Bei allen Entscheidungsknoten einer Informationsmenge 

ist derselbe Spieler am Zug. 

Ein Spieler kann die verschiedenen Knoten einer 

Informationsmenge nicht unterscheiden. Insbesondere 

hat er an jedem Knoten einer Informationsmenge 

dieselbe Menge von Aktionen. 

Jeder Entscheidungsknoten gehört zu genau einer 

Informationsmenge. 

Beispiele: 

 

1 

① 

2 

① 

 

g ℓ 

 

 

−3 

−3 

 

G L 

2 

g ℓ 

 

0 

 

−5 

−5 

0 

① 

 

 

 

−1 

−1 

Abb. 3.7: Das Gefangenen-Dilemma


① 

 

① 

 

① 

 

① 

 

① 

 

① 

 

 

 

 

 

 

1 

2 2 

1 1 1 1 

① 

 

 

 

Abb. 3.8: Mögliche und unmögliche Informationsmengen 

Wenn ein Spiel nur einelementige Informationsmengen enthält, 

sprechen wir von einem Spiel mit perfekter Information 

(nicht zu verwechseln mit vollständiger Information). 

Gibt es mehrelementige Informationsmengen sprechen wir 

von einem Spiel mit imperfekter Information (nicht zu 

verwechseln mit unvollständiger Information). 

Strategien 

Definition 3.3 (Strategie) Eine Strategie ist ein 

vollständig konditionierter Aktionsplan: Für jede Informationsmenge, 

in der der Spieler am Zug ist, spezifiziert 

sie eine mögliche Aktion, d.h., sie konditioniert 

die Aktion auf die von Spieler i beobachtete 

bisherige Geschichte des Spiels.


Beispiele: 

1 

① 

2 

① 

 

ℓ r 

 

 

3 

1 

1 

2 

L R 

2 

1 

① 

ℓ 

 

 

2 

r 

 

0 

0 

Abb. 3.9: Strategien in einem Spiel mit perfekter 


Spieler 1 hat 2 Strategien: L, R 

Spieler 2 hat 4 Strategien: ℓℓ, ℓr, rℓ, rr 

❅❅ 

❅ 

❅ 

❅ 

1 

L 

R 

2 

ℓℓ ℓr rℓ rr 

3, 1 3, 1 1, 2 1, 2 

2, 1 0, 0 2, 1 0, 0 

Abb. 3.10: Normalform dieses Spiels


① 

L R 

 

① 

 

① 

ℓ r 

ℓ 

 

① 

 

① 

 

① 

 

 

 

 

 

 

1 

2 2 

r 

1 1 1 1 

L ′ R ′ L ′ R ′ L ′′ R ′′ L ′′ R ′′ 

① 

 

 

 

Abb. 3.11: Strategien in einem Spiel mit imperfekter 


Strategien von Spieler 1: 

Strategien von Spieler 2: 

Jedes Spiel in extensiver Form kann in ein Spiel in Normalform 

überführt werden. 

Aber: Zu einem Spiel in Normalform können mehrere verschiedene 

Spiele in extensiver Form existieren.


3.4 Teilspielperfekte Gleichgewichte 

Definition 3.4 (Teilspiel) Ein Teilspiel eines Spiels 

in extensiver Form 

a) beginnt in einem Entscheidungsknoten K einer 

einelementigen Informationsmenge, 

b) beinhaltet alle Entscheidungs- und Endknoten, 

die K nachfolgen, aber keine Knoten, die K nicht 

nachfolgen, 

c) durchtrennt keine nachfolgenden Informationsmengen. 

① 

L R 

 

① 

 

① 

ℓ r 

ℓ 

 

① 

 

① 

 

① 

 

 

 

 

 

 

1 

2 2 

r 

1 1 1 1 

L ′ R ′ L ′ R ′ L ′′ R ′′ L ′′ R ′′ 

Abb. 3.12: Teilspiele 

①


Intuitiv ist ein Teilspiel einfach ein Teil des gesamten Spiels, 

der in einem Knoten beginnt und alle nachfolgenden Knoten 

enthält. An diesem Knoten muss die gesamte bisherige 

Geschichte des Spiels dem Spieler, der hier am Zug ist, bekannt 

sein. 

Ein Teilspiel kann isoliert betrachtet und analysiert werden. 

Die folgende Definition stammt von Reinhard Selten (1965). 

Definition 3.5 (Teilspielperfekte GG) Ein Nash- 

Gleichgewicht ist teilspielperfekt, wenn die Strategien 

der Spieler in jedem Teilspiel ein Nash-Gleichgewicht 

bilden. 

Beispiel: 

1 

① 

2 

① 

 

ℓ r 

 

 

3 

1 

1 

2 

L R 

2 

1 

① 

ℓ 

 

 

2 

r 

 

0 

0 

Abb. 3.13: Teilspielperfektes Nash-Gleichgewicht


Analyse der Teilspiele: 

Gegeben, dass Spieler 1 L gewählt hat, sollte 2 r spielen. 

Gegeben, dass Spieler 1 R gewählt hat, sollte 2 ℓ spielen. 

Gegeben das Verhalten von 2 sollte 1 R spielen. 

Das teilspielperfekte Nash-Gleichgewicht ist (R, rl). 

Beachten Sie: 

Der Gleichgewichtspfad ist (R, l) 

Aber: Das Gleichgewicht muss auch angeben, was außerhalb 

des Gleichgewichtspfades passieren würde. Darum 

ist das Gleichgewicht (R, rl). 

Es existiert ein zweites Nash-Gleichgewicht: (L, rr). 

Aber, dieses Nash-GG ist nicht teilspielperfekt. Es enthält 

die unglaubwürdige Drohung, dass Spieler 2 r spielt, 

sollte Spieler 1 R spielen. 

Teilspielperfektheit ist nicht nur für Spiele mit perfekter 

Information, sondern auch für beliebige Spiele mit 

imperfekter Information wohldefiniert.


Satz 3.1 Jedes endliche Spiel in extensiver Form 

hat wenigstens ein teilspielperfektes Nash-Gleichgewicht. 

Beweisskizze: Der Beweis ist konstruktiv und zeigt, wie man 

ein teilspielperfektes Gleichgewicht finden kann. Das Verfahren 

ist eine Verallgemeinerung der Rückwärtsinduktion. 

1) Beginne am Ende des Spielbaums und bestimme für 

alle letzten Teilspiele die Nash-Gleichgewichte. Da es 

sich bei diesen letzten Spielen um endliche Spiele handelt, 

muss in jedem von ihnen wenigstens ein Nash- 

Gleichgewicht (eventuell in gemischten Strategien) existieren. 

2) Wähle für jedes dieser Teilspiele ein Nash-Gleichgewicht 

aus und ersetze das Teilspiel durch den Vektor der Gleichgewichtsauszahlungen. 

3) Wiederhole diese Schritte für das reduzierte Spiel solange, 

bis alle Züge im gesamten Spiel bestimmt sind. 

Damit ist ein teilspielperfektes Nash-Gleichgewicht gefunden.


Satz 3.2 Jedes endliche Spiel in extensiver Form 

mit perfekter Information hat generisch ein eindeutiges 

teilspielperfektes Nash-Gleichgewicht. 

Beweis: Bei perfekter Information gibt es auf jeder Stufe 

der Rückwärtsinduktion nur einfache Ein-Personen-Entscheidungsprobleme. 

Da diese Probleme endlich sind, haben 

sie eine Lösung. Generisch führen unterschiedliche Aktionen 

nie zu denselben Auszahlungen. Also gibt es auf jeder Stufe 

eine eindeutige optimale Aktion, und folglich auch ein 

eindeutiges Nash-Gleichgewicht. 

Bemerkungen: 

1. Dieser Satz wurde schon von Zermelo (1913) bewiesen. 

2. Bei Spielen mit imperfekter Information kann es natürlich 

mehrdeutige Gleichgewichte in einem Teilspiel geben. 

Die Menge aller TPGG im gesamten Spiel erhält man, 

indem man die Rückwärtsinduktion mit jeder möglichen 

Kombination aller möglichen Gleichgewichte durchführt.


Beispiel: Ein Spiel mit imperfekter Information 

Betrachten Sie das folgende Spiel mit zwei Perioden, bei 

dem die Spieler in der ersten Periode ein Gefangenen-Dilemma 

und in der zweiten Periode ein Koordinationsspiel spielen: 

❅❅ 

A 

B 

cooperate defect 

❅ 

❅ 

❅ 

cooperate 

defect 

❅❅ 

A 

L 

R 

❅ 

B 

❅ 

❅ 

2, 2 -1, 3 

3, -1 0, 0 

ℓ 

r 

x, x 0, 0 

0, 0 

y, y 

Fig. 4.12: SPE of a Game of Imperfect Information 

Was sind die teilspielperfekten Gleichgewichte dieses Spiels? 

Unter welcher Annahme an x und y kann ein teilspielperfektes 

Gleichgewicht gestützt werden, bei dem die beiden 

Spieler in der ersten Periode kooperieren?


3.5 Teilspielperfektheit und Rationalität 

Teilspielperfektheit erfordert, dass es “Common Knowledge” 

ist, dass alle Spieler rational sind. Betrachten Sie das 

folgende Spiel: 

1 

① 

L R 

2 

 

① 

 

2 ℓ r 

0 

1 

 

① 

 

1 

1 

 

 

3 

0 

L ′ R ′ 

 

0 

2 

Abb. 3.14: Rationalität und Rückwärtsinduktion 

Rückwärtsinduktion ergibt, dass Spieler 1 L spielen und das 

Spiel damit beenden sollte. Begründung: Wenn Spieler 1 R 

spielt, sollte Spieler 2 ℓ spielen, denn würde er r spielen, 

würde Spieler 1 in der letzten Runde L ′ spielen. 

Angenommen, Spieler 1 spielt dennoch R. 

Zeigt er damit nicht, dass er irrational ist? 

Wenn Spieler 1 aber irrational ist, sollte Spieler 2 dann


nicht vielleicht doch lieber r spielen, in der Hoffnung, 

dass Spieler 1 sich in der letzten Runde ebenfalls irrational 

verhält und R ′ spielt? 

Wenn Spieler 2 durch diese Argumentation verleitet wird, 

r zu spielen, sollte dann nicht auch ein rationaler Spieler 

1 R in Runde 1 spielen? 

Rückwärtsinduktion ist nur solange überzeugend, solange 

Abweichungen vom Rückwärtsinduktionspfad rational erklärt 

werden können. Das hat Selten (1975) motiviert, das 

Konzept des “perfekten Gleichgewichts” einzuführen: 

1) Es ist common knowledge, beide Spieler sind rational. 

2) Aber: Beide Spieler machen mit sehr kleinen Wahrscheinlichkeiten 

Fehler: ihre Hände zittern bei der Auswahl 

der Strategien. Mit Wahrscheinlichkeit 1 − ɛ spielt jeder 

Spieler die intendierte Strategie, aber mit Wahrscheinlichkeit 

ɛ macht er einen Fehler und wählt eine andere 

(zufällig ausgewählte) Strategie. Die Wahl von R kann 

dann als nicht intendierter Fehler von 1 interpretiert werden 

und bedeutet nicht, dass 1 irrational ist. 

3) Ein perfektes Gleichgewicht ist der Limes einer Folge 

von Gleichgewichten, in denen jeder Spieler mit Wahrscheinlichkeit 

ɛ einen Fehler macht, wenn ɛ gegen 0 konvergiert.


Das folgende Spiel soll noch einmal darauf hinweisen, dass 

Teilspielperfektheit nicht immer völlig plausibel sein muss. 

Spieler 1 und 2 sind abwechselnd am Zug und können jedesmal 

entscheiden, ob das Spiel enden oder weitergehen 

soll. 

1 2 1 2 1 2 

①①① ① 

① 

① 

 

w w w 

w w 

s s s 

s s 

 

 

 

 

 

 

1 

1 

0 

3 

 

2 

 

97 

2 

100 

s 

 

99 

 

98 

99 101 

Abb. 3.15: Rosenthals Hundertfüßler 

w 

 

100 

100 

Das eindeutige TPGG ist, dass jeder Spieler das Spiel beendet, 

wenn er zum Zug kommt. 

Was passiert, wenn Spieler 1 das Spiel in Periode 1 nicht 

beendet? Sollte Spieler 2 sich dennoch an das Gleichgewicht 

halten? 

Ob dieses TPGG überzeugend ist oder nicht, hängt entscheidend 

davon ab, wie die Spieler Abweichungen vom Gleichgewichtspfad 

interpretieren.


3.6 Ein Zermürbungskrieg 

Das klassische Beispiel für einen Zermürbungskrieg stammt 

aus der Biologie (Maynard Smith, 1974): Kampf zweier Tiere 

um ein Territorium. 

Wir betrachten dieses Spiel nur in diskreter Zeit mit unendlichem 

Horizont: 

Folge von Zeitpunkten: t =0, 1, 2,... 

In jeder Periode entscheiden beide Spieler simultan, ob sie 

“kämpfen” oder “aufgeben” sollen. 

Wenn beide kämpfen, verlieren beide eine Nutzeneinheit 

pro Periode, und das Spiel geht weiter. 

Wenn einer aufgibt, der andere aber nicht, erhält der 

Gewinner einer Preis im Wert v, der Verlierer nichts, 

und das Spiel ist zu Ende. 

Wenn beide gleichzeitig aufgeben, sind beide Verlierer 

und erhalten beide nichts. 

Auszahlungen: Sei ˆt die Periode, in der der Verlierer aufgegeben 

hat. 

Verlierer: 

uv(ˆt) =−(1 + δ + ···+ δ ˆt−1 ) · 1=− 1 − δ ˆt 

1 − δ


Gewinner: 

ug(ˆt) =−(1+δ +···+δ ˆt−1 ˆt 1 − δ 

)·1+δ v = − ˆt 

1 − δ +δˆt v 

Existiert ein symmetrisches, stationäres TPGG? 

Ja, aber nur in gemischten Strategien. 

Angenommen beide Spieler geben in jeder Periode mit Wahrscheinlichkeit 

p auf und kämpfen mit Wahrscheinlichkeit 

1 − p. 

Diese Strategien sind nur dann ein Gleichgewicht, wenn jeder 

Spieler in jeder Periode indifferent ist, ob er aufgeben 

oder weiterkämpfen soll. Also muss in jeder Periode t gelten: 

Interpretation: 

0=pv+(1− p) · [−1+δ · 0] 

Die bisher verlorenen Nutzeneinheiten sind “sunk costs”. 

Wir brauchen also nur Auszahlungen zu betrachten, die 

von der jetzigen Periode an erhalten werden. 

0 ist die Auszahlung, wenn ich heute aufgebe. 

Wenn ich nicht aufgebe, gibt es zwei Möglichkeiten: 

– Mit Wahrscheinlichkeit p gibt mein Gegner auf, und 

ich bekomme v.


– Mit Wahrscheinlichkeit 1 − p gibt er nicht auf, was 

mich diese Runde eine Nutzeneinheit kostet. In der 

nächsten Runde bin ich dann wieder indifferent zwischen 

Aufgeben und Kämpfen. Also ist der Folge- 

Payoff ab der nächsten Runde genau 0. 

Auflösen ergibt: 

Bemerkungen: 

p ∗ = 1 

1+v 

1) Je höher der Preis v, um so kleiner ist die Wahrscheinlichkeit 

des Aufgebens. 

2) Das Ergebnis ist ineffizient, weil mit positiver Wahrscheinlichkeit 

gekämpft wird. Mit positiver Wahrscheinlichkeit 

sind die Kosten des Kämpfens sogar höher als 

der zu gewinnende Preis. 

3) Es gibt noch andere TPGG. Beispiel: Spieler 1 wird immer 

kämpfen, Spieler 2 wird immer aufgeben. Insbesondere 

sind alle stationären Nash-Gleichgewichte auch 

teilspielperfekt. 

4) Aber: Das Gleichgewicht, dass wir oben charakterisiert 

haben, ist das einzige symmetrische Gleichgewicht.


3.7 Das “Einmal-Abweichungsprinzip” 

In den bisherigen Beispielen war es relativ einfach, zu prüfen, 

ob ein Strategientupel (s ∗ 1,...,s ∗ n) ein TPGG ist. In komplizierteren 

Spielen kann das jedoch sehr aufwendig sein. Der 

folgende Satz macht uns das Leben erheblich leichter: 

Satz 3.3 (Einmal-Abweichungsprinzip) Ein Strategientupel 

s ∗ ist teilspielperfekt genau dann, wenn 

es für keinen Spieler i eine Strategie ˜si gibt, die sich 

von s ∗ i nur in einer Periode t und nach einer Geschichte 

h t unterscheidet, und die echt besser ist als 

s ∗ i , wenn das Teilspiel nach h t erreicht wird. 

Bemerkungen: 

1) Es ist offensichtlich, dass die Bedingung notwendig für 

Teilspielperfektheit ist. Gäbeeseinesolcheprofitable 

Abweichungsstrategie ˜si, dann kann sicher kein TPGG 

vorliegen. (Achtung: Es könnte immer noch ein Nash- 

Gleichgewicht vorliegen, falls die Geschichte h t auf dem 

Gleichgewichtspfad nicht erreicht wird.) 

2) Es ist nicht offensichtlich, dass die Bedingung auch hinreichend 

für Teilspielperfektheit ist. Angenommen, es 

gäbe keine profitable Strategie ˜si, die nur in einer Informationsmenge 

von s ∗ i abweicht. Dann könnte es immer


noch eine Strategie ˆsi geben, die an mehreren Informationsmengen 

gleichzeitig von s ∗ i abweicht und echt besser 

als s ∗ i ist. 

3) Wenn wir den Satz bewiesen haben, können wir uns das 

Leben in Zukunft sehr viel leichter machen: Wir müssen 

nur noch prüfen, ob es Abweichungsstrategien gibt, die 

profitabel an nur einer Informationsmenge abweichen. 

Das ist besondern nützlich bei wiederholten Spielen. 

4) Wir führen den Beweis für Spiele mit endlichem Horizont. 

Der Beweis für Spiele mit unendlichem Horizont 

wird nur skizziert. Siehe Fudenberg-Tirole, S. 107-110. 

Beweis (durch Widerspruch): Angenommen, wir haben ein 

Strategientupel s ∗ , das der Bedingung des Einmal-Abweichungsprinzips 

genügt, das aber nicht teilspielperfekt ist. 

Dann existiert ein Zeitpunkt t und eine Geschichte h t ,so 

dass es für einen Spieler i eine Strategie ˆsi gibt, die nach 

h t echt besser gegen s ∗ −i ist als s ∗ i und an wenigstens zwei 

Informationsmengen von s ∗ i abweicht. 

Wir suchen jetzt die “letzte” Informationsmenge, an der eine 

Abweichung von s ∗ i echt profitabel ist: Betrachte den 

letzten Zeitpunkt, an dem es eine Informationsmenge gibt, 

in der ˆsi von s ∗ i abweicht. Wenn ˆsi zu keiner strikten Verbesserung 

führt, falls diese Informationsmenge erreicht wird,


dann ersetze diesen Teil von ˆsi durch den entsprechenden 

Teil von s ∗ i und gehe zur nun “letzten” Informationsmenge 

mit einer Abweichung. Tue das solange, bis die “letzte” Informationsmenge 

gefunden ist, in der ˆsi echt besser ist als 

s ∗ i . Die Geschichte, die zu dieser Informationsmenge führt, 

nennen wir ˜ h ˜t . 

Betrachte jetzt eine Strategie ˜si,diemits ∗ i in allen Informationsmengen 

übereinstimmt, bis auf diejenige im Anschluss 

an ˜ h ˜t , die wir im letzten Abschnitt gefunden haben. An dieser 

Informationsmenge stimmt die Strategie mit ˆsi überein. 

In allen folgenden Informationsmengen ist sie aber wieder 

identisch mit s ∗ i . Aufgrund unserer Konstruktion muss gelten: 

˜si ist gegen s ∗ −i echt besser als s ∗ i ,wenn ˜ h ˜t erreicht wird. 

˜si weicht von s ∗ i in nur einer einzigen Informationsmenge 

ab. 

Also ist eine profitable Abweichung mit einfacher Abweichung 

gefunden. Das ist ein Widerspruch zu der Annahme, 

dass s ∗ i die Bedingung des Einmal-Abweichungsprinzips 

erfüllt. 

Q.E.D.


Beweisskizze für Spiele mit unendlichem Horizont: 

Bei unendlichem Horizont muss es keine “letzte” Informationsmenge 

mit einer profitablen Abweichung geben. Was 

dann? 

Wenn die Strategie ˆsi gegen s ∗ −i echt besser ist als s ∗ i ,dann 

existiert ein ɛ>0, sodass 

ui(ˆsi,s ∗ −i | h t ) >ui(s ∗ i ,s ∗ −i | h t )+ɛ. 

Wenn die Spieler zukünftige Auszahlungen diskontieren, dann 

existiert ein t

3 Dynamische Spiele mit vollständiger Information 3.1 ...

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?