28.01.2015 Aufrufe

Strategien im Gefangenen-Dilemma

Strategien im Gefangenen-Dilemma

Strategien im Gefangenen-Dilemma

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

<strong>Strategien</strong> <strong>im</strong> <strong>Gefangenen</strong>-<strong>Dilemma</strong><br />

Volkswirtschaftliches Hauptseminar<br />

Angewandte Mikroökonomik<br />

Sommersemester 2001<br />

Friedrich-Alexander-Universität Erlangen-Nürnberg<br />

Institut für Wirtschaftswissenschaften<br />

Prof. Dr. Kähler<br />

Sebastian Dietze<br />

Trautenauer Str. 25<br />

91315 Höchstadt<br />

09193/7735<br />

7735@gmx.de


Gliederung<br />

1 Einführung in die Spieltheorie .......................................1<br />

1.1 Ziel der Seminararbeit....................................................................................... 1<br />

1.2 Definition der Spieltheorie................................................................................ 1<br />

1.3 Historische Entwicklung................................................................................... 2<br />

2 Das <strong>Gefangenen</strong>-<strong>Dilemma</strong> in der Theorie .....................4<br />

2.1 Das einfache <strong>Gefangenen</strong>-<strong>Dilemma</strong> ................................................................. 4<br />

2.2 Das wiederholte <strong>Gefangenen</strong>-<strong>Dilemma</strong>............................................................ 5<br />

2.2.1 Das zweirundige <strong>Gefangenen</strong>-<strong>Dilemma</strong>................................................... 6<br />

2.2.2 Das n-rundige <strong>Gefangenen</strong>-<strong>Dilemma</strong> ....................................................... 7<br />

2.2.3 Unbest<strong>im</strong>mt oft gespieltes <strong>Gefangenen</strong>-<strong>Dilemma</strong>.................................... 7<br />

2.2.4 Unendlich oft gespieltes <strong>Gefangenen</strong>-<strong>Dilemma</strong> ....................................... 9<br />

2.3 Superspiel-<strong>Strategien</strong> ........................................................................................ 9<br />

3 Axelrods Computerturniere .........................................11<br />

3.1 Axelrods erstes Turnier................................................................................... 11<br />

3.1.1 Teilnehmer und Regeln........................................................................... 11<br />

3.1.2 Turniersieger ........................................................................................... 12<br />

3.1.3 Gründe für den Triumph von Tit-for-Tat................................................ 12<br />

3.2 Axelrods zweites Turnier................................................................................ 13<br />

3.2.1 Teilnehmer und Regeln........................................................................... 13<br />

3.2.2 Turniersieger ........................................................................................... 13<br />

3.3 Die ökologische Analyse ................................................................................ 14<br />

3.3.1 <strong>Strategien</strong> als Population......................................................................... 14<br />

3.3.2 Abhängigkeit von der Umgebung........................................................... 15<br />

3.4 Tit-for-Tats Schwächen................................................................................... 18<br />

3.4.1 Unnötige Kooperation mit blinden <strong>Strategien</strong> ........................................ 18<br />

3.4.2 Mißverständnisse .................................................................................... 19<br />

3.4.3 Unerfüllbare Forderungen an Tit-for-Tat................................................ 20<br />

II


4 Wege aus dem <strong>Gefangenen</strong>-<strong>Dilemma</strong> ..........................21<br />

4.1 Ratschläge für die Spieler ............................................................................... 21<br />

4.2 Einfluß des Reformers .................................................................................... 22<br />

5 Bedeutung des <strong>Gefangenen</strong>-<strong>Dilemma</strong>s ........................25<br />

5.1 Stellungskrieg.................................................................................................. 25<br />

5.2 Das OPEC-Kartell........................................................................................... 26<br />

5.3 Biologie........................................................................................................... 26<br />

5.4 Fazit................................................................................................................. 27<br />

6 Literaturverzeichnis ......................................................28<br />

7 Anhang............................................................................30<br />

7.1 Grundbegriffe der Spieltheorie ....................................................................... 30<br />

7.1.1 Fachtermini ............................................................................................. 30<br />

7.1.2 Die Rationalitätshypothese ..................................................................... 32<br />

7.1.3 Grundlegende Spielsituation................................................................... 32<br />

7.1.4 Spielarten................................................................................................. 33<br />

7.1.5 Dominante <strong>Strategien</strong>.............................................................................. 33<br />

7.1.6 Das Nash-Gleichgewicht......................................................................... 33<br />

7.1.7 Pareto-Effizienz ...................................................................................... 35<br />

7.2 <strong>Strategien</strong>......................................................................................................... 35<br />

7.3 Axelrods erstes Computerturnier .................................................................... 40<br />

Version 1.08 vom 14.05.2002<br />

Auf www.joach<strong>im</strong>-dietze.de ist die aktuellste Version stets herunterladbar.<br />

Ebenfalls vom selben Autoren erschienen: „Der Börsenkrach vom Oktober 1987“.<br />

III


Tabellenverzeichnis<br />

Tabelle 1: Das <strong>Gefangenen</strong>-<strong>Dilemma</strong>.................................................................... 4<br />

Tabelle 2: Die zweite Runde <strong>im</strong> zweirundigen <strong>Gefangenen</strong>-<strong>Dilemma</strong> ................. 6<br />

Tabelle 3: Die erste Runde <strong>im</strong> zweirundigen <strong>Gefangenen</strong>-<strong>Dilemma</strong> .................... 6<br />

Tabelle 4: Mißverständnis bei Tit-for-tat............................................................. 19<br />

Tabelle 5: Eine allgemeine Spielmatrix............................................................... 32<br />

Tabelle 6: Spielmatrix mit dominanter Strategie ................................................. 33<br />

Tabelle 7: Ein eindeutiges Nash-Gleichgewicht.................................................. 34<br />

Abbildungsverzeichnis<br />

Abbildung 1: Ökologische S<strong>im</strong>ulation mit Cooperate, Defect und Random ...... 16<br />

Abbildung 2: Ökologische S<strong>im</strong>ulation mit Cooperate, Defect, Random und Titfor-tat............................................................................................................<br />

16<br />

Abbildung 3: Ökologische S<strong>im</strong>ulation mit 15 <strong>Strategien</strong>.................................... 17<br />

Abbildung 4: Axelrods erstes Turnier: Teilnehmer ............................................. 40<br />

Abbildung 5: Axelrods erstes Turnier: Endstand................................................. 41<br />

IV


1 Einführung in die Spieltheorie<br />

1.1 Ziel der Seminararbeit<br />

Diese Seminararbeit befaßt sich mit dem <strong>Gefangenen</strong>-<strong>Dilemma</strong>, dem<br />

berühmtesten Fall-Beispiel der Spieltheorie. Ich werde theoretische und<br />

computerexper<strong>im</strong>entelle Ergebnisse aufführen, um <strong>Strategien</strong> <strong>im</strong> <strong>Gefangenen</strong>-<br />

<strong>Dilemma</strong> zu analysieren. Bevor ich die Problematik des <strong>Gefangenen</strong>-<strong>Dilemma</strong>s<br />

erläutere, gehe ich zunächst kurz auf die geschichtliche Entwicklung der<br />

Spieltheorie ein, um den Leser einzuführen.<br />

Nachdem dann die Theorie des wiederholten <strong>Gefangenen</strong>-<strong>Dilemma</strong>s aufgeführt<br />

wird, bewerte ich <strong>im</strong> dritten Kapitel die Ergebnisse von Robert Axelrods<br />

Computer-Turnieren. Axelrod analysierte <strong>Strategien</strong> und erarbeitete so<br />

Verhaltensregeln zur Förderung der Kooperation.<br />

Durch reale Beispiele <strong>im</strong> Stellungskrieg, be<strong>im</strong> OPEC-Kartell und in der Biologie<br />

wird <strong>im</strong> fünften Kapitel die Bedeutung des <strong>Gefangenen</strong>-<strong>Dilemma</strong>s aufgezeigt.<br />

Ziel dieser Seminararbeit ist somit nicht nur, theoretische Lösungshilfen zu<br />

geben, sondern auch die Anwendbarkeit der Theorie und der Empirie auf reale<br />

Beispiele zu übertragen. 1<br />

1.2 Definition der Spieltheorie<br />

Die Spieltheorie, ein Teilgebiet der Mikroökonomie, befaßt sich mit der Analyse<br />

menschlichen Verhaltens in strategischen Situationen. Mehrere Spieler, die<br />

konfligierende Interessen haben und ihren Gewinn max<strong>im</strong>ieren wollen, stehen<br />

vor verschiedenen Entscheidungsmöglichkeiten. Die typische Problematik liegt<br />

darin, daß der eigene Gewinn auch vom Verhalten der anderen Parteien abhängt.<br />

Die Spieltheorie, die für den Spieler die opt<strong>im</strong>ale Strategie finden soll, ist ein<br />

theoretisches Instrument zur Analyse solcher strategischer Entscheidungen.<br />

1 Die Grundbegriffe der Spieltheorie (die vorausgesetzt werden) sind <strong>im</strong> Anhang, Kapitel 7.1 aufgeführt<br />

1


1.3 Historische Entwicklung<br />

Im 18. Jahrhundert wurden die ersten entscheidungs- und spieltheoretischen<br />

Ansätze entwickelt. An den Analysen (zunächst wurden meist Verhaltenswege in<br />

Gesellschaftsspielen wie Schach und Kartenspielen bewertet) waren<br />

hauptsächlich Wissenschaftler aus der Ökonomie und der Mathematik beteiligt.<br />

Jedoch gilt erst das Jahr 1944, als der Mathematiker John von Neumann<br />

gemeinsam mit dem Ökonomen Oskar Morgenstern das fundamentale Werk<br />

„The Theory of Games and Economic Behaviour“ veröffentlichte, als das<br />

Geburtsjahr der Spieltheorie. In ihrem Werk wurden vor allem Zwei-Personen-<br />

Spiele und Nullsummenspiele dargestellt. Die Anwendung der Spieltheorie fand<br />

pr<strong>im</strong>är in den Wirtschaftswissenschaften statt.<br />

John von Neumann (*1903 †1957) Oskar Morgenstern (*1902 †1977)<br />

John Forbes Nash, ein US-amerikanischer Mathematiker, unterschied 1950<br />

erstmals zwischen kooperativen und nicht-kooperativen Spielen. Er bewies die<br />

Existenz eines <strong>Strategien</strong>-Gleichgewichts, das grundlegend für die nichtkooperativen<br />

Spiele wurde und seitdem Nash-Gleichgewicht genannt wird. 2<br />

Die Problematik des <strong>Gefangenen</strong>-<strong>Dilemma</strong>s (engl. Prisoner’s <strong>Dilemma</strong>) ist seit<br />

Jahrhunderten bekannt. Thomas Hobbes war der Ansicht, daß Kooperation in der<br />

Welt von Egoisten nur durch einen zentralen Herrschaftsstab möglich sei. 3<br />

2 Vgl. Nasar (1999), eine hervorragende Biographie Nashs (wurde mit Russell Crowe verfilmt. 2002 <strong>im</strong> Kino!)<br />

3 Vgl. Axelrod (2000) S. 3<br />

2


Eine wissenschaftliche Analyse des <strong>Gefangenen</strong>-<br />

<strong>Dilemma</strong>s erfolgte erst ab 1950. Im Jahr 1980<br />

erschien Robert Axelrods „The Evolution of<br />

Cooperation“, das als Hauptquelle dieser Arbeit<br />

dient. Seine empirische Analyse durch zwei<br />

Computer-Turniere gibt Erklärungen für scheinbar<br />

irrationale Kooperation zwischen egoistischen<br />

Spielern <strong>im</strong> wiederholten <strong>Gefangenen</strong>-<strong>Dilemma</strong>.<br />

Axelrod gibt Vorschläge zur Kooperationsförderung<br />

und nennt reale Beispiele aus Krieg und Biologie.<br />

Robert Axelrod<br />

Die praktische Anwendbarkeit der Spieltheorie dehnt sich heute vom<br />

Alltagsleben, der Ökonomie, der Mathematik, der Biologie und der Philosophie<br />

bis auf die Bereiche Politik- und Militärwissenschaft, Marketing, Soziologie und<br />

Psychologie aus. Die Spieltheorie stellt als ein Teilgebiet der Entscheidungstheorie<br />

einen der Hauptzweige der Mikroökonomie dar.<br />

1994 fand die Spieltheorie endgültig wissenschaftliche Anerkennung: John F.<br />

Nash und die beiden Wirtschaftswissenschaftler Reinhard Selten (Bonn) und<br />

John Charles Harsanyi (USA) wurden für ihre Forschung auf dem Gebiet der<br />

Spieltheorie mit dem Nobelpreis für Wirtschaftswissenschaften ausgezeichnet.<br />

Reinhard Selten (*1930) John C. Harsanyi (*1920 †2000) John F. Nash (*1928)<br />

3


2 Das <strong>Gefangenen</strong>-<strong>Dilemma</strong> in der Theorie<br />

2.1 Das einfache <strong>Gefangenen</strong>-<strong>Dilemma</strong><br />

Das folgende Beispiel ist der Namensgeber des <strong>Gefangenen</strong>-<strong>Dilemma</strong>s:<br />

Zwei Personen haben gemeinsam ein Verbrechen begangen, wurden gefaßt, in<br />

getrennte Zellen gesperrt und dem Richter vorgeführt. In diesem nichtkooperativen<br />

Spiel hat jeder Gefangene (Spieler) nun die Wahl, zu gestehen<br />

(defektieren) oder nicht zu gestehen (kooperieren).<br />

Es gibt vier mögliche Spielausgänge:<br />

• Gefangener 1 gesteht, Gefangener 2 gesteht nicht<br />

Gefangener 2 wird wegen des Verbrechens und der Falschaussage für 20<br />

Jahre eingesperrt, Gefangener 1 wird freigelassen (Kronzeugenregelung)<br />

• Gefangener 1 gesteht nicht, Gefangener 2 gesteht<br />

Gefangener 1 wird für 20 Jahre eingesperrt, Gefangener 2 ist frei<br />

• Gestehen beide <strong>Gefangenen</strong>, so werden beide für zehn Jahre inhaftiert<br />

• Gesteht kein Gefangener, so kann man ihnen nicht viel nachweisen und<br />

beide werden wegen geringer Verbrechen für 3 Jahre festgehalten<br />

Jeder Gefangene ist nur daran interessiert, seine eigene Strafe zu min<strong>im</strong>ieren. Die<br />

Strafe des anderen <strong>Gefangenen</strong> beeinflußt seine Entscheidung nicht. Da die<br />

<strong>Gefangenen</strong> möglichst kurz inhaftiert sein wollen, steht in der folgenden<br />

Spielmatrix eine hohe Punktzahl für eine geringe Haftstrafe.<br />

Gefangener 2<br />

Defektieren<br />

Kooperieren<br />

Gefangener 1<br />

Defektieren P=1, P=1 T=5, S=0<br />

Kooperieren S=0, T=5 R=3, R=3<br />

Tabelle 1: Das <strong>Gefangenen</strong>-<strong>Dilemma</strong><br />

4


Die Buchstaben stehen für<br />

• Temptation – die Versuchung zu defektieren<br />

► 5 Punkte<br />

• Reward – die Belohnung für wechselseitige Kooperation ► 3 Punkte<br />

• Punishment – die Strafe für wechselseitige Defektion ► 1 Punkt<br />

• Sucker’s Payoff – die Auszahlung des gutgläubigen Opfers ► 0 Punkte 4<br />

Die <strong>Gefangenen</strong> wollen ihre Auszahlung max<strong>im</strong>ieren und finden in der Strategie<br />

„Defektieren“ eine dominante Strategie. Beide erhalten nur einen Punkt, P als<br />

Strafe für wechselseitige Defektion.<br />

Definition:<br />

Ein <strong>Gefangenen</strong>-<strong>Dilemma</strong> liegt vor, falls<br />

1. Ein Gleichgewicht bei dominanter Strategie existiert<br />

2. Das Gleichgewicht nicht pareto-effizient ist<br />

3. T > R > P > S und<br />

T + S<br />

R > gilt<br />

2<br />

Hierin besteht das <strong>Gefangenen</strong>-<strong>Dilemma</strong>: Obwohl sich beide Spieler rational<br />

verhalten und ihre dominante Strategie spielen, landen sie in der schlechtesten<br />

gemeinsamen Situation. Trotz der dominanten <strong>Strategien</strong> und des einzigen Nash-<br />

Gleichgewichts bei beidseitiger Defektion, erzielen die beiden Spieler die einzige<br />

nicht pareto-effiziente Situation.<br />

Be<strong>im</strong> <strong>Gefangenen</strong>-<strong>Dilemma</strong> liegt somit ein Widerspruch zwischen der<br />

individuellen und der kollektiven Rationalität vor.<br />

2.2 Das wiederholte <strong>Gefangenen</strong>-<strong>Dilemma</strong><br />

Beide Spieler werden mehrfach vor die Situation des <strong>Gefangenen</strong>-<strong>Dilemma</strong>s<br />

gestellt. Sie haben jeweils die Wahl zu kooperieren oder zu defektieren und<br />

dürfen ihre Entscheidung auch vom bisherigen Spielverlauf abhängig machen.<br />

4 Vgl. Axelrod (2000) S. 7f<br />

5


Während rationale Spieler <strong>im</strong> einfachen <strong>Gefangenen</strong>-<strong>Dilemma</strong> stets defektieren<br />

werden, kann Kooperation <strong>im</strong> wiederholten <strong>Gefangenen</strong>-<strong>Dilemma</strong> durchaus<br />

rational sein. Entscheidend ist, ob die genaue Anzahl der Spiele bekannt ist und<br />

ob über endlich oder unendlich viele Runden gespielt wird. 5<br />

2.2.1 Das zweirundige <strong>Gefangenen</strong>-<strong>Dilemma</strong><br />

Die Auszahlung eines Spielers ist die Summe seiner Auszahlungen in beiden<br />

Spielen. Bei der Analyse des zweirundigen <strong>Gefangenen</strong>-<strong>Dilemma</strong>s betrachtet<br />

man zuerst die zweite Runde:<br />

Spieler 2<br />

Defektieren<br />

Kooperieren<br />

Spieler 1<br />

Defektieren 1, 1 5, 0<br />

Kooperieren 0, 5 3, 3<br />

Tabelle 2: Die zweite Runde <strong>im</strong> zweirundigen <strong>Gefangenen</strong>-<strong>Dilemma</strong><br />

Unabhängig vom Ausgang der ersten Runde findet sich bei wechselseitiger<br />

Defektion ein Nash-Gleichgewicht, beide Spieler werden folglich in der zweiten<br />

Runde ihre dominante Strategie wählen und defektieren.<br />

Die zweite Runde beeinflußt das Spiel in der ersten Runde nicht. Die Auszahlung<br />

(1,1) aus der zweiten Runde wird zu der Auszahlung der ersten Runde addiert:<br />

Spieler 2<br />

Defektieren<br />

Kooperieren<br />

Spieler 1<br />

Defektieren 2, 2 6, 1<br />

Kooperieren 1, 6 4, 4<br />

Tabelle 3: Die erste Runde <strong>im</strong> zweirundigen <strong>Gefangenen</strong>-<strong>Dilemma</strong><br />

5 Vgl. Schmidt (2001), http://www.vwl.uni-muenchen.de/ls_schmidt/index_de.htm, Kapitel 4<br />

6


Auch hier liegt bei „Defektieren/Defektieren“ ein eindeutiges Nash-<br />

Gleichgewicht vor. Somit werden beide Spieler be<strong>im</strong> zweifachen <strong>Gefangenen</strong>-<br />

<strong>Dilemma</strong> nie kooperieren. Das <strong>Dilemma</strong> bleibt bestehen: Die Spieler erhalten 2·P<br />

– zwe<strong>im</strong>al punishment, die Strafe für beiderseitige Defektion.<br />

2.2.2 Das n-rundige <strong>Gefangenen</strong>-<strong>Dilemma</strong><br />

Das n-fach wiederholte <strong>Gefangenen</strong>-<strong>Dilemma</strong> hat ein eindeutiges Nash-<br />

Gleichgewicht, nämlich das n-fache Defektieren.<br />

Der Beweis folgt aus der Rückwärtsinduktion. Das Argument be<strong>im</strong> zweirundigen<br />

<strong>Gefangenen</strong>-<strong>Dilemma</strong> wird (n-1)-fach angewandt. In der n-ten Runde verfügen<br />

beide Spieler unabhängig vom Verlauf in den ersten n-1 Runden über eine<br />

dominante Strategie: Defektion. Analog wird bis zur ersten Runde<br />

rückwärtsinduziert. Beide Spieler werden n-mal defektieren, weil der sogenannte<br />

„last period effect“ jegliche Kooperation verhindert. Beide Spieler erhalten n·P. 6<br />

2.2.3 Unbest<strong>im</strong>mt oft gespieltes <strong>Gefangenen</strong>-<strong>Dilemma</strong><br />

Wenn das <strong>Gefangenen</strong>-<strong>Dilemma</strong> unbest<strong>im</strong>mt oft wiederholt wird, ist eine<br />

Rückwärtsinduktions-Analyse wegen der fehlenden letzten Periode unmöglich.<br />

Wir betrachten nun einen Spieler, der die Strategie Gr<strong>im</strong> 7 anwendet, um zu<br />

zeigen, daß Kooperation nun rational sein kann. 8<br />

• Da die Anzahl der Stufenspiele zwar endlich aber unbekannt ist, wird die<br />

Auszahlung in der 2-ten Runde mit dem Faktor p und in der n-te-Runde<br />

mit<br />

n−1<br />

p multipliziert. 9 Die erste Runde soll sicher stattfinden.<br />

6 Vgl. Schmidt (2001), http://www.vwl.uni-muenchen.de/ls_schmidt/index_de.htm, Kapitel 4 S. 5<br />

7 Eine ausführliche Beschreibung aller genannten <strong>Strategien</strong> erfolgt <strong>im</strong> Anhang, Kapitel 7.2.<br />

Gr<strong>im</strong> kooperiert, bis der Mitspieler defektiert. Auf eine einmalige Defektion antwortet Gr<strong>im</strong> mit ewiger Defektion.<br />

8 vgl. http://kaldor.vwl.uni-hannover.de/wuv/lectures/scripts/sosem-2001/sp06.pdf<br />

9 Auf eine Runde folgt nicht mit Sicherheit eine weitere (Wahrscheinlichkeit) und die Zukunft ist nicht so bedeutend<br />

wie die Gegenwart (Abdiskontierung). p liegt zwischen 0 und 1. p entspricht einer Abwertung der späteren Runden<br />

7


• Falls der zweite Spieler stets kooperiert, ist seine Auszahlung: 10<br />

K<br />

2 3<br />

n<br />

= + p ⋅ + p ⋅ + p ⋅ + = ⋅∑ ∞ 3<br />

3 3 3 3 ... 3 p =<br />

= 1−<br />

p<br />

n<br />

0<br />

• Defektiert Spieler 2 in Runde N, erhält er einmal fünf Punkte und danach<br />

bestenfalls noch einen Punkt pro Runde, da Gr<strong>im</strong> nun <strong>im</strong>mer defektiert<br />

(Spieler 2 wird ab Runde N auch <strong>im</strong>mer defektieren). Seine Auszahlung ist:<br />

D = 3 + p ⋅3<br />

+ p<br />

= 3⋅<br />

N−2<br />

n N−1<br />

p p 5<br />

∑<br />

n=<br />

0<br />

+<br />

2<br />

⋅3<br />

+ ... + p<br />

⋅<br />

+<br />

∞<br />

∑<br />

n=<br />

N<br />

p<br />

n<br />

⋅5<br />

+ p<br />

⋅1+<br />

p<br />

N−1<br />

N N+ 1<br />

⋅1+<br />

...<br />

Nun berechnet man die Differenz aus K und D, um festzustellen, ob der Spieler<br />

durch die Defektion in der N-ten Runde profitiert.<br />

K − D = 3⋅<br />

∞<br />

∑<br />

n=<br />

0<br />

p<br />

n<br />

− (3⋅<br />

N−2<br />

∑<br />

n=<br />

0<br />

p<br />

n<br />

+<br />

p<br />

N−1<br />

⋅5<br />

+<br />

∞<br />

∑<br />

n=<br />

N<br />

p<br />

n<br />

)<br />

=<br />

=<br />

N−1<br />

p (3 5) (3 1)<br />

p<br />

N−1<br />

⋅<br />

−<br />

+<br />

−<br />

⋅<br />

∑ ∞<br />

n=<br />

N<br />

p<br />

1<br />

⋅ ( −2<br />

+ 2⋅<br />

( −1))<br />

= p<br />

1−<br />

p<br />

n<br />

=<br />

p<br />

N−1<br />

N−1<br />

⋅ ( −2<br />

+ 2⋅<br />

2<br />

⋅ ( − 4)<br />

1−<br />

p<br />

∑ ∞<br />

n=<br />

1<br />

p<br />

n<br />

)<br />

Dieses Produkt ist für p = 0, 5 genau Null und für p > 0, 5 strikt größer als Null.<br />

Bezüglich Gr<strong>im</strong> ist also ständige Kooperation bei p > 0, 5 erfolgreicher als jede<br />

andere Strategie. Spieler 2 erhält durch eine Defektion in der N-ten Runde zwar<br />

einen zusätzlichen Gewinn von 2 Punkten, vermindert seine Auszahlung in den<br />

folgenden Runden insgesamt aber deutlicher. Der langfristige Verlust in der<br />

Zukunft überwiegt die einmalige Temptation.<br />

Der genaue Wert p, für den K=D gilt, hängt von T, R, P und S ab. p ist jedoch<br />

stets kleiner als 1.<br />

10 Es wird die geometrische Reihe verwendet:<br />

∞<br />

∑<br />

p<br />

n<br />

=<br />

0 1<br />

1<br />

, und somit auch<br />

∞<br />

∑n<br />

1<br />

n 1<br />

p =<br />

1<br />

−1<br />

8


2.2.4 Unendlich oft gespieltes <strong>Gefangenen</strong>-<strong>Dilemma</strong><br />

Im theoretischen, unendlichen <strong>Gefangenen</strong>-<strong>Dilemma</strong> existiert der „last period<br />

effect“ ebenfalls nicht. Die Rückwärtsinduktion ist somit nicht anwendbar.<br />

Max<strong>im</strong>ierungsstrategien<br />

Da die Auszahlungssumme <strong>im</strong> unendlichen Fall unendlich sein wird, ist eine<br />

einfache Max<strong>im</strong>ierungsstrategie unsinnig. Deshalb versucht der Spieler nun<br />

• den Grenzwert der durchschnittlichen Auszahlungen<br />

( a i<br />

ist die Auszahlung <strong>im</strong> i-ten Spiel)<br />

a1<br />

+ a2<br />

+ ... + an<br />

l<strong>im</strong><br />

n→∞<br />

n<br />

• oder den Gegenwartswert der abdiskontierten Auszahlungen ∑ ∞ t<br />

δ<br />

n=<br />

1<br />

(δ ist der Diskontierungsfaktor)<br />

zu max<strong>im</strong>ieren.<br />

Da Gewinne in der Zukunft weniger Bedeutung als in der Gegenwart haben, wird<br />

meist mit einem Diskontierungsfaktor gerechnet.<br />

Analog zum vorherigen Beweis (p wird durch δ ersetzt) kann man zeigen, daß<br />

sich Kooperation in allen Perioden einstellt, wenn der Diskontierungsfaktor hoch<br />

genug ist. Der einmalige Mehrgewinn durch die Defektion wiegt den Verlust in<br />

den folgenden Runden nicht auf. 11<br />

− 1<br />

⋅ a<br />

i<br />

2.3 Superspiel-<strong>Strategien</strong><br />

Entscheidend für die Strategiewahl ist also, ob dem Spieler die genaue<br />

Rundenanzahl bekannt ist. In einem n-rundigen <strong>Gefangenen</strong>-<strong>Dilemma</strong> ist<br />

ständige Defektion die dominante Strategie, rationale Spieler kooperieren nie.<br />

Falls die Anzahl der Runden nicht genau feststeht oder unendlich ist und p bzw.<br />

δ groß genug sind, hängt das Verhalten des Spielers vom Verhalten des anderen<br />

Spielers ab. Die Aufgabenstellung, in Kapitel 2.2.3 und 2.2.4 eine „gute“<br />

Strategie zu finden, kann die Theorie nicht lösen.<br />

11 Vgl. Schmidt (2001) Kapitel 4.3<br />

9


Aus dem Beweis, daß Kooperation be<strong>im</strong> unbest<strong>im</strong>mt oft gespielten <strong>Gefangenen</strong>-<br />

<strong>Dilemma</strong> rational sein kann, folgt ein Theorem:<br />

Ist p hinreichend groß, so existiert keine beste Strategie<br />

unabhängig von der Strategie des anderen Spielers.<br />

Beweis: Gegen Gr<strong>im</strong> ist bei hohem p ständige Kooperation am erfolgreichsten,<br />

gegen Defect (permanente Defektion) jedoch ständige Defektion. 12<br />

Eine Strategie, die die Planung einer best<strong>im</strong>mten Folge von Spielzügen in<br />

Abhängigkeit des anderen Spielers vorgibt, wird als Superspiel-<strong>Strategien</strong><br />

bezeichnet. In Tests auf der Suche nach erfolgreichen <strong>Strategien</strong> werden die<br />

Superspiel-<strong>Strategien</strong> <strong>im</strong> Duell vor die Bedingungen des wiederholten<br />

<strong>Gefangenen</strong>-<strong>Dilemma</strong>s gestellt:<br />

• Es gibt keine Verpflichtung, getroffene Vereinbarungen zu halten<br />

• Es gibt keine Möglichkeit den Zug des Mitspielers vorherzusehen<br />

• Kein Spieler kann einen anderen beseitigen<br />

• Es besteht keine Möglichkeit die Auszahlung eines Mitspielers zu verändern<br />

• Keiner der Spieler kann das Spiel beenden oder verlassen 13<br />

12 Vgl. Axelrod (2000) S.14<br />

13 Vgl. Axelrod (2000) S.10f<br />

10


3 Axelrods Computerturniere<br />

Robert Axelrod, ein Politik-Professor aus Michigan, suchte eine Strategie, die <strong>im</strong><br />

Vergleich zu anderen <strong>Strategien</strong> <strong>im</strong> Durchschnitt recht erfolgreich abschneidet.<br />

Er trug mit seinen Computer-Turnieren wesentlich zur Analyse des wiederholten<br />

<strong>Gefangenen</strong>-<strong>Dilemma</strong>s bei.<br />

3.1 Axelrods erstes Turnier<br />

3.1.1 Teilnehmer und Regeln<br />

Axelrod forderte Spieltheorie-Experten aus den Bereichen der Ökonomie,<br />

Psychologie, Soziologie, Politikwissenschaft und Mathematik auf, Superspiel-<br />

<strong>Strategien</strong> zu entwickeln. Die 14 teilnehmenden Wissenschaftler wußten, daß<br />

ihre Programme fünfmal (um Zufälle zu verringern) ein 200-faches <strong>Gefangenen</strong>-<br />

<strong>Dilemma</strong> gegen ihr eigenes, Random und alle anderen Programme spielen<br />

würden. Zielsetzung der Superspiel-<strong>Strategien</strong> war, <strong>im</strong> Durchschnitt eine<br />

möglichst hohe Auszahlung zu erreichen. Die Auszahlungen der einzelnen<br />

Duelle und ein etwaiger Sieg über den Mitspieler fanden keine Beachtung. Die<br />

<strong>Strategien</strong> konnten bei jedem Spielzug erneut über ihre Wahlmöglichkeiten<br />

nachdenken und ihre Entscheidung von den vergangenen Spielzügen des<br />

Mitspielers abhängig machen.<br />

Die <strong>Strategien</strong> erzielten in jedem Spielzug je nach ihrem Verhalten die bekannten<br />

Auszahlungen T=5, R=3, P=1 oder S=0 Punkte.<br />

Ein Programm konnte <strong>im</strong> Durchschnitt 0 bis 1000 (200-mal 0 bzw. 5) Punkte<br />

erreichen. Alle Voraussetzungen des n-fachen <strong>Gefangenen</strong>-<strong>Dilemma</strong>s waren<br />

gegeben. Da es mit der n-fachen Defektion eine dominante Strategie gab, war<br />

kaum mit kooperativen <strong>Strategien</strong> zu rechnen.<br />

11


3.1.2 Turniersieger<br />

Sieger mit 504,5 Punkten wurde die<br />

Strategie Tit-for-Tat, eingesandt von<br />

Anatol Rapoport, einem Psychologie-<br />

Professor aus Toronto. 14 Tit-for-Tat (wie<br />

du mir, so ich dir) kooperiert <strong>im</strong> ersten<br />

Zug und wiederholt dann stets den Zug<br />

des Mitspielers. Der Erfolg überraschte,<br />

da Tit-for-Tat freundlich ist und vorher<br />

bekannt war.<br />

Anatol Rapoport (*1911)<br />

3.1.3 Gründe für den Triumph von Tit-for-Tat<br />

Nach eingehender Untersuchung konnte Axelrod Eigenschaften feststellen, die<br />

den Erfolg von Tit-for-Tat begründen.<br />

Tit-for-Tat vereint die Eigenschaften Freundlichkeit und Nachsichtigkeit:<br />

• Freundlichkeit: Defektiere nicht als erster<br />

• Nachsichtigkeit: Defektiere, wenn der Gegner zuvor defektierte<br />

Tit-for-Tat erreichte gemeinsam mit anderen freundlichen (kooperierenden)<br />

<strong>Strategien</strong> eine sehr hohe Punktzahl und wurde von bösen (defektierenden)<br />

<strong>Strategien</strong> nur knapp besiegt. Böswillige <strong>Strategien</strong> unterliegen zwar nie <strong>im</strong><br />

direkten Vergleich und sind vor Ausbeutung geschützt. Sie machen aber meist<br />

erheblich weniger Punkte als bei beidseitiger Kooperation. Die acht<br />

erstplazierten <strong>Strategien</strong> waren freundlich, alle anderen unfreundlich.<br />

Tit-for-Tat defektiert nur ein einziges Mal, gibt dem Mitspieler weiterhin die<br />

Möglichkeit zur Kooperation und min<strong>im</strong>iert so die Möglichkeit einer ständigen<br />

wechselseitigen Bestrafung.<br />

Viele Spieler versuchten Tit-for-Tat zu verbessern, scheiterten aber, da sie bereits<br />

durch seltene Defektionen zu oft P erhielten. Die Programmierer waren zu sehr<br />

14 Vgl. Kapitel 7.3 und Axelrod (2000) S. 25-30 und 173f<br />

12


auf ihren eigenen Vorteil bedacht und dachten zu pess<strong>im</strong>istisch von ihren<br />

Kontrahenten. Sie defektierten zu häufig und berücksichtigten dabei den höheren<br />

Gewinn durch Entgegenkommen und Kooperation nicht genügend.<br />

3.2 Axelrods zweites Turnier<br />

3.2.1 Teilnehmer und Regeln<br />

Axelrod veröffentlichte seine Analysen und schrieb ein zweites Computerturnier<br />

aus. Die 62 Teilnehmer wurde vor die selbe Problematik gestellt, außer daß<br />

Axelrod diesmal ein unbest<strong>im</strong>mt oft wiederholtes <strong>Gefangenen</strong>-<strong>Dilemma</strong> mit<br />

p=0,99654 wählte. 15 Die Teilnehmer konnten so mit ungefähr 200 Runden<br />

rechnen. Tatsächlich gingen die fünf Teilspiele nur über 63, 77, 151, 156 und 308<br />

Runden (Mittelwert 151). Die Rundenanzahl war für jedes Duell gleich, aber<br />

keinem Spieler vorher bekannt.<br />

3.2.2 Turniersieger<br />

Tit-for-Tat wurde nur von Anatol Rapoport eingesandt und gewann mit 434,73<br />

Punkten erneut. Tit-for-Tats Sieg war deutlich knapper ausgefallen als be<strong>im</strong><br />

ersten Turnier: 52 <strong>Strategien</strong> lagen über 380 Punkten. 16 Viele Programmierer<br />

wollten ausnutzen, daß Axelrod die Freundlichkeit so positiv darstellte. Sie<br />

hofften auf naiv-kooperierende Strategie und wollten T erreichen. Da diese<br />

Überlegungen jedoch viele Spieler hatten, verloren die unfreundlichen <strong>Strategien</strong><br />

erneut entscheidende Punkte durch wechselseitige Defektion.<br />

In beiden Turnieren lagen nur freundliche <strong>Strategien</strong> auf den vorderen Plätze:<br />

Be<strong>im</strong> ersten Computerturnier waren die ersten acht <strong>Strategien</strong> freundlich, be<strong>im</strong><br />

zweiten Turnier 14 der ersten 15 <strong>Strategien</strong>.<br />

15 Vgl. Axelrod (2000) S. 38. Es ergibt sich eine durchschnittliche Rundenzahl von 289 und ein Median von 200<br />

16 Vgl. Axelrod (2000) S. 175-185<br />

13


3.3 Die ökologische Analyse<br />

3.3.1 <strong>Strategien</strong> als Population<br />

Um die Besonderheiten der einzelnen <strong>Strategien</strong> besser vergleichen zu können,<br />

ließ Robert Axelrod die <strong>Strategien</strong> in einer anderen Turnierform antreten.<br />

Axelrod benutzte einen evolutionsbiologischen Ansatz, um herauszufinden, wie<br />

man Kooperation in eine Population einführen und etablieren kann. 17 In der<br />

ersten Generation einer Population treten alle <strong>Strategien</strong> als Individuen mehrfach<br />

und gleich oft auf. Dann wird die Fitneß der <strong>Strategien</strong>, d.h. die Punktzahl gegen<br />

die anderen <strong>Strategien</strong> der Population, best<strong>im</strong>mt und so die Zusammensetzung<br />

der nächsten Generation festgelegt. Eine Strategie, die eine überdurchschnittliche<br />

Auszahlung erreicht, vermehrt sich. Der prozentuale Anteil einer Strategie an der<br />

Population ist stets gleich dem prozentualen Anteil ihrer erreichten Punktzahl an<br />

der Gesamtauszahlungen. Nach einer gewissen Anzahl von Iterationen stellt sich<br />

ein Gleichgewicht der Anteile der <strong>Strategien</strong> an der Gesamtpopulation ein.<br />

Axelrod führt Definitionen und Sätze auf, die <strong>Strategien</strong> klassifizieren:<br />

Strategie B dringt in Strategie A ein, wenn sie gegen Strategie A<br />

einen höheren Punktwert erhält, als A mit sich selbst<br />

Eine Strategie heißt kollektiv stabil, wenn<br />

keine andere Strategie in sie eindringen kann<br />

Eine freundliche Strategie ist nur dann kollektiv stabil, wenn sie<br />

durch die erste Defektion des anderen Spielers provoziert wird<br />

Tit-for-Tat (und jede andere freundliche Strategie) kann nur dann kollektiv stabil<br />

sein, wenn p hinreichend groß ist. Sonst würde Defect in Tit-for-Tat eindringen<br />

können. Defect ist <strong>im</strong>mer kollektiv stabil, da es gegen keine Strategie verliert.<br />

17 Vgl. Axelrod (2000) S. 43-63<br />

14


Eine Evolution der Kooperation ist in einer Welt von Defects somit höchstens<br />

dann möglich, wenn eine andere Strategie mehrfach auftreten kann.<br />

Beispielsweise genügt bei p=0,9 ein Anteil von fünf Prozent von Tit-for-Tat-<br />

Spielern um in das kollektiv stabile Defect einzudringen. Tit-for-Tat unterliegt<br />

Defect zwar knapp, macht gegen einen weiteren Tit-for-Tat-Spieler jedoch die<br />

Auszahlung R = 3 Punkte. Zwei Defect-Spieler erreichen lediglich P = 1 Punkt.<br />

Die freundlichen Tit-for-Tat-Spieler können sich nach jeder Runde ausbreiten<br />

und die böswilligen Defect-Spieler verdrängen.<br />

3.3.2 Abhängigkeit von der Umgebung<br />

Der Erfolg einer Strategie ist stark von der Umgebung abhängig. Beispielsweise<br />

ist Cooperate <strong>im</strong> direkten Vergleich mit Defect chancenlos. Cooperate wird in<br />

der ersten Generation <strong>im</strong> Durchschnitt 1,5 Punkte (50%·3=R + 50%·0=S), Defect<br />

hingegen 2,5 Punkte (50%·5=T + 50%·1=P) erhalten. Deshalb wird der Anteil<br />

der Cooperate-<strong>Strategien</strong> kontinuierlich abnehmen. Falls sich mehrere<br />

kooperative <strong>Strategien</strong> am Turnier beteiligen, wird Cooperate eine höhere<br />

Punktzahl als Defect erhalten. Um herauszufinden, ob eine Strategie allgemein<br />

gut abschneidet, muß man eine große Anzahl von Turnieren mit wechselndem<br />

Umfeld durchführen. Erfolgreiche <strong>Strategien</strong> würden häufiger ausgewählt,<br />

erfolglose <strong>Strategien</strong> aussortiert. Dieses Verfahren erinnert an natürliche<br />

Selektion, Evolution und ökologische S<strong>im</strong>ulation.<br />

Eine Strategie heißt stabil in bezug auf eine Startverteilung von<br />

<strong>Strategien</strong>, wenn sie bei Erreichen eines Gleichgewichtszustandes<br />

nicht ausgestorben ist<br />

Die Wirtschaftswissenschaftler Mathieu und Delahaye haben einen "Iterated<br />

Prisoner's <strong>Dilemma</strong> S<strong>im</strong>ulator" entwickelt, mit dem sich ökologische<br />

S<strong>im</strong>ulationen mit <strong>Strategien</strong> in beliebiger Zusammensetzungen testen lassen. 18<br />

18 Vgl. http://www.cl-ki.uni-osnabrueck.de/~nntthele/ipd/ipd4.html. (auch Quelle von Abbildung 1-3).<br />

15


Abbildung 1: Ökologische S<strong>im</strong>ulation mit Cooperate, Defect und Random<br />

Abbildung 1 zeigt eine Population mit 300 Individuen. Die <strong>Strategien</strong> Defect,<br />

Cooperate und Random sind in der ersten Generation jeweils 100-mal vertreten.<br />

Defect ist als einzige Strategie stabil in bezug auf diese Startaufstellung, sowohl<br />

Random als auch Cooperate sterben aus. Cooperate und Random verhalten sich<br />

unterschiedlich: Cooperate (schwarze Kurve) erzielt sowohl gegen Random als<br />

auch gegen Defect schlechte Resultate und stirbt schnell aus. Random (blaue<br />

Kurve) überlebt nur solange wie eine ausreichend große Anzahl von Cooperate-<br />

Individuen vorhanden ist. Im Duell mit Defect unterliegt Random schnell.<br />

Abbildung 2: Ökologische S<strong>im</strong>ulation mit Cooperate, Defect, Random und Tit-for-Tat<br />

16


Generell gilt trotzdem nicht, daß Cooperate eine schlechte und Defect eine gute<br />

Strategie ist. Abbildung 2 und 3 zeigen die Ergebnisse umfangreicherer<br />

S<strong>im</strong>ulationen, in denen Cooperate eine stabile Strategie ist, Defect aber nicht. In<br />

dem in Abbildung 2 dargestellten Exper<strong>im</strong>ent ist nur Tit-for-Tat zu Defect,<br />

Cooperate und Random hinzugekommen. Das Ergebnis weicht in dramatischer<br />

Weise ab: Zwar kann Defect zu Beginn seinen Anteil erhöhen, aber mit dem<br />

Aussterben von Random stirbt auch Defect aus. Cooperate, das gegen Defect und<br />

Random schlechte Resultate erzielt (<strong>im</strong> Schnitt S=0 bzw. (R=3 + S=0)/2=1.5<br />

Punkte), erweist sich als stabil.<br />

Abbildung 3: Ökologische S<strong>im</strong>ulation mit 15 <strong>Strategien</strong><br />

Bestätigt wird das Ergebnis durch Abbildung 3. Alle freundlichen <strong>Strategien</strong> sind<br />

stabil und alle unfreundlichen <strong>Strategien</strong> (inklusive Mistrust, das nur eine<br />

min<strong>im</strong>ale Abänderung von Tit-for-Tat ist) sterben aus. Tit-for-Tat belegt nur<br />

einen guten Mittelplatz, da es gegen die blinden <strong>Strategien</strong> schwach abschneidet.<br />

Wie in Axelrods ausgeschriebenen Computer-Turnieren erweisen sich die<br />

freundlichen <strong>Strategien</strong> auch in dieser einfachen ökologischen Analyse als<br />

erfolgreichere <strong>Strategien</strong>.<br />

17


3.4 Tit-for-Tats Schwächen<br />

3.4.1 Unnötige Kooperation mit blinden <strong>Strategien</strong><br />

Geringe Auszahlung<br />

Tit-for-Tat erzielt oftmals deutlich schlechtere Ergebnisse als möglich:<br />

• Tit-for-Tat gewinnt gegen die Strategie Cooperate <strong>im</strong>mer nur 3 Punkte.<br />

Profitabler wäre es, stets zu defektieren (= 5 Punkte pro Runde)<br />

• Gegen Random erntet Tit-for-Tat genauso wenige Punkte wie Random, da<br />

Tit-for-Tat auf jede zufällige Kooperation von Random auch kooperiert<br />

Tit-for-Tat kann gegen keine Strategie <strong>im</strong> direkten Vergleich gewinnen. Es<br />

versagt gegen blinde (unsensitive) <strong>Strategien</strong>, weil es <strong>im</strong>mer wieder Kooperation<br />

aufbauen möchte, von der blinden Strategie aber nicht belohnt wird. Gegen<br />

blinde <strong>Strategien</strong> wie Cooperate oder Random gibt es eine dominante Superspiel-<br />

Strategie: Defect.<br />

Gradual schlägt Tit-for-Tat<br />

Gradual ist eine Strategie, die in vielen Computer-Turnieren erheblich besser als<br />

Tit-for-Tat abschneidet. Gradual kooperiert be<strong>im</strong> ersten Zug und beantwortet das<br />

erste Defektieren des Gegners mit einer Defektion und anschließend zwei<br />

Kooperationen, schließlich das n-te Defektieren des Gegners mit n Defektionen<br />

und zwei Kooperationen.<br />

Die von Axelrod aufgestellte Forderung nach Einfachheit ist verletzt, denn<br />

Gradual benötigt Wissen über das gesamte Spiel seit Beginn.<br />

Gradual hat jedoch eine Eigenschaft, die Tit-for-Tat nicht hat, die aber dem<br />

Verhalten von Menschen näher kommt. Gradual ist sehr offensiv, es zwingt den<br />

Gegner zur Kooperation: Nichtkooperation zahlt sich für ihn <strong>im</strong>mer weniger aus,<br />

denn sie wird mit einer <strong>im</strong>mer größeren Anzahl von Defektionen beantwortet.<br />

18


Gleichzeitig ist Gradual sehr defensiv, möchte nicht ausgebeutet werden und<br />

wählt deshalb nach Ausbeutungsversuchen <strong>im</strong>mer seltener die Kooperation.<br />

Bei einem Turnier mit Gradual, Tit-for-Tat und zehn Standardstrategien gewann<br />

Gradual deutlich. Graduals Erfolg ist aber nicht überraschend, da Tit-for-Tat<br />

gegen Per_kind, Per_nasty und Random schwache Ergebnisse erzielte. 19<br />

3.4.2 Mißverständnisse<br />

Axelrod schloß in seinen Computerturnieren Mißverständnisse zwischen den<br />

Spielern aus. In realen Problemsituationen ist es aber möglich, daß Kooperation<br />

beispielsweise in 5% aller Fälle als Defektion mißverstanden wird. 20<br />

Wenn beide Spieler Tit-for-Tat anwenden, führt ein Mißverständnis zu einer<br />

Kettenreaktion:<br />

Runde Spieler 1 Spieler 2<br />

1 Kooperation Kooperation<br />

2 Kooperation Kooperation<br />

<br />

<br />

<br />

<br />

(wird als Defektion mißverstanden!)<br />

3 Defektion Kooperation<br />

4 Kooperation Defektion<br />

5 Defektion Kooperation<br />

6 Kooperation Defektion<br />

Tabelle 4: Mißverständnis bei Tit-for-Tat<br />

Die beiden Tit-for-Tat-Spieler werden <strong>im</strong>mer abwechselnd für die<br />

vorausgegangene Vergeltung erneut Vergeltung üben (Echo-Effekt).<br />

Tit-for-Tat bestraft selbst Spieler, die sich lange Zeit kooperativ gezeigt haben,<br />

sofort. Eine verbesserte Strategie muß wegen der möglichen Mißverständnisse<br />

19 Vgl. http://www.cl-ki.uni-osnabrueck.de/~nntthele/ipd/ipd3.html<br />

20 Vgl. Dixit/Nalebuff (1997) S. 105–112<br />

19


nachsichtiger sein: Scheint die Defektion nur eine Ausnahme (Mißverständnis<br />

oder auch Absicht) zu sein, sollte man den anderen Spieler nicht sofort bestrafen.<br />

Erst nach mehreren Defektionen in einem kurzen Zeitintervall sollte defektiert<br />

werden. 21 Geeignet ist Tit-for-two-Tats, das nur auf zwei aufeinanderfolgende<br />

Defektionen selbst defektiert Verluste ab.<br />

3.4.3 Unerfüllbare Forderungen an Tit-for-Tat<br />

Die Kapitel 3.4.1 und 3.4.2 stellen konträre Forderungen:<br />

• Um die unsinnige Kooperation mit blinden <strong>Strategien</strong> zu vermeiden, ist<br />

eine Strategie, die von sich aus defektiert und auf gegnerische Defektion<br />

mehrfach defektiert, nötig<br />

• Um einem Echo wegen eines Mißverständnisses zu entgehen, sollte die<br />

Strategie auf einmalige Defektionen nicht reagieren<br />

Tit-for-Tat geht einen Mittelweg und erzielt durchschnittliche Auszahlungen.<br />

Eine aggressivere Strategie erhält gegen blinde <strong>Strategien</strong> deutlich höhere<br />

Auszahlungen, wird aber wegen Mißverständnissen in ständiger Defektion<br />

Punkte einbüßen. Umgekehrt erhält eine freundlichere Strategie gegen blinde<br />

<strong>Strategien</strong> eine noch niedrigere Auszahlung, kann aber trotz der<br />

Mißverständnisse langfristig kooperieren.<br />

21 Vgl. Dixit/Nalebuff (1997) S. 112f<br />

20


4 Wege aus dem <strong>Gefangenen</strong>-<strong>Dilemma</strong><br />

4.1 Ratschläge für die Spieler<br />

Aufgrund der umfangreichen Untersuchungen der Computer-Turniere und der<br />

guten Ergebnisse von Tit-for-Tat kann Axelrod den Spielern<br />

Verhaltensvorschläge für erfolgreiches Verhalten geben, um be<strong>im</strong> wiederholten<br />

<strong>Gefangenen</strong>-<strong>Dilemma</strong> eine hohe Auszahlung zu erhalten. 22<br />

Sei nicht neidisch!<br />

Es ist wichtig, sich nicht mit dem Gegenspieler zu vergleichen, sondern zu<br />

versuchen für sich das beste Ergebnis zu erzielen. Stellen Menschen fest, daß der<br />

andere eine größere Auszahlungsmenge hat, defektieren sie, um den Vorsprung<br />

einzuholen. Dies führt wiederum nur zur Defektion des anderen und es kommt zu<br />

einer Kette von Bestrafungen. Menschen denken oft in Nullsummenspielen. Das<br />

<strong>Gefangenen</strong>-<strong>Dilemma</strong> (und die meisten Konfliktsituationen in der Realität) ist<br />

jedoch ein Nicht-Nullsummenspiel. Be<strong>im</strong> wiederholten <strong>Gefangenen</strong>-<strong>Dilemma</strong> ist<br />

der Erfolg des anderen sogar eine Voraussetzung dafür, daß man selbst gut<br />

abschneidet.<br />

Defektiere nicht als erster!<br />

Langfristig sind freundliche <strong>Strategien</strong> stabiler und leistungsfähiger, nur in<br />

kurzfristigen Spielen ist die ständige Defektion die bessere Strategie. In beiden<br />

Computer-Turnieren waren die erfolgreichsten <strong>Strategien</strong> freundlich. Die<br />

ökologische Analyse zeigte, daß unfreundliche <strong>Strategien</strong> hauptsächlich durch<br />

blinde <strong>Strategien</strong> profitieren. Mit dem Aussterben der blinden <strong>Strategien</strong> ist die<br />

Grundlage für hohe Auszahlungen der unfreundlichen <strong>Strategien</strong> nach einigen<br />

Generationen zerstört. Unfreundliche <strong>Strategien</strong> erhalten gegen <strong>Strategien</strong>, die<br />

nicht nachsichtig sind sondern auf Defektion mit mehrfacher Defektion<br />

antworten, meist nur P.<br />

22 Vgl. Axelrod (2000) S. 99-111<br />

21


Erwidere sowohl Kooperation als auch Defektion!<br />

Reagiert eine Strategie auf Defektionen zu nachsichtig, so riskiert sie ausgebeutet<br />

zu werden. Beantwortet man eine Defektion mit mehr als einer eigenen<br />

Defektion, so kann hingegen das Superspiel eskalieren: Ständige gegenseitige<br />

Defektion könnte sich einstellen. Das opt<strong>im</strong>ale Ausmaß an Nachsicht muß der<br />

Umgebung angepaßt werden. Falls eine freundliche Strategie eine Defektion<br />

nicht mit Defektion beantworten würde, wäre sie zudem nicht kollektiv stabil.<br />

Sei nicht zu raffiniert!<br />

Wählt Spieler 1 eine komplizierte Strategie, könnte sein Verhalten auf Spieler 2<br />

wie eine Zufallsstrategie wirken. Da Spieler 1 scheinbar nicht auf ihn reagiert,<br />

geht der Anreiz zur Kooperation verloren. Sehr einfache Regeln wie Tit-for-Tat<br />

sind hingegen schnell erkannt und der Mitspieler kann dementsprechend handeln<br />

und kooperieren. Tit-for-Tat versucht weder zu täuschen noch zu betrügen.<br />

Raffiniertheit ist in Nullsummenspielen notwendig, um es dem Gegner möglichst<br />

schwer zu machen. Im <strong>Gefangenen</strong>-<strong>Dilemma</strong> verschlechtert sie aber durch<br />

Verwirrung die Chancen zur Kooperation.<br />

4.2 Einfluß des Reformers<br />

Nun werden Einflußnahmen des Reformers (z. B. des Staats), der die<br />

Kooperation unter Spielern fördern kann, erläutert. Somit wird nicht mehr der<br />

einzelne Spieler beraten, sondern versucht, Kooperation <strong>im</strong> <strong>Gefangenen</strong>-<br />

<strong>Dilemma</strong> durch äußere Veränderungen zu fördern. 23<br />

• Erweitere den Schatten der Zukunft<br />

Axelrod empfiehlt eine Erhöhung der Interaktion, da sich Kooperation desto eher<br />

einstellen kann, je öfter das <strong>Gefangenen</strong>-<strong>Dilemma</strong> wiederholt wird.<br />

Wenn man die Interaktion dauerhafter macht, also den Zeitraum des<br />

Aufeinandertreffens und somit p erhöht, steigen die Chancen zur Kooperation.<br />

23<br />

Kapitel 4.2 vgl. Axelrod (2000) S. 112-127<br />

22


Genauso kooperationsfördernd ist es, die Interaktionen häufiger stattfinden zu<br />

lassen. Dies kann erreicht werden, indem man die Anzahl der möglichen<br />

Mitspieler verringert. In Kleinstädten oder durch Ausschluß von oder<br />

Eintrittsbarrieren für konkurrierende Unternehmen trifft jeder Spieler öfter auf<br />

bekannte andere Spieler. Eine gute Konzentration von Interaktionen weniger<br />

Individuen entsteht durch Hierarchien. In einer Bürokratie schließen sich<br />

mehrere Personen ähnlicher Spezifikation zusammen. Diese Spieler treffen somit<br />

häufiger aufeinander. Bei Problemen zwischen den verschiedenen Zweigen<br />

agieren die Vorgesetzten miteinander. Dies ist sinnvoll, da wenige Vorgesetzte<br />

besser interagieren können als viele Mitglieder mehrerer Gruppen.<br />

Durch das Aufspalten eines Vertrages in viele Verhandlungsgegenstände wird<br />

Vertrauen eher aufgebaut werden können: Abrüstung zweier Großmächte ist<br />

höchstens in vielen Teilschritten realisierbar.<br />

• Änderung der Auszahlungen<br />

Die Hauptfunktion der Regierung ist die Ermöglichung von Auswegen aus dem<br />

<strong>Gefangenen</strong>-<strong>Dilemma</strong> durch Änderung von T, R, P und S. Durch eine Änderung<br />

der Auszahlungen ist eine freundliche Strategie bereits bei einem geringen p<br />

kollektiv stabil. Die Regierung zwingt die Bürger dazu, auch ohne privaten<br />

Anreiz soziales Verhalten auszuüben. Gesetze existieren, um Menschen zu<br />

veranlassen, Steuern zu zahlen, nicht zu stehlen und Verträge mit Fremden<br />

einzuhalten. Die beiden <strong>Gefangenen</strong> würden ebenfalls eher schweigen, wenn sie<br />

in einer organisierten Bande wären und bei Gestehen mit Bestrafung durch die<br />

eigene Bande rechnen müßten.<br />

• Belehrung der Spieler über kooperationsfördernde Werte, Fakten und<br />

Fertigkeiten, die kooperationsfördernd sind<br />

„Unterweise die Menschen, sich umeinander zu kümmern.”<br />

Die Menschen sollten sich mehr um das Wohlergehen ihrer Mitmenschen sorgen<br />

und sich zuerst jedem Menschen gegenüber kooperativ verhalten. Im Elternhaus,<br />

in Schulen und Kirchen wird den Kindern gelehrt, das Glück der Mitmenschen<br />

zu beachten. Dadurch, daß die Wohlfahrt anderer das eigene Wohlbefinden<br />

23


verbessern kann, wird Defektion unattraktiver. Menschen, die versuchen diesen<br />

Altruismus zu unterlaufen und kooperatives Verhalten nicht erwidern, sollte man<br />

mit Defektion begegnen. Dies führt zur Gegenseitigkeit als Grundlage der<br />

Kooperation.<br />

„Unterweise in Sachen Reziprozität”<br />

Die verbreitetste Moral in vielen Gesellschaften ist die Goldene Regel:<br />

“Behandele andere so, wie du behandelt werden möchtest.” Das Problem dieser<br />

Moral (= Strategie Cooperate) liegt in der ständigen Nachsicht, die einigen<br />

Mitmenschen entgegengebracht und von diesen ausgenutzt wird. Eine „Tit-for-<br />

Tat-Moral” ist besser, da sie zwar freundlich zu den Mitspielern ist, sich aber<br />

auch nicht ausnutzen läßt. Tit-for-Tat gewinnt in keinem direkten Duell und<br />

fördert Kooperation und verhält sich somit recht moralisch, wenn auch nicht<br />

nach der Goldenen Regel. Eine gegenseitige Unterweisung in Reziprozität<br />

(Wechselseitigkeit) ist notwendig um eventuell Abweichende zu erkennen und<br />

direkt zu bestrafen.<br />

“Verbessere die Erinnerungsfähigkeit”<br />

Eine gute Erinnerung an ehemalige Mitspieler und ihre Verhaltensweisen ist<br />

notwendig, damit die Spieler sofort wissen, ob sie freundlich oder aggressiv<br />

reagieren müssen. Kooperation kann nur aufrechterhalten werden, wenn man sich<br />

an die bisherigen Runden mit dem anderen Spieler erinnert. Sonst kann man auf<br />

früheres feindliches Verhalten nicht rechtzeitig reagieren.<br />

24


5 Bedeutung des <strong>Gefangenen</strong>-<strong>Dilemma</strong>s<br />

In diesem Kapitel wird aufgezeigt, daß Verhaltensweisen in unterschiedlichsten<br />

Bereichen durch das wiederholte <strong>Gefangenen</strong>-<strong>Dilemma</strong> nachvollziehbar werden.<br />

5.1 Stellungskrieg<br />

Aus der Sicht der Staaten war der erste Weltkrieg ein Nullsummenspiel. Die<br />

Soldaten in ruhigen Frontabschnitten <strong>im</strong> Stellungskrieg befanden sich hingegen<br />

<strong>im</strong> wiederholten <strong>Gefangenen</strong>-<strong>Dilemma</strong>. Sie trafen mehrfach auf die selben<br />

gegnerischen Soldaten, p war somit sehr groß. Ein Soldat hatte stets die Wahl zu<br />

kooperieren (vorsätzlich so schießen, daß Verletzungen vermieden werden) oder<br />

zu defektieren (gezielt schießen, um zu töten).<br />

Zwischen den verfeindeten Bataillonen konnte man eine Evolution der<br />

Kooperation feststellen. Ein kooperatives Interaktionssystem wurde durch<br />

gleichzeitige Ablenkungen (Mahlzeiten) oder schlechtes Wetter (Angriffe<br />

wurden fast unmöglich) eingeführt. Die Soldaten wurden so zur Kooperation<br />

gedrängt. Die Kooperationen wurden aufrechterhalten, da jedem Soldaten<br />

bekannt war, daß der Gegner zurückschlagen würde. Eine Dämpfungsfunktion<br />

verhinderte eskalierende Echos (Anstifter erkennt die Eskalation und verzichtet<br />

auf weitere Bestrafung). Die Soldaten spielten eine freundliche, nachsichtige<br />

Strategie. Unter den verfeindeten Soldaten bildeten sich Ethiken. Im Falle einer<br />

versehentlichen Defektion bedauerten die Soldaten den Tod eines Gegners.<br />

Moral verbesserte die Auszahlungen für kooperatives Verhalten.<br />

Die Führungsstäbe konnten das Verhalten der Soldaten nicht kontrollieren und<br />

verhindern. Gegen Kriegsende befahlen die Offiziere jedoch kontrollierbare<br />

Aggressionen wie kleine Stoßtrupps. Durch gezieltes Ausschalten der<br />

Dämpfungsfunktion wurde das Interaktionssystem außer Kontrolle gebracht.<br />

Ewige Defektion beendete die Evolution der Kooperation. 24<br />

24 Vgl. Axelrod (2000) S. 67-79<br />

25


5.2 Das OPEC-Kartell<br />

Das Standardbeispiel für ein iteriertes <strong>Gefangenen</strong>-<strong>Dilemma</strong> <strong>im</strong> Wirtschaftsleben<br />

ist das Kartell der Organisation der erdölexportierenden Länder OPEC.<br />

Die Spieler, also die Mitgliedsstaaten der OPEC, können in jeder Runde (jeden<br />

Monat) kooperieren (wenig Öl verkaufen) oder defektieren (viel Öl verkaufen).<br />

Für jedes Land ist es vorteilhaft viel Öl zu verkaufen, da es so seine Einnahmen<br />

erhöht. Dadurch, daß die Staaten mehr Öl anbieten, fällt jedoch der Preis. Wenn<br />

alle Staaten kooperieren, würde jeder Staat dank des hohen Preises R erhalten.<br />

Ziel des Kartells ist es, jeden Staat zur Kooperation zu bringen, damit niemand<br />

auf T spekuliert und so allen Staaten schadet.<br />

Nach dem Zusammenschluß der OPEC-Staaten stieg der Rohölpreis pro Barrel<br />

von 1973 bis 1980 von 3 auf 30 US Dollar. Als dann das Kartell<br />

zusammenzubrechen schien, fiel der Preis 1986 auf 10 US Dollar pro Barrel. In<br />

den ersten Spielrunden kooperierten alle Staaten, dann fingen einige Staaten an<br />

zu defektieren. Die Lage eskalierte, alle Staaten verkauften viel Rohöl.<br />

Das <strong>Gefangenen</strong>-<strong>Dilemma</strong> tritt nur in Oligopolen auf. In Polypolen können die<br />

Unternehmen den Preis nicht verändern und beeinflussen somit durch ihre<br />

Strategie die empfohlenen Verhaltensweisen für andere Unternehmen nicht.<br />

Am Beispiel des OPEC-Kartells sieht man auch, daß Kooperation unter den<br />

Spielern für Unbeteiligte schlecht sein kann. Die Allgemeinheit präferiert<br />

niedrige Rohölpreise, ihr wäre es also lieber, wenn die Staaten ständig<br />

defektieren würden. Kartellamte sollen Kooperation und Absprachen verbieten. 25<br />

5.3 Biologie<br />

In biologischen System läßt sich Kooperation durch die Verwandtschaftstheorie<br />

erklären. Nahe Verwandtschaft zwischen Lebewesen ermöglicht Altruismus, also<br />

den Verzicht auf eigenen Vorteil für das Überleben der eigenen Art.<br />

25 Vgl. Dixit/Nalebuff (1997) S. 89-91<br />

26


Kooperation tritt jedoch auch auf, wenn keine Verwandtschaft vorliegt. Axelrod<br />

nennt für die Reziprozitätstheorie Symbiosen zwischen Pilzen und Algen,<br />

Ameisen und Ameisen-Akazien, Feigen und Feigenbäumen als Beispiele für<br />

wechselseitige Kooperation <strong>im</strong> wiederholten <strong>Gefangenen</strong>-<strong>Dilemma</strong>.<br />

Unkalkulierbare biologische Faktoren wie durchschnittliche Lebensdauer,<br />

relative Mobilität und Gesundheit der Individuen führen dazu, daß die Anzahl<br />

der gespielten Runden unbekannt ist. Defektion ist bei hohem p nicht mehr die<br />

dominante Strategie und Kooperation kann sich einstellen. Problematisch ist, daß<br />

sich beispielsweise Bakterien nicht an das Verhalten anderer Bakterien erinnern<br />

können. Deshalb ist es wichtig, mit möglichst wenigen anderen Spielern in<br />

Kontakt zu treten. 26<br />

5.4 Fazit<br />

Mit den erörterten Eigenschaften des wiederholten <strong>Gefangenen</strong>-<strong>Dilemma</strong>s ist es<br />

gelungen, Kooperation zwischen Egoisten in vielen Fällen als eine rationale<br />

Verhaltensweise herauszustellen. Egoismus muß also nicht für Feindseligkeit und<br />

Defektion stehen. Falls die Zukunft eine ausreichende Bedeutung hat, können die<br />

Spieler die pareto-ineffiziente Situation der wechselseitigen Defektion <strong>im</strong><br />

einfachen <strong>Gefangenen</strong>-<strong>Dilemma</strong> verlassen und sich langfristig durch ständige<br />

Kooperation belohnen.<br />

Die Vorteile und Stärken von Tit-for-Tat und ähnlichen freundlichen und<br />

nachsichtigen <strong>Strategien</strong> habe ich in Theorie, Computerexper<strong>im</strong>enten und<br />

Wirklichkeit eindeutig nachweisen können.<br />

26 Vgl. Axelrod (2000) S. 80-95<br />

27


6 Literaturverzeichnis<br />

Hauptquellen<br />

Axelrod, Robert<br />

Die Evolution der Kooperation; 5. Auflage, R. Oldenbourg Verlag, München 2000<br />

Dixit, Avinash K. und Nalebuff, Barry J.<br />

Spieltheorie für Einsteiger – Strategisches Know-how für Gewinner; 1.Auflage,<br />

Schäffer-Poeschel Verlag, Stuttgart 1997<br />

Feess-Dörr, Eberhard<br />

Mikroökonomie, Kapitel 2: Einige entscheidungstheoretische Grundlagen der<br />

Mikroökonomie; Metropolis-Verlag, Marburg 1997<br />

Güth, Werner<br />

Spieltheorie und ökonomische (Bei)Spiele; 2. Auflage, Springer-Verlag, Berlin<br />

1999<br />

Manteuffel, Karl und Stumpe, Dieter<br />

Mathematik für Ingenieure, Naturwissenschaftler, Ökonomen, Landwirte:<br />

Spieltheorie; 3. Auflage, BSB Teubner Verlagsgesellschaft, Leipzig 1990<br />

Nasar, Sylvia<br />

Auf den fremden Meeren des Denkens. Das Leben des genialen Mathematikers<br />

John Nash; Piper Verlag, München 1999<br />

Poundstone, William<br />

Prisoner’s <strong>Dilemma</strong>; 1. Auflage, Doubleday-Verlag, New York 1992<br />

von Neumann, John und Morgenstern, Oskar<br />

Spieltheorie und wirtschaftliches Verhalten; 2. Auflage, Physica-Verlag,<br />

Würzburg 1967<br />

28


Internet-Quellen<br />

David Levine<br />

Fachhochschule Fulda<br />

Economic and Game Theory<br />

http://levine.sscnet.ucla.edu/<br />

Info zu Axelrods Computerturnier<br />

http://www.fh-fulda.de/~fd9006/OekoS<strong>im</strong>Spiele/Egoisten.html<br />

Foto von und Text über Anatol Rapoport<br />

http://collections.ic.gc.ca/heirloom_series/volume7/countries/russia11.html<br />

Humboldt-Uni. Berlin<br />

Universität Hannover<br />

Universität Koblenz<br />

Universität Köln<br />

Universität Mannhe<strong>im</strong><br />

Universität München<br />

Uni. Saarbrücken<br />

Universität Osnabrück<br />

Universität Ulm<br />

University of Michigan<br />

Spieltheorie-Skript von Prof. Werner Güth<br />

http://www.wiwi.hu-berlin.de/institute/wt3/Lehre/<br />

ss01_spieltheorie/ss01_spieltheorie.html (besonders: Kapitel 6 Seite 388 - 394)<br />

Spieltheorie-Skript von Thomas Riechmann<br />

http://kaldor.vwl.uni-hannover.de/wuv/lectures/scripts/sosem-2001/spieltheorie.html<br />

http://kaldor.vwl.uni-hannover.de/wuv/lectures/scripts/sosem-2001/sp06.pdf<br />

Text zu Axelrods Buch von Jens Woch<br />

http://wwwpriv.uni-koblenz.de:81/~woch/abstracts/axelrod-ek-91.html<br />

Außenpolitik-Seminararbeiten (Stellungskrieg)<br />

http://www.uni-koeln.de/wisofak/powi/jaeger/arbeiten/seminar/ss2000/jacobs/index.html<br />

Spieltheorie-Skript von Oliver Kirchkamp<br />

http://www.sfb504.uni-mannhe<strong>im</strong>.de/~oliver/spiel/spieltheorie_1.pdf<br />

Spieltheorie-Skript von Prof. Klaus M. Schmidt<br />

http://www.vwl.uni-muenchen.de/ls_schmidt/index_de.htm<br />

Reinhard Selten: Informationen und Foto<br />

http://www.uni-saarland.de/z-einr/ub/News/aus-04/sel.html<br />

Ausführliche Texte zur Spieltheorie und Axelrod<br />

http://www.cl-ki.uni-osnabrueck.de/~nntthele/ipd/index.html<br />

Entscheidungstheorie – Kooperation unter Egoisten<br />

http://www.informatik.uniulm.de/ki/Edu/Vorlesungen/VerteilteKI/WS9596/std2ent.html<br />

Homepage von Robert Axelrod<br />

http://www.spp.umich.edu/people/axelrod-r.htm<br />

Universität Zürich Evolution der Kooperation und k. I.<br />

http://www.ifi.unizh.ch/groups/ailab/teaching/seminar_newai99/pfister.pdf<br />

Thomas Fent<br />

Geschichte der Spieltheorie<br />

http://e119ws1.tuwien.ac.at/OR/Fent/Game/deutsch.html<br />

29


7 Anhang<br />

7.1 Grundbegriffe der Spieltheorie<br />

7.1.1 Fachtermini<br />

In der folgenden Übersicht wird die Bedeutung der wichtigsten Begriffe der<br />

Spieltheorie kurz umschrieben.<br />

Begriff<br />

Spiel<br />

Spieler<br />

(auch Agent, Partei, Aktor)<br />

Strategie<br />

(auch Handlungsalternative)<br />

Gewinnmatrix<br />

(auch Spiel-, Auszahlungs-,<br />

Ereignis-, Payoff-,<br />

Nutzenmatrix)<br />

Situation<br />

(auch Lösung)<br />

Bedeutung<br />

Unter einem Spiel versteht man eine Anzahl von Regeln, die<br />

die zugelassenen Handlungen der an einem Wettbewerb<br />

(Konflikt) beteiligten Parteien beschreiben. Diese Spielregeln<br />

müssen präzise festlegen, welche Züge jeder Spieler in allen<br />

möglichen Situationen ausführen kann, wann das Spiel<br />

beendet ist, und wer dann welchen Betrag gewonnen hat<br />

Die teilnehmenden Interessenparteien (z.B. Firmen,<br />

Gefangene, Staaten) sind die Akteure des Spiels. Sie haben<br />

stets die Wahl zwischen verschiedenen Aktionsmöglichkeiten<br />

(<strong>Strategien</strong>)<br />

Eine Strategie ist ein eindeutiger Verhaltensplan des Spielers<br />

für jede Entscheidungssituation<br />

Die <strong>Strategien</strong> und die daraus folgenden Gewinne der Spieler<br />

werden in einer Matrix aufgeführt. Der Gewinn von Spieler 1<br />

steht vor, der Gewinn von Spieler 2 nach dem Komma<br />

Jedes Ergebnis, das sich durch die Wahlmöglichkeiten der<br />

Spieler ergeben kann, wird als Situation bezeichnet<br />

30


Begriff<br />

Gemischte / reine<br />

Strategie<br />

Nullsummenspiel<br />

/ Nicht-<br />

Nullsummenspiel<br />

S<strong>im</strong>ultanes /<br />

sequentielles<br />

Spiel<br />

Nichtkooperatives<br />

/<br />

kooperatives<br />

Spiel<br />

Einfaches /<br />

wiederholtes<br />

Spiel (auch iteriertes<br />

Spiel oder Superspiel)<br />

Perfekte /<br />

<strong>im</strong>perfekte<br />

Information<br />

Bedeutung<br />

Wenn die Spieler reine <strong>Strategien</strong> spielen müssen, müssen sie<br />

sich stets auf einen Weg festlegen. Bei gemischten <strong>Strategien</strong><br />

können sie hingegen beispielsweise zu 50% Weg A und zu<br />

50% Weg B einschlagen (Münzwurf trifft die Entscheidung)<br />

In einem Nullsummenspiel ist die Auszahlungssumme aller<br />

Spieler stets gleich null. In Nicht-Nullsummenspielen kann es<br />

insgesamt auch Verluste oder Gewinne geben<br />

Falls sich alle Spieler gleichzeitig entscheiden müssen,<br />

spricht man von einem s<strong>im</strong>ultanen Spiel. In einem<br />

sequentiellen Spiel agieren die Spieler nacheinander<br />

In einem nichtkooperativen Spiel kann es durchaus freiwillige<br />

Kooperation geben. Es existiert aber kein übergeordnetes<br />

Rechtssystem, das die Spieler auf getroffene Vereinbarungen<br />

festlegen würde. Bei kooperativen Spielen können bindende<br />

Vereinbarungen getroffen werden, und die Spieler dürfen von<br />

ihrem Gewinn Seitenzahlungen an andere Spieler leisten<br />

In einem einfachen Spiel wird das Spiel nur eine Runde (auch<br />

Periode, Stufe) gespielt. Unter einem wiederholten Spiel<br />

versteht man das mehrfache Spielen desselben Spiels. Jede<br />

Runde wird als Stufenspiel bezeichnet<br />

Falls die Spieler zu jedem Zeitpunkt vollständig über den<br />

bisherigen Spielverlauf und die Auszahlungen informiert sind,<br />

spricht man von einem Spiel mit perfekter Information. Wenn<br />

es <strong>im</strong> Spiel auch nicht kalkulierbare Ereignisse geben kann,<br />

handelt es sich um ein Spiel mit <strong>im</strong>perfekter Information<br />

31


7.1.2 Die Rationalitätshypothese<br />

Die Spieltheorie stellt an die Spieler die Forderung, sich stets rational zu<br />

verhalten. Nach dem Menschenbild der Ökonomie trifft der Homo oeconomicus<br />

keine gefühlsmäßigen oder habituellen Entscheidungen, sondern wählt die<br />

Alternative, die ihm den höchsten Nutzen bringt. Er verhält sich ungeachtet des<br />

Erfolgs oder Mißerfolgs der anderen Spieler strikt rational. Handeln aus<br />

altruistischen Motiven ist ausgeschlossen.<br />

7.1.3 Grundlegende Spielsituation<br />

In der Spieltheorie werden Konfliktsituationen zwischen mehreren Parteien<br />

betrachtet. Jede Partei kann zwischen verschiedenen <strong>Strategien</strong> wählen.<br />

Generell sind Anzahl der Spieler, der <strong>Strategien</strong> und der zu spielenden Runden<br />

beliebig. Um die Analysierbarkeit zu vereinfachen, werden jedoch meist und<br />

auch in dieser Arbeit Spiele mit zwei Spielern und wenigen <strong>Strategien</strong> betrachtet.<br />

Die Spielsituation jeder Runde wird in einer Gewinnmatrix veranschaulicht:<br />

Spieler 2<br />

Strategie A Strategie B Strategie C<br />

Strategie A 6, 9 4, 7 6, 1<br />

Spieler 1<br />

Strategie B 8, 4 8, 5 4, 9<br />

Strategie C 11, 7 5, 3 5, 7<br />

Tabelle 5: Eine allgemeine Spielmatrix<br />

Jeder Spieler wählt eine Präferenzordnung der Ergebnisse, er ordnet also jeder<br />

Situation einen Zahlenwert zu. Würden beide Spieler Strategie B wählen, erhielte<br />

Spieler 1 acht, Spieler 2 fünf Gewinneinheiten (= Nutzenpunkte).<br />

32


7.1.4 Spielarten<br />

In dieser Arbeit werden stets nicht-kooperative, s<strong>im</strong>ultane Nicht-<br />

Nullsummenspiele mit perfekter Information betrachtet:<br />

• Die Spieler dürfen zwar kooperieren, können aber keine bindenden<br />

Vereinbarungen treffen – nicht-kooperatives Spiel<br />

• Die Spieler müssen ihre Entscheidungen stets s<strong>im</strong>ultan treffen<br />

• Die Auszahlungssumme muß nicht <strong>im</strong>mer gleich Null sein – Nicht-<br />

Nullsummenspiel<br />

• Die Spieler wissen stets alles über vergangene Spiele, Wahlmöglichkeiten<br />

und Auszahlungen des Gegner – perfekte Information<br />

7.1.5 Dominante <strong>Strategien</strong><br />

Definition:<br />

Eine dominante Strategie ist eine Strategie, die in jedem Fall<br />

mindestens genauso gut ist, wie jede andere Strategie<br />

Ein Spieler wird eine dominante Strategie unabhängig von der Wahl der anderen<br />

Spieler spielen, da ihm diese stets den höchsten Gewinn einbringt.<br />

Im folgenden Spiel wählt Spieler 2 mit Strategie A eine dominante Strategie:<br />

Spieler 2<br />

Strategie A<br />

Strategie B<br />

Spieler 1<br />

Strategie A 1, 10 15, 3<br />

Strategie B 6, 12 8, 4<br />

Tabelle 6: Spielmatrix mit dominanter Strategie<br />

7.1.6 Das Nash-Gleichgewicht<br />

Falls keine dominanten <strong>Strategien</strong> vorliegen, lassen sich durch das Nash-<br />

Gleichgewicht (engl. Nash-Equilibrium) <strong>Strategien</strong> finden, die den erwarteten<br />

33


Gewinn jedes Spielers max<strong>im</strong>ieren. Da die <strong>Strategien</strong> wechselseitig beste<br />

Antworten darstellen und sich deshalb kein Spieler durch das Abweichen von<br />

seiner Gleichgewichtsstrategie verbessern kann, werden alle Spieler dieses<br />

Konzept anwenden. Das Nash-Gleichgewicht stellt für den einzelnen Spieler<br />

jedoch meist keine opt<strong>im</strong>ale Lösung dar.<br />

Definition:<br />

Eine Situation, in der sich kein Spieler durch eine andere Strategie<br />

besser stellen kann, sofern die anderen Spieler bei ihrem Verhalten<br />

bleiben, bezeichnet man als Nash-Gleichgewicht<br />

Im folgenden Spiel existiert ein eindeutiges Nash-Gleichgewicht:<br />

Spieler 2<br />

Strategie A Strategie B Strategie C<br />

Strategie A 10, 10 0, 2 2, 4<br />

Spieler 1<br />

Strategie B 3, 3 6, 6 7, 5<br />

Strategie C 25, 0 4, 7 0, 4<br />

Tabelle 7: Ein eindeutiges Nash-Gleichgewicht<br />

Jeder Spieler muß voraussehen, wie sein Mitspieler handeln wird, um die beste<br />

Antwort auf diese Strategie spielen zu können. Folglich wird ein Strategiepaar<br />

gespielt, in dem beide <strong>Strategien</strong> die beste Antwort auf die jeweils andere<br />

darstellen. Ein solches Nash-Gleichgewicht besteht in diesem Beispiel, wenn<br />

beide Spieler Strategie B spielen. Kein Spieler hat einen Anreiz, von seiner<br />

Gleichgewichts-Strategie abzuweichen, da dies unweigerlich mit Verlust<br />

verbunden wäre. Bei allen anderen Strategiekombinationen hat mindestens ein<br />

Spieler die Motivation, seine Strategie zu wechseln.<br />

Spiele aus dem Wirtschaftsbereich haben in reinen <strong>Strategien</strong> meist entweder<br />

kein Nash-Gleichgewicht oder mehrere. Die Spieler müssen nun eine gemischte<br />

34


Strategie wählen. Jeder Strategie wird also eine best<strong>im</strong>mte<br />

Ausspielwahrscheinlichkeit zugeordnet. Man kann beweisen, daß sich durch<br />

gemischte <strong>Strategien</strong> stets ein eindeutiges Nash-Gleichgewicht finden läßt.<br />

7.1.7 Pareto-Effizienz<br />

Definition:<br />

Eine Situation heißt pareto-effizient, wenn kein Spieler<br />

besser gestellt werden könnte, ohne daß mindestens<br />

ein anderer Spieler eine Verschlechterung erleidet<br />

Die Pareto-Effizienz ist ein Kriterium dafür, ob ein Spielausgang wünschenswert<br />

ist. Betrachtet man eine Situation, die nicht pareto-effizient ist, so wäre eine<br />

andere Situation, die mindestens einen Spieler besser stellt, möglich. Dieser<br />

Spieler könnte einen Bruchteil seines zusätzlichen Nutzenzuwachses an alle<br />

Spieler verteilen. Somit wären alle Spieler besser gestellt.<br />

7.2 <strong>Strategien</strong><br />

Die folgende Liste führt einige einfache Standardstrategien und <strong>Strategien</strong>, die<br />

bei Axelrods Turnieren eingesetzt wurden, auf. Die Standardstrategien werden<br />

auch benutzt, um neue <strong>Strategien</strong> zu testen. 27<br />

Unter einer blinden Strategie versteht man eine Strategie, die Verhalten nicht<br />

vom anderen Spieler abhängig macht, also einem blinden Schema folgt.<br />

<strong>Strategien</strong>, deren Verhalten vom Verhalten des anderen Spielers abhängen,<br />

bezeichnet man als sensitive <strong>Strategien</strong>.<br />

Es wird auf die Bezeichnungen und Auszahlungen von Tabelle 1 Bezug<br />

genommen: T=Temptation, 5 Punkte; R=Reward, 3 Punkte; P=Punishment, 1<br />

Punkt; S=Sucker’s Payoff, 0 Punkte.<br />

27 Vgl. http://www.informatik.uni-ulm.de/ki/Edu/Vorlesungen/VerteilteKI/WS9596/std2ent.html,<br />

http://www.cl-ki.uni-osnabrueck.de/~nntthele/ipd/ipd2.html, und Axelrod (2000) Teil II<br />

35


Blinde <strong>Strategien</strong><br />

Name, System<br />

Defect<br />

unfreundlich, blind<br />

defektiere bei jedem<br />

Zug<br />

Cooperate<br />

freundlich, blind<br />

kooperiere bei jedem<br />

Zug<br />

Per_kind<br />

(= Per_ccd)<br />

unfreundlich, blind<br />

spiele periodisch<br />

„2mal kooperieren –<br />

defektieren“<br />

Per_nasty<br />

(= Per_ddc)<br />

unfreundlich, blind<br />

spiele periodisch<br />

„2mal defektieren –<br />

kooperieren“<br />

Random*<br />

unfreundlich, blind<br />

ermittle Zufallszahl<br />

0


Sensitive <strong>Strategien</strong><br />

Name, System<br />

Spite<br />

(= Gr<strong>im</strong> = Friedman*)<br />

freundlich<br />

kooperiere <strong>im</strong> ersten<br />

Zug, dann kooperiere,<br />

solange der Gegner<br />

noch nicht defektiert<br />

hat, danach defektiere<br />

<strong>im</strong>mer<br />

Tit-for-Tat*<br />

freundlich<br />

kooperiere <strong>im</strong> ersten<br />

Zug; in jedem weiteren<br />

Zug spiele den Zug,<br />

den der Gegner be<strong>im</strong><br />

letzten Mal benutzt hat<br />

Tat-for-Tit<br />

(= Mistrust)<br />

unfreundlich<br />

defektiere <strong>im</strong> 1. Zug;<br />

spiele dann Tit-for-Tat<br />

Tit-for-two-Tats<br />

freundlich<br />

defektiere nur auf<br />

zweifache Defektion<br />

Strategie<br />

Dies ist die erste Strategie, die das Verhalten des Gegners<br />

berücksichtigt. Spite ist freundlich, es bietet Kooperation<br />

an, ändert aber sein Verhalten, sobald der Gegner einmal<br />

versucht hat, unkooperativ zu sein. Spite läßt sich als<br />

Cooperate mit Abwehrmechanismus beschreiben, der vor<br />

Ausbeutung schützt. Spite versucht nicht, Gegner zur<br />

Kooperation zu bewegen, die gelegentlich T erhalten<br />

wollen. Es gibt Spite-Varianten, die ihr Verhalten erst<br />

nach zwei oder mehreren "Betrugsversuchen" ändern.<br />

Diese Strategie ist kooperationswillig, wehrt sich aber<br />

auch gegen Ausbeutungsversuche. Gleichzeitig ist sie<br />

nicht nachtragend, sondern beantwortet erneute<br />

Kooperationsbereitschaft mit Kooperation. Tit-for-Tat<br />

kann nicht gewinnen, da es niemals unmotiviert<br />

defektiert, also nie versucht T zu erhalten. Andererseits<br />

kann es aber auch nicht mit mehr als 5 Punkten Abstand<br />

verlieren, weil es sich nur einmal ausbeuten läßt.<br />

Tat-for-Tit läßt sich überhaupt nicht ausbeuten, da die<br />

Strategie am Anfang defektiert. Daher ist Tat-for-Tit auf<br />

die Initiative des Gegners angewiesen, damit es zur<br />

Kooperation kommt. Ansonsten gelten die gleichen<br />

Bemerkungen wie bei Tit-for-Tat.<br />

Tit-for-two-Tats ist nachsichtiger als Tit-for-Tat und hätte<br />

Axelrods erstes Turnier gewonnen, wenn es jemand<br />

eingereicht hätte. Tit-for-two-Tats kann jedoch auch<br />

leicht ausgebeutet werden, z. B. von Per_kind.<br />

37


Name, System<br />

Two-tits-for-Tat<br />

freundlich<br />

defektiere zwe<strong>im</strong>al auf<br />

Defektion<br />

Soft-majo<br />

freundlich<br />

spiele den<br />

meistbenutzten Zug des<br />

Gegners, bei<br />

Gleichheit kooperiere<br />

Downing*<br />

unfreundlich<br />

kooperiere mit<br />

kooperativen Spielern,<br />

defektiere <strong>im</strong><br />

Zweifelsfall<br />

Gradual<br />

freundlich<br />

Bestraft die erste Defektion<br />

mit einer Defektion, die<br />

zweite Defektion mit zwei<br />

Defektionen, etc.<br />

Prober<br />

unfreundlich<br />

spiele die ersten drei Züge<br />

„kooperieren – 2mal<br />

defektieren“; defektiere<br />

<strong>im</strong>mer, wenn der Gegner <strong>im</strong><br />

2.+3. Zug kooperiert hat,<br />

sonst spiele Tit-for-Tat<br />

Strategie<br />

Two-tits-for-Tat ist nicht so nachsichtig wie Tit-for-Tat,<br />

sondern bestraft den anderen Spieler nach jeder<br />

Defektionen mit zwei Defektionen.<br />

Soft-majo (soft majority, knappe Mehrheit) versucht<br />

ständiger Ausbeutung dadurch zu entgehen, daß sie bei<br />

überwiegender Defektion ebenfalls defektiert. Das hat<br />

den Vorteil, daß sie gegen „bedingt“ kooperationswillige<br />

Gegner weiterhin kooperiert, aber den Nachteil, relativ<br />

leicht überlistet zu werden, z.B. durch Per_nasty.<br />

Downings Programm berechnet die Wahrscheinlichkeit<br />

für Kooperation bei seinem Mitspieler, nachdem er selbst<br />

kooperiert oder defektiert hat. Nach jedem Zug wird die<br />

bedingte Wahrscheinlichkeit neu berechnet. Bei gleicher<br />

oder geringerer Wahrscheinlichkeit der Kooperation wird<br />

defektiert, ansonsten kooperiert.<br />

Gradual kooperiert be<strong>im</strong> ersten Zug und beantwortet das<br />

erste Defektieren des Gegners mit einem Defektieren und<br />

anschließend zwei Kooperationen, schließlich das n-te<br />

Defektieren des Gegners mit n Defektionen und zwei<br />

Kooperationen.<br />

Hier soll die gegnerische Strategie zunächst getestet<br />

werden: Wenn sie sich ausbeuten läßt, fährt Prober fort,<br />

zu defektieren. Das führt zu einer aggressiven<br />

Grundhaltung, die allerdings bei „schlaueren“ Gegnern<br />

zugunsten einer kooperativen Haltung (Tit-for-Tat)<br />

aufgegeben wird, da sonst nur P in Aussicht stünde.<br />

38


Name, System<br />

Pavlov<br />

freundlich<br />

kooperiere <strong>im</strong> ersten<br />

Zug; dann nur, wenn<br />

beide Spieler<br />

denselben Zug gemacht<br />

haben<br />

Graaskamp*<br />

unfreundlich<br />

ähnlich wie Tit-for-Tat,<br />

versucht gegnerische<br />

Strategie zu erkennen<br />

Joss*<br />

unfreundlich<br />

Tit-for-Tat mit<br />

zufälliger Defektion<br />

Tideman und<br />

Chieruzzi*<br />

freundlich<br />

Bestraft die erste<br />

Defektion mit einer<br />

Defektion, die zweite<br />

Defektion mit zwei<br />

Defektionen, etc.<br />

Strategie<br />

Pavlov verfolgt einen ähnlichen Grundgedanken wie Titfor-Tat,<br />

stellt jedoch strengere Anforderungen an die<br />

eigene Kooperationswilligkeit: Nur nach einer<br />

erfolgreichen Kooperation wird weiter kooperiert, d.h.<br />

die Strategie reagiert auf Ausbeutungsversuche mit<br />

Nichtkooperation und macht dann von sich aus keinen<br />

Versuch, eine Kooperation wieder zu etablieren.<br />

Das Programm von Graaskamp spielt 50-mal Tit-for-Tat,<br />

defektiert, spielt fünfmal Tit-for-Tat und analysiert dann<br />

die Ergebnisse. Es versucht, eine der anderen <strong>Strategien</strong><br />

zu erkennen und so die Auszahlung durch eingestreute<br />

Defektionen zu erhöhen.<br />

Joss’ Programm verhält sich ähnlich wie Tit-for-Tat,<br />

jedoch defektiert es mit einer zehnprozentigen<br />

Wahrscheinlichkeit, auch wenn der andere kooperiert hat.<br />

Tideman und Chieruzzis Programm bestraft die erste<br />

Defektion mit einer Defektion, die zweite Defektion mit<br />

zwei Defektionen, es ähnelt also Gradual. Es gibt aber<br />

nicht auf, unter best<strong>im</strong>mten Umständen wird dem Gegner<br />

eine neue Chance gegeben. Nach zwe<strong>im</strong>aliger<br />

Kooperation spielt es wie am Anfang. Zusätzlich<br />

überprüft ein <strong>im</strong>plementierter Test statistisch, ob es sich<br />

bei dem Gegner um Random handelt.<br />

Mit * markierte <strong>Strategien</strong> nahmen am ersten Axelrod-Turnier teil<br />

39


7.3 Axelrods erstes Computerturnier<br />

Auf den folgenden Seiten sind die Tabellen 2 und 3 aus Robert Axelrods „Die<br />

Evolution der Kooperation“, Anhang A aufgeführt.<br />

Sie zeigen Teilnehmer und Ergebnisse des ersten Computerturniers.<br />

Abbildung 4: Axelrods erstes Turnier: Teilnehmer 28<br />

28 Vgl. Axelrod (2000) Seite 173<br />

40


Abbildung 5: Axelrods erstes Turnier: Endstand 29<br />

29 Vgl. Axelrod (2000) Seite 174<br />

41

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!