Strategien im Gefangenen-Dilemma
Strategien im Gefangenen-Dilemma
Strategien im Gefangenen-Dilemma
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
<strong>Strategien</strong> <strong>im</strong> <strong>Gefangenen</strong>-<strong>Dilemma</strong><br />
Volkswirtschaftliches Hauptseminar<br />
Angewandte Mikroökonomik<br />
Sommersemester 2001<br />
Friedrich-Alexander-Universität Erlangen-Nürnberg<br />
Institut für Wirtschaftswissenschaften<br />
Prof. Dr. Kähler<br />
Sebastian Dietze<br />
Trautenauer Str. 25<br />
91315 Höchstadt<br />
09193/7735<br />
7735@gmx.de
Gliederung<br />
1 Einführung in die Spieltheorie .......................................1<br />
1.1 Ziel der Seminararbeit....................................................................................... 1<br />
1.2 Definition der Spieltheorie................................................................................ 1<br />
1.3 Historische Entwicklung................................................................................... 2<br />
2 Das <strong>Gefangenen</strong>-<strong>Dilemma</strong> in der Theorie .....................4<br />
2.1 Das einfache <strong>Gefangenen</strong>-<strong>Dilemma</strong> ................................................................. 4<br />
2.2 Das wiederholte <strong>Gefangenen</strong>-<strong>Dilemma</strong>............................................................ 5<br />
2.2.1 Das zweirundige <strong>Gefangenen</strong>-<strong>Dilemma</strong>................................................... 6<br />
2.2.2 Das n-rundige <strong>Gefangenen</strong>-<strong>Dilemma</strong> ....................................................... 7<br />
2.2.3 Unbest<strong>im</strong>mt oft gespieltes <strong>Gefangenen</strong>-<strong>Dilemma</strong>.................................... 7<br />
2.2.4 Unendlich oft gespieltes <strong>Gefangenen</strong>-<strong>Dilemma</strong> ....................................... 9<br />
2.3 Superspiel-<strong>Strategien</strong> ........................................................................................ 9<br />
3 Axelrods Computerturniere .........................................11<br />
3.1 Axelrods erstes Turnier................................................................................... 11<br />
3.1.1 Teilnehmer und Regeln........................................................................... 11<br />
3.1.2 Turniersieger ........................................................................................... 12<br />
3.1.3 Gründe für den Triumph von Tit-for-Tat................................................ 12<br />
3.2 Axelrods zweites Turnier................................................................................ 13<br />
3.2.1 Teilnehmer und Regeln........................................................................... 13<br />
3.2.2 Turniersieger ........................................................................................... 13<br />
3.3 Die ökologische Analyse ................................................................................ 14<br />
3.3.1 <strong>Strategien</strong> als Population......................................................................... 14<br />
3.3.2 Abhängigkeit von der Umgebung........................................................... 15<br />
3.4 Tit-for-Tats Schwächen................................................................................... 18<br />
3.4.1 Unnötige Kooperation mit blinden <strong>Strategien</strong> ........................................ 18<br />
3.4.2 Mißverständnisse .................................................................................... 19<br />
3.4.3 Unerfüllbare Forderungen an Tit-for-Tat................................................ 20<br />
II
4 Wege aus dem <strong>Gefangenen</strong>-<strong>Dilemma</strong> ..........................21<br />
4.1 Ratschläge für die Spieler ............................................................................... 21<br />
4.2 Einfluß des Reformers .................................................................................... 22<br />
5 Bedeutung des <strong>Gefangenen</strong>-<strong>Dilemma</strong>s ........................25<br />
5.1 Stellungskrieg.................................................................................................. 25<br />
5.2 Das OPEC-Kartell........................................................................................... 26<br />
5.3 Biologie........................................................................................................... 26<br />
5.4 Fazit................................................................................................................. 27<br />
6 Literaturverzeichnis ......................................................28<br />
7 Anhang............................................................................30<br />
7.1 Grundbegriffe der Spieltheorie ....................................................................... 30<br />
7.1.1 Fachtermini ............................................................................................. 30<br />
7.1.2 Die Rationalitätshypothese ..................................................................... 32<br />
7.1.3 Grundlegende Spielsituation................................................................... 32<br />
7.1.4 Spielarten................................................................................................. 33<br />
7.1.5 Dominante <strong>Strategien</strong>.............................................................................. 33<br />
7.1.6 Das Nash-Gleichgewicht......................................................................... 33<br />
7.1.7 Pareto-Effizienz ...................................................................................... 35<br />
7.2 <strong>Strategien</strong>......................................................................................................... 35<br />
7.3 Axelrods erstes Computerturnier .................................................................... 40<br />
Version 1.08 vom 14.05.2002<br />
Auf www.joach<strong>im</strong>-dietze.de ist die aktuellste Version stets herunterladbar.<br />
Ebenfalls vom selben Autoren erschienen: „Der Börsenkrach vom Oktober 1987“.<br />
III
Tabellenverzeichnis<br />
Tabelle 1: Das <strong>Gefangenen</strong>-<strong>Dilemma</strong>.................................................................... 4<br />
Tabelle 2: Die zweite Runde <strong>im</strong> zweirundigen <strong>Gefangenen</strong>-<strong>Dilemma</strong> ................. 6<br />
Tabelle 3: Die erste Runde <strong>im</strong> zweirundigen <strong>Gefangenen</strong>-<strong>Dilemma</strong> .................... 6<br />
Tabelle 4: Mißverständnis bei Tit-for-tat............................................................. 19<br />
Tabelle 5: Eine allgemeine Spielmatrix............................................................... 32<br />
Tabelle 6: Spielmatrix mit dominanter Strategie ................................................. 33<br />
Tabelle 7: Ein eindeutiges Nash-Gleichgewicht.................................................. 34<br />
Abbildungsverzeichnis<br />
Abbildung 1: Ökologische S<strong>im</strong>ulation mit Cooperate, Defect und Random ...... 16<br />
Abbildung 2: Ökologische S<strong>im</strong>ulation mit Cooperate, Defect, Random und Titfor-tat............................................................................................................<br />
16<br />
Abbildung 3: Ökologische S<strong>im</strong>ulation mit 15 <strong>Strategien</strong>.................................... 17<br />
Abbildung 4: Axelrods erstes Turnier: Teilnehmer ............................................. 40<br />
Abbildung 5: Axelrods erstes Turnier: Endstand................................................. 41<br />
IV
1 Einführung in die Spieltheorie<br />
1.1 Ziel der Seminararbeit<br />
Diese Seminararbeit befaßt sich mit dem <strong>Gefangenen</strong>-<strong>Dilemma</strong>, dem<br />
berühmtesten Fall-Beispiel der Spieltheorie. Ich werde theoretische und<br />
computerexper<strong>im</strong>entelle Ergebnisse aufführen, um <strong>Strategien</strong> <strong>im</strong> <strong>Gefangenen</strong>-<br />
<strong>Dilemma</strong> zu analysieren. Bevor ich die Problematik des <strong>Gefangenen</strong>-<strong>Dilemma</strong>s<br />
erläutere, gehe ich zunächst kurz auf die geschichtliche Entwicklung der<br />
Spieltheorie ein, um den Leser einzuführen.<br />
Nachdem dann die Theorie des wiederholten <strong>Gefangenen</strong>-<strong>Dilemma</strong>s aufgeführt<br />
wird, bewerte ich <strong>im</strong> dritten Kapitel die Ergebnisse von Robert Axelrods<br />
Computer-Turnieren. Axelrod analysierte <strong>Strategien</strong> und erarbeitete so<br />
Verhaltensregeln zur Förderung der Kooperation.<br />
Durch reale Beispiele <strong>im</strong> Stellungskrieg, be<strong>im</strong> OPEC-Kartell und in der Biologie<br />
wird <strong>im</strong> fünften Kapitel die Bedeutung des <strong>Gefangenen</strong>-<strong>Dilemma</strong>s aufgezeigt.<br />
Ziel dieser Seminararbeit ist somit nicht nur, theoretische Lösungshilfen zu<br />
geben, sondern auch die Anwendbarkeit der Theorie und der Empirie auf reale<br />
Beispiele zu übertragen. 1<br />
1.2 Definition der Spieltheorie<br />
Die Spieltheorie, ein Teilgebiet der Mikroökonomie, befaßt sich mit der Analyse<br />
menschlichen Verhaltens in strategischen Situationen. Mehrere Spieler, die<br />
konfligierende Interessen haben und ihren Gewinn max<strong>im</strong>ieren wollen, stehen<br />
vor verschiedenen Entscheidungsmöglichkeiten. Die typische Problematik liegt<br />
darin, daß der eigene Gewinn auch vom Verhalten der anderen Parteien abhängt.<br />
Die Spieltheorie, die für den Spieler die opt<strong>im</strong>ale Strategie finden soll, ist ein<br />
theoretisches Instrument zur Analyse solcher strategischer Entscheidungen.<br />
1 Die Grundbegriffe der Spieltheorie (die vorausgesetzt werden) sind <strong>im</strong> Anhang, Kapitel 7.1 aufgeführt<br />
1
1.3 Historische Entwicklung<br />
Im 18. Jahrhundert wurden die ersten entscheidungs- und spieltheoretischen<br />
Ansätze entwickelt. An den Analysen (zunächst wurden meist Verhaltenswege in<br />
Gesellschaftsspielen wie Schach und Kartenspielen bewertet) waren<br />
hauptsächlich Wissenschaftler aus der Ökonomie und der Mathematik beteiligt.<br />
Jedoch gilt erst das Jahr 1944, als der Mathematiker John von Neumann<br />
gemeinsam mit dem Ökonomen Oskar Morgenstern das fundamentale Werk<br />
„The Theory of Games and Economic Behaviour“ veröffentlichte, als das<br />
Geburtsjahr der Spieltheorie. In ihrem Werk wurden vor allem Zwei-Personen-<br />
Spiele und Nullsummenspiele dargestellt. Die Anwendung der Spieltheorie fand<br />
pr<strong>im</strong>är in den Wirtschaftswissenschaften statt.<br />
John von Neumann (*1903 †1957) Oskar Morgenstern (*1902 †1977)<br />
John Forbes Nash, ein US-amerikanischer Mathematiker, unterschied 1950<br />
erstmals zwischen kooperativen und nicht-kooperativen Spielen. Er bewies die<br />
Existenz eines <strong>Strategien</strong>-Gleichgewichts, das grundlegend für die nichtkooperativen<br />
Spiele wurde und seitdem Nash-Gleichgewicht genannt wird. 2<br />
Die Problematik des <strong>Gefangenen</strong>-<strong>Dilemma</strong>s (engl. Prisoner’s <strong>Dilemma</strong>) ist seit<br />
Jahrhunderten bekannt. Thomas Hobbes war der Ansicht, daß Kooperation in der<br />
Welt von Egoisten nur durch einen zentralen Herrschaftsstab möglich sei. 3<br />
2 Vgl. Nasar (1999), eine hervorragende Biographie Nashs (wurde mit Russell Crowe verfilmt. 2002 <strong>im</strong> Kino!)<br />
3 Vgl. Axelrod (2000) S. 3<br />
2
Eine wissenschaftliche Analyse des <strong>Gefangenen</strong>-<br />
<strong>Dilemma</strong>s erfolgte erst ab 1950. Im Jahr 1980<br />
erschien Robert Axelrods „The Evolution of<br />
Cooperation“, das als Hauptquelle dieser Arbeit<br />
dient. Seine empirische Analyse durch zwei<br />
Computer-Turniere gibt Erklärungen für scheinbar<br />
irrationale Kooperation zwischen egoistischen<br />
Spielern <strong>im</strong> wiederholten <strong>Gefangenen</strong>-<strong>Dilemma</strong>.<br />
Axelrod gibt Vorschläge zur Kooperationsförderung<br />
und nennt reale Beispiele aus Krieg und Biologie.<br />
Robert Axelrod<br />
Die praktische Anwendbarkeit der Spieltheorie dehnt sich heute vom<br />
Alltagsleben, der Ökonomie, der Mathematik, der Biologie und der Philosophie<br />
bis auf die Bereiche Politik- und Militärwissenschaft, Marketing, Soziologie und<br />
Psychologie aus. Die Spieltheorie stellt als ein Teilgebiet der Entscheidungstheorie<br />
einen der Hauptzweige der Mikroökonomie dar.<br />
1994 fand die Spieltheorie endgültig wissenschaftliche Anerkennung: John F.<br />
Nash und die beiden Wirtschaftswissenschaftler Reinhard Selten (Bonn) und<br />
John Charles Harsanyi (USA) wurden für ihre Forschung auf dem Gebiet der<br />
Spieltheorie mit dem Nobelpreis für Wirtschaftswissenschaften ausgezeichnet.<br />
Reinhard Selten (*1930) John C. Harsanyi (*1920 †2000) John F. Nash (*1928)<br />
3
2 Das <strong>Gefangenen</strong>-<strong>Dilemma</strong> in der Theorie<br />
2.1 Das einfache <strong>Gefangenen</strong>-<strong>Dilemma</strong><br />
Das folgende Beispiel ist der Namensgeber des <strong>Gefangenen</strong>-<strong>Dilemma</strong>s:<br />
Zwei Personen haben gemeinsam ein Verbrechen begangen, wurden gefaßt, in<br />
getrennte Zellen gesperrt und dem Richter vorgeführt. In diesem nichtkooperativen<br />
Spiel hat jeder Gefangene (Spieler) nun die Wahl, zu gestehen<br />
(defektieren) oder nicht zu gestehen (kooperieren).<br />
Es gibt vier mögliche Spielausgänge:<br />
• Gefangener 1 gesteht, Gefangener 2 gesteht nicht<br />
Gefangener 2 wird wegen des Verbrechens und der Falschaussage für 20<br />
Jahre eingesperrt, Gefangener 1 wird freigelassen (Kronzeugenregelung)<br />
• Gefangener 1 gesteht nicht, Gefangener 2 gesteht<br />
Gefangener 1 wird für 20 Jahre eingesperrt, Gefangener 2 ist frei<br />
• Gestehen beide <strong>Gefangenen</strong>, so werden beide für zehn Jahre inhaftiert<br />
• Gesteht kein Gefangener, so kann man ihnen nicht viel nachweisen und<br />
beide werden wegen geringer Verbrechen für 3 Jahre festgehalten<br />
Jeder Gefangene ist nur daran interessiert, seine eigene Strafe zu min<strong>im</strong>ieren. Die<br />
Strafe des anderen <strong>Gefangenen</strong> beeinflußt seine Entscheidung nicht. Da die<br />
<strong>Gefangenen</strong> möglichst kurz inhaftiert sein wollen, steht in der folgenden<br />
Spielmatrix eine hohe Punktzahl für eine geringe Haftstrafe.<br />
Gefangener 2<br />
Defektieren<br />
Kooperieren<br />
Gefangener 1<br />
Defektieren P=1, P=1 T=5, S=0<br />
Kooperieren S=0, T=5 R=3, R=3<br />
Tabelle 1: Das <strong>Gefangenen</strong>-<strong>Dilemma</strong><br />
4
Die Buchstaben stehen für<br />
• Temptation – die Versuchung zu defektieren<br />
► 5 Punkte<br />
• Reward – die Belohnung für wechselseitige Kooperation ► 3 Punkte<br />
• Punishment – die Strafe für wechselseitige Defektion ► 1 Punkt<br />
• Sucker’s Payoff – die Auszahlung des gutgläubigen Opfers ► 0 Punkte 4<br />
Die <strong>Gefangenen</strong> wollen ihre Auszahlung max<strong>im</strong>ieren und finden in der Strategie<br />
„Defektieren“ eine dominante Strategie. Beide erhalten nur einen Punkt, P als<br />
Strafe für wechselseitige Defektion.<br />
Definition:<br />
Ein <strong>Gefangenen</strong>-<strong>Dilemma</strong> liegt vor, falls<br />
1. Ein Gleichgewicht bei dominanter Strategie existiert<br />
2. Das Gleichgewicht nicht pareto-effizient ist<br />
3. T > R > P > S und<br />
T + S<br />
R > gilt<br />
2<br />
Hierin besteht das <strong>Gefangenen</strong>-<strong>Dilemma</strong>: Obwohl sich beide Spieler rational<br />
verhalten und ihre dominante Strategie spielen, landen sie in der schlechtesten<br />
gemeinsamen Situation. Trotz der dominanten <strong>Strategien</strong> und des einzigen Nash-<br />
Gleichgewichts bei beidseitiger Defektion, erzielen die beiden Spieler die einzige<br />
nicht pareto-effiziente Situation.<br />
Be<strong>im</strong> <strong>Gefangenen</strong>-<strong>Dilemma</strong> liegt somit ein Widerspruch zwischen der<br />
individuellen und der kollektiven Rationalität vor.<br />
2.2 Das wiederholte <strong>Gefangenen</strong>-<strong>Dilemma</strong><br />
Beide Spieler werden mehrfach vor die Situation des <strong>Gefangenen</strong>-<strong>Dilemma</strong>s<br />
gestellt. Sie haben jeweils die Wahl zu kooperieren oder zu defektieren und<br />
dürfen ihre Entscheidung auch vom bisherigen Spielverlauf abhängig machen.<br />
4 Vgl. Axelrod (2000) S. 7f<br />
5
Während rationale Spieler <strong>im</strong> einfachen <strong>Gefangenen</strong>-<strong>Dilemma</strong> stets defektieren<br />
werden, kann Kooperation <strong>im</strong> wiederholten <strong>Gefangenen</strong>-<strong>Dilemma</strong> durchaus<br />
rational sein. Entscheidend ist, ob die genaue Anzahl der Spiele bekannt ist und<br />
ob über endlich oder unendlich viele Runden gespielt wird. 5<br />
2.2.1 Das zweirundige <strong>Gefangenen</strong>-<strong>Dilemma</strong><br />
Die Auszahlung eines Spielers ist die Summe seiner Auszahlungen in beiden<br />
Spielen. Bei der Analyse des zweirundigen <strong>Gefangenen</strong>-<strong>Dilemma</strong>s betrachtet<br />
man zuerst die zweite Runde:<br />
Spieler 2<br />
Defektieren<br />
Kooperieren<br />
Spieler 1<br />
Defektieren 1, 1 5, 0<br />
Kooperieren 0, 5 3, 3<br />
Tabelle 2: Die zweite Runde <strong>im</strong> zweirundigen <strong>Gefangenen</strong>-<strong>Dilemma</strong><br />
Unabhängig vom Ausgang der ersten Runde findet sich bei wechselseitiger<br />
Defektion ein Nash-Gleichgewicht, beide Spieler werden folglich in der zweiten<br />
Runde ihre dominante Strategie wählen und defektieren.<br />
Die zweite Runde beeinflußt das Spiel in der ersten Runde nicht. Die Auszahlung<br />
(1,1) aus der zweiten Runde wird zu der Auszahlung der ersten Runde addiert:<br />
Spieler 2<br />
Defektieren<br />
Kooperieren<br />
Spieler 1<br />
Defektieren 2, 2 6, 1<br />
Kooperieren 1, 6 4, 4<br />
Tabelle 3: Die erste Runde <strong>im</strong> zweirundigen <strong>Gefangenen</strong>-<strong>Dilemma</strong><br />
5 Vgl. Schmidt (2001), http://www.vwl.uni-muenchen.de/ls_schmidt/index_de.htm, Kapitel 4<br />
6
Auch hier liegt bei „Defektieren/Defektieren“ ein eindeutiges Nash-<br />
Gleichgewicht vor. Somit werden beide Spieler be<strong>im</strong> zweifachen <strong>Gefangenen</strong>-<br />
<strong>Dilemma</strong> nie kooperieren. Das <strong>Dilemma</strong> bleibt bestehen: Die Spieler erhalten 2·P<br />
– zwe<strong>im</strong>al punishment, die Strafe für beiderseitige Defektion.<br />
2.2.2 Das n-rundige <strong>Gefangenen</strong>-<strong>Dilemma</strong><br />
Das n-fach wiederholte <strong>Gefangenen</strong>-<strong>Dilemma</strong> hat ein eindeutiges Nash-<br />
Gleichgewicht, nämlich das n-fache Defektieren.<br />
Der Beweis folgt aus der Rückwärtsinduktion. Das Argument be<strong>im</strong> zweirundigen<br />
<strong>Gefangenen</strong>-<strong>Dilemma</strong> wird (n-1)-fach angewandt. In der n-ten Runde verfügen<br />
beide Spieler unabhängig vom Verlauf in den ersten n-1 Runden über eine<br />
dominante Strategie: Defektion. Analog wird bis zur ersten Runde<br />
rückwärtsinduziert. Beide Spieler werden n-mal defektieren, weil der sogenannte<br />
„last period effect“ jegliche Kooperation verhindert. Beide Spieler erhalten n·P. 6<br />
2.2.3 Unbest<strong>im</strong>mt oft gespieltes <strong>Gefangenen</strong>-<strong>Dilemma</strong><br />
Wenn das <strong>Gefangenen</strong>-<strong>Dilemma</strong> unbest<strong>im</strong>mt oft wiederholt wird, ist eine<br />
Rückwärtsinduktions-Analyse wegen der fehlenden letzten Periode unmöglich.<br />
Wir betrachten nun einen Spieler, der die Strategie Gr<strong>im</strong> 7 anwendet, um zu<br />
zeigen, daß Kooperation nun rational sein kann. 8<br />
• Da die Anzahl der Stufenspiele zwar endlich aber unbekannt ist, wird die<br />
Auszahlung in der 2-ten Runde mit dem Faktor p und in der n-te-Runde<br />
mit<br />
n−1<br />
p multipliziert. 9 Die erste Runde soll sicher stattfinden.<br />
6 Vgl. Schmidt (2001), http://www.vwl.uni-muenchen.de/ls_schmidt/index_de.htm, Kapitel 4 S. 5<br />
7 Eine ausführliche Beschreibung aller genannten <strong>Strategien</strong> erfolgt <strong>im</strong> Anhang, Kapitel 7.2.<br />
Gr<strong>im</strong> kooperiert, bis der Mitspieler defektiert. Auf eine einmalige Defektion antwortet Gr<strong>im</strong> mit ewiger Defektion.<br />
8 vgl. http://kaldor.vwl.uni-hannover.de/wuv/lectures/scripts/sosem-2001/sp06.pdf<br />
9 Auf eine Runde folgt nicht mit Sicherheit eine weitere (Wahrscheinlichkeit) und die Zukunft ist nicht so bedeutend<br />
wie die Gegenwart (Abdiskontierung). p liegt zwischen 0 und 1. p entspricht einer Abwertung der späteren Runden<br />
7
• Falls der zweite Spieler stets kooperiert, ist seine Auszahlung: 10<br />
K<br />
2 3<br />
n<br />
= + p ⋅ + p ⋅ + p ⋅ + = ⋅∑ ∞ 3<br />
3 3 3 3 ... 3 p =<br />
= 1−<br />
p<br />
n<br />
0<br />
• Defektiert Spieler 2 in Runde N, erhält er einmal fünf Punkte und danach<br />
bestenfalls noch einen Punkt pro Runde, da Gr<strong>im</strong> nun <strong>im</strong>mer defektiert<br />
(Spieler 2 wird ab Runde N auch <strong>im</strong>mer defektieren). Seine Auszahlung ist:<br />
D = 3 + p ⋅3<br />
+ p<br />
= 3⋅<br />
N−2<br />
n N−1<br />
p p 5<br />
∑<br />
n=<br />
0<br />
+<br />
2<br />
⋅3<br />
+ ... + p<br />
⋅<br />
+<br />
∞<br />
∑<br />
n=<br />
N<br />
p<br />
n<br />
⋅5<br />
+ p<br />
⋅1+<br />
p<br />
N−1<br />
N N+ 1<br />
⋅1+<br />
...<br />
Nun berechnet man die Differenz aus K und D, um festzustellen, ob der Spieler<br />
durch die Defektion in der N-ten Runde profitiert.<br />
K − D = 3⋅<br />
∞<br />
∑<br />
n=<br />
0<br />
p<br />
n<br />
− (3⋅<br />
N−2<br />
∑<br />
n=<br />
0<br />
p<br />
n<br />
+<br />
p<br />
N−1<br />
⋅5<br />
+<br />
∞<br />
∑<br />
n=<br />
N<br />
p<br />
n<br />
)<br />
=<br />
=<br />
N−1<br />
p (3 5) (3 1)<br />
p<br />
N−1<br />
⋅<br />
−<br />
+<br />
−<br />
⋅<br />
∑ ∞<br />
n=<br />
N<br />
p<br />
1<br />
⋅ ( −2<br />
+ 2⋅<br />
( −1))<br />
= p<br />
1−<br />
p<br />
n<br />
=<br />
p<br />
N−1<br />
N−1<br />
⋅ ( −2<br />
+ 2⋅<br />
2<br />
⋅ ( − 4)<br />
1−<br />
p<br />
∑ ∞<br />
n=<br />
1<br />
p<br />
n<br />
)<br />
Dieses Produkt ist für p = 0, 5 genau Null und für p > 0, 5 strikt größer als Null.<br />
Bezüglich Gr<strong>im</strong> ist also ständige Kooperation bei p > 0, 5 erfolgreicher als jede<br />
andere Strategie. Spieler 2 erhält durch eine Defektion in der N-ten Runde zwar<br />
einen zusätzlichen Gewinn von 2 Punkten, vermindert seine Auszahlung in den<br />
folgenden Runden insgesamt aber deutlicher. Der langfristige Verlust in der<br />
Zukunft überwiegt die einmalige Temptation.<br />
Der genaue Wert p, für den K=D gilt, hängt von T, R, P und S ab. p ist jedoch<br />
stets kleiner als 1.<br />
10 Es wird die geometrische Reihe verwendet:<br />
∞<br />
∑<br />
p<br />
n<br />
=<br />
0 1<br />
1<br />
, und somit auch<br />
∞<br />
∑n<br />
1<br />
n 1<br />
p =<br />
1<br />
−1<br />
8
2.2.4 Unendlich oft gespieltes <strong>Gefangenen</strong>-<strong>Dilemma</strong><br />
Im theoretischen, unendlichen <strong>Gefangenen</strong>-<strong>Dilemma</strong> existiert der „last period<br />
effect“ ebenfalls nicht. Die Rückwärtsinduktion ist somit nicht anwendbar.<br />
Max<strong>im</strong>ierungsstrategien<br />
Da die Auszahlungssumme <strong>im</strong> unendlichen Fall unendlich sein wird, ist eine<br />
einfache Max<strong>im</strong>ierungsstrategie unsinnig. Deshalb versucht der Spieler nun<br />
• den Grenzwert der durchschnittlichen Auszahlungen<br />
( a i<br />
ist die Auszahlung <strong>im</strong> i-ten Spiel)<br />
a1<br />
+ a2<br />
+ ... + an<br />
l<strong>im</strong><br />
n→∞<br />
n<br />
• oder den Gegenwartswert der abdiskontierten Auszahlungen ∑ ∞ t<br />
δ<br />
n=<br />
1<br />
(δ ist der Diskontierungsfaktor)<br />
zu max<strong>im</strong>ieren.<br />
Da Gewinne in der Zukunft weniger Bedeutung als in der Gegenwart haben, wird<br />
meist mit einem Diskontierungsfaktor gerechnet.<br />
Analog zum vorherigen Beweis (p wird durch δ ersetzt) kann man zeigen, daß<br />
sich Kooperation in allen Perioden einstellt, wenn der Diskontierungsfaktor hoch<br />
genug ist. Der einmalige Mehrgewinn durch die Defektion wiegt den Verlust in<br />
den folgenden Runden nicht auf. 11<br />
− 1<br />
⋅ a<br />
i<br />
2.3 Superspiel-<strong>Strategien</strong><br />
Entscheidend für die Strategiewahl ist also, ob dem Spieler die genaue<br />
Rundenanzahl bekannt ist. In einem n-rundigen <strong>Gefangenen</strong>-<strong>Dilemma</strong> ist<br />
ständige Defektion die dominante Strategie, rationale Spieler kooperieren nie.<br />
Falls die Anzahl der Runden nicht genau feststeht oder unendlich ist und p bzw.<br />
δ groß genug sind, hängt das Verhalten des Spielers vom Verhalten des anderen<br />
Spielers ab. Die Aufgabenstellung, in Kapitel 2.2.3 und 2.2.4 eine „gute“<br />
Strategie zu finden, kann die Theorie nicht lösen.<br />
11 Vgl. Schmidt (2001) Kapitel 4.3<br />
9
Aus dem Beweis, daß Kooperation be<strong>im</strong> unbest<strong>im</strong>mt oft gespielten <strong>Gefangenen</strong>-<br />
<strong>Dilemma</strong> rational sein kann, folgt ein Theorem:<br />
Ist p hinreichend groß, so existiert keine beste Strategie<br />
unabhängig von der Strategie des anderen Spielers.<br />
Beweis: Gegen Gr<strong>im</strong> ist bei hohem p ständige Kooperation am erfolgreichsten,<br />
gegen Defect (permanente Defektion) jedoch ständige Defektion. 12<br />
Eine Strategie, die die Planung einer best<strong>im</strong>mten Folge von Spielzügen in<br />
Abhängigkeit des anderen Spielers vorgibt, wird als Superspiel-<strong>Strategien</strong><br />
bezeichnet. In Tests auf der Suche nach erfolgreichen <strong>Strategien</strong> werden die<br />
Superspiel-<strong>Strategien</strong> <strong>im</strong> Duell vor die Bedingungen des wiederholten<br />
<strong>Gefangenen</strong>-<strong>Dilemma</strong>s gestellt:<br />
• Es gibt keine Verpflichtung, getroffene Vereinbarungen zu halten<br />
• Es gibt keine Möglichkeit den Zug des Mitspielers vorherzusehen<br />
• Kein Spieler kann einen anderen beseitigen<br />
• Es besteht keine Möglichkeit die Auszahlung eines Mitspielers zu verändern<br />
• Keiner der Spieler kann das Spiel beenden oder verlassen 13<br />
12 Vgl. Axelrod (2000) S.14<br />
13 Vgl. Axelrod (2000) S.10f<br />
10
3 Axelrods Computerturniere<br />
Robert Axelrod, ein Politik-Professor aus Michigan, suchte eine Strategie, die <strong>im</strong><br />
Vergleich zu anderen <strong>Strategien</strong> <strong>im</strong> Durchschnitt recht erfolgreich abschneidet.<br />
Er trug mit seinen Computer-Turnieren wesentlich zur Analyse des wiederholten<br />
<strong>Gefangenen</strong>-<strong>Dilemma</strong>s bei.<br />
3.1 Axelrods erstes Turnier<br />
3.1.1 Teilnehmer und Regeln<br />
Axelrod forderte Spieltheorie-Experten aus den Bereichen der Ökonomie,<br />
Psychologie, Soziologie, Politikwissenschaft und Mathematik auf, Superspiel-<br />
<strong>Strategien</strong> zu entwickeln. Die 14 teilnehmenden Wissenschaftler wußten, daß<br />
ihre Programme fünfmal (um Zufälle zu verringern) ein 200-faches <strong>Gefangenen</strong>-<br />
<strong>Dilemma</strong> gegen ihr eigenes, Random und alle anderen Programme spielen<br />
würden. Zielsetzung der Superspiel-<strong>Strategien</strong> war, <strong>im</strong> Durchschnitt eine<br />
möglichst hohe Auszahlung zu erreichen. Die Auszahlungen der einzelnen<br />
Duelle und ein etwaiger Sieg über den Mitspieler fanden keine Beachtung. Die<br />
<strong>Strategien</strong> konnten bei jedem Spielzug erneut über ihre Wahlmöglichkeiten<br />
nachdenken und ihre Entscheidung von den vergangenen Spielzügen des<br />
Mitspielers abhängig machen.<br />
Die <strong>Strategien</strong> erzielten in jedem Spielzug je nach ihrem Verhalten die bekannten<br />
Auszahlungen T=5, R=3, P=1 oder S=0 Punkte.<br />
Ein Programm konnte <strong>im</strong> Durchschnitt 0 bis 1000 (200-mal 0 bzw. 5) Punkte<br />
erreichen. Alle Voraussetzungen des n-fachen <strong>Gefangenen</strong>-<strong>Dilemma</strong>s waren<br />
gegeben. Da es mit der n-fachen Defektion eine dominante Strategie gab, war<br />
kaum mit kooperativen <strong>Strategien</strong> zu rechnen.<br />
11
3.1.2 Turniersieger<br />
Sieger mit 504,5 Punkten wurde die<br />
Strategie Tit-for-Tat, eingesandt von<br />
Anatol Rapoport, einem Psychologie-<br />
Professor aus Toronto. 14 Tit-for-Tat (wie<br />
du mir, so ich dir) kooperiert <strong>im</strong> ersten<br />
Zug und wiederholt dann stets den Zug<br />
des Mitspielers. Der Erfolg überraschte,<br />
da Tit-for-Tat freundlich ist und vorher<br />
bekannt war.<br />
Anatol Rapoport (*1911)<br />
3.1.3 Gründe für den Triumph von Tit-for-Tat<br />
Nach eingehender Untersuchung konnte Axelrod Eigenschaften feststellen, die<br />
den Erfolg von Tit-for-Tat begründen.<br />
Tit-for-Tat vereint die Eigenschaften Freundlichkeit und Nachsichtigkeit:<br />
• Freundlichkeit: Defektiere nicht als erster<br />
• Nachsichtigkeit: Defektiere, wenn der Gegner zuvor defektierte<br />
Tit-for-Tat erreichte gemeinsam mit anderen freundlichen (kooperierenden)<br />
<strong>Strategien</strong> eine sehr hohe Punktzahl und wurde von bösen (defektierenden)<br />
<strong>Strategien</strong> nur knapp besiegt. Böswillige <strong>Strategien</strong> unterliegen zwar nie <strong>im</strong><br />
direkten Vergleich und sind vor Ausbeutung geschützt. Sie machen aber meist<br />
erheblich weniger Punkte als bei beidseitiger Kooperation. Die acht<br />
erstplazierten <strong>Strategien</strong> waren freundlich, alle anderen unfreundlich.<br />
Tit-for-Tat defektiert nur ein einziges Mal, gibt dem Mitspieler weiterhin die<br />
Möglichkeit zur Kooperation und min<strong>im</strong>iert so die Möglichkeit einer ständigen<br />
wechselseitigen Bestrafung.<br />
Viele Spieler versuchten Tit-for-Tat zu verbessern, scheiterten aber, da sie bereits<br />
durch seltene Defektionen zu oft P erhielten. Die Programmierer waren zu sehr<br />
14 Vgl. Kapitel 7.3 und Axelrod (2000) S. 25-30 und 173f<br />
12
auf ihren eigenen Vorteil bedacht und dachten zu pess<strong>im</strong>istisch von ihren<br />
Kontrahenten. Sie defektierten zu häufig und berücksichtigten dabei den höheren<br />
Gewinn durch Entgegenkommen und Kooperation nicht genügend.<br />
3.2 Axelrods zweites Turnier<br />
3.2.1 Teilnehmer und Regeln<br />
Axelrod veröffentlichte seine Analysen und schrieb ein zweites Computerturnier<br />
aus. Die 62 Teilnehmer wurde vor die selbe Problematik gestellt, außer daß<br />
Axelrod diesmal ein unbest<strong>im</strong>mt oft wiederholtes <strong>Gefangenen</strong>-<strong>Dilemma</strong> mit<br />
p=0,99654 wählte. 15 Die Teilnehmer konnten so mit ungefähr 200 Runden<br />
rechnen. Tatsächlich gingen die fünf Teilspiele nur über 63, 77, 151, 156 und 308<br />
Runden (Mittelwert 151). Die Rundenanzahl war für jedes Duell gleich, aber<br />
keinem Spieler vorher bekannt.<br />
3.2.2 Turniersieger<br />
Tit-for-Tat wurde nur von Anatol Rapoport eingesandt und gewann mit 434,73<br />
Punkten erneut. Tit-for-Tats Sieg war deutlich knapper ausgefallen als be<strong>im</strong><br />
ersten Turnier: 52 <strong>Strategien</strong> lagen über 380 Punkten. 16 Viele Programmierer<br />
wollten ausnutzen, daß Axelrod die Freundlichkeit so positiv darstellte. Sie<br />
hofften auf naiv-kooperierende Strategie und wollten T erreichen. Da diese<br />
Überlegungen jedoch viele Spieler hatten, verloren die unfreundlichen <strong>Strategien</strong><br />
erneut entscheidende Punkte durch wechselseitige Defektion.<br />
In beiden Turnieren lagen nur freundliche <strong>Strategien</strong> auf den vorderen Plätze:<br />
Be<strong>im</strong> ersten Computerturnier waren die ersten acht <strong>Strategien</strong> freundlich, be<strong>im</strong><br />
zweiten Turnier 14 der ersten 15 <strong>Strategien</strong>.<br />
15 Vgl. Axelrod (2000) S. 38. Es ergibt sich eine durchschnittliche Rundenzahl von 289 und ein Median von 200<br />
16 Vgl. Axelrod (2000) S. 175-185<br />
13
3.3 Die ökologische Analyse<br />
3.3.1 <strong>Strategien</strong> als Population<br />
Um die Besonderheiten der einzelnen <strong>Strategien</strong> besser vergleichen zu können,<br />
ließ Robert Axelrod die <strong>Strategien</strong> in einer anderen Turnierform antreten.<br />
Axelrod benutzte einen evolutionsbiologischen Ansatz, um herauszufinden, wie<br />
man Kooperation in eine Population einführen und etablieren kann. 17 In der<br />
ersten Generation einer Population treten alle <strong>Strategien</strong> als Individuen mehrfach<br />
und gleich oft auf. Dann wird die Fitneß der <strong>Strategien</strong>, d.h. die Punktzahl gegen<br />
die anderen <strong>Strategien</strong> der Population, best<strong>im</strong>mt und so die Zusammensetzung<br />
der nächsten Generation festgelegt. Eine Strategie, die eine überdurchschnittliche<br />
Auszahlung erreicht, vermehrt sich. Der prozentuale Anteil einer Strategie an der<br />
Population ist stets gleich dem prozentualen Anteil ihrer erreichten Punktzahl an<br />
der Gesamtauszahlungen. Nach einer gewissen Anzahl von Iterationen stellt sich<br />
ein Gleichgewicht der Anteile der <strong>Strategien</strong> an der Gesamtpopulation ein.<br />
Axelrod führt Definitionen und Sätze auf, die <strong>Strategien</strong> klassifizieren:<br />
Strategie B dringt in Strategie A ein, wenn sie gegen Strategie A<br />
einen höheren Punktwert erhält, als A mit sich selbst<br />
Eine Strategie heißt kollektiv stabil, wenn<br />
keine andere Strategie in sie eindringen kann<br />
Eine freundliche Strategie ist nur dann kollektiv stabil, wenn sie<br />
durch die erste Defektion des anderen Spielers provoziert wird<br />
Tit-for-Tat (und jede andere freundliche Strategie) kann nur dann kollektiv stabil<br />
sein, wenn p hinreichend groß ist. Sonst würde Defect in Tit-for-Tat eindringen<br />
können. Defect ist <strong>im</strong>mer kollektiv stabil, da es gegen keine Strategie verliert.<br />
17 Vgl. Axelrod (2000) S. 43-63<br />
14
Eine Evolution der Kooperation ist in einer Welt von Defects somit höchstens<br />
dann möglich, wenn eine andere Strategie mehrfach auftreten kann.<br />
Beispielsweise genügt bei p=0,9 ein Anteil von fünf Prozent von Tit-for-Tat-<br />
Spielern um in das kollektiv stabile Defect einzudringen. Tit-for-Tat unterliegt<br />
Defect zwar knapp, macht gegen einen weiteren Tit-for-Tat-Spieler jedoch die<br />
Auszahlung R = 3 Punkte. Zwei Defect-Spieler erreichen lediglich P = 1 Punkt.<br />
Die freundlichen Tit-for-Tat-Spieler können sich nach jeder Runde ausbreiten<br />
und die böswilligen Defect-Spieler verdrängen.<br />
3.3.2 Abhängigkeit von der Umgebung<br />
Der Erfolg einer Strategie ist stark von der Umgebung abhängig. Beispielsweise<br />
ist Cooperate <strong>im</strong> direkten Vergleich mit Defect chancenlos. Cooperate wird in<br />
der ersten Generation <strong>im</strong> Durchschnitt 1,5 Punkte (50%·3=R + 50%·0=S), Defect<br />
hingegen 2,5 Punkte (50%·5=T + 50%·1=P) erhalten. Deshalb wird der Anteil<br />
der Cooperate-<strong>Strategien</strong> kontinuierlich abnehmen. Falls sich mehrere<br />
kooperative <strong>Strategien</strong> am Turnier beteiligen, wird Cooperate eine höhere<br />
Punktzahl als Defect erhalten. Um herauszufinden, ob eine Strategie allgemein<br />
gut abschneidet, muß man eine große Anzahl von Turnieren mit wechselndem<br />
Umfeld durchführen. Erfolgreiche <strong>Strategien</strong> würden häufiger ausgewählt,<br />
erfolglose <strong>Strategien</strong> aussortiert. Dieses Verfahren erinnert an natürliche<br />
Selektion, Evolution und ökologische S<strong>im</strong>ulation.<br />
Eine Strategie heißt stabil in bezug auf eine Startverteilung von<br />
<strong>Strategien</strong>, wenn sie bei Erreichen eines Gleichgewichtszustandes<br />
nicht ausgestorben ist<br />
Die Wirtschaftswissenschaftler Mathieu und Delahaye haben einen "Iterated<br />
Prisoner's <strong>Dilemma</strong> S<strong>im</strong>ulator" entwickelt, mit dem sich ökologische<br />
S<strong>im</strong>ulationen mit <strong>Strategien</strong> in beliebiger Zusammensetzungen testen lassen. 18<br />
18 Vgl. http://www.cl-ki.uni-osnabrueck.de/~nntthele/ipd/ipd4.html. (auch Quelle von Abbildung 1-3).<br />
15
Abbildung 1: Ökologische S<strong>im</strong>ulation mit Cooperate, Defect und Random<br />
Abbildung 1 zeigt eine Population mit 300 Individuen. Die <strong>Strategien</strong> Defect,<br />
Cooperate und Random sind in der ersten Generation jeweils 100-mal vertreten.<br />
Defect ist als einzige Strategie stabil in bezug auf diese Startaufstellung, sowohl<br />
Random als auch Cooperate sterben aus. Cooperate und Random verhalten sich<br />
unterschiedlich: Cooperate (schwarze Kurve) erzielt sowohl gegen Random als<br />
auch gegen Defect schlechte Resultate und stirbt schnell aus. Random (blaue<br />
Kurve) überlebt nur solange wie eine ausreichend große Anzahl von Cooperate-<br />
Individuen vorhanden ist. Im Duell mit Defect unterliegt Random schnell.<br />
Abbildung 2: Ökologische S<strong>im</strong>ulation mit Cooperate, Defect, Random und Tit-for-Tat<br />
16
Generell gilt trotzdem nicht, daß Cooperate eine schlechte und Defect eine gute<br />
Strategie ist. Abbildung 2 und 3 zeigen die Ergebnisse umfangreicherer<br />
S<strong>im</strong>ulationen, in denen Cooperate eine stabile Strategie ist, Defect aber nicht. In<br />
dem in Abbildung 2 dargestellten Exper<strong>im</strong>ent ist nur Tit-for-Tat zu Defect,<br />
Cooperate und Random hinzugekommen. Das Ergebnis weicht in dramatischer<br />
Weise ab: Zwar kann Defect zu Beginn seinen Anteil erhöhen, aber mit dem<br />
Aussterben von Random stirbt auch Defect aus. Cooperate, das gegen Defect und<br />
Random schlechte Resultate erzielt (<strong>im</strong> Schnitt S=0 bzw. (R=3 + S=0)/2=1.5<br />
Punkte), erweist sich als stabil.<br />
Abbildung 3: Ökologische S<strong>im</strong>ulation mit 15 <strong>Strategien</strong><br />
Bestätigt wird das Ergebnis durch Abbildung 3. Alle freundlichen <strong>Strategien</strong> sind<br />
stabil und alle unfreundlichen <strong>Strategien</strong> (inklusive Mistrust, das nur eine<br />
min<strong>im</strong>ale Abänderung von Tit-for-Tat ist) sterben aus. Tit-for-Tat belegt nur<br />
einen guten Mittelplatz, da es gegen die blinden <strong>Strategien</strong> schwach abschneidet.<br />
Wie in Axelrods ausgeschriebenen Computer-Turnieren erweisen sich die<br />
freundlichen <strong>Strategien</strong> auch in dieser einfachen ökologischen Analyse als<br />
erfolgreichere <strong>Strategien</strong>.<br />
17
3.4 Tit-for-Tats Schwächen<br />
3.4.1 Unnötige Kooperation mit blinden <strong>Strategien</strong><br />
Geringe Auszahlung<br />
Tit-for-Tat erzielt oftmals deutlich schlechtere Ergebnisse als möglich:<br />
• Tit-for-Tat gewinnt gegen die Strategie Cooperate <strong>im</strong>mer nur 3 Punkte.<br />
Profitabler wäre es, stets zu defektieren (= 5 Punkte pro Runde)<br />
• Gegen Random erntet Tit-for-Tat genauso wenige Punkte wie Random, da<br />
Tit-for-Tat auf jede zufällige Kooperation von Random auch kooperiert<br />
Tit-for-Tat kann gegen keine Strategie <strong>im</strong> direkten Vergleich gewinnen. Es<br />
versagt gegen blinde (unsensitive) <strong>Strategien</strong>, weil es <strong>im</strong>mer wieder Kooperation<br />
aufbauen möchte, von der blinden Strategie aber nicht belohnt wird. Gegen<br />
blinde <strong>Strategien</strong> wie Cooperate oder Random gibt es eine dominante Superspiel-<br />
Strategie: Defect.<br />
Gradual schlägt Tit-for-Tat<br />
Gradual ist eine Strategie, die in vielen Computer-Turnieren erheblich besser als<br />
Tit-for-Tat abschneidet. Gradual kooperiert be<strong>im</strong> ersten Zug und beantwortet das<br />
erste Defektieren des Gegners mit einer Defektion und anschließend zwei<br />
Kooperationen, schließlich das n-te Defektieren des Gegners mit n Defektionen<br />
und zwei Kooperationen.<br />
Die von Axelrod aufgestellte Forderung nach Einfachheit ist verletzt, denn<br />
Gradual benötigt Wissen über das gesamte Spiel seit Beginn.<br />
Gradual hat jedoch eine Eigenschaft, die Tit-for-Tat nicht hat, die aber dem<br />
Verhalten von Menschen näher kommt. Gradual ist sehr offensiv, es zwingt den<br />
Gegner zur Kooperation: Nichtkooperation zahlt sich für ihn <strong>im</strong>mer weniger aus,<br />
denn sie wird mit einer <strong>im</strong>mer größeren Anzahl von Defektionen beantwortet.<br />
18
Gleichzeitig ist Gradual sehr defensiv, möchte nicht ausgebeutet werden und<br />
wählt deshalb nach Ausbeutungsversuchen <strong>im</strong>mer seltener die Kooperation.<br />
Bei einem Turnier mit Gradual, Tit-for-Tat und zehn Standardstrategien gewann<br />
Gradual deutlich. Graduals Erfolg ist aber nicht überraschend, da Tit-for-Tat<br />
gegen Per_kind, Per_nasty und Random schwache Ergebnisse erzielte. 19<br />
3.4.2 Mißverständnisse<br />
Axelrod schloß in seinen Computerturnieren Mißverständnisse zwischen den<br />
Spielern aus. In realen Problemsituationen ist es aber möglich, daß Kooperation<br />
beispielsweise in 5% aller Fälle als Defektion mißverstanden wird. 20<br />
Wenn beide Spieler Tit-for-Tat anwenden, führt ein Mißverständnis zu einer<br />
Kettenreaktion:<br />
Runde Spieler 1 Spieler 2<br />
1 Kooperation Kooperation<br />
2 Kooperation Kooperation<br />
<br />
<br />
<br />
<br />
(wird als Defektion mißverstanden!)<br />
3 Defektion Kooperation<br />
4 Kooperation Defektion<br />
5 Defektion Kooperation<br />
6 Kooperation Defektion<br />
Tabelle 4: Mißverständnis bei Tit-for-Tat<br />
Die beiden Tit-for-Tat-Spieler werden <strong>im</strong>mer abwechselnd für die<br />
vorausgegangene Vergeltung erneut Vergeltung üben (Echo-Effekt).<br />
Tit-for-Tat bestraft selbst Spieler, die sich lange Zeit kooperativ gezeigt haben,<br />
sofort. Eine verbesserte Strategie muß wegen der möglichen Mißverständnisse<br />
19 Vgl. http://www.cl-ki.uni-osnabrueck.de/~nntthele/ipd/ipd3.html<br />
20 Vgl. Dixit/Nalebuff (1997) S. 105–112<br />
19
nachsichtiger sein: Scheint die Defektion nur eine Ausnahme (Mißverständnis<br />
oder auch Absicht) zu sein, sollte man den anderen Spieler nicht sofort bestrafen.<br />
Erst nach mehreren Defektionen in einem kurzen Zeitintervall sollte defektiert<br />
werden. 21 Geeignet ist Tit-for-two-Tats, das nur auf zwei aufeinanderfolgende<br />
Defektionen selbst defektiert Verluste ab.<br />
3.4.3 Unerfüllbare Forderungen an Tit-for-Tat<br />
Die Kapitel 3.4.1 und 3.4.2 stellen konträre Forderungen:<br />
• Um die unsinnige Kooperation mit blinden <strong>Strategien</strong> zu vermeiden, ist<br />
eine Strategie, die von sich aus defektiert und auf gegnerische Defektion<br />
mehrfach defektiert, nötig<br />
• Um einem Echo wegen eines Mißverständnisses zu entgehen, sollte die<br />
Strategie auf einmalige Defektionen nicht reagieren<br />
Tit-for-Tat geht einen Mittelweg und erzielt durchschnittliche Auszahlungen.<br />
Eine aggressivere Strategie erhält gegen blinde <strong>Strategien</strong> deutlich höhere<br />
Auszahlungen, wird aber wegen Mißverständnissen in ständiger Defektion<br />
Punkte einbüßen. Umgekehrt erhält eine freundlichere Strategie gegen blinde<br />
<strong>Strategien</strong> eine noch niedrigere Auszahlung, kann aber trotz der<br />
Mißverständnisse langfristig kooperieren.<br />
21 Vgl. Dixit/Nalebuff (1997) S. 112f<br />
20
4 Wege aus dem <strong>Gefangenen</strong>-<strong>Dilemma</strong><br />
4.1 Ratschläge für die Spieler<br />
Aufgrund der umfangreichen Untersuchungen der Computer-Turniere und der<br />
guten Ergebnisse von Tit-for-Tat kann Axelrod den Spielern<br />
Verhaltensvorschläge für erfolgreiches Verhalten geben, um be<strong>im</strong> wiederholten<br />
<strong>Gefangenen</strong>-<strong>Dilemma</strong> eine hohe Auszahlung zu erhalten. 22<br />
Sei nicht neidisch!<br />
Es ist wichtig, sich nicht mit dem Gegenspieler zu vergleichen, sondern zu<br />
versuchen für sich das beste Ergebnis zu erzielen. Stellen Menschen fest, daß der<br />
andere eine größere Auszahlungsmenge hat, defektieren sie, um den Vorsprung<br />
einzuholen. Dies führt wiederum nur zur Defektion des anderen und es kommt zu<br />
einer Kette von Bestrafungen. Menschen denken oft in Nullsummenspielen. Das<br />
<strong>Gefangenen</strong>-<strong>Dilemma</strong> (und die meisten Konfliktsituationen in der Realität) ist<br />
jedoch ein Nicht-Nullsummenspiel. Be<strong>im</strong> wiederholten <strong>Gefangenen</strong>-<strong>Dilemma</strong> ist<br />
der Erfolg des anderen sogar eine Voraussetzung dafür, daß man selbst gut<br />
abschneidet.<br />
Defektiere nicht als erster!<br />
Langfristig sind freundliche <strong>Strategien</strong> stabiler und leistungsfähiger, nur in<br />
kurzfristigen Spielen ist die ständige Defektion die bessere Strategie. In beiden<br />
Computer-Turnieren waren die erfolgreichsten <strong>Strategien</strong> freundlich. Die<br />
ökologische Analyse zeigte, daß unfreundliche <strong>Strategien</strong> hauptsächlich durch<br />
blinde <strong>Strategien</strong> profitieren. Mit dem Aussterben der blinden <strong>Strategien</strong> ist die<br />
Grundlage für hohe Auszahlungen der unfreundlichen <strong>Strategien</strong> nach einigen<br />
Generationen zerstört. Unfreundliche <strong>Strategien</strong> erhalten gegen <strong>Strategien</strong>, die<br />
nicht nachsichtig sind sondern auf Defektion mit mehrfacher Defektion<br />
antworten, meist nur P.<br />
22 Vgl. Axelrod (2000) S. 99-111<br />
21
Erwidere sowohl Kooperation als auch Defektion!<br />
Reagiert eine Strategie auf Defektionen zu nachsichtig, so riskiert sie ausgebeutet<br />
zu werden. Beantwortet man eine Defektion mit mehr als einer eigenen<br />
Defektion, so kann hingegen das Superspiel eskalieren: Ständige gegenseitige<br />
Defektion könnte sich einstellen. Das opt<strong>im</strong>ale Ausmaß an Nachsicht muß der<br />
Umgebung angepaßt werden. Falls eine freundliche Strategie eine Defektion<br />
nicht mit Defektion beantworten würde, wäre sie zudem nicht kollektiv stabil.<br />
Sei nicht zu raffiniert!<br />
Wählt Spieler 1 eine komplizierte Strategie, könnte sein Verhalten auf Spieler 2<br />
wie eine Zufallsstrategie wirken. Da Spieler 1 scheinbar nicht auf ihn reagiert,<br />
geht der Anreiz zur Kooperation verloren. Sehr einfache Regeln wie Tit-for-Tat<br />
sind hingegen schnell erkannt und der Mitspieler kann dementsprechend handeln<br />
und kooperieren. Tit-for-Tat versucht weder zu täuschen noch zu betrügen.<br />
Raffiniertheit ist in Nullsummenspielen notwendig, um es dem Gegner möglichst<br />
schwer zu machen. Im <strong>Gefangenen</strong>-<strong>Dilemma</strong> verschlechtert sie aber durch<br />
Verwirrung die Chancen zur Kooperation.<br />
4.2 Einfluß des Reformers<br />
Nun werden Einflußnahmen des Reformers (z. B. des Staats), der die<br />
Kooperation unter Spielern fördern kann, erläutert. Somit wird nicht mehr der<br />
einzelne Spieler beraten, sondern versucht, Kooperation <strong>im</strong> <strong>Gefangenen</strong>-<br />
<strong>Dilemma</strong> durch äußere Veränderungen zu fördern. 23<br />
• Erweitere den Schatten der Zukunft<br />
Axelrod empfiehlt eine Erhöhung der Interaktion, da sich Kooperation desto eher<br />
einstellen kann, je öfter das <strong>Gefangenen</strong>-<strong>Dilemma</strong> wiederholt wird.<br />
Wenn man die Interaktion dauerhafter macht, also den Zeitraum des<br />
Aufeinandertreffens und somit p erhöht, steigen die Chancen zur Kooperation.<br />
23<br />
Kapitel 4.2 vgl. Axelrod (2000) S. 112-127<br />
22
Genauso kooperationsfördernd ist es, die Interaktionen häufiger stattfinden zu<br />
lassen. Dies kann erreicht werden, indem man die Anzahl der möglichen<br />
Mitspieler verringert. In Kleinstädten oder durch Ausschluß von oder<br />
Eintrittsbarrieren für konkurrierende Unternehmen trifft jeder Spieler öfter auf<br />
bekannte andere Spieler. Eine gute Konzentration von Interaktionen weniger<br />
Individuen entsteht durch Hierarchien. In einer Bürokratie schließen sich<br />
mehrere Personen ähnlicher Spezifikation zusammen. Diese Spieler treffen somit<br />
häufiger aufeinander. Bei Problemen zwischen den verschiedenen Zweigen<br />
agieren die Vorgesetzten miteinander. Dies ist sinnvoll, da wenige Vorgesetzte<br />
besser interagieren können als viele Mitglieder mehrerer Gruppen.<br />
Durch das Aufspalten eines Vertrages in viele Verhandlungsgegenstände wird<br />
Vertrauen eher aufgebaut werden können: Abrüstung zweier Großmächte ist<br />
höchstens in vielen Teilschritten realisierbar.<br />
• Änderung der Auszahlungen<br />
Die Hauptfunktion der Regierung ist die Ermöglichung von Auswegen aus dem<br />
<strong>Gefangenen</strong>-<strong>Dilemma</strong> durch Änderung von T, R, P und S. Durch eine Änderung<br />
der Auszahlungen ist eine freundliche Strategie bereits bei einem geringen p<br />
kollektiv stabil. Die Regierung zwingt die Bürger dazu, auch ohne privaten<br />
Anreiz soziales Verhalten auszuüben. Gesetze existieren, um Menschen zu<br />
veranlassen, Steuern zu zahlen, nicht zu stehlen und Verträge mit Fremden<br />
einzuhalten. Die beiden <strong>Gefangenen</strong> würden ebenfalls eher schweigen, wenn sie<br />
in einer organisierten Bande wären und bei Gestehen mit Bestrafung durch die<br />
eigene Bande rechnen müßten.<br />
• Belehrung der Spieler über kooperationsfördernde Werte, Fakten und<br />
Fertigkeiten, die kooperationsfördernd sind<br />
„Unterweise die Menschen, sich umeinander zu kümmern.”<br />
Die Menschen sollten sich mehr um das Wohlergehen ihrer Mitmenschen sorgen<br />
und sich zuerst jedem Menschen gegenüber kooperativ verhalten. Im Elternhaus,<br />
in Schulen und Kirchen wird den Kindern gelehrt, das Glück der Mitmenschen<br />
zu beachten. Dadurch, daß die Wohlfahrt anderer das eigene Wohlbefinden<br />
23
verbessern kann, wird Defektion unattraktiver. Menschen, die versuchen diesen<br />
Altruismus zu unterlaufen und kooperatives Verhalten nicht erwidern, sollte man<br />
mit Defektion begegnen. Dies führt zur Gegenseitigkeit als Grundlage der<br />
Kooperation.<br />
„Unterweise in Sachen Reziprozität”<br />
Die verbreitetste Moral in vielen Gesellschaften ist die Goldene Regel:<br />
“Behandele andere so, wie du behandelt werden möchtest.” Das Problem dieser<br />
Moral (= Strategie Cooperate) liegt in der ständigen Nachsicht, die einigen<br />
Mitmenschen entgegengebracht und von diesen ausgenutzt wird. Eine „Tit-for-<br />
Tat-Moral” ist besser, da sie zwar freundlich zu den Mitspielern ist, sich aber<br />
auch nicht ausnutzen läßt. Tit-for-Tat gewinnt in keinem direkten Duell und<br />
fördert Kooperation und verhält sich somit recht moralisch, wenn auch nicht<br />
nach der Goldenen Regel. Eine gegenseitige Unterweisung in Reziprozität<br />
(Wechselseitigkeit) ist notwendig um eventuell Abweichende zu erkennen und<br />
direkt zu bestrafen.<br />
“Verbessere die Erinnerungsfähigkeit”<br />
Eine gute Erinnerung an ehemalige Mitspieler und ihre Verhaltensweisen ist<br />
notwendig, damit die Spieler sofort wissen, ob sie freundlich oder aggressiv<br />
reagieren müssen. Kooperation kann nur aufrechterhalten werden, wenn man sich<br />
an die bisherigen Runden mit dem anderen Spieler erinnert. Sonst kann man auf<br />
früheres feindliches Verhalten nicht rechtzeitig reagieren.<br />
24
5 Bedeutung des <strong>Gefangenen</strong>-<strong>Dilemma</strong>s<br />
In diesem Kapitel wird aufgezeigt, daß Verhaltensweisen in unterschiedlichsten<br />
Bereichen durch das wiederholte <strong>Gefangenen</strong>-<strong>Dilemma</strong> nachvollziehbar werden.<br />
5.1 Stellungskrieg<br />
Aus der Sicht der Staaten war der erste Weltkrieg ein Nullsummenspiel. Die<br />
Soldaten in ruhigen Frontabschnitten <strong>im</strong> Stellungskrieg befanden sich hingegen<br />
<strong>im</strong> wiederholten <strong>Gefangenen</strong>-<strong>Dilemma</strong>. Sie trafen mehrfach auf die selben<br />
gegnerischen Soldaten, p war somit sehr groß. Ein Soldat hatte stets die Wahl zu<br />
kooperieren (vorsätzlich so schießen, daß Verletzungen vermieden werden) oder<br />
zu defektieren (gezielt schießen, um zu töten).<br />
Zwischen den verfeindeten Bataillonen konnte man eine Evolution der<br />
Kooperation feststellen. Ein kooperatives Interaktionssystem wurde durch<br />
gleichzeitige Ablenkungen (Mahlzeiten) oder schlechtes Wetter (Angriffe<br />
wurden fast unmöglich) eingeführt. Die Soldaten wurden so zur Kooperation<br />
gedrängt. Die Kooperationen wurden aufrechterhalten, da jedem Soldaten<br />
bekannt war, daß der Gegner zurückschlagen würde. Eine Dämpfungsfunktion<br />
verhinderte eskalierende Echos (Anstifter erkennt die Eskalation und verzichtet<br />
auf weitere Bestrafung). Die Soldaten spielten eine freundliche, nachsichtige<br />
Strategie. Unter den verfeindeten Soldaten bildeten sich Ethiken. Im Falle einer<br />
versehentlichen Defektion bedauerten die Soldaten den Tod eines Gegners.<br />
Moral verbesserte die Auszahlungen für kooperatives Verhalten.<br />
Die Führungsstäbe konnten das Verhalten der Soldaten nicht kontrollieren und<br />
verhindern. Gegen Kriegsende befahlen die Offiziere jedoch kontrollierbare<br />
Aggressionen wie kleine Stoßtrupps. Durch gezieltes Ausschalten der<br />
Dämpfungsfunktion wurde das Interaktionssystem außer Kontrolle gebracht.<br />
Ewige Defektion beendete die Evolution der Kooperation. 24<br />
24 Vgl. Axelrod (2000) S. 67-79<br />
25
5.2 Das OPEC-Kartell<br />
Das Standardbeispiel für ein iteriertes <strong>Gefangenen</strong>-<strong>Dilemma</strong> <strong>im</strong> Wirtschaftsleben<br />
ist das Kartell der Organisation der erdölexportierenden Länder OPEC.<br />
Die Spieler, also die Mitgliedsstaaten der OPEC, können in jeder Runde (jeden<br />
Monat) kooperieren (wenig Öl verkaufen) oder defektieren (viel Öl verkaufen).<br />
Für jedes Land ist es vorteilhaft viel Öl zu verkaufen, da es so seine Einnahmen<br />
erhöht. Dadurch, daß die Staaten mehr Öl anbieten, fällt jedoch der Preis. Wenn<br />
alle Staaten kooperieren, würde jeder Staat dank des hohen Preises R erhalten.<br />
Ziel des Kartells ist es, jeden Staat zur Kooperation zu bringen, damit niemand<br />
auf T spekuliert und so allen Staaten schadet.<br />
Nach dem Zusammenschluß der OPEC-Staaten stieg der Rohölpreis pro Barrel<br />
von 1973 bis 1980 von 3 auf 30 US Dollar. Als dann das Kartell<br />
zusammenzubrechen schien, fiel der Preis 1986 auf 10 US Dollar pro Barrel. In<br />
den ersten Spielrunden kooperierten alle Staaten, dann fingen einige Staaten an<br />
zu defektieren. Die Lage eskalierte, alle Staaten verkauften viel Rohöl.<br />
Das <strong>Gefangenen</strong>-<strong>Dilemma</strong> tritt nur in Oligopolen auf. In Polypolen können die<br />
Unternehmen den Preis nicht verändern und beeinflussen somit durch ihre<br />
Strategie die empfohlenen Verhaltensweisen für andere Unternehmen nicht.<br />
Am Beispiel des OPEC-Kartells sieht man auch, daß Kooperation unter den<br />
Spielern für Unbeteiligte schlecht sein kann. Die Allgemeinheit präferiert<br />
niedrige Rohölpreise, ihr wäre es also lieber, wenn die Staaten ständig<br />
defektieren würden. Kartellamte sollen Kooperation und Absprachen verbieten. 25<br />
5.3 Biologie<br />
In biologischen System läßt sich Kooperation durch die Verwandtschaftstheorie<br />
erklären. Nahe Verwandtschaft zwischen Lebewesen ermöglicht Altruismus, also<br />
den Verzicht auf eigenen Vorteil für das Überleben der eigenen Art.<br />
25 Vgl. Dixit/Nalebuff (1997) S. 89-91<br />
26
Kooperation tritt jedoch auch auf, wenn keine Verwandtschaft vorliegt. Axelrod<br />
nennt für die Reziprozitätstheorie Symbiosen zwischen Pilzen und Algen,<br />
Ameisen und Ameisen-Akazien, Feigen und Feigenbäumen als Beispiele für<br />
wechselseitige Kooperation <strong>im</strong> wiederholten <strong>Gefangenen</strong>-<strong>Dilemma</strong>.<br />
Unkalkulierbare biologische Faktoren wie durchschnittliche Lebensdauer,<br />
relative Mobilität und Gesundheit der Individuen führen dazu, daß die Anzahl<br />
der gespielten Runden unbekannt ist. Defektion ist bei hohem p nicht mehr die<br />
dominante Strategie und Kooperation kann sich einstellen. Problematisch ist, daß<br />
sich beispielsweise Bakterien nicht an das Verhalten anderer Bakterien erinnern<br />
können. Deshalb ist es wichtig, mit möglichst wenigen anderen Spielern in<br />
Kontakt zu treten. 26<br />
5.4 Fazit<br />
Mit den erörterten Eigenschaften des wiederholten <strong>Gefangenen</strong>-<strong>Dilemma</strong>s ist es<br />
gelungen, Kooperation zwischen Egoisten in vielen Fällen als eine rationale<br />
Verhaltensweise herauszustellen. Egoismus muß also nicht für Feindseligkeit und<br />
Defektion stehen. Falls die Zukunft eine ausreichende Bedeutung hat, können die<br />
Spieler die pareto-ineffiziente Situation der wechselseitigen Defektion <strong>im</strong><br />
einfachen <strong>Gefangenen</strong>-<strong>Dilemma</strong> verlassen und sich langfristig durch ständige<br />
Kooperation belohnen.<br />
Die Vorteile und Stärken von Tit-for-Tat und ähnlichen freundlichen und<br />
nachsichtigen <strong>Strategien</strong> habe ich in Theorie, Computerexper<strong>im</strong>enten und<br />
Wirklichkeit eindeutig nachweisen können.<br />
26 Vgl. Axelrod (2000) S. 80-95<br />
27
6 Literaturverzeichnis<br />
Hauptquellen<br />
Axelrod, Robert<br />
Die Evolution der Kooperation; 5. Auflage, R. Oldenbourg Verlag, München 2000<br />
Dixit, Avinash K. und Nalebuff, Barry J.<br />
Spieltheorie für Einsteiger – Strategisches Know-how für Gewinner; 1.Auflage,<br />
Schäffer-Poeschel Verlag, Stuttgart 1997<br />
Feess-Dörr, Eberhard<br />
Mikroökonomie, Kapitel 2: Einige entscheidungstheoretische Grundlagen der<br />
Mikroökonomie; Metropolis-Verlag, Marburg 1997<br />
Güth, Werner<br />
Spieltheorie und ökonomische (Bei)Spiele; 2. Auflage, Springer-Verlag, Berlin<br />
1999<br />
Manteuffel, Karl und Stumpe, Dieter<br />
Mathematik für Ingenieure, Naturwissenschaftler, Ökonomen, Landwirte:<br />
Spieltheorie; 3. Auflage, BSB Teubner Verlagsgesellschaft, Leipzig 1990<br />
Nasar, Sylvia<br />
Auf den fremden Meeren des Denkens. Das Leben des genialen Mathematikers<br />
John Nash; Piper Verlag, München 1999<br />
Poundstone, William<br />
Prisoner’s <strong>Dilemma</strong>; 1. Auflage, Doubleday-Verlag, New York 1992<br />
von Neumann, John und Morgenstern, Oskar<br />
Spieltheorie und wirtschaftliches Verhalten; 2. Auflage, Physica-Verlag,<br />
Würzburg 1967<br />
28
Internet-Quellen<br />
David Levine<br />
Fachhochschule Fulda<br />
Economic and Game Theory<br />
http://levine.sscnet.ucla.edu/<br />
Info zu Axelrods Computerturnier<br />
http://www.fh-fulda.de/~fd9006/OekoS<strong>im</strong>Spiele/Egoisten.html<br />
Foto von und Text über Anatol Rapoport<br />
http://collections.ic.gc.ca/heirloom_series/volume7/countries/russia11.html<br />
Humboldt-Uni. Berlin<br />
Universität Hannover<br />
Universität Koblenz<br />
Universität Köln<br />
Universität Mannhe<strong>im</strong><br />
Universität München<br />
Uni. Saarbrücken<br />
Universität Osnabrück<br />
Universität Ulm<br />
University of Michigan<br />
Spieltheorie-Skript von Prof. Werner Güth<br />
http://www.wiwi.hu-berlin.de/institute/wt3/Lehre/<br />
ss01_spieltheorie/ss01_spieltheorie.html (besonders: Kapitel 6 Seite 388 - 394)<br />
Spieltheorie-Skript von Thomas Riechmann<br />
http://kaldor.vwl.uni-hannover.de/wuv/lectures/scripts/sosem-2001/spieltheorie.html<br />
http://kaldor.vwl.uni-hannover.de/wuv/lectures/scripts/sosem-2001/sp06.pdf<br />
Text zu Axelrods Buch von Jens Woch<br />
http://wwwpriv.uni-koblenz.de:81/~woch/abstracts/axelrod-ek-91.html<br />
Außenpolitik-Seminararbeiten (Stellungskrieg)<br />
http://www.uni-koeln.de/wisofak/powi/jaeger/arbeiten/seminar/ss2000/jacobs/index.html<br />
Spieltheorie-Skript von Oliver Kirchkamp<br />
http://www.sfb504.uni-mannhe<strong>im</strong>.de/~oliver/spiel/spieltheorie_1.pdf<br />
Spieltheorie-Skript von Prof. Klaus M. Schmidt<br />
http://www.vwl.uni-muenchen.de/ls_schmidt/index_de.htm<br />
Reinhard Selten: Informationen und Foto<br />
http://www.uni-saarland.de/z-einr/ub/News/aus-04/sel.html<br />
Ausführliche Texte zur Spieltheorie und Axelrod<br />
http://www.cl-ki.uni-osnabrueck.de/~nntthele/ipd/index.html<br />
Entscheidungstheorie – Kooperation unter Egoisten<br />
http://www.informatik.uniulm.de/ki/Edu/Vorlesungen/VerteilteKI/WS9596/std2ent.html<br />
Homepage von Robert Axelrod<br />
http://www.spp.umich.edu/people/axelrod-r.htm<br />
Universität Zürich Evolution der Kooperation und k. I.<br />
http://www.ifi.unizh.ch/groups/ailab/teaching/seminar_newai99/pfister.pdf<br />
Thomas Fent<br />
Geschichte der Spieltheorie<br />
http://e119ws1.tuwien.ac.at/OR/Fent/Game/deutsch.html<br />
29
7 Anhang<br />
7.1 Grundbegriffe der Spieltheorie<br />
7.1.1 Fachtermini<br />
In der folgenden Übersicht wird die Bedeutung der wichtigsten Begriffe der<br />
Spieltheorie kurz umschrieben.<br />
Begriff<br />
Spiel<br />
Spieler<br />
(auch Agent, Partei, Aktor)<br />
Strategie<br />
(auch Handlungsalternative)<br />
Gewinnmatrix<br />
(auch Spiel-, Auszahlungs-,<br />
Ereignis-, Payoff-,<br />
Nutzenmatrix)<br />
Situation<br />
(auch Lösung)<br />
Bedeutung<br />
Unter einem Spiel versteht man eine Anzahl von Regeln, die<br />
die zugelassenen Handlungen der an einem Wettbewerb<br />
(Konflikt) beteiligten Parteien beschreiben. Diese Spielregeln<br />
müssen präzise festlegen, welche Züge jeder Spieler in allen<br />
möglichen Situationen ausführen kann, wann das Spiel<br />
beendet ist, und wer dann welchen Betrag gewonnen hat<br />
Die teilnehmenden Interessenparteien (z.B. Firmen,<br />
Gefangene, Staaten) sind die Akteure des Spiels. Sie haben<br />
stets die Wahl zwischen verschiedenen Aktionsmöglichkeiten<br />
(<strong>Strategien</strong>)<br />
Eine Strategie ist ein eindeutiger Verhaltensplan des Spielers<br />
für jede Entscheidungssituation<br />
Die <strong>Strategien</strong> und die daraus folgenden Gewinne der Spieler<br />
werden in einer Matrix aufgeführt. Der Gewinn von Spieler 1<br />
steht vor, der Gewinn von Spieler 2 nach dem Komma<br />
Jedes Ergebnis, das sich durch die Wahlmöglichkeiten der<br />
Spieler ergeben kann, wird als Situation bezeichnet<br />
30
Begriff<br />
Gemischte / reine<br />
Strategie<br />
Nullsummenspiel<br />
/ Nicht-<br />
Nullsummenspiel<br />
S<strong>im</strong>ultanes /<br />
sequentielles<br />
Spiel<br />
Nichtkooperatives<br />
/<br />
kooperatives<br />
Spiel<br />
Einfaches /<br />
wiederholtes<br />
Spiel (auch iteriertes<br />
Spiel oder Superspiel)<br />
Perfekte /<br />
<strong>im</strong>perfekte<br />
Information<br />
Bedeutung<br />
Wenn die Spieler reine <strong>Strategien</strong> spielen müssen, müssen sie<br />
sich stets auf einen Weg festlegen. Bei gemischten <strong>Strategien</strong><br />
können sie hingegen beispielsweise zu 50% Weg A und zu<br />
50% Weg B einschlagen (Münzwurf trifft die Entscheidung)<br />
In einem Nullsummenspiel ist die Auszahlungssumme aller<br />
Spieler stets gleich null. In Nicht-Nullsummenspielen kann es<br />
insgesamt auch Verluste oder Gewinne geben<br />
Falls sich alle Spieler gleichzeitig entscheiden müssen,<br />
spricht man von einem s<strong>im</strong>ultanen Spiel. In einem<br />
sequentiellen Spiel agieren die Spieler nacheinander<br />
In einem nichtkooperativen Spiel kann es durchaus freiwillige<br />
Kooperation geben. Es existiert aber kein übergeordnetes<br />
Rechtssystem, das die Spieler auf getroffene Vereinbarungen<br />
festlegen würde. Bei kooperativen Spielen können bindende<br />
Vereinbarungen getroffen werden, und die Spieler dürfen von<br />
ihrem Gewinn Seitenzahlungen an andere Spieler leisten<br />
In einem einfachen Spiel wird das Spiel nur eine Runde (auch<br />
Periode, Stufe) gespielt. Unter einem wiederholten Spiel<br />
versteht man das mehrfache Spielen desselben Spiels. Jede<br />
Runde wird als Stufenspiel bezeichnet<br />
Falls die Spieler zu jedem Zeitpunkt vollständig über den<br />
bisherigen Spielverlauf und die Auszahlungen informiert sind,<br />
spricht man von einem Spiel mit perfekter Information. Wenn<br />
es <strong>im</strong> Spiel auch nicht kalkulierbare Ereignisse geben kann,<br />
handelt es sich um ein Spiel mit <strong>im</strong>perfekter Information<br />
31
7.1.2 Die Rationalitätshypothese<br />
Die Spieltheorie stellt an die Spieler die Forderung, sich stets rational zu<br />
verhalten. Nach dem Menschenbild der Ökonomie trifft der Homo oeconomicus<br />
keine gefühlsmäßigen oder habituellen Entscheidungen, sondern wählt die<br />
Alternative, die ihm den höchsten Nutzen bringt. Er verhält sich ungeachtet des<br />
Erfolgs oder Mißerfolgs der anderen Spieler strikt rational. Handeln aus<br />
altruistischen Motiven ist ausgeschlossen.<br />
7.1.3 Grundlegende Spielsituation<br />
In der Spieltheorie werden Konfliktsituationen zwischen mehreren Parteien<br />
betrachtet. Jede Partei kann zwischen verschiedenen <strong>Strategien</strong> wählen.<br />
Generell sind Anzahl der Spieler, der <strong>Strategien</strong> und der zu spielenden Runden<br />
beliebig. Um die Analysierbarkeit zu vereinfachen, werden jedoch meist und<br />
auch in dieser Arbeit Spiele mit zwei Spielern und wenigen <strong>Strategien</strong> betrachtet.<br />
Die Spielsituation jeder Runde wird in einer Gewinnmatrix veranschaulicht:<br />
Spieler 2<br />
Strategie A Strategie B Strategie C<br />
Strategie A 6, 9 4, 7 6, 1<br />
Spieler 1<br />
Strategie B 8, 4 8, 5 4, 9<br />
Strategie C 11, 7 5, 3 5, 7<br />
Tabelle 5: Eine allgemeine Spielmatrix<br />
Jeder Spieler wählt eine Präferenzordnung der Ergebnisse, er ordnet also jeder<br />
Situation einen Zahlenwert zu. Würden beide Spieler Strategie B wählen, erhielte<br />
Spieler 1 acht, Spieler 2 fünf Gewinneinheiten (= Nutzenpunkte).<br />
32
7.1.4 Spielarten<br />
In dieser Arbeit werden stets nicht-kooperative, s<strong>im</strong>ultane Nicht-<br />
Nullsummenspiele mit perfekter Information betrachtet:<br />
• Die Spieler dürfen zwar kooperieren, können aber keine bindenden<br />
Vereinbarungen treffen – nicht-kooperatives Spiel<br />
• Die Spieler müssen ihre Entscheidungen stets s<strong>im</strong>ultan treffen<br />
• Die Auszahlungssumme muß nicht <strong>im</strong>mer gleich Null sein – Nicht-<br />
Nullsummenspiel<br />
• Die Spieler wissen stets alles über vergangene Spiele, Wahlmöglichkeiten<br />
und Auszahlungen des Gegner – perfekte Information<br />
7.1.5 Dominante <strong>Strategien</strong><br />
Definition:<br />
Eine dominante Strategie ist eine Strategie, die in jedem Fall<br />
mindestens genauso gut ist, wie jede andere Strategie<br />
Ein Spieler wird eine dominante Strategie unabhängig von der Wahl der anderen<br />
Spieler spielen, da ihm diese stets den höchsten Gewinn einbringt.<br />
Im folgenden Spiel wählt Spieler 2 mit Strategie A eine dominante Strategie:<br />
Spieler 2<br />
Strategie A<br />
Strategie B<br />
Spieler 1<br />
Strategie A 1, 10 15, 3<br />
Strategie B 6, 12 8, 4<br />
Tabelle 6: Spielmatrix mit dominanter Strategie<br />
7.1.6 Das Nash-Gleichgewicht<br />
Falls keine dominanten <strong>Strategien</strong> vorliegen, lassen sich durch das Nash-<br />
Gleichgewicht (engl. Nash-Equilibrium) <strong>Strategien</strong> finden, die den erwarteten<br />
33
Gewinn jedes Spielers max<strong>im</strong>ieren. Da die <strong>Strategien</strong> wechselseitig beste<br />
Antworten darstellen und sich deshalb kein Spieler durch das Abweichen von<br />
seiner Gleichgewichtsstrategie verbessern kann, werden alle Spieler dieses<br />
Konzept anwenden. Das Nash-Gleichgewicht stellt für den einzelnen Spieler<br />
jedoch meist keine opt<strong>im</strong>ale Lösung dar.<br />
Definition:<br />
Eine Situation, in der sich kein Spieler durch eine andere Strategie<br />
besser stellen kann, sofern die anderen Spieler bei ihrem Verhalten<br />
bleiben, bezeichnet man als Nash-Gleichgewicht<br />
Im folgenden Spiel existiert ein eindeutiges Nash-Gleichgewicht:<br />
Spieler 2<br />
Strategie A Strategie B Strategie C<br />
Strategie A 10, 10 0, 2 2, 4<br />
Spieler 1<br />
Strategie B 3, 3 6, 6 7, 5<br />
Strategie C 25, 0 4, 7 0, 4<br />
Tabelle 7: Ein eindeutiges Nash-Gleichgewicht<br />
Jeder Spieler muß voraussehen, wie sein Mitspieler handeln wird, um die beste<br />
Antwort auf diese Strategie spielen zu können. Folglich wird ein Strategiepaar<br />
gespielt, in dem beide <strong>Strategien</strong> die beste Antwort auf die jeweils andere<br />
darstellen. Ein solches Nash-Gleichgewicht besteht in diesem Beispiel, wenn<br />
beide Spieler Strategie B spielen. Kein Spieler hat einen Anreiz, von seiner<br />
Gleichgewichts-Strategie abzuweichen, da dies unweigerlich mit Verlust<br />
verbunden wäre. Bei allen anderen Strategiekombinationen hat mindestens ein<br />
Spieler die Motivation, seine Strategie zu wechseln.<br />
Spiele aus dem Wirtschaftsbereich haben in reinen <strong>Strategien</strong> meist entweder<br />
kein Nash-Gleichgewicht oder mehrere. Die Spieler müssen nun eine gemischte<br />
34
Strategie wählen. Jeder Strategie wird also eine best<strong>im</strong>mte<br />
Ausspielwahrscheinlichkeit zugeordnet. Man kann beweisen, daß sich durch<br />
gemischte <strong>Strategien</strong> stets ein eindeutiges Nash-Gleichgewicht finden läßt.<br />
7.1.7 Pareto-Effizienz<br />
Definition:<br />
Eine Situation heißt pareto-effizient, wenn kein Spieler<br />
besser gestellt werden könnte, ohne daß mindestens<br />
ein anderer Spieler eine Verschlechterung erleidet<br />
Die Pareto-Effizienz ist ein Kriterium dafür, ob ein Spielausgang wünschenswert<br />
ist. Betrachtet man eine Situation, die nicht pareto-effizient ist, so wäre eine<br />
andere Situation, die mindestens einen Spieler besser stellt, möglich. Dieser<br />
Spieler könnte einen Bruchteil seines zusätzlichen Nutzenzuwachses an alle<br />
Spieler verteilen. Somit wären alle Spieler besser gestellt.<br />
7.2 <strong>Strategien</strong><br />
Die folgende Liste führt einige einfache Standardstrategien und <strong>Strategien</strong>, die<br />
bei Axelrods Turnieren eingesetzt wurden, auf. Die Standardstrategien werden<br />
auch benutzt, um neue <strong>Strategien</strong> zu testen. 27<br />
Unter einer blinden Strategie versteht man eine Strategie, die Verhalten nicht<br />
vom anderen Spieler abhängig macht, also einem blinden Schema folgt.<br />
<strong>Strategien</strong>, deren Verhalten vom Verhalten des anderen Spielers abhängen,<br />
bezeichnet man als sensitive <strong>Strategien</strong>.<br />
Es wird auf die Bezeichnungen und Auszahlungen von Tabelle 1 Bezug<br />
genommen: T=Temptation, 5 Punkte; R=Reward, 3 Punkte; P=Punishment, 1<br />
Punkt; S=Sucker’s Payoff, 0 Punkte.<br />
27 Vgl. http://www.informatik.uni-ulm.de/ki/Edu/Vorlesungen/VerteilteKI/WS9596/std2ent.html,<br />
http://www.cl-ki.uni-osnabrueck.de/~nntthele/ipd/ipd2.html, und Axelrod (2000) Teil II<br />
35
Blinde <strong>Strategien</strong><br />
Name, System<br />
Defect<br />
unfreundlich, blind<br />
defektiere bei jedem<br />
Zug<br />
Cooperate<br />
freundlich, blind<br />
kooperiere bei jedem<br />
Zug<br />
Per_kind<br />
(= Per_ccd)<br />
unfreundlich, blind<br />
spiele periodisch<br />
„2mal kooperieren –<br />
defektieren“<br />
Per_nasty<br />
(= Per_ddc)<br />
unfreundlich, blind<br />
spiele periodisch<br />
„2mal defektieren –<br />
kooperieren“<br />
Random*<br />
unfreundlich, blind<br />
ermittle Zufallszahl<br />
0
Sensitive <strong>Strategien</strong><br />
Name, System<br />
Spite<br />
(= Gr<strong>im</strong> = Friedman*)<br />
freundlich<br />
kooperiere <strong>im</strong> ersten<br />
Zug, dann kooperiere,<br />
solange der Gegner<br />
noch nicht defektiert<br />
hat, danach defektiere<br />
<strong>im</strong>mer<br />
Tit-for-Tat*<br />
freundlich<br />
kooperiere <strong>im</strong> ersten<br />
Zug; in jedem weiteren<br />
Zug spiele den Zug,<br />
den der Gegner be<strong>im</strong><br />
letzten Mal benutzt hat<br />
Tat-for-Tit<br />
(= Mistrust)<br />
unfreundlich<br />
defektiere <strong>im</strong> 1. Zug;<br />
spiele dann Tit-for-Tat<br />
Tit-for-two-Tats<br />
freundlich<br />
defektiere nur auf<br />
zweifache Defektion<br />
Strategie<br />
Dies ist die erste Strategie, die das Verhalten des Gegners<br />
berücksichtigt. Spite ist freundlich, es bietet Kooperation<br />
an, ändert aber sein Verhalten, sobald der Gegner einmal<br />
versucht hat, unkooperativ zu sein. Spite läßt sich als<br />
Cooperate mit Abwehrmechanismus beschreiben, der vor<br />
Ausbeutung schützt. Spite versucht nicht, Gegner zur<br />
Kooperation zu bewegen, die gelegentlich T erhalten<br />
wollen. Es gibt Spite-Varianten, die ihr Verhalten erst<br />
nach zwei oder mehreren "Betrugsversuchen" ändern.<br />
Diese Strategie ist kooperationswillig, wehrt sich aber<br />
auch gegen Ausbeutungsversuche. Gleichzeitig ist sie<br />
nicht nachtragend, sondern beantwortet erneute<br />
Kooperationsbereitschaft mit Kooperation. Tit-for-Tat<br />
kann nicht gewinnen, da es niemals unmotiviert<br />
defektiert, also nie versucht T zu erhalten. Andererseits<br />
kann es aber auch nicht mit mehr als 5 Punkten Abstand<br />
verlieren, weil es sich nur einmal ausbeuten läßt.<br />
Tat-for-Tit läßt sich überhaupt nicht ausbeuten, da die<br />
Strategie am Anfang defektiert. Daher ist Tat-for-Tit auf<br />
die Initiative des Gegners angewiesen, damit es zur<br />
Kooperation kommt. Ansonsten gelten die gleichen<br />
Bemerkungen wie bei Tit-for-Tat.<br />
Tit-for-two-Tats ist nachsichtiger als Tit-for-Tat und hätte<br />
Axelrods erstes Turnier gewonnen, wenn es jemand<br />
eingereicht hätte. Tit-for-two-Tats kann jedoch auch<br />
leicht ausgebeutet werden, z. B. von Per_kind.<br />
37
Name, System<br />
Two-tits-for-Tat<br />
freundlich<br />
defektiere zwe<strong>im</strong>al auf<br />
Defektion<br />
Soft-majo<br />
freundlich<br />
spiele den<br />
meistbenutzten Zug des<br />
Gegners, bei<br />
Gleichheit kooperiere<br />
Downing*<br />
unfreundlich<br />
kooperiere mit<br />
kooperativen Spielern,<br />
defektiere <strong>im</strong><br />
Zweifelsfall<br />
Gradual<br />
freundlich<br />
Bestraft die erste Defektion<br />
mit einer Defektion, die<br />
zweite Defektion mit zwei<br />
Defektionen, etc.<br />
Prober<br />
unfreundlich<br />
spiele die ersten drei Züge<br />
„kooperieren – 2mal<br />
defektieren“; defektiere<br />
<strong>im</strong>mer, wenn der Gegner <strong>im</strong><br />
2.+3. Zug kooperiert hat,<br />
sonst spiele Tit-for-Tat<br />
Strategie<br />
Two-tits-for-Tat ist nicht so nachsichtig wie Tit-for-Tat,<br />
sondern bestraft den anderen Spieler nach jeder<br />
Defektionen mit zwei Defektionen.<br />
Soft-majo (soft majority, knappe Mehrheit) versucht<br />
ständiger Ausbeutung dadurch zu entgehen, daß sie bei<br />
überwiegender Defektion ebenfalls defektiert. Das hat<br />
den Vorteil, daß sie gegen „bedingt“ kooperationswillige<br />
Gegner weiterhin kooperiert, aber den Nachteil, relativ<br />
leicht überlistet zu werden, z.B. durch Per_nasty.<br />
Downings Programm berechnet die Wahrscheinlichkeit<br />
für Kooperation bei seinem Mitspieler, nachdem er selbst<br />
kooperiert oder defektiert hat. Nach jedem Zug wird die<br />
bedingte Wahrscheinlichkeit neu berechnet. Bei gleicher<br />
oder geringerer Wahrscheinlichkeit der Kooperation wird<br />
defektiert, ansonsten kooperiert.<br />
Gradual kooperiert be<strong>im</strong> ersten Zug und beantwortet das<br />
erste Defektieren des Gegners mit einem Defektieren und<br />
anschließend zwei Kooperationen, schließlich das n-te<br />
Defektieren des Gegners mit n Defektionen und zwei<br />
Kooperationen.<br />
Hier soll die gegnerische Strategie zunächst getestet<br />
werden: Wenn sie sich ausbeuten läßt, fährt Prober fort,<br />
zu defektieren. Das führt zu einer aggressiven<br />
Grundhaltung, die allerdings bei „schlaueren“ Gegnern<br />
zugunsten einer kooperativen Haltung (Tit-for-Tat)<br />
aufgegeben wird, da sonst nur P in Aussicht stünde.<br />
38
Name, System<br />
Pavlov<br />
freundlich<br />
kooperiere <strong>im</strong> ersten<br />
Zug; dann nur, wenn<br />
beide Spieler<br />
denselben Zug gemacht<br />
haben<br />
Graaskamp*<br />
unfreundlich<br />
ähnlich wie Tit-for-Tat,<br />
versucht gegnerische<br />
Strategie zu erkennen<br />
Joss*<br />
unfreundlich<br />
Tit-for-Tat mit<br />
zufälliger Defektion<br />
Tideman und<br />
Chieruzzi*<br />
freundlich<br />
Bestraft die erste<br />
Defektion mit einer<br />
Defektion, die zweite<br />
Defektion mit zwei<br />
Defektionen, etc.<br />
Strategie<br />
Pavlov verfolgt einen ähnlichen Grundgedanken wie Titfor-Tat,<br />
stellt jedoch strengere Anforderungen an die<br />
eigene Kooperationswilligkeit: Nur nach einer<br />
erfolgreichen Kooperation wird weiter kooperiert, d.h.<br />
die Strategie reagiert auf Ausbeutungsversuche mit<br />
Nichtkooperation und macht dann von sich aus keinen<br />
Versuch, eine Kooperation wieder zu etablieren.<br />
Das Programm von Graaskamp spielt 50-mal Tit-for-Tat,<br />
defektiert, spielt fünfmal Tit-for-Tat und analysiert dann<br />
die Ergebnisse. Es versucht, eine der anderen <strong>Strategien</strong><br />
zu erkennen und so die Auszahlung durch eingestreute<br />
Defektionen zu erhöhen.<br />
Joss’ Programm verhält sich ähnlich wie Tit-for-Tat,<br />
jedoch defektiert es mit einer zehnprozentigen<br />
Wahrscheinlichkeit, auch wenn der andere kooperiert hat.<br />
Tideman und Chieruzzis Programm bestraft die erste<br />
Defektion mit einer Defektion, die zweite Defektion mit<br />
zwei Defektionen, es ähnelt also Gradual. Es gibt aber<br />
nicht auf, unter best<strong>im</strong>mten Umständen wird dem Gegner<br />
eine neue Chance gegeben. Nach zwe<strong>im</strong>aliger<br />
Kooperation spielt es wie am Anfang. Zusätzlich<br />
überprüft ein <strong>im</strong>plementierter Test statistisch, ob es sich<br />
bei dem Gegner um Random handelt.<br />
Mit * markierte <strong>Strategien</strong> nahmen am ersten Axelrod-Turnier teil<br />
39
7.3 Axelrods erstes Computerturnier<br />
Auf den folgenden Seiten sind die Tabellen 2 und 3 aus Robert Axelrods „Die<br />
Evolution der Kooperation“, Anhang A aufgeführt.<br />
Sie zeigen Teilnehmer und Ergebnisse des ersten Computerturniers.<br />
Abbildung 4: Axelrods erstes Turnier: Teilnehmer 28<br />
28 Vgl. Axelrod (2000) Seite 173<br />
40
Abbildung 5: Axelrods erstes Turnier: Endstand 29<br />
29 Vgl. Axelrod (2000) Seite 174<br />
41