15 Spelteori
15 Spelteori
15 Spelteori
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
14 <strong>Spelteori</strong><br />
14.1 Två pers nollsummespel: sadelpunkt<br />
14.2 Två pers nollsummespel: randomiserad strategi, dominans, grafisk<br />
lösning<br />
14.3 LP och nollsummespel<br />
14.4 Två personer - icke konstant spel.<br />
14.5 Intro till n-pers spel teori<br />
14.6 Kärnan i ett n-pers spel<br />
14.7 Shapley värde
14.1 Två-personers nollsummespel och konstantsummespel:<br />
sadelpunkt<br />
1. Det finns en radspelare och kolumnspelare<br />
2. Radspelaren måste välja en av m strategier<br />
Kolumnspelaren måste välja en av n strategier<br />
3. Om radspelaren väljer sin i:te strategi och kolumnspelaren sin j:te, då<br />
erhåller radspelaren en belöning a ij och kolumnspelaren förlorar ett<br />
belopp a ij<br />
1<br />
2<br />
M<br />
m<br />
a<br />
a<br />
a<br />
1<br />
11<br />
21<br />
m1<br />
a<br />
a<br />
a<br />
2<br />
11<br />
22<br />
m2<br />
L<br />
L<br />
L<br />
O<br />
L<br />
a<br />
a<br />
a<br />
n<br />
1n<br />
2n<br />
mn<br />
Belöningsmatris
Antagande<br />
Varje spelare väljer en strategi som tillåter spelaren att göra så bra ifrån sig<br />
som möjligt, givet att motståndaren vet vilken strategi spelaren följer.<br />
Radspelaren ska välja raden med max(rad min).<br />
Kolumnspelaren ska välja kolumnen med min(kol max).<br />
_______<br />
Om max(rad min) = min (kolumn max) sägs spelet ha en sadelpunkt.<br />
Om ett spel har en sadelpunkt säger vi att detta är spelets värde för<br />
radspelaren.<br />
En sadelpunkt kan också ses som en jämviktspunkt eftersom ingen av spelarna<br />
tjänar på att själv byta strategi.
14.2 Spel utan sadelpunkt<br />
Om ett nollsummespel saknar sadelpunkt är det svårare att bestämma<br />
spelets värde och optimala spelstrategier.<br />
Vi måste tillåta fler spelstrategier för att lösa detta.<br />
Mixad eller randomiserad strategi betyder att spelaren väljer en strategi<br />
med en viss sannolikhet. Tex p=1/3 för 1,x eller 2 vid stryktips.<br />
En mixad strategi sägs vara ren om något x i = 1, (x 1 ,x 2 ,…,x m )
14.3 LP och nollsummespel<br />
Ex: Sten, påse, sax<br />
kolumnspelare<br />
radspelare sten påse sax min<br />
0 -1 +1 -1<br />
+1 0 -1 -1<br />
-1 +1 0 -1<br />
max +1 +1 +1<br />
Eftersom spelet saknar sadelpunkt (max(rad min) = min (kolumn max))<br />
låter vi radspelaren välja mixade strategin (x 1 ,x 2 ,x 3 ).<br />
Den förväntade vinsten mot kolumnspelarens val blir då<br />
kolumnspelare väljer rad spelarens förväntade vinst<br />
sten 0 x 1 +1 x 2 -1 x 3 = x 2 –x 3<br />
påse -x 1 + x 3<br />
sax x 1 -x 2
Enligt grundantagandet kommer nu kolumnspelaren välja den strategi<br />
som gör radspelarens vinst så liten som möjligt, dvs<br />
min(x 2 -x 3 ,- x 1 + x 2 , x 1 -x 2 ) (*)<br />
och radspelaren bör då välja (x 1 ,x 2 ,x 3 ) så att (*) blir så stor som möjligt.<br />
Låt v beteckna max (*), då kan vi formulera detta som ett LP<br />
max z = v<br />
st v ≤ x2 -x3 v ≤ - x1 + x3 v ≤ x1 -x2 x1 + x2 + x3 = 1<br />
x1 ,x2 ,x3 ≥<br />
0<br />
stenbegränsning<br />
påsbegränsning<br />
saxbegränsning
Eller om man formulerar problemet för GLPK<br />
max v<br />
st<br />
v - x2 + x3
Kolumnspelaren<br />
Väljer också en mixad strategi, som vi kan kalla (y 1 ,y 2 ,y 3 )<br />
Pss som tidigare<br />
Rad spelaren väljer Radspelarens förväntade vinst om<br />
kolumnspelaren väljer (y 1 ,y 2 ,y 3 )<br />
sten -y 2 + y 3<br />
påse y 1 -y 3<br />
sax -y 1 + y 2<br />
Eftersom radspelaren förväntas känna till (y 1 ,y 2 ,y 3 ) kommer radspelaren<br />
välja en strategi som ser till att han erhåller en förväntad vinst,<br />
max(-y 2 + y 3 , y 1 -y 3 , -y 1 + y 2 ) (**)<br />
Dvs kolumnspelaren ska välja (y 1 ,y 2 ,y 3 ) så att (**) blir så liten som möjligt.
Formulerat som ett LP problem får vi<br />
min z = w<br />
st w ≥ y2 -y3 w ≥-<br />
y1 + y3 w ≥ y1 -y2 y1 + y2 + y3 = 1<br />
y1 ,y2 ,y3 ≥0<br />
Man kan visa att radspelarens LP dual är lika med kolumnspelarens LP<br />
Dualsatsen ger oss att det optimala objektsfunktionsvärdet v för radspelarens<br />
LP och det optimala objektsfunktionsvärdet för w är lika
Sammanfattning<br />
1. Kolla efter sadelpunkt, finns inga gå vidare<br />
2. Stryk radspelarens dominerande strategier, och kolumnspelarens<br />
dominerande strategier.<br />
3. Är matrisen 2x2 ⇒<br />
lös grafiskt, annars lös mha LP metoden.
14.4 Två personers ickekonstantsummespel<br />
Spelet ”fångarnas dilemma”<br />
Ex: Två fångar erbjuds olika alternativ vid ett förhör<br />
• Om endast en av er erkänner och vittnar mot den andre fången<br />
kommer personen som erkänt gå fri och den andre får 20-års fängelse<br />
• Om båda erkänner 5 års fängelse för båda<br />
• Om ingen erkänner 1 års fängelse för båda<br />
Fånge 2<br />
Fånge 1 Erkänner Erkänner inte<br />
Erkänner ( -5, -5 ) ( 0, -20 )<br />
Erkänner inte ( -20, 0 ) ( -1, -1 )
Def: Spelarnas val av strategi sägs vara en jämviktspunkt (EQP) om<br />
ingendera av spelarna kan tjäna på att ensidigt ändra sin strategi.<br />
Ex forts. (-1, -1) är ingen EQP eftersom ensidig ändring av strategi<br />
endast ger någon förtjänst åt den som erkänner.<br />
(-5, -5) är en EQP däremot<br />
Mer formellt: Om vi betecknar<br />
NC = ensidig ändring av strategi<br />
C = gemensamt strategibeslut<br />
P = straff för ensidigt beslut<br />
S = straff för den som blir lurad<br />
R = belöning om båda samarbetar<br />
T = frestelse om man luras
För att det ska vara ett ”FD” spel krävs det att<br />
T > R > P > S<br />
Spelare 2<br />
Spelare 1 NC C<br />
NC (P,P) (T,S)<br />
C (S,T) (R,R)
Ex. Vulcaner och Klingeoner håller på att upprusta. Det antas att varje<br />
nation har två möjligheter; utveckla ett ny missil eller försöka att<br />
bibehålla status quo.<br />
Belöningsmatrisen i poäng ges nedan<br />
(-10,-10) EQP<br />
Klingeoner<br />
Vulcaner DNM MSQ<br />
DNM (-10,-10) (10,-100)<br />
MSQ (-100,10) (0,0)
14.5 introduktion till n-personers spelteori<br />
Ett n-personers spel karaktäriseras av spelets karaktäristiska funktion<br />
Def. För varje delmängd S av N är den karaktäristiska funktionen V av<br />
ett spel lika med summan som medlemmarna av S minst erhåller<br />
om dom samarbetar och formar en koalition.<br />
Det betyder att V(S) kan bestämmas genom att man beräknar hur<br />
mycket medlemmarna av S kan få utan hjälp av spelarna utanför S.<br />
Ex 1. Spelare 1 äger en landbit som är värderat till 10. Spelare 2 är en<br />
mäklare som kan sälja landbiten till ett värde av 20. Spelare 3 är en<br />
mäklare som kan sälja till ett värde av 30. Hitta V för spelet<br />
V({ }) = V({2}) = V({3}) = V({2,3}) = 0<br />
V({1}) = 10<br />
V({1,2}) = 20<br />
V({1,3}) = 30<br />
V({1,2,3}) = 30
V måste vara superadditiv dvs V({A U B}) ≥ V({A}) + V({B})<br />
Lösningsrecept för n-personers spel<br />
Låt X = {x 1 ,x 2 ,…,x n } vara belöningsvektorn där spelare i erhåller<br />
belöning x i .<br />
V(N) =<br />
n<br />
∑ i=<br />
1<br />
x<br />
i<br />
X i ≥ V({ i }) för varje i ∈<br />
Om X uppfyller (1) och (2) säger vi att X är en imputation<br />
N<br />
I ex 1 skulle X=(10,10,10) vara en imputation men inte (5,20,5) eftersom<br />
X 1 < V( {1} )<br />
(1)<br />
(2)
14.6 Kärnan i ett n-personers spel<br />
Def. En imputation Y sägs dominera X genom en koalition S om<br />
∑i∈S och för alla i ∈<br />
i y ≤ V(S) (3)<br />
S, y i > x i<br />
Vi skriver det som y > S x<br />
Om y > S x då<br />
• varje medlem av S föredrar y mot x<br />
• eftersom (3) gäller kan medlemmarna verkligen erhålla sin<br />
belöning Y<br />
Def. Kärnan (the Core) av ett n-personers spel är mängden av alla ickedominerade<br />
imputationer
Ex 1 forts.<br />
Låt X = (19, 1, 10)<br />
Y = (19.8, 0.1, 10.1)<br />
Visa att Y > {1,3} X<br />
Eftersom x 1 < y 1 och x 3 < y 3 samt<br />
y 1 + y 3 ≤ 30 = V(S) = V({1,3})<br />
Sats 1: En imputation X är i kärnan omm för varje delmängd S av N<br />
∑i∈S i ≥ x V(S)
Ex 1 forts. En godtycklig imputation X måste uppfylla att<br />
x 1 ≥ 10<br />
x 2 ≥ 0<br />
x 3 ≥ 0<br />
x 1 + x 2 +x 3 = 30<br />
En imputation X ingår i kärnan omm<br />
x 1 + x 2 ≥ 20<br />
x 1 + x 3 ≥ 30<br />
x 2 + x 3 ≥ 0<br />
x 1 + x 2 +x 3 ≥ 30<br />
För att erhålla belöningen 30 måste x 2 = 0.<br />
Om x 2 = 0 måste x 1 ≥ 20<br />
Eftersom x 1 + x 3 = 30 måste 20 ≤ x 1 ≤30<br />
Dvs ( x 1 , 0, 30 – x 1 ) , 20 ≤ x 1 ≤30 blir lösningen.
14.7 Shapley värde<br />
Axiom<br />
A1. Byte av spelaretikett byter spelarbelöning<br />
∑ i=<br />
1<br />
n<br />
A2. = V(N) x<br />
i<br />
A3. Om V( S – {i} ) = V( S ) håller för alla koalitioner S då är Shapley-värdet<br />
för x i = 0.<br />
A4. Låt X vara Shapley-värdesvektorn (SVV) för spelet S1 och låt Y vara<br />
SVV för spelet S2 då är SVV för spelet (S1+S2): X+Y
Sats: Om A1-A4 är uppfyllt då ges Shapley värdet för i av<br />
xi = ∑ pn (S)[V(S U {i}) – V(S)]<br />
S!<br />
( n − S −1)!<br />
pn( S)<br />
=<br />
n!<br />
S Antalet spelare i S<br />
Bestäm Shapley värdet för spelarna i Ex 1. Vi hade att<br />
V({ }) = V({2}) = V({3}) = V({2,3}) = 0<br />
V({1}) = 10<br />
V({1,2}) = 20<br />
V({1,3}) = 30<br />
V({1,2,3}) = 30
Spelare 1 (landägaren)<br />
S P 3 (S) V(S U {1}) – V(S)<br />
{ } 2 / 6 10<br />
{ 2 } 1 / 6 20<br />
{ 3 } 1 / 6 30<br />
{ 2, 3 } 2 / 6 30<br />
SV x 1 = 1 / 6 ·( 2·10 + 1·20 + 1·30+2·30 ) = 130 / 6
Spelare 2 (mäklare 1)<br />
S P 3 (S) V(S U {2}) – V(S)<br />
{ } 2 / 6 0<br />
{ 1 } 1 / 6 20 – 10 = 10<br />
{ 3 } 1 / 6 0<br />
{ 1, 3 } 2 / 6 30 – 30 = 0<br />
SV x 2 = 1 / 6 ·( 2·0 + 1·10 + 1·0+2·0 ) = 10 / 6
Spelare 3 (mäklare 2)<br />
S P 3 (S) V(S U {3}) – V(S)<br />
{ } 2 / 6 0<br />
{ 1 } 1 / 6 30 – 10 = 20<br />
{ 2 } 1 / 6 0<br />
{ 1, 2 } 2 / 6 30 – 20 = 10<br />
SV x 3 = 1 / 6 ·( 2·0 + 1·20 + 1·0+2·10 ) = 40 / 6
Sammanfattningsvis, lösningen med Shapley värde ger att vår<br />
belöningsvektor blir<br />
SVV = (x 1 ,x 2 ,x 3 ) = 1/6 ( 130, 10 ,40)