15 Spelteori

14 Spelteori 

14.1 Två pers nollsummespel: sadelpunkt 

14.2 Två pers nollsummespel: randomiserad strategi, dominans, grafisk 

lösning 

14.3 LP och nollsummespel 

14.4 Två personer - icke konstant spel. 

14.5 Intro till n-pers spel teori 

14.6 Kärnan i ett n-pers spel 

14.7 Shapley värde

14.1 Två-personers nollsummespel och konstantsummespel: 

sadelpunkt 

1. Det finns en radspelare och kolumnspelare 

2. Radspelaren måste välja en av m strategier 

Kolumnspelaren måste välja en av n strategier 

3. Om radspelaren väljer sin i:te strategi och kolumnspelaren sin j:te, då 

erhåller radspelaren en belöning a ij och kolumnspelaren förlorar ett 

belopp a ij 

1 

2 

M 

m 

a 

a 

a 

1 

11 

21 

m1 

a 

a 

a 

2 

11 

22 

m2 

L 

L 

L 

O 

L 

a 

a 

a 

n 

1n 

2n 

mn 

Belöningsmatris

Antagande 

Varje spelare väljer en strategi som tillåter spelaren att göra så bra ifrån sig 

som möjligt, givet att motståndaren vet vilken strategi spelaren följer. 

Radspelaren ska välja raden med max(rad min). 

Kolumnspelaren ska välja kolumnen med min(kol max). 

_______ 

Om max(rad min) = min (kolumn max) sägs spelet ha en sadelpunkt. 

Om ett spel har en sadelpunkt säger vi att detta är spelets värde för 

radspelaren. 

En sadelpunkt kan också ses som en jämviktspunkt eftersom ingen av spelarna 

tjänar på att själv byta strategi.

14.2 Spel utan sadelpunkt 

Om ett nollsummespel saknar sadelpunkt är det svårare att bestämma 

spelets värde och optimala spelstrategier. 

Vi måste tillåta fler spelstrategier för att lösa detta. 

Mixad eller randomiserad strategi betyder att spelaren väljer en strategi 

med en viss sannolikhet. Tex p=1/3 för 1,x eller 2 vid stryktips. 

En mixad strategi sägs vara ren om något x i = 1, (x 1 ,x 2 ,…,x m )

14.3 LP och nollsummespel 

Ex: Sten, påse, sax 

kolumnspelare 

radspelare sten påse sax min 

0 -1 +1 -1 

+1 0 -1 -1 

-1 +1 0 -1 

max +1 +1 +1 

Eftersom spelet saknar sadelpunkt (max(rad min) = min (kolumn max)) 

låter vi radspelaren välja mixade strategin (x 1 ,x 2 ,x 3 ). 

Den förväntade vinsten mot kolumnspelarens val blir då 

kolumnspelare väljer rad spelarens förväntade vinst 

sten 0 x 1 +1 x 2 -1 x 3 = x 2 –x 3 

påse -x 1 + x 3 

sax x 1 -x 2

Enligt grundantagandet kommer nu kolumnspelaren välja den strategi 

som gör radspelarens vinst så liten som möjligt, dvs 

min(x 2 -x 3 ,- x 1 + x 2 , x 1 -x 2 ) (*) 

och radspelaren bör då välja (x 1 ,x 2 ,x 3 ) så att (*) blir så stor som möjligt. 

Låt v beteckna max (*), då kan vi formulera detta som ett LP 

max z = v 

st v ≤ x2 -x3 v ≤ - x1 + x3 v ≤ x1 -x2 x1 + x2 + x3 = 1 

x1 ,x2 ,x3 ≥ 

0 

stenbegränsning 

påsbegränsning 

saxbegränsning

Eller om man formulerar problemet för GLPK 

max v 

st 

v - x2 + x3

Kolumnspelaren 

Väljer också en mixad strategi, som vi kan kalla (y 1 ,y 2 ,y 3 ) 

Pss som tidigare 

Rad spelaren väljer Radspelarens förväntade vinst om 

kolumnspelaren väljer (y 1 ,y 2 ,y 3 ) 

sten -y 2 + y 3 

påse y 1 -y 3 

sax -y 1 + y 2 

Eftersom radspelaren förväntas känna till (y 1 ,y 2 ,y 3 ) kommer radspelaren 

välja en strategi som ser till att han erhåller en förväntad vinst, 

max(-y 2 + y 3 , y 1 -y 3 , -y 1 + y 2 ) (**) 

Dvs kolumnspelaren ska välja (y 1 ,y 2 ,y 3 ) så att (**) blir så liten som möjligt.

Formulerat som ett LP problem får vi 

min z = w 

st w ≥ y2 -y3 w ≥- 

y1 + y3 w ≥ y1 -y2 y1 + y2 + y3 = 1 

y1 ,y2 ,y3 ≥0 

Man kan visa att radspelarens LP dual är lika med kolumnspelarens LP 

Dualsatsen ger oss att det optimala objektsfunktionsvärdet v för radspelarens 

LP och det optimala objektsfunktionsvärdet för w är lika

Sammanfattning 

1. Kolla efter sadelpunkt, finns inga gå vidare 

2. Stryk radspelarens dominerande strategier, och kolumnspelarens 

dominerande strategier. 

3. Är matrisen 2x2 ⇒ 

lös grafiskt, annars lös mha LP metoden.

14.4 Två personers ickekonstantsummespel 

Spelet ”fångarnas dilemma” 

Ex: Två fångar erbjuds olika alternativ vid ett förhör 

• Om endast en av er erkänner och vittnar mot den andre fången 

kommer personen som erkänt gå fri och den andre får 20-års fängelse 

• Om båda erkänner 5 års fängelse för båda 

• Om ingen erkänner 1 års fängelse för båda 

Fånge 2 

Fånge 1 Erkänner Erkänner inte 

Erkänner ( -5, -5 ) ( 0, -20 ) 

Erkänner inte ( -20, 0 ) ( -1, -1 )

Def: Spelarnas val av strategi sägs vara en jämviktspunkt (EQP) om 

ingendera av spelarna kan tjäna på att ensidigt ändra sin strategi. 

Ex forts. (-1, -1) är ingen EQP eftersom ensidig ändring av strategi 

endast ger någon förtjänst åt den som erkänner. 

(-5, -5) är en EQP däremot 

Mer formellt: Om vi betecknar 

NC = ensidig ändring av strategi 

C = gemensamt strategibeslut 

P = straff för ensidigt beslut 

S = straff för den som blir lurad 

R = belöning om båda samarbetar 

T = frestelse om man luras

För att det ska vara ett ”FD” spel krävs det att 

T > R > P > S 

Spelare 2 

Spelare 1 NC C 

NC (P,P) (T,S) 

C (S,T) (R,R)

Ex. Vulcaner och Klingeoner håller på att upprusta. Det antas att varje 

nation har två möjligheter; utveckla ett ny missil eller försöka att 

bibehålla status quo. 

Belöningsmatrisen i poäng ges nedan 

(-10,-10) EQP 

Klingeoner 

Vulcaner DNM MSQ 

DNM (-10,-10) (10,-100) 

MSQ (-100,10) (0,0)

14.5 introduktion till n-personers spelteori 

Ett n-personers spel karaktäriseras av spelets karaktäristiska funktion 

Def. För varje delmängd S av N är den karaktäristiska funktionen V av 

ett spel lika med summan som medlemmarna av S minst erhåller 

om dom samarbetar och formar en koalition. 

Det betyder att V(S) kan bestämmas genom att man beräknar hur 

mycket medlemmarna av S kan få utan hjälp av spelarna utanför S. 

Ex 1. Spelare 1 äger en landbit som är värderat till 10. Spelare 2 är en 

mäklare som kan sälja landbiten till ett värde av 20. Spelare 3 är en 

mäklare som kan sälja till ett värde av 30. Hitta V för spelet 

V({ }) = V({2}) = V({3}) = V({2,3}) = 0 

V({1}) = 10 

V({1,2}) = 20 

V({1,3}) = 30 

V({1,2,3}) = 30

V måste vara superadditiv dvs V({A U B}) ≥ V({A}) + V({B}) 

Lösningsrecept för n-personers spel 

Låt X = {x 1 ,x 2 ,…,x n } vara belöningsvektorn där spelare i erhåller 

belöning x i . 

V(N) = 

n 

∑ i= 

1 

x 

i 

X i ≥ V({ i }) för varje i ∈ 

Om X uppfyller (1) och (2) säger vi att X är en imputation 

N 

I ex 1 skulle X=(10,10,10) vara en imputation men inte (5,20,5) eftersom 

X 1 < V( {1} ) 

(1) 

(2)

14.6 Kärnan i ett n-personers spel 

Def. En imputation Y sägs dominera X genom en koalition S om 

∑i∈S och för alla i ∈ 

i y ≤ V(S) (3) 

S, y i > x i 

Vi skriver det som y > S x 

Om y > S x då 

• varje medlem av S föredrar y mot x 

• eftersom (3) gäller kan medlemmarna verkligen erhålla sin 

belöning Y 

Def. Kärnan (the Core) av ett n-personers spel är mängden av alla ickedominerade 

imputationer

Ex 1 forts. 

Låt X = (19, 1, 10) 

Y = (19.8, 0.1, 10.1) 

Visa att Y > {1,3} X 

Eftersom x 1 < y 1 och x 3 < y 3 samt 

y 1 + y 3 ≤ 30 = V(S) = V({1,3}) 

Sats 1: En imputation X är i kärnan omm för varje delmängd S av N 

∑i∈S i ≥ x V(S)

Ex 1 forts. En godtycklig imputation X måste uppfylla att 

x 1 ≥ 10 

x 2 ≥ 0 

x 3 ≥ 0 

x 1 + x 2 +x 3 = 30 

En imputation X ingår i kärnan omm 

x 1 + x 2 ≥ 20 

x 1 + x 3 ≥ 30 

x 2 + x 3 ≥ 0 

x 1 + x 2 +x 3 ≥ 30 

För att erhålla belöningen 30 måste x 2 = 0. 

Om x 2 = 0 måste x 1 ≥ 20 

Eftersom x 1 + x 3 = 30 måste 20 ≤ x 1 ≤30 

Dvs ( x 1 , 0, 30 – x 1 ) , 20 ≤ x 1 ≤30 blir lösningen.

14.7 Shapley värde 

Axiom 

A1. Byte av spelaretikett byter spelarbelöning 

∑ i= 

1 

n 

A2. = V(N) x 

i 

A3. Om V( S – {i} ) = V( S ) håller för alla koalitioner S då är Shapley-värdet 

för x i = 0. 

A4. Låt X vara Shapley-värdesvektorn (SVV) för spelet S1 och låt Y vara 

SVV för spelet S2 då är SVV för spelet (S1+S2): X+Y

Sats: Om A1-A4 är uppfyllt då ges Shapley värdet för i av 

xi = ∑ pn (S)[V(S U {i}) – V(S)] 

S! 

( n − S −1)! 

pn( S) 

= 

n! 

S Antalet spelare i S 

Bestäm Shapley värdet för spelarna i Ex 1. Vi hade att 

V({ }) = V({2}) = V({3}) = V({2,3}) = 0 

V({1}) = 10 

V({1,2}) = 20 

V({1,3}) = 30 

V({1,2,3}) = 30

Spelare 1 (landägaren) 

S P 3 (S) V(S U {1}) – V(S) 

{ } 2 / 6 10 

{ 2 } 1 / 6 20 

{ 3 } 1 / 6 30 

{ 2, 3 } 2 / 6 30 

SV x 1 = 1 / 6 ·( 2·10 + 1·20 + 1·30+2·30 ) = 130 / 6

Spelare 2 (mäklare 1) 

S P 3 (S) V(S U {2}) – V(S) 

{ } 2 / 6 0 

{ 1 } 1 / 6 20 – 10 = 10 

{ 3 } 1 / 6 0 

{ 1, 3 } 2 / 6 30 – 30 = 0 

SV x 2 = 1 / 6 ·( 2·0 + 1·10 + 1·0+2·0 ) = 10 / 6

Spelare 3 (mäklare 2) 

S P 3 (S) V(S U {3}) – V(S) 

{ } 2 / 6 0 

{ 1 } 1 / 6 30 – 10 = 20 

{ 2 } 1 / 6 0 

{ 1, 2 } 2 / 6 30 – 20 = 10 

SV x 3 = 1 / 6 ·( 2·0 + 1·20 + 1·0+2·10 ) = 40 / 6

Sammanfattningsvis, lösningen med Shapley värde ger att vår 

belöningsvektor blir 

SVV = (x 1 ,x 2 ,x 3 ) = 1/6 ( 130, 10 ,40)

15 Spelteori

Create successful ePaper yourself

Delete template?

Save as template?