24.12.2012 Views

15 Spelteori

15 Spelteori

15 Spelteori

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

14 <strong>Spelteori</strong><br />

14.1 Två pers nollsummespel: sadelpunkt<br />

14.2 Två pers nollsummespel: randomiserad strategi, dominans, grafisk<br />

lösning<br />

14.3 LP och nollsummespel<br />

14.4 Två personer - icke konstant spel.<br />

14.5 Intro till n-pers spel teori<br />

14.6 Kärnan i ett n-pers spel<br />

14.7 Shapley värde


14.1 Två-personers nollsummespel och konstantsummespel:<br />

sadelpunkt<br />

1. Det finns en radspelare och kolumnspelare<br />

2. Radspelaren måste välja en av m strategier<br />

Kolumnspelaren måste välja en av n strategier<br />

3. Om radspelaren väljer sin i:te strategi och kolumnspelaren sin j:te, då<br />

erhåller radspelaren en belöning a ij och kolumnspelaren förlorar ett<br />

belopp a ij<br />

1<br />

2<br />

M<br />

m<br />

a<br />

a<br />

a<br />

1<br />

11<br />

21<br />

m1<br />

a<br />

a<br />

a<br />

2<br />

11<br />

22<br />

m2<br />

L<br />

L<br />

L<br />

O<br />

L<br />

a<br />

a<br />

a<br />

n<br />

1n<br />

2n<br />

mn<br />

Belöningsmatris


Antagande<br />

Varje spelare väljer en strategi som tillåter spelaren att göra så bra ifrån sig<br />

som möjligt, givet att motståndaren vet vilken strategi spelaren följer.<br />

Radspelaren ska välja raden med max(rad min).<br />

Kolumnspelaren ska välja kolumnen med min(kol max).<br />

_______<br />

Om max(rad min) = min (kolumn max) sägs spelet ha en sadelpunkt.<br />

Om ett spel har en sadelpunkt säger vi att detta är spelets värde för<br />

radspelaren.<br />

En sadelpunkt kan också ses som en jämviktspunkt eftersom ingen av spelarna<br />

tjänar på att själv byta strategi.


14.2 Spel utan sadelpunkt<br />

Om ett nollsummespel saknar sadelpunkt är det svårare att bestämma<br />

spelets värde och optimala spelstrategier.<br />

Vi måste tillåta fler spelstrategier för att lösa detta.<br />

Mixad eller randomiserad strategi betyder att spelaren väljer en strategi<br />

med en viss sannolikhet. Tex p=1/3 för 1,x eller 2 vid stryktips.<br />

En mixad strategi sägs vara ren om något x i = 1, (x 1 ,x 2 ,…,x m )


14.3 LP och nollsummespel<br />

Ex: Sten, påse, sax<br />

kolumnspelare<br />

radspelare sten påse sax min<br />

0 -1 +1 -1<br />

+1 0 -1 -1<br />

-1 +1 0 -1<br />

max +1 +1 +1<br />

Eftersom spelet saknar sadelpunkt (max(rad min) = min (kolumn max))<br />

låter vi radspelaren välja mixade strategin (x 1 ,x 2 ,x 3 ).<br />

Den förväntade vinsten mot kolumnspelarens val blir då<br />

kolumnspelare väljer rad spelarens förväntade vinst<br />

sten 0 x 1 +1 x 2 -1 x 3 = x 2 –x 3<br />

påse -x 1 + x 3<br />

sax x 1 -x 2


Enligt grundantagandet kommer nu kolumnspelaren välja den strategi<br />

som gör radspelarens vinst så liten som möjligt, dvs<br />

min(x 2 -x 3 ,- x 1 + x 2 , x 1 -x 2 ) (*)<br />

och radspelaren bör då välja (x 1 ,x 2 ,x 3 ) så att (*) blir så stor som möjligt.<br />

Låt v beteckna max (*), då kan vi formulera detta som ett LP<br />

max z = v<br />

st v ≤ x2 -x3 v ≤ - x1 + x3 v ≤ x1 -x2 x1 + x2 + x3 = 1<br />

x1 ,x2 ,x3 ≥<br />

0<br />

stenbegränsning<br />

påsbegränsning<br />

saxbegränsning


Eller om man formulerar problemet för GLPK<br />

max v<br />

st<br />

v - x2 + x3


Kolumnspelaren<br />

Väljer också en mixad strategi, som vi kan kalla (y 1 ,y 2 ,y 3 )<br />

Pss som tidigare<br />

Rad spelaren väljer Radspelarens förväntade vinst om<br />

kolumnspelaren väljer (y 1 ,y 2 ,y 3 )<br />

sten -y 2 + y 3<br />

påse y 1 -y 3<br />

sax -y 1 + y 2<br />

Eftersom radspelaren förväntas känna till (y 1 ,y 2 ,y 3 ) kommer radspelaren<br />

välja en strategi som ser till att han erhåller en förväntad vinst,<br />

max(-y 2 + y 3 , y 1 -y 3 , -y 1 + y 2 ) (**)<br />

Dvs kolumnspelaren ska välja (y 1 ,y 2 ,y 3 ) så att (**) blir så liten som möjligt.


Formulerat som ett LP problem får vi<br />

min z = w<br />

st w ≥ y2 -y3 w ≥-<br />

y1 + y3 w ≥ y1 -y2 y1 + y2 + y3 = 1<br />

y1 ,y2 ,y3 ≥0<br />

Man kan visa att radspelarens LP dual är lika med kolumnspelarens LP<br />

Dualsatsen ger oss att det optimala objektsfunktionsvärdet v för radspelarens<br />

LP och det optimala objektsfunktionsvärdet för w är lika


Sammanfattning<br />

1. Kolla efter sadelpunkt, finns inga gå vidare<br />

2. Stryk radspelarens dominerande strategier, och kolumnspelarens<br />

dominerande strategier.<br />

3. Är matrisen 2x2 ⇒<br />

lös grafiskt, annars lös mha LP metoden.


14.4 Två personers ickekonstantsummespel<br />

Spelet ”fångarnas dilemma”<br />

Ex: Två fångar erbjuds olika alternativ vid ett förhör<br />

• Om endast en av er erkänner och vittnar mot den andre fången<br />

kommer personen som erkänt gå fri och den andre får 20-års fängelse<br />

• Om båda erkänner 5 års fängelse för båda<br />

• Om ingen erkänner 1 års fängelse för båda<br />

Fånge 2<br />

Fånge 1 Erkänner Erkänner inte<br />

Erkänner ( -5, -5 ) ( 0, -20 )<br />

Erkänner inte ( -20, 0 ) ( -1, -1 )


Def: Spelarnas val av strategi sägs vara en jämviktspunkt (EQP) om<br />

ingendera av spelarna kan tjäna på att ensidigt ändra sin strategi.<br />

Ex forts. (-1, -1) är ingen EQP eftersom ensidig ändring av strategi<br />

endast ger någon förtjänst åt den som erkänner.<br />

(-5, -5) är en EQP däremot<br />

Mer formellt: Om vi betecknar<br />

NC = ensidig ändring av strategi<br />

C = gemensamt strategibeslut<br />

P = straff för ensidigt beslut<br />

S = straff för den som blir lurad<br />

R = belöning om båda samarbetar<br />

T = frestelse om man luras


För att det ska vara ett ”FD” spel krävs det att<br />

T > R > P > S<br />

Spelare 2<br />

Spelare 1 NC C<br />

NC (P,P) (T,S)<br />

C (S,T) (R,R)


Ex. Vulcaner och Klingeoner håller på att upprusta. Det antas att varje<br />

nation har två möjligheter; utveckla ett ny missil eller försöka att<br />

bibehålla status quo.<br />

Belöningsmatrisen i poäng ges nedan<br />

(-10,-10) EQP<br />

Klingeoner<br />

Vulcaner DNM MSQ<br />

DNM (-10,-10) (10,-100)<br />

MSQ (-100,10) (0,0)


14.5 introduktion till n-personers spelteori<br />

Ett n-personers spel karaktäriseras av spelets karaktäristiska funktion<br />

Def. För varje delmängd S av N är den karaktäristiska funktionen V av<br />

ett spel lika med summan som medlemmarna av S minst erhåller<br />

om dom samarbetar och formar en koalition.<br />

Det betyder att V(S) kan bestämmas genom att man beräknar hur<br />

mycket medlemmarna av S kan få utan hjälp av spelarna utanför S.<br />

Ex 1. Spelare 1 äger en landbit som är värderat till 10. Spelare 2 är en<br />

mäklare som kan sälja landbiten till ett värde av 20. Spelare 3 är en<br />

mäklare som kan sälja till ett värde av 30. Hitta V för spelet<br />

V({ }) = V({2}) = V({3}) = V({2,3}) = 0<br />

V({1}) = 10<br />

V({1,2}) = 20<br />

V({1,3}) = 30<br />

V({1,2,3}) = 30


V måste vara superadditiv dvs V({A U B}) ≥ V({A}) + V({B})<br />

Lösningsrecept för n-personers spel<br />

Låt X = {x 1 ,x 2 ,…,x n } vara belöningsvektorn där spelare i erhåller<br />

belöning x i .<br />

V(N) =<br />

n<br />

∑ i=<br />

1<br />

x<br />

i<br />

X i ≥ V({ i }) för varje i ∈<br />

Om X uppfyller (1) och (2) säger vi att X är en imputation<br />

N<br />

I ex 1 skulle X=(10,10,10) vara en imputation men inte (5,20,5) eftersom<br />

X 1 < V( {1} )<br />

(1)<br />

(2)


14.6 Kärnan i ett n-personers spel<br />

Def. En imputation Y sägs dominera X genom en koalition S om<br />

∑i∈S och för alla i ∈<br />

i y ≤ V(S) (3)<br />

S, y i > x i<br />

Vi skriver det som y > S x<br />

Om y > S x då<br />

• varje medlem av S föredrar y mot x<br />

• eftersom (3) gäller kan medlemmarna verkligen erhålla sin<br />

belöning Y<br />

Def. Kärnan (the Core) av ett n-personers spel är mängden av alla ickedominerade<br />

imputationer


Ex 1 forts.<br />

Låt X = (19, 1, 10)<br />

Y = (19.8, 0.1, 10.1)<br />

Visa att Y > {1,3} X<br />

Eftersom x 1 < y 1 och x 3 < y 3 samt<br />

y 1 + y 3 ≤ 30 = V(S) = V({1,3})<br />

Sats 1: En imputation X är i kärnan omm för varje delmängd S av N<br />

∑i∈S i ≥ x V(S)


Ex 1 forts. En godtycklig imputation X måste uppfylla att<br />

x 1 ≥ 10<br />

x 2 ≥ 0<br />

x 3 ≥ 0<br />

x 1 + x 2 +x 3 = 30<br />

En imputation X ingår i kärnan omm<br />

x 1 + x 2 ≥ 20<br />

x 1 + x 3 ≥ 30<br />

x 2 + x 3 ≥ 0<br />

x 1 + x 2 +x 3 ≥ 30<br />

För att erhålla belöningen 30 måste x 2 = 0.<br />

Om x 2 = 0 måste x 1 ≥ 20<br />

Eftersom x 1 + x 3 = 30 måste 20 ≤ x 1 ≤30<br />

Dvs ( x 1 , 0, 30 – x 1 ) , 20 ≤ x 1 ≤30 blir lösningen.


14.7 Shapley värde<br />

Axiom<br />

A1. Byte av spelaretikett byter spelarbelöning<br />

∑ i=<br />

1<br />

n<br />

A2. = V(N) x<br />

i<br />

A3. Om V( S – {i} ) = V( S ) håller för alla koalitioner S då är Shapley-värdet<br />

för x i = 0.<br />

A4. Låt X vara Shapley-värdesvektorn (SVV) för spelet S1 och låt Y vara<br />

SVV för spelet S2 då är SVV för spelet (S1+S2): X+Y


Sats: Om A1-A4 är uppfyllt då ges Shapley värdet för i av<br />

xi = ∑ pn (S)[V(S U {i}) – V(S)]<br />

S!<br />

( n − S −1)!<br />

pn( S)<br />

=<br />

n!<br />

S Antalet spelare i S<br />

Bestäm Shapley värdet för spelarna i Ex 1. Vi hade att<br />

V({ }) = V({2}) = V({3}) = V({2,3}) = 0<br />

V({1}) = 10<br />

V({1,2}) = 20<br />

V({1,3}) = 30<br />

V({1,2,3}) = 30


Spelare 1 (landägaren)<br />

S P 3 (S) V(S U {1}) – V(S)<br />

{ } 2 / 6 10<br />

{ 2 } 1 / 6 20<br />

{ 3 } 1 / 6 30<br />

{ 2, 3 } 2 / 6 30<br />

SV x 1 = 1 / 6 ·( 2·10 + 1·20 + 1·30+2·30 ) = 130 / 6


Spelare 2 (mäklare 1)<br />

S P 3 (S) V(S U {2}) – V(S)<br />

{ } 2 / 6 0<br />

{ 1 } 1 / 6 20 – 10 = 10<br />

{ 3 } 1 / 6 0<br />

{ 1, 3 } 2 / 6 30 – 30 = 0<br />

SV x 2 = 1 / 6 ·( 2·0 + 1·10 + 1·0+2·0 ) = 10 / 6


Spelare 3 (mäklare 2)<br />

S P 3 (S) V(S U {3}) – V(S)<br />

{ } 2 / 6 0<br />

{ 1 } 1 / 6 30 – 10 = 20<br />

{ 2 } 1 / 6 0<br />

{ 1, 2 } 2 / 6 30 – 20 = 10<br />

SV x 3 = 1 / 6 ·( 2·0 + 1·20 + 1·0+2·10 ) = 40 / 6


Sammanfattningsvis, lösningen med Shapley värde ger att vår<br />

belöningsvektor blir<br />

SVV = (x 1 ,x 2 ,x 3 ) = 1/6 ( 130, 10 ,40)

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!