Dynamisk programmering II - Matematik og optimering

Det Biovidenskabelige Fakultet 

Dynamisk programmering II 

Matematik og optimering 

Henrik Holm 

Institut for Grundvidenskab og Miljø 

E-mail: hholm@life.ku.dk 

URL: http://www.matfys.kvl.dk/Mat-Plan/ 

31. marts 2011 

Dias 1/36 

Heltalsprogrammering 

Ved løsning af et optimeringsproblem kan man være interesseret i, at de 

variable x1,...,xn kun m˚a antage heltalsværdier. 

Advarsel. Bemærk, at den reelle løsning og heltalsløsningen for 

nedenst˚aende problem (Eksempel 10.2 i [HS]) er meget forskellige: 

• Den relle løsning er Q(4,3.2) = 7.2 = Max! 

• Heltalsløsningen er Q(0,0) = 0 = Max! 

⎧ 

⎪⎨ 

Q(x,y) = x + y = Max! 

17x − 20y 4 

⎪⎩ 

−15x + 20y 4 

x,y 0 

Dias 3/36 — Henrik Holm (IGM) — Dynamisk programmering II — 31. marts 2011 

4 

3 

2 

1 

y 

* 

* 

* 

−15x+20y=4 

* 

* 

* 

* 

17x−20y=4 

* 

* 

* 

* 

* 

(4,3.2) 

1 2 3 4 5 

* 

* 

* 

* 

* 

Q=7.2 * 

* 

* 

x 

Indhold 

1 Heltalsprogrammering 

2 Kompleksitetsbetragtninger 

3 Markov-beslutningsprocesser 


Gomory’s metode. 

For løsning af heltals LP-problemer findes en variant af simpleksmetoden 

kaldet Gomory’s metode [HS, kapitel 10]. 

Dynamisk programmering. 

Dynamisk programmering kan ogs˚a bruges til at løse optimeringsproblemer 

med heltallige variable. Følgende resultater er heltalsvarianter af resulater fra 

sidste forelæsning. 

Dias 4/36 — Henrik Holm (IGM) — Dynamisk programmering II — 31. marts 2011

Dynamisk heltalsprogrammering A 

Betragt et optimeringsproblem af typen: 

⎧ 

⎨ Q(x) = ϕ1(x1)···ϕn(xn) = Max! 

h1(x1) + ··· + hn(xn) b 

⎩ 

x1,...,xn 0 heltal 

hvor ϕs er positiv, hs voksende og b ∈ N0. Dette problem kan løses ved at indføre: 

g1(λ) = max 

0x1[ξ1] {ϕ1(x1)} 

gs(λ) = max 

0xs[ξs] {gs−1(λ − hs(xs))ϕs(xs)} (s = 2,...,n) 

hvor λ ∈ {0,...,b} og ξs er løsningen til ligningen hs(ξs) = λ. 

Lad x ◦ s (λ) betegne værdien/værdierne af xs der realiserer maksimum gs(λ). 

Max-værdien for (∗) er da gn(b) og max-punktet/punkterne x ◦ er: 

x ◦ n = x ◦ n (b) 

x ◦ n−1 = x◦ n−1 (b − hn(x ◦ n )) 

. 

x ◦ 1 = x ◦ 1 (b − hn(x ◦ n ) − ··· − h2(x ◦ 2 )) 

Her betegner [·] heltalsdelen. Fx er [5.23] = 5 og [3] = 3. 


Eksempel: Lineær bibetingelse 1/8 

⎧ 

⎨ Q(x1,x2,x3) = x 

⎩ 

3 1 + x2 + 2x 2 3 = Max! 

4x1 + x2 + 2x3 33 

x1,x2,x3 0 heltal 

Da 4ξ1 = λ f˚as ξ1 = λ . Vi har derfor: 

4 

Eksempelvis er: 

og vi noterer at x ◦ 1 (13) = 3. 


g1(λ) = max 

0x1[ λ 4 ] {x 3 1 }. 

⎧ 

⎪⎨ 

g1(13) = max 

⎪⎩ 

0 3 = 0 

1 3 = 1 

2 3 = 8 

3 3 = 27 

⎫ 

⎪⎬ 

= 27, 

⎪⎭ 

(∗) 

Dynamisk heltalsprogrammering B 

Betragt et optimeringsproblem af typen: 

⎧ 

⎨ Q(x) = ϕ1(x1) + ··· + ϕn(xn) = Max! 

h1(x1) + ··· + hn(xn) b 

⎩ 


hvor hs voksende og b ∈ N0. Dette problem kan løses ved at indføre følgende 

g1(λ) = max 

0x1[ξ1] {ϕ1(x1)} 

gs(λ) = max 

0xs[ξs] {gs−1(λ − hs(xs)) + ϕs(xs)} (s = 2,...,n) 

hvor λ ∈ {0,...,b} og ξs er løsningen til ligningen hs(ξs) = λ. 

Lad x ◦ s (λ) betegne værdien/værdierne af xs der realiserer maksimum gs(λ). 

Max-værdien for (∗) er da gn(b) og max-punktet/punkterne x ◦ er: 


x ◦ n = x ◦ n (b) 

x ◦ n−1 = x◦ n−1 (b − hn(x ◦ n )) 

. 

x ◦ 1 = x ◦ 1 (b − hn(x ◦ n ) − ··· − h2(x ◦ 2 )) 


S˚aledes fremkommer følgende tabel for (g1,x ◦ 1 ): 


λ g1(λ) x ◦ 1 (λ) 

[0,3] 0 0 

[4,7] 1 1 

[8,11] 8 2 

[12,15] 27 3 

[16,19] 64 4 

[20,23] 125 5 

[24,27] 216 6 

[28,31] 343 7 

[32,33] 512 8 

(∗)


Dernæst har vi ξ2 = λ og dermed: 

g2(λ) = max {g1(λ − x2) + x2}. 

0x2[λ] 


⎧ 

⎫ 

g1(8) + 0 = 8 + 0 = 8 

g1(7) + 1 = 1 + 1 = 2 

g1(6) + 2 = 1 + 2 = 3 

⎪⎨ g1(5) + 3 = 1 + 3 = 4⎪⎬ 

g2(8) = max g1(4) + 4 = 1 + 4 = 5 = 8, 

g1(3) + 5 = 0 + 5 = 5 

g1(2) + 6 = 0 + 6 = 6 

⎪⎩ 

g1(1) + 7 = 0 + 7 = 7⎪⎭ 

g1(0) + 8 = 0 + 8 = 8 

og vi noterer at x ◦ 2 (8) = 0 eller x◦ 2 (8) = 8. 



Endelig haves 2ξ3 = λ dvs. ξ3 = λ 2 

og dermed: 

g3(λ) = max 

0x3[ λ 2 ] {g2(λ − 2x3) + 2x 2 3 }. 


⎧ 

g2(11) + 2·0 

⎪⎨ 

g3(11) = max 

⎪⎩ 

2 = 11 + 0 = 11 

g2(9) + 2·1 2 = 9 + 2 = 11 

g2(7) + 2·2 2 = 7 + 8 = 15 

g2(5) + 2·3 2 = 5 + 18 = 23 

g2(3) + 2·4 2 = 3 + 32 = 35 

g2(1) + 2·5 2 ⎫ 

⎪⎬ 

= 51, 

⎪⎭ 

= 1 + 50 = 51 

og vi noterer at x ◦ 3 (11) = 5. 




λ g2(λ) x ◦ 2 (λ) λ g2(λ) x ◦ 2 (λ) λ g2(λ) x ◦ 2 (λ) 

0 0 0 12 27 0 24 216 0 

1 1 1 13 28 1 25 217 1 

2 2 2 14 29 2 26 218 2 

3 3 3 15 30 3 27 219 3 

4 4 4 16 64 0 28 343 0 

5 5 5 17 65 1 29 344 1 

6 6 6 18 66 2 30 345 2 

7 7 7 19 67 3 31 346 3 

8 8 0,8 20 125 0 32 512 0 

9 9 1,9 21 126 1 33 513 1 

10 10 2,10 22 127 2 

11 11 3,11 23 128 3 




λ g3(λ) x ◦ 3 (λ) λ g3(λ) x ◦ 3 (λ) λ g3(λ) x ◦ 3 (λ) 

0 0 0 12 72 6 24 288 12 

1 1 0 13 73 6 25 289 12 

2 2 0,1 14 98 7 26 338 13 

3 3 0,1 15 99 7 27 339 13 

4 8 2 16 128 8 28 392 14 

5 9 2 17 129 8 29 393 14 

6 18 3 18 162 9 30 450 15 

7 19 3 19 163 9 31 451 15 

8 32 4 20 200 10 32 512 0,16 

9 33 4 21 201 10 33 513 0,16 

10 50 5 22 242 11 

11 51 5 23 243 11 



Fra forrige tabel er vi egentlig kun interesseret i tallet: 

g3(33) = 513, 

(33) = 0 

(33) = 16 findes de to maksimumspunkter for problemet nu s˚aledes: 

da dette jo er maksimumsværdien for det givne problem. Ud fra x ◦ 3 

eller x ◦ 3 

Vi gør prøve: 


x ◦ 3 (33) = 0 x◦ 3 

x ◦ 2 (33−2·0) = 1 x◦ 2 

x ◦ 1 (33−2·0−1) = 8 x◦ 1 

(33) = 16 

(33−2·16) = 1 

(33−2·16−1) = 0 

Q(8,1,0) = 8 3 +1+2·0 2 = 513, 

Q(0,1,16) = 0 3 +1+2·16 2 = 513. 

N˚ar heltalsproblemer løses ved dynamisk programmering er udarbejdelsen 

af tabellerne for (g1,x ◦ 1 ),(g2,x ◦ 2 ),... ingen faglig udfordring – kun besværligt. 

R-funktionen DynTable (fra kursushjemmesiden) kan lette arbejdet: 

⎧ 

⎨ Q(x1,x2,x3) = x 

⎩ 

3 1 + x2 + 2x 2 3 = Max! 

4x1 + x2 + 2x3 33 

x1,x2,x3 0 heltal 

Først indtastes problemets data: 

> phi1 phi2 phi3 phi h1 h2 h3 h b DynTable(phi,h,b,"+",1) 

[,1] [,2] [,3] 

[1,] 0 0 0 

[2,] 1 0 0 

[3,] 2 0 0 

[4,] 3 0 0 

[5,] 4 1 1 

[6,] 5 1 1 

[7,] 6 1 1 

[8,] 7 1 1 

[9,] 8 8 2 

... 

[28,] 27 216 6 

[29,] 28 343 7 

[30,] 29 343 7 

[31,] 30 343 7 

[32,] 31 343 7 

[33,] 32 512 8 

[34,] 33 512 8 


Tabellen for (g2,x ◦ 2 ) frembringes af DynTable s˚aledes: 

> DynTable(phi,h,b,"+",2) 

[,1] [,2] [,3] [,4] 

[1,] 0 0 0 -1 

[2,] 1 1 1 -1 

[3,] 2 2 2 -1 

[4,] 3 3 3 -1 

[5,] 4 4 4 -1 

[6,] 5 5 5 -1 

[7,] 6 6 6 -1 

[8,] 7 7 7 -1 

[9,] 8 8 0 8 

[10,] 9 9 1 9 

[11,] 10 10 2 10 

[12,] 11 11 3 11 

[13,] 12 27 0 -1 

... 

[32,] 31 346 3 -1 

[33,] 32 512 0 -1 

[34,] 33 513 1 -1 


Eksempel: Ikke-lineær bibetingelse 1/2 

⎧ 

⎨ Q(x1,x2) = 8x1 + 3x2 = Max! 

4x 

⎩ 

2 1 + x 2 2 25 

x1,x2 0 heltal 

Først bestemmes ξ1 ved: 

Vi betragter s˚a funktionen: 

Man finder: 


4ξ 2 1 = λ ⇐⇒ ξ1 = 

g1(λ) = max 

0x1 

√ 

λ 

2 

√ λ 

2 

{8x1}. 

λ g1(λ) x ◦ 1 (λ) 

[0,3] 0 0 

[4,15] 8 1 

[16,25] 16 2 

Tabellen for (g3,x ◦ 3 ) frembringes af DynTable s˚aledes: 

> DynTable(phi,h,b,"+",3) 

[,1] [,2] [,3] [,4] 

[1,] 0 0 0 -1 

[2,] 1 1 0 -1 

[3,] 2 2 0 1 

[4,] 3 3 0 1 

[5,] 4 8 2 -1 

[6,] 5 9 2 -1 

[7,] 6 18 3 -1 

[8,] 7 19 3 -1 

[9,] 8 32 4 -1 

[10,] 9 33 4 -1 

[11,] 10 50 5 -1 

[12,] 11 51 5 -1 

... 

[31,] 30 450 15 -1 

[32,] 31 451 15 -1 

[33,] 32 512 0 16 

[34,] 33 513 0 16 


Eksempel: Ikke-lineær bibetingelse 2/2 

Herefter bestemmes ξ2 ved: 

Vi betragter s˚a funktionen: 

ξ 2 2 = λ ⇐⇒ ξ2 = √ λ 

g2(λ) = max 

0x2[ √ {g1(λ − x 

λ] 

2 2 ) + 3x2}. 

Maksimumsværdien for problemet er: 

⎧ 

⎫ 

g1(25) + 3·0 = 16 + 0 = 16 

⎪⎨ 

g1(24) + 3·1 = 16 + 3 = 19⎪⎬ 

g1(21) + 3·2 = 16 + 6 = 22 

g2(25) = max 

= 25, 

g1(16) + 3·3 = 16 + 9 = 25 

⎪⎩ 

g1(9) + 3·4 = 8 + 12 = 20⎪⎭ 

g1(0) + 3·5 = 0 + 15 = 15 

og vi noterer at x ◦ 2 (25) = 3. Maksimumspunktet er derfor: 

Alts˚a: 


x ◦ 2 (25) = 3 

x ◦ 1 (25 − 32 ) = 2 

Q(2,3) = 8·2+3·3 = 25 = Max!

Kompleksitetsbetragtninger 

Lad os fx betragte problemet: 

⎧ 

⎨ Q(x1,...,xn) = ϕ1(x1) + ··· + ϕn(xn) = Max! 

x1 + ··· + xn b 

⎩ 


Der er (binomialkefficient) n+b 

b 


6 

5 

4 

3 

2 

1 

0 

* 

* 

* 

* 

* 

* 

* 

x 2 

* 

* 

x 1 + x2 = 5 

* 

* 

* 

* 

* 

2+5 

tilladte punkter. Eksempelvis er = 21. 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

0 1 2 3 4 5 6 

Kompleksitet ved dynamisk programmering. 

• Der kræves λ binære operationer for udregning af 

g1(λ) = max 

0x1λ {ϕ1(x1)}. 

Udregning af første tabel g1(0),...,g1(b) har alts˚a kompleksitet: 

0 + 1 + ··· + b = 1 

b(b + 1). 

2 

• Der kræves (λ+1)+λ = 2λ+1 binære operationer for udregning af 

gs(λ) = max 

0xsλ {gs−1(λ − xs) + ϕs(xs)}. 

Udregning af den s’te tabel gs(0),...,gs(b) har alts˚a kompleksitet: 

(2·0 +1) + (2·1+1) + ··· + (2b +1) = (b +1) 2 . 

• Udregning af de n −1 tabeller for g2,...,gn kræver s˚a (n − 1)(b + 1) 2 . 

Den samlede kompleksitet ved dynamisk programmering er derfor: 


cdynamisk(b,n) = 1 

2 b(b + 1) + (n − 1)(b + 1)2 . 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

* 

x 1 

* 

5 

Kompleksitet ved naiv løsning. 

⎧ 

⎨ Q(x1,...,xn) = ϕ1(x1) + ··· + ϕn(xn) = Max! 

x1 + ··· + xn b 

⎩ 


• Udregn Q(x) = ϕ1(x1) + ··· + ϕn(xn) i samtlige n+b 

tilladte punkter. 

b 

Kompleksitet: (n − 1) n+b 

. b 

• Udtag blandt de n+b 

beregnede funktionsværdier den største. 

b n+b 

Kompleksitet: − 1. 

b 

Den samlede kompleksitet ved naiv løsning er derfor: 

 

n + b n + b 

n + b 

cnaiv(b,n) = (n − 1) + − 1 = n − 1. 

b b 

b 


(b,n) cnaiv(b,n) cdynamisk(b,n) 

(50,5) 17393804 11679 

(100,5) 482803229 45854 

(50,20) 10 18 

50694 

(100,20) 10 23 

198869 

(50,40) 10 27 

102714 

(100,40) 10 36 

402889 

Hvis 1000000 IBM Roadrunners (hver 10 15 FLOPS) samarbejdede om den 

naive løsning for b = 100 og n = 40, ville tidsforbruget være: 

10 36 

1000000 · 10 15 sek −1 = 1015 sek ≈ 32 millioner ˚ar. 

Hvis en lommeregner (10 FLOPS) løste samme problem med dynamisk 

programmering ville tidsforbruget være: 


402889 

= 40289sek ≈ 11 timer. 

−1 

10sek 

(∗)

Markov-beslutningsprocesser 

En Markov-beslutningsproces best˚ar af følgende data: 

1 Et system der kan være i N tilstande S1,...,SN. 

Systemet ændrer tilstand over tid. 

En fabrikants markedsandel kan hvert ˚ar være: 

S1: Høj ( 10%) 

S2: Lav (< 10%) 

2 I hver tilstand Si kan der foretages valgene ki = 1,...,Ki. 

Hvis markedsandelen er høj (S1) kan fabrikanten vælge: 

Valg k1 = 1: En dyr reklamekampagne ( 50000 kr) 

Valg k1 = 2: En billig reklamekampagne (< 50000 kr) 

Hvis markedsandelen er lav (S2) kan fabrikanten vælge: 

Valg k2 = 1: En dyr markedsanalyse ( 10000 kr) 

Valg k2 = 2: En billig markedsanalyse (< 10000 kr) 

Ved en strategi forst˚as et fast valg af værdierne (k1,...,kN). 


4 Ved overgang af systemet fra tilstand Si til Sj er der, under valget ki, en 

vis fortjeneste r ki 

ij . 

N˚ar markedsandelen er høj (S1) haves indtægterne: 

(r 1 11,r 1 12) = (80,40) og (r 2 11,r 2 12) = (100,60) 

Hvis markedsandelen faktisk ogs˚a bliver høj ˚aret efter, og man havde satset 

p˚a en dyr/billig reklamekampagne, da tjenes 80/100. 

N˚ar markedsandelen er lav (S2) haves indtægterne: 

(r 1 21,r 1 22) = (40,10) og (r 2 21,r 2 22) = (60,21) 

Hvis markedsandelen faktisk g˚ar hen og bliver høj ˚aret efter, og man havde 

satset p˚a en dyr/billig markedsanalyse, da tjenes 40/60. 

Markov-beslutningsprocessen i eksemplet indeholder alts˚a følgende data: 


Tilstand Valg p k ij r k 

ij 

i k j = 1 j = 2 j = 1 j = 2 

1 

2 

1 0.7 0.3 80 40 

2 0.5 0.5 100 60 

1 0.6 0.4 40 10 

2 0.33 0.67 60 21 

3 Hvis der i tilstand Si foretages valget ki ∈ {1,...,Ki}, s˚a skifter 

systemet til tilstand Sj med sandynlighed p ki 

ij . 

N˚ar markedsandelen er høj (S1) haves sandsynlighederne: 

(p 1 11,p 1 12) = (0.7,0.3) og (p 2 11,p 2 12) = (0.5,0.5) 

Hvis der fx laves en dyr/billig reklamekampagne da er der 70/50% 

sandsynlighed for, at markedsandelen ogs˚a vil være høj næste ˚ar. 

N˚ar markedsandelen er lav (S2) haves sandsynlighederne: 

(p 1 21,p 1 22) = (0.6,0.4) og (p 2 21,p 2 22) = (0.33,0.67) 

Hvis der fx laves en dyr/billig markedsanalyse, da er der 60/33% 

sandsynlighed for, at markedsandelen vil blive høj næste ˚ar. 


Givet en strategi (k1,...,kN) er man interesseret i at kende: 

v (k1,...,kN 

⎧ 

⎨ Den forventede indtægt over en n-˚ars periode 

) 

i (n) = hvis systemet som udgangspunkt er i tilstand Si 

⎩ 

og man konsekvent følger strategien (k1,...,kN). 

Systemet skifter efter første ˚ar tilstand til Sj med sandsynlighed p ki 

ij , og hvis 

dette sker da m˚a den forventede indtægt være: 

r ki 

ij + v (k1,...,kN ) 

j 

(n − 1). 

Størrelsen v (k1,...,kN ) 

i (n) beregnes derfor som følgende vægtede gennemsnit: 

v (k1,...,kN ) 

i 

Her er v (k1,...,kN ) 

i (0) = 0. 


(n) = 

N 

∑ 

j=1 

p ki ki 

ij (r 

ij + v (k1,...,kN ) 

j 

(n − 1))

Hvis vi indfører: 

v (k1,...,kN 

⎛ 

v 

⎜ 

) 

(n) = ⎜ 

⎝ 

(k1,...,kN ) 

1 (n) 

v (k1,...,kN ) 

2 (n) 

. 

v (k1,...,kN 

⎞ 

⎟ 

⎠ 

) 

N (n) 

⎛ ⎞ ⎛ 

q k1 

1 

q k2 

2 

q (k1,...,kN 

⎜ ⎟ 

) ⎜ ⎟ 

= ⎜ . ⎟ 

⎝ . ⎠ = 

⎜ 

⎝ 

⎛ 

q kN 

N 

p k1 

11 

p k2 

21 

P (k1,...,kN 

⎜ 

) ⎜ 

= ⎜ . 

⎝ . 

p kN 

N1 

da f˚as alts˚a sammenhængen: 


p k1 

11 

p k2 

21 

k1 r11 k2 r21 p kN kN 

N1rN1 + pk1 

12 

+ pk2 

22 

p k1 

12 ··· p k1 

1N 

p k2 

22 ··· p k2 

2N 

. 

. .. 

p kN 

N2 ··· p kN 

NN 

k1 r12 k2 r22 kN + pkN 

N2rN2 ⎞ 

⎟ 

. ⎟ 

. ⎠ 

k1 ⎞ 

+ ··· + pk1 

1Nr1N k2 

+ ··· + pk2 

2Nr ⎟ 

2N ⎟ 

. 

⎟ 

. 

⎠ 

kN 

+ ··· + pkN 

NNrNN v (k1,...,kN ) (n) = q (k1,...,kN ) + P (k1,...,kN ) v (k1,...,kN ) (n − 1) 

Man kan fx nu succesivt udregne: 

v (1,1) 

0 

(0) = 

0 

v (1,1) 

68 0.7 0.3 0 68 

(1) = + 

= 

28 0.6 0.4 0 28 

v (1,1) 

68 0.7 0.3 68 124 

(2) = + 

= 

28 0.6 0.4 28 80 

v (1,1) 

68 0.7 0.3 124 179 

(3) = + 

= 

28 0.6 0.4 80 134 


. 

For strategien (k1,k2) = (1,1) (dvs. man vælger konsekvent den dyreste 

reklamekampagne og den dyreste markedsanalyse) f˚as: 

v (1,1) 

v 

(n) = 

(1,1) 

1 (n) 

v (1,1) 

 

2 (n) 

q (1,1) 

1 

q1 = 

q 1 

1 

p11r = 

2 

1 11 + p1 12r 1 12 

p 1 21r 1 21 + p1 22r 1 

= 

22 

P (1,1) 

1 

p11 p 

= 

1 

12 0.7 0.3 

= 

0.6 0.4 

p 1 21 

p 1 22 


 

0.7 · 80 + 0.3 · 40 

= 

0.6 · 40 + 0.4 · 10 


ij q k i k j = 1 j = 2 j = 1 j = 2 

i 

1 

1 

2 

0.7 

0.5 

0.3 

0.5 

80 

100 

40 

60 

68 

80 

2 

1 

2 

0.6 

0.33 

0.4 

0.67 

40 

60 

10 

21 

28 

34 

Gevinsten g (k1,...,kN ) for strategien (k1,...,kN) er den asymptotiske 

gennemsnitlige ˚arlige indtægt – som faktisk er uafhængig af i – alts˚a: 

1 

n v (k1,...,kN ) 

i (n) → g (k1,...,kN ) 

for n → ∞ 

For strategien (k1,k2) = (1,1) finder vi: 

1 

10 v (1,1) (10) = 1 

 

561 56.1 

= 

10 517 51.7 

1 

100 v (1,1) (100) = 1 

 

5481 54.8 

= 

100 5437 54.4 

1 

1000 v (1,1) (1000) = 1 

 

54681 54.7 

= 

1000 54637 54.6 

1 

10000 v (1,1) (10000) = 1 

 

546681 54.7 

= 

10000 546637 54.7 

Gevinsten for denne strategi er alts˚a g (1,1) = 54.7 (kr/˚ar i gennemsnit). 


 

68 

28

Vi kan p˚a denne m˚ade udregne gevinsten for alle fire mulige strategier: 

g (1,1) = 54.7 

g (1,2) = 51.9 

g (2,1) = 56.4 

g (2,2) = 52.4 

Den optimale strategi er alts˚a (2,1), dvs. 

• N˚ar markedsandelen er høj skal man lave billig reklamekampagne 

• N˚ar markedsandelen er lav skal man lave dyr markedsanalyse 

Denne metode til at finde den optimale strategi kræver mange beregninger. 

Dynamisk programmering giver det bedste alternativ... 


Eksempel: Howards metode 1/2 

Af værdierne nedenfor ses, at vi starter med strategien (k1,k2) = (2,2). 


ij q k i k j = 1 j = 2 j = 1 j = 2 

i 

1 

1 

2 

0.7 

0.5 

0.3 

0.5 

80 

100 

40 

60 

68 

80 

2 

1 

2 

0.6 

0.33 

0.4 

0.67 

40 

60 

10 

21 

28 

34 

S˚a sættes u2 = 0 og vi løser ligningen: 

 

g 1 − 0.5 −0.5 u1 80 

+ 

= 

g −0.33 1 − 0.67 

34 

Ud fra disse værdier beregnes: 

 

¯q 1 

1 

¯q 2 

68 0.7 0.3 

= + 

1 80 0.5 0.5 

 

¯q 1 

2 28 0.6 0.4 

= + 

34 0.33 0.76 

¯q 2 2 

u2 

u1 

u2 

 

u1 

Det nye valg af strategi er derfor (k1,k2) = (2,1). 


=⇒ 

⎧ 

⎨ 

⎩ 

 

106.64 

= 

107.60 

 

61.12 

= 

52.40 

u2 

g = 52.4 

u1 = 55.2 

u2 = 0 

Howards metode til bestemmelse af optimal strategi 

1 Vælg for hver tilstand i værdien ki s˚a q k1 

i er størst blandt q1 i ,q2 i ,... 

2 Med disse værdier (k1,...,kN) løses nu ligningerne 

⎛ ⎞ 

g 

⎜ . ⎟ 

⎝ . ⎠ + (I − P 

g 

(k1,...,kN 

⎛ 

) ⎜ 

) ⎝ 

u1 

. 

uN 

for g og u1,...,uN idet man sætter uN = 0. 

3 Vælg for hver tilstand i værdien ki s˚a ¯q ki 

i 

størst blandt 

⎞ 

⎟ 

⎠ = q (k1,...,kN ) 

= qki 

i 

¯q 1 i = q 1 i + p 1 i1 u1 + ··· + p 1 iN uN 

¯q 2 i = q 2 i + p 2 i1 u1 + ··· + p 2 iN uN 

. 

G˚a nu tilbage til 2 med de nye værdier (k1,...,kN). 

+ pki 

i1 u1 + ··· + p ki 

iN uN er 

Algoritmen slutter første gang værdierne (k1,...,kN) ikke ændrer sig. Dette 

er den optimale strategi. 


Eksempel: Howards metode 2/2 

Vi kører algoritmen videre med strategien (k1,k2) = (2,1). 


ij q k i k j = 1 j = 2 j = 1 j = 2 

i 

1 

1 

2 

0.7 

0.5 

0.3 

0.5 

80 

100 

40 

60 

68 

80 

2 

1 

2 

0.6 

0.33 

0.4 

0.67 

40 

60 

10 

21 

28 

34 

S˚a sættes u2 = 0 og vi løser ligningen: 

 

g 1 − 0.5 −0.5 u1 80 

+ 

= 

g −0.6 1 − 0.4 

28 

Ud fra disse værdier beregnes: 

 

¯q 1 

1 

¯q 2 

68 0.7 0.3 

= + 

1 80 0.5 0.5 

 

¯q 1 

2 28 0.6 0.4 

= + 

34 0.33 0.76 

¯q 2 2 

u2 

u1 

u2 

 

u1 

=⇒ 

⎧ 

⎨ 

⎩ 

 

101.09 

= 

103.63 

 

56.36 

= 

49.76 

u2 

g = 56.36 

u1 = 47.27 

u2 = 0 

Vi ledes til samme strategi som før: (k1,k2) = (2,1). Denne er alts˚a optimal!

Dynamisk programmering II - Matematik og optimering

Create successful ePaper yourself

Delete template?

Save as template?