14.06.2014 Views

Introduction à la commande stochastique v.0.9 - Jean-Pierre ...

Introduction à la commande stochastique v.0.9 - Jean-Pierre ...

Introduction à la commande stochastique v.0.9 - Jean-Pierre ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

1. UNE GESTION DE STOCK 119<br />

3. L’équation de <strong>la</strong> programmation dynamique s’écrit alors :<br />

]<br />

V (t, x) = min V (t + 1, x + u − v)P(dv) + f (u) + g(x)<br />

u∈R<br />

[∫v<br />

+<br />

,<br />

1.2.2. QUESTION 2.<br />

1. L’équation :<br />

(1 + λ)V (x) = min<br />

u≥0<br />

{∫<br />

v<br />

V (T, x) = 0 .<br />

}<br />

V (x + u − v)P(dv) + g(u) + f (x) ,<br />

est l’équation de <strong>la</strong> programmation dynamique du problème de <strong>commande</strong><br />

<strong>stochastique</strong> en horizon infini avec coût actualisé suivant :<br />

∞∑ 1<br />

min E<br />

U t (1 + λ) [ f (X t) + g(U<br />

t=0,··· ,∞ t=0<br />

t+1 t )] ,<br />

sous les contraintes dynamiques :<br />

X t+1 = X t + U t − V t , t = 0, ··· , ∞ .<br />

2. La méthode de gestion consiste en :<br />

• <strong>la</strong> résolution de l’équation de <strong>la</strong> programmation dynamique<br />

précédente qui nous donne le coût optimal V et <strong>la</strong> stratégie<br />

de décision markovienne :<br />

[∫<br />

]<br />

s : x ↦→ u ∈ arg min V (x + u − v)P(dv) + g(u) ,<br />

u≥0 v<br />

• l’utilisation de <strong>la</strong> stratégie optimale en commandant <strong>à</strong> chaque<br />

période <strong>la</strong> quantité s(X t ) si le stock <strong>à</strong> l’instant t est X t .<br />

3. Pour montrer que cette stratégie est optimale on considère une autre<br />

stratégie Z t,ω ne dépendant que du passé (X s ) s≤t des observations (ici<br />

l’état du système). Etudions alors, l’évolution de 1/(1 + λ) t V (Xt Z )<br />

où V est<strong>la</strong>solutiondel’équation de <strong>la</strong> programmation dynamique<br />

et X Z désigne <strong>la</strong> niveau de stock en supposant que le système évolue<br />

avec <strong>la</strong> politique Z.Ona:<br />

{<br />

}<br />

1<br />

E<br />

(1 + λ) V (X Z t+1 t+1 ) − 1<br />

(1 + λ) V (X Z t t ) | X Z s , s ≤ t ]<br />

1<br />

=<br />

V (X<br />

(1 + λ)<br />

[∫v<br />

Z 1<br />

t+1 t<br />

+ Z t − v)P(dv) −<br />

(1 + λ) V (X Z t+1 t )<br />

1<br />

≥<br />

(1 + λ) [g(Z t) + f (X Z t+1 t )] ,<br />

grâce successivement <strong>à</strong><strong>la</strong>définition de l’espérance conditionnelle<br />

puis <strong>à</strong>l’équation satisfaite par V .

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!