Introduction à la commande stochastique v.0.9 - Jean-Pierre ...
Introduction à la commande stochastique v.0.9 - Jean-Pierre ...
Introduction à la commande stochastique v.0.9 - Jean-Pierre ...
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
1. UNE GESTION DE STOCK 119<br />
3. L’équation de <strong>la</strong> programmation dynamique s’écrit alors :<br />
]<br />
V (t, x) = min V (t + 1, x + u − v)P(dv) + f (u) + g(x)<br />
u∈R<br />
[∫v<br />
+<br />
,<br />
1.2.2. QUESTION 2.<br />
1. L’équation :<br />
(1 + λ)V (x) = min<br />
u≥0<br />
{∫<br />
v<br />
V (T, x) = 0 .<br />
}<br />
V (x + u − v)P(dv) + g(u) + f (x) ,<br />
est l’équation de <strong>la</strong> programmation dynamique du problème de <strong>commande</strong><br />
<strong>stochastique</strong> en horizon infini avec coût actualisé suivant :<br />
∞∑ 1<br />
min E<br />
U t (1 + λ) [ f (X t) + g(U<br />
t=0,··· ,∞ t=0<br />
t+1 t )] ,<br />
sous les contraintes dynamiques :<br />
X t+1 = X t + U t − V t , t = 0, ··· , ∞ .<br />
2. La méthode de gestion consiste en :<br />
• <strong>la</strong> résolution de l’équation de <strong>la</strong> programmation dynamique<br />
précédente qui nous donne le coût optimal V et <strong>la</strong> stratégie<br />
de décision markovienne :<br />
[∫<br />
]<br />
s : x ↦→ u ∈ arg min V (x + u − v)P(dv) + g(u) ,<br />
u≥0 v<br />
• l’utilisation de <strong>la</strong> stratégie optimale en commandant <strong>à</strong> chaque<br />
période <strong>la</strong> quantité s(X t ) si le stock <strong>à</strong> l’instant t est X t .<br />
3. Pour montrer que cette stratégie est optimale on considère une autre<br />
stratégie Z t,ω ne dépendant que du passé (X s ) s≤t des observations (ici<br />
l’état du système). Etudions alors, l’évolution de 1/(1 + λ) t V (Xt Z )<br />
où V est<strong>la</strong>solutiondel’équation de <strong>la</strong> programmation dynamique<br />
et X Z désigne <strong>la</strong> niveau de stock en supposant que le système évolue<br />
avec <strong>la</strong> politique Z.Ona:<br />
{<br />
}<br />
1<br />
E<br />
(1 + λ) V (X Z t+1 t+1 ) − 1<br />
(1 + λ) V (X Z t t ) | X Z s , s ≤ t ]<br />
1<br />
=<br />
V (X<br />
(1 + λ)<br />
[∫v<br />
Z 1<br />
t+1 t<br />
+ Z t − v)P(dv) −<br />
(1 + λ) V (X Z t+1 t )<br />
1<br />
≥<br />
(1 + λ) [g(Z t) + f (X Z t+1 t )] ,<br />
grâce successivement <strong>à</strong><strong>la</strong>définition de l’espérance conditionnelle<br />
puis <strong>à</strong>l’équation satisfaite par V .