Introduction à la commande stochastique v.0.9 - Jean-Pierre ...
Introduction à la commande stochastique v.0.9 - Jean-Pierre ...
Introduction à la commande stochastique v.0.9 - Jean-Pierre ...
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
4. PROGRAMMATION DYNAMIQUE COÛT ACTUALISÉ 51<br />
cette itération en n est contractante car les M u sont des matrices <strong>stochastique</strong>s<br />
donc de norme inférieure ou égale <strong>à</strong>1.<br />
ITÉRATION SUR LES POLITIQUES OU ALGORITHME DE HOWARD<br />
• ETAPE 2n − 1. A une stratégie s n on associe v n solution de:<br />
(A sn − λ)v n + c sn = 0 .<br />
Cette solution existe et est unique puisque A sn − λ est inversible car<br />
A est le générateur d’une chaînedeMarkovetλ>0 et donc toutes<br />
les valeurs propres de A sn − λ sont strictement négatives.<br />
• ETAPE 2n. Auncoût v n on associe une nouvelle stratégie s n+1 : x ∈<br />
E → u n+1 où:<br />
u n+1 ∈ arg min<br />
u∈F {[(Au − λ)v n ] x + c u x } ,<br />
qui a bien un sens puisque F est compact et u → (A u , c u ) est continue.<br />
On s’intéresse seulement <strong>à</strong>l’itération sur les politiques. On a construit<br />
par cette méthode d’itération sur les politiques deux suites (v n ) n∈N, (s n ) n∈N.<br />
On va montrer que v n est une suite décroissante positive qui admet une<br />
limite solution de l’équation de <strong>la</strong> programmation dynamique. Dans <strong>la</strong> suite<br />
on notera A n = A sn − λ, c n = c sn .<br />
• LA SUITEv n EST ≥ 0 . On le voit grâce <strong>à</strong> l’interprétation <strong>stochastique</strong><br />
de v n . Montrons le également d’un point de vue analytique.<br />
Supposons qu’il n’en soit pas ainsi. Alors min x vx<br />
n < 0. Pour un<br />
x réalisant le minimum on aurait <strong>à</strong> cause du principe du minimum<br />
strictement négatif (A n v n ) x > 0 et comme c n x ≥ 0 on a une contradiction.<br />
• LA SUITEv n EST DÉCROISSANTE. Eneffetona:<br />
A n v n + c n = 0 .<br />
Par différence entre deux équations successives on obtient :<br />
A n v n − A n+1 v n+1 + c n − c n+1 = 0 ,<br />
A n+1 (v n − v n+1 ) + (A n − A n+1 )v n + c n − c n+1 = 0 ,<br />
et donc grâce aux étapes (2n) de l’algorithme, on a :<br />
A n+1 (v n − v n+1 ) ≤ 0 .<br />
Enfin par le même raisonnement que celui qui nous a permis de montrer<br />
<strong>la</strong> positivitédev n ,ona:<br />
v n − v n+1 ≥ 0 ⇒ v n ≥ v n+1 .<br />
• LA LIMITEDEv n EST SOLUTION. La suite v n est décroissante minorée,<br />
elle est donc convergente, notons v ∗ sa limite. L’ensemble F<br />
étant compact l’ensemble des stratégies est compact comme produit