14.06.2014 Views

Introduction à la commande stochastique v.0.9 - Jean-Pierre ...

Introduction à la commande stochastique v.0.9 - Jean-Pierre ...

Introduction à la commande stochastique v.0.9 - Jean-Pierre ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

4. PROGRAMMATION DYNAMIQUE COÛT ACTUALISÉ 51<br />

cette itération en n est contractante car les M u sont des matrices <strong>stochastique</strong>s<br />

donc de norme inférieure ou égale <strong>à</strong>1.<br />

ITÉRATION SUR LES POLITIQUES OU ALGORITHME DE HOWARD<br />

• ETAPE 2n − 1. A une stratégie s n on associe v n solution de:<br />

(A sn − λ)v n + c sn = 0 .<br />

Cette solution existe et est unique puisque A sn − λ est inversible car<br />

A est le générateur d’une chaînedeMarkovetλ>0 et donc toutes<br />

les valeurs propres de A sn − λ sont strictement négatives.<br />

• ETAPE 2n. Auncoût v n on associe une nouvelle stratégie s n+1 : x ∈<br />

E → u n+1 où:<br />

u n+1 ∈ arg min<br />

u∈F {[(Au − λ)v n ] x + c u x } ,<br />

qui a bien un sens puisque F est compact et u → (A u , c u ) est continue.<br />

On s’intéresse seulement <strong>à</strong>l’itération sur les politiques. On a construit<br />

par cette méthode d’itération sur les politiques deux suites (v n ) n∈N, (s n ) n∈N.<br />

On va montrer que v n est une suite décroissante positive qui admet une<br />

limite solution de l’équation de <strong>la</strong> programmation dynamique. Dans <strong>la</strong> suite<br />

on notera A n = A sn − λ, c n = c sn .<br />

• LA SUITEv n EST ≥ 0 . On le voit grâce <strong>à</strong> l’interprétation <strong>stochastique</strong><br />

de v n . Montrons le également d’un point de vue analytique.<br />

Supposons qu’il n’en soit pas ainsi. Alors min x vx<br />

n < 0. Pour un<br />

x réalisant le minimum on aurait <strong>à</strong> cause du principe du minimum<br />

strictement négatif (A n v n ) x > 0 et comme c n x ≥ 0 on a une contradiction.<br />

• LA SUITEv n EST DÉCROISSANTE. Eneffetona:<br />

A n v n + c n = 0 .<br />

Par différence entre deux équations successives on obtient :<br />

A n v n − A n+1 v n+1 + c n − c n+1 = 0 ,<br />

A n+1 (v n − v n+1 ) + (A n − A n+1 )v n + c n − c n+1 = 0 ,<br />

et donc grâce aux étapes (2n) de l’algorithme, on a :<br />

A n+1 (v n − v n+1 ) ≤ 0 .<br />

Enfin par le même raisonnement que celui qui nous a permis de montrer<br />

<strong>la</strong> positivitédev n ,ona:<br />

v n − v n+1 ≥ 0 ⇒ v n ≥ v n+1 .<br />

• LA LIMITEDEv n EST SOLUTION. La suite v n est décroissante minorée,<br />

elle est donc convergente, notons v ∗ sa limite. L’ensemble F<br />

étant compact l’ensemble des stratégies est compact comme produit

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!