14.06.2014 Views

Introduction à la commande stochastique v.0.9 - Jean-Pierre ...

Introduction à la commande stochastique v.0.9 - Jean-Pierre ...

Introduction à la commande stochastique v.0.9 - Jean-Pierre ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

50 3. COMMANDE OPTIMALE STOCHASTIQUE<br />

De plus, par un raisonnement analogue, en faisant jouer le rôle de ν <strong>à</strong><strong>la</strong><br />

stratégie (3.2), on montre l’égalité pour <strong>la</strong> stratégie définie par (3.2).<br />

REMARQUE 3.2. On a montré que dans le cas oùonobservel’état il existe<br />

une stratégie optimale pour <strong>la</strong> c<strong>la</strong>sse de stratégies S ne dépendant que de<br />

l’état présent donc appartenant <strong>à</strong> S F . Si l’on avait formulé le problème initial<br />

d’optimisation dans R le feedback défini par (3.2) serait encore optimal.<br />

4. PROGRAMMATION DYNAMIQUE COÛT ACTUALISÉ<br />

On s’intéresse dans ce paragraphe au problème de <strong>la</strong> <strong>commande</strong> optimale<br />

d’une chaîne de Markov en horizon infini, pour un coût actualisé, dans<br />

le cas où l’observation est complète. L’actualisation du coût permet de gérer<br />

l’importance re<strong>la</strong>tive des évènements <strong>à</strong> court et long terme tout en conduisant<br />

<strong>à</strong><strong>la</strong>résolution d’une équation de <strong>la</strong> programmation dynamique stationnaire.<br />

Des méthodes itératives permettent de calculer sa solution avec un<br />

coût de calcul bien moindre que celui nécessaire pour résoudre le problème<br />

en l’horizon fini correspondant.<br />

Nous donnerons deux méthodes de résolution de l’équation de <strong>la</strong> programmation<br />

dynamique : l’itération sur les valeurs, l’itération sur les politiques.<br />

Pour ce<strong>la</strong> nous commençons par caractériser <strong>la</strong> politique optimale<br />

comme solution d’équation de <strong>la</strong> programmation dynamique.<br />

THÉORÈME 4.1. Sous les hypothèses :<br />

• F compact,<br />

• u → (M u , c u ) continue,<br />

• c u x<br />

≥ 0 , ∀u ∈ F, ∀x ∈ E ,<br />

• λ>0,<br />

en notant A u = M u − I , v solution unique de :<br />

min<br />

u∈F {[(Au − λ)v] x + c u x }=0 , ∀x ∈ E , (4.1)<br />

est le coût optimal<br />

{ }<br />

+∞<br />

v x = min E ∑ 1<br />

n<br />

cU<br />

s∈S (1 + λ)<br />

n+1 X |X 0 = x .<br />

n<br />

n=0<br />

De plus<br />

s : x → u ∗ ∈ arg min<br />

u∈F {(Au v) x + c u x } (4.2)<br />

définit une stratégie optimale dans <strong>la</strong> c<strong>la</strong>sse S. Cette stratégie est markovienne<br />

c.a.d. ∈ S F .<br />

PREUVE. EXISTENCE D’UNE SOLUTION DE (4.1). On construit <strong>la</strong> solution<br />

au moyen de l’une des deux itérations suivantes :<br />

ITÉRATION SUR LES VALEURS<br />

v n+1<br />

x = 1<br />

1 + λ min<br />

u∈F {(Mu v n ) x + c u x } (4.3)

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!