14.06.2014 Views

Introduction à la commande stochastique v.0.9 - Jean-Pierre ...

Introduction à la commande stochastique v.0.9 - Jean-Pierre ...

Introduction à la commande stochastique v.0.9 - Jean-Pierre ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

6. COMMANDE EN INFORMATION INCOMPLÈTE 55<br />

ce qui n’est possible que si ṽ est constante car (5.3) siginifie que<br />

v x est une moyenne pondérée de ses points voisins, et comme x est<br />

le minimum, les points voisins ont <strong>la</strong> même valeur et de proche en<br />

proche en utilisant l’irréductiblité de<strong>la</strong>chaîne de Markov on obtient<br />

:<br />

Et donc on a<br />

A ∗ ṽ = 0 .<br />

min{(A u v ∗ ) x + c u<br />

u<br />

x }=w∗ ,<br />

d’où l’existence.<br />

UNICITÉ DEw. Supposons qu’il existe deux solutions w 1 et w 2 on en<br />

déduit, en réutilisant les raisonnements précédents, que<br />

A 2 (v 1 − v 2 ) − w 1 + w 2 ≥ 0 ⇒ w 1 − w 2 ≤ 0 ,<br />

et par symétrie w 2 − w 1 ≤ 0d’où l’unicité.<br />

INTERPRÉTATION STOCHASTIQUE DE w. Soitν une <strong>commande</strong> quelconque<br />

∈ S F , p ∞ <strong>la</strong> mesure invariante associée, on a :<br />

p ∞ M ν = p ∞ , et donc p ∞ A ν = 0 .<br />

Si v et w désigne <strong>la</strong> solution de (5.1) on a donc<br />

(A ν v, p ∞ ) = 0 .<br />

Mais p ∞ ≥ 0 et donc grâce <strong>à</strong> (5.1) on a<br />

0 = (A ν v, p ∞ ) ≥ (w − c ν , p ∞ ),<br />

et donc w ≤ (c ν , p ∞ ).<br />

On montre par un raisonnement analogue que l’égalité est atteinte pour<br />

une stratégie vérifiant:<br />

s ∈ arg min{A u v + c u } .<br />

Les résultats du paragraphe sur <strong>la</strong> théorie ergodique des chaînes de Markov<br />

donnent alors l’interprétation souhaitée.<br />

6. COMMANDE EN INFORMATION INCOMPLÈTE<br />

Nous étudions ici le problème de <strong>la</strong> <strong>commande</strong> optimale de chaîne de<br />

Markov dans le cas où on n’observe pas directement l’état mais seulement<br />

une fonction statique de l’état <strong>à</strong> valeurs dans un ensemble fini.<br />

Nous commençons par donner l’équation de filtre optimal c.a.d. l’équation<br />

régissant l’ évolution de <strong>la</strong> loi conditionnelle de l’état connaissant le passé<br />

des observations. Nous donnons ensuite l’équation de <strong>la</strong> programmation dynamique<br />

du problème en information incomplète. L’ état <strong>à</strong>mémoriser pour<br />

résoudre le probème d’optimisation n’est plus l’état du système mais <strong>la</strong> loi<br />

conditionnelle de l’état connaissant le passé des observations.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!