Introduction à la commande stochastique v.0.9 - Jean-Pierre ...
Introduction à la commande stochastique v.0.9 - Jean-Pierre ...
Introduction à la commande stochastique v.0.9 - Jean-Pierre ...
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
6. COMMANDE EN INFORMATION INCOMPLÈTE 55<br />
ce qui n’est possible que si ṽ est constante car (5.3) siginifie que<br />
v x est une moyenne pondérée de ses points voisins, et comme x est<br />
le minimum, les points voisins ont <strong>la</strong> même valeur et de proche en<br />
proche en utilisant l’irréductiblité de<strong>la</strong>chaîne de Markov on obtient<br />
:<br />
Et donc on a<br />
A ∗ ṽ = 0 .<br />
min{(A u v ∗ ) x + c u<br />
u<br />
x }=w∗ ,<br />
d’où l’existence.<br />
UNICITÉ DEw. Supposons qu’il existe deux solutions w 1 et w 2 on en<br />
déduit, en réutilisant les raisonnements précédents, que<br />
A 2 (v 1 − v 2 ) − w 1 + w 2 ≥ 0 ⇒ w 1 − w 2 ≤ 0 ,<br />
et par symétrie w 2 − w 1 ≤ 0d’où l’unicité.<br />
INTERPRÉTATION STOCHASTIQUE DE w. Soitν une <strong>commande</strong> quelconque<br />
∈ S F , p ∞ <strong>la</strong> mesure invariante associée, on a :<br />
p ∞ M ν = p ∞ , et donc p ∞ A ν = 0 .<br />
Si v et w désigne <strong>la</strong> solution de (5.1) on a donc<br />
(A ν v, p ∞ ) = 0 .<br />
Mais p ∞ ≥ 0 et donc grâce <strong>à</strong> (5.1) on a<br />
0 = (A ν v, p ∞ ) ≥ (w − c ν , p ∞ ),<br />
et donc w ≤ (c ν , p ∞ ).<br />
On montre par un raisonnement analogue que l’égalité est atteinte pour<br />
une stratégie vérifiant:<br />
s ∈ arg min{A u v + c u } .<br />
Les résultats du paragraphe sur <strong>la</strong> théorie ergodique des chaînes de Markov<br />
donnent alors l’interprétation souhaitée.<br />
6. COMMANDE EN INFORMATION INCOMPLÈTE<br />
Nous étudions ici le problème de <strong>la</strong> <strong>commande</strong> optimale de chaîne de<br />
Markov dans le cas où on n’observe pas directement l’état mais seulement<br />
une fonction statique de l’état <strong>à</strong> valeurs dans un ensemble fini.<br />
Nous commençons par donner l’équation de filtre optimal c.a.d. l’équation<br />
régissant l’ évolution de <strong>la</strong> loi conditionnelle de l’état connaissant le passé<br />
des observations. Nous donnons ensuite l’équation de <strong>la</strong> programmation dynamique<br />
du problème en information incomplète. L’ état <strong>à</strong>mémoriser pour<br />
résoudre le probème d’optimisation n’est plus l’état du système mais <strong>la</strong> loi<br />
conditionnelle de l’état connaissant le passé des observations.