Introduction à la commande stochastique v.0.9 - Jean-Pierre ...
Introduction à la commande stochastique v.0.9 - Jean-Pierre ...
Introduction à la commande stochastique v.0.9 - Jean-Pierre ...
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
48 3. COMMANDE OPTIMALE STOCHASTIQUE<br />
Dans de nombreux problèmes pratiques même ce cas particulier est “impossible”<br />
<strong>à</strong>résoudre. En effet E est souvent du type m k — k est <strong>la</strong> dimension<br />
du sytème — et donc peut atteindre des tailles astronomiques. La seule<br />
mémorisation de <strong>la</strong> <strong>commande</strong> optimale est alors hors d’atteinte. On est<br />
conduit, pour éviter cette difficulté, <strong>à</strong> optimiser dans une c<strong>la</strong>sse plus restreinte,<br />
par exemple <strong>la</strong> c<strong>la</strong>sse des boucles ouvertes S O — open loop. C’est<br />
le cas où l’observation est vide G =∅. La <strong>commande</strong> est alors une fonction<br />
du temps seul :<br />
S O ={u = (u n ∈ F) n∈T } .<br />
On parle parfois de feedback a priori lorsque l’on s’est ramené <strong>à</strong><strong>la</strong>situation<br />
de <strong>la</strong> boucle ouverte en faisant un changement de variable sur <strong>la</strong><br />
<strong>commande</strong>. La c<strong>la</strong>sse de stratégies est alors de <strong>la</strong> forme :<br />
S FP ={a = (a n ∈ A, u n = s an<br />
x , s : A × E → F donné) n∈T } .<br />
Lorsqu’on connait <strong>la</strong> forme du feedback optimal, cette façon de poser le<br />
problème peut conduire <strong>à</strong> de grosses économies en temps de calcul <strong>à</strong> condition,<br />
bien sûr, de disposer d’une méthode efficace de résolution du problème<br />
de <strong>commande</strong> en boucle ouverte correspondant.<br />
Dans <strong>la</strong> suite de ce chapitre nous étudierons le problème en observation<br />
complète dans trois situations :<br />
• problème en horizon fini :<br />
{<br />
min E ∑ N−1<br />
s∈S<br />
n=0<br />
c nU n<br />
X n + φ X N }<br />
,<br />
où φ est un coût particulier appelé coût final;<br />
• problème en horizon infini avec un coût actualisé:<br />
+∞∑<br />
min E 1<br />
n<br />
cU<br />
s∈S (1 + λ)<br />
n+1 X ; n<br />
n=0<br />
• problème en horizon infini avec un coût non actualisé:<br />
+∞∑<br />
min lim E λ<br />
n<br />
cU<br />
s∈S λ→0 (1 + λ)<br />
n+1 X ; n<br />
n=0<br />
problème qui a même solution que :<br />
min<br />
s∈S<br />
lim E 1 ∑N−1<br />
N→∞ N<br />
n=0<br />
c U n<br />
X n .<br />
3. PROGRAMMATION DYNAMIQUE EN HORIZON FINI<br />
Nous nous intéressons dans ce paragraphe <strong>à</strong> l’optimisation, d’un<br />
système régi par une chaîne de Markov, sur une période de gestion finie<br />
de N étapes. Nous é<strong>la</strong>rgirons les hypothèses du paragraphe précédent au<br />
cas F compact. Nous nous p<strong>la</strong>çons dans le cas d’observation complète —<br />
dans ce cas puisque l’observation est égale <strong>à</strong>l’état Mxx ux′ est notée ′ Mu xx .On ′