Introduction à la commande stochastique v.0.9 - Jean-Pierre ...
Introduction à la commande stochastique v.0.9 - Jean-Pierre ...
Introduction à la commande stochastique v.0.9 - Jean-Pierre ...
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
94 6. LE RÉGULATEUR LQG<br />
THÉORÈME 3.3. La solution du problème LQG en observation complète<br />
est donnée par le feedback linéaire u k = K k x k avec<br />
K k =−(R + B ′ P k+1 B) −1 B ′ P k+1 A , (3.8)<br />
où <strong>la</strong> matrice semi-définie positive P k est définie par<br />
P k = A ′ P k+1 A + Q − A ′ P k+1 B(R + B ′ P k+1 B) −1 B ′ P k+1 A , (3.9)<br />
P T = Q T .<br />
PREUVE. D’après <strong>la</strong> condition d’optimalité (3.5), il s’agit de trouver<br />
une solution au système d’équations<br />
x k+1 = Ax k + Bu k + w k , x 0 = ξ,<br />
p k = A ′ p k+1 + Qx k , p T = Q T x T ,<br />
u k =−R −1 B ′ ˆp k k+1 .<br />
Supposons par récurrence que ˆp l l = P l x l (où P l est une matrice semi définie<br />
positive) pour l = k + 1 montrons le pour k. La condition est vraie pour<br />
l = T puisque<br />
ˆp T T = Q T x T .<br />
Par ailleurs, w k étant indépendante de X k et de moyenne nulle<br />
ˆp k k+1 = P k+1E(x k+1 | X k ) = P k+1 E(Ax k + Bu k + w k | X k ),<br />
= P k+1 (Ax k + Bu k ).<br />
D’après (3.5) on a<br />
B ′ P k+1 (Ax k + Bu k ) + Ru k = 0 .<br />
d’oùl’ondéduit le feedback :<br />
u k =−(R + B ′ P k+1 B) −1 B ′ P k+1 Ax k .<br />
Enfin, les re<strong>la</strong>tions<br />
ˆp k k = A′ ˆp k k+1 + Qx k = A ′ P k+1 (Ax k + Bu k ) + Qx k ,<br />
donnent, en remp<strong>la</strong>çant u k par (3.8), <strong>la</strong> condition ˆp k<br />
k = P k x k ,où P k est<br />
donnée par (3.9).<br />
REMARQUE 3.4. Le feedback ne dépend pas de <strong>la</strong> covariance des bruits.<br />
Il est donc le même que dans le cas déterministe (w k = 0, ∀k) (“principe<br />
d’équivalence au certain”). Ce résultat est trés lié au cadre choisi ici. Il n’est<br />
pas vrai en général.<br />
EXERCICE 3.5. On peut montrer les résultats de ce paragraphe par <strong>la</strong> méthode<br />
de <strong>la</strong> programmation dynamique. Soit<br />
{ }<br />
∑ T −1<br />
V (x, k) = E (x i ′ Qx i + u ′ i Ru i) + x T ′ Q T x | x k = x<br />
i=k<br />
le coût optimal associé ausystème (2.1) partant de l’état x <strong>à</strong> l’instant k.