Introduction à la commande stochastique v.0.9 - Jean-Pierre ...
Introduction à la commande stochastique v.0.9 - Jean-Pierre ...
Introduction à la commande stochastique v.0.9 - Jean-Pierre ...
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
134 8. PROBLÈMES<br />
7. Calculez explicitement le projecteur spectral sur l’espace propre associé<br />
<strong>à</strong> <strong>la</strong> valeur propre 1 de <strong>la</strong> matrice M c.a.d. <strong>la</strong> matrice P <strong>stochastique</strong><br />
satisfaisant<br />
PM = MP = P = P 2<br />
dans le cas p = 1/2.<br />
8. En déduire l’espérance mathématique de gain du joueur dans le cas<br />
p = 1/2.<br />
5.1.2. MARTINGALES. Les joueurs ont toujours rêvé de trouver <strong>la</strong> bonne<br />
”martingale” leur permettant de gagner de l’argent grâce <strong>à</strong> une procédure<br />
d’arrêt astucieuse. On se propose d’optimiser <strong>la</strong> procédure d’arrêt du jeu<br />
(supposée restreinte ici <strong>à</strong> des temps de sortie d’ensemble d’états). On se<br />
p<strong>la</strong>ce dans le cas p = 1/2. A chaque instant on a donc maintenant <strong>la</strong> possibilité<br />
des’arrêter ou de continuer (décision qu’il faut optimiser). Si on<br />
s’arrête on conserve <strong>la</strong> fortune dont on dispose <strong>à</strong> cet instant.<br />
1. Formulez le problème <strong>commande</strong> optimale <strong>stochastique</strong> correspondant.<br />
2. Explicitez l’équation de <strong>la</strong> programmation dynamique correspondante.<br />
3. Calculez <strong>la</strong> solution de l’équation de <strong>la</strong> programmation dynamique<br />
correspondante.<br />
4. En déduire qu’il n’y a pas de procédure d’arrêt permettant<br />
d’améliorer les gains.<br />
5.1.3. SENSIBILITÉ AU BIAIS. On suppose que <strong>la</strong> pièce a un biais p =<br />
(1 + ɛ)/2. On est dans <strong>la</strong> situation du paragraphe 2 (on n’optimise pas<br />
l’instant d’arrêt).<br />
1. Donnez l’equation de Kolmogorov permettant de calculer<br />
l’espérance mathématique du gain.<br />
2. Calculez <strong>la</strong> solution de cette équation.<br />
3. Calculez <strong>la</strong> sensibilité autour de ɛ = 0del’espérance de gain c.a.d.<br />
<strong>la</strong> dérivée par rapport <strong>à</strong> ɛ de l’espérance de gain.<br />
5.1.4. BIAIS INCONNU. On considère <strong>la</strong> nouvelle version du jeu de pile<br />
ou face suivant. On prend une pièce dont on ne connait pas p puis on joue<br />
en optimisant l’arrêt.<br />
1. Donnez l’estimateur du maximum de vraisemb<strong>la</strong>nce de p.<br />
2. Donnez l’équation de <strong>la</strong> programmation dynamique du problème en<br />
observation incomplète correspondant en supposant que l’estimateur<br />
du maximum de vraisemb<strong>la</strong>nce est égal <strong>à</strong>l’espérance conditionnelle<br />
de p connaissant le passé des observations.<br />
3. Montrez que <strong>la</strong> politique optimale d’arrêt n’est plus triviale.