14.06.2014 Views

Introduction à la commande stochastique v.0.9 - Jean-Pierre ...

Introduction à la commande stochastique v.0.9 - Jean-Pierre ...

Introduction à la commande stochastique v.0.9 - Jean-Pierre ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

134 8. PROBLÈMES<br />

7. Calculez explicitement le projecteur spectral sur l’espace propre associé<br />

<strong>à</strong> <strong>la</strong> valeur propre 1 de <strong>la</strong> matrice M c.a.d. <strong>la</strong> matrice P <strong>stochastique</strong><br />

satisfaisant<br />

PM = MP = P = P 2<br />

dans le cas p = 1/2.<br />

8. En déduire l’espérance mathématique de gain du joueur dans le cas<br />

p = 1/2.<br />

5.1.2. MARTINGALES. Les joueurs ont toujours rêvé de trouver <strong>la</strong> bonne<br />

”martingale” leur permettant de gagner de l’argent grâce <strong>à</strong> une procédure<br />

d’arrêt astucieuse. On se propose d’optimiser <strong>la</strong> procédure d’arrêt du jeu<br />

(supposée restreinte ici <strong>à</strong> des temps de sortie d’ensemble d’états). On se<br />

p<strong>la</strong>ce dans le cas p = 1/2. A chaque instant on a donc maintenant <strong>la</strong> possibilité<br />

des’arrêter ou de continuer (décision qu’il faut optimiser). Si on<br />

s’arrête on conserve <strong>la</strong> fortune dont on dispose <strong>à</strong> cet instant.<br />

1. Formulez le problème <strong>commande</strong> optimale <strong>stochastique</strong> correspondant.<br />

2. Explicitez l’équation de <strong>la</strong> programmation dynamique correspondante.<br />

3. Calculez <strong>la</strong> solution de l’équation de <strong>la</strong> programmation dynamique<br />

correspondante.<br />

4. En déduire qu’il n’y a pas de procédure d’arrêt permettant<br />

d’améliorer les gains.<br />

5.1.3. SENSIBILITÉ AU BIAIS. On suppose que <strong>la</strong> pièce a un biais p =<br />

(1 + ɛ)/2. On est dans <strong>la</strong> situation du paragraphe 2 (on n’optimise pas<br />

l’instant d’arrêt).<br />

1. Donnez l’equation de Kolmogorov permettant de calculer<br />

l’espérance mathématique du gain.<br />

2. Calculez <strong>la</strong> solution de cette équation.<br />

3. Calculez <strong>la</strong> sensibilité autour de ɛ = 0del’espérance de gain c.a.d.<br />

<strong>la</strong> dérivée par rapport <strong>à</strong> ɛ de l’espérance de gain.<br />

5.1.4. BIAIS INCONNU. On considère <strong>la</strong> nouvelle version du jeu de pile<br />

ou face suivant. On prend une pièce dont on ne connait pas p puis on joue<br />

en optimisant l’arrêt.<br />

1. Donnez l’estimateur du maximum de vraisemb<strong>la</strong>nce de p.<br />

2. Donnez l’équation de <strong>la</strong> programmation dynamique du problème en<br />

observation incomplète correspondant en supposant que l’estimateur<br />

du maximum de vraisemb<strong>la</strong>nce est égal <strong>à</strong>l’espérance conditionnelle<br />

de p connaissant le passé des observations.<br />

3. Montrez que <strong>la</strong> politique optimale d’arrêt n’est plus triviale.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!