10.01.2015 Views

Méthodes de quantification optimale et Applications en Finance

Méthodes de quantification optimale et Applications en Finance

Méthodes de quantification optimale et Applications en Finance

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>Métho<strong>de</strong>s</strong> <strong>de</strong> <strong>quantification</strong> <strong>optimale</strong><br />

<strong>et</strong> <strong>Applications</strong> <strong>en</strong> <strong>Finance</strong><br />

Huyên PHAM<br />

Université Paris 7<br />

Laboratoire <strong>de</strong> Probabilités <strong>et</strong><br />

Modèles aléatoires, CNRS UMR 7599<br />

pham@math.jussieu.fr<br />

Version : 2006-2007.<br />

Master 2ème année, Paris 7, Statistique <strong>et</strong> Modèles Aléatoires <strong>en</strong> Economie <strong>et</strong><br />

<strong>Finance</strong>


Table <strong>de</strong>s matières<br />

Préface 3<br />

1 Quantification vectorielle d’une loi <strong>de</strong> probabilité 4<br />

1.1 Mosaique <strong>de</strong> Voronoi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4<br />

1.2 Quantification <strong>de</strong> Voronoi <strong>et</strong> distorsion <strong>optimale</strong> . . . . . . . . . . . . . 7<br />

1.3 Asymptotique <strong>de</strong> l’erreur <strong>de</strong> <strong>quantification</strong> . . . . . . . . . . . . . . . . . 12<br />

1.4 Algorithmes <strong>de</strong> recherche d’un quantifieur optimal <strong>de</strong> Voronoi . . . . . . 14<br />

1.4.1 Métho<strong>de</strong> du point fixe <strong>de</strong> Lloyd (<strong>en</strong> dim<strong>en</strong>sion 1) . . . . . . . . . 14<br />

1.4.2 Métho<strong>de</strong> du gradi<strong>en</strong>t déterministe (<strong>en</strong> dim<strong>en</strong>sion 1) . . . . . . . 15<br />

1.4.3 Métho<strong>de</strong> du gradi<strong>en</strong>t stochastique : algorithme <strong>de</strong> Kohon<strong>en</strong> . . . 18<br />

1.5 Application à l’intégration numérique <strong>et</strong> aux options europé<strong>en</strong>nes . . . . 23<br />

2 Quantification d’une chaine <strong>de</strong> Markov <strong>et</strong> applications 26<br />

2.1 Quantification marginale . . . . . . . . . . . . . . . . . . . . . . . . . . . 27<br />

2.1.1 Métho<strong>de</strong> . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27<br />

2.1.2 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30<br />

2.1.3 Quantification <strong>optimale</strong> . . . . . . . . . . . . . . . . . . . . . . . 31<br />

2.2 Application à l’arrêt optimal <strong>et</strong> aux options américaines . . . . . . . . . 31<br />

3 Filtrage <strong>et</strong> <strong>quantification</strong> 35<br />

3.1 Filtrage linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35<br />

3.1.1 Rappel sur les variables gaussi<strong>en</strong>nes . . . . . . . . . . . . . . . . 35<br />

3.1.2 Filtre <strong>de</strong> Kalman-Bucy . . . . . . . . . . . . . . . . . . . . . . . 37<br />

3.2 Filtrage non linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41<br />

3.2.1 Description du modèle . . . . . . . . . . . . . . . . . . . . . . . . 41<br />

3.2.2 Equation du filtre . . . . . . . . . . . . . . . . . . . . . . . . . . 43<br />

3.2.3 Approximation par <strong>quantification</strong> . . . . . . . . . . . . . . . . . . 46<br />

3.3 <strong>Applications</strong> <strong>et</strong> exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . 53<br />

3.3.1 Application : Valorisation d’options europé<strong>en</strong>nes <strong>en</strong> information<br />

partielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53<br />

1


TABLE DES MATIÈRES 2<br />

3.3.2 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53<br />

Bibliographie 55


Préface<br />

Le terme “<strong>quantification</strong>” a ses origines <strong>en</strong> théorie du signal <strong>et</strong> <strong>de</strong> l’information <strong>et</strong><br />

était utilisé par les ingénieurs <strong>de</strong>puis les années 50. Dans ce contexte, la <strong>quantification</strong><br />

signifie la discrétisation d’un signal continu par un nombre fini N <strong>de</strong> co<strong>de</strong>s (ou quantifieurs).<br />

Pour perm<strong>et</strong>tre une transmission effici<strong>en</strong>te du signal, il est donc primordial<br />

d’optimiser la location géométrique <strong>de</strong> ces co<strong>de</strong>s <strong>et</strong> d’évaluer l’erreur résultante. C’est<br />

le problème mathématique dit <strong>de</strong> la <strong>quantification</strong> <strong>optimale</strong> : trouver la meilleure approximation<br />

d’une loi <strong>de</strong> probabilité continue par une loi <strong>de</strong> probabilité discrète avec<br />

un nombre donné N <strong>de</strong> points supportant c<strong>et</strong>te loi. D’un point <strong>de</strong> vue numérique, la<br />

<strong>quantification</strong> <strong>optimale</strong> est longtemps restée limitée au cas <strong>de</strong> signals unidim<strong>en</strong>sionnels<br />

car les procédures d’optimisation, ess<strong>en</strong>tiellem<strong>en</strong>t déterministes, <strong>de</strong>v<strong>en</strong>ai<strong>en</strong>t trop lourds<br />

<strong>en</strong> dim<strong>en</strong>sion supérieure. Grâce à l’évolution <strong>et</strong> la puissance <strong>de</strong>s ordinateurs perm<strong>et</strong>tant<br />

une réduction drastique <strong>de</strong>s temps <strong>de</strong> calcul par les métho<strong>de</strong>s <strong>de</strong> Monte-Carlo,<br />

les métho<strong>de</strong>s <strong>de</strong> <strong>quantification</strong> <strong>optimale</strong> ont été récemm<strong>en</strong>t réétudiés dans le domaine<br />

<strong>de</strong>s probabilités numériques <strong>et</strong> plus particulièrem<strong>en</strong>t dans les applications <strong>en</strong> finance<br />

où intervi<strong>en</strong>t naturellem<strong>en</strong>t <strong>de</strong>s questions <strong>de</strong> gran<strong>de</strong> dim<strong>en</strong>sion.<br />

Ce cours est une introduction aux métho<strong>de</strong>s <strong>de</strong> <strong>quantification</strong> <strong>optimale</strong> avec <strong>en</strong> vue<br />

les applications <strong>en</strong> finance. On comm<strong>en</strong>ce par exposer les fon<strong>de</strong>m<strong>en</strong>ts mathématiques <strong>de</strong><br />

la <strong>quantification</strong> quadratique. On développera <strong>en</strong>suite les algorithmes <strong>de</strong> recherche d’un<br />

quantifieur optimal <strong>et</strong> on donnera plusieurs applications <strong>en</strong> finance : calcul d’options<br />

europé<strong>en</strong>nes <strong>et</strong> d’options américaines. On étudiera aussi le filtrage <strong>et</strong> les métho<strong>de</strong>s<br />

d’approximation par <strong>quantification</strong>, avec comme applications les modèles à volatilité<br />

stochastique.<br />

3


Chapitre 1<br />

Quantification vectorielle d’une<br />

loi <strong>de</strong> probabilité<br />

Dans la suite, |.| est la norme euclidi<strong>en</strong>ne sur R d <strong>et</strong> on note (.|.) ou parfois . le produit<br />

scalaire associé. L’intérieur d’une partie A <strong>de</strong> R d est notée int(A) <strong>et</strong> son adhér<strong>en</strong>ce<br />

Adh(A). On note ♯A le cardinal d’un <strong>en</strong>semble A <strong>de</strong> R d <strong>et</strong> 1 A la fonction indicatrice <strong>de</strong><br />

A. Etant donné un espace <strong>de</strong> probabilité (Ω, A, P), on note L 2 (Ω, P; R d ) l’<strong>en</strong>semble <strong>de</strong>s<br />

variables aléatoires X à valeurs dans R d telles que E|X| 2 < +∞ <strong>et</strong> on note ‖X‖ 2 =<br />

(<br />

E|X|<br />

2 ) 1 2<br />

. On notera aussi P X la loi <strong>de</strong> probabilité <strong>de</strong> X <strong>et</strong> λ d la mesure <strong>de</strong> Lebesgue <strong>de</strong><br />

R d . On note Supp(µ) le support topologique d’une mesure µ sur R d <strong>et</strong> Conv(Supp(µ))<br />

son <strong>en</strong>veloppe convexe fermée.<br />

1.1 Mosaique <strong>de</strong> Voronoi<br />

Soit x = (x 1 , . . . , x N ) un N-upl<strong>et</strong> <strong>de</strong> points x i dans R d qu’on i<strong>de</strong>ntifiera souv<strong>en</strong>t<br />

avec la grille (partie finie) {x 1 , . . . , x N } <strong>de</strong> N points dans R d . La famille d’<strong>en</strong>sembles<br />

<strong>de</strong> R d définis par :<br />

¯C i (x) =<br />

{<br />

u ∈ R d }<br />

: |u − x i | = min j|<br />

j=1,...,N<br />

, i = 1, . . . , N,<br />

est appelée mosaique (ou diagramme) <strong>de</strong> Voronoi <strong>de</strong> x. Les ¯C i (x), i = 1, . . . , N, sont les<br />

cellules fermées <strong>de</strong> Voronoi <strong>en</strong>g<strong>en</strong>drées par x. Ainsi, ¯Ci (x) consiste <strong>en</strong> tous les points<br />

u <strong>de</strong> R d tels que x i est le plus proche <strong>de</strong> u parmi les points x j <strong>de</strong> x ; voir figure 1.1.<br />

Il est clair qu’une mosaique <strong>de</strong> Voronoi couvre R d , i.e.<br />

∪ N i=1 ¯C i (x) = R d ,<br />

4


QUANTIFICATION VECTORIELLE 5<br />

Fig. 1.1 – Une mosaique <strong>de</strong> Voronoi dans R 2 avec N = 500 points..<br />

<strong>et</strong> que les cellules <strong>de</strong> Voronoi ¯C i (x) sont fermées dans R d . On introduit aussi les cellules<br />

ouvertes <strong>de</strong> Voronoi dans R d :<br />

Ci o (x) =<br />

{<br />

u ∈ R d<br />

}<br />

: |u − x i | < min |u − x j |<br />

x j ≠x i<br />

, i = 1, . . . , N,<br />

qui sont clairem<strong>en</strong>t ouvertes dans R d <strong>et</strong> disjointes <strong>de</strong>ux à <strong>de</strong>ux mais ne couvr<strong>en</strong>t pas<br />

R d . On appelle partition <strong>de</strong> Voronoi <strong>de</strong> x toute partition C i (x), i = 1, . . . , N, <strong>de</strong> R d ,<br />

i.e. ∪ N i=1C i (x) = R d <strong>et</strong> C i (x) ∩ C j (x) = ∅ si x i ≠ x j , telle que :<br />

Notons qu’on a alors aussi<br />

C i (x) ⊂ ¯C i (x), i = 1, . . . , N. (1.1)<br />

C o i (x) ⊂ C i (x), i = 1, . . . , N. (1.2)<br />

Nous montrons d’abord quelques propriétés intuitives sur les cellules <strong>de</strong> Voronoi.<br />

Proposition 1.1.1 Les cellules <strong>de</strong> Voronoi vérifi<strong>en</strong>t<br />

(a) ¯Ci (x) <strong>et</strong> Ci o(x) sont convexes dans Rd .<br />

(b) int( ¯C i (x)) = Ci o(x), Adh(Co i (x)) = ¯C i (x), ∂C i (x) = ∂ ¯C i (x) = ∂Ci o(x).<br />

(c) λ d (∂C i (x)) = 0.<br />

Preuve. (a) On définit le <strong>de</strong>mi-espace médian <strong>en</strong>tre x i <strong>et</strong> x j par :<br />

H ij (x) =<br />

{<br />

u ∈ R d }<br />

: |u − x i | ≤ |u − x j | ,<br />

<strong>et</strong> l’hyperplan séparateur <strong>en</strong>tre x i <strong>et</strong> x j :<br />

S ij (x) =<br />

{<br />

u ∈ R d }<br />

: |u − x i | = |u − x j | .


QUANTIFICATION VECTORIELLE 6<br />

On a donc par définition<br />

¯C i (x) = ∩ N j=1H ij (x). (1.3)<br />

En notant que par définition <strong>de</strong> la norme euclidi<strong>en</strong>ne, on a<br />

{ (<br />

H ij (x) = u ∈ R d : x i − x j | u − 1 )<br />

2 (x i + x j )<br />

}<br />

≥ 0 ,<br />

il est clair que H ij (x) est convexe <strong>et</strong> donc aussi ¯Ci (x) d’après (1.3). De même, <strong>en</strong><br />

écrivant que<br />

}<br />

Ci o (x) = ∩ xj ≠x i<br />

{u ∈ R d : |u − x i | < |u − x j |<br />

(<br />

= ∩ xj ≠x i<br />

{u ∈ R d : x i − x j | u − 1 ) }<br />

2 (x i + x j ) > 0 ,<br />

on a la convexité <strong>de</strong> Ci o(x).<br />

(b) Vérifions que pour tout x j ≠ x i , λ ∈ ]0, 1[ <strong>et</strong> u ∈ H ij (x), on a<br />

λu + (1 − λ)x i ∈<br />

{<br />

v ∈ R d }<br />

: |v − x i | < |v − x j | . (1.4)<br />

En eff<strong>et</strong>, posons v = λu + (1 − λ)x i , i.e. v − x i = λ(u − x i ). v est dans H ij (x) par<br />

convexité <strong>de</strong> c<strong>et</strong> <strong>en</strong>semble. Supposons alors par l’absur<strong>de</strong> que |v − x i | = |v − x j |. Alors,<br />

<strong>en</strong> utilisant le fait que pour tous vecteurs x ≠ y avec |x| = |y|, on a |(1 − λ)x + λy| <<br />

|x|, on <strong>en</strong> déduit :<br />

|u − x j | =<br />

1<br />

∣λ (v − x i) − (x j − x i )<br />

∣ = 1 λ |v − x i − λ(x j − x i )|<br />

qui est la contradiction voulue.<br />

= 1 λ |(1 − λ)(v − x i) + λ(v − x j )|<br />

< 1 λ |v − x i| = |u − x i | ≤ |u − x j |,<br />

⋆ D’après (1.3), on a int( ¯C i (x)) = ∩ N j=1int(H ij (x)) <strong>et</strong> donc pour obt<strong>en</strong>ir int( ¯C i (x)) =<br />

Ci o(x), on doit montrer que pour tout x j ≠ x i<br />

int(H ij (x)) ⊂<br />

{<br />

u ∈ R d }<br />

: |u − x i | < |u − x j | .<br />

Soit u ∈ int(H ij (x)) <strong>et</strong> ε > 0 tel que B(u, ε) ⊂ H ij (x). Si u = x i , on a trivialem<strong>en</strong>t<br />

|u − x i | < |u − x j |. Sinon, on pose t = 1 + ε/|u − x i | <strong>et</strong> w = x i + t(u − x i ). Alors on a :<br />

|w − u| = |(t − 1)u − (t − 1)x i | = ε,<br />

ce qui implique w ∈ H ij (x). Comme u = 1 t w + (1 − 1 t )x i avec 1/t < 1, on a d’après<br />

(1.4) |u − x i | < |u − x j |.


QUANTIFICATION VECTORIELLE 7<br />

⋆ Soit u ∈ ¯C i (x). Alors d’après (1.3), u ∈ H ij (x) pour tout j. Considérons la suite<br />

u n = (1 − 1/n)u + 1/nx i , n ≥ 1. D’après (1.4), on a pour tout x j ≠ x i , |u n − x i | <<br />

|u n − x j |, i.e. u n ∈ C o i (x). Comme la suite (u n) n converge vers u, ceci prouve que u ∈<br />

Adh(C o i (x)) <strong>et</strong> donc ¯C i (x) = Adh(C o i (x)).<br />

⋆ La <strong>de</strong>rnière relation <strong>de</strong> l’assertion (a) découle <strong>de</strong> la définition <strong>de</strong> la frontière d’un<br />

<strong>en</strong>semble A <strong>de</strong> R d : ∂A = Adh(A)∩(int(A)) c <strong>et</strong> <strong>de</strong>s relations précé<strong>de</strong>ntes :<br />

∂C o i (x) = Adh(C o i (x)) ∩ (C o i (x)) c = ¯C i (x) ∩ int( ¯C i (x)) = ∂ ¯C i (x).<br />

(c) Par définition <strong>de</strong> la frontière d’un <strong>en</strong>semble <strong>et</strong> d’après (b), on a :<br />

∂C i (x) = ¯C i (x) ∩ ( int( ¯C i (x)) ) c<br />

= ¯C i (x) ∩ (C o i (x)) c<br />

= ∪ xj ≠x i<br />

S ij (x) ∩ ¯C i (x)<br />

Puisque S ij (x) est un hyperplan <strong>de</strong> R d , on a λ d (S ij (x)) = 0 <strong>et</strong> l’assertion (c) est alors<br />

une conséqu<strong>en</strong>ce <strong>de</strong> la relation ci-<strong>de</strong>ssus.<br />

✷<br />

1.2 Quantification <strong>de</strong> Voronoi <strong>et</strong> distorsion <strong>optimale</strong><br />

Soit X ∈ L 2 (Ω, P; R d ) <strong>de</strong> loi <strong>de</strong> probabilité P X , x = (x 1 , . . . , x N ) un N-upl<strong>et</strong> dans<br />

R d <strong>et</strong> C i (x), i = 1, . . . , N, une partition <strong>de</strong> Voronoi <strong>de</strong> x. On appelle quantifieur <strong>de</strong><br />

Voronoi <strong>de</strong> X, la variable aléatoire ˆX x (notée simplem<strong>en</strong>t ˆX s’il n’y a pas d’ambiguité)<br />

à valeurs dans la grille x, définie par :<br />

ˆX x = Proj x (X) :=<br />

N∑<br />

x i 1 Ci (x)(X)<br />

<strong>et</strong> donc <strong>de</strong> loi <strong>de</strong> probabilité discrète P ˆX<br />

caractérisée par :<br />

p i := P ˆX(x i ) = P( ˆX = x i ) = P(X ∈ C i (x)) = P X (C i (x)), i = 1, . . . , N.<br />

Autrem<strong>en</strong>t dit, ˆXx est la projection selon le plus proche voisin <strong>de</strong> la variable aléatoire<br />

X sur la grille x. Les p i sont appelés aussi masses <strong>de</strong>s cellules <strong>de</strong> Voronoi. L’erreur<br />

résultante au carré <strong>de</strong> <strong>quantification</strong> quadratique est appelée distorsion (quadratique)<br />

<strong>et</strong> s’écrit donc par définition d’une partition <strong>de</strong> Voronoi :<br />

i=1<br />

DN X (x) := E|X − ˆX x | 2<br />

N∑<br />

= E [ |X − x i | 2 1 Ci (x)(X) ] [<br />

]<br />

= E min |X − x i| 2<br />

i=1,...,N<br />

i=1<br />

∫<br />

= d N (x, u)P X (du) (1.5)<br />

R d


QUANTIFICATION VECTORIELLE 8<br />

où d N : (R d ) N × R d → R + est la distorsion locale définie par :<br />

d N (x, u) = min<br />

i=1,...,N |u − x i| 2 =<br />

N∑<br />

|u − x i | 2 1 Ci (x)(u) (1.6)<br />

La distorsion ne dép<strong>en</strong>d que du N-upl<strong>et</strong> x <strong>et</strong> <strong>de</strong> la loi <strong>de</strong> probabilité P X <strong>de</strong> X.<br />

Le problème <strong>de</strong> la <strong>quantification</strong> <strong>optimale</strong>, à N fixé, consiste à minimiser sur les<br />

N-upl<strong>et</strong>s x la distorsion. On dira que ˆX = ˆX x∗ est un N-quantifieur optimal <strong>de</strong> X si :<br />

i=1<br />

E|X − ˆX| 2 = inf<br />

x∈(R d ) N DX N (x) =: D X N .<br />

En fait, comme le prouve le résultat suivant, la N-<strong>quantification</strong> <strong>optimale</strong> fournit la<br />

meilleure approximation quadratique d’une variable aléatoire (loi <strong>de</strong> probabilité) par<br />

une variable aléatoire discrète (loi <strong>de</strong> probabilité discrète) <strong>de</strong> support à au plus N<br />

points.<br />

Proposition 1.2.2 Pour tout x = (x 1 , . . . , x N ) ∈ (R d ) N , on a :<br />

DN X (x) = inf<br />

{<br />

E|X − Y | 2 }<br />

: Y : Ω → R d mesurable, Y (Ω) ⊂ {x 1 , . . . , x N } .(1.7)<br />

<strong>et</strong> donc<br />

D X N = inf<br />

{<br />

E|X − Y | 2<br />

}<br />

: Y : Ω → R d mesurable, ♯Y (Ω) ≤ N .<br />

Preuve. Soit Y une variable aléatoire quelconque discrète dans R d <strong>de</strong> support Y (Ω)<br />

⊂ {x 1 , . . . , x N }. On a alors par définition <strong>de</strong> la <strong>quantification</strong> <strong>de</strong> Voronoi :<br />

|X − ˆX x | 2 = min<br />

i=1,...,N |X − x i| 2 ≤ |X − Y | 2 , p.s.<br />

d’où D X N (x) ≤ E|X − Y |2 <strong>et</strong> donc l’inégalité ≤ dans (1.7).<br />

Réciproquem<strong>en</strong>t, considérons Y = ˆX x un quantifieur <strong>de</strong> Voronoi <strong>de</strong> X qui est bi<strong>en</strong><br />

une variable aléatoire discrète <strong>de</strong> support inclus dans {x 1 , . . . , x N }. On a alors :<br />

DN X (x) = E[ min |X − x i| 2 ] = E|X − Y | 2<br />

i=1,...,N<br />

{<br />

}<br />

≥ inf E|X − Y | 2 : Y : Ω → R d mesurable, Y (Ω) ⊂ {x 1 , . . . , x N } .<br />

✷<br />

L’exist<strong>en</strong>ce <strong>et</strong> la caractérisation d’un quantifieur optimal requiert l’étu<strong>de</strong> <strong>de</strong> la<br />

distorsion D X N <strong>en</strong> fonction <strong>de</strong> x ∈ (Rd ) N .<br />

Proposition 1.2.3 La fonction x ↦→ DN<br />

X est continue sur (Rd ) N <strong>et</strong> atteint son minimum.<br />

De plus, si ♯supp(P X ) > N, alors ce minimum est atteint <strong>en</strong> un N-upl<strong>et</strong><br />

(x ∗ 1 , . . . , x∗ N ) tel que x∗ i ∈ Conv(Supp(P X)) <strong>et</strong> x ∗ i ≠ x∗ j pour i ≠ j, <strong>et</strong> on a DX k+1 < DX k<br />

pour 1 ≤ k ≤ N.


QUANTIFICATION VECTORIELLE 9<br />

Preuve. La continuité <strong>de</strong> la distorsion DN X est une conséqu<strong>en</strong>ce immédiate <strong>de</strong> la continuité<br />

<strong>de</strong> x = (x 1 , . . . , x n ) ↦→ d N (x, u) = min i=1,...,N |u − x i | 2 pour tout u ∈ R d , <strong>et</strong> du<br />

théorème <strong>de</strong> converg<strong>en</strong>ce dominée.<br />

Il est clair que si ♯supp(P X ) ≤ N avec donc supp(P X ) = {ˆx 1 , . . . , ˆx k } où k ≤ N,<br />

DN X atteint son minimum égal à zéro <strong>en</strong> tout N-upl<strong>et</strong> x = (x 1, . . . , x N ) avec x i = ˆx i<br />

pour i ≤ k.<br />

On suppose donc ♯supp(P X ) > N <strong>et</strong> on montre le résultat par récurr<strong>en</strong>ce pour Dk<br />

X<br />

avec k ≤ N :<br />

Si k = 1, comme la fonction x ∈ R d ↦→ D1 X(x) = E|X − x|2 est continue <strong>et</strong> t<strong>en</strong>d<br />

vers l’infini quand x t<strong>en</strong>d vers l’infini, elle atteint son minimum.<br />

Soit 1 ≤ k ≤ N <strong>et</strong> supposons qu’il existe x ∗ = (x ∗ 1 , . . . , x∗ k ) ∈ (Rd ) k atteignant<br />

le minimum <strong>de</strong> Dk X. Fixons y ∈ supp(P X)\{x ∗ 1 , . . . , x∗ k<br />

} ≠ ∅ <strong>et</strong> considérons le k + 1-<br />

upl<strong>et</strong> x (k+1) = (x ∗ 1 , . . . , x∗ k<br />

, y). Notons alors que la k + 1 cellule ouverte <strong>de</strong> Voronoi <strong>de</strong><br />

x (k+1) est alors <strong>de</strong> mesure non nulle<br />

∣<br />

pour P X , i.e. P X (Ck+1 o (x(k+1) )) ≠ 0., <strong>et</strong> qu’on a<br />

pour tout u dans R d ∣∣u (k+1)<br />

, min i=1,...,k+1 − x ∣ ≤ min i=1,...,k |u − x ∗ i | avec une inégalité<br />

stricte pour u ∈ C o k+1 (x(k+1) ). On <strong>en</strong> déduit que<br />

[<br />

Dk+1 X (x(k+1) ) = E<br />

[<br />

< E<br />

i<br />

min<br />

i=1,...,k+1<br />

min |X −<br />

i=1,...,k x∗ i |<br />

]<br />

∣<br />

∣X − x (k+1)<br />

i ∣<br />

]<br />

= D X k ,<br />

ce qui prouve D X k+1 < DX k . Considérons l’<strong>en</strong>semble <strong>de</strong> (Rd ) k+1 : K k+1 = {Dk+1 X ≤<br />

Dk+1 X (x(k+1) )}. K k+1 est fermé par continuité <strong>de</strong> Dk+1 X . Il est aussi borné car d’après<br />

le lemme <strong>de</strong> Fatou :<br />

[<br />

]<br />

lim inf<br />

x=(x 1 ,...,x k+1 )→+∞ DX k+1 (x) ≥ E lim inf min |X − x i| 2<br />

x=(x 1 ,...,x k+1 )→+∞ i=1,...,k+1<br />

≥ D X k > D X k+1 (x(k+1) ).<br />

Ainsi, K k+1 est un compact <strong>de</strong> (R d ) k+1 dans lequel Dk+1 X atteint son minimum qui<br />

est alors évi<strong>de</strong>mm<strong>en</strong>t aussi un minimum absolu sur (R d ) . De plus, comme D X k+1 <<br />

D X k , un minimum <strong>de</strong> DX k+1<br />

a nécessairem<strong>en</strong>t toutes ses k + 1 composantes distinctes.<br />

Finalem<strong>en</strong>t, <strong>en</strong> notant par Π la projection sur le convexe fermé Conv(Supp(P X )), on<br />

a pour tout x ∈ (R d ) N <strong>et</strong> u ∈ Supp(P X ), |Π(x i ) − u| = |Π(x i ) − Π(u)| ≤ |x i − u| car Π<br />

est 1-Lipschitzi<strong>en</strong>ne <strong>et</strong> donc DN X((Π(x i) 1≤i≤N ) ≤ DN X (x). Ceci prouve qu’un minimum<br />

<strong>de</strong> DN X a ses composantes dans Conv(Supp(P X)).<br />

✷<br />

On a le résultat suivant <strong>de</strong> différ<strong>en</strong>tiabilité <strong>de</strong> la fonction <strong>de</strong> distorsion.<br />

Proposition 1.2.4 (a) La fonction x ↦→ DN X est différ<strong>en</strong>tiable <strong>en</strong> tout point x =<br />

(x 1 , . . . , x N ) ∈ (R d ) N tel que x i ≠ x j pour i ≠ j <strong>et</strong> P X (∪ N i=1 ∂C i(x)) = 0. De plus,


QUANTIFICATION VECTORIELLE 10<br />

son gradi<strong>en</strong>t est donné par :<br />

∇D X N (x) = 2<br />

( ∫<br />

(x i − u)P X (du)<br />

C i (x)<br />

)<br />

1≤i≤N<br />

. (1.8)<br />

(b) En particulier, si P X est absolum<strong>en</strong>t continue par rapport à la mesure <strong>de</strong> Lebesgue,<br />

alors D X N est différ<strong>en</strong>tiable <strong>en</strong> tout x = (x 1, . . . , x N ) ∈ (R d ) N tel que x i ≠ x j pour i ≠<br />

j <strong>et</strong> on a<br />

arg min<br />

(R d ) N DX N ⊂ { ∇D X N = 0 } .<br />

Preuve. Par définition (1.6) <strong>de</strong> la distorsion locale, pour tout x = (x 1 , . . . , x N ) ∈<br />

(R d ) N tel que x i ≠ x j pour i ≠ j <strong>et</strong> u /∈ ∪ N i=1 ∂C i(x), on a :<br />

∂d N<br />

∂x (x, u) = 2 ( (x i − u)1 Ci (x)(u) ) 1≤i≤N ,<br />

<strong>et</strong> donc ∂d N<br />

∂x (x, u) existe P X(du) p.s. sous la condition P X (∪ N i=1 ∂C i(x)) = 0. De plus,<br />

∣<br />

pour tout x dans un compact K <strong>de</strong> (R d ) N avec x i ≠ x j pour i ≠ j, on a ∣ ∂d N ∣∣<br />

∂x (x, u) ≤<br />

2(|u|+c K ) où c K est une constante dép<strong>en</strong>dant <strong>de</strong> K. La fonction u → 2(|u|+c K ) étant<br />

P X intégrable, on obti<strong>en</strong>t (1.8) d’après (1.5) <strong>et</strong> le théorème <strong>de</strong> Lebesgue. Finalem<strong>en</strong>t,<br />

(b) découle <strong>de</strong> l’assertion (c) <strong>de</strong> la proposition 1.1.1 <strong>et</strong> <strong>de</strong> la proposition 1.2.3. ✷<br />

On dit qu’un quantifieur ˆX = ˆX x est stationnaire si le N-upl<strong>et</strong> x <strong>de</strong> points associés<br />

satisfait<br />

∇D X N (x) = 0.<br />

Un quantifieur optimal est donc stationnaire (la réciproque n’étant pas toujours vraie).<br />

On a la propriété utile suivante sur les quantifieurs stationnaires.<br />

Proposition 1.2.5 Si ˆX est un quantifieur stationnaire <strong>de</strong> X alors on a :<br />

E[X| ˆX] = ˆX. (1.9)<br />

Preuve. D’après (1.8), le N-upl<strong>et</strong> x = (x 1 , . . . , x N ) associé à un quantifieur stationnaire<br />

ˆX = ˆX x satisfait :<br />

E [ (X − x i )1 Ci (x)(X) ] = 0, i = 1, . . . , N. (1.10)<br />

Pour toute fonction ϕ Boréli<strong>en</strong>ne, bornée sur R d , on a alors :<br />

E[ϕ( ˆX)X] =<br />

=<br />

N∑<br />

E[ϕ(x i )X1 Ci (x)(X)]<br />

i=1<br />

N∑<br />

E[ϕ(x i )x i 1 Ci (x)(X)] = E[ϕ( ˆX) ˆX],<br />

i=1


QUANTIFICATION VECTORIELLE 11<br />

ce qui prouve le résultat voulu.<br />

✷<br />

Examples<br />

1. Soit N = 1. Alors D1 X(x) = E|X − x|2 atteint son minimum <strong>en</strong> x ∗ = E(X) <strong>et</strong> on a<br />

D X 1 = V ar(X).<br />

2. Soit N = 2 <strong>et</strong> X <strong>de</strong> loi <strong>de</strong> probabilité discrète P X = 1 3 (δ 0 + δ 1<br />

2<br />

0 ≤ x 1 < x 2 ≤ 1, on a :<br />

On obti<strong>en</strong>t donc<br />

D X 2 (x 1 , x 2 ) = 1 3<br />

=<br />

⎧<br />

⎨<br />

⎩<br />

[<br />

x 2 1 + min<br />

i=1,2<br />

[<br />

1<br />

3<br />

arg min<br />

x∈R 2 DX 2 = {∇D X 2 = 0} =<br />

(<br />

x i − 1 ) ]<br />

2<br />

+ (x 2 − 1) 2<br />

2<br />

2 ( ]<br />

x 1 − 1 2<br />

4)<br />

+ (x2 − 1) 2 + 1 8<br />

si x 1 + x 2 ≥ 1<br />

[<br />

1<br />

3<br />

x 2 1 + 2 ( ]<br />

x 2 − 3 2<br />

4)<br />

+<br />

1<br />

8<br />

si x 1 + x 2 < 1<br />

{( ) ( 1<br />

4 , 1 ; 0, 3 )}<br />

4<br />

+ δ 1 ). Pour tous<br />

<strong>et</strong> D X 2 = 1 24 .<br />

Pour x ∗,1 = (1/4, 1), on a C 1/4 (x ∗,1 ) = ] − ∞, 5/8[ <strong>et</strong> C 1 (x ∗,1 ) = [5/8, ∞[, d’où p ∗,1<br />

1/4<br />

= 2/3 <strong>et</strong> p ∗,1<br />

1 = 1/3. Pour x ∗,2 = (0, 3/4), on a C 0 (x ∗,2 ) = ] − ∞, 3/8[ <strong>et</strong> C 3/4 (x ∗,1 ) =<br />

[3/8, ∞[, d’où p ∗,2<br />

0 = 1/3 <strong>et</strong> p ∗,2<br />

3/4 = 2/3.<br />

3. Soit X <strong>de</strong> loi uniforme sur [0, 1] : U([0, 1]). La recherche du minimum <strong>de</strong> la distorsion<br />

DN X peut se restreindre aux N-upl<strong>et</strong>s x = (x 1, . . . , x N ) avec 0 ≤ x 1 < x 2 < . . . < x N ≤<br />

1. Pour <strong>de</strong> tels N-upl<strong>et</strong>s, les cellules (fermées) <strong>de</strong> Voronoi sont :<br />

]<br />

[<br />

xi−1 + x i<br />

]<br />

¯C 1 (x) = −∞, x 1 + x 2<br />

, ¯Ci (x) =<br />

2<br />

[ [<br />

xN−1 + x N<br />

¯C N (x) =<br />

, +∞ .<br />

2<br />

2<br />

, x i + x i+1<br />

2<br />

On calcule explicitem<strong>en</strong>t le gradi<strong>en</strong>t <strong>de</strong> la distorsion :<br />

∂DN<br />

X ∫<br />

(x) = 2 (x 1 − u)du = 1 ∂x 1 ¯C 1 (x)∩[0,1]<br />

4 (3x 1 − x 2 )(x 1 + x 2 ),<br />

∂D X N<br />

∂x i<br />

(x) = 2<br />

∂D X N<br />

∂x i<br />

(x) = 2<br />

∫<br />

∫<br />

]<br />

, 2 ≤ i ≤ N − 1,<br />

(x i − u)du = 1<br />

¯C i (x)<br />

4 (2x i − (x i−1 + x i+1 ))(x i+1 − x i−1 ), 2 ≤ i ≤ N − 1,<br />

(x N − u)du = 1<br />

¯C N (x)∩[0,1]<br />

4 (3x N − x N−1 − 2)(2 − (x N−1 + x N )).<br />

On vérifie alors aisém<strong>en</strong>t qu’il y a un unique x ∗ = (x ∗ 1 , . . . , x∗ N ) tel que ∇DX N (x∗ ) = 0 :<br />

il est donné par<br />

x ∗ i = 2i − 1<br />

2N , 1 ≤ i ≤ N.


QUANTIFICATION VECTORIELLE 12<br />

C<strong>et</strong> unique quantifieur stationnaire est donc aussi l’unique minimum <strong>de</strong> DN X . Les cellules<br />

fermées <strong>de</strong> Voronoi associées sont ¯C 1 (x ∗ ) = ]−∞, 1/N], ¯C i (x ∗ ) = [(i−1)/N, i/N],<br />

i = 2, . . . , N − 1, <strong>et</strong> ¯C N (x ∗ ) = [1 − 1/N, ∞[. Par symétrie <strong>et</strong> translation, on calcule<br />

aisém<strong>en</strong>t la distorsion minimale :<br />

D N X = D X N (x ∗ ) =<br />

N∑<br />

∫<br />

i=1<br />

∫<br />

= N<br />

C i (x ∗ )<br />

[−1/2N,1/2N]<br />

|x ∗ i − u| 2 1 [0,1] (u)du<br />

|u| 2 du = 1 1<br />

12 N 2 ,<br />

ainsi que les masses <strong>de</strong>s cellules <strong>de</strong> Voronoi associées p ∗ i = P X [C i (x ∗ )] = 1/N, i =<br />

1, . . . , N.<br />

4. Soit X <strong>de</strong> loi uniforme sur le cube [0, 1] d : U([0, 1] d ). Considérons la mosaique <strong>de</strong><br />

Voronoi <strong>de</strong> [0, 1] d construite avec les N = k d translations C 1 , . . . , C N du cube [0, 1/k] d .<br />

Notons x i , i = 1, . . . , N, les points c<strong>en</strong>traux <strong>de</strong> ces cubes, voir figure. La distorsion<br />

associée est<br />

D X N (x) =<br />

N∑<br />

∫<br />

i=1<br />

C i<br />

|x i − u| 2 du.<br />

Par translation <strong>et</strong> hométhie <strong>de</strong>s cubes C i , on a pour tout i = 1, . . . , N :<br />

∫<br />

∫<br />

|x i − u| 2 du =<br />

|u| 2 |u|<br />

du =<br />

C i [−<br />

∫[− 2<br />

du.<br />

1<br />

2k , 1<br />

2k ]d 1 2 , 1 k2+d 2 ]d<br />

On obti<strong>en</strong>t donc<br />

D X N (x) = 1<br />

N 2 d<br />

∫<br />

[− 1 2 , 1 2 ]d |u| 2 du = 1<br />

N 2 d<br />

d<br />

12 .<br />

1.3 Asymptotique <strong>de</strong> l’erreur <strong>de</strong> <strong>quantification</strong><br />

On s’intéresse dans ce paragraphe au comportem<strong>en</strong>t asymptotique <strong>de</strong> la distorsion<br />

minimale lorsque le nombre <strong>de</strong> points N t<strong>en</strong>d vers l’infini.<br />

Proposition 1.3.6<br />

lim<br />

N→+∞ DX N = 0.<br />

Preuve. Soit (x n ) n∈N ∗ une suite <strong>de</strong>nse dans R d <strong>et</strong> considérons le N-upl<strong>et</strong> x (N) =<br />

(x 1 , . . . , x N ). Alors la suite <strong>de</strong> variables aléatoires positives f N = min i=1,...,N |X − x i | 2<br />

est décroissante <strong>et</strong> converge p.s. vers 0. On <strong>en</strong> déduit par le théorème <strong>de</strong> converg<strong>en</strong>ce


QUANTIFICATION VECTORIELLE 13<br />

monotone : DN X(x(N) ) = E[f N ] −→ 0 quand N t<strong>en</strong>d vers +∞. Puisque 0 ≤ D X N ≤<br />

DN X(x(N) ), on a le résultat voulu.<br />

✷<br />

La recherche <strong>de</strong> la vitesse <strong>de</strong> converg<strong>en</strong>ce <strong>de</strong> la distorsion minimale est un problème<br />

beaucoup plus difficile. Elle a été résolue <strong>en</strong> plusieurs étapes par Zador [21], Buckley <strong>et</strong><br />

Wise [4] <strong>et</strong> finalem<strong>en</strong>t Graf <strong>et</strong> Lushgy [10]. Le premier résultat concerne la distorsion<br />

<strong>de</strong> la loi uniforme sur [0, 1] d .<br />

Théorème 1.3.1 Soit X <strong>de</strong> loi uniforme sur [0, 1] d : U([0, 1] d ). Alors<br />

J d := lim<br />

N→+∞ N 2 d D<br />

X<br />

N<br />

existe dans ]0, +∞[.<br />

Remarque 1.3.1 D’après l’exemple 4 du paragraphe précé<strong>de</strong>nt, on sait que J d ≤<br />

d/12. Pour d = 1 <strong>et</strong> 2, on connait J 1 = 1/12 <strong>et</strong> J 2 = 5/(18 √ 3). Pour d ≥ 3, la valeur<br />

exacte <strong>de</strong> J d est inconnue. On a cep<strong>en</strong>dant un équival<strong>en</strong>t quand d t<strong>en</strong>d vers l’infini :<br />

J d ∼ d/(2πe).<br />

Dans un <strong>de</strong>uxième temps, on ét<strong>en</strong>d le résultat pour <strong>de</strong>s lois non uniformes. On note<br />

P X = P a X + Ps X la décomposition <strong>de</strong> Lebesgue <strong>de</strong> P X par rapport à λ d , i.e. P a X<br />

est la<br />

partie absolum<strong>en</strong>t continue <strong>et</strong> P s X la partie singulière. On note dPa X /dλ d la <strong>de</strong>nsité <strong>de</strong><br />

Radon-Nykodim <strong>de</strong> P a X par rapport à λ d. Pour toute fonction boréli<strong>en</strong>ne mesurable <strong>de</strong><br />

R d dans R <strong>et</strong> r ∈ ]0, +∞[, on note<br />

‖f‖ r<br />

=<br />

(∫<br />

|f| r dλ d<br />

) 1<br />

r<br />

.<br />

Théorème 1.3.2 On suppose E|X| 2+ε < +∞ où ε > 0. Alors<br />

lim d D<br />

X<br />

N<br />

N→+∞<br />

=<br />

∥ ∥∥∥ dP a ∥<br />

X ∥∥∥<br />

J d<br />

dλ d d<br />

. (1.11)<br />

d+2<br />

Remarque 1.3.2 Si P X est une mesure purem<strong>en</strong>t singulière par rapport à λ d alors le<br />

théorème précé<strong>de</strong>nt montre que D X N = o(N −2/d ). En fait, dans ce cas, la vitesse peut<br />

être plus rapi<strong>de</strong>. Par exemple, si P X est une mesure discrète alors D X N = 0 dès que N<br />

≥ ♯supp(P X ). Si ♯supp(P X ) = N <strong>et</strong> la transformée <strong>de</strong> Laplace <strong>de</strong> X est finie sur tout<br />

R + , e.g. la loi <strong>de</strong> Poisson, alors :<br />

[<br />

]<br />

D X N ≤ E min |X −<br />

n=0,...,N−1 n|2 ≤ E [ 1 X≥N |X − N + 1| 2]<br />

≤ E [ 1 X≥N |X| 2] ≤ E [ |X| 2 e αX] e −αN , pour tout α > 0,<br />

[<br />

≤ 2E e (α+1)X] e −αN = O(e −αN ) pour tout α > 0.


QUANTIFICATION VECTORIELLE 14<br />

Example<br />

Soit X <strong>de</strong> loi normale N (m, Σ) sur R d (Σ matrice <strong>de</strong> variance-covariance). Alors la<br />

formule (1.11) donne<br />

(<br />

lim N 2 d D<br />

X<br />

N = 2π 1 + 2 ) 1+<br />

d<br />

2 1<br />

(<strong>de</strong>t(Σ)) d Jd .<br />

N→+∞ d<br />

Proj<strong>et</strong> 1 : Mémoire sur la démonstration du théorème 1.3.2. Ref : Graf <strong>et</strong> Lushgy [10].<br />

1.4 Algorithmes <strong>de</strong> recherche d’un quantifieur optimal <strong>de</strong><br />

Voronoi<br />

A c<strong>et</strong>te étape, le problème est d’obt<strong>en</strong>ir numériquem<strong>en</strong>t un quantifieur N-optimal,<br />

i.e. trouver un N-upl<strong>et</strong> x = (x 1 , . . . , x N ) ∈ (R d ) N qui minimise la distorsion D X N . La<br />

recherche <strong>de</strong>s minima d’une fonction est un problème classique <strong>en</strong> analyse. Il est lié au<br />

problème <strong>de</strong> la recherche <strong>de</strong>s points à un niveau puisque argmin D X N ⊂ {∇DX N = 0}.<br />

On va donc <strong>en</strong> fait chercher les quantifieurs stationnaires i.e. solution <strong>de</strong> : ∇D X N (x∗ )<br />

= 0 qui vont nous donner au moins <strong>de</strong>s minimas locaux. Nous examinons dans ce<br />

paragraphe les métho<strong>de</strong>s <strong>de</strong> point fixe <strong>et</strong> celles du gradi<strong>en</strong>t.<br />

1.4.1 Métho<strong>de</strong> du point fixe <strong>de</strong> Lloyd (<strong>en</strong> dim<strong>en</strong>sion 1)<br />

L’approche du point fixe <strong>de</strong> Lloyd est basée sur l’équation (1.10) <strong>de</strong> stationnarité<br />

d’un quantifieur qui peut se réécrire comme :<br />

∫<br />

1<br />

x i =<br />

uP X (du), i = 1, . . . , N.<br />

P X (C i (x))<br />

C i (x)<br />

L’algorihme <strong>de</strong> Lloyd consiste à définir récursivem<strong>en</strong>t une suite (x n ) n≥0 dans (R d ) N<br />

partant d’un point initial x ∈ (R d ) N :<br />

x 0 = x<br />

x n+1<br />

i<br />

= F i (x n ) :=<br />

∫<br />

1<br />

P X (C i (x n uP X (du), i = 1, . . . , N, (1.12)<br />

)) C i (x n )<br />

L’heuristique <strong>de</strong> la qualité d’un tel algorithme est donnée par l’argum<strong>en</strong>t suivant : <strong>en</strong><br />

notant ˆX n := ˆX xn , la relation (1.12) implique ˆX 0 = ˆX x <strong>et</strong><br />

ˆX n+1 = E[X| ˆX n ], n ∈ N.<br />

D’après la définition-caractérisation <strong>de</strong> l’espérance conditionnelle par rapport à ˆX n<br />

comme projection orthogonale dans L 2 sur l’espace L 2 (σ( ˆX n )) <strong>de</strong>s variables aléatoires


QUANTIFICATION VECTORIELLE 15<br />

σ( ˆX n )-mesurables <strong>de</strong> carré intégrable, on a :<br />

‖X − ˆX n+1 ‖ 2<br />

= ‖X − E[X| ˆX n ]‖ 2<br />

= min<br />

{<br />

‖X − Y ‖ 2<br />

: Y ∈ L 2 (σ( ˆX<br />

}<br />

n ))<br />

< ‖X − ˆX n ‖ 2<br />

avec égalité si ˆXn = E[X| ˆX n ].<br />

En dim<strong>en</strong>sion d = 1, on montre (voir [11]) que lorsque P X adm<strong>et</strong> une <strong>de</strong>nsité strictem<strong>en</strong>t<br />

log-concave (e.g. la distribution normale), alors l’application x ↦→ (F i (x)) 1≤i≤N<br />

est une contraction <strong>et</strong> donc adm<strong>et</strong> un unique point fixe vers lequel la métho<strong>de</strong> <strong>de</strong><br />

Lloyd converge avec une vitesse expon<strong>en</strong>tielle. En dim<strong>en</strong>sion d ≥ 2, les résultats <strong>de</strong><br />

converg<strong>en</strong>ce <strong>de</strong> la métho<strong>de</strong> <strong>de</strong> Lloyd ne sont pas clairem<strong>en</strong>t établis dans la littérature.<br />

De plus, lorsque d ≥ 2, l’implém<strong>en</strong>tation <strong>de</strong> la métho<strong>de</strong> <strong>de</strong> Lloyd n’est pas réaliste<br />

car on doit calculer numériquem<strong>en</strong>t <strong>de</strong>s intégrales multiples sur <strong>de</strong>s mosaiques <strong>de</strong> Voronoi.<br />

En fait, l’algorithme <strong>de</strong> Lloyd ne s’utilise <strong>en</strong> pratique qu’<strong>en</strong> dim<strong>en</strong>sion d = 1 où<br />

les mosaiques <strong>de</strong> Voronoi <strong>et</strong> le calcul d’intégrale simple sont explicites.<br />

Proj<strong>et</strong> 2 : Démonstration <strong>de</strong> la converg<strong>en</strong>ce <strong>de</strong> la métho<strong>de</strong> <strong>de</strong> Lloyd <strong>en</strong> dim<strong>en</strong>sion 1<br />

<strong>et</strong> implém<strong>en</strong>tation pour la loi normale.<br />

1.4.2 Métho<strong>de</strong> du gradi<strong>en</strong>t déterministe (<strong>en</strong> dim<strong>en</strong>sion 1)<br />

La métho<strong>de</strong> du gradi<strong>en</strong>t pour la recherche d’un quantifieur stationnaire x ∗ , i.e.<br />

∇D X N (x∗ ) = 0, est un algorithme qui corrige à chaque pas dans le bon s<strong>en</strong>s, l’ampleur<br />

<strong>de</strong>s corrections diminuant p<strong>et</strong>it à p<strong>et</strong>it. Supposons ainsi que x ∗ est un point attractif,<br />

i.e.<br />

On considère alors l’algorithme<br />

(x − x ∗ |∇D X N (x)) > 0, ∀x ≠ x ∗ ∈ (R d ) N . (1.13)<br />

x 0 = x<br />

x n+1 = x n − γ n ∇D X N (x n ), (1.14)<br />

où la suite (γ n ) <strong>de</strong>s pas est une suite positive telle que ∑ n γ n = +∞ <strong>et</strong> ∑ n γ2 n < +∞.<br />

C<strong>et</strong> algorithme se prés<strong>en</strong>te <strong>de</strong> façon générale sous la forme :<br />

x 0 = x<br />

x n+1 = x n − γ n h(x n ), (1.15)<br />

où h est une fonction continue <strong>et</strong> la suite (γ n ) <strong>de</strong>s pas est une suite positive telle que<br />

∑<br />

n γ n = +∞ <strong>et</strong> ∑ n γ2 n < +∞. La converg<strong>en</strong>ce <strong>de</strong> c<strong>et</strong> algorithme peut être étudiée selon<br />

la technique <strong>de</strong> Robbins-Monro. C’est l’approche que nous considérons ici. Elle peut<br />

être aussi approfondie avec la technique <strong>de</strong> Kushner-Clark, appelée <strong>en</strong>core métho<strong>de</strong><br />

<strong>de</strong> l’EDO, <strong>en</strong> étudiant l’équation différ<strong>en</strong>tielle ordinaire dx/dt = −h(x) associée à<br />

l’algorithme.


QUANTIFICATION VECTORIELLE 16<br />

Proposition 1.4.7 (Robbins-Monro déterministe)<br />

Soit V une fonction auxiliaire (dite <strong>de</strong> Lyapounov) à valeurs positives <strong>de</strong> classe C 1<br />

avec un gradi<strong>en</strong>t ∇V Lipschitzi<strong>en</strong> <strong>et</strong> telle que : |h| 2 ≤ Cte(1+V ) <strong>et</strong> (h|∇V ) ≥ 0. Alors<br />

la suite (V (x n )) n converge <strong>et</strong> ∑ n γ n|(h|∇V )(x n )| < +∞.<br />

La preuve <strong>de</strong> c<strong>et</strong>te proposition repose sur le lemme suivant :<br />

Lemme 1.4.1 (Robbins-Siegmund déterministe)<br />

Soi<strong>en</strong>t (V n ), (β n ), (χ n ) <strong>et</strong> (η n ) quatre suites positives telles que :<br />

∑<br />

∑<br />

V n+1 ≤ V n (1 + β n ) + χ n − η n , < +∞,<br />

n<br />

β n<br />

n<br />

χ n<br />

< +∞.<br />

Alors (V n ) converge dans R + <strong>et</strong> ∑ n η n < +∞.<br />

Preuve. On pose α n = 1/ ∏ n<br />

k=1 (1 + β k), V ′ n = α n−1 V n , χ ′ n = α n χ n , η ′ n = α n η n <strong>de</strong> telle<br />

sorte que :<br />

V ′ n+1 ≤ V ′ n + χ ′ n − η ′ n.<br />

La suite Y n = V n− ′ ∑ n−1<br />

k=1 (χ′ k −η′ k ) est donc décroissante. De plus, comme ln ∏ n<br />

k=1 (1+β k)<br />

= ∑ n<br />

k=1 ln(1 + β k) converge quand n t<strong>en</strong>d vers l’infini, alors (α n ) converge vers α > 0.<br />

La converg<strong>en</strong>ce <strong>de</strong> la série ∑ n χ n implique donc celle <strong>de</strong> ∑ n χ′ n. La suite décroissante<br />

(Y n ) est donc minorée (par − ∑ n χ′ n) <strong>et</strong> converge. Notons aussi que ∑ n−1<br />

k=1 η′ k ≤ Y n +<br />

∑ n−1<br />

k=1 χ′ k <strong>et</strong> donc la série à termes positifs ∑ n η′ n converge. Ceci implique la converg<strong>en</strong>ce<br />

<strong>de</strong> la suite (V n) ′ <strong>et</strong> finalem<strong>en</strong>t celle <strong>de</strong> (V n ) <strong>et</strong> <strong>de</strong> ∑ n η n.<br />

✷<br />

Preuve <strong>de</strong> la proposition 1.4.7.<br />

Par la formule <strong>de</strong> Taylor, on a<br />

V (x n+1 ) = V (x n ) +<br />

∫ 1<br />

D’après (1.15) <strong>et</strong> puisque ∇V est Lipschitzi<strong>en</strong>ne, on a :<br />

0<br />

(∇V (tx n + (1 − t)x n+1 ).(x n+1 − x n )dt.<br />

V (x n+1 ) ≤ V (x n ) − γ n (∇V (x n )|h(x n )) + Cte|x n+1 − x n | 2<br />

≤ V (x n ) ( 1 + Cteγ 2 n)<br />

+ Cteγ<br />

2<br />

n − γ n (∇V |h)(x n ),<br />

<strong>en</strong> utilisant l’hypothèse |h| 2 ≤ Cte(1 + V ). On conclut avec le lemme 1.4.1.<br />

✷<br />

Application à l’algorithme du gradi<strong>en</strong>t (1.14).<br />

Il y a diverses variations autour du choix <strong>de</strong>s fonctions <strong>de</strong> Lyapounov pour obt<strong>en</strong>ir <strong>de</strong>s<br />

versions multiples <strong>de</strong> la converg<strong>en</strong>ce <strong>de</strong> l’algorithme <strong>de</strong> Robbins-Monro <strong>et</strong> <strong>en</strong> particulier<br />

<strong>de</strong> l’algorithme du gradi<strong>en</strong>t (1.14) avec h = ∇D X N .


QUANTIFICATION VECTORIELLE 17<br />

⋆ Un premier choix est V (x) = |x−x ∗ | 2 . Alors ∇V (x) = 2(x−x ∗ ). D’après l’expression<br />

(1.8) <strong>de</strong> ∇D X N , on a |∇DX N (x)|2 ≤ Cte(1 +|x| 2 ) <strong>de</strong> sorte que sous (1.13), les hypothèses<br />

<strong>de</strong> la proposition 1.4.7 sont vérifiées. On obti<strong>en</strong>t alors que |x n − x ∗ | 2 converge vers une<br />

constante δ ≥ 0 <strong>et</strong> la série ∑ n γ n|(∇D X N (xn )|x n − x ∗ )| converge. Si par l’absur<strong>de</strong> δ ≠<br />

0, alors à partir d’un certain rang n 0 , on aurait pour tout n ≥ n 0 , 0 < δ/2 ≤ |x n − x ∗ | 2<br />

≤ 2δ <strong>et</strong> |(∇D X N (xn )|x n − x ∗ )| > c avec c > 0 d’après (1.13). C’est <strong>en</strong> contradiction avec<br />

la diverg<strong>en</strong>ce <strong>de</strong> la série ∑ n γ n.<br />

⋆ Un autre choix <strong>de</strong> fonction <strong>de</strong> Lyapounov est V (x) = DN X . Sous la condition que<br />

∇DN X est Lipschitzi<strong>en</strong>ne <strong>et</strong> |∇DX N |2 ≤ cte(1 + DN X ), la proposition 1.4.7 implique que<br />

la suite (DN X(xn )) n converge vers D ∗ <strong>et</strong> la série ∑ n γ n|∇DN X(xn )| 2 converge. Si <strong>de</strong> plus<br />

DN X (x) converge vers l’infini quand |x| t<strong>en</strong>d vers l’infini, alors <strong>en</strong> utilisant la métho<strong>de</strong><br />

dite <strong>de</strong> l’EDO (équation différ<strong>en</strong>tielle ordinaire), on montre (voir Lemme 3.III.8 dans<br />

[5]) que x n converge vers une composante connexe <strong>de</strong> {∇DN X = 0} ∩ {DX N = D∗ }. En<br />

particulier, si {∇DN X = 0} = {x∗ } alors x n converge vers x ∗ .<br />

Remarque 1.4.3 Les hypothèses ci-<strong>de</strong>ssus requises pour assurer la converg<strong>en</strong>ce <strong>de</strong> la<br />

métho<strong>de</strong> du gradi<strong>en</strong>t ne sont pas vérifiées par la fonction <strong>de</strong> distorsion. Cep<strong>en</strong>dant, il<br />

existe <strong>de</strong>s résultats partiels <strong>de</strong> converg<strong>en</strong>ce dans le cas unidim<strong>en</strong>sionnel ou lorsque le<br />

support <strong>de</strong> la loi <strong>de</strong> X est compact, cf [15]. De plus, l’implém<strong>en</strong>tation pratique donne<br />

<strong>de</strong>s résultats satisfaisants (ce qui est souv<strong>en</strong>t le cas dans les métho<strong>de</strong>s <strong>de</strong> gradi<strong>en</strong>t) <strong>et</strong><br />

on peut obt<strong>en</strong>ir <strong>de</strong>s estimations d’erreur <strong>de</strong> la distorsion (voir paragraphe suivant).<br />

En pratique, la métho<strong>de</strong> du gradi<strong>en</strong>t déterministe est difficilem<strong>en</strong>t implém<strong>en</strong>table<br />

au <strong>de</strong>là <strong>de</strong> la dim<strong>en</strong>sion d ≥ 2 car le calcul <strong>de</strong> ∇DN<br />

X fait interv<strong>en</strong>ir <strong>de</strong>s intégrales<br />

multiples (sur <strong>de</strong>s cellules <strong>de</strong> Voronoi). En dim<strong>en</strong>sion 1, comme pour la métho<strong>de</strong> <strong>de</strong><br />

Lloyd, les calculs d’intégrales <strong>et</strong> <strong>de</strong> cellules <strong>de</strong> Voronoi sont explicites, <strong>et</strong> la métho<strong>de</strong><br />

du gradi<strong>en</strong>t est efficace.<br />

Exemple pour la loi normale unidim<strong>en</strong>sionnelle<br />

Soit X <strong>de</strong> loi normale N (0, 1). La recherche du minimum <strong>de</strong> la distorsion DN X peut se<br />

restreindre aux N-upl<strong>et</strong>s x = (x 1 , . . . , x N ) ∈ R N avec x 1 < x 2 < . . . < x N . Pour <strong>de</strong> tels<br />

N-upl<strong>et</strong>s, les cellules (fermées) <strong>de</strong> Voronoi sont C i (x) = [x i−1/2 , x i+1/2 ] où on a posé<br />

x i−1/2 = (x i + x i−1 )/2, x i+1/2 = (x i + x i+1 )/2 <strong>et</strong> par conv<strong>en</strong>tion x 1/2 = −∞ (lorsque<br />

i = 1) <strong>et</strong> x N+1/2 = +∞ (lorsque i = N). En notant par φ la fonction <strong>de</strong> distribution<br />

<strong>de</strong> N (0, 1), i.e. φ(y) = √ 1 ∫ y<br />

2π −∞ e−u2 /2 du, on calcule explicitem<strong>en</strong>t le gradi<strong>en</strong>t <strong>de</strong> la<br />

distorsion :<br />

∂D X N<br />

[<br />

(x) = x i φ(xi+1/2 ) − φ(x<br />

∂x i−1/2 ) ]<br />

i<br />

+ √ 1 ( [exp − 1 ) (<br />

2π 2 x2 i+1/2<br />

− exp − 1 )]<br />

2 x2 i−1/2<br />

.


QUANTIFICATION VECTORIELLE 18<br />

Proj<strong>et</strong> 3 : Implém<strong>en</strong>ter la métho<strong>de</strong> du gradi<strong>en</strong>t pour la loi normale scalaire <strong>et</strong> comparer<br />

avec la métho<strong>de</strong> <strong>de</strong> Lloyd.<br />

1.4.3 Métho<strong>de</strong> du gradi<strong>en</strong>t stochastique : algorithme <strong>de</strong> Kohon<strong>en</strong><br />

La métho<strong>de</strong> du gradi<strong>en</strong>t stochastique pour la recherche d’un quantifieur stationnaire<br />

est basée sur le fait que le gradi<strong>en</strong>t <strong>de</strong> la distorsion adm<strong>et</strong> une représ<strong>en</strong>tation intégrale<br />

par rapport à la loi <strong>de</strong> probabilité X simulable :<br />

∫<br />

∇DN X (x) = ∇ x d N (x, u)P X (du) = E[∇ x d N (x, Z)],<br />

où Z est une variable aléatoire <strong>de</strong> loi <strong>de</strong> probabilité P X <strong>et</strong> ∇ x d N : (R d ) N × R d → R d<br />

est donné d’après (1.8) par :<br />

1<br />

2 ∇ xd N (x, u) = ( )<br />

(x i − u)1 Ci (x) 1≤i≤N . (1.16)<br />

On considère alors l’algorithme stochastique définissant <strong>de</strong> façon récursive la suite <strong>de</strong><br />

variables aléatoires (x n ) dans (R d ) N par :<br />

x n+1 = x n − γ n<br />

2 ∇ xd N (x n , Z n+1 ), (1.17)<br />

où la suite (γ n ) <strong>de</strong>s pas est une suite positive telle que ∑ n γ n = +∞ <strong>et</strong> ∑ n γ2 n < +∞<br />

<strong>et</strong> la suite (Z n ) est une suite <strong>de</strong> variables aléatoires i.i.d. <strong>de</strong> loi P X simulable choisie<br />

indép<strong>en</strong>dante <strong>de</strong> la variable initiale x 0 . On peut réécrire (1.17) sous la forme :<br />

x n+1 = x n − γ n<br />

2<br />

(<br />

∇D<br />

X<br />

N (x n ) + ∇ x d N (x n , Z n+1 ) − ∇D X N (x n ) ) .<br />

Les termes ∇ x d N (x n , Z n+1 ) − ∇D X N (xn ), n ≥ 0, ont une espérance conditionnelle nulle<br />

par rapport à F Z n = σ(x 0 , Z 1 , . . . , Z n ) filtration propre <strong>en</strong>g<strong>en</strong>drée par Z (<strong>et</strong> x 0 ).<br />

Finalem<strong>en</strong>t, on est am<strong>en</strong>é à étudier <strong>de</strong>s algorithmes stochastiques généraux <strong>de</strong> la<br />

forme :<br />

x n+1 = x n − γ n (h(x n ) + ε n+1 ), (1.18)<br />

où h est une fonction continue, la suite (γ n ) <strong>de</strong>s pas est une suite positive telle que<br />

∑<br />

n γ n = +∞ <strong>et</strong> ∑ n γ2 n < +∞ <strong>et</strong> la suite <strong>de</strong> variables aléatoires (ε n ) vérifie<br />

où F n est la filtration <strong>en</strong>g<strong>en</strong>drée par x 0 , ε 1 . . . , ε n .<br />

E[ε n+1 |F n ] = 0, n ∈ N, (1.19)<br />

Proposition 1.4.8 (Robbins-Monro stochastique)<br />

Soit V une fonction auxiliaire (dite <strong>de</strong> Lyapounov) à valeurs positives <strong>de</strong> classe C 1<br />

avec un gradi<strong>en</strong>t ∇V Lipschitzi<strong>en</strong> <strong>et</strong> telle que : |h| 2 ≤ Cte(1 + V ), (h|∇V ) ≥ 0 <strong>et</strong><br />

E[|ε n+1 | 2 |F n ] ≤ Cte(1 + V (x n )), p.s. ∀n ≥ 0. (1.20)<br />

Alors presque sûrem<strong>en</strong>t, la suite (V (x n )) n converge <strong>et</strong> ∑ n γ n|(h|∇V )(x n )| < +∞.


QUANTIFICATION VECTORIELLE 19<br />

Comme dans le cas déterministe, la preuve <strong>de</strong> c<strong>et</strong>te proposition repose sur le lemme<br />

suivant :<br />

Lemme 1.4.2 (Robbins-Siegmund stochastique)<br />

Soi<strong>en</strong>t (V n ), β n ), (χ n ) <strong>et</strong> (η n ) quatre suites <strong>de</strong> variables aléatoires positives (F n )-<br />

adaptées telle que :<br />

E[V n+1 |F n ] ≤ V n (1 + β n ) + χ n − η n , p.s. ∀n ≥ 0.<br />

Alors presque sûrem<strong>en</strong>t sur<br />

{ ∑<br />

Ω 1 =<br />

n<br />

β n<br />

< +∞ <strong>et</strong><br />

}<br />

∑<br />

χ n < +∞ ,<br />

n<br />

(V n ) converge vers V ∞ variable aléatoire positive finie <strong>et</strong> la série ∑ n η n converge.<br />

Preuve. On pose α n = 1/ ∏ n<br />

k=1 (1 + β k), V ′ n = α n−1 V n , χ ′ n = α n χ n , η ′ n = α n η n <strong>de</strong> telle<br />

sorte que :<br />

E[V ′ n+1|F n ] ≤ V ′ n + χ ′ n − η ′ n.<br />

La suite Y n = V n ′ − ∑ n−1<br />

k=1 (χ′ k − η′ k ) est donc une surmartingale. Pour tout m ∈ N∗ ,<br />

on note τ m = inf{n : ∑ n<br />

k=1 (χ′ k − η′ k<br />

) ≥ m} <strong>de</strong> sorte que la surmartingale arrêtée<br />

(Y n∧τm ) n est minorée par −m <strong>et</strong> converge p.s. vers une variable aléatoire finie d’après<br />

le théorème <strong>de</strong> Doob. Donc sur {τ m = +∞}, (Y n ) converge p.s. vers une limite finie.<br />

De plus, sur Ω 1 , ln ∏ n<br />

k=1 (1 + β k) = ∑ n<br />

k=1 ln(1 + β k) converge quand n t<strong>en</strong>d vers<br />

l’infini <strong>et</strong> donc (α n ) converge vers α > 0. La converg<strong>en</strong>ce <strong>de</strong> la série ∑ n χ n implique<br />

donc celle <strong>de</strong> ∑ n χ′ n sur Ω 1 .<br />

Puisque ∑ n−1<br />

k=1 η′ k ≤ Y n + ∑ n−1<br />

k=1 χ′ k<br />

, on <strong>en</strong> déduit que la série à termes positifs<br />

∑<br />

n η′ n converge sur Ω 1 ∩ {τ m = +∞} <strong>et</strong> donc aussi (V n). ′ Ceci implique la converg<strong>en</strong>ce<br />

<strong>de</strong> la suite (V n ) <strong>et</strong> <strong>de</strong> la série ∑ n η n sur Ω 1 ∩ {τ m = +∞}. Or sur Ω 1 , la série ∑ n χ′ n<br />

converge <strong>et</strong> donc il existe m ∈ N ∗ tel que ∑ +∞<br />

k=1 (χ′ k − η′ k ) < m, i.e. τ m = +∞. Ainsi<br />

Ω 1 = ∪ +∞<br />

m=1 Ω 1 ∩ {τ m = +∞} <strong>et</strong> la proposition est démontrée. ✷<br />

Preuve <strong>de</strong> la proposition 1.4.8.<br />

Comme dans la preuve <strong>de</strong> la proposition 1.4.7, on a par la formule <strong>de</strong> Taylor, le fait<br />

que ∇V est Lipschitzi<strong>en</strong>ne <strong>et</strong> l’hypothèse |h| 2 ≤ Cte(1 + V ) :<br />

V (x n+1 ) ≤ V (x n ) ( 1 + Cteγ 2 n)<br />

− γn (∇V |h)(x n )<br />

D’après (1.19) <strong>et</strong> (1.20), on obti<strong>en</strong>t alors<br />

+Cteγ 2 n(1 + |ε n+1 | 2 ) − γ n (∇V (x n )|ε n+1 ).<br />

E[V (x n+1 )|F n ] ≤ V (x n ) ( 1 + Cteγ 2 n)<br />

+ Cteγ<br />

2<br />

n − γ n (∇V |h)(x n ).


QUANTIFICATION VECTORIELLE 20<br />

On conclut avec le lemme 1.4.2.<br />

✷<br />

Application à l’algorithme du gradi<strong>en</strong>t (1.17).<br />

Il y a diverses variations autour du choix <strong>de</strong>s fonctions <strong>de</strong> Lyapounov pour obt<strong>en</strong>ir<br />

<strong>de</strong>s versions multiples <strong>de</strong> la converg<strong>en</strong>ce <strong>de</strong> l’algorithme du gradi<strong>en</strong>t (1.14) avec h =<br />

1<br />

2 ∇DX N <strong>et</strong> ε n+1 = 1 2 (∇ xd N (x n , Z n+1 ) − ∇DN X(xn )).<br />

⋆ Un premier choix est V (x) = |x−x ∗ | 2 . Alors ∇V (x) = 2(x−x ∗ ). D’après l’expression<br />

(1.8) <strong>de</strong> ∇DN X <strong>et</strong> (1.16) <strong>de</strong> ∇ xd N (x, u), on a<br />

∫<br />

|∇DN X (x)| 2 + |∇ x d N (x, u)| 2 P X (du) ≤ Cte(1 + |x| 2 )<br />

Si on suppose <strong>de</strong> plus (1.13), alors les hypothèses <strong>de</strong> la proposition 1.4.8 sont vérifiées.<br />

On obti<strong>en</strong>t alors que |x n − x ∗ | 2 converge p.s. vers une variable aléatoire positive δ<br />

<strong>et</strong> la série ∑ n γ n|(∇D X N (xn )|x n − x ∗ )| converge p.s. Soit ω un évènem<strong>en</strong>t tel que ces<br />

<strong>de</strong>ux converg<strong>en</strong>ces ai<strong>en</strong>t lieu. Si par l’absur<strong>de</strong> δ(ω) ≠ 0, alors à partir d’un certain<br />

rang n 0 = n 0 (ω), on aurait pour tout n ≥ n 0 , 0 < δ(ω)/2 ≤ |x n (ω) − x ∗ | 2 ≤ 2δ(ω) <strong>et</strong><br />

|(∇D X N (xn (ω))|x n (ω)−x ∗ )| > c(ω) avec c(ω) > 0 d’après (1.13). C’est <strong>en</strong> contradiction<br />

avec la diverg<strong>en</strong>ce <strong>de</strong> la série ∑ n γ n.<br />

⋆ Un autre choix <strong>de</strong> fonction <strong>de</strong> Lyapounov est V (x) = DN X . Sous la condition que<br />

∇DN X est Lipschitzi<strong>en</strong>ne <strong>et</strong><br />

∫<br />

|∇DN X (x)| 2 + |∇ x d N (x, u)| 2 P X (du) ≤ cte(1 + DN X (x)),<br />

les hypothèses <strong>de</strong> la proposition 1.4.8 sont vérifiées <strong>et</strong> on obti<strong>en</strong>t que la suite (D X N (xn )) n<br />

converge p.s. vers D ∗ <strong>et</strong> la série ∑ n γ n|∇D X N (xn )| 2 converge p.s. Si <strong>de</strong> plus D X N (x)<br />

converge vers l’infini quand |x| t<strong>en</strong>d vers l’infini, alors <strong>en</strong> utilisant la métho<strong>de</strong> dite <strong>de</strong><br />

l’EDO (équation différ<strong>en</strong>tielle ordinaire), on montre (voir Lemme 3.III.8 dans [5]) que<br />

x n converge p.s. vers une composante connexe <strong>de</strong> {∇D X N = 0} ∩ {DX N = D∗ }. En<br />

particulier, si {∇D X N = 0} = {x∗ } alors x n converge vers x ∗ p.s.<br />

La métho<strong>de</strong> du gradi<strong>en</strong>t stochastique est effici<strong>en</strong>te <strong>en</strong> gran<strong>de</strong> dim<strong>en</strong>sion d puisqu’elle<br />

ne requiert pas le calcul d’intégrales multiples mais seulem<strong>en</strong>t la connaissance <strong>de</strong> la<br />

fonction locale ∇ x d N (x, u) <strong>et</strong> la simulation <strong>de</strong> la loi <strong>de</strong> probabilité P X :<br />

Description explicite du gradi<strong>en</strong>t stochastique pour la distorsion : algorithme<br />

<strong>de</strong> Kohon<strong>en</strong><br />

D’après l’expression (1.16) du gradi<strong>en</strong>t <strong>de</strong> la distorsion locale, l’algorithme du gradi<strong>en</strong>t<br />

stochastique (1.17) s’exprime comme :<br />

x n+1<br />

i<br />

= x n i − γ n (x n i − Z n+1 )1 Ci (x n )(Z n+1 ), i = 1, . . . , N<br />

C<strong>et</strong>te procédure se décompose <strong>en</strong>core à chaque pas n <strong>de</strong> façon explicite selon :


QUANTIFICATION VECTORIELLE 21<br />

• phase <strong>de</strong> compétition : sélectionner l’indice i(n + 1) tel que<br />

Z n+1 ∈ C i(n+1) (x n ) i.e. i(n + 1) ∈ arg min<br />

i=1,...,N |xn i − Z n+1 |.<br />

• phase d’appr<strong>en</strong>tissage :<br />

x n+1<br />

i<br />

= x n i − γ n (x n i − Z n+1 ), si i = i(n + 1)<br />

x n+1<br />

i<br />

= x n i , si i ≠ i(n + 1)<br />

C<strong>et</strong>te procédure <strong>en</strong> <strong>de</strong>ux phases est connue dans la littérature comme l’algorithme<br />

<strong>de</strong> Kohon<strong>en</strong>. D’un point <strong>de</strong> vue numérique, la principale activté est la phase <strong>de</strong><br />

compétition concernant la recherche à chaque étape du plus proche voisin <strong>de</strong> la nouvelle<br />

variable simulée Z n+1 . La phase d’appr<strong>en</strong>tissage est simplem<strong>en</strong>t la mise à jour <strong>de</strong><br />

la grille x n <strong>en</strong> modifiant la composante sélectionnée par la phase <strong>de</strong> compétition par<br />

une homothétie avec Z n+1 <strong>de</strong> rapport (1 − γ n ).<br />

Estimation <strong>de</strong>s masses <strong>de</strong>s cellules <strong>de</strong> Voronoi <strong>et</strong> <strong>de</strong> la distorsion minimale<br />

Pour déterminer un quantifieur stationnaire ˆX ∗ = ˆX x∗ , on doit obt<strong>en</strong>ir, outre la grille<br />

x ∗ = (x ∗ 1 , . . . , x∗ N ) <strong>de</strong> son support, les masses P X(C i (x ∗ )), i = 1, . . . , N, <strong>de</strong>s cellules<br />

<strong>de</strong> Voronoi associées qui caractéris<strong>en</strong>t sa loi <strong>de</strong> probabilité. Il est donc important<br />

dans les applications numériques d’avoir une procédure <strong>de</strong> calcul <strong>de</strong>s caractéristiques<br />

P X (C i (x ∗ )) ainsi que <strong>de</strong> la distorsion associée D X N (x∗ ).<br />

⋆ Une première approche simple consiste, après avoir terminé l’algorithme <strong>de</strong> Kohon<strong>en</strong><br />

jusqu’au pas n <strong>et</strong> <strong>en</strong>registré la grille limite x ∗ = x n , à estimer les caractéristiques<br />

voulues par une estimation standard <strong>de</strong> Monte-Carlo :<br />

p n i<br />

= 1 n∑<br />

1<br />

n<br />

Zk ∈C i (x ∗ ), i = 1, . . . , N, <strong>et</strong> D n = 1 n<br />

k=1<br />

n∑<br />

min |Z k − x ∗ i | 2 ,<br />

i=1,...,N<br />

k=1<br />

où (Z k ) 1≤k≤n est un échantillon i.i.d. <strong>de</strong> loi P X . Par la loi standard <strong>de</strong>s grands nombres,<br />

on est assuré <strong>de</strong> la converg<strong>en</strong>ce quand n t<strong>en</strong>d vers l’infini d’une telle procédure :<br />

p n i −→ P X (C i (x ∗ )) p.s., i = 1, . . . , N, <strong>et</strong> D n −→ D X N (x ∗ ) p.s.<br />

⋆ Une autre approche plus pertin<strong>en</strong>te <strong>et</strong> moins couteuse perm<strong>et</strong> d’obt<strong>en</strong>ir une estimation<br />

<strong>de</strong>s caractéristiques voulues <strong>de</strong> façon simultanée à la procédure <strong>de</strong> Kohon<strong>en</strong> :<br />

p n i = 1 n<br />

D n = 1 n<br />

n∑<br />

1 Zk ∈C i (x k−1 ) = 1 n<br />

k=1<br />

k=1<br />

n∑<br />

1 i=i(k) , i = 1, . . . , N,<br />

k=1<br />

n∑<br />

min |Z k − x k−1<br />

i<br />

| 2 = 1<br />

i=1,...,N n<br />

n∑<br />

k=1<br />

|Z k − x k−1<br />

i(k) |2


QUANTIFICATION VECTORIELLE 22<br />

Notons que les p n i <strong>et</strong> D n s’exprim<strong>en</strong>t aussi <strong>de</strong> manière récursive comme :<br />

p n+1<br />

i<br />

= p n i − 1<br />

D n+1 = D n − 1<br />

n + 1<br />

n + 1 (pn i − 1 i=i(n+1) ), p 0 i = 1 , i = 1, . . . , N (1.21)<br />

N<br />

(<br />

D n − |Z n+1 − x n i(n+1) |2) , D 0 = 0. (1.22)<br />

Proposition 1.4.9 On suppose P X absolum<strong>en</strong>t continue par rapport à λ d <strong>et</strong> E|X| 2+ε<br />

< +∞ où ε > 0. Alors sur l’évènem<strong>en</strong>t {x n → x ∗ }, on a<br />

p n i −→ P X (C i (x ∗ )) p.s., i = 1, . . . , N, <strong>et</strong> D n −→ D X N (x ∗ ) p.s.<br />

Preuve. On considère une fonction mesurable H : (R d ) N × R d → R telle que<br />

|H(x, u)| ≤ Cte|u| 2<br />

∫<br />

h(x) := H(x, u)P X (du) est bornée sur (R d ) N <strong>et</strong> continue <strong>en</strong> x ∗ .<br />

Alors les variables aléatoires H(x n , Z n+1 ) − h(x n ), n ≥ 0, sont c<strong>en</strong>trées, non corrélées<br />

<strong>de</strong>ux à <strong>de</strong>ux, <strong>et</strong> bornées dans L 1+ε/2 . La loi forte <strong>de</strong>s grands nombres dans L 1+ε/2<br />

implique alors que<br />

1<br />

n<br />

n∑<br />

k=1<br />

(<br />

)<br />

H(x k−1 , Z k ) − h(x k−1 )<br />

−→ 0 p.s.<br />

quand n t<strong>en</strong>d vers l’infini. De plus avec la continuité <strong>de</strong> h <strong>en</strong> x ∗ , on a par le théorème<br />

<strong>de</strong> Césaro : 1/n ∑ n<br />

k=1 h(xk−1 ) converge p.s. vers h(x ∗ ) sur {x n → x ∗ }. On <strong>en</strong> déduit<br />

que<br />

1<br />

n∑<br />

H(x k−1 , Z k ) −→ h(x ∗ ) p.s. sur {x n → x ∗ }.<br />

n<br />

k=1<br />

On applique ce résultat respectivem<strong>en</strong>t aux fonctions :<br />

H(x, u) = 1 Ci (x)(u) <strong>de</strong> fonction moy<strong>en</strong>ne h(x) = P X (C i (x)),<br />

H(x, u) = ρ(x) min i=1,...,N |x i − u| 2 <strong>de</strong> fonction moy<strong>en</strong>ne h(x) = ρ(x)DN X (x) où ρ est<br />

une fonction continue positive à support compact sur (R d ) N <strong>et</strong> ρ(x ∗ ) = 1. ✷<br />

Remarque 1.4.4 Au lieu <strong>de</strong> pr<strong>en</strong>dre comme pas 1/n dans le calcul récursif (1.21)-<br />

(1.22) <strong>de</strong>s p i n <strong>et</strong> D n , on peut pr<strong>en</strong>dre le même pas (γ n ) que pour l’algorithme <strong>de</strong><br />

Kohon<strong>en</strong> :<br />

p n+1<br />

i<br />

= p n i − γ n+1 (p n i − 1 i=i(n+1) ), p 0 i = 1 N , i = 1, . . . , N<br />

D n+1 = D n − γ n+1<br />

(D n − |Z n+1 − x n i(n+1) |2) , D 0 = 0.<br />

Proj<strong>et</strong> 4 : Implém<strong>en</strong>ter la <strong>quantification</strong> <strong>optimale</strong> <strong>de</strong> la loi normale sur R d , d ≥ 2, par<br />

l’algorithme <strong>de</strong> Kohon<strong>en</strong>.


QUANTIFICATION VECTORIELLE 23<br />

1.5 Application à l’intégration numérique <strong>et</strong> aux options<br />

europé<strong>en</strong>nes<br />

L’idée est simplem<strong>en</strong>t d’approximer la loi <strong>de</strong> probabilité P X <strong>de</strong> la variable aléatoire<br />

X sur R d par la loi <strong>de</strong> probabilité P ˆX<br />

= ∑ N<br />

i=1 p iδ xi <strong>de</strong> la variable N-quantifiée ˆX =<br />

ˆX x à support discr<strong>et</strong> dans la grille x = {x 1 , . . . , x N } dans (R d ) N . Autrem<strong>en</strong>t dit, pour<br />

toute fonction f intégrable par rapport à P X , notée f ∈ L 1 (P X ), on approxime<br />

E[f(X)] =<br />

∫<br />

f(u)P X (du) par E[f( ˆX)] =<br />

∫<br />

f(u)P ˆX(du) =<br />

N∑<br />

p i f(x i ).<br />

L’objectif est d’évaluer la qualité <strong>de</strong> c<strong>et</strong>te approximation <strong>en</strong> fonction <strong>de</strong> la distorsion<br />

<strong>et</strong> donc d’un point <strong>de</strong> vue numérique d’avoir accès au quantifieur optimal x ∗ <strong>et</strong> aux<br />

masses p ∗ i <strong>de</strong>s cellules <strong>de</strong> Voronoi pour obt<strong>en</strong>ir la meilleure approximation possible.<br />

On a le résultat basique suivant pour les fonctions Lipschitzi<strong>en</strong>nes. On note pour<br />

toute fonction f Lipschitzi<strong>en</strong>ne sur R d :<br />

i=1<br />

|f(y) − f(z)|<br />

[f] lip<br />

= sup<br />

y≠z∈R d |y − z|<br />

< +∞.<br />

Proposition 1.5.10 Pour tout f ∈ L 1 (P X ) <strong>et</strong> f Lipschitzi<strong>en</strong>ne, on a :<br />

∣<br />

∣E[f(X)] − E[f( ˆX)]<br />

∣ ≤ [f] lip<br />

√DN X(x).<br />

Preuve. Il suffit simplem<strong>en</strong>t d’écrire :<br />

∣<br />

∣E[f(X)] − E[f( ˆX)]<br />

∣ ≤ E|f(X) − f( ˆX)|<br />

≤ [f] lip<br />

E|X − ˆX| ≤ [f] lip<br />

√D X N (x),<br />

par l’inégalité <strong>de</strong> Cauchy-Schwarz.<br />

✷<br />

Remarque 1.5.5 C<strong>et</strong>te <strong>de</strong>rnière proposition montre que si x ∗ est un N-quantifieur<br />

optimal alors |E[f(X)] − E[f( ˆX ∗ )]| converge vers 0 quand N t<strong>en</strong>d vers l’infini avec une<br />

vitesse <strong>de</strong> converg<strong>en</strong>ce <strong>en</strong> 1/N 1/d d’après le théorème <strong>de</strong> Zador.<br />

Lorsque f possè<strong>de</strong> un peu plus <strong>de</strong> régularité, la borne d’erreur peut être améliorée.<br />

Proposition 1.5.11 Pour tout f ∈ L 1 (P X ) telle que f soit <strong>de</strong> class C 1 avec ∇f<br />

Lipschitzi<strong>en</strong>ne <strong>et</strong> pour tout quantifieur stationnaire ˆX ∗ = ˆX x∗ , on a :<br />

∣<br />

∣E[f(X)] − E[f( ˆX ∗ )] ∣ ≤ [∇f] lip<br />

DN X (x ∗ ).


QUANTIFICATION VECTORIELLE 24<br />

Preuve. D’après la formule <strong>de</strong> Taylor, on a<br />

f(X) = f( ˆX ∗ ) +<br />

∫ 1<br />

0<br />

∇f(t ˆX ∗ + (1 − t)X).(X − ˆX ∗ )dt<br />

≤ f( ˆX ∗ ) + ∇f( ˆX ∗ ).(X − ˆX ∗ ) + [∇f] lip<br />

|X − ˆX ∗ | 2 .<br />

On <strong>en</strong> déduit que<br />

∣<br />

∣E[f(X)] − E[f( ˆX ∗ )] − E[∇f( ˆX ∗ ).(X − ˆX ∗ )] ∣ ≤ [∇f] lip<br />

E|X − ˆX ∗ | 2 .<br />

On conclut <strong>en</strong> notant que par la propriété <strong>de</strong> stationnarité (1.9), on a<br />

[<br />

E ∇f( ˆX ∗ ).(X − ˆX<br />

] [<br />

∗ ) = E ∇f( ˆX<br />

(<br />

∗ ). E[X − ˆX ∗ | ˆX<br />

)]<br />

∗ ] = 0.<br />

Remarque 1.5.6 C<strong>et</strong>te <strong>de</strong>rnière proposition montre que si x ∗ est un N-quantifieur<br />

optimal, on a doublé la vitesse <strong>de</strong> converg<strong>en</strong>ce par rapport au cas <strong>de</strong> la proposition<br />

1.5.10. Ainsi, |E[f(X)] − E[f( ˆX ∗ )]| converge vers 0 quand N t<strong>en</strong>d vers l’infini avec une<br />

vitesse <strong>de</strong> converg<strong>en</strong>ce <strong>en</strong> 1/N 2/d d’après le théorème <strong>de</strong> Zador.<br />

Finalem<strong>en</strong>t, on a une propriété intéressante pour l’intégration numérique <strong>de</strong> fonctions<br />

convexes.<br />

Proposition 1.5.12 Pour tout f ∈ L 1 (P X ) telle que f soit convexe <strong>et</strong> pour tout quantifieur<br />

stationnaire ˆX ∗ = ˆX x∗ , on a :<br />

E[f( ˆX ∗ )] ≤ E[f(X)].<br />

Preuve. C’est une simple conséqu<strong>en</strong>ce <strong>de</strong> la propriété <strong>de</strong> stationnarité (1.9) <strong>et</strong> <strong>de</strong><br />

l’inégalité <strong>de</strong> J<strong>en</strong>s<strong>en</strong> :<br />

E[f( ˆX ∗ )] = E[f(E[X| ˆX ∗ ])] ≤ E[E[f(X)| ˆX ∗ ]] = E[f(X)].<br />

Remarque 1.5.7 Ceci montre que l’intégration numérique <strong>de</strong> fonctions convexes avec<br />

un quantifieur stationnaire fournit toujours une borne inférieure à la vraie valeur.<br />

Symétriquem<strong>en</strong>t, on a toujours une borne supérieure avec un quantifieur stationnaire<br />

pour les fonctions concaves.<br />

✷<br />


QUANTIFICATION VECTORIELLE 25<br />

Remarque 1.5.8 La métho<strong>de</strong> <strong>de</strong> <strong>quantification</strong> peut être comparée avec la métho<strong>de</strong><br />

<strong>de</strong> Monte-Carlo qui consiste pour approximer E[f(X)] à générer un N-échantillon<br />

X 1 , . . . , X N <strong>de</strong> copies i.i.d. <strong>de</strong> loi P X <strong>et</strong> à calculer<br />

1<br />

N<br />

N∑<br />

f(X k ).<br />

k=1<br />

Il est bi<strong>en</strong> connu que par la loi <strong>de</strong>s grands nombres, c<strong>et</strong>te quantité converge p.s. quand<br />

N t<strong>en</strong>d vers l’infini vers E[f(X)]. De plus par le théorème c<strong>en</strong>tral limite, on a une<br />

vitesse <strong>de</strong> converg<strong>en</strong>ce <strong>en</strong> 1/N 1 2 indép<strong>en</strong>dante <strong>de</strong> la dim<strong>en</strong>sion d.<br />

Proj<strong>et</strong> 5 : Calculer dans le modèle <strong>de</strong> Black-Scholes multidim<strong>en</strong>sionnel le put, le<br />

spread-put europé<strong>en</strong> par la métho<strong>de</strong> <strong>de</strong> <strong>quantification</strong> <strong>et</strong> comparer les résultats avec la<br />

métho<strong>de</strong> <strong>de</strong> Monte-Carlo.


Chapitre 2<br />

Quantification d’une chaine <strong>de</strong><br />

Markov <strong>et</strong> applications<br />

Dans ce chapitre, on considère une chaine <strong>de</strong> Markov (X k ) 0≤k≤n à valeurs dans R d<br />

<strong>de</strong> probabilités <strong>de</strong> transition P k (x, dx ′ ) (<strong>de</strong> k − 1 à k), k = 1, . . . , n, <strong>et</strong> <strong>de</strong> distribution<br />

initiale µ pour X 0 . Notons alors que la distribution jointe <strong>de</strong> (X 0 , . . . , X n ) est égale à<br />

µ(dz 0 )P 1 (z 0 , dz 1 ) . . . P n (z n−1 , dz n ).<br />

On s’intéresse à l’approximation par <strong>quantification</strong> <strong>de</strong> c<strong>et</strong>te chaine <strong>de</strong> Markov, i.e.<br />

à l’approximation <strong>de</strong> la distribution du processus (X k ) 0≤k≤n par la distribution d’un<br />

processus ( ˆX k ) 0≤k≤n à valeurs dans un espace d’état fini <strong>et</strong> pr<strong>en</strong>ant <strong>en</strong> compte la<br />

loi <strong>de</strong> probabilité du processus. Une approche naive consisterait <strong>en</strong> la <strong>quantification</strong><br />

du vecteur aléatoire (X 0 , . . . , X n ) dans R d(n+1) selon la métho<strong>de</strong> décrite au chapitre<br />

précé<strong>de</strong>nt. Mais d’après le théorème <strong>de</strong> Zador, pour un nombre total <strong>de</strong> points N dans<br />

la grille temps-espace, on obti<strong>en</strong>drait une erreur <strong>de</strong> <strong>quantification</strong> <strong>de</strong> l’ordre N −1/nd :<br />

c’est bi<strong>en</strong> évi<strong>de</strong>mm<strong>en</strong>t très l<strong>en</strong>t lorsque n est grand.<br />

On propose une approche basée sur le fait qu’une chaine <strong>de</strong> Markov est complètem<strong>en</strong>t<br />

caractérisée par sa distribution initiale <strong>et</strong> par ses probabilités <strong>de</strong> transition. L’idée est<br />

alors <strong>de</strong> quantifier la loi initiale <strong>de</strong> X 0 <strong>et</strong> les probabilités conditionnelles <strong>de</strong> X k sachant<br />

X k−1 . On verra alors que cela conduit à une erreur d’approximation d’ordre<br />

n 1+1/d /N 1/d .<br />

Dans la suite, on utilise les notations usuelles νf, P f, νP , P Q pour ν mesure, P, Q<br />

probabilités <strong>de</strong> transition <strong>et</strong> f fonction mesurable, i.e.<br />

∫<br />

∫<br />

νf = f(x)ν(dx), P f(x) = f(x ′ )P (x, dx ′ )<br />

∫<br />

∫<br />

νP (dx ′ ) = ν(dx)P (x, dx ′ ), P Q(x 0 , dx 2 ) = P (x 0 , dx 1 )Q(x 1 , dx 2 ).<br />

26


QUANTIFICATION D’UNE CHAINE DE MARKOV 27<br />

Pour toute fonction boréli<strong>en</strong>ne f <strong>de</strong> R d dans R, on note<br />

‖ f ‖ ∞<br />

= sup |f(x)|, [f] lip<br />

= sup<br />

x∈R d x≠y<br />

|f(x) − f(y)|<br />

.<br />

|x − y|<br />

On définit l’<strong>en</strong>semble<br />

BL 1 (R d ) =<br />

{<br />

}<br />

f : R d → R, ‖ f ‖ ∞<br />

≤ 1 <strong>et</strong> [f] lip<br />

≤ 1 .<br />

On dit qu’une probabilité <strong>de</strong> transition P sur R d est Lipschitzi<strong>en</strong>ne <strong>de</strong> rapport [P ] lip<br />

< +∞ si pour toute fonction Lipschitzi<strong>en</strong>ne f <strong>de</strong> rapport [f] lip<br />

< +∞, on a<br />

∣<br />

∣P f(x) − P f(x ′ ) ∣ ∣ ≤ [P ] lip<br />

[f] lip<br />

|x − x ′ |, ∀x, x ′ ∈ R d .<br />

2.1 Quantification marginale<br />

2.1.1 Métho<strong>de</strong><br />

La métho<strong>de</strong> <strong>de</strong> <strong>quantification</strong> marginale consiste dans une première étape à quantifier<br />

vectoriellem<strong>en</strong>t les marginales <strong>de</strong> la chaine <strong>de</strong> Markov. Précisém<strong>en</strong>t, à chaque date<br />

k = 0, . . . , n, on se donne une grille x k = (x 1 k , . . . , xN k<br />

k<br />

) <strong>de</strong> N k points dans R d à laquelle<br />

est associée une partition <strong>de</strong> Voronoi C i (x k ), i = 1, . . . , N k . On considère alors pour<br />

tout k le quantifieur <strong>de</strong> Voronoi <strong>de</strong> X k sur la grille x k :<br />

ˆX k = Proj xk<br />

(X k ) :=<br />

N k<br />

∑<br />

x i k 1 C i (x k )(X k ).<br />

i=1<br />

Notons que l’application projection n’étant pas injective, le processus ( ˆX k ) construit<br />

ainsi ne conserve pas la propriété <strong>de</strong> Markov <strong>de</strong> (X k ). On définit cep<strong>en</strong>dant <strong>de</strong>s matrices<br />

<strong>de</strong> probabilité <strong>de</strong> transition ˆP k = (p ij<br />

k<br />

), k = 1, . . . , n, <strong>de</strong> façon canonique à partir <strong>de</strong>s<br />

ˆX k par :<br />

où<br />

k<br />

:= P[ ˆX k = x j k | ˆX k−1 = x i k−1 ] = βij k<br />

, i = 1, . . . , N k−1 , j = 1, . . . , N k ,<br />

p ij<br />

p i k−1<br />

β ij<br />

k<br />

= P[( ˆX k , ˆX k−1 ) = (x j k , xi k−1 )] = P[(X k, X k−1 ) ∈ C j (x k ) × C i (x k−1 )]<br />

p i k−1 = P[ ˆX k−1 = x i k−1 ] = P[X k−1 ∈ C i (x k−1 )].<br />

sont les masses <strong>de</strong>s cellules <strong>de</strong> Voronoi du couple (X k−1 , X k ) (resp. X k−1 ). On définit<br />

aussi la loi <strong>de</strong> probabilité discrète ˆµ (<strong>de</strong> poids ˆµ i , i = 1, . . . , N 0 ) <strong>de</strong> ˆX 0 quantifieur <strong>de</strong><br />

Voronoi <strong>de</strong> X 0 <strong>de</strong> loi µ :<br />

ˆµ i = p i 0 = P[ ˆX 0 = x i 0] = P[X 0 ∈ C i (x 0 )], i = 1, . . . , N 0 .


QUANTIFICATION D’UNE CHAINE DE MARKOV 28<br />

On approxime alors la loi µP 1 . . . P n <strong>de</strong> (X 0 , . . . , X n ) par la loi discrète ˆµ ˆP 1 . . . ˆP n .<br />

La qualité <strong>de</strong> c<strong>et</strong>te approximation est estimée <strong>en</strong> fonction <strong>de</strong>s erreurs <strong>de</strong> <strong>quantification</strong><br />

à chaque date <strong>et</strong> mesurée comme suit : on introduit l’<strong>en</strong>semble<br />

{<br />

}<br />

Sn+1 d = φ : (R d ) n+1 → R, φ(z 0 , . . . , z n ) = f 0 (z 0 ) . . . f n (z n ) où f i ∈ BL 1 (R d )<br />

<strong>et</strong> on fait l’hypothèse que les probabilités <strong>de</strong> transitions P k <strong>de</strong> la chaine <strong>de</strong> Markov<br />

(X k ) sont Lipchitzi<strong>en</strong>nes. On pose alors<br />

[P ] lip<br />

= max<br />

k=1,...,n [P k] lip<br />

Nous discuterons plus tard c<strong>et</strong>te hypothèse (voir paragraphe 2.1.2).<br />

Afin <strong>de</strong> m<strong>et</strong>tre clairem<strong>en</strong>t <strong>en</strong> évi<strong>de</strong>nce les techniques <strong>de</strong> preuve utilisées, nous comm<strong>en</strong>çons<br />

par regar<strong>de</strong>r l’erreur d’approximation d’une probabilité <strong>de</strong> transition P k par<br />

ˆP k à la date k.<br />

Proposition 2.1.1 Pour tout φ Lipschitzi<strong>en</strong>ne sur R d , on a<br />

∥<br />

∥P k+1 φ(X k ) − ˆP k+1 φ( ˆX ∥ ∥∥Xk<br />

k ) ∥ ≤ [P k+1 ] Lip<br />

[φ] Lip<br />

− ˆX<br />

∥ ∥ ∥∥ ∥∥Xk+1<br />

k + [φ] Lip<br />

− ˆX<br />

∥ ∥∥<br />

k+1 .<br />

2<br />

2<br />

2<br />

Preuve. On écrit<br />

∥<br />

∥P k+1 φ(X k ) − ˆP k+1 φ( ˆX k ) ∥<br />

2<br />

≤<br />

[<br />

∥<br />

∥P k+1 φ(X k ) − E P k+1 φ(X k )| ˆX<br />

]∥ ∥∥<br />

k<br />

2<br />

∥<br />

+ ∥E<br />

[P k+1 φ(X k )| ˆX<br />

]<br />

k − ˆP k+1 φ( ˆX k ) ∥<br />

= I 1 + I 2 .<br />

2<br />

Par définition-caractérisation <strong>de</strong> l’espérance conditionnelle dans L 2 , on a<br />

∥<br />

I 1 ≤ ∥P k+1 φ(X k ) − P k+1 φ( ˆX ∥ ∥∥Xk<br />

k ) ∥ ≤ [P k+1 ] Lip<br />

[φ] Lip<br />

− ˆX<br />

∥ ∥∥<br />

k ,<br />

2<br />

2<br />

d’après la condition <strong>de</strong> Lipschitz sur P k+1 . D’autre part, on a<br />

∥<br />

I 2 = ∥E<br />

[E [φ(X k+1 )| X k ]| ˆX<br />

] [<br />

k − E φ( ˆX k+1 ) ∣ ˆX<br />

]∥ ∥∥<br />

k<br />

2<br />

∥<br />

= ∥E<br />

[φ(X k+1 )| ˆX<br />

] [<br />

k − E φ( ˆX k+1 ) ∣ ˆX<br />

]∥ ∥∥<br />

k<br />

2<br />

∥<br />

≤ ∥φ(X k+1 ) − φ( ˆX ∥ ∥∥Xk+1<br />

k+1 ) ∥ ≤ [φ] Lip<br />

− ˆX<br />

∥ ∥∥<br />

k+1 ,<br />

2<br />

où on a utilisé dans la <strong>de</strong>uxième égalité le fait que ˆX k est σ(X k )-mesurable, <strong>et</strong> dans la<br />

première inégalité la propriété <strong>de</strong> L 2 -contraction <strong>de</strong> l’espérance conditionnelle (ici par<br />

rapport à ˆX k ). On obti<strong>en</strong>t ainsi la relation voulue.<br />

✷<br />

2<br />

Plus généralem<strong>en</strong>t, on a l’erreur d’approximation suivante <strong>de</strong> µP 1 . . . P n par ˆµ ˆP 1 . . . ˆP n .


QUANTIFICATION D’UNE CHAINE DE MARKOV 29<br />

Théorème 2.1.1 Pour tout φ ∈ Sn+1 d on a<br />

(<br />

∣<br />

(µP 1 . . . P n − ˆµ ˆP 1 . . . ˆP<br />

)<br />

n∑<br />

n φ∣<br />

≤ 1 +<br />

k=0<br />

[P ]n−k+1<br />

avec la conv<strong>en</strong>tion (u m − 1)/(u − 1) = m quand u = 1.<br />

lip<br />

− 1<br />

[P ] lip<br />

− 1<br />

)<br />

‖ X k − ˆX k ‖ 2<br />

,<br />

Preuve. Pour tout φ = f 0 . . . f n ∈ Sn+1 d , on introduit les fonctions measurables pour<br />

k = 1, . . . , n sur R d (resp. sur la grille x k ) par :<br />

∫<br />

v k (z) = f k (z) f k+1 (z k+1 ) . . . f n (z n )P k+1 (z, dz k+1 ) . . . P n (z n−1 , dz n ),<br />

∫<br />

ˆv k (z) = f k (z) f k+1 (z k+1 ) . . . f n (z n ) ˆP k+1 (z, dz k+1 ) . . . ˆP n (z n−1 , dz n ),<br />

avec la conv<strong>en</strong>tion que pour k = n, v n = ˆv n = f n . Notons alors que ces fonctions<br />

s’écriv<strong>en</strong>t sous forme récursive par :<br />

v k (z) = f k (z)P k+1 v k+1 (z) = f k (z)E[v k+1 (X k+1 )|X k = z] (2.1)<br />

ˆv k (z) = f k (z) ˆP k+1ˆv k+1 (z) = f k (z)E[ˆv k+1 ( ˆX k+1 )| ˆX k = z], (2.2)<br />

pour k = 1, . . . , n − 1 <strong>et</strong> que<br />

(µP 1 . . . P n − ˆµ ˆP 1 . . . ˆP<br />

) [<br />

n φ = E v 0 (X 0 ) − ˆv 0 ( ˆX<br />

]<br />

0 ) .<br />

∥<br />

On va montrer alors le résultat par induction sur ∥v k (X k ) − ˆv k ( ˆX k ) ∥ .<br />

Etape 1. On a clairem<strong>en</strong>t ‖v k ‖ ∞<br />

≤ 1. De plus, d’après (2.1), on a :<br />

2<br />

[v k ] lip<br />

≤ [f k ] lip<br />

+ [P k+1 v k+1 ] lip<br />

≤ 1 + [P ] lip<br />

[v k+1 ] lip<br />

.<br />

Puisque [v n ] lip<br />

≤ 1, on obti<strong>en</strong>t par induction :<br />

pour tous k = 0, . . . , n.<br />

[v k ] lip<br />

≤<br />

n∑<br />

l=k<br />

[P ] n−l<br />

lip<br />

=<br />

[P ]n−k+1<br />

lip<br />

− 1<br />

[P ] lip<br />

− 1<br />

(2.3)<br />

Etape 2. D’après (2.1)-(2.2), on peut écrire :<br />

∥<br />

∥v k (X k ) − ˆv k ( ˆX ∥<br />

k ) ∥ ≤ ∥v k (X k ) − E[v k (X k )| ˆX k ] ∥<br />

2<br />

2<br />

[(<br />

∥<br />

+ ∥E f k (X k ) − f k ( ˆX<br />

)<br />

k ) P k+1 v k+1 (X k ) ∣ ˆX<br />

]∥ ∥∥<br />

k<br />

2<br />

[<br />

∥<br />

+ ∥E f k ( ˆX<br />

(<br />

k ) P k+1 v k+1 (X k ) − ˆP k+1ˆv k+1 ( ˆX<br />

)∣ ]∥ ∣∣ ∥∥<br />

k ) ˆXk<br />

1<br />

= I 1 + I 2 + I 3 . (2.4)


QUANTIFICATION D’UNE CHAINE DE MARKOV 30<br />

Par la définition même <strong>de</strong> l’espérance conditionnelle, on a :<br />

∥<br />

I 1 ≤ ∥v k (X k ) − v k ( ˆX ∥ ∥∥Xk<br />

k ) ∥ ≤ [v k ] lip<br />

− ˆX<br />

∥ ∥∥<br />

k .<br />

2<br />

2<br />

Comme l’espérance conditionnelle (ici par rapport à ˆX k ) est une L 2 -contraction <strong>et</strong> v k+1<br />

est bornée par 1, on a :<br />

∥<br />

I 2 ≤ ∥f k (X k ) − f k ( ˆX ∥<br />

k ) ∥ ≤ ∥X k − ˆX<br />

∥ ∥∥<br />

k .<br />

2<br />

2<br />

Puisque ˆX k est σ(X k )-measurable <strong>et</strong> <strong>en</strong> rappelant que f k est bornée par 1, on a :<br />

∥<br />

≤ ∥v k+1 (X k+1 ) − ˆv k+1 ( ˆX k+1 ) ∥ .<br />

I 3<br />

En substituant ces estimations <strong>de</strong> I 1 , I 2 <strong>et</strong> I 3 dans (2.4), on a<br />

∥<br />

∥v k (X k ) − ˆv k ( ˆX k ) ∥ ≤ ( ) ∥ 1 + [v k ] lip ∥Xk − ˆX<br />

∥ ∥∥ ∥<br />

k + ∥v k+1 (X k+1 ) − ˆv k+1 ( ˆX k+1 ) ∥ .<br />

2<br />

2<br />

2<br />

∥<br />

Comme ∥v n (X n ) − ˆv n ( ˆX ∥<br />

n ) ∥ ≤ ∥X n − ˆX<br />

∥ ∥∥<br />

n une récurr<strong>en</strong>ce immédiate donne :<br />

2,<br />

∥<br />

∥v k (Z k ) − ˆv k (Ẑk) ∥<br />

2<br />

1<br />

≤<br />

n∑ ( ) ∥ 1 + [vl ] lip ∥Xl − ˆX<br />

∥ ∥∥<br />

l .<br />

2<br />

On obti<strong>en</strong>t le résultat voulu <strong>en</strong> pr<strong>en</strong>ant k = 0 <strong>et</strong> <strong>en</strong> substituant l’estimation (2.3).<br />

2.1.2 Exemple<br />

Un exemple courant <strong>de</strong> chaine <strong>de</strong> Markov est donné par la dynamique :<br />

l=k<br />

X k+1 = F (X k , ε k+1 ), k = 0, . . . , n − 1.<br />

où (ε k ) k est une suite <strong>de</strong> variables i.i.d. c<strong>en</strong>trée <strong>et</strong> <strong>de</strong> carré intégrable (e.g. un bruit blanc<br />

gaussi<strong>en</strong> standard) indép<strong>en</strong>dant <strong>de</strong> X 0 <strong>et</strong> F est une fonction mesurable correspondant<br />

au schéma d’Euler <strong>de</strong> pas δ = T/n d’une diffusion sur [0, T ] :<br />

F (x, ε) = x + b(x)δ + σ(x) √ δε.<br />

Notons P = P k , k = 0, . . . , n, la probabilité <strong>de</strong> transition <strong>de</strong> c<strong>et</strong>te chaine <strong>de</strong> Markov<br />

homogène. Le résultat suivant montre la propriété <strong>de</strong> Lipschitz <strong>de</strong> P .<br />

Proposition 2.1.2 Supposons que les coeffici<strong>en</strong>ts b <strong>et</strong> σ soi<strong>en</strong>t Lipschitzi<strong>en</strong>s sur R d .<br />

Alors il existe une constante notée [F ] lip<br />

telle que<br />

[P ] lip<br />

≤ [F ] lip<br />

≤ 1 + cδ, (2.5)<br />

‖F (x, ε 1 ) − F (x ′ , ε 1 )‖ 2<br />

≤ [F ] lip<br />

|x − x ′ |, ∀x, x ′ ∈ R d (2.6)<br />

où c est une constante (dép<strong>en</strong>dant <strong>de</strong> T , [b] lip<br />

, [σ] lip<br />

, E|ε 1 | 2 ) mais indép<strong>en</strong>dante <strong>de</strong> δ.<br />

2<br />


QUANTIFICATION D’UNE CHAINE DE MARKOV 31<br />

Preuve. Pour tous x, x ′ , on a<br />

∣<br />

∣F (x, ε 1 ) − F (x ′ , ε 1 ) ∣ ∣ 2 = |x − x ′ | 2 + |b(x) − b(x ′ )| 2 δ 2 + |σ(x) − σ(x ′ )| 2 δε 2 1<br />

+ (x − x ′ ).(b(x) − b(x ′ ))δ + (x − x ′ ).(σ(x) − σ(x ′ )) √ δε 1<br />

+ (b(x) − b(x ′ )).(σ(x) − σ(x ′ ))δ 3/2 ε 1 .<br />

Sous la condition <strong>de</strong> Lipschitz sur b, σ <strong>et</strong> puisque E[ε 1 ] = 0, E[|ε 1 | 2 ] < +∞, on <strong>en</strong><br />

déduit que<br />

E ∣ ∣F (x, ε 1 ) − F (x ′ , ε 1 ) ∣ ∣ 2 ≤ |x − x ′ | 2 (1 + cδ)<br />

d’où (2.6) avec [F ] lip<br />

≤ 1+cδ. Finalem<strong>en</strong>t, <strong>en</strong> notant que pour toute fonction mesurable<br />

f sur R d , on a P f(x) = E[f(F (x, ε 1 ))], on <strong>en</strong> déduit [P ] lip<br />

≤ [F ] lip<br />

✷<br />

2.1.3 Quantification <strong>optimale</strong><br />

L’estimation d’erreur obt<strong>en</strong>ue dans le théorème 2.1.1 est valable pour n’importe<br />

quelle grille x k à chaque date k. Pour minimiser c<strong>et</strong>te borne d’erreur sur l’approximation<br />

<strong>de</strong> la loi <strong>de</strong> (X 0 , . . . , X n ), on va chercher à minimiser à chaque date k l’erreur <strong>de</strong><br />

<strong>quantification</strong>, i.e. appliquer la <strong>quantification</strong> <strong>optimale</strong> à chaque marginale X k . C<strong>et</strong>te<br />

phase d’optimisation à chaque date k est m<strong>en</strong>ée selon la métho<strong>de</strong> décrite au chapitre<br />

précé<strong>de</strong>nt. Un cas particulièrem<strong>en</strong>t intéressant pour les calculs est lorsque le processus<br />

X est stationnaire <strong>et</strong> donc chaque marginale X k est i<strong>de</strong>ntiquem<strong>en</strong>t distribuée. En eff<strong>et</strong><br />

dans ce cas une seule procédure d’optimisation pour X 0 est requise. Sinon <strong>de</strong> façon<br />

générale, les phases d’optimisation (sélection + appr<strong>en</strong>tissage) <strong>de</strong> l’algorithme <strong>de</strong> Kohon<strong>en</strong><br />

à chaque date k peuv<strong>en</strong>t se conduire indép<strong>en</strong>damm<strong>en</strong>t dès lors qu’on a simulé<br />

un échantillon <strong>de</strong> (X 0 , . . . , X n ). Les probabilités <strong>de</strong> transition p ij<br />

k<br />

sont estimées par<br />

estimation <strong>de</strong> Monte-Carlo <strong>de</strong>s probabilités jointes β ij<br />

k <strong>et</strong> marginales pi k−1 .<br />

D’après le théorème <strong>de</strong> Zador, pour une <strong>quantification</strong> <strong>optimale</strong> <strong>de</strong> chaque marginale<br />

X k , <strong>et</strong> avec un nombre total <strong>de</strong> points N à répartir <strong>en</strong>tre les n + 1 dates k =<br />

0, . . . , n, on obti<strong>en</strong>t dans le cas typique <strong>de</strong> l’exemple 2.1.2 un taux <strong>de</strong> converg<strong>en</strong>ce <strong>de</strong><br />

l’ordre :<br />

n 1+1/d<br />

N 1/d .<br />

2.2 Application à l’arrêt optimal <strong>et</strong> aux options américaines<br />

On note T n l’<strong>en</strong>semble <strong>de</strong>s temps d’arrêts par rapport à la filtration (F k ) <strong>en</strong>g<strong>en</strong>drée<br />

par (X k ) à valeurs dans T = {0, . . . , n}. Pour simplifier, on suppose que F 0 est trivial,<br />

i.e. X 0 = x 0 est déterministe <strong>et</strong> donc connu à la date 0. Etant donné une fonction<br />

mesurable f sur T × R d , on considère le problème d’arrêt optimal à horizon fini n :<br />

U 0 = sup<br />

τ∈T n<br />

E[f(τ, X τ )]


QUANTIFICATION D’UNE CHAINE DE MARKOV 32<br />

Ce problème est motivé <strong>en</strong> finance par le calcul d’options américaines (<strong>en</strong> fait ici<br />

bermudé<strong>en</strong>nes car les dates d’exercice <strong>de</strong> l’options sont discrètes). Dans ce cas, (X k ), k<br />

= 0, . . . , n, représ<strong>en</strong>te le processus <strong>de</strong> prix d’une action aux dates t k = kδ, où δ > 0 est<br />

le délai <strong>en</strong>tre <strong>de</strong>ux dates possibles d’exercice d’une option <strong>de</strong> flux g(X k ), r est le taux<br />

d’intérêt <strong>et</strong> f(k, x) = e −rt kg(x). Dans le cas d’un modèle à volatilité stochastique, (X k )<br />

peut représ<strong>en</strong>ter aussi le couple prix-volatilité. Par exemple, (X k ) est la discrétisation<br />

par schéma d’Euler <strong>de</strong> pas δ d’un modèle <strong>de</strong> diffusion pour le couple prix-volatilité<br />

(voir exemple 2.1.2).<br />

On va adopter la métho<strong>de</strong> <strong>de</strong> la programmation dynamique pour calculer U 0 . On<br />

introduit l’<strong>en</strong>veloppe <strong>de</strong> Snell <strong>de</strong> (f(k, X k )) :<br />

U k = ess sup<br />

τ∈T k,n<br />

E[f(τ, X τ )|F k ], k = 0, . . . , n,<br />

où T k,n désigne l’<strong>en</strong>semble <strong>de</strong>s temps d’arrêts à valeurs dans {k, . . . , n}. U k est donc <strong>en</strong><br />

finance le prix <strong>de</strong> l’option bermudé<strong>en</strong>ne à la date k. Le principe <strong>de</strong> la programmation<br />

dynamique stipule que U k s’exprime sous forme récursive par :<br />

U n = f(n, X n )<br />

U k = max (f(k, X k ) , E[U k+1 |F k ]) , k = 0, . . . , n − 1.<br />

Ceci signifie qu’à chaque date k, on a le choix <strong>en</strong>tre arréter le processus <strong>et</strong> recevoir<br />

comme gain f(k, X k ) ou continuer <strong>et</strong> recevoir comme gain espéré E[U k+1 |F k ]. De plus,<br />

par la propriété <strong>de</strong> Markov <strong>de</strong> (X k ), pour toute date k, il existe une fonction mesurable<br />

v k sur R d telle que<br />

U k = v k (X k ).<br />

On doit donc calculer la suite <strong>de</strong> fonctions (v k ) qui s’exprime par le principe <strong>de</strong> la<br />

programmation dynamique sous forme récursive comme :<br />

v n (x) = f(n, x), ∀x ∈ R d<br />

v k (x) = max (f(k, x) , E[v k+1 (X k+1 )|X k = x]) , ∀x ∈ R d , k = 0, . . . , n − 1.<br />

On est donc ram<strong>en</strong>é à un calcul successif d’espérances conditionnelles faisant interv<strong>en</strong>ir<br />

les probabilités <strong>de</strong> transitions <strong>de</strong>s X k .<br />

Nous allons approximer les U k par une <strong>quantification</strong> marginale <strong>de</strong> (X k ) telle que<br />

décrite au paragraphe précé<strong>de</strong>nt. Pour chaque k = 0, . . . , n, on note par ˆX k le quantifieur<br />

<strong>de</strong> Voronoi <strong>de</strong> X k sur une grille x k = (x 1 k , . . . , xN k<br />

k<br />

) associée à une partition <strong>de</strong><br />

Voronoi C i (x k ), i = 1, . . . , N k . Notons qu’à la date k = 0, puisque X 0 est supposé<br />

déterministe égal à x 0 , on choisit évi<strong>de</strong>mm<strong>en</strong>t N 0 = 1 <strong>et</strong> ˆX 0 = x 0 . On approxime alors


QUANTIFICATION D’UNE CHAINE DE MARKOV 33<br />

la suite <strong>de</strong> fonctions (v k ) par la suite <strong>de</strong> fonctions (ˆv k ) où ˆv k défini sur la grille x k se<br />

calcule explicitem<strong>en</strong>t <strong>de</strong> façon récursive par :<br />

ˆv n (x) = f(n, x) ∀x ∈ x n<br />

(<br />

ˆv k (x) = max f(k, x) , E[ˆv k+1 ( ˆX k+1 )| ˆX<br />

)<br />

k = x] , ∀x ∈ x k , k = 0, . . . , n − 1,<br />

Ceci s’écrit <strong>en</strong>core algorithmiquem<strong>en</strong>t comme :<br />

ˆv n (x i n) = f(n, x i n) i = 1, . . . , N n<br />

⎛<br />

⎞<br />

N k+1<br />

ˆv k (x i k ) = max ⎝f(k, x i k ) , ∑<br />

p ij<br />

k+1ˆv k+1(x j k+1 ) ⎠ , i = 1, . . . , N k , k = 0, . . . , n − 1,<br />

j=1<br />

où ˆP k = (p ij<br />

k ) est la matrice <strong>de</strong> probabilité <strong>de</strong> transition <strong>de</strong> ˆX k−1 à ˆX k . Ceci conduit à<br />

une approximation <strong>de</strong>s U k par<br />

Û k = ˆv k ( ˆX k ), k = 0, . . . , n.<br />

On obti<strong>en</strong>t alors l’estimation d’erreur suivante. On fait l’hypothèse que pour tout<br />

k, les fonctions f k := f(k, .) sont Lipschizti<strong>en</strong>nes <strong>et</strong> on pose<br />

[f] lip<br />

= max<br />

k=0,...,n [f k] lip<br />

.<br />

On suppose aussi que les probabilités <strong>de</strong> transition P k <strong>de</strong> la chaine <strong>de</strong> Markov sont<br />

Lipschitzi<strong>en</strong>nes.<br />

Théorème 2.2.2 Pour tout k = 0, . . . , n, on a<br />

∥<br />

∥U k − Ûk<br />

∥<br />

∥<br />

2<br />

≤ [f] lip<br />

n∑<br />

j=k<br />

[P ] n−j+1 − 1<br />

lip ∥<br />

∥X j −<br />

[P ] lip<br />

− 1<br />

ˆX<br />

∥ ∥∥<br />

j<br />

2<br />

Preuve. Le schéma <strong>de</strong> la preuve est similaire à celui du théorème 2.1.1.<br />

Etape 1. D’après l’expression récursive <strong>de</strong> v k , on a :<br />

[v k ] lip<br />

≤ [f k ] lip<br />

+ [P k+1 v k+1 ] lip<br />

≤ [f] lip<br />

+ [P ] lip<br />

[v k+1 ] lip<br />

.<br />

Puisque [v n ] lip<br />

≤ [f] lip<br />

, on obti<strong>en</strong>t par induction :<br />

n∑<br />

[v k ] lip<br />

≤ [f] lip<br />

[P ] n−l [P ] n−k+1 − 1<br />

lip<br />

= [f]<br />

lip lip<br />

, k = 0, . . . , n. (2.7)<br />

[P ] lip<br />

− 1<br />

l=k


QUANTIFICATION D’UNE CHAINE DE MARKOV 34<br />

Etape 2. D’après l’expression récursive <strong>de</strong> v k <strong>et</strong> <strong>en</strong> utilisant l’inégalité triviale | max(a, b)−<br />

max(a ′ , b ′ )| ≤ max(|a − a ′ |, |b − b ′ |), on a<br />

∥<br />

∥<br />

∥U k − Ûk∥<br />

= ∥v k (X k ) − ˆv k ( ˆX k ) ∥<br />

2<br />

2<br />

∥<br />

≤ ∥f k (X k ) − f k ( ˆX ∥<br />

k ) ∥ + ∥P k+1 v k+1 (X k ) − ˆP k+1ˆv k+1 ( ˆX k ) ∥<br />

2<br />

2<br />

∥ ∥∥Xk<br />

≤ [f] lip<br />

− ˆX<br />

∥ ∥∥ ∥<br />

k + ∥P k+1 v k+1 (X k ) − E[P k+1 v k+1 (X k )| ˆX k ] ∥<br />

2 2<br />

∥<br />

+ ∥E[P k+1 v k+1 (X k )| ˆX k ] − ˆP k+1ˆv k+1 ( ˆX k ) ∥<br />

2<br />

∥ ∥∥Xk<br />

≤ [f] lip<br />

− ˆX<br />

∥ ∥∥ ∥<br />

k + ∥P k+1 v k+1 (X k ) − P k+1 v k+1 ( ˆX k ) ∥<br />

2 2<br />

∥<br />

+ ∥v k+1 (X k+1 ) − ˆv k+1 ( ˆX k+1 ) ∥ ,<br />

où on a utilisé dans la <strong>de</strong>rnière inégalité la définition même <strong>de</strong> l’espérance conditionnelle<br />

<strong>et</strong> la loi <strong>de</strong>s espérances conditionnelles itérées avec le fait que ˆX k est σ(X k )-mesurable.<br />

On obti<strong>en</strong>t alors<br />

∥<br />

∥U k − Ûk<br />

∥<br />

∥<br />

2<br />

∥<br />

Puisque ∥U n − Ûn∥<br />

2<br />

∥<br />

∥U k − Ûk<br />

≤ ( ) ∥ [f] lip<br />

+ [P ] lip<br />

[v k+1 ] lip ∥Xk − ˆX<br />

∥ ∥∥ ∥<br />

∥<br />

k + ∥U k+1 − Ûk+1<br />

2<br />

≤ [f] lip<br />

∥ ∥∥Xn<br />

− ˆX n<br />

∥ ∥∥<br />

2, une induction directe donne :<br />

∥<br />

∥<br />

2<br />

≤<br />

n∑ ( ) ∥ [f]lip + [P ] lip<br />

[v j+1 ] lip ∥Xj − ˆX<br />

∥ ∥∥<br />

j<br />

2<br />

j=k<br />

2<br />

∥<br />

2<br />

avec la conv<strong>en</strong>tion que [v n+1 ] lip<br />

l’estimation voulue.<br />

= 0. En substituant (2.7) dans c<strong>et</strong>te inégalité, on a<br />

✷<br />

Remarque 2.2.1 D’après le théorème <strong>de</strong> Zador, pour une <strong>quantification</strong> <strong>optimale</strong><br />

<strong>de</strong> chaque marginale X k , <strong>et</strong> avec un nombre total <strong>de</strong> points N à répartir <strong>en</strong>tre les<br />

n + 1 dates k = 0, . . . , n, on obti<strong>en</strong>t dans le cas typique <strong>de</strong> l’exemple 2.1.2 un taux <strong>de</strong><br />

converg<strong>en</strong>ce <strong>de</strong> l’ordre :<br />

n 1+1/d<br />

N 1/d .<br />

Proj<strong>et</strong> 6. Calculer dans un modèle à volatilité stochastique le prix du Put américain.


Chapitre 3<br />

Filtrage <strong>et</strong> <strong>quantification</strong><br />

Le filtrage consiste à estimer l’état d’un système dynamique (évoluant au cours du<br />

temps) à partir d’observations bruitées. Formellem<strong>en</strong>t, on a un signal (X k ), k ≥ 0, qui<br />

représ<strong>en</strong>te un système qu’on cherche à estimer ou à prédire : typiquem<strong>en</strong>t, X peut être<br />

l’évolution <strong>de</strong> la température, d’un véhicule (avion, sous-marin ...) ou <strong>en</strong>core <strong>en</strong> finance<br />

la volatilité d’un actif risqué, <strong>et</strong> l’aléa du signal est dû aux incertitu<strong>de</strong>s du modèle. On<br />

dispose alors d’une suite d’observations (Y k ), k ≥ 0, obt<strong>en</strong>ues à partir d’informations<br />

partielles <strong>et</strong> bruitées du signal. Ce sont typiquem<strong>en</strong>t les capteurs s<strong>en</strong>soriels <strong>de</strong> détection<br />

du véhicule ou <strong>en</strong>core <strong>en</strong> finance le prix <strong>de</strong> l’actif risqué. Le bruit <strong>de</strong>s observations<br />

représ<strong>en</strong>te les incertitu<strong>de</strong>s du modèle comme les erreurs d’observation. L’objectif est<br />

<strong>de</strong> calculer :<br />

- la loi <strong>de</strong> X n sachant Y 0 , . . . , Y n : c’est le filtrage<br />

- la loi <strong>de</strong> X n sachant Y 0 , . . . , Y n−1 : c’est la prédiction.<br />

Nous étudions d’abord le cas dit du filtre linéaire, i.e. lorsque le couple signal/observation<br />

forme un suite <strong>de</strong> variables gaussi<strong>en</strong>nes, <strong>et</strong> pour lequel la résolution du filtre<br />

est explicite, <strong>et</strong> nous servira <strong>de</strong> test pour les illustrations numériques. Nous considérons<br />

<strong>en</strong>suite le cas général, dit du filtre non linéaire qui conduit à <strong>de</strong>s équations d’état <strong>en</strong><br />

dim<strong>en</strong>sion infinie. On utilisera alors les métho<strong>de</strong>s <strong>de</strong> <strong>quantification</strong> pour approximer<br />

numériquem<strong>en</strong>t le filtre.<br />

3.1 Filtrage linéaire<br />

3.1.1 Rappel sur les variables gaussi<strong>en</strong>nes<br />

Les variables aléatoires gaussi<strong>en</strong>nes <strong>et</strong> les systèmes linéaires gaussi<strong>en</strong>s jou<strong>en</strong>t un<br />

rôle important dans la modélisation <strong>et</strong> le traitem<strong>en</strong>t du signal. Par exemple, d’après le<br />

théorème c<strong>en</strong>tral limite, la distribution gaussi<strong>en</strong>ne est universelle <strong>en</strong> ce s<strong>en</strong>s que tout<br />

phénomène résultant <strong>de</strong> l’accumulation d’un grand nombre <strong>de</strong> p<strong>et</strong>its aléas indép<strong>en</strong>dants<br />

35


FILTRAGE ET QUANTIFICATION 36<br />

suit approximativem<strong>en</strong>t une loi gaussi<strong>en</strong>ne. Ceci explique <strong>en</strong> partie que les variables<br />

aléatoires gaussi<strong>en</strong>nes sont l’un <strong>de</strong>s modèles stochastiques fondam<strong>en</strong>taux. Ces distributions<br />

offr<strong>en</strong>t aussi l’avantage d’être caractérisées uniquem<strong>en</strong>t par <strong>de</strong>ux paramètres :<br />

la moy<strong>en</strong>ne <strong>et</strong> la matrice <strong>de</strong> covariance.<br />

Un vecteur aléatoire Z = (Z 1 , . . . , Z d ) <strong>de</strong> dim<strong>en</strong>sion d sur (Ω, F, P) est dit gaussi<strong>en</strong><br />

si toute combinaison linéaire <strong>de</strong>s composantes du vecteur X est une variable aléatoire<br />

réelle gaussi<strong>en</strong>ne (normale), i.e. pour tout u ∈ R d , u.Z est gaussi<strong>en</strong>. On note Z ∼<br />

N (µ, Σ) où m = E(Z) est la moy<strong>en</strong>ne <strong>de</strong> Z <strong>et</strong> Σ sa matrice (symétrique-positive) <strong>de</strong><br />

covariance :<br />

Sa fonction caractéristique est<br />

Σ ij = E[(Z i − E(Z i )(Z j − E(Z j ))].<br />

Φ Z (u) := E[e iu.Z ] = exp<br />

(iu.m − 1 2 u.Σu )<br />

.<br />

Si la matrice Σ est inversible, la loi <strong>de</strong> Z adm<strong>et</strong> une <strong>de</strong>nsité :<br />

(<br />

1<br />

p Z<br />

(z) = √ exp − 1 )<br />

(2π) d 2 <strong>de</strong>t(Σ) 2 (z − m).Σ−1 (z − m) .<br />

Soit Z = (X, Y ) un vecteur gaussi<strong>en</strong> <strong>de</strong> dim<strong>en</strong>sion p + q <strong>de</strong> matrice <strong>de</strong> covariance :<br />

(<br />

)<br />

Σ<br />

Σ =<br />

X<br />

Σ XY<br />

, ( avec Σ<br />

Σ Y X<br />

Σ XY<br />

= Σ ′ ). Y X<br />

Y<br />

X <strong>et</strong> Y sont indép<strong>en</strong>dants ssi Σ XY<br />

= 0. On a aussi la propriété fondam<strong>en</strong>tale qui nous<br />

servira plus tard sur la loi conditionnelle.<br />

Proposition 3.1.1 Si la matrice Σ Y<br />

est inversible, alors la loi <strong>de</strong> X sachant Y est<br />

gaussi<strong>en</strong>ne <strong>de</strong> moy<strong>en</strong>ne (linéaire <strong>en</strong> Y )<br />

E[X|Y ] = E[X] + Σ XY<br />

Σ −1 (Y − E[Y ]),<br />

Y<br />

<strong>et</strong> <strong>de</strong> matrice <strong>de</strong> covariance (indép<strong>en</strong>dante <strong>de</strong> Y )<br />

Σ X|Y<br />

:= E [ (X − E[X|Y ])(X − E[X|Y ]) ′] = Σ X<br />

− Σ XY<br />

Σ −1<br />

Y Σ Y X .<br />

Preuve. On note m X<br />

= E[X], m Y<br />

= E[Y ], ˆX(y) le candidat pour E[X|Y = y] :<br />

<strong>et</strong> R celui pour Σ X|Y<br />

:<br />

ˆX(y) = m X<br />

+ Σ XY<br />

Σ −1<br />

Y (y − m Y ),<br />

R = Σ X<br />

− Σ XY<br />

Σ −1<br />

Y Σ Y X .


FILTRAGE ET QUANTIFICATION 37<br />

On va montrer que la fonction caractéristique Φ X|Y =y<br />

sachant Y = y est égale à<br />

exp<br />

(iu. ˆX(y) − 1 )<br />

2 u.Ru ,<br />

<strong>de</strong> la loi conditionnelle <strong>de</strong> X<br />

i.e. c’est la loi gaussi<strong>en</strong>ne <strong>de</strong> moy<strong>en</strong>ne ˆX(y) <strong>et</strong> <strong>de</strong> matrice <strong>de</strong> covariance R. Pour cela,<br />

on note que Φ X|Y =y<br />

est caractérisée par :<br />

Φ X,Y<br />

(u, v) = E [ e iu.X+iv.Y ] = E [ e iv.Y E [ e iu.X∣ ∣ Y ]]<br />

∫<br />

= e iv.y Φ X|Y =y<br />

(u)p Y<br />

(y)dy.<br />

D’autre part, on vérifie aisém<strong>en</strong>t <strong>en</strong> substituant les expressions <strong>de</strong> ˆX(y) <strong>et</strong> R, <strong>et</strong> les<br />

expressions <strong>de</strong> la fonction caractéristique <strong>de</strong> Y <strong>et</strong> (X, Y ) que<br />

∫<br />

e iv.y exp<br />

(iu. ˆX(y) − 1 )<br />

2 u.Ru p Y<br />

(y)dy<br />

= exp<br />

(iu.m X<br />

+ iv.m Y<br />

− 1 2 u.Σ u − u.Σ v − 1 )<br />

X XY<br />

2 v.Σ v Y<br />

= Φ X,Y<br />

(u, v).<br />

Par injectivité <strong>de</strong> la transformée <strong>de</strong> Fourier, ceci prouve que<br />

Φ X|Y =y<br />

(u) = exp<br />

(iu. ˆX(y) − 1 )<br />

2 u.Ru .<br />

3.1.2 Filtre <strong>de</strong> Kalman-Bucy<br />

Le modèle linéaire gaussi<strong>en</strong> pour le couple signal-observation est défini par :<br />

✷<br />

X n = AX n−1 + Bε n<br />

Y n = CX n + η n ,<br />

où A, B <strong>et</strong> C sont <strong>de</strong>s matrices constantes <strong>de</strong> dim<strong>en</strong>sions appropriées.<br />

On suppose que (X 0 , ε, η) sont <strong>de</strong>s variables indép<strong>en</strong>dantes gaussi<strong>en</strong>nes. Les bruits<br />

gaussi<strong>en</strong>s ε n , η n , n ≥ 0 sont c<strong>en</strong>trées, <strong>et</strong> on note Σ ε n <strong>et</strong> Σ η n leurs matrices <strong>de</strong> covariance,<br />

supposées inversibles. La moy<strong>en</strong>ne <strong>et</strong> la variance <strong>de</strong> la variable gaussi<strong>en</strong>ne X 0 est notée<br />

m 0 <strong>et</strong> Σ X 0 .<br />

On note par Π n la loi du filtre <strong>et</strong> Π − n celle <strong>de</strong> la prédiction :<br />

Π n (dx) = P(X n ∈ dx|Y 0 , . . . , Y n )<br />

Π − n (dx) = P(X n ∈ dx|Y 0 , . . . , Y n−1 ).


FILTRAGE ET QUANTIFICATION 38<br />

Notons que l’espace vectoriel <strong>en</strong>g<strong>en</strong>dré par (X 0 , . . . , X n , Y 0 , . . . , Y n ) est égal à celui<br />

<strong>en</strong>g<strong>en</strong>dré par (X 0 , ε 0 , . . . , ε n , η 0 , η n ) qui est gaussi<strong>en</strong> par hypothèse. On <strong>en</strong> déduit que<br />

Π n <strong>et</strong> Π − n sont <strong>de</strong>s lois gaussi<strong>en</strong>nes :<br />

Π n (dx) = N ( ¯X n , ¯Σ n )<br />

Π − n (dx) = N ( ¯X − n , ¯Σ − n )<br />

<strong>de</strong> moy<strong>en</strong>nes <strong>et</strong> variances conditionnelles notées :<br />

¯X n = E[X n |Y 0 , . . . , Y n ], ¯Σn = E[(X n − ¯X n )(X n − ¯X n ) ′ ]<br />

¯X − n = E[X n |Y 0 , . . . , Y n−1 ], ¯Σ− n = E[(X n − ¯X − n )(X n − ¯X − n ) ′ ].<br />

Nous allons montrer que le calcul <strong>de</strong> ces moy<strong>en</strong>nes <strong>et</strong> variances conditionnelles peut<br />

être m<strong>en</strong>é explicitem<strong>en</strong>t <strong>de</strong> manière inductive selon <strong>de</strong>ux étapes :<br />

• Une étape <strong>de</strong> correction/mise à jour<br />

( ) ( )<br />

¯X− n<br />

¯Xn<br />

−→ ,<br />

¯Σ n<br />

¯Σ − n<br />

qui utilise la nouvelle observation Y n <strong>de</strong> la date n,<br />

• Une étape <strong>de</strong> prédiction<br />

( ) ( ¯Xn<br />

¯X−<br />

−→ n+1<br />

¯Σ n<br />

¯Σ − n+1<br />

)<br />

,<br />

qui utilise la transition du signal <strong>de</strong> la date n à n + 1.<br />

Partant d’une condition initiale donnée par ¯X 0 − = m 0, ¯Σ − 0 = ΣX 0 , on a donc un<br />

calcul explicite du filtre (<strong>et</strong> <strong>de</strong> la prédiction), appelé filtre <strong>de</strong> Kalman-Bucy.<br />

Etape <strong>de</strong> correction/mise à jour :<br />

Notons que puisque les vecteurs (X n , Y 0 , . . . , Y n−1 ) <strong>et</strong> (Y 0 , . . . , Y n ) sont gaussi<strong>en</strong>s, il <strong>en</strong><br />

est <strong>de</strong> même <strong>de</strong> ¯X n<br />

− <strong>et</strong> <strong>de</strong> la variable<br />

Ȳ − n = E[Y n |Y 0 , . . . , Y n−1 ].<br />

On <strong>en</strong> déduit aussi que le couple <strong>de</strong> vecteurs<br />

( ˜X n , Ỹn) = (X n − ¯X − n , Y n − Ȳ − n )<br />

est gaussi<strong>en</strong> c<strong>en</strong>tré, avec une loi gaussi<strong>en</strong>ne conditionnelle caractérisée d’après la proposition<br />

3.1.1 par :<br />

[<br />

E<br />

E[ ˜X n |Ỹn] = Σ Σ−1<br />

˜Xn<br />

Ỹ Ỹn n (3.1)<br />

Ỹn<br />

( ˜X n − E[ ˜X n |Ỹn])( ˜X n − E[ ˜X n |Ỹn]) ′] = Σ ˜Xn<br />

− Σ ˜Xn Ỹn Σ−1 Ỹn<br />

ΣỸn ˜Xn<br />

. (3.2)


FILTRAGE ET QUANTIFICATION 39<br />

Par définition, on a<br />

Σ ˜Xn<br />

= ¯Σ − n . (3.3)<br />

De plus, notons que Ȳ n<br />

−<br />

a donc<br />

= E(CX n + η n |Y 0 , . . . , Y n−1 ) = C ¯X − n , <strong>et</strong> Ỹn = C ˜X n + η n . On<br />

Σ ˜Xn Ỹn<br />

= E( ˜X n Ỹ ′ n) = ¯Σ − n C ′ (3.4)<br />

ΣỸn = C ¯Σ − n C ′ + Σ η n. (3.5)<br />

D’autre part, puisque pour toute fonction mesurable ϕ :<br />

[ ]<br />

E ˜Xn ϕ(Y 0 , . . . , Y n−1 ) = E [(X n − E[X n |Y 0 , . . . , Y n−1 ]) ϕ(Y 0 , . . . , Y n−1 )] = 0,<br />

alors ˜X n <strong>et</strong> (Y 0 , . . . , Y n−1 ) sont <strong>de</strong>s variables gaussi<strong>en</strong>nes noncorrelés, <strong>et</strong> donc indép<strong>en</strong>dantes.<br />

On <strong>en</strong> déduit<br />

[ ] [ ]<br />

E ˜Xn |Y 0 , . . . , Y n−1 , Y n = E ˜Xn |Y 0 , . . . , Y n−1 , Ỹn = E[ ˜X n |Ỹn].<br />

On a alors<br />

¯X n = ¯X − n + E [ X n − ¯X − n |Y 0 , . . . , Y n<br />

]<br />

= ¯X− n + E[ ˜X n |Ỹn]<br />

= ¯X − n + ¯Σ − n C ′ (C ¯Σ − n C ′ + Σ η n) −1 (Y n − C ¯X − n ),<br />

avec (3.1) <strong>et</strong> <strong>en</strong> notant que Ỹn = C ˜X n + ε n = Y n − C ¯X − n . En écrivant<br />

X n − ¯X n = X n − ¯X − n − ( ¯X n − ¯X − n ) = ˜X n − E[ ˜X n |Ỹn],<br />

<strong>et</strong> <strong>en</strong> utilisant (3.2)-(3.3)-(3.4)-(3.5), on obti<strong>en</strong>t<br />

¯Σ n = ¯Σ − n − ¯Σ − n C ′ (C ¯Σ − n C ′ + Σ η n) −1 C ¯Σ − n .<br />

On résume les résultats ci-<strong>de</strong>ssus <strong>en</strong> écrivant les relations <strong>de</strong> correction/mise à jour :<br />

où K n est la matrice dite <strong>de</strong> gain :<br />

Etape <strong>de</strong> prédiction :<br />

¯X n = ¯X − n + K n (Y n − C ¯X − n ) (3.6)<br />

¯Σ n = [I − K n C]¯Σ − n , (3.7)<br />

K n = ¯Σ − n C ′ (C ¯Σ − n C ′ + Σ η n) −1 . (3.8)<br />

C<strong>et</strong>te étape est plus simple que la précé<strong>de</strong>nte car elle ne dép<strong>en</strong>d plus <strong>de</strong>s observations.<br />

On écrit<br />

¯X − n+1 = E [X n+1 |Y 0 , . . . , Y n ] = AE [X n |Y 0 , . . . , Y n ] = A ¯X n .


FILTRAGE ET QUANTIFICATION 40<br />

On a alors aussi<br />

¯Σ − n+1 = E [ (X n+1 − ¯X − n+1 )(X n+1 − ¯X − n+1 )′]<br />

= E [ (A(X n − ¯X n ) + Bε n )(A(X n − ¯X n ) + Bε n ) ′]<br />

= A¯Σ n A ′ + BΣ ε nB ′ .<br />

Les relations <strong>de</strong> prédiction s’écriv<strong>en</strong>t donc :<br />

¯X − n+1 = A ¯X n (3.9)<br />

¯Σ − n+1 = A¯Σ n A ′ + BΣ ε nB ′ . (3.10)<br />

Remarque 3.1.1 Les suites (Σ − n ) <strong>et</strong> (Σ n ) ne dép<strong>en</strong><strong>de</strong>nt pas <strong>de</strong>s observations (Y n ). Ils<br />

peuv<strong>en</strong>t donc être pré-calculées.<br />

Exemple<br />

Considérons l’exemple d’un modèle unidim<strong>en</strong>sionnel signal/observation :<br />

X n = aX n−1 + ε n<br />

Y n = cX n + η n ,<br />

avec X 0 , ε n , η n i.i.d. ∼ N (0, 1) <strong>et</strong> a, c ∈ R.<br />

On a ¯X − 0 = 0, ¯Σ − 0 = 1 <strong>et</strong> donc d’après (3.6)-(3.7) <strong>et</strong> (3.8) : K 0 = c¯Σ − 0<br />

c 2 ¯Σ − 0 +1 =<br />

¯X 0 = ¯X − 0 + K 0(Y 0 − c ¯X − 0 ) = K 0Y 0 , ¯Σ0 = (1 − cK 0 )¯Σ − 0 = K 0<br />

c .<br />

A la date n, on a par définition <strong>de</strong> la matrice <strong>de</strong> gain K n =<br />

c<br />

1+c 2 <strong>et</strong><br />

c¯Σ −<br />

n<br />

c 2 ¯Σ . D’après l’étape<br />

−<br />

n +1<br />

<strong>de</strong> prédiction (3.10), on a Σ − n = a 2 ¯Σn−1 + 1. D’autre part, avec l’étape <strong>de</strong> correction<br />

(3.7), on a ¯Σ<br />

(<br />

n = (1 − cK n )¯Σ − n = 1 − c2 ¯Σ − n<br />

c 2 ¯Σ − n +1<br />

= a 2 K n−1 + c, d’où la relation <strong>de</strong> récurr<strong>en</strong>ce sur la matrice <strong>de</strong> gain :<br />

)<br />

¯Σ− n = ¯Σ − n<br />

c 2 ¯Σ − n +1 = K n/c. On a donc c¯Σ − n<br />

K n =<br />

a 2 K n−1 + c<br />

c(a 2 K n−1 + c) + 1 , K 0 =<br />

c<br />

1 + c 2 .<br />

En combinant (3.6) <strong>et</strong> (3.9), on a finalem<strong>en</strong>t<br />

¯X n = a ¯X n−1 + K n (Y n − ca ¯X n−1 ), ¯X0 = K 0 Y 0 ,<br />

¯Σ n = K n<br />

c .


FILTRAGE ET QUANTIFICATION 41<br />

3.2 Filtrage non linéaire<br />

3.2.1 Description du modèle<br />

Dans la suite, toutes les variables aléatoires sont définies sur un espace <strong>de</strong> probabilité<br />

(Ω, F, P). On se place dans le cadre où le couple signal/observation (X n , Y n ) n≥0<br />

défini sur l’espace mesurable produit (E × R q ), avec (E, E) un espace mesurable, satisfait<br />

:<br />

• (X n ) n est une chaine <strong>de</strong> Markov <strong>de</strong> probabilité <strong>de</strong> transition P n <strong>de</strong> n − 1 à n, i.e. :<br />

P[X n ∈ dx ′ |X 0 , . . . , X n−1 ] = P[X n ∈ dx ′ |X n−1 ],<br />

P n (x, dx ′ ) = P[X n ∈ dx ′ |X n−1 = x],<br />

<strong>et</strong> <strong>de</strong> loi initiale µ 0<br />

• la suite (Y n ) n vérifie l’hypothèse <strong>de</strong> canal sans mémoire, i.e.<br />

⋆ conditionnellem<strong>en</strong>t aux états cachés X 0 , . . . , X n , les observations Y 0 , . . . , Y n sont<br />

mutuellem<strong>en</strong>t indép<strong>en</strong>dantes<br />

⋆ la loi conditionnelle <strong>de</strong> Y n sachant X 0 , . . . , X n ne dép<strong>en</strong>d que <strong>de</strong> X n , avec une<br />

probabilité d’émission à <strong>de</strong>nsité (par rapport à la mesure <strong>de</strong> Lebesgue sur R q ) :<br />

P[Y n ∈ dy ′ |X n = x ′ ] = g n (x ′ , y ′ )dy ′ .<br />

La fonction x ↦→ g n (x, Y n ) est appelée fonction <strong>de</strong> vraisemblance.<br />

Posons X [0,n] = (X 0 , . . . , X n ), Y [0,n] = (Y 0 , . . . , Y n ). La loi jointe <strong>de</strong> X [0,n] est :<br />

P [ X [0,n] ∈ dx [0,n]<br />

]<br />

= µ 0 (dx 0 )<br />

n∏<br />

P k (x k−1 , dx k )<br />

D’après la formule <strong>de</strong> Bayes <strong>et</strong> l’hypothèse <strong>de</strong> canal sans mémoire, la loi jointe du<br />

couple (X [0,n] , Y [0,n] ) est<br />

P [ X [0,n] ∈ dx [0,n] , Y [0,n] ∈ dy [0,n]<br />

]<br />

k=0<br />

= P [ Y [0,n] ∈ dy [0,n] |X [0,n] = x [0,n]<br />

]<br />

P<br />

[<br />

X[0,n] ∈ dx [0,n]<br />

]<br />

= P [ ] ∏<br />

n<br />

X [0,n] ∈ dx [0,n] g k (x k , y k )dy k . (3.11)<br />

k=0<br />

En intégrant par rapport aux variables x = (x 0 , . . . , x n ), on obti<strong>en</strong>t la loi jointe <strong>de</strong>s<br />

observations Y [0,n] :<br />

P [ Y [0,n] ∈ dy [0,n]<br />

]<br />

=<br />

∫<br />

E<br />

∫<br />

. . .<br />

E<br />

P [ ] ∏<br />

n<br />

X [0,n] ∈ dx [0,n] g k (x k , y k )dy k<br />

k=0<br />

[ n<br />

]<br />

∏<br />

= E g k (X k , y k ) dy [0,n] (3.12)<br />

k=0


FILTRAGE ET QUANTIFICATION 42<br />

Autrem<strong>en</strong>t dit, (Y 0 , . . . , Y n ) adm<strong>et</strong> pour <strong>de</strong>nsité :<br />

[ n<br />

]<br />

∏<br />

y = (y 0 , . . . , y n ) ↦−→ γ n (y) = E g k (X k , y k ) .<br />

k=0<br />

Remarque 3.2.2 Notons que (X n , Y n ) est une chaine <strong>de</strong> Markov. En eff<strong>et</strong>, on a par<br />

la formule <strong>de</strong> Bayes <strong>et</strong> l’hypothèse <strong>de</strong> canal sans mémoire :<br />

=<br />

P [ ]<br />

X n ∈ dx n , Y n ∈ dy n |X [0,n−1] = x [0,n−1] , Y [0,n−1] = y [0,n−1]<br />

P [ ]<br />

X [0,n] ∈ dx [0,n] , Y [0,n] ∈ dy [0,n]<br />

P [ ]<br />

X [0,n−1] ∈ dx [0,n−1] , Y [0,n−1] ∈ dy [0,n−1]<br />

P [ ] [ ]<br />

Y [0,n] ∈ dy [0,n] |X [0,n] = x [0,n] P X[0,n] ∈ dx [0,n]<br />

=<br />

P [ ] [ ]<br />

Y [0,n−1] ∈ dy [0,n−1] |X [0,n−1] = x [0,n−1] P X[0,n−1] ∈ dx [0,n−1]<br />

∏ n<br />

k=0<br />

=<br />

g k(x k , y k )dy k µ 0 (dx 0 ) ∏ n<br />

k=0 P k(x k−1 , dx k )<br />

∏ n−1<br />

k=0 g k(x k , y k )dy k µ 0 (dx 0 ) ∏ n−1<br />

k=0 P k(x k−1 , dx k )<br />

= g n (x n , y n )dy n P n (x n−1 , dx n ).<br />

La probabilité <strong>de</strong> transition <strong>de</strong> la chaine <strong>de</strong> Markov (X n , Y n ) est donc donnée par :<br />

Q n ((x, y), dx ′ dy ′ ) = P n (x, dx ′ )g n (x ′ , y ′ )dy ′<br />

<strong>et</strong> sa loi initiale est ν 0 (dxdy) = µ 0 (dx)g 0 (x, y).<br />

Exemple. Le cadre typique d’un tel schéma signal/observation est donné par le<br />

système :<br />

X n = F n (X n−1 , ε n ), n ≥ 1, X 0 ∼ µ 0<br />

Y n = G n (X n , η n ), n ≥ 0,<br />

où F n , G n sont <strong>de</strong>s fonctions mesurables, <strong>et</strong> (ε n ) n≥1 , (η n ) n≥0 sont <strong>de</strong>s bruits blancs,<br />

indép<strong>en</strong>dants <strong>en</strong>tre eux <strong>et</strong> indép<strong>en</strong>dants <strong>de</strong> X 0 . Dans ce cas, (X n ) n≥0 est une chaine<br />

<strong>de</strong> Markov <strong>de</strong> probabilité <strong>de</strong> transition P n donnée par :<br />

P n f(x) = E[f(F n (x, ε n ))], pour toute fonction mesurable bornée f.<br />

De plus, comme η 0 , . . . , η n sont mutuellem<strong>en</strong>t indép<strong>en</strong>dants <strong>et</strong> indép<strong>en</strong>dants <strong>de</strong> X 0 , . . . , X n ,<br />

l’hypothèse <strong>de</strong> canal sans mémoire pour les observations est satisfaite. En supposant<br />

que pour tout x, la variable aléatoire G n (x, η n ) adm<strong>et</strong> une <strong>de</strong>nsité, notée g n (x, y), on<br />

a<br />

P[Y n ∈ dy|X n = x] = P[G n (x, η n ) ∈ dy] = g n (x, y)dy.


FILTRAGE ET QUANTIFICATION 43<br />

Par exemple, si G n est <strong>de</strong> la forme :<br />

G n (x, η) = h n (x) + η,<br />

<strong>et</strong> si η n adm<strong>et</strong> une <strong>de</strong>nsité notée k n , alors on a<br />

g n (x, y) = k n (y − h n (x)).<br />

Un autre exemple est le cas <strong>en</strong> finance où (X n ) représ<strong>en</strong>te le r<strong>en</strong><strong>de</strong>m<strong>en</strong>t <strong>et</strong>/ou la<br />

volatilité non observable d’un actif risqué S observable. La dynamique du prix est<br />

donnée par :<br />

[(<br />

S n+1 = S n exp b(X n ) − 1 )<br />

2 σ2 (X n ) δ + σ(X n ) √ ]<br />

δη n ,<br />

obt<strong>en</strong>ue par exemple par discrétisation selon un schéma d’Euler <strong>de</strong> pas δ d’un modèle à<br />

volatilité stochastique. En posant Y n+1 = ln(S n /S n−1 ), on a le modèle d’observation :<br />

Y n = ˆb(X n )δ + σ(X n ) √ δη n ,<br />

où on a posé ˆb = b − σ 2 /2. Si η n est un bruit blanc gaussi<strong>en</strong> c<strong>en</strong>tré réduit, alors la loi<br />

<strong>de</strong> Y n sachant X n = x adm<strong>et</strong> pour <strong>de</strong>nsité :<br />

(<br />

)<br />

1<br />

g n (x, y) = √<br />

2πσ 2 (x)δ exp (y − ˆb(x)δ)<br />

2<br />

−<br />

2σ 2 .<br />

(x)δ<br />

3.2.2 Equation du filtre<br />

Dans la suite, on fixera les observations à (Y 0 , . . . , Y n ) = (y 0 , . . . , y n ) <strong>et</strong> pour simplifier<br />

les notations, on supprimera les indices y. On notera ḡ n (x) = g n (x, y n ).<br />

On note par Π n la loi du filtre <strong>et</strong> Π − n celle <strong>de</strong> la prédiction :<br />

Π n (dx) = P(X n ∈ dx|Y 0 = y 0 , . . . , Y n = y n )<br />

Π − n (dx) = P(X n ∈ dx|Y 0 = y 0 , . . . , Y n−1 = y n−1 ).<br />

D’après l’expression (3.11) <strong>de</strong> la loi jointe (X [0,n] , Y [0,n] ) <strong>et</strong> celle (3.12) <strong>de</strong> la loi <strong>de</strong> Y [0,n] ,<br />

on obti<strong>en</strong>t par la formule <strong>de</strong> Bayes :<br />

∏ n<br />

k=0 ḡk(x k ) P [ ]<br />

X [0,n] ∈ dx [0,n]<br />

P [ X [0,n] ∈ dx [0,n] Y 0 = y 0 , . . . , Y n = y n | ] =<br />

E [ ∏ n<br />

k=0 ḡk(X k )]<br />

Autrem<strong>en</strong>t dit, pour toute fonction test ϕ bornée mesurable sur E n , on a :<br />

E [ϕ(X 0 , . . . , X n )|Y 0 = y 0 , . . . , Y n = y n )] = E [ϕ(X 0, . . . , X n ) ∏ n<br />

k=0 ḡk(X k )]<br />

E [ ∏ n<br />

k=0 ḡk(X .<br />

k )]<br />

.


FILTRAGE ET QUANTIFICATION 44<br />

En particulier, pour une fonction test ϕ ne dép<strong>en</strong>dant que <strong>de</strong> x n , on a :<br />

Π n ϕ = E [ϕ(X n )|Y 0 = y 0 , . . . , Y n = y n ]<br />

= E [ϕ(X n) ∏ n<br />

k=0 ḡk(X k )]<br />

E [ ∏ n<br />

k=0 ḡk(X = π nϕ<br />

k )] π n 1 ,<br />

où π n est la mesure positive, appelée filtre non normalisé, définie par :<br />

[<br />

]<br />

n∏<br />

π n ϕ = E ϕ(X n ) ḡ k (X k ) .<br />

De manière similaire, on a<br />

k=0<br />

Π − n ϕ = E [ϕ(X n )|Y 0 = y 0 , . . . , Y n−1 = y n−1 )]<br />

[<br />

E ϕ(X n ) ∏ ]<br />

n−1<br />

k=0 ḡk(X k )<br />

= [ ∏n−1<br />

] = π− n ϕ<br />

E<br />

k=0 ḡk(X k ) πn − 1 ,<br />

où πn − est la mesure positive, appelée filtre prédictif non normalisé, définie par :<br />

[<br />

]<br />

π − n ϕ = E<br />

ϕ(X n )<br />

n−1<br />

∏<br />

k=0<br />

ḡ k (X k )<br />

Nous allons montrer qu’on peut obt<strong>en</strong>ir une équation récurr<strong>en</strong>te exprimant Π n <strong>en</strong><br />

fonction <strong>de</strong> Π n−1 . Pour cela, il suffit d’une équation récurr<strong>en</strong>te sur π n <strong>en</strong> fonction <strong>de</strong><br />

π n−1 , puis <strong>de</strong> normaliser. On note P(E) l’<strong>en</strong>semble <strong>de</strong>s mesures <strong>de</strong> probabilités sur E<br />

<strong>et</strong> M(E) l’<strong>en</strong>semble <strong>de</strong>s mesures positives sur E.<br />

Théorème 3.2.1 La suite (Π n ) dans P(E) vérifie l’équation <strong>de</strong> récurr<strong>en</strong>ce <strong>en</strong> <strong>de</strong>ux<br />

étapes, partant <strong>de</strong> l’initialisation Π 0 = µ 0 :<br />

• Etape <strong>de</strong> prédiction :<br />

Π n−1 −→ Π − n = Π n−1 P n ,<br />

où par définition Π n−1 P n (dx ′ ) = ∫ E Π n−1(dx)P n (x, dx ′ ) est l’action du noyau <strong>de</strong> probabilité<br />

<strong>de</strong> transition P n <strong>de</strong> X n sur Π n−1 ,<br />

• Etape <strong>de</strong> correction/mise à jour :<br />

.<br />

Π − n −→ Π n =<br />

ḡ n Π − n<br />

∫E ḡn(x ′ )Π − n (dx ′ ) = ḡnΠ − n<br />

(ḡ n Π − n )1 ,<br />

qui pondère la mesure Π − n par la fonction <strong>de</strong> vraisemblance ḡ n : (ḡ n Π − n )(dx ′ ) = ḡ n (x ′ )Π − n (dx ′ ).<br />

De manière équival<strong>en</strong>te, (Π n ) est solution du système dynamique dans P(E) :<br />

Π n =<br />

Π n−1 H<br />

∫<br />

n<br />

E Π n−1H n (dx ′ ) =<br />

Π n−1H n<br />

(Π n−1 H n )1


FILTRAGE ET QUANTIFICATION 45<br />

où H n est le noyau <strong>de</strong> prédiction-correction :<br />

H n (x, dx ′ ) = ḡ n (x ′ )P n (x, dx ′ )<br />

agissant sur la mesure Π n−1 par : Π n−1 H n (dx ′ ) = ∫ E Π n−1(dx)H n (x, dx ′ ).<br />

Preuve. Etape correction : Π n <strong>en</strong> fonction <strong>de</strong> Π − n .<br />

On a pour toute fonction test ϕ :<br />

[<br />

] [<br />

n∏<br />

π n ϕ = E ϕ(X n ) ḡ k (X k ) = E ϕ(X n )ḡ n (X n )<br />

k=0<br />

= π − n ϕḡ n = ḡ n π − n ϕ,<br />

n−1<br />

∏<br />

k=0<br />

ḡ k (X k )<br />

où la <strong>de</strong>rnière égalité exprime simplem<strong>en</strong>t le fait que<br />

∫<br />

∫<br />

πn − ϕḡ n = (ϕḡ n )(x ′ )πn − (dx ′ ) = ϕ(x ′ )(ḡ n .πn − )(dx ′ ) = ḡ n πn − ϕ.<br />

On a donc<br />

Par normalisation, on obti<strong>en</strong>t<br />

E<br />

E<br />

π n = ḡ n π − n .<br />

]<br />

Π n = π n<br />

π n 1 = ḡnπ − n<br />

π − n ḡ n<br />

= ḡnΠ − n<br />

Π − n ḡ n<br />

Etape prédiction : Π − n <strong>en</strong> fonction <strong>de</strong> Π n−1 .<br />

Par la propriété <strong>de</strong> Markov <strong>de</strong> (X n ), on a<br />

[<br />

] [ [<br />

]]<br />

n−1<br />

∏<br />

n−1<br />

∏<br />

πn − ϕ = E ϕ(X n ) ḡ k (X k ) = E E ϕ(X n ) ḡ k (X k )<br />

∣ X [0,n−1]<br />

k=0<br />

k=0<br />

[<br />

= E E [ ϕ(X n )| X [0,n−1 ] ] n−1 ] [<br />

]<br />

∏<br />

n−1<br />

∏<br />

ḡ k (X k ) = E E [ϕ(X n )| X n−1 ]] ḡ k (X k )<br />

= E<br />

[<br />

P n ϕ(X n−1 )<br />

n−1<br />

∏<br />

k=0<br />

k=0<br />

ḡ k (X k )<br />

]<br />

= π n−1 (P n ϕ) = (π n−1 P n )ϕ,<br />

où la <strong>de</strong>rnière égalité exprime simplem<strong>en</strong>t, comme conséqu<strong>en</strong>ce <strong>de</strong> Fubini, le fait que :<br />

∫<br />

∫ (∫<br />

)<br />

π n−1 (P n ϕ) = (P n ϕ)(x)π n−1 (dx) = ϕ(x ′ )P n (x, dx ′ ) π n−1 (dx)<br />

E<br />

E E<br />

∫ (∫<br />

) ∫<br />

= π n−1 (dx)P n (x, dx ′ ) ϕ(x ′ ) = π n−1 P n (dx ′ )ϕ(x ′ )<br />

E<br />

E<br />

= (π n−1 P n )ϕ.<br />

E<br />

k=0


FILTRAGE ET QUANTIFICATION 46<br />

On a donc :<br />

π − n = π n−1 P n .<br />

Finalem<strong>en</strong>t, pour la normalisation, <strong>en</strong> remarquant que<br />

[ n−1<br />

]<br />

∏<br />

πn − 1 = E ḡ k (X k ) = π n−1 1,<br />

k=0<br />

on a<br />

Π − n = π− n<br />

π − n 1 = π n−1P n<br />

π n−1 1 = Π n−1P n .<br />

L’équation du filtre a été obt<strong>en</strong>ue simplem<strong>en</strong>t par utilisation <strong>de</strong> la propriété <strong>de</strong><br />

Markov <strong>et</strong> <strong>de</strong> la formule <strong>de</strong> Bayes. C’est une équation non linéaire (à cause <strong>de</strong> l’étape<br />

<strong>de</strong> normalisation) à valeurs dans P(E) <strong>et</strong> il est <strong>en</strong> général impossible <strong>de</strong> la résoudre<br />

explicitem<strong>en</strong>t, sauf dans <strong>de</strong>s cas particuliers <strong>de</strong> modèles linéaires gaussi<strong>en</strong>s, où elle se<br />

ramène à un système <strong>en</strong> dim<strong>en</strong>sion finie 2 : les équations du filtre <strong>de</strong> Kalman-Bucy.<br />

Il faut donc avoir recours à <strong>de</strong>s métho<strong>de</strong>s numériques <strong>et</strong> on prés<strong>en</strong>te ci-<strong>de</strong>ssous une<br />

approximation par <strong>quantification</strong>.<br />

Exercice. Montrer que dans le cas <strong>de</strong> modèles linéaires gaussi<strong>en</strong>s décrits au paragraphe<br />

3.1.2, l’équation <strong>de</strong> prédiction/correction du théorème 3.2.1 perm<strong>et</strong> <strong>de</strong> r<strong>et</strong>rouver les<br />

équations explicites du filtre <strong>de</strong> Kalman-Bucy.<br />

3.2.3 Approximation par <strong>quantification</strong><br />

On se place dans le cas où l’espace d’états du signal E = R d est continu. L’idée<br />

basique est d’approximer l’équation d’évolution du filtre <strong>en</strong> dim<strong>en</strong>sion infinie dans<br />

P(R d ), par une équation d’évolution <strong>en</strong> dim<strong>en</strong>sion finie grâce à une <strong>quantification</strong> <strong>de</strong><br />

la chaine <strong>de</strong> Markov du signal. On procè<strong>de</strong> selon les étapes suivantes :<br />

Etape <strong>de</strong> <strong>quantification</strong> marginale <strong>de</strong> (X k )<br />

C’est la métho<strong>de</strong> décrite au chapitre précé<strong>de</strong>nt. A chaque date k = 0, . . . , n, on se<br />

donne une grille x k = (x 1 k , . . . , xN k<br />

k<br />

) <strong>de</strong> N k points dans R d à laquelle est associée une<br />

partition <strong>de</strong> Voronoi C i (x k ), i = 1, . . . , N k . On considère alors pour tout k le quantifieur<br />

<strong>de</strong> Voronoi <strong>de</strong> X k sur la grille x k :<br />

✷<br />

ˆX k = Proj xk<br />

(X k ) :=<br />

N k<br />

∑<br />

x i k 1 C i (x k )(X k ).<br />

i=1<br />

On définit la loi <strong>de</strong> probabilité discrète ˆµ 0 (<strong>de</strong> poids ˆµ i 0 , i = 1, . . . , N 0) <strong>de</strong> ˆX 0 :<br />

ˆµ i 0 = p i 0 = P[ ˆX 0 = x i 0] = P[X 0 ∈ C i (x 0 )], i = 1, . . . , N 0 .


FILTRAGE ET QUANTIFICATION 47<br />

<strong>et</strong> les matrices <strong>de</strong> probabilité <strong>de</strong> transition ˆP k = (p ij<br />

k<br />

), k = 1, . . . , n :<br />

p ij<br />

k<br />

:= P[ ˆX k = x j k | ˆX k−1 = x i k−1 ] i = 1, . . . , N k−1, j = 1, . . . , N k .<br />

Ces poids µ i 0 , pij k sont estimés par simulation <strong>de</strong> Monte-Carlo X k, k = 0, . . . , n, ou bi<strong>en</strong><br />

simultaném<strong>en</strong>t dans l’algorithme <strong>de</strong> Kohon<strong>en</strong>.<br />

Etape d’approximation du filtre<br />

On rappelle que les observations sont fixées à (Y 0 , . . . , Y n ) = (y 0 , . . . , y n ). Le filtre Π k<br />

<strong>et</strong> le prédicteur Π − k<br />

sont approximés par les mesures <strong>de</strong> probabilité discrète ˆΠ k <strong>et</strong> ˆΠ − k<br />

<strong>de</strong> support x k , <strong>et</strong> définis par les équations d’évolution <strong>en</strong> dim<strong>en</strong>sion finie :<br />

• Initialisation<br />

• Prédiction<br />

• Correction<br />

ˆΠ 0 = ˆµ 0<br />

ˆΠ − k<br />

= ˆΠ k−1 ˆPk , k ≥ 1,<br />

ˆΠ k =<br />

ḡ k ˆΠ−<br />

k<br />

k ≥ 1,<br />

(ḡ k ˆΠ−<br />

k<br />

)1,<br />

Les étapes <strong>de</strong> prédiction-correction s’écriv<strong>en</strong>t aussi sous forme :<br />

ˆΠ k =<br />

ˆΠ k−1 Ĥ k<br />

(ˆΠ k−1 Ĥ k )1 , k ≥ 1,<br />

où Ĥk = (Ĥij k<br />

) est la matrice <strong>de</strong> transition :<br />

Ĥ ij<br />

k<br />

= ḡ k (x j k )ˆpij k , i = 1, . . . , N k−1, j = 1, . . . , N k .<br />

Autrem<strong>en</strong>t dit, les poids ( ˆΠ i k ), i = 1, . . . , N k, <strong>de</strong> ˆΠ k<br />

manière inductive, pour k = 1, . . . , n, selon :<br />

se calcul<strong>en</strong>t explicitem<strong>en</strong>t <strong>de</strong><br />

ˆΠ i 0 = ˆµ i 0, i = 1, . . . , N 0<br />

ˆΠ j k<br />

=<br />

∑ Nk−1<br />

i=1<br />

ˆΠ i k−1Ĥij k<br />

∑ Nk−1<br />

i=1<br />

∑ Nk<br />

j=1<br />

ˆΠ i k−1Ĥij k<br />

, k = 1, . . . , n, , j = 1, . . . , N k .<br />

D’un point <strong>de</strong> vue pratique, la procédure d’implém<strong>en</strong>tation algorithmique ci-<strong>de</strong>ssus<br />

se décompose comme suit :<br />

Phase <strong>de</strong> calculs off-line : Quantification <strong>optimale</strong> du signal. Notons que c<strong>et</strong>te<br />

phase ne dép<strong>en</strong>d pas <strong>de</strong>s observations <strong>et</strong> requiert <strong>de</strong> :


FILTRAGE ET QUANTIFICATION 48<br />

- spécifier la taille N k <strong>de</strong>s grilles x k pour k = 0, . . . , n, étant donné un nombre total <strong>de</strong><br />

points N = N 0 + . . . + N n .<br />

- implém<strong>en</strong>ter les grilles <strong>optimale</strong>s (par l’algorithme <strong>de</strong> Kohon<strong>en</strong>) <strong>et</strong> les poids <strong>de</strong> transition<br />

associés (ˆp ij<br />

k ).<br />

Un cas spécial : signal stationnaire. Dans ce cadre usuel <strong>de</strong> modèle <strong>de</strong> filtrage où la<br />

distribution <strong>de</strong> X k est la même à toute date k, on a seulem<strong>en</strong>t besoin <strong>de</strong> calculer la grille<br />

<strong>optimale</strong> x ∗ = {x 1 , . . . , x ¯N} <strong>de</strong> la loi stationnaire µ 0 <strong>de</strong> X 0 , <strong>de</strong> taille ¯N = N/(n + 1).<br />

Alors, x k = x ∗ , k = 0, . . . , n, sont les grilles <strong>optimale</strong>s pour chaque X k . On estime la<br />

probabilité ˆµ 0 <strong>de</strong> ˆX 0 = Proj x ∗(X 0 ), <strong>et</strong> on estime une seule matrice <strong>de</strong> probabilité <strong>de</strong><br />

transition :<br />

ˆp ij<br />

k<br />

= ˆp ij<br />

(k)<br />

0 = P[ ˆX 0 = x j (k−1)<br />

| ˆX 0 = x i ], 0 ≤ i, j ≤ ¯N,<br />

(k)<br />

où ˆX 0 suit la loi <strong>de</strong> ˆX 0 . D’un point <strong>de</strong> vue numérique, la taille <strong>de</strong>s paramètres à<br />

stocker est divisée par un facteur n, ou <strong>de</strong> manière équival<strong>en</strong>te, la taille <strong>de</strong> la grille <strong>de</strong><br />

<strong>quantification</strong> <strong>optimale</strong> pour X 0 peut être multipliée par n.<br />

Phase <strong>de</strong> calculs on-line : étant donné un jeu d’observations y = (y 0 , . . . , y n ), on<br />

calcule les matrices quantifiées <strong>de</strong> prédiction-correction (Ĥk), k = 1, . . . , n, puis les<br />

filtres quantifiées ( ˆΠ k ), k = 0, . . . , n. Pour toute fonction test ϕ, on calcule alors :<br />

ˆΠ n ϕ =<br />

∑N n<br />

ϕ(x i n)ˆΠ i n.<br />

i=1<br />

C<strong>et</strong>te phase <strong>de</strong> calcul est instantanée.<br />

Nous analysons à prés<strong>en</strong>t l’erreur <strong>et</strong> la converg<strong>en</strong>ce du filtre approximé par <strong>quantification</strong>.<br />

Nous imposons ess<strong>en</strong>tiellem<strong>en</strong>t <strong>de</strong>ux types <strong>de</strong> conditions sur le modèle <strong>de</strong> signalobservation.<br />

Nous supposons une condition <strong>de</strong> Lipschitz sur les probabilités <strong>de</strong> transition<br />

du signal :<br />

(A1) Les probabilités <strong>de</strong> transition P k , k = 1, . . . , n, sont Lipschitz <strong>de</strong> ratio [P k ] Lip<br />

,<br />

i.e. pour toute fonction Lipschitzi<strong>en</strong>ne ϕ sur R d , <strong>de</strong> ratio [ϕ] Lip<br />

, on a :<br />

|P k ϕ(x) − P k ϕ(ˆx)| ≤ [P k ] Lip<br />

[φ] Lip<br />

|x − ˆx|, ∀x, ̂x ∈ R d ,<br />

<strong>et</strong> on pose [P ] Lip<br />

:= max k=1,...,n [P k ] Lip<br />

.<br />

On suppose aussi une condition <strong>de</strong> Lipschitz sur les fonctions <strong>de</strong> vraisemblance :


FILTRAGE ET QUANTIFICATION 49<br />

⎧<br />

(i)<br />

Les fonctions g k , k = 1, . . . , n, sont bornées<br />

(A2)<br />

⎪⎨<br />

(ii)<br />

<strong>et</strong> on pose ‖g‖ ∞<br />

:= max k=1,...,n ‖g k ‖ ∞<br />

Il existe [g k ] Lip<br />

, k = 1, . . . , n, tels que ∀x, ˆx ∈ R d , y ∈ R q<br />

⎪⎩<br />

|g k (x, y) − g k (ˆx, y)| ≤ [g k ] Lip<br />

|x − ˆx|,<br />

<strong>et</strong> on pose [g] Lip<br />

:= max k=1,...,n [g k ] Lip<br />

.<br />

On obti<strong>en</strong>t alors la borne d’erreur suivante pour l’approximation du filtre par <strong>quantification</strong>.<br />

Théorème 3.2.2 Sous (A1) and (A2), étant donnée une observation (Y 0 , . . . , Y n ) =<br />

(y 0 , . . . , y n ), on a :<br />

sup<br />

φ∈BL 1 (R d )<br />

∣<br />

∣Π n φ − ˆΠ n φ∣ ≤ ‖g‖n ∞<br />

γ n (y)<br />

n∑<br />

A n,k ‖X k − ˆX k ‖ 2<br />

, (3.13)<br />

k=0<br />

où γ n (y) est la <strong>de</strong>nsité <strong>de</strong> (Y 0 , . . . , Y n ) <strong>en</strong> y = (y 0 , . . . , y n ) :<br />

[ n<br />

]<br />

∏<br />

γ n (y) = E g k (X k , y k )<br />

<strong>et</strong><br />

A n,k = 2<br />

(<br />

[P ] n−k<br />

Lip<br />

k=0<br />

+ [g] )<br />

[P ] n−k+1 − 1<br />

Lip Lip<br />

.<br />

‖g‖ ∞<br />

[P ] Lip<br />

− 1<br />

Preuve. Etape 1 : représ<strong>en</strong>tation backward du filtre. On considère le filtre non normalisé<br />

(π k ) dont l’équation d’évolution forward est :<br />

d’où<br />

π 0 = µ 0 , π k = π k−1 H k , k = 1, . . . , n,<br />

Π n = π n<br />

π n 1<br />

<strong>et</strong> π n = µ 0 H 1 . . . H n<br />

De c<strong>et</strong>te expression symétrique, on introduit les noyaux <strong>de</strong> transition donnés par les<br />

équations backward :<br />

<strong>de</strong> telle sorte que<br />

R n = Id, R k = H k+1 R k+1 , k = 0, . . . , n − 1,<br />

π n = µ 0 R 0 .


FILTRAGE ET QUANTIFICATION 50<br />

De manière similaire, le filtre quantifié s’exprime sous forme backward par :<br />

<strong>et</strong><br />

ˆΠ n = ˆπ n<br />

ˆπ n 1 , avec ˆπ n = ˆµ 0 ˆR0<br />

ˆR n = Id, ˆRk = Ĥk+1 ˆR k+1 , k = 0, . . . , n − 1.<br />

Etape 2 : approximation d’erreur du filtre non normalisé. On écrit pour toute fonction<br />

test ϕ ∈ BL 1 (R d ),<br />

[<br />

∣<br />

∣<br />

|π n ϕ − ˆπ n ϕ| = ∣µ 0 R 0 ϕ − ˆµ 0 ˆR0 ϕ∣ = ∣E [R 0 ϕ(X 0 )] − E ˆR0 ϕ( ˆX ∣∣<br />

0 )]∣ ∥<br />

≤ ∥R 0 ϕ(X 0 ) − ˆR 0 ϕ( ˆX 0 ) ∥ .<br />

Comme pour l’analyse d’erreur <strong>de</strong>s options américaines, l’idée est alors, à partir <strong>de</strong> la<br />

formule backward <strong>de</strong> R k <strong>et</strong> ˆR ∥<br />

k , d’obt<strong>en</strong>ir une estimation <strong>de</strong> ∥R k ϕ(X k ) − ˆR k ϕ( ˆX k ) ∥<br />

2<br />

∥<br />

<strong>en</strong> fonction <strong>de</strong>s erreurs <strong>de</strong> <strong>quantification</strong> ∥X k − ˆX<br />

∥ ∥∥<br />

k Précisém<strong>en</strong>t, <strong>en</strong> posant u k =<br />

2.<br />

R k ϕ, û k = ˆR k ϕ, <strong>et</strong> <strong>en</strong> notant par définition <strong>de</strong> R k <strong>et</strong> H k que<br />

u k = H k+1 u k+1 = P k+1 (ḡ k+1 u k+1 ), (3.14)<br />

û k = Ĥk+1û k+1 = ˆP k+1 (ḡ k+1 û k+1 ),<br />

2<br />

on a :<br />

=<br />

≤<br />

≤<br />

∥<br />

∥u k (X k ) − û k ( ˆX k ) ∥<br />

2<br />

∥<br />

∥P k+1 (ḡ k+1 u k+1 )(X k ) − ˆP k+1 (ḡ k+1 û k+1 )( ˆX k ) ∥<br />

2<br />

[<br />

∥<br />

∥P k+1 (ḡ k+1 u k+1 )(X k ) − E P k+1 (ḡ k+1 u k+1 )(X k )| ˆX<br />

]∥ ∥∥<br />

k<br />

2<br />

∥<br />

+ ∥E<br />

[P k+1 (ḡ k+1 u k+1 )(X k )| ˆX<br />

]<br />

k − ˆP k+1 (ḡ k+1 û k+1 )( ˆX k ) ∥<br />

∥<br />

∥P k+1 (ḡ k+1 u k+1 )(X k ) − P k+1 (ḡ k+1 u k+1 )( ˆX k ) ∥<br />

2<br />

∥<br />

+ ∥(ḡ k+1 u k+1 )(X k+1 ) − (ḡ k+1 û k+1 )( ˆX k+1 ) ∥ ,<br />

2<br />

2<br />

∥ ∥∥Xk<br />

≤ [P ] Lip<br />

[ḡ k+1 u k+1 ] Lip<br />

− ˆX<br />

∥ ∥ ∥∥ ∥∥Xk+1<br />

k + [g] Lip<br />

‖u k+1 ‖ ∞<br />

− ˆX<br />

∥ ∥∥<br />

k+1<br />

2<br />

2<br />

∥<br />

∥∥uk+1<br />

+ ‖g‖ ∞<br />

(X k+1 ) − û k+1 ( ˆX k+1 ) ∥ .<br />

On a utilisé pour l’avant <strong>de</strong>rnière inégalité, la définition même <strong>de</strong> l’espérance conditionnelle<br />

dans L 2 pour le premier terme, <strong>et</strong> le fait que ˆX k est σ(X k )-mesurable, combinée<br />

2


FILTRAGE ET QUANTIFICATION 51<br />

avec la loi <strong>de</strong>s espérances conditionnelles itérées pour le <strong>de</strong>uxième terme. On a utilisé<br />

les conditions (A1) <strong>et</strong> (A2) pour la <strong>de</strong>rnière inégalité. On a donc l’inégalité <strong>de</strong><br />

récurr<strong>en</strong>ce<br />

∥<br />

∥u k (X k ) − û k ( ˆX k ) ∥<br />

∥ ∥∥Xk<br />

≤ α k − ˆX<br />

∥ ∥ ∥∥ ∥∥Xk+1<br />

k + β k+1 − ˆX<br />

∥ ∥∥<br />

k+1<br />

2<br />

2<br />

∥<br />

∥∥uk+1<br />

+ ‖g‖ ∞<br />

(X k+1 ) − û k+1 ( ˆX k+1 ) ∥ ,<br />

avec α k = [P ] Lip<br />

[ḡ k+1 u k+1 ] Lip<br />

, β k+1 = [g] Lip<br />

‖u k+1 ‖ ∞<br />

, <strong>et</strong> la relation terminale ‖u n (X n )−<br />

û n ( ˆX ∥<br />

n )‖ 2<br />

≤ ∥X n − ˆX<br />

∥ ∥∥<br />

n Par induction, on <strong>en</strong> déduit<br />

2.<br />

|π n ϕ − ˆπ n ϕ| ≤<br />

∥<br />

∥u 0 (X 0 ) − û 0 ( ˆX 0 ) ∥<br />

2<br />

2<br />

≤<br />

2<br />

n∑<br />

∥<br />

C k (ϕ) ∥X k − ˆX<br />

∥ ∥∥<br />

k , (3.15)<br />

2<br />

avec C k (ϕ) = ‖g‖ k−1<br />

∞ (α k‖g‖ ∞<br />

+ β k ), k = 0, . . . , n, <strong>et</strong> la conv<strong>en</strong>tion α n = 1 <strong>et</strong> β 0 = 0.<br />

D’autre part, puisque u n = ϕ, avec ‖ϕ‖ ∞<br />

≤ 1, <strong>et</strong> ‖u k ‖ ∞<br />

≤ ‖g‖ ∞<br />

‖u k+1 ‖ ∞<br />

d’après<br />

(3.14), on <strong>en</strong> déduit<br />

De même, d’après (3.14), on a<br />

‖u k ‖ ∞<br />

≤ ‖g‖ n−k<br />

∞ .<br />

[u k ] Lip<br />

≤ [P ] Lip<br />

[ḡ k+1 u k+1 ] Lip<br />

≤ [P ] Lip<br />

(<br />

‖g‖∞ [u k+1 ] Lip<br />

+ ‖u k+1 ‖ ∞<br />

[g] Lip<br />

)<br />

Par induction, puisque [u n ] Lip<br />

≤ 1, on <strong>en</strong> déduit :<br />

On a donc β k ≤ [g] Lip<br />

‖g‖ n−k<br />

∞<br />

≤<br />

k=0<br />

[P ] Lip<br />

‖g‖ ∞<br />

[u k+1 ] Lip<br />

+ [P ] Lip<br />

[g] Lip<br />

‖g‖ n−k−1<br />

∞<br />

.<br />

[u k ] Lip<br />

≤ ( n−k<br />

) n−k<br />

∑<br />

[P ] Lip<br />

‖g‖ ∞ + [g]Lip ‖g‖ n−k−1 [P ] l .<br />

∞<br />

Lip<br />

<strong>et</strong><br />

α k = [P ] Lip<br />

[ḡ k+1 u k+1 ] Lip<br />

≤ [P ] Lip<br />

(<br />

‖g‖∞ [u k+1 ] Lip<br />

+ ‖u k+1 ‖ ∞<br />

[g] Lip<br />

)<br />

≤<br />

l=1<br />

( n−k<br />

) n−k<br />

∑<br />

[P ] Lip<br />

‖g‖ ∞ + [g]Lip ‖g‖ n−k−1 [P ] l .<br />

∞<br />

Lip<br />

En substituant α k <strong>et</strong> β k dans C k (ϕ), on obti<strong>en</strong>t pour tout ϕ ∈ BL 1 (R d ) :<br />

C k (ϕ) ≤ ‖g‖ n [P ]n−k<br />

∞ Lip<br />

= ‖g‖ n ∞<br />

(<br />

[P ] n−k<br />

Lip<br />

n−k<br />

∑<br />

+ [g] Lip<br />

‖g‖ n−1<br />

∞<br />

l=0<br />

[P ] l Lip<br />

l=1<br />

+ [g] )<br />

[P ] n−k+1 − 1<br />

Lip Lip<br />

. (3.16)<br />

‖g‖ ∞<br />

[P ] Lip<br />

− 1


FILTRAGE ET QUANTIFICATION 52<br />

Etape 3 : r<strong>et</strong>our au filtre normalisé. Il suffit d’écrire que pour tout ϕ ∈ BL 1 (R d ) :<br />

∣<br />

∣Π n ϕ − ˆΠ n ϕ∣ =<br />

π n ϕ<br />

∣ π n 1 − ˆπ nϕ<br />

ˆπ n 1 ∣<br />

≤<br />

|π n ϕ − ˆπ n ϕ|<br />

∣ π n 1 ∣ + ˆπ n|ϕ|<br />

1<br />

∣π n 1 − 1<br />

ˆπ n 1∣<br />

∣ ≤<br />

|π n ϕ − ˆπ n ϕ|<br />

∣∣∣ ∣ π n 1 ∣ + |π n 1 − ˆπ n 1|<br />

π n 1 ∣<br />

1<br />

n∑<br />

∥<br />

≤ (C k (ϕ) + C k (1)) ∥X k −<br />

π n 1<br />

ˆX<br />

∥ ∥∥<br />

k ,<br />

2<br />

k=0<br />

d’après (3.15). On conclut <strong>en</strong> se rappelant que π n 1 = γ n (y) est la <strong>de</strong>nsité <strong>de</strong> (Y 0 , . . . , Y n )<br />

<strong>et</strong> <strong>en</strong> utilisant la majoration (3.16) <strong>de</strong> C k (ϕ).<br />

✷<br />

Remarque 3.2.3 Converg<strong>en</strong>ce du filtre quantifié. Si les grilles sont choisies <strong>optimale</strong>m<strong>en</strong>t<br />

à chaque date k = 0, . . . , n, alors d’après le théorème <strong>de</strong> Zador, on a le taux <strong>de</strong><br />

converg<strong>en</strong>ce pour le filtre quantifié :<br />

sup<br />

φ∈BL 1 (R d )<br />

∣<br />

∣Π n ϕ − ˆΠ n , ϕ∣ ≤ ‖g‖n ∞<br />

γ n (y)<br />

n∑<br />

A n,k C(P Xk , d) 1<br />

k=0<br />

N 1 d<br />

k<br />

. (3.17)<br />

En conséqu<strong>en</strong>ce :<br />

- Etant donné un nombre total <strong>de</strong> points N, on peut répartir <strong>optimale</strong>m<strong>en</strong>t le<br />

nombre <strong>de</strong> points N k pour chaque date k, i.e. déterminer (N 0 , . . . , N k ) vérifiant N 0 +<br />

. . . + N n = N <strong>et</strong> minimisant le terme <strong>de</strong> droite <strong>de</strong> (3.17).<br />

- Pour un horizon fixé n, on a la converg<strong>en</strong>ce du filtre quantifié, i.e. ˆΠ n converge<br />

vers Π n lorsque min 0≤k≤n N k t<strong>en</strong>d vers l’infini.<br />

- Lorsque n t<strong>en</strong>d vers l’infini, la converg<strong>en</strong>ce du filtre quantifié est aussi satisfaite<br />

typiquem<strong>en</strong>t dans le cas d’un schéma d’Euler issue d’une diffusion discrétisée sur [0, T ]<br />

<strong>de</strong> pas T/n :<br />

X k+1 = X k + b(X k ) T n + σ(X k)√<br />

T<br />

n ε k+1.<br />

En eff<strong>et</strong>, sous <strong>de</strong>s conditions <strong>de</strong> Lipschitz sur les coeffici<strong>en</strong>ts b <strong>et</strong> σ, on a vu que :<br />

[P ] Lip<br />

≤ 1 + c n<br />

pour une constante c indép<strong>en</strong>dante <strong>de</strong> n. Dans ce cas, <strong>en</strong> répartissant simplem<strong>en</strong>t N k<br />

= ¯N = N/(n+1) points sur chaque grille <strong>de</strong> temps, la relation (3.17) donne une vitesse<br />

<strong>de</strong> converg<strong>en</strong>ce <strong>de</strong> l’ordre :<br />

‖g‖ n ∞<br />

γ n (y)<br />

n + 1<br />

¯N 1/d .


FILTRAGE ET QUANTIFICATION 53<br />

3.3 <strong>Applications</strong> <strong>et</strong> exemples<br />

3.3.1 Application : Valorisation d’options europé<strong>en</strong>nes <strong>en</strong> information<br />

partielle<br />

Soit (X k ), k = 0, . . . , n, le processus <strong>de</strong> r<strong>en</strong><strong>de</strong>m<strong>en</strong>t <strong>et</strong>/ou <strong>de</strong> volatilité d’un actif<br />

risqué. (Y k ), k = 0, . . . , n, est le (Logarithme) du processus <strong>de</strong> prix. On note F k =<br />

σ(X j , Y j , 0 ≤ j ≤ k), k = 0, . . . , n, la filtration d’information totale <strong>et</strong> Fk<br />

Y = σ(Y j, 0 ≤<br />

j ≤ k), k = 0, . . . , n la filtration d’information partielle, i.e. lorsqu’on n’observe pas<br />

le r<strong>en</strong><strong>de</strong>m<strong>en</strong>t <strong>et</strong>/ou volatilité mais seulem<strong>en</strong>t le prix <strong>de</strong>s actions. Dans ce modèle, on<br />

se donne une option europé<strong>en</strong>ne <strong>de</strong> payoff h(Y n ) <strong>et</strong> plus généralem<strong>en</strong>t h(X n , Y n ). Son<br />

prix <strong>en</strong> information totale est donné à la date k par :<br />

U k = E [h(X n , Y n )|F k ] = v k (X k , Y k ),<br />

pour une fonction Boréli<strong>en</strong>ne v k , d’après la propriété <strong>de</strong> Markov du couple (X, Y ).<br />

(Nous avons supposé ici que P est déjà une probabilité risque-neutre). La fonction v k<br />

peut être aisém<strong>en</strong>t calculée par diverses métho<strong>de</strong>s : <strong>quantification</strong> ou Monte-Carlo.<br />

D’autre part, le prix <strong>de</strong> l’option europé<strong>en</strong>ne <strong>en</strong> information partielle est :<br />

Uk Y = E [ h(X n , Y n )|Fk<br />

Y ]<br />

.<br />

D’après la loi <strong>de</strong>s espérances conditionnelles itérées, on a :<br />

Uk<br />

Y = E [ h(X n , Y n )|Fk<br />

Y ]<br />

= E [ v k (X k , Y k )|Fk<br />

Y ]<br />

∫<br />

= v k (x, Y k )Π k (dx) =: Π k v k (., Y k )<br />

Ainsi, étant donnée une observation (Y 0 , . . . , Y k ) = (y 0 , . . . , y k ), son prix est approximé<br />

par la formule explicite :<br />

ˆΠ k v k (., y k ) :=<br />

N k<br />

∑<br />

v k (x i k , y k)ˆΠ i k ,<br />

i=1<br />

où ˆΠ k est le filtre quantifié.<br />

3.3.2 Exemples<br />

Modèle linéaire gaussi<strong>en</strong>. C’est le modèle étudié au paragraphe 3.1.2 :<br />

X n = AX n−1 + Bε n , X 0 ∼ N (µ 0 , Σ X 0 ),<br />

Y n = CX n + η n ,<br />

pour lequel le filtre Π n est explicite : Π n ∼ N ( ¯X n , ¯Σ n ) avec ¯X n <strong>et</strong> ¯Σ n se calculant<br />

explicitem<strong>en</strong>t <strong>de</strong> manière inductive.


FILTRAGE ET QUANTIFICATION 54<br />

Proj<strong>et</strong> 7. Choisir les paramètres du modèle <strong>en</strong> dim<strong>en</strong>sion 1 pour que le signal X k soit<br />

stationnaire, X k ∼ N (0, Σ X 0 ) pour tout k, <strong>et</strong> impém<strong>en</strong>ter le filtre quantifié. Comparer<br />

avec le filtre théorique explicite.<br />

Modèle à volatilité stochastique. On considère le modèle ARCH :<br />

X k+1 = ρX k + ε k , X 0 ❀ N (0, Σ 0 )<br />

Y k = σ(X k )η k ,<br />

où (ε k ) <strong>et</strong> (η k ) sont <strong>de</strong>ux bruits blancs indép<strong>en</strong>dants gaussi<strong>en</strong>s. Ce modèle est populaire<br />

<strong>en</strong> finance où X est le facteur <strong>de</strong> la volatilité <strong>de</strong> l’actif risqué <strong>de</strong> prix logarithmique Y<br />

= ln S.<br />

Proj<strong>et</strong> 8. Choisir les paramètres du modèle <strong>en</strong> dim<strong>en</strong>sion 1 pour que le signal X k soit<br />

stationnaire, X k ∼ N (0, Σ X 0 ) pour tout k, <strong>et</strong> impém<strong>en</strong>ter le filtre quantifié. Calculer le<br />

prix d’un put europé<strong>en</strong> <strong>en</strong> information totale <strong>et</strong> partielle.


Bibliographie<br />

[1] Bally V., Pagès G. (2003) : A quantization algorithm for solving discr<strong>et</strong>e time<br />

multi-dim<strong>en</strong>sional optimal stopping problems, Bernoulli, 9, 1003-1049.<br />

[2] Bally V., Pagès G., Printems J. (2001) : A stochastic quantization m<strong>et</strong>hod for<br />

nonlinear problems, Monte Carlo M<strong>et</strong>hods and <strong>Applications</strong>, 7, n 0 1-2, pp.21-34.<br />

[3] Bartoli N. <strong>et</strong> P. Del Moral (2005) : Simulation <strong>et</strong> algorithmes stochastiques,<br />

Cépadues-Éditions.<br />

[4] Bucklew J., Wise G. (1982) : Multidim<strong>en</strong>sional Asymptotic Quantization Theory<br />

with r th Power distortion Measures, IEEE Transactions on Information Theory,<br />

Special issue on Quantization, 28, n 0 2, pp. 239-247.<br />

[5] Duflo, M. (1996) : Algorithmes stochastiques, Mathématiques <strong>et</strong> <strong>Applications</strong>, 23,<br />

Springer-Verlag.<br />

[6] Duflo, M. (1997) : Random Iterative Mo<strong>de</strong>ls, Coll. <strong>Applications</strong> of Mathematics,<br />

34, Springer-Verlag, Berlin, 1997, 385p.<br />

[7] Elliott R., Aggoun L. and J. Moore (1995) : Hid<strong>de</strong>n Markov Mo<strong>de</strong>ls, Estimation<br />

and Control, Springer Verlag, 361 pp.<br />

[8] Fort J.C., Pagès G. (2002) : Asymptotics of optimal quantizers for some scalar<br />

distributions, Journal of Computational and Applied Mathematics, 146, pp.253-<br />

275.<br />

[9] Gersho A., Gray R. (eds.) (1982) : IEEE Transactions on Information Theory,<br />

Special issue on Quantization, 28.<br />

[10] Graf S., Luschgy H. (2000) : Foundations of Quantization for Probability Distributions,<br />

Lecture Notes in Mathematics n 0 1730, Springer, Berlin, 230 pp.<br />

[11] Kieffer J. (1982) : Expon<strong>en</strong>tial rate of converg<strong>en</strong>ce for the Lloyd’s m<strong>et</strong>hod I, IEEE<br />

Transactions on Information Theory, Special issue on Quantization, 28, 205-210.<br />

[12] Kohon<strong>en</strong> T. (1982) : Analysis of simple self-organizing process, Biological Cybern<strong>et</strong>ics,<br />

44, pp. 135–140.<br />

[13] Kushner H.J., Yin G.G. (1997) : Stochastic Approximation Algorithms and <strong>Applications</strong>,<br />

Springer, New York.<br />

55


Bibliographie 56<br />

[14] Le Gland F. (2004) : Introduction au filtrage <strong>en</strong> temps discr<strong>et</strong>, Polycopié <strong>de</strong> cours,<br />

Master STI, Université <strong>de</strong> R<strong>en</strong>nes 1.<br />

[15] Pagès G. (1997) : A space vector quantization m<strong>et</strong>hod for numerical integration,<br />

Journal of Computational and Applied Mathematics, 89, pp.1-38.<br />

[16] Pagès G., H. Pham and J. Printems, “An optimal markovian quantization algorithm<br />

for multidim<strong>en</strong>sional stochastic control problems”, 2004, Stochastics and<br />

Dynamics, 4, 501-545.<br />

[17] Pagès G., H. Pham <strong>et</strong> J. Printems, “Optimal quantization m<strong>et</strong>hods and applications<br />

to numerical problems in finance”, 2004, Handbook of Numerical and Computational<br />

M<strong>et</strong>hods in <strong>Finance</strong>, ed. Z. Rachev, Birkhauser.<br />

[18] Pagès G., Pham H. (2005) : Optimal quantization m<strong>et</strong>hods for nonlinear filtering<br />

with discr<strong>et</strong>e-time observations, Bernoulli, 11, 5, 893-932.<br />

[19] Pagès G., Printems J. (2003) : Optimal quadratic quantization for numerics : the<br />

Gaussian case, Monte Carlo M<strong>et</strong>hods and <strong>Applications</strong>, 9, 135-165.<br />

[20] Sellami A. (2005) : <strong>Métho<strong>de</strong>s</strong> <strong>de</strong> <strong>quantification</strong> <strong>optimale</strong> <strong>en</strong> filtrage <strong>et</strong> applications<br />

<strong>en</strong> finance, Thèse Université Paris Dauphine.<br />

[21] Zador P. (1982) : Asymptotic quantization error of continuous signals and the<br />

quantization dim<strong>en</strong>sion, IEEE Transactions on Information Theory, Special issue<br />

on Quantization, 28, n 0 2, pp. 139-148. .

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!