Méthodes de quantification optimale et Applications en Finance

Méthodes de quantification optimale 

et Applications en Finance 

Huyên PHAM 

Université Paris 7 

Laboratoire de Probabilités et 

Modèles aléatoires, CNRS UMR 7599 

pham@math.jussieu.fr 

Version : 2006-2007. 

Master 2ème année, Paris 7, Statistique et Modèles Aléatoires en Economie et 

Finance

Table des matières 

Préface 3 

1 Quantification vectorielle d’une loi de probabilité 4 

1.1 Mosaique de Voronoi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 

1.2 Quantification de Voronoi et distorsion optimale . . . . . . . . . . . . . 7 

1.3 Asymptotique de l’erreur de quantification . . . . . . . . . . . . . . . . . 12 

1.4 Algorithmes de recherche d’un quantifieur optimal de Voronoi . . . . . . 14 

1.4.1 Méthode du point fixe de Lloyd (en dimension 1) . . . . . . . . . 14 

1.4.2 Méthode du gradient déterministe (en dimension 1) . . . . . . . 15 

1.4.3 Méthode du gradient stochastique : algorithme de Kohonen . . . 18 

1.5 Application à l’intégration numérique et aux options européennes . . . . 23 

2 Quantification d’une chaine de Markov et applications 26 

2.1 Quantification marginale . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 

2.1.1 Méthode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 

2.1.2 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 

2.1.3 Quantification optimale . . . . . . . . . . . . . . . . . . . . . . . 31 

2.2 Application à l’arrêt optimal et aux options américaines . . . . . . . . . 31 

3 Filtrage et quantification 35 

3.1 Filtrage linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 

3.1.1 Rappel sur les variables gaussiennes . . . . . . . . . . . . . . . . 35 

3.1.2 Filtre de Kalman-Bucy . . . . . . . . . . . . . . . . . . . . . . . 37 

3.2 Filtrage non linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 

3.2.1 Description du modèle . . . . . . . . . . . . . . . . . . . . . . . . 41 

3.2.2 Equation du filtre . . . . . . . . . . . . . . . . . . . . . . . . . . 43 

3.2.3 Approximation par quantification . . . . . . . . . . . . . . . . . . 46 

3.3 Applications et exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 

3.3.1 Application : Valorisation d’options européennes en information 

partielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 

1

TABLE DES MATIÈRES 2 

3.3.2 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 

Bibliographie 55

Préface 

Le terme “quantification” a ses origines en théorie du signal et de l’information et 

était utilisé par les ingénieurs depuis les années 50. Dans ce contexte, la quantification 

signifie la discrétisation d’un signal continu par un nombre fini N de codes (ou quantifieurs). 

Pour permettre une transmission efficiente du signal, il est donc primordial 

d’optimiser la location géométrique de ces codes et d’évaluer l’erreur résultante. C’est 

le problème mathématique dit de la quantification optimale : trouver la meilleure approximation 

d’une loi de probabilité continue par une loi de probabilité discrète avec 

un nombre donné N de points supportant cette loi. D’un point de vue numérique, la 

quantification optimale est longtemps restée limitée au cas de signals unidimensionnels 

car les procédures d’optimisation, essentiellement déterministes, devenaient trop lourds 

en dimension supérieure. Grâce à l’évolution et la puissance des ordinateurs permettant 

une réduction drastique des temps de calcul par les méthodes de Monte-Carlo, 

les méthodes de quantification optimale ont été récemment réétudiés dans le domaine 

des probabilités numériques et plus particulièrement dans les applications en finance 

où intervient naturellement des questions de grande dimension. 

Ce cours est une introduction aux méthodes de quantification optimale avec en vue 

les applications en finance. On commence par exposer les fondements mathématiques de 

la quantification quadratique. On développera ensuite les algorithmes de recherche d’un 

quantifieur optimal et on donnera plusieurs applications en finance : calcul d’options 

européennes et d’options américaines. On étudiera aussi le filtrage et les méthodes 

d’approximation par quantification, avec comme applications les modèles à volatilité 

stochastique. 

3

Chapitre 1 

Quantification vectorielle d’une 

loi de probabilité 

Dans la suite, |.| est la norme euclidienne sur R d et on note (.|.) ou parfois . le produit 

scalaire associé. L’intérieur d’une partie A de R d est notée int(A) et son adhérence 

Adh(A). On note ♯A le cardinal d’un ensemble A de R d et 1 A la fonction indicatrice de 

A. Etant donné un espace de probabilité (Ω, A, P), on note L 2 (Ω, P; R d ) l’ensemble des 

variables aléatoires X à valeurs dans R d telles que E|X| 2 < +∞ et on note ‖X‖ 2 = 

( 

E|X| 

2 ) 1 2 

. On notera aussi P X la loi de probabilité de X et λ d la mesure de Lebesgue de 

R d . On note Supp(µ) le support topologique d’une mesure µ sur R d et Conv(Supp(µ)) 

son enveloppe convexe fermée. 

1.1 Mosaique de Voronoi 

Soit x = (x 1 , . . . , x N ) un N-uplet de points x i dans R d qu’on identifiera souvent 

avec la grille (partie finie) {x 1 , . . . , x N } de N points dans R d . La famille d’ensembles 

de R d définis par : 

¯C i (x) = 

{ 

u ∈ R d } 

: |u − x i | = min j| 

j=1,...,N 

, i = 1, . . . , N, 

est appelée mosaique (ou diagramme) de Voronoi de x. Les ¯C i (x), i = 1, . . . , N, sont les 

cellules fermées de Voronoi engendrées par x. Ainsi, ¯Ci (x) consiste en tous les points 

u de R d tels que x i est le plus proche de u parmi les points x j de x ; voir figure 1.1. 

Il est clair qu’une mosaique de Voronoi couvre R d , i.e. 

∪ N i=1 ¯C i (x) = R d , 

4

QUANTIFICATION VECTORIELLE 5 

Fig. 1.1 – Une mosaique de Voronoi dans R 2 avec N = 500 points.. 

et que les cellules de Voronoi ¯C i (x) sont fermées dans R d . On introduit aussi les cellules 

ouvertes de Voronoi dans R d : 

Ci o (x) = 

{ 

u ∈ R d 

} 

: |u − x i | < min |u − x j | 

x j ≠x i 

, i = 1, . . . , N, 

qui sont clairement ouvertes dans R d et disjointes deux à deux mais ne couvrent pas 

R d . On appelle partition de Voronoi de x toute partition C i (x), i = 1, . . . , N, de R d , 

i.e. ∪ N i=1C i (x) = R d et C i (x) ∩ C j (x) = ∅ si x i ≠ x j , telle que : 

Notons qu’on a alors aussi 

C i (x) ⊂ ¯C i (x), i = 1, . . . , N. (1.1) 

C o i (x) ⊂ C i (x), i = 1, . . . , N. (1.2) 

Nous montrons d’abord quelques propriétés intuitives sur les cellules de Voronoi. 

Proposition 1.1.1 Les cellules de Voronoi vérifient 

(a) ¯Ci (x) et Ci o(x) sont convexes dans Rd . 

(b) int( ¯C i (x)) = Ci o(x), Adh(Co i (x)) = ¯C i (x), ∂C i (x) = ∂ ¯C i (x) = ∂Ci o(x). 

(c) λ d (∂C i (x)) = 0. 

Preuve. (a) On définit le demi-espace médian entre x i et x j par : 

H ij (x) = 

{ 

u ∈ R d } 

: |u − x i | ≤ |u − x j | , 

et l’hyperplan séparateur entre x i et x j : 

S ij (x) = 

{ 

u ∈ R d } 

: |u − x i | = |u − x j | .


On a donc par définition 

¯C i (x) = ∩ N j=1H ij (x). (1.3) 

En notant que par définition de la norme euclidienne, on a 

{ ( 

H ij (x) = u ∈ R d : x i − x j | u − 1 ) 

2 (x i + x j ) 

} 

≥ 0 , 

il est clair que H ij (x) est convexe et donc aussi ¯Ci (x) d’après (1.3). De même, en 

écrivant que 

} 

Ci o (x) = ∩ xj ≠x i 

{u ∈ R d : |u − x i | < |u − x j | 

( 

= ∩ xj ≠x i 

{u ∈ R d : x i − x j | u − 1 ) } 

2 (x i + x j ) > 0 , 

on a la convexité de Ci o(x). 

(b) Vérifions que pour tout x j ≠ x i , λ ∈ ]0, 1[ et u ∈ H ij (x), on a 

λu + (1 − λ)x i ∈ 

{ 

v ∈ R d } 

: |v − x i | < |v − x j | . (1.4) 

En effet, posons v = λu + (1 − λ)x i , i.e. v − x i = λ(u − x i ). v est dans H ij (x) par 

convexité de cet ensemble. Supposons alors par l’absurde que |v − x i | = |v − x j |. Alors, 

en utilisant le fait que pour tous vecteurs x ≠ y avec |x| = |y|, on a |(1 − λ)x + λy| < 

|x|, on en déduit : 

|u − x j | = 

1 

∣λ (v − x i) − (x j − x i ) 

∣ = 1 λ |v − x i − λ(x j − x i )| 

qui est la contradiction voulue. 

= 1 λ |(1 − λ)(v − x i) + λ(v − x j )| 

< 1 λ |v − x i| = |u − x i | ≤ |u − x j |, 

⋆ D’après (1.3), on a int( ¯C i (x)) = ∩ N j=1int(H ij (x)) et donc pour obtenir int( ¯C i (x)) = 

Ci o(x), on doit montrer que pour tout x j ≠ x i 

int(H ij (x)) ⊂ 

{ 

u ∈ R d } 

: |u − x i | < |u − x j | . 

Soit u ∈ int(H ij (x)) et ε > 0 tel que B(u, ε) ⊂ H ij (x). Si u = x i , on a trivialement 

|u − x i | < |u − x j |. Sinon, on pose t = 1 + ε/|u − x i | et w = x i + t(u − x i ). Alors on a : 

|w − u| = |(t − 1)u − (t − 1)x i | = ε, 

ce qui implique w ∈ H ij (x). Comme u = 1 t w + (1 − 1 t )x i avec 1/t < 1, on a d’après 

(1.4) |u − x i | < |u − x j |.


⋆ Soit u ∈ ¯C i (x). Alors d’après (1.3), u ∈ H ij (x) pour tout j. Considérons la suite 

u n = (1 − 1/n)u + 1/nx i , n ≥ 1. D’après (1.4), on a pour tout x j ≠ x i , |u n − x i | < 

|u n − x j |, i.e. u n ∈ C o i (x). Comme la suite (u n) n converge vers u, ceci prouve que u ∈ 

Adh(C o i (x)) et donc ¯C i (x) = Adh(C o i (x)). 

⋆ La dernière relation de l’assertion (a) découle de la définition de la frontière d’un 

ensemble A de R d : ∂A = Adh(A)∩(int(A)) c et des relations précédentes : 

∂C o i (x) = Adh(C o i (x)) ∩ (C o i (x)) c = ¯C i (x) ∩ int( ¯C i (x)) = ∂ ¯C i (x). 

(c) Par définition de la frontière d’un ensemble et d’après (b), on a : 

∂C i (x) = ¯C i (x) ∩ ( int( ¯C i (x)) ) c 

= ¯C i (x) ∩ (C o i (x)) c 

= ∪ xj ≠x i 

S ij (x) ∩ ¯C i (x) 

Puisque S ij (x) est un hyperplan de R d , on a λ d (S ij (x)) = 0 et l’assertion (c) est alors 

une conséquence de la relation ci-dessus. 

✷ 

1.2 Quantification de Voronoi et distorsion optimale 

Soit X ∈ L 2 (Ω, P; R d ) de loi de probabilité P X , x = (x 1 , . . . , x N ) un N-uplet dans 

R d et C i (x), i = 1, . . . , N, une partition de Voronoi de x. On appelle quantifieur de 

Voronoi de X, la variable aléatoire ˆX x (notée simplement ˆX s’il n’y a pas d’ambiguité) 

à valeurs dans la grille x, définie par : 

ˆX x = Proj x (X) := 

N∑ 

x i 1 Ci (x)(X) 

et donc de loi de probabilité discrète P ˆX 

caractérisée par : 

p i := P ˆX(x i ) = P( ˆX = x i ) = P(X ∈ C i (x)) = P X (C i (x)), i = 1, . . . , N. 

Autrement dit, ˆXx est la projection selon le plus proche voisin de la variable aléatoire 

X sur la grille x. Les p i sont appelés aussi masses des cellules de Voronoi. L’erreur 

résultante au carré de quantification quadratique est appelée distorsion (quadratique) 

et s’écrit donc par définition d’une partition de Voronoi : 

i=1 

DN X (x) := E|X − ˆX x | 2 

N∑ 

= E [ |X − x i | 2 1 Ci (x)(X) ] [ 

] 

= E min |X − x i| 2 

i=1,...,N 

i=1 

∫ 

= d N (x, u)P X (du) (1.5) 

R d


où d N : (R d ) N × R d → R + est la distorsion locale définie par : 

d N (x, u) = min 

i=1,...,N |u − x i| 2 = 

N∑ 

|u − x i | 2 1 Ci (x)(u) (1.6) 

La distorsion ne dépend que du N-uplet x et de la loi de probabilité P X de X. 

Le problème de la quantification optimale, à N fixé, consiste à minimiser sur les 

N-uplets x la distorsion. On dira que ˆX = ˆX x∗ est un N-quantifieur optimal de X si : 

i=1 

E|X − ˆX| 2 = inf 

x∈(R d ) N DX N (x) =: D X N . 

En fait, comme le prouve le résultat suivant, la N-quantification optimale fournit la 

meilleure approximation quadratique d’une variable aléatoire (loi de probabilité) par 

une variable aléatoire discrète (loi de probabilité discrète) de support à au plus N 

points. 

Proposition 1.2.2 Pour tout x = (x 1 , . . . , x N ) ∈ (R d ) N , on a : 

DN X (x) = inf 

{ 

E|X − Y | 2 } 

: Y : Ω → R d mesurable, Y (Ω) ⊂ {x 1 , . . . , x N } .(1.7) 

et donc 

D X N = inf 

{ 

E|X − Y | 2 

} 

: Y : Ω → R d mesurable, ♯Y (Ω) ≤ N . 

Preuve. Soit Y une variable aléatoire quelconque discrète dans R d de support Y (Ω) 

⊂ {x 1 , . . . , x N }. On a alors par définition de la quantification de Voronoi : 

|X − ˆX x | 2 = min 

i=1,...,N |X − x i| 2 ≤ |X − Y | 2 , p.s. 

d’où D X N (x) ≤ E|X − Y |2 et donc l’inégalité ≤ dans (1.7). 

Réciproquement, considérons Y = ˆX x un quantifieur de Voronoi de X qui est bien 

une variable aléatoire discrète de support inclus dans {x 1 , . . . , x N }. On a alors : 

DN X (x) = E[ min |X − x i| 2 ] = E|X − Y | 2 

i=1,...,N 

{ 

} 

≥ inf E|X − Y | 2 : Y : Ω → R d mesurable, Y (Ω) ⊂ {x 1 , . . . , x N } . 

✷ 

L’existence et la caractérisation d’un quantifieur optimal requiert l’étude de la 

distorsion D X N en fonction de x ∈ (Rd ) N . 

Proposition 1.2.3 La fonction x ↦→ DN 

X est continue sur (Rd ) N et atteint son minimum. 

De plus, si ♯supp(P X ) > N, alors ce minimum est atteint en un N-uplet 

(x ∗ 1 , . . . , x∗ N ) tel que x∗ i ∈ Conv(Supp(P X)) et x ∗ i ≠ x∗ j pour i ≠ j, et on a DX k+1 < DX k 

pour 1 ≤ k ≤ N.


Preuve. La continuité de la distorsion DN X est une conséquence immédiate de la continuité 

de x = (x 1 , . . . , x n ) ↦→ d N (x, u) = min i=1,...,N |u − x i | 2 pour tout u ∈ R d , et du 

théorème de convergence dominée. 

Il est clair que si ♯supp(P X ) ≤ N avec donc supp(P X ) = {ˆx 1 , . . . , ˆx k } où k ≤ N, 

DN X atteint son minimum égal à zéro en tout N-uplet x = (x 1, . . . , x N ) avec x i = ˆx i 

pour i ≤ k. 

On suppose donc ♯supp(P X ) > N et on montre le résultat par récurrence pour Dk 

X 

avec k ≤ N : 

Si k = 1, comme la fonction x ∈ R d ↦→ D1 X(x) = E|X − x|2 est continue et tend 

vers l’infini quand x tend vers l’infini, elle atteint son minimum. 

Soit 1 ≤ k ≤ N et supposons qu’il existe x ∗ = (x ∗ 1 , . . . , x∗ k ) ∈ (Rd ) k atteignant 

le minimum de Dk X. Fixons y ∈ supp(P X)\{x ∗ 1 , . . . , x∗ k 

} ≠ ∅ et considérons le k + 1- 

uplet x (k+1) = (x ∗ 1 , . . . , x∗ k 

, y). Notons alors que la k + 1 cellule ouverte de Voronoi de 

x (k+1) est alors de mesure non nulle 

∣ 

pour P X , i.e. P X (Ck+1 o (x(k+1) )) ≠ 0., et qu’on a 

pour tout u dans R d ∣∣u (k+1) 

, min i=1,...,k+1 − x ∣ ≤ min i=1,...,k |u − x ∗ i | avec une inégalité 

stricte pour u ∈ C o k+1 (x(k+1) ). On en déduit que 

[ 

Dk+1 X (x(k+1) ) = E 

[ 

< E 

i 

min 

i=1,...,k+1 

min |X − 

i=1,...,k x∗ i | 

] 

∣ 

∣X − x (k+1) 

i ∣ 

] 

= D X k , 

ce qui prouve D X k+1 < DX k . Considérons l’ensemble de (Rd ) k+1 : K k+1 = {Dk+1 X ≤ 

Dk+1 X (x(k+1) )}. K k+1 est fermé par continuité de Dk+1 X . Il est aussi borné car d’après 

le lemme de Fatou : 

[ 

] 

lim inf 

x=(x 1 ,...,x k+1 )→+∞ DX k+1 (x) ≥ E lim inf min |X − x i| 2 

x=(x 1 ,...,x k+1 )→+∞ i=1,...,k+1 

≥ D X k > D X k+1 (x(k+1) ). 

Ainsi, K k+1 est un compact de (R d ) k+1 dans lequel Dk+1 X atteint son minimum qui 

est alors évidemment aussi un minimum absolu sur (R d ) . De plus, comme D X k+1 < 

D X k , un minimum de DX k+1 

a nécessairement toutes ses k + 1 composantes distinctes. 

Finalement, en notant par Π la projection sur le convexe fermé Conv(Supp(P X )), on 

a pour tout x ∈ (R d ) N et u ∈ Supp(P X ), |Π(x i ) − u| = |Π(x i ) − Π(u)| ≤ |x i − u| car Π 

est 1-Lipschitzienne et donc DN X((Π(x i) 1≤i≤N ) ≤ DN X (x). Ceci prouve qu’un minimum 

de DN X a ses composantes dans Conv(Supp(P X)). 

✷ 

On a le résultat suivant de différentiabilité de la fonction de distorsion. 

Proposition 1.2.4 (a) La fonction x ↦→ DN X est différentiable en tout point x = 

(x 1 , . . . , x N ) ∈ (R d ) N tel que x i ≠ x j pour i ≠ j et P X (∪ N i=1 ∂C i(x)) = 0. De plus,


son gradient est donné par : 

∇D X N (x) = 2 

( ∫ 

(x i − u)P X (du) 

C i (x) 

) 

1≤i≤N 

. (1.8) 

(b) En particulier, si P X est absolument continue par rapport à la mesure de Lebesgue, 

alors D X N est différentiable en tout x = (x 1, . . . , x N ) ∈ (R d ) N tel que x i ≠ x j pour i ≠ 

j et on a 

arg min 

(R d ) N DX N ⊂ { ∇D X N = 0 } . 

Preuve. Par définition (1.6) de la distorsion locale, pour tout x = (x 1 , . . . , x N ) ∈ 

(R d ) N tel que x i ≠ x j pour i ≠ j et u /∈ ∪ N i=1 ∂C i(x), on a : 

∂d N 

∂x (x, u) = 2 ( (x i − u)1 Ci (x)(u) ) 1≤i≤N , 

et donc ∂d N 

∂x (x, u) existe P X(du) p.s. sous la condition P X (∪ N i=1 ∂C i(x)) = 0. De plus, 

∣ 

pour tout x dans un compact K de (R d ) N avec x i ≠ x j pour i ≠ j, on a ∣ ∂d N ∣∣ 

∂x (x, u) ≤ 

2(|u|+c K ) où c K est une constante dépendant de K. La fonction u → 2(|u|+c K ) étant 

P X intégrable, on obtient (1.8) d’après (1.5) et le théorème de Lebesgue. Finalement, 

(b) découle de l’assertion (c) de la proposition 1.1.1 et de la proposition 1.2.3. ✷ 

On dit qu’un quantifieur ˆX = ˆX x est stationnaire si le N-uplet x de points associés 

satisfait 

∇D X N (x) = 0. 

Un quantifieur optimal est donc stationnaire (la réciproque n’étant pas toujours vraie). 

On a la propriété utile suivante sur les quantifieurs stationnaires. 

Proposition 1.2.5 Si ˆX est un quantifieur stationnaire de X alors on a : 

E[X| ˆX] = ˆX. (1.9) 

Preuve. D’après (1.8), le N-uplet x = (x 1 , . . . , x N ) associé à un quantifieur stationnaire 

ˆX = ˆX x satisfait : 

E [ (X − x i )1 Ci (x)(X) ] = 0, i = 1, . . . , N. (1.10) 

Pour toute fonction ϕ Borélienne, bornée sur R d , on a alors : 

E[ϕ( ˆX)X] = 

= 

N∑ 

E[ϕ(x i )X1 Ci (x)(X)] 

i=1 

N∑ 

E[ϕ(x i )x i 1 Ci (x)(X)] = E[ϕ( ˆX) ˆX], 

i=1


ce qui prouve le résultat voulu. 

✷ 

Examples 

1. Soit N = 1. Alors D1 X(x) = E|X − x|2 atteint son minimum en x ∗ = E(X) et on a 

D X 1 = V ar(X). 

2. Soit N = 2 et X de loi de probabilité discrète P X = 1 3 (δ 0 + δ 1 

2 

0 ≤ x 1 < x 2 ≤ 1, on a : 

On obtient donc 

D X 2 (x 1 , x 2 ) = 1 3 

= 

⎧ 

⎨ 

⎩ 

[ 

x 2 1 + min 

i=1,2 

[ 

1 

3 

arg min 

x∈R 2 DX 2 = {∇D X 2 = 0} = 

( 

x i − 1 ) ] 

2 

+ (x 2 − 1) 2 

2 

2 ( ] 

x 1 − 1 2 

4) 

+ (x2 − 1) 2 + 1 8 

si x 1 + x 2 ≥ 1 

[ 

1 

3 

x 2 1 + 2 ( ] 

x 2 − 3 2 

4) 

+ 

1 

8 

si x 1 + x 2 < 1 

{( ) ( 1 

4 , 1 ; 0, 3 )} 

4 

+ δ 1 ). Pour tous 

et D X 2 = 1 24 . 

Pour x ∗,1 = (1/4, 1), on a C 1/4 (x ∗,1 ) = ] − ∞, 5/8[ et C 1 (x ∗,1 ) = [5/8, ∞[, d’où p ∗,1 

1/4 

= 2/3 et p ∗,1 

1 = 1/3. Pour x ∗,2 = (0, 3/4), on a C 0 (x ∗,2 ) = ] − ∞, 3/8[ et C 3/4 (x ∗,1 ) = 

[3/8, ∞[, d’où p ∗,2 

0 = 1/3 et p ∗,2 

3/4 = 2/3. 

3. Soit X de loi uniforme sur [0, 1] : U([0, 1]). La recherche du minimum de la distorsion 

DN X peut se restreindre aux N-uplets x = (x 1, . . . , x N ) avec 0 ≤ x 1 < x 2 < . . . < x N ≤ 

1. Pour de tels N-uplets, les cellules (fermées) de Voronoi sont : 

] 

[ 

xi−1 + x i 

] 

¯C 1 (x) = −∞, x 1 + x 2 

, ¯Ci (x) = 

2 

[ [ 

xN−1 + x N 

¯C N (x) = 

, +∞ . 

2 

2 

, x i + x i+1 

2 

On calcule explicitement le gradient de la distorsion : 

∂DN 

X ∫ 

(x) = 2 (x 1 − u)du = 1 ∂x 1 ¯C 1 (x)∩[0,1] 

4 (3x 1 − x 2 )(x 1 + x 2 ), 

∂D X N 

∂x i 

(x) = 2 

∂D X N 

∂x i 

(x) = 2 

∫ 

∫ 

] 

, 2 ≤ i ≤ N − 1, 

(x i − u)du = 1 

¯C i (x) 

4 (2x i − (x i−1 + x i+1 ))(x i+1 − x i−1 ), 2 ≤ i ≤ N − 1, 

(x N − u)du = 1 

¯C N (x)∩[0,1] 

4 (3x N − x N−1 − 2)(2 − (x N−1 + x N )). 

On vérifie alors aisément qu’il y a un unique x ∗ = (x ∗ 1 , . . . , x∗ N ) tel que ∇DX N (x∗ ) = 0 : 

il est donné par 

x ∗ i = 2i − 1 

2N , 1 ≤ i ≤ N.


Cet unique quantifieur stationnaire est donc aussi l’unique minimum de DN X . Les cellules 

fermées de Voronoi associées sont ¯C 1 (x ∗ ) = ]−∞, 1/N], ¯C i (x ∗ ) = [(i−1)/N, i/N], 

i = 2, . . . , N − 1, et ¯C N (x ∗ ) = [1 − 1/N, ∞[. Par symétrie et translation, on calcule 

aisément la distorsion minimale : 

D N X = D X N (x ∗ ) = 

N∑ 

∫ 

i=1 

∫ 

= N 

C i (x ∗ ) 

[−1/2N,1/2N] 

|x ∗ i − u| 2 1 [0,1] (u)du 

|u| 2 du = 1 1 

12 N 2 , 

ainsi que les masses des cellules de Voronoi associées p ∗ i = P X [C i (x ∗ )] = 1/N, i = 

1, . . . , N. 

4. Soit X de loi uniforme sur le cube [0, 1] d : U([0, 1] d ). Considérons la mosaique de 

Voronoi de [0, 1] d construite avec les N = k d translations C 1 , . . . , C N du cube [0, 1/k] d . 

Notons x i , i = 1, . . . , N, les points centraux de ces cubes, voir figure. La distorsion 

associée est 

D X N (x) = 

N∑ 

∫ 

i=1 

C i 

|x i − u| 2 du. 

Par translation et hométhie des cubes C i , on a pour tout i = 1, . . . , N : 

∫ 

∫ 

|x i − u| 2 du = 

|u| 2 |u| 

du = 

C i [− 

∫[− 2 

du. 

1 

2k , 1 

2k ]d 1 2 , 1 k2+d 2 ]d 

On obtient donc 

D X N (x) = 1 

N 2 d 

∫ 

[− 1 2 , 1 2 ]d |u| 2 du = 1 

N 2 d 

d 

12 . 

1.3 Asymptotique de l’erreur de quantification 

On s’intéresse dans ce paragraphe au comportement asymptotique de la distorsion 

minimale lorsque le nombre de points N tend vers l’infini. 

Proposition 1.3.6 

lim 

N→+∞ DX N = 0. 

Preuve. Soit (x n ) n∈N ∗ une suite dense dans R d et considérons le N-uplet x (N) = 

(x 1 , . . . , x N ). Alors la suite de variables aléatoires positives f N = min i=1,...,N |X − x i | 2 

est décroissante et converge p.s. vers 0. On en déduit par le théorème de convergence


monotone : DN X(x(N) ) = E[f N ] −→ 0 quand N tend vers +∞. Puisque 0 ≤ D X N ≤ 

DN X(x(N) ), on a le résultat voulu. 

✷ 

La recherche de la vitesse de convergence de la distorsion minimale est un problème 

beaucoup plus difficile. Elle a été résolue en plusieurs étapes par Zador [21], Buckley et 

Wise [4] et finalement Graf et Lushgy [10]. Le premier résultat concerne la distorsion 

de la loi uniforme sur [0, 1] d . 

Théorème 1.3.1 Soit X de loi uniforme sur [0, 1] d : U([0, 1] d ). Alors 

J d := lim 

N→+∞ N 2 d D 

X 

N 

existe dans ]0, +∞[. 

Remarque 1.3.1 D’après l’exemple 4 du paragraphe précédent, on sait que J d ≤ 

d/12. Pour d = 1 et 2, on connait J 1 = 1/12 et J 2 = 5/(18 √ 3). Pour d ≥ 3, la valeur 

exacte de J d est inconnue. On a cependant un équivalent quand d tend vers l’infini : 

J d ∼ d/(2πe). 

Dans un deuxième temps, on étend le résultat pour des lois non uniformes. On note 

P X = P a X + Ps X la décomposition de Lebesgue de P X par rapport à λ d , i.e. P a X 

est la 

partie absolument continue et P s X la partie singulière. On note dPa X /dλ d la densité de 

Radon-Nykodim de P a X par rapport à λ d. Pour toute fonction borélienne mesurable de 

R d dans R et r ∈ ]0, +∞[, on note 

‖f‖ r 

= 

(∫ 

|f| r dλ d 

) 1 

r 

. 

Théorème 1.3.2 On suppose E|X| 2+ε < +∞ où ε > 0. Alors 

lim d D 

X 

N 

N→+∞ 

= 

∥ ∥∥∥ dP a ∥ 

X ∥∥∥ 

J d 

dλ d d 

. (1.11) 

d+2 

Remarque 1.3.2 Si P X est une mesure purement singulière par rapport à λ d alors le 

théorème précédent montre que D X N = o(N −2/d ). En fait, dans ce cas, la vitesse peut 

être plus rapide. Par exemple, si P X est une mesure discrète alors D X N = 0 dès que N 

≥ ♯supp(P X ). Si ♯supp(P X ) = N et la transformée de Laplace de X est finie sur tout 

R + , e.g. la loi de Poisson, alors : 

[ 

] 

D X N ≤ E min |X − 

n=0,...,N−1 n|2 ≤ E [ 1 X≥N |X − N + 1| 2] 

≤ E [ 1 X≥N |X| 2] ≤ E [ |X| 2 e αX] e −αN , pour tout α > 0, 

[ 

≤ 2E e (α+1)X] e −αN = O(e −αN ) pour tout α > 0.


Example 

Soit X de loi normale N (m, Σ) sur R d (Σ matrice de variance-covariance). Alors la 

formule (1.11) donne 

( 

lim N 2 d D 

X 

N = 2π 1 + 2 ) 1+ 

d 

2 1 

(det(Σ)) d Jd . 

N→+∞ d 

Projet 1 : Mémoire sur la démonstration du théorème 1.3.2. Ref : Graf et Lushgy [10]. 

1.4 Algorithmes de recherche d’un quantifieur optimal de 

Voronoi 

A cette étape, le problème est d’obtenir numériquement un quantifieur N-optimal, 

i.e. trouver un N-uplet x = (x 1 , . . . , x N ) ∈ (R d ) N qui minimise la distorsion D X N . La 

recherche des minima d’une fonction est un problème classique en analyse. Il est lié au 

problème de la recherche des points à un niveau puisque argmin D X N ⊂ {∇DX N = 0}. 

On va donc en fait chercher les quantifieurs stationnaires i.e. solution de : ∇D X N (x∗ ) 

= 0 qui vont nous donner au moins des minimas locaux. Nous examinons dans ce 

paragraphe les méthodes de point fixe et celles du gradient. 

1.4.1 Méthode du point fixe de Lloyd (en dimension 1) 

L’approche du point fixe de Lloyd est basée sur l’équation (1.10) de stationnarité 

d’un quantifieur qui peut se réécrire comme : 

∫ 

1 

x i = 

uP X (du), i = 1, . . . , N. 

P X (C i (x)) 

C i (x) 

L’algorihme de Lloyd consiste à définir récursivement une suite (x n ) n≥0 dans (R d ) N 

partant d’un point initial x ∈ (R d ) N : 

x 0 = x 

x n+1 

i 

= F i (x n ) := 

∫ 

1 

P X (C i (x n uP X (du), i = 1, . . . , N, (1.12) 

)) C i (x n ) 

L’heuristique de la qualité d’un tel algorithme est donnée par l’argument suivant : en 

notant ˆX n := ˆX xn , la relation (1.12) implique ˆX 0 = ˆX x et 

ˆX n+1 = E[X| ˆX n ], n ∈ N. 

D’après la définition-caractérisation de l’espérance conditionnelle par rapport à ˆX n 

comme projection orthogonale dans L 2 sur l’espace L 2 (σ( ˆX n )) des variables aléatoires


σ( ˆX n )-mesurables de carré intégrable, on a : 

‖X − ˆX n+1 ‖ 2 

= ‖X − E[X| ˆX n ]‖ 2 

= min 

{ 

‖X − Y ‖ 2 

: Y ∈ L 2 (σ( ˆX 

} 

n )) 

< ‖X − ˆX n ‖ 2 

avec égalité si ˆXn = E[X| ˆX n ]. 

En dimension d = 1, on montre (voir [11]) que lorsque P X admet une densité strictement 

log-concave (e.g. la distribution normale), alors l’application x ↦→ (F i (x)) 1≤i≤N 

est une contraction et donc admet un unique point fixe vers lequel la méthode de 

Lloyd converge avec une vitesse exponentielle. En dimension d ≥ 2, les résultats de 

convergence de la méthode de Lloyd ne sont pas clairement établis dans la littérature. 

De plus, lorsque d ≥ 2, l’implémentation de la méthode de Lloyd n’est pas réaliste 

car on doit calculer numériquement des intégrales multiples sur des mosaiques de Voronoi. 

En fait, l’algorithme de Lloyd ne s’utilise en pratique qu’en dimension d = 1 où 

les mosaiques de Voronoi et le calcul d’intégrale simple sont explicites. 

Projet 2 : Démonstration de la convergence de la méthode de Lloyd en dimension 1 

et implémentation pour la loi normale. 

1.4.2 Méthode du gradient déterministe (en dimension 1) 

La méthode du gradient pour la recherche d’un quantifieur stationnaire x ∗ , i.e. 

∇D X N (x∗ ) = 0, est un algorithme qui corrige à chaque pas dans le bon sens, l’ampleur 

des corrections diminuant petit à petit. Supposons ainsi que x ∗ est un point attractif, 

i.e. 

On considère alors l’algorithme 

(x − x ∗ |∇D X N (x)) > 0, ∀x ≠ x ∗ ∈ (R d ) N . (1.13) 

x 0 = x 

x n+1 = x n − γ n ∇D X N (x n ), (1.14) 

où la suite (γ n ) des pas est une suite positive telle que ∑ n γ n = +∞ et ∑ n γ2 n < +∞. 

Cet algorithme se présente de façon générale sous la forme : 

x 0 = x 

x n+1 = x n − γ n h(x n ), (1.15) 

où h est une fonction continue et la suite (γ n ) des pas est une suite positive telle que 

∑ 

n γ n = +∞ et ∑ n γ2 n < +∞. La convergence de cet algorithme peut être étudiée selon 

la technique de Robbins-Monro. C’est l’approche que nous considérons ici. Elle peut 

être aussi approfondie avec la technique de Kushner-Clark, appelée encore méthode 

de l’EDO, en étudiant l’équation différentielle ordinaire dx/dt = −h(x) associée à 

l’algorithme.


Proposition 1.4.7 (Robbins-Monro déterministe) 

Soit V une fonction auxiliaire (dite de Lyapounov) à valeurs positives de classe C 1 

avec un gradient ∇V Lipschitzien et telle que : |h| 2 ≤ Cte(1+V ) et (h|∇V ) ≥ 0. Alors 

la suite (V (x n )) n converge et ∑ n γ n|(h|∇V )(x n )| < +∞. 

La preuve de cette proposition repose sur le lemme suivant : 

Lemme 1.4.1 (Robbins-Siegmund déterministe) 

Soient (V n ), (β n ), (χ n ) et (η n ) quatre suites positives telles que : 

∑ 

∑ 

V n+1 ≤ V n (1 + β n ) + χ n − η n , < +∞, 

n 

β n 

n 

χ n 

< +∞. 

Alors (V n ) converge dans R + et ∑ n η n < +∞. 

Preuve. On pose α n = 1/ ∏ n 

k=1 (1 + β k), V ′ n = α n−1 V n , χ ′ n = α n χ n , η ′ n = α n η n de telle 

sorte que : 

V ′ n+1 ≤ V ′ n + χ ′ n − η ′ n. 

La suite Y n = V n− ′ ∑ n−1 

k=1 (χ′ k −η′ k ) est donc décroissante. De plus, comme ln ∏ n 

k=1 (1+β k) 

= ∑ n 

k=1 ln(1 + β k) converge quand n tend vers l’infini, alors (α n ) converge vers α > 0. 

La convergence de la série ∑ n χ n implique donc celle de ∑ n χ′ n. La suite décroissante 

(Y n ) est donc minorée (par − ∑ n χ′ n) et converge. Notons aussi que ∑ n−1 

k=1 η′ k ≤ Y n + 

∑ n−1 

k=1 χ′ k et donc la série à termes positifs ∑ n η′ n converge. Ceci implique la convergence 

de la suite (V n) ′ et finalement celle de (V n ) et de ∑ n η n. 

✷ 

Preuve de la proposition 1.4.7. 

Par la formule de Taylor, on a 

V (x n+1 ) = V (x n ) + 

∫ 1 

D’après (1.15) et puisque ∇V est Lipschitzienne, on a : 

0 

(∇V (tx n + (1 − t)x n+1 ).(x n+1 − x n )dt. 

V (x n+1 ) ≤ V (x n ) − γ n (∇V (x n )|h(x n )) + Cte|x n+1 − x n | 2 

≤ V (x n ) ( 1 + Cteγ 2 n) 

+ Cteγ 

2 

n − γ n (∇V |h)(x n ), 

en utilisant l’hypothèse |h| 2 ≤ Cte(1 + V ). On conclut avec le lemme 1.4.1. 

✷ 

Application à l’algorithme du gradient (1.14). 

Il y a diverses variations autour du choix des fonctions de Lyapounov pour obtenir des 

versions multiples de la convergence de l’algorithme de Robbins-Monro et en particulier 

de l’algorithme du gradient (1.14) avec h = ∇D X N .


⋆ Un premier choix est V (x) = |x−x ∗ | 2 . Alors ∇V (x) = 2(x−x ∗ ). D’après l’expression 

(1.8) de ∇D X N , on a |∇DX N (x)|2 ≤ Cte(1 +|x| 2 ) de sorte que sous (1.13), les hypothèses 

de la proposition 1.4.7 sont vérifiées. On obtient alors que |x n − x ∗ | 2 converge vers une 

constante δ ≥ 0 et la série ∑ n γ n|(∇D X N (xn )|x n − x ∗ )| converge. Si par l’absurde δ ≠ 

0, alors à partir d’un certain rang n 0 , on aurait pour tout n ≥ n 0 , 0 < δ/2 ≤ |x n − x ∗ | 2 

≤ 2δ et |(∇D X N (xn )|x n − x ∗ )| > c avec c > 0 d’après (1.13). C’est en contradiction avec 

la divergence de la série ∑ n γ n. 

⋆ Un autre choix de fonction de Lyapounov est V (x) = DN X . Sous la condition que 

∇DN X est Lipschitzienne et |∇DX N |2 ≤ cte(1 + DN X ), la proposition 1.4.7 implique que 

la suite (DN X(xn )) n converge vers D ∗ et la série ∑ n γ n|∇DN X(xn )| 2 converge. Si de plus 

DN X (x) converge vers l’infini quand |x| tend vers l’infini, alors en utilisant la méthode 

dite de l’EDO (équation différentielle ordinaire), on montre (voir Lemme 3.III.8 dans 

[5]) que x n converge vers une composante connexe de {∇DN X = 0} ∩ {DX N = D∗ }. En 

particulier, si {∇DN X = 0} = {x∗ } alors x n converge vers x ∗ . 

Remarque 1.4.3 Les hypothèses ci-dessus requises pour assurer la convergence de la 

méthode du gradient ne sont pas vérifiées par la fonction de distorsion. Cependant, il 

existe des résultats partiels de convergence dans le cas unidimensionnel ou lorsque le 

support de la loi de X est compact, cf [15]. De plus, l’implémentation pratique donne 

des résultats satisfaisants (ce qui est souvent le cas dans les méthodes de gradient) et 

on peut obtenir des estimations d’erreur de la distorsion (voir paragraphe suivant). 

En pratique, la méthode du gradient déterministe est difficilement implémentable 

au delà de la dimension d ≥ 2 car le calcul de ∇DN 

X fait intervenir des intégrales 

multiples (sur des cellules de Voronoi). En dimension 1, comme pour la méthode de 

Lloyd, les calculs d’intégrales et de cellules de Voronoi sont explicites, et la méthode 

du gradient est efficace. 

Exemple pour la loi normale unidimensionnelle 

Soit X de loi normale N (0, 1). La recherche du minimum de la distorsion DN X peut se 

restreindre aux N-uplets x = (x 1 , . . . , x N ) ∈ R N avec x 1 < x 2 < . . . < x N . Pour de tels 

N-uplets, les cellules (fermées) de Voronoi sont C i (x) = [x i−1/2 , x i+1/2 ] où on a posé 

x i−1/2 = (x i + x i−1 )/2, x i+1/2 = (x i + x i+1 )/2 et par convention x 1/2 = −∞ (lorsque 

i = 1) et x N+1/2 = +∞ (lorsque i = N). En notant par φ la fonction de distribution 

de N (0, 1), i.e. φ(y) = √ 1 ∫ y 

2π −∞ e−u2 /2 du, on calcule explicitement le gradient de la 

distorsion : 

∂D X N 

[ 

(x) = x i φ(xi+1/2 ) − φ(x 

∂x i−1/2 ) ] 

i 

+ √ 1 ( [exp − 1 ) ( 

2π 2 x2 i+1/2 

− exp − 1 )] 

2 x2 i−1/2 

.


Projet 3 : Implémenter la méthode du gradient pour la loi normale scalaire et comparer 

avec la méthode de Lloyd. 

1.4.3 Méthode du gradient stochastique : algorithme de Kohonen 

La méthode du gradient stochastique pour la recherche d’un quantifieur stationnaire 

est basée sur le fait que le gradient de la distorsion admet une représentation intégrale 

par rapport à la loi de probabilité X simulable : 

∫ 

∇DN X (x) = ∇ x d N (x, u)P X (du) = E[∇ x d N (x, Z)], 

où Z est une variable aléatoire de loi de probabilité P X et ∇ x d N : (R d ) N × R d → R d 

est donné d’après (1.8) par : 

1 

2 ∇ xd N (x, u) = ( ) 

(x i − u)1 Ci (x) 1≤i≤N . (1.16) 

On considère alors l’algorithme stochastique définissant de façon récursive la suite de 

variables aléatoires (x n ) dans (R d ) N par : 

x n+1 = x n − γ n 

2 ∇ xd N (x n , Z n+1 ), (1.17) 

où la suite (γ n ) des pas est une suite positive telle que ∑ n γ n = +∞ et ∑ n γ2 n < +∞ 

et la suite (Z n ) est une suite de variables aléatoires i.i.d. de loi P X simulable choisie 

indépendante de la variable initiale x 0 . On peut réécrire (1.17) sous la forme : 

x n+1 = x n − γ n 

2 

( 

∇D 

X 

N (x n ) + ∇ x d N (x n , Z n+1 ) − ∇D X N (x n ) ) . 

Les termes ∇ x d N (x n , Z n+1 ) − ∇D X N (xn ), n ≥ 0, ont une espérance conditionnelle nulle 

par rapport à F Z n = σ(x 0 , Z 1 , . . . , Z n ) filtration propre engendrée par Z (et x 0 ). 

Finalement, on est amené à étudier des algorithmes stochastiques généraux de la 

forme : 

x n+1 = x n − γ n (h(x n ) + ε n+1 ), (1.18) 

où h est une fonction continue, la suite (γ n ) des pas est une suite positive telle que 

∑ 

n γ n = +∞ et ∑ n γ2 n < +∞ et la suite de variables aléatoires (ε n ) vérifie 

où F n est la filtration engendrée par x 0 , ε 1 . . . , ε n . 

E[ε n+1 |F n ] = 0, n ∈ N, (1.19) 

Proposition 1.4.8 (Robbins-Monro stochastique) 

Soit V une fonction auxiliaire (dite de Lyapounov) à valeurs positives de classe C 1 

avec un gradient ∇V Lipschitzien et telle que : |h| 2 ≤ Cte(1 + V ), (h|∇V ) ≥ 0 et 

E[|ε n+1 | 2 |F n ] ≤ Cte(1 + V (x n )), p.s. ∀n ≥ 0. (1.20) 

Alors presque sûrement, la suite (V (x n )) n converge et ∑ n γ n|(h|∇V )(x n )| < +∞.


Comme dans le cas déterministe, la preuve de cette proposition repose sur le lemme 

suivant : 

Lemme 1.4.2 (Robbins-Siegmund stochastique) 

Soient (V n ), β n ), (χ n ) et (η n ) quatre suites de variables aléatoires positives (F n )- 

adaptées telle que : 

E[V n+1 |F n ] ≤ V n (1 + β n ) + χ n − η n , p.s. ∀n ≥ 0. 

Alors presque sûrement sur 

{ ∑ 

Ω 1 = 

n 

β n 

< +∞ et 

} 

∑ 

χ n < +∞ , 

n 

(V n ) converge vers V ∞ variable aléatoire positive finie et la série ∑ n η n converge. 

Preuve. On pose α n = 1/ ∏ n 

k=1 (1 + β k), V ′ n = α n−1 V n , χ ′ n = α n χ n , η ′ n = α n η n de telle 

sorte que : 

E[V ′ n+1|F n ] ≤ V ′ n + χ ′ n − η ′ n. 

La suite Y n = V n ′ − ∑ n−1 

k=1 (χ′ k − η′ k ) est donc une surmartingale. Pour tout m ∈ N∗ , 

on note τ m = inf{n : ∑ n 

k=1 (χ′ k − η′ k 

) ≥ m} de sorte que la surmartingale arrêtée 

(Y n∧τm ) n est minorée par −m et converge p.s. vers une variable aléatoire finie d’après 

le théorème de Doob. Donc sur {τ m = +∞}, (Y n ) converge p.s. vers une limite finie. 

De plus, sur Ω 1 , ln ∏ n 

k=1 (1 + β k) = ∑ n 

k=1 ln(1 + β k) converge quand n tend vers 

l’infini et donc (α n ) converge vers α > 0. La convergence de la série ∑ n χ n implique 

donc celle de ∑ n χ′ n sur Ω 1 . 

Puisque ∑ n−1 

k=1 η′ k ≤ Y n + ∑ n−1 

k=1 χ′ k 

, on en déduit que la série à termes positifs 

∑ 

n η′ n converge sur Ω 1 ∩ {τ m = +∞} et donc aussi (V n). ′ Ceci implique la convergence 

de la suite (V n ) et de la série ∑ n η n sur Ω 1 ∩ {τ m = +∞}. Or sur Ω 1 , la série ∑ n χ′ n 

converge et donc il existe m ∈ N ∗ tel que ∑ +∞ 

k=1 (χ′ k − η′ k ) < m, i.e. τ m = +∞. Ainsi 

Ω 1 = ∪ +∞ 

m=1 Ω 1 ∩ {τ m = +∞} et la proposition est démontrée. ✷ 

Preuve de la proposition 1.4.8. 

Comme dans la preuve de la proposition 1.4.7, on a par la formule de Taylor, le fait 

que ∇V est Lipschitzienne et l’hypothèse |h| 2 ≤ Cte(1 + V ) : 

V (x n+1 ) ≤ V (x n ) ( 1 + Cteγ 2 n) 

− γn (∇V |h)(x n ) 

D’après (1.19) et (1.20), on obtient alors 

+Cteγ 2 n(1 + |ε n+1 | 2 ) − γ n (∇V (x n )|ε n+1 ). 

E[V (x n+1 )|F n ] ≤ V (x n ) ( 1 + Cteγ 2 n) 

+ Cteγ 

2 

n − γ n (∇V |h)(x n ).


On conclut avec le lemme 1.4.2. 

✷ 

Application à l’algorithme du gradient (1.17). 

Il y a diverses variations autour du choix des fonctions de Lyapounov pour obtenir 

des versions multiples de la convergence de l’algorithme du gradient (1.14) avec h = 

1 

2 ∇DX N et ε n+1 = 1 2 (∇ xd N (x n , Z n+1 ) − ∇DN X(xn )). 

⋆ Un premier choix est V (x) = |x−x ∗ | 2 . Alors ∇V (x) = 2(x−x ∗ ). D’après l’expression 

(1.8) de ∇DN X et (1.16) de ∇ xd N (x, u), on a 

∫ 

|∇DN X (x)| 2 + |∇ x d N (x, u)| 2 P X (du) ≤ Cte(1 + |x| 2 ) 

Si on suppose de plus (1.13), alors les hypothèses de la proposition 1.4.8 sont vérifiées. 

On obtient alors que |x n − x ∗ | 2 converge p.s. vers une variable aléatoire positive δ 

et la série ∑ n γ n|(∇D X N (xn )|x n − x ∗ )| converge p.s. Soit ω un évènement tel que ces 

deux convergences aient lieu. Si par l’absurde δ(ω) ≠ 0, alors à partir d’un certain 

rang n 0 = n 0 (ω), on aurait pour tout n ≥ n 0 , 0 < δ(ω)/2 ≤ |x n (ω) − x ∗ | 2 ≤ 2δ(ω) et 

|(∇D X N (xn (ω))|x n (ω)−x ∗ )| > c(ω) avec c(ω) > 0 d’après (1.13). C’est en contradiction 

avec la divergence de la série ∑ n γ n. 

⋆ Un autre choix de fonction de Lyapounov est V (x) = DN X . Sous la condition que 

∇DN X est Lipschitzienne et 

∫ 

|∇DN X (x)| 2 + |∇ x d N (x, u)| 2 P X (du) ≤ cte(1 + DN X (x)), 

les hypothèses de la proposition 1.4.8 sont vérifiées et on obtient que la suite (D X N (xn )) n 

converge p.s. vers D ∗ et la série ∑ n γ n|∇D X N (xn )| 2 converge p.s. Si de plus D X N (x) 

converge vers l’infini quand |x| tend vers l’infini, alors en utilisant la méthode dite de 

l’EDO (équation différentielle ordinaire), on montre (voir Lemme 3.III.8 dans [5]) que 

x n converge p.s. vers une composante connexe de {∇D X N = 0} ∩ {DX N = D∗ }. En 

particulier, si {∇D X N = 0} = {x∗ } alors x n converge vers x ∗ p.s. 

La méthode du gradient stochastique est efficiente en grande dimension d puisqu’elle 

ne requiert pas le calcul d’intégrales multiples mais seulement la connaissance de la 

fonction locale ∇ x d N (x, u) et la simulation de la loi de probabilité P X : 

Description explicite du gradient stochastique pour la distorsion : algorithme 

de Kohonen 

D’après l’expression (1.16) du gradient de la distorsion locale, l’algorithme du gradient 

stochastique (1.17) s’exprime comme : 

x n+1 

i 

= x n i − γ n (x n i − Z n+1 )1 Ci (x n )(Z n+1 ), i = 1, . . . , N 

Cette procédure se décompose encore à chaque pas n de façon explicite selon :


• phase de compétition : sélectionner l’indice i(n + 1) tel que 

Z n+1 ∈ C i(n+1) (x n ) i.e. i(n + 1) ∈ arg min 

i=1,...,N |xn i − Z n+1 |. 

• phase d’apprentissage : 

x n+1 

i 

= x n i − γ n (x n i − Z n+1 ), si i = i(n + 1) 

x n+1 

i 

= x n i , si i ≠ i(n + 1) 

Cette procédure en deux phases est connue dans la littérature comme l’algorithme 

de Kohonen. D’un point de vue numérique, la principale activté est la phase de 

compétition concernant la recherche à chaque étape du plus proche voisin de la nouvelle 

variable simulée Z n+1 . La phase d’apprentissage est simplement la mise à jour de 

la grille x n en modifiant la composante sélectionnée par la phase de compétition par 

une homothétie avec Z n+1 de rapport (1 − γ n ). 

Estimation des masses des cellules de Voronoi et de la distorsion minimale 

Pour déterminer un quantifieur stationnaire ˆX ∗ = ˆX x∗ , on doit obtenir, outre la grille 

x ∗ = (x ∗ 1 , . . . , x∗ N ) de son support, les masses P X(C i (x ∗ )), i = 1, . . . , N, des cellules 

de Voronoi associées qui caractérisent sa loi de probabilité. Il est donc important 

dans les applications numériques d’avoir une procédure de calcul des caractéristiques 

P X (C i (x ∗ )) ainsi que de la distorsion associée D X N (x∗ ). 

⋆ Une première approche simple consiste, après avoir terminé l’algorithme de Kohonen 

jusqu’au pas n et enregistré la grille limite x ∗ = x n , à estimer les caractéristiques 

voulues par une estimation standard de Monte-Carlo : 

p n i 

= 1 n∑ 

1 

n 

Zk ∈C i (x ∗ ), i = 1, . . . , N, et D n = 1 n 

k=1 

n∑ 

min |Z k − x ∗ i | 2 , 

i=1,...,N 

k=1 

où (Z k ) 1≤k≤n est un échantillon i.i.d. de loi P X . Par la loi standard des grands nombres, 

on est assuré de la convergence quand n tend vers l’infini d’une telle procédure : 

p n i −→ P X (C i (x ∗ )) p.s., i = 1, . . . , N, et D n −→ D X N (x ∗ ) p.s. 

⋆ Une autre approche plus pertinente et moins couteuse permet d’obtenir une estimation 

des caractéristiques voulues de façon simultanée à la procédure de Kohonen : 

p n i = 1 n 

D n = 1 n 

n∑ 

1 Zk ∈C i (x k−1 ) = 1 n 

k=1 

k=1 

n∑ 

1 i=i(k) , i = 1, . . . , N, 

k=1 

n∑ 

min |Z k − x k−1 

i 

| 2 = 1 

i=1,...,N n 

n∑ 

k=1 

|Z k − x k−1 

i(k) |2


Notons que les p n i et D n s’expriment aussi de manière récursive comme : 

p n+1 

i 

= p n i − 1 

D n+1 = D n − 1 

n + 1 

n + 1 (pn i − 1 i=i(n+1) ), p 0 i = 1 , i = 1, . . . , N (1.21) 

N 

( 

D n − |Z n+1 − x n i(n+1) |2) , D 0 = 0. (1.22) 

Proposition 1.4.9 On suppose P X absolument continue par rapport à λ d et E|X| 2+ε 

< +∞ où ε > 0. Alors sur l’évènement {x n → x ∗ }, on a 

p n i −→ P X (C i (x ∗ )) p.s., i = 1, . . . , N, et D n −→ D X N (x ∗ ) p.s. 

Preuve. On considère une fonction mesurable H : (R d ) N × R d → R telle que 

|H(x, u)| ≤ Cte|u| 2 

∫ 

h(x) := H(x, u)P X (du) est bornée sur (R d ) N et continue en x ∗ . 

Alors les variables aléatoires H(x n , Z n+1 ) − h(x n ), n ≥ 0, sont centrées, non corrélées 

deux à deux, et bornées dans L 1+ε/2 . La loi forte des grands nombres dans L 1+ε/2 

implique alors que 

1 

n 

n∑ 

k=1 

( 

) 

H(x k−1 , Z k ) − h(x k−1 ) 

−→ 0 p.s. 

quand n tend vers l’infini. De plus avec la continuité de h en x ∗ , on a par le théorème 

de Césaro : 1/n ∑ n 

k=1 h(xk−1 ) converge p.s. vers h(x ∗ ) sur {x n → x ∗ }. On en déduit 

que 

1 

n∑ 

H(x k−1 , Z k ) −→ h(x ∗ ) p.s. sur {x n → x ∗ }. 

n 

k=1 

On applique ce résultat respectivement aux fonctions : 

H(x, u) = 1 Ci (x)(u) de fonction moyenne h(x) = P X (C i (x)), 

H(x, u) = ρ(x) min i=1,...,N |x i − u| 2 de fonction moyenne h(x) = ρ(x)DN X (x) où ρ est 

une fonction continue positive à support compact sur (R d ) N et ρ(x ∗ ) = 1. ✷ 

Remarque 1.4.4 Au lieu de prendre comme pas 1/n dans le calcul récursif (1.21)- 

(1.22) des p i n et D n , on peut prendre le même pas (γ n ) que pour l’algorithme de 

Kohonen : 

p n+1 

i 

= p n i − γ n+1 (p n i − 1 i=i(n+1) ), p 0 i = 1 N , i = 1, . . . , N 

D n+1 = D n − γ n+1 

(D n − |Z n+1 − x n i(n+1) |2) , D 0 = 0. 

Projet 4 : Implémenter la quantification optimale de la loi normale sur R d , d ≥ 2, par 

l’algorithme de Kohonen.


1.5 Application à l’intégration numérique et aux options 

européennes 

L’idée est simplement d’approximer la loi de probabilité P X de la variable aléatoire 

X sur R d par la loi de probabilité P ˆX 

= ∑ N 

i=1 p iδ xi de la variable N-quantifiée ˆX = 

ˆX x à support discret dans la grille x = {x 1 , . . . , x N } dans (R d ) N . Autrement dit, pour 

toute fonction f intégrable par rapport à P X , notée f ∈ L 1 (P X ), on approxime 

E[f(X)] = 

∫ 

f(u)P X (du) par E[f( ˆX)] = 

∫ 

f(u)P ˆX(du) = 

N∑ 

p i f(x i ). 

L’objectif est d’évaluer la qualité de cette approximation en fonction de la distorsion 

et donc d’un point de vue numérique d’avoir accès au quantifieur optimal x ∗ et aux 

masses p ∗ i des cellules de Voronoi pour obtenir la meilleure approximation possible. 

On a le résultat basique suivant pour les fonctions Lipschitziennes. On note pour 

toute fonction f Lipschitzienne sur R d : 

i=1 

|f(y) − f(z)| 

[f] lip 

= sup 

y≠z∈R d |y − z| 

< +∞. 

Proposition 1.5.10 Pour tout f ∈ L 1 (P X ) et f Lipschitzienne, on a : 

∣ 

∣E[f(X)] − E[f( ˆX)] 

∣ ≤ [f] lip 

√DN X(x). 

Preuve. Il suffit simplement d’écrire : 

∣ 

∣E[f(X)] − E[f( ˆX)] 

∣ ≤ E|f(X) − f( ˆX)| 

≤ [f] lip 

E|X − ˆX| ≤ [f] lip 

√D X N (x), 

par l’inégalité de Cauchy-Schwarz. 

✷ 

Remarque 1.5.5 Cette dernière proposition montre que si x ∗ est un N-quantifieur 

optimal alors |E[f(X)] − E[f( ˆX ∗ )]| converge vers 0 quand N tend vers l’infini avec une 

vitesse de convergence en 1/N 1/d d’après le théorème de Zador. 

Lorsque f possède un peu plus de régularité, la borne d’erreur peut être améliorée. 

Proposition 1.5.11 Pour tout f ∈ L 1 (P X ) telle que f soit de class C 1 avec ∇f 

Lipschitzienne et pour tout quantifieur stationnaire ˆX ∗ = ˆX x∗ , on a : 

∣ 

∣E[f(X)] − E[f( ˆX ∗ )] ∣ ≤ [∇f] lip 

DN X (x ∗ ).


Preuve. D’après la formule de Taylor, on a 

f(X) = f( ˆX ∗ ) + 

∫ 1 

0 

∇f(t ˆX ∗ + (1 − t)X).(X − ˆX ∗ )dt 

≤ f( ˆX ∗ ) + ∇f( ˆX ∗ ).(X − ˆX ∗ ) + [∇f] lip 

|X − ˆX ∗ | 2 . 

On en déduit que 

∣ 

∣E[f(X)] − E[f( ˆX ∗ )] − E[∇f( ˆX ∗ ).(X − ˆX ∗ )] ∣ ≤ [∇f] lip 

E|X − ˆX ∗ | 2 . 

On conclut en notant que par la propriété de stationnarité (1.9), on a 

[ 

E ∇f( ˆX ∗ ).(X − ˆX 

] [ 

∗ ) = E ∇f( ˆX 

( 

∗ ). E[X − ˆX ∗ | ˆX 

)] 

∗ ] = 0. 

Remarque 1.5.6 Cette dernière proposition montre que si x ∗ est un N-quantifieur 

optimal, on a doublé la vitesse de convergence par rapport au cas de la proposition 

1.5.10. Ainsi, |E[f(X)] − E[f( ˆX ∗ )]| converge vers 0 quand N tend vers l’infini avec une 

vitesse de convergence en 1/N 2/d d’après le théorème de Zador. 

Finalement, on a une propriété intéressante pour l’intégration numérique de fonctions 

convexes. 

Proposition 1.5.12 Pour tout f ∈ L 1 (P X ) telle que f soit convexe et pour tout quantifieur 

stationnaire ˆX ∗ = ˆX x∗ , on a : 

E[f( ˆX ∗ )] ≤ E[f(X)]. 

Preuve. C’est une simple conséquence de la propriété de stationnarité (1.9) et de 

l’inégalité de Jensen : 

E[f( ˆX ∗ )] = E[f(E[X| ˆX ∗ ])] ≤ E[E[f(X)| ˆX ∗ ]] = E[f(X)]. 

Remarque 1.5.7 Ceci montre que l’intégration numérique de fonctions convexes avec 

un quantifieur stationnaire fournit toujours une borne inférieure à la vraie valeur. 

Symétriquement, on a toujours une borne supérieure avec un quantifieur stationnaire 

pour les fonctions concaves. 

✷ 

✷


Remarque 1.5.8 La méthode de quantification peut être comparée avec la méthode 

de Monte-Carlo qui consiste pour approximer E[f(X)] à générer un N-échantillon 

X 1 , . . . , X N de copies i.i.d. de loi P X et à calculer 

1 

N 

N∑ 

f(X k ). 

k=1 

Il est bien connu que par la loi des grands nombres, cette quantité converge p.s. quand 

N tend vers l’infini vers E[f(X)]. De plus par le théorème central limite, on a une 

vitesse de convergence en 1/N 1 2 indépendante de la dimension d. 

Projet 5 : Calculer dans le modèle de Black-Scholes multidimensionnel le put, le 

spread-put européen par la méthode de quantification et comparer les résultats avec la 

méthode de Monte-Carlo.

Chapitre 2 

Quantification d’une chaine de 

Markov et applications 

Dans ce chapitre, on considère une chaine de Markov (X k ) 0≤k≤n à valeurs dans R d 

de probabilités de transition P k (x, dx ′ ) (de k − 1 à k), k = 1, . . . , n, et de distribution 

initiale µ pour X 0 . Notons alors que la distribution jointe de (X 0 , . . . , X n ) est égale à 

µ(dz 0 )P 1 (z 0 , dz 1 ) . . . P n (z n−1 , dz n ). 

On s’intéresse à l’approximation par quantification de cette chaine de Markov, i.e. 

à l’approximation de la distribution du processus (X k ) 0≤k≤n par la distribution d’un 

processus ( ˆX k ) 0≤k≤n à valeurs dans un espace d’état fini et prenant en compte la 

loi de probabilité du processus. Une approche naive consisterait en la quantification 

du vecteur aléatoire (X 0 , . . . , X n ) dans R d(n+1) selon la méthode décrite au chapitre 

précédent. Mais d’après le théorème de Zador, pour un nombre total de points N dans 

la grille temps-espace, on obtiendrait une erreur de quantification de l’ordre N −1/nd : 

c’est bien évidemment très lent lorsque n est grand. 

On propose une approche basée sur le fait qu’une chaine de Markov est complètement 

caractérisée par sa distribution initiale et par ses probabilités de transition. L’idée est 

alors de quantifier la loi initiale de X 0 et les probabilités conditionnelles de X k sachant 

X k−1 . On verra alors que cela conduit à une erreur d’approximation d’ordre 

n 1+1/d /N 1/d . 

Dans la suite, on utilise les notations usuelles νf, P f, νP , P Q pour ν mesure, P, Q 

probabilités de transition et f fonction mesurable, i.e. 

∫ 

∫ 

νf = f(x)ν(dx), P f(x) = f(x ′ )P (x, dx ′ ) 

∫ 

∫ 

νP (dx ′ ) = ν(dx)P (x, dx ′ ), P Q(x 0 , dx 2 ) = P (x 0 , dx 1 )Q(x 1 , dx 2 ). 

26

QUANTIFICATION D’UNE CHAINE DE MARKOV 27 

Pour toute fonction borélienne f de R d dans R, on note 

‖ f ‖ ∞ 

= sup |f(x)|, [f] lip 

= sup 

x∈R d x≠y 

|f(x) − f(y)| 

. 

|x − y| 

On définit l’ensemble 

BL 1 (R d ) = 

{ 

} 

f : R d → R, ‖ f ‖ ∞ 

≤ 1 et [f] lip 

≤ 1 . 

On dit qu’une probabilité de transition P sur R d est Lipschitzienne de rapport [P ] lip 

< +∞ si pour toute fonction Lipschitzienne f de rapport [f] lip 

< +∞, on a 

∣ 

∣P f(x) − P f(x ′ ) ∣ ∣ ≤ [P ] lip 

[f] lip 

|x − x ′ |, ∀x, x ′ ∈ R d . 

2.1 Quantification marginale 

2.1.1 Méthode 

La méthode de quantification marginale consiste dans une première étape à quantifier 

vectoriellement les marginales de la chaine de Markov. Précisément, à chaque date 

k = 0, . . . , n, on se donne une grille x k = (x 1 k , . . . , xN k 

k 

) de N k points dans R d à laquelle 

est associée une partition de Voronoi C i (x k ), i = 1, . . . , N k . On considère alors pour 

tout k le quantifieur de Voronoi de X k sur la grille x k : 

ˆX k = Proj xk 

(X k ) := 

N k 

∑ 

x i k 1 C i (x k )(X k ). 

i=1 

Notons que l’application projection n’étant pas injective, le processus ( ˆX k ) construit 

ainsi ne conserve pas la propriété de Markov de (X k ). On définit cependant des matrices 

de probabilité de transition ˆP k = (p ij 

k 

), k = 1, . . . , n, de façon canonique à partir des 

ˆX k par : 

où 

k 

:= P[ ˆX k = x j k | ˆX k−1 = x i k−1 ] = βij k 

, i = 1, . . . , N k−1 , j = 1, . . . , N k , 

p ij 

p i k−1 

β ij 

k 

= P[( ˆX k , ˆX k−1 ) = (x j k , xi k−1 )] = P[(X k, X k−1 ) ∈ C j (x k ) × C i (x k−1 )] 

p i k−1 = P[ ˆX k−1 = x i k−1 ] = P[X k−1 ∈ C i (x k−1 )]. 

sont les masses des cellules de Voronoi du couple (X k−1 , X k ) (resp. X k−1 ). On définit 

aussi la loi de probabilité discrète ˆµ (de poids ˆµ i , i = 1, . . . , N 0 ) de ˆX 0 quantifieur de 

Voronoi de X 0 de loi µ : 

ˆµ i = p i 0 = P[ ˆX 0 = x i 0] = P[X 0 ∈ C i (x 0 )], i = 1, . . . , N 0 .


On approxime alors la loi µP 1 . . . P n de (X 0 , . . . , X n ) par la loi discrète ˆµ ˆP 1 . . . ˆP n . 

La qualité de cette approximation est estimée en fonction des erreurs de quantification 

à chaque date et mesurée comme suit : on introduit l’ensemble 

{ 

} 

Sn+1 d = φ : (R d ) n+1 → R, φ(z 0 , . . . , z n ) = f 0 (z 0 ) . . . f n (z n ) où f i ∈ BL 1 (R d ) 

et on fait l’hypothèse que les probabilités de transitions P k de la chaine de Markov 

(X k ) sont Lipchitziennes. On pose alors 

[P ] lip 

= max 

k=1,...,n [P k] lip 

Nous discuterons plus tard cette hypothèse (voir paragraphe 2.1.2). 

Afin de mettre clairement en évidence les techniques de preuve utilisées, nous commençons 

par regarder l’erreur d’approximation d’une probabilité de transition P k par 

ˆP k à la date k. 

Proposition 2.1.1 Pour tout φ Lipschitzienne sur R d , on a 

∥ 

∥P k+1 φ(X k ) − ˆP k+1 φ( ˆX ∥ ∥∥Xk 

k ) ∥ ≤ [P k+1 ] Lip 

[φ] Lip 

− ˆX 

∥ ∥ ∥∥ ∥∥Xk+1 

k + [φ] Lip 

− ˆX 

∥ ∥∥ 

k+1 . 

2 

2 

2 

Preuve. On écrit 

∥ 

∥P k+1 φ(X k ) − ˆP k+1 φ( ˆX k ) ∥ 

2 

≤ 

[ 

∥ 

∥P k+1 φ(X k ) − E P k+1 φ(X k )| ˆX 

]∥ ∥∥ 

k 

2 

∥ 

+ ∥E 

[P k+1 φ(X k )| ˆX 

] 

k − ˆP k+1 φ( ˆX k ) ∥ 

= I 1 + I 2 . 

2 

Par définition-caractérisation de l’espérance conditionnelle dans L 2 , on a 

∥ 

I 1 ≤ ∥P k+1 φ(X k ) − P k+1 φ( ˆX ∥ ∥∥Xk 

k ) ∥ ≤ [P k+1 ] Lip 

[φ] Lip 

− ˆX 

∥ ∥∥ 

k , 

2 

2 

d’après la condition de Lipschitz sur P k+1 . D’autre part, on a 

∥ 

I 2 = ∥E 

[E [φ(X k+1 )| X k ]| ˆX 

] [ 

k − E φ( ˆX k+1 ) ∣ ˆX 

]∥ ∥∥ 

k 

2 

∥ 

= ∥E 

[φ(X k+1 )| ˆX 

] [ 

k − E φ( ˆX k+1 ) ∣ ˆX 

]∥ ∥∥ 

k 

2 

∥ 

≤ ∥φ(X k+1 ) − φ( ˆX ∥ ∥∥Xk+1 

k+1 ) ∥ ≤ [φ] Lip 

− ˆX 

∥ ∥∥ 

k+1 , 

2 

où on a utilisé dans la deuxième égalité le fait que ˆX k est σ(X k )-mesurable, et dans la 

première inégalité la propriété de L 2 -contraction de l’espérance conditionnelle (ici par 

rapport à ˆX k ). On obtient ainsi la relation voulue. 

✷ 

2 

Plus généralement, on a l’erreur d’approximation suivante de µP 1 . . . P n par ˆµ ˆP 1 . . . ˆP n .


Théorème 2.1.1 Pour tout φ ∈ Sn+1 d on a 

( 

∣ 

(µP 1 . . . P n − ˆµ ˆP 1 . . . ˆP 

) 

n∑ 

n φ∣ 

≤ 1 + 

k=0 

[P ]n−k+1 

avec la convention (u m − 1)/(u − 1) = m quand u = 1. 

lip 

− 1 

[P ] lip 

− 1 

) 

‖ X k − ˆX k ‖ 2 

, 

Preuve. Pour tout φ = f 0 . . . f n ∈ Sn+1 d , on introduit les fonctions measurables pour 

k = 1, . . . , n sur R d (resp. sur la grille x k ) par : 

∫ 

v k (z) = f k (z) f k+1 (z k+1 ) . . . f n (z n )P k+1 (z, dz k+1 ) . . . P n (z n−1 , dz n ), 

∫ 

ˆv k (z) = f k (z) f k+1 (z k+1 ) . . . f n (z n ) ˆP k+1 (z, dz k+1 ) . . . ˆP n (z n−1 , dz n ), 

avec la convention que pour k = n, v n = ˆv n = f n . Notons alors que ces fonctions 

s’écrivent sous forme récursive par : 

v k (z) = f k (z)P k+1 v k+1 (z) = f k (z)E[v k+1 (X k+1 )|X k = z] (2.1) 

ˆv k (z) = f k (z) ˆP k+1ˆv k+1 (z) = f k (z)E[ˆv k+1 ( ˆX k+1 )| ˆX k = z], (2.2) 

pour k = 1, . . . , n − 1 et que 

(µP 1 . . . P n − ˆµ ˆP 1 . . . ˆP 

) [ 

n φ = E v 0 (X 0 ) − ˆv 0 ( ˆX 

] 

0 ) . 

∥ 

On va montrer alors le résultat par induction sur ∥v k (X k ) − ˆv k ( ˆX k ) ∥ . 

Etape 1. On a clairement ‖v k ‖ ∞ 

≤ 1. De plus, d’après (2.1), on a : 

2 

[v k ] lip 

≤ [f k ] lip 

+ [P k+1 v k+1 ] lip 

≤ 1 + [P ] lip 

[v k+1 ] lip 

. 

Puisque [v n ] lip 

≤ 1, on obtient par induction : 

pour tous k = 0, . . . , n. 

[v k ] lip 

≤ 

n∑ 

l=k 

[P ] n−l 

lip 

= 

[P ]n−k+1 

lip 

− 1 

[P ] lip 

− 1 

(2.3) 

Etape 2. D’après (2.1)-(2.2), on peut écrire : 

∥ 

∥v k (X k ) − ˆv k ( ˆX ∥ 

k ) ∥ ≤ ∥v k (X k ) − E[v k (X k )| ˆX k ] ∥ 

2 

2 

[( 

∥ 

+ ∥E f k (X k ) − f k ( ˆX 

) 

k ) P k+1 v k+1 (X k ) ∣ ˆX 

]∥ ∥∥ 

k 

2 

[ 

∥ 

+ ∥E f k ( ˆX 

( 

k ) P k+1 v k+1 (X k ) − ˆP k+1ˆv k+1 ( ˆX 

)∣ ]∥ ∣∣ ∥∥ 

k ) ˆXk 

1 

= I 1 + I 2 + I 3 . (2.4)


Par la définition même de l’espérance conditionnelle, on a : 

∥ 

I 1 ≤ ∥v k (X k ) − v k ( ˆX ∥ ∥∥Xk 

k ) ∥ ≤ [v k ] lip 

− ˆX 

∥ ∥∥ 

k . 

2 

2 

Comme l’espérance conditionnelle (ici par rapport à ˆX k ) est une L 2 -contraction et v k+1 

est bornée par 1, on a : 

∥ 

I 2 ≤ ∥f k (X k ) − f k ( ˆX ∥ 

k ) ∥ ≤ ∥X k − ˆX 

∥ ∥∥ 

k . 

2 

2 

Puisque ˆX k est σ(X k )-measurable et en rappelant que f k est bornée par 1, on a : 

∥ 

≤ ∥v k+1 (X k+1 ) − ˆv k+1 ( ˆX k+1 ) ∥ . 

I 3 

En substituant ces estimations de I 1 , I 2 et I 3 dans (2.4), on a 

∥ 

∥v k (X k ) − ˆv k ( ˆX k ) ∥ ≤ ( ) ∥ 1 + [v k ] lip ∥Xk − ˆX 

∥ ∥∥ ∥ 

k + ∥v k+1 (X k+1 ) − ˆv k+1 ( ˆX k+1 ) ∥ . 

2 

2 

2 

∥ 

Comme ∥v n (X n ) − ˆv n ( ˆX ∥ 

n ) ∥ ≤ ∥X n − ˆX 

∥ ∥∥ 

n une récurrence immédiate donne : 

2, 

∥ 

∥v k (Z k ) − ˆv k (Ẑk) ∥ 

2 

1 

≤ 

n∑ ( ) ∥ 1 + [vl ] lip ∥Xl − ˆX 

∥ ∥∥ 

l . 

2 

On obtient le résultat voulu en prenant k = 0 et en substituant l’estimation (2.3). 

2.1.2 Exemple 

Un exemple courant de chaine de Markov est donné par la dynamique : 

l=k 

X k+1 = F (X k , ε k+1 ), k = 0, . . . , n − 1. 

où (ε k ) k est une suite de variables i.i.d. centrée et de carré intégrable (e.g. un bruit blanc 

gaussien standard) indépendant de X 0 et F est une fonction mesurable correspondant 

au schéma d’Euler de pas δ = T/n d’une diffusion sur [0, T ] : 

F (x, ε) = x + b(x)δ + σ(x) √ δε. 

Notons P = P k , k = 0, . . . , n, la probabilité de transition de cette chaine de Markov 

homogène. Le résultat suivant montre la propriété de Lipschitz de P . 

Proposition 2.1.2 Supposons que les coefficients b et σ soient Lipschitziens sur R d . 

Alors il existe une constante notée [F ] lip 

telle que 

[P ] lip 

≤ [F ] lip 

≤ 1 + cδ, (2.5) 

‖F (x, ε 1 ) − F (x ′ , ε 1 )‖ 2 

≤ [F ] lip 

|x − x ′ |, ∀x, x ′ ∈ R d (2.6) 

où c est une constante (dépendant de T , [b] lip 

, [σ] lip 

, E|ε 1 | 2 ) mais indépendante de δ. 

2 

✷


Preuve. Pour tous x, x ′ , on a 

∣ 

∣F (x, ε 1 ) − F (x ′ , ε 1 ) ∣ ∣ 2 = |x − x ′ | 2 + |b(x) − b(x ′ )| 2 δ 2 + |σ(x) − σ(x ′ )| 2 δε 2 1 

+ (x − x ′ ).(b(x) − b(x ′ ))δ + (x − x ′ ).(σ(x) − σ(x ′ )) √ δε 1 

+ (b(x) − b(x ′ )).(σ(x) − σ(x ′ ))δ 3/2 ε 1 . 

Sous la condition de Lipschitz sur b, σ et puisque E[ε 1 ] = 0, E[|ε 1 | 2 ] < +∞, on en 

déduit que 

E ∣ ∣F (x, ε 1 ) − F (x ′ , ε 1 ) ∣ ∣ 2 ≤ |x − x ′ | 2 (1 + cδ) 

d’où (2.6) avec [F ] lip 

≤ 1+cδ. Finalement, en notant que pour toute fonction mesurable 

f sur R d , on a P f(x) = E[f(F (x, ε 1 ))], on en déduit [P ] lip 

≤ [F ] lip 

✷ 

2.1.3 Quantification optimale 

L’estimation d’erreur obtenue dans le théorème 2.1.1 est valable pour n’importe 

quelle grille x k à chaque date k. Pour minimiser cette borne d’erreur sur l’approximation 

de la loi de (X 0 , . . . , X n ), on va chercher à minimiser à chaque date k l’erreur de 

quantification, i.e. appliquer la quantification optimale à chaque marginale X k . Cette 

phase d’optimisation à chaque date k est menée selon la méthode décrite au chapitre 

précédent. Un cas particulièrement intéressant pour les calculs est lorsque le processus 

X est stationnaire et donc chaque marginale X k est identiquement distribuée. En effet 

dans ce cas une seule procédure d’optimisation pour X 0 est requise. Sinon de façon 

générale, les phases d’optimisation (sélection + apprentissage) de l’algorithme de Kohonen 

à chaque date k peuvent se conduire indépendamment dès lors qu’on a simulé 

un échantillon de (X 0 , . . . , X n ). Les probabilités de transition p ij 

k 

sont estimées par 

estimation de Monte-Carlo des probabilités jointes β ij 

k et marginales pi k−1 . 

D’après le théorème de Zador, pour une quantification optimale de chaque marginale 

X k , et avec un nombre total de points N à répartir entre les n + 1 dates k = 

0, . . . , n, on obtient dans le cas typique de l’exemple 2.1.2 un taux de convergence de 

l’ordre : 

n 1+1/d 

N 1/d . 

2.2 Application à l’arrêt optimal et aux options américaines 

On note T n l’ensemble des temps d’arrêts par rapport à la filtration (F k ) engendrée 

par (X k ) à valeurs dans T = {0, . . . , n}. Pour simplifier, on suppose que F 0 est trivial, 

i.e. X 0 = x 0 est déterministe et donc connu à la date 0. Etant donné une fonction 

mesurable f sur T × R d , on considère le problème d’arrêt optimal à horizon fini n : 

U 0 = sup 

τ∈T n 

E[f(τ, X τ )]


Ce problème est motivé en finance par le calcul d’options américaines (en fait ici 

bermudéennes car les dates d’exercice de l’options sont discrètes). Dans ce cas, (X k ), k 

= 0, . . . , n, représente le processus de prix d’une action aux dates t k = kδ, où δ > 0 est 

le délai entre deux dates possibles d’exercice d’une option de flux g(X k ), r est le taux 

d’intérêt et f(k, x) = e −rt kg(x). Dans le cas d’un modèle à volatilité stochastique, (X k ) 

peut représenter aussi le couple prix-volatilité. Par exemple, (X k ) est la discrétisation 

par schéma d’Euler de pas δ d’un modèle de diffusion pour le couple prix-volatilité 

(voir exemple 2.1.2). 

On va adopter la méthode de la programmation dynamique pour calculer U 0 . On 

introduit l’enveloppe de Snell de (f(k, X k )) : 

U k = ess sup 

τ∈T k,n 

E[f(τ, X τ )|F k ], k = 0, . . . , n, 

où T k,n désigne l’ensemble des temps d’arrêts à valeurs dans {k, . . . , n}. U k est donc en 

finance le prix de l’option bermudéenne à la date k. Le principe de la programmation 

dynamique stipule que U k s’exprime sous forme récursive par : 

U n = f(n, X n ) 

U k = max (f(k, X k ) , E[U k+1 |F k ]) , k = 0, . . . , n − 1. 

Ceci signifie qu’à chaque date k, on a le choix entre arréter le processus et recevoir 

comme gain f(k, X k ) ou continuer et recevoir comme gain espéré E[U k+1 |F k ]. De plus, 

par la propriété de Markov de (X k ), pour toute date k, il existe une fonction mesurable 

v k sur R d telle que 

U k = v k (X k ). 

On doit donc calculer la suite de fonctions (v k ) qui s’exprime par le principe de la 

programmation dynamique sous forme récursive comme : 

v n (x) = f(n, x), ∀x ∈ R d 

v k (x) = max (f(k, x) , E[v k+1 (X k+1 )|X k = x]) , ∀x ∈ R d , k = 0, . . . , n − 1. 

On est donc ramené à un calcul successif d’espérances conditionnelles faisant intervenir 

les probabilités de transitions des X k . 

Nous allons approximer les U k par une quantification marginale de (X k ) telle que 

décrite au paragraphe précédent. Pour chaque k = 0, . . . , n, on note par ˆX k le quantifieur 

de Voronoi de X k sur une grille x k = (x 1 k , . . . , xN k 

k 

) associée à une partition de 

Voronoi C i (x k ), i = 1, . . . , N k . Notons qu’à la date k = 0, puisque X 0 est supposé 

déterministe égal à x 0 , on choisit évidemment N 0 = 1 et ˆX 0 = x 0 . On approxime alors


la suite de fonctions (v k ) par la suite de fonctions (ˆv k ) où ˆv k défini sur la grille x k se 

calcule explicitement de façon récursive par : 

ˆv n (x) = f(n, x) ∀x ∈ x n 

( 

ˆv k (x) = max f(k, x) , E[ˆv k+1 ( ˆX k+1 )| ˆX 

) 

k = x] , ∀x ∈ x k , k = 0, . . . , n − 1, 

Ceci s’écrit encore algorithmiquement comme : 

ˆv n (x i n) = f(n, x i n) i = 1, . . . , N n 

⎛ 

⎞ 

N k+1 

ˆv k (x i k ) = max ⎝f(k, x i k ) , ∑ 

p ij 

k+1ˆv k+1(x j k+1 ) ⎠ , i = 1, . . . , N k , k = 0, . . . , n − 1, 

j=1 

où ˆP k = (p ij 

k ) est la matrice de probabilité de transition de ˆX k−1 à ˆX k . Ceci conduit à 

une approximation des U k par 

Û k = ˆv k ( ˆX k ), k = 0, . . . , n. 

On obtient alors l’estimation d’erreur suivante. On fait l’hypothèse que pour tout 

k, les fonctions f k := f(k, .) sont Lipschiztiennes et on pose 

[f] lip 

= max 

k=0,...,n [f k] lip 

. 

On suppose aussi que les probabilités de transition P k de la chaine de Markov sont 

Lipschitziennes. 

Théorème 2.2.2 Pour tout k = 0, . . . , n, on a 

∥ 

∥U k − Ûk 

∥ 

∥ 

2 

≤ [f] lip 

n∑ 

j=k 

[P ] n−j+1 − 1 

lip ∥ 

∥X j − 

[P ] lip 

− 1 

ˆX 

∥ ∥∥ 

j 

2 

Preuve. Le schéma de la preuve est similaire à celui du théorème 2.1.1. 

Etape 1. D’après l’expression récursive de v k , on a : 

[v k ] lip 

≤ [f k ] lip 

+ [P k+1 v k+1 ] lip 

≤ [f] lip 

+ [P ] lip 

[v k+1 ] lip 

. 

Puisque [v n ] lip 

≤ [f] lip 

, on obtient par induction : 

n∑ 

[v k ] lip 

≤ [f] lip 

[P ] n−l [P ] n−k+1 − 1 

lip 

= [f] 

lip lip 

, k = 0, . . . , n. (2.7) 

[P ] lip 

− 1 

l=k


Etape 2. D’après l’expression récursive de v k et en utilisant l’inégalité triviale | max(a, b)− 

max(a ′ , b ′ )| ≤ max(|a − a ′ |, |b − b ′ |), on a 

∥ 

∥ 

∥U k − Ûk∥ 

= ∥v k (X k ) − ˆv k ( ˆX k ) ∥ 

2 

2 

∥ 

≤ ∥f k (X k ) − f k ( ˆX ∥ 

k ) ∥ + ∥P k+1 v k+1 (X k ) − ˆP k+1ˆv k+1 ( ˆX k ) ∥ 

2 

2 

∥ ∥∥Xk 

≤ [f] lip 

− ˆX 

∥ ∥∥ ∥ 

k + ∥P k+1 v k+1 (X k ) − E[P k+1 v k+1 (X k )| ˆX k ] ∥ 

2 2 

∥ 

+ ∥E[P k+1 v k+1 (X k )| ˆX k ] − ˆP k+1ˆv k+1 ( ˆX k ) ∥ 

2 

∥ ∥∥Xk 

≤ [f] lip 

− ˆX 

∥ ∥∥ ∥ 

k + ∥P k+1 v k+1 (X k ) − P k+1 v k+1 ( ˆX k ) ∥ 

2 2 

∥ 

+ ∥v k+1 (X k+1 ) − ˆv k+1 ( ˆX k+1 ) ∥ , 

où on a utilisé dans la dernière inégalité la définition même de l’espérance conditionnelle 

et la loi des espérances conditionnelles itérées avec le fait que ˆX k est σ(X k )-mesurable. 

On obtient alors 

∥ 


∥ 

∥ 

2 

∥ 

Puisque ∥U n − Ûn∥ 

2 

∥ 


≤ ( ) ∥ [f] lip 

+ [P ] lip 

[v k+1 ] lip ∥Xk − ˆX 

∥ ∥∥ ∥ 

∥ 

k + ∥U k+1 − Ûk+1 

2 

≤ [f] lip 

∥ ∥∥Xn 

− ˆX n 

∥ ∥∥ 

2, une induction directe donne : 

∥ 

∥ 

2 

≤ 

n∑ ( ) ∥ [f]lip + [P ] lip 

[v j+1 ] lip ∥Xj − ˆX 

∥ ∥∥ 

j 

2 

j=k 

2 

∥ 

2 

avec la convention que [v n+1 ] lip 

l’estimation voulue. 

= 0. En substituant (2.7) dans cette inégalité, on a 

✷ 

Remarque 2.2.1 D’après le théorème de Zador, pour une quantification optimale 

de chaque marginale X k , et avec un nombre total de points N à répartir entre les 

n + 1 dates k = 0, . . . , n, on obtient dans le cas typique de l’exemple 2.1.2 un taux de 

convergence de l’ordre : 

n 1+1/d 

N 1/d . 

Projet 6. Calculer dans un modèle à volatilité stochastique le prix du Put américain.

Chapitre 3 

Filtrage et quantification 

Le filtrage consiste à estimer l’état d’un système dynamique (évoluant au cours du 

temps) à partir d’observations bruitées. Formellement, on a un signal (X k ), k ≥ 0, qui 

représente un système qu’on cherche à estimer ou à prédire : typiquement, X peut être 

l’évolution de la température, d’un véhicule (avion, sous-marin ...) ou encore en finance 

la volatilité d’un actif risqué, et l’aléa du signal est dû aux incertitudes du modèle. On 

dispose alors d’une suite d’observations (Y k ), k ≥ 0, obtenues à partir d’informations 

partielles et bruitées du signal. Ce sont typiquement les capteurs sensoriels de détection 

du véhicule ou encore en finance le prix de l’actif risqué. Le bruit des observations 

représente les incertitudes du modèle comme les erreurs d’observation. L’objectif est 

de calculer : 

- la loi de X n sachant Y 0 , . . . , Y n : c’est le filtrage 

- la loi de X n sachant Y 0 , . . . , Y n−1 : c’est la prédiction. 

Nous étudions d’abord le cas dit du filtre linéaire, i.e. lorsque le couple signal/observation 

forme un suite de variables gaussiennes, et pour lequel la résolution du filtre 

est explicite, et nous servira de test pour les illustrations numériques. Nous considérons 

ensuite le cas général, dit du filtre non linéaire qui conduit à des équations d’état en 

dimension infinie. On utilisera alors les méthodes de quantification pour approximer 

numériquement le filtre. 

3.1 Filtrage linéaire 

3.1.1 Rappel sur les variables gaussiennes 

Les variables aléatoires gaussiennes et les systèmes linéaires gaussiens jouent un 

rôle important dans la modélisation et le traitement du signal. Par exemple, d’après le 

théorème central limite, la distribution gaussienne est universelle en ce sens que tout 

phénomène résultant de l’accumulation d’un grand nombre de petits aléas indépendants 

35

FILTRAGE ET QUANTIFICATION 36 

suit approximativement une loi gaussienne. Ceci explique en partie que les variables 

aléatoires gaussiennes sont l’un des modèles stochastiques fondamentaux. Ces distributions 

offrent aussi l’avantage d’être caractérisées uniquement par deux paramètres : 

la moyenne et la matrice de covariance. 

Un vecteur aléatoire Z = (Z 1 , . . . , Z d ) de dimension d sur (Ω, F, P) est dit gaussien 

si toute combinaison linéaire des composantes du vecteur X est une variable aléatoire 

réelle gaussienne (normale), i.e. pour tout u ∈ R d , u.Z est gaussien. On note Z ∼ 

N (µ, Σ) où m = E(Z) est la moyenne de Z et Σ sa matrice (symétrique-positive) de 

covariance : 

Sa fonction caractéristique est 

Σ ij = E[(Z i − E(Z i )(Z j − E(Z j ))]. 

Φ Z (u) := E[e iu.Z ] = exp 

(iu.m − 1 2 u.Σu ) 

. 

Si la matrice Σ est inversible, la loi de Z admet une densité : 

( 

1 

p Z 

(z) = √ exp − 1 ) 

(2π) d 2 det(Σ) 2 (z − m).Σ−1 (z − m) . 

Soit Z = (X, Y ) un vecteur gaussien de dimension p + q de matrice de covariance : 

( 

) 

Σ 

Σ = 

X 

Σ XY 

, ( avec Σ 

Σ Y X 

Σ XY 

= Σ ′ ). Y X 

Y 

X et Y sont indépendants ssi Σ XY 

= 0. On a aussi la propriété fondamentale qui nous 

servira plus tard sur la loi conditionnelle. 

Proposition 3.1.1 Si la matrice Σ Y 

est inversible, alors la loi de X sachant Y est 

gaussienne de moyenne (linéaire en Y ) 

E[X|Y ] = E[X] + Σ XY 

Σ −1 (Y − E[Y ]), 

Y 

et de matrice de covariance (indépendante de Y ) 

Σ X|Y 

:= E [ (X − E[X|Y ])(X − E[X|Y ]) ′] = Σ X 

− Σ XY 

Σ −1 

Y Σ Y X . 

Preuve. On note m X 

= E[X], m Y 

= E[Y ], ˆX(y) le candidat pour E[X|Y = y] : 

et R celui pour Σ X|Y 

: 

ˆX(y) = m X 

+ Σ XY 

Σ −1 

Y (y − m Y ), 

R = Σ X 

− Σ XY 

Σ −1 

Y Σ Y X .


On va montrer que la fonction caractéristique Φ X|Y =y 

sachant Y = y est égale à 

exp 

(iu. ˆX(y) − 1 ) 

2 u.Ru , 

de la loi conditionnelle de X 

i.e. c’est la loi gaussienne de moyenne ˆX(y) et de matrice de covariance R. Pour cela, 

on note que Φ X|Y =y 

est caractérisée par : 

Φ X,Y 

(u, v) = E [ e iu.X+iv.Y ] = E [ e iv.Y E [ e iu.X∣ ∣ Y ]] 

∫ 

= e iv.y Φ X|Y =y 

(u)p Y 

(y)dy. 

D’autre part, on vérifie aisément en substituant les expressions de ˆX(y) et R, et les 

expressions de la fonction caractéristique de Y et (X, Y ) que 

∫ 

e iv.y exp 

(iu. ˆX(y) − 1 ) 

2 u.Ru p Y 

(y)dy 

= exp 

(iu.m X 

+ iv.m Y 

− 1 2 u.Σ u − u.Σ v − 1 ) 

X XY 

2 v.Σ v Y 

= Φ X,Y 

(u, v). 

Par injectivité de la transformée de Fourier, ceci prouve que 

Φ X|Y =y 

(u) = exp 

(iu. ˆX(y) − 1 ) 

2 u.Ru . 

3.1.2 Filtre de Kalman-Bucy 

Le modèle linéaire gaussien pour le couple signal-observation est défini par : 

✷ 

X n = AX n−1 + Bε n 

Y n = CX n + η n , 

où A, B et C sont des matrices constantes de dimensions appropriées. 

On suppose que (X 0 , ε, η) sont des variables indépendantes gaussiennes. Les bruits 

gaussiens ε n , η n , n ≥ 0 sont centrées, et on note Σ ε n et Σ η n leurs matrices de covariance, 

supposées inversibles. La moyenne et la variance de la variable gaussienne X 0 est notée 

m 0 et Σ X 0 . 

On note par Π n la loi du filtre et Π − n celle de la prédiction : 

Π n (dx) = P(X n ∈ dx|Y 0 , . . . , Y n ) 

Π − n (dx) = P(X n ∈ dx|Y 0 , . . . , Y n−1 ).


Notons que l’espace vectoriel engendré par (X 0 , . . . , X n , Y 0 , . . . , Y n ) est égal à celui 

engendré par (X 0 , ε 0 , . . . , ε n , η 0 , η n ) qui est gaussien par hypothèse. On en déduit que 

Π n et Π − n sont des lois gaussiennes : 

Π n (dx) = N ( ¯X n , ¯Σ n ) 

Π − n (dx) = N ( ¯X − n , ¯Σ − n ) 

de moyennes et variances conditionnelles notées : 

¯X n = E[X n |Y 0 , . . . , Y n ], ¯Σn = E[(X n − ¯X n )(X n − ¯X n ) ′ ] 

¯X − n = E[X n |Y 0 , . . . , Y n−1 ], ¯Σ− n = E[(X n − ¯X − n )(X n − ¯X − n ) ′ ]. 

Nous allons montrer que le calcul de ces moyennes et variances conditionnelles peut 

être mené explicitement de manière inductive selon deux étapes : 

• Une étape de correction/mise à jour 

( ) ( ) 

¯X− n 

¯Xn 

−→ , 

¯Σ n 

¯Σ − n 

qui utilise la nouvelle observation Y n de la date n, 

• Une étape de prédiction 

( ) ( ¯Xn 

¯X− 

−→ n+1 

¯Σ n 

¯Σ − n+1 

) 

, 

qui utilise la transition du signal de la date n à n + 1. 

Partant d’une condition initiale donnée par ¯X 0 − = m 0, ¯Σ − 0 = ΣX 0 , on a donc un 

calcul explicite du filtre (et de la prédiction), appelé filtre de Kalman-Bucy. 

Etape de correction/mise à jour : 

Notons que puisque les vecteurs (X n , Y 0 , . . . , Y n−1 ) et (Y 0 , . . . , Y n ) sont gaussiens, il en 

est de même de ¯X n 

− et de la variable 

Ȳ − n = E[Y n |Y 0 , . . . , Y n−1 ]. 

On en déduit aussi que le couple de vecteurs 

( ˜X n , Ỹn) = (X n − ¯X − n , Y n − Ȳ − n ) 

est gaussien centré, avec une loi gaussienne conditionnelle caractérisée d’après la proposition 

3.1.1 par : 

[ 

E 

E[ ˜X n |Ỹn] = Σ Σ−1 

˜Xn 

Ỹ Ỹn n (3.1) 

Ỹn 

( ˜X n − E[ ˜X n |Ỹn])( ˜X n − E[ ˜X n |Ỹn]) ′] = Σ ˜Xn 

− Σ ˜Xn Ỹn Σ−1 Ỹn 

ΣỸn ˜Xn 

. (3.2)


Par définition, on a 

Σ ˜Xn 

= ¯Σ − n . (3.3) 

De plus, notons que Ȳ n 

− 

a donc 

= E(CX n + η n |Y 0 , . . . , Y n−1 ) = C ¯X − n , et Ỹn = C ˜X n + η n . On 

Σ ˜Xn Ỹn 

= E( ˜X n Ỹ ′ n) = ¯Σ − n C ′ (3.4) 

ΣỸn = C ¯Σ − n C ′ + Σ η n. (3.5) 

D’autre part, puisque pour toute fonction mesurable ϕ : 

[ ] 

E ˜Xn ϕ(Y 0 , . . . , Y n−1 ) = E [(X n − E[X n |Y 0 , . . . , Y n−1 ]) ϕ(Y 0 , . . . , Y n−1 )] = 0, 

alors ˜X n et (Y 0 , . . . , Y n−1 ) sont des variables gaussiennes noncorrelés, et donc indépendantes. 

On en déduit 

[ ] [ ] 

E ˜Xn |Y 0 , . . . , Y n−1 , Y n = E ˜Xn |Y 0 , . . . , Y n−1 , Ỹn = E[ ˜X n |Ỹn]. 

On a alors 

¯X n = ¯X − n + E [ X n − ¯X − n |Y 0 , . . . , Y n 

] 

= ¯X− n + E[ ˜X n |Ỹn] 

= ¯X − n + ¯Σ − n C ′ (C ¯Σ − n C ′ + Σ η n) −1 (Y n − C ¯X − n ), 

avec (3.1) et en notant que Ỹn = C ˜X n + ε n = Y n − C ¯X − n . En écrivant 

X n − ¯X n = X n − ¯X − n − ( ¯X n − ¯X − n ) = ˜X n − E[ ˜X n |Ỹn], 

et en utilisant (3.2)-(3.3)-(3.4)-(3.5), on obtient 

¯Σ n = ¯Σ − n − ¯Σ − n C ′ (C ¯Σ − n C ′ + Σ η n) −1 C ¯Σ − n . 

On résume les résultats ci-dessus en écrivant les relations de correction/mise à jour : 

où K n est la matrice dite de gain : 

Etape de prédiction : 

¯X n = ¯X − n + K n (Y n − C ¯X − n ) (3.6) 

¯Σ n = [I − K n C]¯Σ − n , (3.7) 

K n = ¯Σ − n C ′ (C ¯Σ − n C ′ + Σ η n) −1 . (3.8) 

Cette étape est plus simple que la précédente car elle ne dépend plus des observations. 

On écrit 

¯X − n+1 = E [X n+1 |Y 0 , . . . , Y n ] = AE [X n |Y 0 , . . . , Y n ] = A ¯X n .


On a alors aussi 

¯Σ − n+1 = E [ (X n+1 − ¯X − n+1 )(X n+1 − ¯X − n+1 )′] 

= E [ (A(X n − ¯X n ) + Bε n )(A(X n − ¯X n ) + Bε n ) ′] 

= A¯Σ n A ′ + BΣ ε nB ′ . 

Les relations de prédiction s’écrivent donc : 

¯X − n+1 = A ¯X n (3.9) 

¯Σ − n+1 = A¯Σ n A ′ + BΣ ε nB ′ . (3.10) 

Remarque 3.1.1 Les suites (Σ − n ) et (Σ n ) ne dépendent pas des observations (Y n ). Ils 

peuvent donc être pré-calculées. 

Exemple 

Considérons l’exemple d’un modèle unidimensionnel signal/observation : 

X n = aX n−1 + ε n 

Y n = cX n + η n , 

avec X 0 , ε n , η n i.i.d. ∼ N (0, 1) et a, c ∈ R. 

On a ¯X − 0 = 0, ¯Σ − 0 = 1 et donc d’après (3.6)-(3.7) et (3.8) : K 0 = c¯Σ − 0 

c 2 ¯Σ − 0 +1 = 

¯X 0 = ¯X − 0 + K 0(Y 0 − c ¯X − 0 ) = K 0Y 0 , ¯Σ0 = (1 − cK 0 )¯Σ − 0 = K 0 

c . 

A la date n, on a par définition de la matrice de gain K n = 

c 

1+c 2 et 

c¯Σ − 

n 

c 2 ¯Σ . D’après l’étape 

− 

n +1 

de prédiction (3.10), on a Σ − n = a 2 ¯Σn−1 + 1. D’autre part, avec l’étape de correction 

(3.7), on a ¯Σ 

( 

n = (1 − cK n )¯Σ − n = 1 − c2 ¯Σ − n 

c 2 ¯Σ − n +1 

= a 2 K n−1 + c, d’où la relation de récurrence sur la matrice de gain : 

) 

¯Σ− n = ¯Σ − n 

c 2 ¯Σ − n +1 = K n/c. On a donc c¯Σ − n 

K n = 

a 2 K n−1 + c 

c(a 2 K n−1 + c) + 1 , K 0 = 

c 

1 + c 2 . 

En combinant (3.6) et (3.9), on a finalement 

¯X n = a ¯X n−1 + K n (Y n − ca ¯X n−1 ), ¯X0 = K 0 Y 0 , 

¯Σ n = K n 

c .


3.2 Filtrage non linéaire 

3.2.1 Description du modèle 

Dans la suite, toutes les variables aléatoires sont définies sur un espace de probabilité 

(Ω, F, P). On se place dans le cadre où le couple signal/observation (X n , Y n ) n≥0 

défini sur l’espace mesurable produit (E × R q ), avec (E, E) un espace mesurable, satisfait 

: 

• (X n ) n est une chaine de Markov de probabilité de transition P n de n − 1 à n, i.e. : 

P[X n ∈ dx ′ |X 0 , . . . , X n−1 ] = P[X n ∈ dx ′ |X n−1 ], 

P n (x, dx ′ ) = P[X n ∈ dx ′ |X n−1 = x], 

et de loi initiale µ 0 

• la suite (Y n ) n vérifie l’hypothèse de canal sans mémoire, i.e. 

⋆ conditionnellement aux états cachés X 0 , . . . , X n , les observations Y 0 , . . . , Y n sont 

mutuellement indépendantes 

⋆ la loi conditionnelle de Y n sachant X 0 , . . . , X n ne dépend que de X n , avec une 

probabilité d’émission à densité (par rapport à la mesure de Lebesgue sur R q ) : 

P[Y n ∈ dy ′ |X n = x ′ ] = g n (x ′ , y ′ )dy ′ . 

La fonction x ↦→ g n (x, Y n ) est appelée fonction de vraisemblance. 

Posons X [0,n] = (X 0 , . . . , X n ), Y [0,n] = (Y 0 , . . . , Y n ). La loi jointe de X [0,n] est : 

P [ X [0,n] ∈ dx [0,n] 

] 

= µ 0 (dx 0 ) 

n∏ 

P k (x k−1 , dx k ) 

D’après la formule de Bayes et l’hypothèse de canal sans mémoire, la loi jointe du 

couple (X [0,n] , Y [0,n] ) est 

P [ X [0,n] ∈ dx [0,n] , Y [0,n] ∈ dy [0,n] 

] 

k=0 

= P [ Y [0,n] ∈ dy [0,n] |X [0,n] = x [0,n] 

] 

P 

[ 

X[0,n] ∈ dx [0,n] 

] 

= P [ ] ∏ 

n 

X [0,n] ∈ dx [0,n] g k (x k , y k )dy k . (3.11) 

k=0 

En intégrant par rapport aux variables x = (x 0 , . . . , x n ), on obtient la loi jointe des 

observations Y [0,n] : 

P [ Y [0,n] ∈ dy [0,n] 

] 

= 

∫ 

E 

∫ 

. . . 

E 

P [ ] ∏ 

n 

X [0,n] ∈ dx [0,n] g k (x k , y k )dy k 

k=0 

[ n 

] 

∏ 

= E g k (X k , y k ) dy [0,n] (3.12) 

k=0


Autrement dit, (Y 0 , . . . , Y n ) admet pour densité : 

[ n 

] 

∏ 

y = (y 0 , . . . , y n ) ↦−→ γ n (y) = E g k (X k , y k ) . 

k=0 

Remarque 3.2.2 Notons que (X n , Y n ) est une chaine de Markov. En effet, on a par 

la formule de Bayes et l’hypothèse de canal sans mémoire : 

= 

P [ ] 

X n ∈ dx n , Y n ∈ dy n |X [0,n−1] = x [0,n−1] , Y [0,n−1] = y [0,n−1] 

P [ ] 

X [0,n] ∈ dx [0,n] , Y [0,n] ∈ dy [0,n] 

P [ ] 

X [0,n−1] ∈ dx [0,n−1] , Y [0,n−1] ∈ dy [0,n−1] 

P [ ] [ ] 

Y [0,n] ∈ dy [0,n] |X [0,n] = x [0,n] P X[0,n] ∈ dx [0,n] 

= 

P [ ] [ ] 

Y [0,n−1] ∈ dy [0,n−1] |X [0,n−1] = x [0,n−1] P X[0,n−1] ∈ dx [0,n−1] 

∏ n 

k=0 

= 

g k(x k , y k )dy k µ 0 (dx 0 ) ∏ n 

k=0 P k(x k−1 , dx k ) 

∏ n−1 

k=0 g k(x k , y k )dy k µ 0 (dx 0 ) ∏ n−1 

k=0 P k(x k−1 , dx k ) 

= g n (x n , y n )dy n P n (x n−1 , dx n ). 

La probabilité de transition de la chaine de Markov (X n , Y n ) est donc donnée par : 

Q n ((x, y), dx ′ dy ′ ) = P n (x, dx ′ )g n (x ′ , y ′ )dy ′ 

et sa loi initiale est ν 0 (dxdy) = µ 0 (dx)g 0 (x, y). 

Exemple. Le cadre typique d’un tel schéma signal/observation est donné par le 

système : 

X n = F n (X n−1 , ε n ), n ≥ 1, X 0 ∼ µ 0 

Y n = G n (X n , η n ), n ≥ 0, 

où F n , G n sont des fonctions mesurables, et (ε n ) n≥1 , (η n ) n≥0 sont des bruits blancs, 

indépendants entre eux et indépendants de X 0 . Dans ce cas, (X n ) n≥0 est une chaine 

de Markov de probabilité de transition P n donnée par : 

P n f(x) = E[f(F n (x, ε n ))], pour toute fonction mesurable bornée f. 

De plus, comme η 0 , . . . , η n sont mutuellement indépendants et indépendants de X 0 , . . . , X n , 

l’hypothèse de canal sans mémoire pour les observations est satisfaite. En supposant 

que pour tout x, la variable aléatoire G n (x, η n ) admet une densité, notée g n (x, y), on 

a 

P[Y n ∈ dy|X n = x] = P[G n (x, η n ) ∈ dy] = g n (x, y)dy.


Par exemple, si G n est de la forme : 

G n (x, η) = h n (x) + η, 

et si η n admet une densité notée k n , alors on a 

g n (x, y) = k n (y − h n (x)). 

Un autre exemple est le cas en finance où (X n ) représente le rendement et/ou la 

volatilité non observable d’un actif risqué S observable. La dynamique du prix est 

donnée par : 

[( 

S n+1 = S n exp b(X n ) − 1 ) 

2 σ2 (X n ) δ + σ(X n ) √ ] 

δη n , 

obtenue par exemple par discrétisation selon un schéma d’Euler de pas δ d’un modèle à 

volatilité stochastique. En posant Y n+1 = ln(S n /S n−1 ), on a le modèle d’observation : 

Y n = ˆb(X n )δ + σ(X n ) √ δη n , 

où on a posé ˆb = b − σ 2 /2. Si η n est un bruit blanc gaussien centré réduit, alors la loi 

de Y n sachant X n = x admet pour densité : 

( 

) 

1 

g n (x, y) = √ 

2πσ 2 (x)δ exp (y − ˆb(x)δ) 

2 

− 

2σ 2 . 

(x)δ 

3.2.2 Equation du filtre 

Dans la suite, on fixera les observations à (Y 0 , . . . , Y n ) = (y 0 , . . . , y n ) et pour simplifier 

les notations, on supprimera les indices y. On notera ḡ n (x) = g n (x, y n ). 

On note par Π n la loi du filtre et Π − n celle de la prédiction : 

Π n (dx) = P(X n ∈ dx|Y 0 = y 0 , . . . , Y n = y n ) 

Π − n (dx) = P(X n ∈ dx|Y 0 = y 0 , . . . , Y n−1 = y n−1 ). 

D’après l’expression (3.11) de la loi jointe (X [0,n] , Y [0,n] ) et celle (3.12) de la loi de Y [0,n] , 

on obtient par la formule de Bayes : 

∏ n 

k=0 ḡk(x k ) P [ ] 

X [0,n] ∈ dx [0,n] 

P [ X [0,n] ∈ dx [0,n] Y 0 = y 0 , . . . , Y n = y n | ] = 

E [ ∏ n 

k=0 ḡk(X k )] 

Autrement dit, pour toute fonction test ϕ bornée mesurable sur E n , on a : 

E [ϕ(X 0 , . . . , X n )|Y 0 = y 0 , . . . , Y n = y n )] = E [ϕ(X 0, . . . , X n ) ∏ n 

k=0 ḡk(X k )] 

E [ ∏ n 

k=0 ḡk(X . 

k )] 

.


En particulier, pour une fonction test ϕ ne dépendant que de x n , on a : 

Π n ϕ = E [ϕ(X n )|Y 0 = y 0 , . . . , Y n = y n ] 

= E [ϕ(X n) ∏ n 

k=0 ḡk(X k )] 

E [ ∏ n 

k=0 ḡk(X = π nϕ 

k )] π n 1 , 

où π n est la mesure positive, appelée filtre non normalisé, définie par : 

[ 

] 

n∏ 

π n ϕ = E ϕ(X n ) ḡ k (X k ) . 

De manière similaire, on a 

k=0 

Π − n ϕ = E [ϕ(X n )|Y 0 = y 0 , . . . , Y n−1 = y n−1 )] 

[ 

E ϕ(X n ) ∏ ] 

n−1 

k=0 ḡk(X k ) 

= [ ∏n−1 

] = π− n ϕ 

E 

k=0 ḡk(X k ) πn − 1 , 

où πn − est la mesure positive, appelée filtre prédictif non normalisé, définie par : 

[ 

] 

π − n ϕ = E 

ϕ(X n ) 

n−1 

∏ 

k=0 

ḡ k (X k ) 

Nous allons montrer qu’on peut obtenir une équation récurrente exprimant Π n en 

fonction de Π n−1 . Pour cela, il suffit d’une équation récurrente sur π n en fonction de 

π n−1 , puis de normaliser. On note P(E) l’ensemble des mesures de probabilités sur E 

et M(E) l’ensemble des mesures positives sur E. 

Théorème 3.2.1 La suite (Π n ) dans P(E) vérifie l’équation de récurrence en deux 

étapes, partant de l’initialisation Π 0 = µ 0 : 

• Etape de prédiction : 

Π n−1 −→ Π − n = Π n−1 P n , 

où par définition Π n−1 P n (dx ′ ) = ∫ E Π n−1(dx)P n (x, dx ′ ) est l’action du noyau de probabilité 

de transition P n de X n sur Π n−1 , 

• Etape de correction/mise à jour : 

. 

Π − n −→ Π n = 

ḡ n Π − n 

∫E ḡn(x ′ )Π − n (dx ′ ) = ḡnΠ − n 

(ḡ n Π − n )1 , 

qui pondère la mesure Π − n par la fonction de vraisemblance ḡ n : (ḡ n Π − n )(dx ′ ) = ḡ n (x ′ )Π − n (dx ′ ). 

De manière équivalente, (Π n ) est solution du système dynamique dans P(E) : 

Π n = 

Π n−1 H 

∫ 

n 

E Π n−1H n (dx ′ ) = 

Π n−1H n 

(Π n−1 H n )1


où H n est le noyau de prédiction-correction : 

H n (x, dx ′ ) = ḡ n (x ′ )P n (x, dx ′ ) 

agissant sur la mesure Π n−1 par : Π n−1 H n (dx ′ ) = ∫ E Π n−1(dx)H n (x, dx ′ ). 

Preuve. Etape correction : Π n en fonction de Π − n . 

On a pour toute fonction test ϕ : 

[ 

] [ 

n∏ 

π n ϕ = E ϕ(X n ) ḡ k (X k ) = E ϕ(X n )ḡ n (X n ) 

k=0 

= π − n ϕḡ n = ḡ n π − n ϕ, 

n−1 

∏ 

k=0 

ḡ k (X k ) 

où la dernière égalité exprime simplement le fait que 

∫ 

∫ 

πn − ϕḡ n = (ϕḡ n )(x ′ )πn − (dx ′ ) = ϕ(x ′ )(ḡ n .πn − )(dx ′ ) = ḡ n πn − ϕ. 

On a donc 

Par normalisation, on obtient 

E 

E 

π n = ḡ n π − n . 

] 

Π n = π n 

π n 1 = ḡnπ − n 

π − n ḡ n 

= ḡnΠ − n 

Π − n ḡ n 

Etape prédiction : Π − n en fonction de Π n−1 . 

Par la propriété de Markov de (X n ), on a 

[ 

] [ [ 

]] 

n−1 

∏ 

n−1 

∏ 

πn − ϕ = E ϕ(X n ) ḡ k (X k ) = E E ϕ(X n ) ḡ k (X k ) 

∣ X [0,n−1] 

k=0 

k=0 

[ 

= E E [ ϕ(X n )| X [0,n−1 ] ] n−1 ] [ 

] 

∏ 

n−1 

∏ 

ḡ k (X k ) = E E [ϕ(X n )| X n−1 ]] ḡ k (X k ) 

= E 

[ 

P n ϕ(X n−1 ) 

n−1 

∏ 

k=0 

k=0 

ḡ k (X k ) 

] 

= π n−1 (P n ϕ) = (π n−1 P n )ϕ, 

où la dernière égalité exprime simplement, comme conséquence de Fubini, le fait que : 

∫ 

∫ (∫ 

) 

π n−1 (P n ϕ) = (P n ϕ)(x)π n−1 (dx) = ϕ(x ′ )P n (x, dx ′ ) π n−1 (dx) 

E 

E E 

∫ (∫ 

) ∫ 

= π n−1 (dx)P n (x, dx ′ ) ϕ(x ′ ) = π n−1 P n (dx ′ )ϕ(x ′ ) 

E 

E 

= (π n−1 P n )ϕ. 

E 

k=0


On a donc : 

π − n = π n−1 P n . 

Finalement, pour la normalisation, en remarquant que 

[ n−1 

] 

∏ 

πn − 1 = E ḡ k (X k ) = π n−1 1, 

k=0 

on a 

Π − n = π− n 

π − n 1 = π n−1P n 

π n−1 1 = Π n−1P n . 

L’équation du filtre a été obtenue simplement par utilisation de la propriété de 

Markov et de la formule de Bayes. C’est une équation non linéaire (à cause de l’étape 

de normalisation) à valeurs dans P(E) et il est en général impossible de la résoudre 

explicitement, sauf dans des cas particuliers de modèles linéaires gaussiens, où elle se 

ramène à un système en dimension finie 2 : les équations du filtre de Kalman-Bucy. 

Il faut donc avoir recours à des méthodes numériques et on présente ci-dessous une 

approximation par quantification. 

Exercice. Montrer que dans le cas de modèles linéaires gaussiens décrits au paragraphe 

3.1.2, l’équation de prédiction/correction du théorème 3.2.1 permet de retrouver les 

équations explicites du filtre de Kalman-Bucy. 

3.2.3 Approximation par quantification 

On se place dans le cas où l’espace d’états du signal E = R d est continu. L’idée 

basique est d’approximer l’équation d’évolution du filtre en dimension infinie dans 

P(R d ), par une équation d’évolution en dimension finie grâce à une quantification de 

la chaine de Markov du signal. On procède selon les étapes suivantes : 

Etape de quantification marginale de (X k ) 

C’est la méthode décrite au chapitre précédent. A chaque date k = 0, . . . , n, on se 

donne une grille x k = (x 1 k , . . . , xN k 

k 

) de N k points dans R d à laquelle est associée une 

partition de Voronoi C i (x k ), i = 1, . . . , N k . On considère alors pour tout k le quantifieur 

de Voronoi de X k sur la grille x k : 

✷ 

ˆX k = Proj xk 

(X k ) := 

N k 

∑ 

x i k 1 C i (x k )(X k ). 

i=1 

On définit la loi de probabilité discrète ˆµ 0 (de poids ˆµ i 0 , i = 1, . . . , N 0) de ˆX 0 : 

ˆµ i 0 = p i 0 = P[ ˆX 0 = x i 0] = P[X 0 ∈ C i (x 0 )], i = 1, . . . , N 0 .


et les matrices de probabilité de transition ˆP k = (p ij 

k 

), k = 1, . . . , n : 

p ij 

k 

:= P[ ˆX k = x j k | ˆX k−1 = x i k−1 ] i = 1, . . . , N k−1, j = 1, . . . , N k . 

Ces poids µ i 0 , pij k sont estimés par simulation de Monte-Carlo X k, k = 0, . . . , n, ou bien 

simultanément dans l’algorithme de Kohonen. 

Etape d’approximation du filtre 

On rappelle que les observations sont fixées à (Y 0 , . . . , Y n ) = (y 0 , . . . , y n ). Le filtre Π k 

et le prédicteur Π − k 

sont approximés par les mesures de probabilité discrète ˆΠ k et ˆΠ − k 

de support x k , et définis par les équations d’évolution en dimension finie : 

• Initialisation 

• Prédiction 

• Correction 

ˆΠ 0 = ˆµ 0 

ˆΠ − k 

= ˆΠ k−1 ˆPk , k ≥ 1, 

ˆΠ k = 

ḡ k ˆΠ− 

k 

k ≥ 1, 

(ḡ k ˆΠ− 

k 

)1, 

Les étapes de prédiction-correction s’écrivent aussi sous forme : 

ˆΠ k = 

ˆΠ k−1 Ĥ k 

(ˆΠ k−1 Ĥ k )1 , k ≥ 1, 

où Ĥk = (Ĥij k 

) est la matrice de transition : 

Ĥ ij 

k 

= ḡ k (x j k )ˆpij k , i = 1, . . . , N k−1, j = 1, . . . , N k . 

Autrement dit, les poids ( ˆΠ i k ), i = 1, . . . , N k, de ˆΠ k 

manière inductive, pour k = 1, . . . , n, selon : 

se calculent explicitement de 

ˆΠ i 0 = ˆµ i 0, i = 1, . . . , N 0 

ˆΠ j k 

= 

∑ Nk−1 

i=1 

ˆΠ i k−1Ĥij k 

∑ Nk−1 

i=1 

∑ Nk 

j=1 

ˆΠ i k−1Ĥij k 

, k = 1, . . . , n, , j = 1, . . . , N k . 

D’un point de vue pratique, la procédure d’implémentation algorithmique ci-dessus 

se décompose comme suit : 

Phase de calculs off-line : Quantification optimale du signal. Notons que cette 

phase ne dépend pas des observations et requiert de :


- spécifier la taille N k des grilles x k pour k = 0, . . . , n, étant donné un nombre total de 

points N = N 0 + . . . + N n . 

- implémenter les grilles optimales (par l’algorithme de Kohonen) et les poids de transition 

associés (ˆp ij 

k ). 

Un cas spécial : signal stationnaire. Dans ce cadre usuel de modèle de filtrage où la 

distribution de X k est la même à toute date k, on a seulement besoin de calculer la grille 

optimale x ∗ = {x 1 , . . . , x ¯N} de la loi stationnaire µ 0 de X 0 , de taille ¯N = N/(n + 1). 

Alors, x k = x ∗ , k = 0, . . . , n, sont les grilles optimales pour chaque X k . On estime la 

probabilité ˆµ 0 de ˆX 0 = Proj x ∗(X 0 ), et on estime une seule matrice de probabilité de 

transition : 

ˆp ij 

k 

= ˆp ij 

(k) 

0 = P[ ˆX 0 = x j (k−1) 

| ˆX 0 = x i ], 0 ≤ i, j ≤ ¯N, 

(k) 

où ˆX 0 suit la loi de ˆX 0 . D’un point de vue numérique, la taille des paramètres à 

stocker est divisée par un facteur n, ou de manière équivalente, la taille de la grille de 

quantification optimale pour X 0 peut être multipliée par n. 

Phase de calculs on-line : étant donné un jeu d’observations y = (y 0 , . . . , y n ), on 

calcule les matrices quantifiées de prédiction-correction (Ĥk), k = 1, . . . , n, puis les 

filtres quantifiées ( ˆΠ k ), k = 0, . . . , n. Pour toute fonction test ϕ, on calcule alors : 

ˆΠ n ϕ = 

∑N n 

ϕ(x i n)ˆΠ i n. 

i=1 

Cette phase de calcul est instantanée. 

Nous analysons à présent l’erreur et la convergence du filtre approximé par quantification. 

Nous imposons essentiellement deux types de conditions sur le modèle de signalobservation. 

Nous supposons une condition de Lipschitz sur les probabilités de transition 

du signal : 

(A1) Les probabilités de transition P k , k = 1, . . . , n, sont Lipschitz de ratio [P k ] Lip 

, 

i.e. pour toute fonction Lipschitzienne ϕ sur R d , de ratio [ϕ] Lip 

, on a : 

|P k ϕ(x) − P k ϕ(ˆx)| ≤ [P k ] Lip 

[φ] Lip 

|x − ˆx|, ∀x, ̂x ∈ R d , 

et on pose [P ] Lip 

:= max k=1,...,n [P k ] Lip 

. 

On suppose aussi une condition de Lipschitz sur les fonctions de vraisemblance :


⎧ 

(i) 

Les fonctions g k , k = 1, . . . , n, sont bornées 

(A2) 

⎪⎨ 

(ii) 

et on pose ‖g‖ ∞ 

:= max k=1,...,n ‖g k ‖ ∞ 

Il existe [g k ] Lip 

, k = 1, . . . , n, tels que ∀x, ˆx ∈ R d , y ∈ R q 

⎪⎩ 

|g k (x, y) − g k (ˆx, y)| ≤ [g k ] Lip 

|x − ˆx|, 

et on pose [g] Lip 

:= max k=1,...,n [g k ] Lip 

. 

On obtient alors la borne d’erreur suivante pour l’approximation du filtre par quantification. 

Théorème 3.2.2 Sous (A1) and (A2), étant donnée une observation (Y 0 , . . . , Y n ) = 

(y 0 , . . . , y n ), on a : 

sup 

φ∈BL 1 (R d ) 

∣ 

∣Π n φ − ˆΠ n φ∣ ≤ ‖g‖n ∞ 

γ n (y) 

n∑ 

A n,k ‖X k − ˆX k ‖ 2 

, (3.13) 

k=0 

où γ n (y) est la densité de (Y 0 , . . . , Y n ) en y = (y 0 , . . . , y n ) : 

[ n 

] 

∏ 

γ n (y) = E g k (X k , y k ) 

et 

A n,k = 2 

( 

[P ] n−k 

Lip 

k=0 

+ [g] ) 

[P ] n−k+1 − 1 

Lip Lip 

. 

‖g‖ ∞ 

[P ] Lip 

− 1 

Preuve. Etape 1 : représentation backward du filtre. On considère le filtre non normalisé 

(π k ) dont l’équation d’évolution forward est : 

d’où 

π 0 = µ 0 , π k = π k−1 H k , k = 1, . . . , n, 

Π n = π n 

π n 1 

et π n = µ 0 H 1 . . . H n 

De cette expression symétrique, on introduit les noyaux de transition donnés par les 

équations backward : 

de telle sorte que 

R n = Id, R k = H k+1 R k+1 , k = 0, . . . , n − 1, 

π n = µ 0 R 0 .


De manière similaire, le filtre quantifié s’exprime sous forme backward par : 


ˆΠ n = ˆπ n 

ˆπ n 1 , avec ˆπ n = ˆµ 0 ˆR0 

ˆR n = Id, ˆRk = Ĥk+1 ˆR k+1 , k = 0, . . . , n − 1. 

Etape 2 : approximation d’erreur du filtre non normalisé. On écrit pour toute fonction 

test ϕ ∈ BL 1 (R d ), 

[ 

∣ 

∣ 

|π n ϕ − ˆπ n ϕ| = ∣µ 0 R 0 ϕ − ˆµ 0 ˆR0 ϕ∣ = ∣E [R 0 ϕ(X 0 )] − E ˆR0 ϕ( ˆX ∣∣ 

0 )]∣ ∥ 

≤ ∥R 0 ϕ(X 0 ) − ˆR 0 ϕ( ˆX 0 ) ∥ . 

Comme pour l’analyse d’erreur des options américaines, l’idée est alors, à partir de la 

formule backward de R k et ˆR ∥ 

k , d’obtenir une estimation de ∥R k ϕ(X k ) − ˆR k ϕ( ˆX k ) ∥ 

2 

∥ 

en fonction des erreurs de quantification ∥X k − ˆX 

∥ ∥∥ 

k Précisément, en posant u k = 

2. 

R k ϕ, û k = ˆR k ϕ, et en notant par définition de R k et H k que 

u k = H k+1 u k+1 = P k+1 (ḡ k+1 u k+1 ), (3.14) 

û k = Ĥk+1û k+1 = ˆP k+1 (ḡ k+1 û k+1 ), 

2 

on a : 

= 

≤ 

≤ 

∥ 

∥u k (X k ) − û k ( ˆX k ) ∥ 

2 

∥ 

∥P k+1 (ḡ k+1 u k+1 )(X k ) − ˆP k+1 (ḡ k+1 û k+1 )( ˆX k ) ∥ 

2 

[ 

∥ 

∥P k+1 (ḡ k+1 u k+1 )(X k ) − E P k+1 (ḡ k+1 u k+1 )(X k )| ˆX 

]∥ ∥∥ 

k 

2 

∥ 

+ ∥E 

[P k+1 (ḡ k+1 u k+1 )(X k )| ˆX 

] 

k − ˆP k+1 (ḡ k+1 û k+1 )( ˆX k ) ∥ 

∥ 

∥P k+1 (ḡ k+1 u k+1 )(X k ) − P k+1 (ḡ k+1 u k+1 )( ˆX k ) ∥ 

2 

∥ 

+ ∥(ḡ k+1 u k+1 )(X k+1 ) − (ḡ k+1 û k+1 )( ˆX k+1 ) ∥ , 

2 

2 

∥ ∥∥Xk 

≤ [P ] Lip 

[ḡ k+1 u k+1 ] Lip 

− ˆX 

∥ ∥ ∥∥ ∥∥Xk+1 

k + [g] Lip 

‖u k+1 ‖ ∞ 

− ˆX 

∥ ∥∥ 

k+1 

2 

2 

∥ 

∥∥uk+1 

+ ‖g‖ ∞ 

(X k+1 ) − û k+1 ( ˆX k+1 ) ∥ . 

On a utilisé pour l’avant dernière inégalité, la définition même de l’espérance conditionnelle 

dans L 2 pour le premier terme, et le fait que ˆX k est σ(X k )-mesurable, combinée 

2


avec la loi des espérances conditionnelles itérées pour le deuxième terme. On a utilisé 

les conditions (A1) et (A2) pour la dernière inégalité. On a donc l’inégalité de 

récurrence 

∥ 

∥u k (X k ) − û k ( ˆX k ) ∥ 

∥ ∥∥Xk 

≤ α k − ˆX 

∥ ∥ ∥∥ ∥∥Xk+1 

k + β k+1 − ˆX 

∥ ∥∥ 

k+1 

2 

2 

∥ 

∥∥uk+1 

+ ‖g‖ ∞ 

(X k+1 ) − û k+1 ( ˆX k+1 ) ∥ , 

avec α k = [P ] Lip 

[ḡ k+1 u k+1 ] Lip 

, β k+1 = [g] Lip 

‖u k+1 ‖ ∞ 

, et la relation terminale ‖u n (X n )− 

û n ( ˆX ∥ 

n )‖ 2 

≤ ∥X n − ˆX 

∥ ∥∥ 

n Par induction, on en déduit 

2. 

|π n ϕ − ˆπ n ϕ| ≤ 

∥ 

∥u 0 (X 0 ) − û 0 ( ˆX 0 ) ∥ 

2 

2 

≤ 

2 

n∑ 

∥ 

C k (ϕ) ∥X k − ˆX 

∥ ∥∥ 

k , (3.15) 

2 

avec C k (ϕ) = ‖g‖ k−1 

∞ (α k‖g‖ ∞ 

+ β k ), k = 0, . . . , n, et la convention α n = 1 et β 0 = 0. 

D’autre part, puisque u n = ϕ, avec ‖ϕ‖ ∞ 

≤ 1, et ‖u k ‖ ∞ 

≤ ‖g‖ ∞ 

‖u k+1 ‖ ∞ 

d’après 

(3.14), on en déduit 

De même, d’après (3.14), on a 

‖u k ‖ ∞ 

≤ ‖g‖ n−k 

∞ . 

[u k ] Lip 

≤ [P ] Lip 

[ḡ k+1 u k+1 ] Lip 

≤ [P ] Lip 

( 

‖g‖∞ [u k+1 ] Lip 

+ ‖u k+1 ‖ ∞ 

[g] Lip 

) 

Par induction, puisque [u n ] Lip 

≤ 1, on en déduit : 

On a donc β k ≤ [g] Lip 

‖g‖ n−k 

∞ 

≤ 

k=0 

[P ] Lip 

‖g‖ ∞ 

[u k+1 ] Lip 

+ [P ] Lip 

[g] Lip 

‖g‖ n−k−1 

∞ 

. 

[u k ] Lip 

≤ ( n−k 

) n−k 

∑ 

[P ] Lip 

‖g‖ ∞ + [g]Lip ‖g‖ n−k−1 [P ] l . 

∞ 

Lip 


α k = [P ] Lip 

[ḡ k+1 u k+1 ] Lip 

≤ [P ] Lip 

( 

‖g‖∞ [u k+1 ] Lip 

+ ‖u k+1 ‖ ∞ 

[g] Lip 

) 

≤ 

l=1 

( n−k 

) n−k 

∑ 

[P ] Lip 

‖g‖ ∞ + [g]Lip ‖g‖ n−k−1 [P ] l . 

∞ 

Lip 

En substituant α k et β k dans C k (ϕ), on obtient pour tout ϕ ∈ BL 1 (R d ) : 

C k (ϕ) ≤ ‖g‖ n [P ]n−k 

∞ Lip 

= ‖g‖ n ∞ 

( 

[P ] n−k 

Lip 

n−k 

∑ 

+ [g] Lip 

‖g‖ n−1 

∞ 

l=0 

[P ] l Lip 

l=1 

+ [g] ) 

[P ] n−k+1 − 1 

Lip Lip 

. (3.16) 

‖g‖ ∞ 

[P ] Lip 

− 1


Etape 3 : retour au filtre normalisé. Il suffit d’écrire que pour tout ϕ ∈ BL 1 (R d ) : 

∣ 

∣Π n ϕ − ˆΠ n ϕ∣ = 

π n ϕ 

∣ π n 1 − ˆπ nϕ 

ˆπ n 1 ∣ 

≤ 

|π n ϕ − ˆπ n ϕ| 

∣ π n 1 ∣ + ˆπ n|ϕ| 

1 

∣π n 1 − 1 

ˆπ n 1∣ 

∣ ≤ 

|π n ϕ − ˆπ n ϕ| 

∣∣∣ ∣ π n 1 ∣ + |π n 1 − ˆπ n 1| 

π n 1 ∣ 

1 

n∑ 

∥ 

≤ (C k (ϕ) + C k (1)) ∥X k − 

π n 1 

ˆX 

∥ ∥∥ 

k , 

2 

k=0 

d’après (3.15). On conclut en se rappelant que π n 1 = γ n (y) est la densité de (Y 0 , . . . , Y n ) 

et en utilisant la majoration (3.16) de C k (ϕ). 

✷ 

Remarque 3.2.3 Convergence du filtre quantifié. Si les grilles sont choisies optimalement 

à chaque date k = 0, . . . , n, alors d’après le théorème de Zador, on a le taux de 

convergence pour le filtre quantifié : 

sup 

φ∈BL 1 (R d ) 

∣ 

∣Π n ϕ − ˆΠ n , ϕ∣ ≤ ‖g‖n ∞ 

γ n (y) 

n∑ 

A n,k C(P Xk , d) 1 

k=0 

N 1 d 

k 

. (3.17) 

En conséquence : 

- Etant donné un nombre total de points N, on peut répartir optimalement le 

nombre de points N k pour chaque date k, i.e. déterminer (N 0 , . . . , N k ) vérifiant N 0 + 

. . . + N n = N et minimisant le terme de droite de (3.17). 

- Pour un horizon fixé n, on a la convergence du filtre quantifié, i.e. ˆΠ n converge 

vers Π n lorsque min 0≤k≤n N k tend vers l’infini. 

- Lorsque n tend vers l’infini, la convergence du filtre quantifié est aussi satisfaite 

typiquement dans le cas d’un schéma d’Euler issue d’une diffusion discrétisée sur [0, T ] 

de pas T/n : 

X k+1 = X k + b(X k ) T n + σ(X k)√ 

T 

n ε k+1. 

En effet, sous des conditions de Lipschitz sur les coefficients b et σ, on a vu que : 

[P ] Lip 

≤ 1 + c n 

pour une constante c indépendante de n. Dans ce cas, en répartissant simplement N k 

= ¯N = N/(n+1) points sur chaque grille de temps, la relation (3.17) donne une vitesse 

de convergence de l’ordre : 

‖g‖ n ∞ 

γ n (y) 

n + 1 

¯N 1/d .


3.3 Applications et exemples 

3.3.1 Application : Valorisation d’options européennes en information 

partielle 

Soit (X k ), k = 0, . . . , n, le processus de rendement et/ou de volatilité d’un actif 

risqué. (Y k ), k = 0, . . . , n, est le (Logarithme) du processus de prix. On note F k = 

σ(X j , Y j , 0 ≤ j ≤ k), k = 0, . . . , n, la filtration d’information totale et Fk 

Y = σ(Y j, 0 ≤ 

j ≤ k), k = 0, . . . , n la filtration d’information partielle, i.e. lorsqu’on n’observe pas 

le rendement et/ou volatilité mais seulement le prix des actions. Dans ce modèle, on 

se donne une option européenne de payoff h(Y n ) et plus généralement h(X n , Y n ). Son 

prix en information totale est donné à la date k par : 

U k = E [h(X n , Y n )|F k ] = v k (X k , Y k ), 

pour une fonction Borélienne v k , d’après la propriété de Markov du couple (X, Y ). 

(Nous avons supposé ici que P est déjà une probabilité risque-neutre). La fonction v k 

peut être aisément calculée par diverses méthodes : quantification ou Monte-Carlo. 

D’autre part, le prix de l’option européenne en information partielle est : 

Uk Y = E [ h(X n , Y n )|Fk 

Y ] 

. 

D’après la loi des espérances conditionnelles itérées, on a : 

Uk 

Y = E [ h(X n , Y n )|Fk 

Y ] 

= E [ v k (X k , Y k )|Fk 

Y ] 

∫ 

= v k (x, Y k )Π k (dx) =: Π k v k (., Y k ) 

Ainsi, étant donnée une observation (Y 0 , . . . , Y k ) = (y 0 , . . . , y k ), son prix est approximé 

par la formule explicite : 

ˆΠ k v k (., y k ) := 

N k 

∑ 

v k (x i k , y k)ˆΠ i k , 

i=1 

où ˆΠ k est le filtre quantifié. 

3.3.2 Exemples 

Modèle linéaire gaussien. C’est le modèle étudié au paragraphe 3.1.2 : 

X n = AX n−1 + Bε n , X 0 ∼ N (µ 0 , Σ X 0 ), 

Y n = CX n + η n , 

pour lequel le filtre Π n est explicite : Π n ∼ N ( ¯X n , ¯Σ n ) avec ¯X n et ¯Σ n se calculant 

explicitement de manière inductive.


Projet 7. Choisir les paramètres du modèle en dimension 1 pour que le signal X k soit 

stationnaire, X k ∼ N (0, Σ X 0 ) pour tout k, et impémenter le filtre quantifié. Comparer 

avec le filtre théorique explicite. 

Modèle à volatilité stochastique. On considère le modèle ARCH : 

X k+1 = ρX k + ε k , X 0 ❀ N (0, Σ 0 ) 

Y k = σ(X k )η k , 

où (ε k ) et (η k ) sont deux bruits blancs indépendants gaussiens. Ce modèle est populaire 

en finance où X est le facteur de la volatilité de l’actif risqué de prix logarithmique Y 

= ln S. 

Projet 8. Choisir les paramètres du modèle en dimension 1 pour que le signal X k soit 

stationnaire, X k ∼ N (0, Σ X 0 ) pour tout k, et impémenter le filtre quantifié. Calculer le 

prix d’un put européen en information totale et partielle.

Bibliographie 

[1] Bally V., Pagès G. (2003) : A quantization algorithm for solving discrete time 

multi-dimensional optimal stopping problems, Bernoulli, 9, 1003-1049. 

[2] Bally V., Pagès G., Printems J. (2001) : A stochastic quantization method for 

nonlinear problems, Monte Carlo Methods and Applications, 7, n 0 1-2, pp.21-34. 

[3] Bartoli N. et P. Del Moral (2005) : Simulation et algorithmes stochastiques, 

Cépadues-Éditions. 

[4] Bucklew J., Wise G. (1982) : Multidimensional Asymptotic Quantization Theory 

with r th Power distortion Measures, IEEE Transactions on Information Theory, 

Special issue on Quantization, 28, n 0 2, pp. 239-247. 

[5] Duflo, M. (1996) : Algorithmes stochastiques, Mathématiques et Applications, 23, 

Springer-Verlag. 

[6] Duflo, M. (1997) : Random Iterative Models, Coll. Applications of Mathematics, 

34, Springer-Verlag, Berlin, 1997, 385p. 

[7] Elliott R., Aggoun L. and J. Moore (1995) : Hidden Markov Models, Estimation 

and Control, Springer Verlag, 361 pp. 

[8] Fort J.C., Pagès G. (2002) : Asymptotics of optimal quantizers for some scalar 

distributions, Journal of Computational and Applied Mathematics, 146, pp.253- 

275. 

[9] Gersho A., Gray R. (eds.) (1982) : IEEE Transactions on Information Theory, 

Special issue on Quantization, 28. 

[10] Graf S., Luschgy H. (2000) : Foundations of Quantization for Probability Distributions, 

Lecture Notes in Mathematics n 0 1730, Springer, Berlin, 230 pp. 

[11] Kieffer J. (1982) : Exponential rate of convergence for the Lloyd’s method I, IEEE 

Transactions on Information Theory, Special issue on Quantization, 28, 205-210. 

[12] Kohonen T. (1982) : Analysis of simple self-organizing process, Biological Cybernetics, 

44, pp. 135–140. 

[13] Kushner H.J., Yin G.G. (1997) : Stochastic Approximation Algorithms and Applications, 

Springer, New York. 

55

Bibliographie 56 

[14] Le Gland F. (2004) : Introduction au filtrage en temps discret, Polycopié de cours, 

Master STI, Université de Rennes 1. 

[15] Pagès G. (1997) : A space vector quantization method for numerical integration, 

Journal of Computational and Applied Mathematics, 89, pp.1-38. 

[16] Pagès G., H. Pham and J. Printems, “An optimal markovian quantization algorithm 

for multidimensional stochastic control problems”, 2004, Stochastics and 

Dynamics, 4, 501-545. 

[17] Pagès G., H. Pham et J. Printems, “Optimal quantization methods and applications 

to numerical problems in finance”, 2004, Handbook of Numerical and Computational 

Methods in Finance, ed. Z. Rachev, Birkhauser. 

[18] Pagès G., Pham H. (2005) : Optimal quantization methods for nonlinear filtering 

with discrete-time observations, Bernoulli, 11, 5, 893-932. 

[19] Pagès G., Printems J. (2003) : Optimal quadratic quantization for numerics : the 

Gaussian case, Monte Carlo Methods and Applications, 9, 135-165. 

[20] Sellami A. (2005) : Méthodes de quantification optimale en filtrage et applications 

en finance, Thèse Université Paris Dauphine. 

[21] Zador P. (1982) : Asymptotic quantization error of continuous signals and the 

quantization dimension, IEEE Transactions on Information Theory, Special issue 

on Quantization, 28, n 0 2, pp. 139-148. .

Méthodes de quantification optimale et Applications en Finance

Create successful ePaper yourself

Delete template?

Save as template?