16.07.2014 Views

Cours de Statistique asymptotique

Cours de Statistique asymptotique

Cours de Statistique asymptotique

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>Cours</strong> <strong>de</strong> <strong>Statistique</strong><br />

<strong>asymptotique</strong><br />

1


Table <strong>de</strong>s matières<br />

1 Introduction to M-estimation 4<br />

1.1 Density Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4<br />

1.2 Regression Mo<strong>de</strong>l . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5<br />

1.3 A real example . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5<br />

2 Convergences en <strong>Statistique</strong> Asymptotique 7<br />

2.1 Caractérisation <strong>de</strong> la convergence en loi et Théorème <strong>de</strong> l’image continue . . 7<br />

2.2 Variables uniformément tendues . . . . . . . . . . . . . . . . . . . . . . . . . 9<br />

2.3 Quelques rapports entre différents mo<strong>de</strong>s <strong>de</strong> convergences . . . . . . . . . . . 11<br />

2.4 Les symboles o P et O P . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12<br />

2.5 Fonctions caractéristiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13<br />

2.6 Représentation presque sûre . . . . . . . . . . . . . . . . . . . . . . . . . . . 15<br />

3 La métho<strong>de</strong> Delta ou ∆-method 16<br />

3.1 Le résultat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16<br />

3.2 Applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17<br />

3.2.1 Variance empirique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17<br />

3.2.2 Test sur la variance d’une loi normale . . . . . . . . . . . . . . . . . . 18<br />

3.3 Stabilisation <strong>de</strong> la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18<br />

3.4 Développements à l’ordre supérieur . . . . . . . . . . . . . . . . . . . . . . . 19<br />

4 Métho<strong>de</strong>s classiques d’estimation par la Métho<strong>de</strong> <strong>de</strong>s moments 21<br />

4.1 Principe d’estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21<br />

4.2 Intervalles <strong>de</strong> confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22<br />

5 Les M- et les Z-estimateurs 25<br />

5.1 Définitions et exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25<br />

5.2 Consistance <strong>de</strong>s M- et Z-estimateurs . . . . . . . . . . . . . . . . . . . . . . 27<br />

5.3 Normalité <strong>asymptotique</strong> <strong>de</strong>s M- et Z-estimateurs . . . . . . . . . . . . . . . . 32<br />

5.4 Maximum <strong>de</strong> vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . 37<br />

5.5 Entropie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39<br />

6 Ingalits uniformes <strong>de</strong> dviation (concentration) 42<br />

6.1 Chebychev . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42<br />

6.2 Hoeffding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42<br />

6.3 Bernstein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42<br />

6.4 Symtrisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42<br />

7 Annexes 43<br />

7.1 Intégrale supérieure et probabilité extérieure . . . . . . . . . . . . . . . . . . 43<br />

7.1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43<br />

7.1.2 Intégrale supérieure . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44<br />

7.2 Processus empiriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45<br />

2


7.2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45<br />

7.2.2 Théorèmes <strong>de</strong> Glivenko-Cantelli et Donsker . . . . . . . . . . . . . . 46<br />

7.2.3 Processus empirique in<strong>de</strong>xé par <strong>de</strong>s fonctions . . . . . . . . . . . . . . 46<br />

7.2.4 Entropie et entropie à crochet . . . . . . . . . . . . . . . . . . . . . . 48<br />

7.3 Symétrisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52<br />

7.3.1 Espaces d’Orlicz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52<br />

7.3.2 Glivenko-Cantelli et entropie sans crochet . . . . . . . . . . . . . . . 55<br />

7.4 Conditions pour qu’une classe F soit Donsker. . . . . . . . . . . . . . . . . . 56<br />

7.4.1 Utilisation <strong>de</strong> l’entropie sans crochet . . . . . . . . . . . . . . . . . . 56<br />

3


1 Introduction to M-estimation<br />

1.1 Density Estimation<br />

X 1 , . . . , X n ∼ i.i.d p θ ∗<br />

<strong>de</strong>nsity with respect to Lebesgue measure λ on R. Empirical measure<br />

n∑<br />

P n = 1 n<br />

i=1<br />

δ Xi<br />

Maximum Likelihood estimator<br />

∫<br />

ˆθ n = arg max<br />

θ∈Θ<br />

log p θ dP n<br />

Note that Θ can be a set of parameters (parametric estimation) or an infinite set which is<br />

hence a notation to the set of <strong>de</strong>nsities {p θ , θ ∈ Θ}.<br />

Using the mere <strong>de</strong>finition of the estimator we get<br />

∑<br />

log p θ ∗<br />

≤ 0 (1)<br />

i<br />

To measure the distance between two <strong>de</strong>nsities, a common tool is Kullback distance <strong>de</strong>fined<br />

as<br />

K(p θ , p θ ∗) = E log p θ<br />

≥ 0, (2)<br />

p θ ∗<br />

thanks to Jensen’s Inequality.<br />

Let g θ = log p θ ∗<br />

p θ<br />

, and using (1) we get<br />

∫ ∫<br />

0 ≥ dP gˆθn n = dP gˆθn n + K(pˆθ, p θ ∗) − K(pˆθ, p θ ∗)<br />

Leading to<br />

1<br />

K(pˆθ, p θ ∗) ≤<br />

∣n<br />

i=1<br />

pˆθ<br />

n∑<br />

(X (gˆθn i ) − (X Egˆθn i ))<br />

∣ .<br />

A Uniform Law of Large Number is nee<strong>de</strong>d since we want<br />

P<br />

sup(g θ (X i ) − Eg θ (X i )) −→ 0.<br />

θ∈Θ<br />

Another distance : Hellinger distance<br />

h 2 (p θ , p θ ∗) = 1 ∫<br />

( √ p θ − √ ∫<br />

p θ ∗) 2 √pθ<br />

dµ = 1 − p θ ∗dµ.<br />

2<br />

4


Lemme 1<br />

h 2 (p θ , p θ ∗) ≤ 1 2 K(p θ, p θ ∗).<br />

Proof:<br />

The proof comes from the inequality<br />

∀v > 0,<br />

1<br />

2 log v ≤ √ v − 1.<br />

1.2 Regression Mo<strong>de</strong>l<br />

The mo<strong>de</strong>l is the regression mo<strong>de</strong>l :<br />

Y i = g 0 (z i ) + W i , i = 1, . . . , n,<br />

with g 0 ∈ G. Define the empirical norm P n = 1 n<br />

∑ n<br />

i=1 δ z i<br />

and the corresponding scalar<br />

product n . We consi<strong>de</strong>r the following M-estimator<br />

Lemme 2<br />

ĝ n = arg min ‖y − 1<br />

g∈G g‖2 n = arg min<br />

g∈G n<br />

n∑<br />

(Y i − g(z i )) 2 .<br />

i=1<br />

‖ĝ n − g 0 ‖ 2 n ≤ 2 < W, ĝ n − g 0 > n .<br />

Our objective is to prove results of the following type<br />

(<br />

)<br />

P sup | < W, g − g 0 > n | ≥ δ n −→ 0.<br />

g∈G<br />

In this case, the set G is said to satisfy the uniform law of large numbers.<br />

1.3 A real example<br />

X i = (Y i , Z i ) ∈ {0, 1} × N<br />

where Y i = 1 if the individual i has a job (0 otherwise) while Z is the number of years of<br />

study. The two random variables are linked by the following relation<br />

Our aim is to estimate θ.<br />

P(Y = 1|Z = z) = F (θ 0 z), F (x) = ex<br />

1 + e x .<br />

ˆθ = arg max ∑ i<br />

p θ (Y i |Z i )<br />

where p θ (y|z) is the conditional likelihood given by<br />

∫<br />

p θ (y|z) = F Y (θ 0 z)(1 − F (θ 0 z)) 1−Y =<br />

p θ (y|z)dP n ,<br />

5


with<br />

Write<br />

P n = 1 n<br />

n∑<br />

δ Xi .<br />

i=1<br />

l θ (y, z) = ∂ ∂θ log p θ(y|z)<br />

= z(y − F (θ 0 z))<br />

Note that<br />

Set<br />

El θ0 (Y, Z) = 0.<br />

g θ = − l θ(y, z) − l θ0 (y, z)<br />

θ − θ<br />

{<br />

0<br />

z F (θz)−F (θ 0z)<br />

θ−θ<br />

=<br />

0<br />

if θ ≠ θ 0<br />

z 2 F (θ 0 z)(1 − F (θ 0 z)) otherwise<br />

Then using the <strong>de</strong>finition of ˆθ we get<br />

n∑<br />

lˆθ(X i ) = 0<br />

i=1<br />

6


2 Convergences en <strong>Statistique</strong> Asymptotique<br />

2.1 Caractérisation <strong>de</strong> la convergence en loi et Théorème <strong>de</strong> l’image<br />

continue<br />

Lemme 3 (Portmantau) Pour tous vecteurs aléatoires X n et X les conditions suivantes<br />

sont équivalentes :<br />

(i) P(X ( n ≤ x) ) → P(X ( ≤ x) ) en tout point <strong>de</strong> continuité <strong>de</strong> x ↦→ P(X ≤ x).<br />

(ii) E f(X n ) → E f(X) pour toute fonction f continue bornée.<br />

( ) ( )<br />

(iii) E f(X n )<br />

(<br />

→ E f(X)<br />

) (<br />

pour toute fonction f Lipschitzienne bornée.<br />

)<br />

(iv) lim inf E f(X n ) ≥ E f(X)<br />

( ) (<br />

pour toute fonction f continue positive.<br />

)<br />

(v) lim inf P X n ∈ G<br />

(<br />

≥ P<br />

)<br />

X ∈ G<br />

(<br />

pour tout ouvert G.<br />

)<br />

(vi) lim sup P<br />

(<br />

X n ∈ F<br />

)<br />

≤ P<br />

(<br />

X ∈ F<br />

)<br />

pour tout fermé F .<br />

( )<br />

(vii) P ∈ B → P X ∈ B pour tout borélien B vérifant P X ∈ δB = 0, où<br />

X n<br />

δB = ¯B − ˚B.<br />

Preuve :<br />

(i) =⇒ (ii) On commence par supposer que la fonction <strong>de</strong> répartition <strong>de</strong> X est continue.<br />

Alors (i) implique que pour tout rectangle fermé I, P(X n ∈ I) → P(X ∈ I).<br />

Soit f une fonction continue bornée (par homogénéité on peut supposer que ‖f‖ ∞ = 1).<br />

Soit ɛ > 0 fixé et I un rectangle fermé vérifiant P(X /∈ I) ≤ ɛ. Comme I est compact la<br />

fonction f est uniformément continue sur I. Ainsi il existe η > 0 tel que |x − y| ≤ η =⇒<br />

|f(x) − f(y)| ≤ ɛ, ∀(x, y) ∈ I 2 . Par compacité on peut recouvrir I par un nombre fini <strong>de</strong><br />

boules (I j ) j=1...p <strong>de</strong> rayon η <strong>de</strong> telle sorte que sur chaque I j , f varie au plus <strong>de</strong> ɛ.<br />

On choisit un point x j dans chaque I j et on définit la fonction f ɛ := ∑ p<br />

j=1 f(x j)1l Ij . Alors<br />

sur I, ‖f − f ɛ ‖ ∞ ≤ ɛ.<br />

( )<br />

|E f(X n )<br />

( )<br />

− E f ɛ (X n )<br />

( ) ( )<br />

|E f ɛ (X n ) − E f ɛ (X) | ≤<br />

( )<br />

| ≤ ɛ + P X n /∈ I ,<br />

p∑<br />

)<br />

∣<br />

∣P<br />

(X n ∈ I j<br />

j=1<br />

( ) ( ) ( )<br />

|E f(X) − E f ɛ (X) | ≤ ɛ + P X /∈ I ≤ 2ɛ.<br />

( )∣ ∣∣<br />

− P X ∈ I j |f(xj )|,<br />

( ) ( )<br />

( )<br />

Par hypothèse P X n /∈ I → P X /∈ I , ainsi pour n assez grand P X n /∈ I ≤ 2ɛ.<br />

De même ∑ ( ) )<br />

)<br />

)<br />

p<br />

j=1 |P X n ∈ I j − P<br />

(X ∈ I j ||f(x j )| ≤ p sup j |P<br />

(X n ∈ I j − P<br />

(X ∈ I j | ≤ ɛ.<br />

Ce qui prouve le résultat lorsque la fonction <strong>de</strong> répartition <strong>de</strong> X est continue.<br />

Dans le cas général, le nombre <strong>de</strong> points <strong>de</strong> discontinuités <strong>de</strong> la fonction <strong>de</strong> répartition est<br />

au plus dénombrable, quitte à élargir un peu le rectangle I on peut supposer que la frontière<br />

<strong>de</strong> I ne possè<strong>de</strong> pas <strong>de</strong> points <strong>de</strong> discontinuités. De même quitte à rétrécir les boules, on<br />

7


peut supposer que leurs frontières ne possè<strong>de</strong>nt pas <strong>de</strong> points <strong>de</strong> discontinuités.<br />

(ii) =⇒ (iii) est évi<strong>de</strong>nt.<br />

(ii) =⇒ (iv) Soit f une fonction continue positive. Soit M un réel positif, on définit la<br />

fonction f M par f M (x) = inf(f(x), M). Cette fonction est continue positive et bornée par<br />

M, <strong>de</strong> plus f M ≤ f. On a pour tout n, E ( f M (X n ) ) ≤ E ( f(X n ) ) . Par ii) le terme <strong>de</strong> gauche<br />

converge vers E ( f M (X) ) . On en déduit que E ( f M (X) ) ≤ lim inf E ( f(X n ) ) . On conclut par<br />

convergence monotone.<br />

(iv) =⇒ (ii) Soit f une fonction continue bornée alors les fonctions f + ‖f‖ ∞ et ‖f‖ ∞ − f<br />

sont continues positives. Par iv)<br />

E ( f(X) ) + ‖f‖ ∞ ≤ lim inf E ( f(X n ) ) + ‖f‖ ∞ ,<br />

‖f‖ ∞ − E ( f(X) ) ≤ ‖f‖ ∞ − lim sup E ( f(X n ) ) .<br />

On en déduit que lim E ( f(X n ) ) = E ( f(X) ) .<br />

(iii) =⇒ (v) Soient G un ouvert <strong>de</strong> R k et M un entier strictement positif. On définit<br />

la fonction f M (x) = inf ( 1, Md(x, G c) . Cette fonction est M−lipschitzienne et bornée par<br />

1. La suite <strong>de</strong> fonctions f M est une suite croissante convergeant vers 1l G . Par iii) on sait<br />

que lim n E ( f M (X n ) ) = E ( f M (X) ) . Comme P ( X n ∈ G ) ≥ E ( f M (X n ) ) , on en déduit que<br />

lim inf P ( X n ∈ G ) ≥ E ( f M (X) ) . On conclut par convergence monotone.<br />

v) ⇐⇒ vi) Immédiat en passant au complémentaire.<br />

vi) =⇒ vii) Soit B un borélien tel que P ( X ∈ ∂B ) = 0. On a<br />

P ( X n ∈ ˚B ) ≤ P ( X n ∈ B ) ≤ P ( X n ∈ ¯B ) .<br />

On applique vi) à ¯B et v) à ˚B puis on remarque P ( X ∈ ˚B ) = P ( X ∈ B ) = P ( X ∈ ¯B ) .<br />

vii) =⇒ i) C’est immédiat il suffit <strong>de</strong> considérer un point x <strong>de</strong> continuité <strong>de</strong> la fonction <strong>de</strong><br />

répartition <strong>de</strong> X et B =] − ∞, x].<br />

Théorème 1 (Théorème <strong>de</strong> l’image continue) Soit g une fonction R k dans R m continue<br />

en tout point d’un ensemble C vérifiant P ( X ∈ C ) = 1. Alors<br />

i) Si X n L −→<br />

n<br />

X. Alors g(X n ) L −→<br />

n<br />

g(X).<br />

ii) Si X n P −→<br />

n<br />

X. Alors g(X n ) P −→<br />

n<br />

g(X).<br />

iii) Si X n<br />

P.S.<br />

−−→<br />

n<br />

Preuve :<br />

iii) Évi<strong>de</strong>nt.<br />

ii) Soient ɛ > 0 et δ > 0,<br />

X. Alors g(X n ) P.S.<br />

−−→<br />

n<br />

g(X).<br />

P ( ‖g(X n ) − g(X)‖ ≥ ɛ ) ≤ P ( ‖g(X n ) − g(X)‖ ≥ ɛ, ‖X n − X‖ ≤ δ ) + P ( ‖X n − X‖ ≥ δ ) . (3)<br />

Le <strong>de</strong>uxième terme du membre <strong>de</strong> droite tend vers zéro par hypothèse.<br />

Soit B δ = {x, ∃y, ‖x − y‖ ≤ δ, ‖g(x) − g(y)‖ ≥ ɛ}, alors (3) <strong>de</strong>vient<br />

lim sup P ( ‖g(X n ) − g(X)‖ ≥ ɛ ) ≤ P ( X ∈ B δ<br />

)<br />

.<br />

8


Or P ( X ∈ B δ<br />

)<br />

≤ P<br />

(<br />

X ∈ Bδ ∩ C ) + P ( X ∈ C c) . Le premier terme tend vers zéro lorsque<br />

δ tend vers zéro par continuité.<br />

i) On va appliquer vi) du Lemme <strong>de</strong> Portmanteau.<br />

Soit F un fermé <strong>de</strong> R m . {g(X n ) ∈ F } = {X n ∈ g −1 (F )} 1 . Commençons par montrer que<br />

g −1 (F ) ⊂ g −1 (F ) ⊂ g −1 (F ) ∪ C c .<br />

La première inclusion est triviale. Soit x ∈ g −1 (F ) alors il existe une suite x n <strong>de</strong> points <strong>de</strong><br />

g −1 (F ) convergent vers x, si x ∈ C alors par continuité g(x n ) converge vers g(x) comme F<br />

est fermé g(x) ∈ F . Sinon x ∈ C c .<br />

On en déduit que lim sup P ( g(X n ) ∈ F ) ≤ lim sup P ( X n ∈ g −1 (F ) ) , par Portmanteau on a<br />

lim sup P ( g(X n ) ∈ F ) ≤ P ( X ∈ g −1 (F ) ) . Or P ( X ∈ g −1 (F ) ≤ P ( X ∈ g −1 (F ) ) +P ( X ∈ C c) .<br />

Remarque 1 En analysant la preuve, on voit que dans i) et ii) si la variable X est une<br />

constante c, on a juste besoin <strong>de</strong> la continuité <strong>de</strong> g en ce point c.<br />

2.2 Variables uniformément tendues<br />

Remarquons que pour toute variable aléatoire X et tout ɛ > 0, il existe M > 0 tel que<br />

P ( ‖X‖ > M ) ≤ ɛ. C’est-à-dire que toute variable est tendue.<br />

Définition 1 Soit F = {X a , a ∈ A} une famille <strong>de</strong> vecteurs aléatoires. F est dite uniformément<br />

tendue si<br />

∀ɛ > 0, ∃M > 0, sup P ( ‖X a ‖ > M ) ≤ ɛ.<br />

a∈A<br />

Lemme 4 (Helly) Soit (F n ) n une suite <strong>de</strong> fonctions <strong>de</strong> répartitions <strong>de</strong> R k . Alors il existe<br />

une sous-suite F nj et une fonction F positive croissante continue à droite bornée par un,<br />

telle que F nj converge vers F en tout point x <strong>de</strong> continuité <strong>de</strong> F .<br />

Remarque 2<br />

1. Si <strong>de</strong> plus lim x→−∞ F (x) = 0 et lim x→+∞ F (x) = 1 alors F est une fonction <strong>de</strong><br />

répartition.<br />

F<br />

2. Si F n’est pas constante égale à zéro et si lim −∞ F (x) = 0 alors<br />

<strong>de</strong> répartition.<br />

‖F ‖ ∞<br />

est une fonction<br />

Preuve :<br />

Soit Q k l’ensemble <strong>de</strong>s vecteurs <strong>de</strong> R k à coordonnées rationnelles. Q k étant dénombrable on<br />

peut l’ordonner, Q k = {q 1 , q 2 , . . .}. La suite <strong>de</strong> réels (F n (q 1 )) n est bornée (F n (q 1 ) ∈ [0, 1] ∀n),<br />

on peut donc en extraire une sous-suite convergente. Notons (n 1 j) j la sous-suite <strong>de</strong> (n) qui<br />

l’in<strong>de</strong>xe et G(q 1 ) la limite. De la même manière, <strong>de</strong> (n 1 j) j , on peut extraire une sous-suite<br />

fermé<br />

1 Comme g est continue seulement sur un ensemble C <strong>de</strong> P X −mesure égale à un g −1 (F ) n’est pas forcément<br />

9


(n 2 j) j telle que F n 2<br />

j<br />

(q 2 ) −→ G(q 2 ) et, ainsi <strong>de</strong> suite, F n i<br />

j<br />

(q i ) −→ G(q i ). La queue <strong>de</strong> la suite<br />

diagonale (n j ) j = (n j j ) j appartient à toutes les suites n i j, au sens où ∀i, (n j j ) j≥i ⊂ (n i j) j .<br />

Ainsi pour tout i, F n<br />

j(q i ) −→ G(q i ) car F<br />

j<br />

n i<br />

j<br />

(q i ) −→ G(q i ). Notons que G est croissante (par<br />

passage à la limite dans F n<br />

j<br />

j<br />

(q i ) ≤ F n<br />

j(q i+1 )).<br />

j<br />

Soit x un réel. Définissons F (x) = inf q>x G(q). Par construction F est croissante. F est<br />

également continue à droite : pour tout x et tout ɛ > 0 il existe un rationnel q tel que x < q<br />

et G(q) < F (x) + ɛ. Si x ≤ y < q, alors F (y) ≤ G(q) < F (x) + ɛ, d’où F (y) − F (x) < ɛ, ce<br />

qui prouve la continuité à droite.<br />

Soit x un point <strong>de</strong> continuité <strong>de</strong> F et soit ɛ > 0. Prenons un y < x tel que F (x) − ɛ < F (y).<br />

Il existe <strong>de</strong>s rationnels r et s vérifiant y < r < x < s, F (y) ≤ G(r) et G(s) < F (x) + ɛ. En<br />

mettant bout à bout ces inégalités, on a F (x) − ɛ < G(r) ≤ G(s) < F (x) + ɛ. Considérons<br />

l’inégalité F n (r) ≤ F n (x) ≤ F n (s) et prenons la limite selon la sous-suite (n j j ), on obtient :<br />

F (x) − ɛ < G(r) = lim F n<br />

j(r) ≤ lim inf F<br />

j<br />

n<br />

j(x)<br />

j<br />

≤ lim sup F n<br />

j(x) ≤ lim F<br />

j<br />

n<br />

j(s) = G(s) < F (x) + ɛ.<br />

j<br />

D’où lim j F n<br />

j(x) = F (x), ce qui achève la preuve.<br />

j<br />

Théorème 2 (Prohorov) Soit (X n ) une suite <strong>de</strong> vecteurs aléatoires.<br />

1. Si X n L −→<br />

n<br />

X , alors la famille {X n , n ∈ N} est uniformément tendue.<br />

2. Si la famille {X n , n ∈ N} est uniformément tendue alors il existe une sous-suite qui<br />

converge en loi vers X.<br />

Preuve :<br />

1. Fixons ɛ > 0, soit M > 0 tel que P ( ‖X‖ > M ) ≤ ɛ. Quitte à augmenter un peu<br />

M on peut supposer que la fonction <strong>de</strong> répartition <strong>de</strong> ‖X‖ est continue en M. Par<br />

Portmanteau, on sait qu’il existe N > 0 tel que pour tout n > N, P ( ‖X n ‖ > M ) ≤<br />

P ( ‖X‖ > M ) + ɛ ≤ 2ɛ. Pour i ≤ N il existe M i > 0 tel que P ( ‖X i ‖ > M i<br />

)<br />

≤ 2ɛ. Alors<br />

si K = sup i {M, (M i ) i }, on a sup n P ( ‖X n ‖ > K ) ≤ 2ɛ.<br />

2. C’est un corollaire du lemme <strong>de</strong> Helly. On note F n la fonction <strong>de</strong> répartition <strong>de</strong> X n .<br />

Par Helly on sait qu’il existe une sous-suite F nj qui converge vers une fonction F qui<br />

ressemble à une fonction <strong>de</strong> répartition. Il reste à montrer que F est bien une fonction<br />

<strong>de</strong> répartition, c’est à dire que lim −∞ F (x) = 0 et lim ∞ F (x) = 1. Soit ɛ > 0, comme<br />

les X n sont uniformément tendues on peut trouver M > 0 (point <strong>de</strong> continuité <strong>de</strong> F )<br />

vérifiant F n (M) ≥ 1 − ɛ pour tout n. Par passage à la limite on a F (M) ≥ 1 − ɛ, pour<br />

tout ɛ > 0. Ce qui prouve lim ∞ F (x) = 1. Un argument similaire donne la limite en<br />

−∞.<br />

Remarque 3 On peut voir ce théorème comme une version aléatoire d’un résultat déterministe<br />

bien connu : toute suite convergente est bornée et <strong>de</strong> toute suite bornée on peut extraire une<br />

sous-suite convergente.<br />

10


2.3 Quelques rapports entre différents mo<strong>de</strong>s <strong>de</strong> convergences<br />

Théorème 3 Soient (X n ) n , (Y n ) n et X, Y <strong>de</strong>s vecteurs aléatoires, soit c une constante.<br />

Alors<br />

p.s.<br />

P r<br />

i) Si X n −−→ X alors X n −→ X.<br />

n n<br />

ii) Si X n<br />

iii) X n<br />

P r<br />

−→<br />

n<br />

X alors X n L −→<br />

n<br />

X.<br />

P r<br />

−→<br />

n<br />

c si et seulement si X n L −→<br />

n<br />

c.<br />

iv) Si X n L −→<br />

n<br />

X et d(X n , Y n ) P r<br />

−→<br />

n<br />

0 alors Y n L −→<br />

n<br />

X.<br />

v) (Slutsky) Si X n L −→<br />

n<br />

X et Y n<br />

P r<br />

−→<br />

n<br />

c alors (X n , Y n ) L −→<br />

n<br />

(X, c).<br />

vi) Si X n<br />

P r<br />

P r<br />

−→ X et Y n −→<br />

n n<br />

Y alors (X n , Y n ) P r<br />

−→<br />

n<br />

(X, Y ).<br />

Preuve :<br />

i) Soit B = {ω, X n (ω) → X(ω)}. Soit ɛ > 0 fixé. Soit A n = ⋃ m≥n {d(X m, X) ≥ ɛ}. Pour<br />

tout ɛ > 0, la suite A n est décroissante. Si ω ∈ B, il existe n tel que pour tout m ≥ n<br />

d(X n , X) ≤ ɛ. C’est à dire que ω ∈ A c n. Par suite on en déduit que P ( )<br />

A n → 0. On conclut<br />

en remarquant que {ω, d(X n (ω), X(ω)) ≥ ɛ} ⊂ A n .<br />

ii) On peut voir ii) comme une conséquence <strong>de</strong> iv), mais nous allons en donner une preuve<br />

directe.<br />

Soient f une fonction continue bornée, M > 0 un majorant <strong>de</strong> f et ɛ > 0.<br />

(<br />

) (<br />

) (<br />

)<br />

E |f(X n ) − f(X)| = E |f(X n ) − f(X)|1l |Xn−X|≥η + E |f(X n ) − f(X)|1l |Xn−X| 0 et B = B(c, ɛ) la boule ouverte <strong>de</strong> centre<br />

c et <strong>de</strong> rayon ɛ. P ( d(X n , c) ≥ ɛ ) = P ( X n ∈ B c) .<br />

Or B c est un fermé ainsi lim sup P ( d(X n , c) ≥ ɛ ) ≤ P ( c ∈ B c) = 0.<br />

iv) Soit f une fonction <strong>de</strong> lipschitz bornée, on note L la constante <strong>de</strong> lipschitz et M un<br />

majorant <strong>de</strong> f.<br />

E ( |f(X n ) − f(Y n )| ) ≤ ɛLP ( |X n − Y n | ≤ ɛ ) + 2MP ( |X n − Y n | ≥ ɛ ) .<br />

Le <strong>de</strong>uxieme terme tendant vers zéro, on en déduit que le terme <strong>de</strong> droite tend vers zéro.<br />

On conclut en utilsant l’inégalité triangulaire |E ( f(Y n ) − f(X) ) | ≤ |E ( f(Y n ) − f(X n ) ) | +<br />

|E ( f(X n ) − f(X) ) |.<br />

v) Commençons par remarquer que d ( (X n , Y n ), (X n , c) ) = d(Y n , c), ainsi en utilisant iv)<br />

L<br />

il suffit <strong>de</strong> montrer que (X n , c) −→ (X, c). Soit f une fonction continue bornée (x, y) ↦→<br />

f(x, y) alors la fonction x ↦→ f(x, c) est continue bornée. Par Portmanteau, on en déduit<br />

E ( f(X n , c) ) → E ( f(X, c) ) .<br />

vi) Trivial ! ! !<br />

Grâce au théorème <strong>de</strong> l’image continue et v) on obtient aisément le théorème suivant :<br />

11


Théorème 4 (Slutsky) Soient X n , X, Y n <strong>de</strong>s vecteurs aléatoires et c un vecteur constant.<br />

L<br />

L<br />

Si X n −→ X et Y n −→ c, alors<br />

L<br />

i) X n + Y n −→ X + c.<br />

L<br />

ii) Y n X n −→ cX.<br />

iii) Yn −1 L<br />

X n −→ c −1 X.<br />

Le statut <strong>de</strong> c n’est pas forcément clair dans i) c doit être un vecteur <strong>de</strong> la même taille que<br />

X. Tandis que dans ii) et iii) c’est un scalaire (non nul dans iii)).<br />

Lemme 5 (Convergence uniforme <strong>de</strong>s fonctions <strong>de</strong> répartitions et convergence en loi)<br />

L<br />

On suppose X n −→ X et que la fonction <strong>de</strong> répartition <strong>de</strong> X est continue. Alors<br />

sup |P ( X n ≤ x ) − P ( X ≤ x ) | → 0.<br />

x<br />

Preuve:<br />

On se place en dimension 1, en dimension supérieure l’idée <strong>de</strong> la preuve est la même. On<br />

note F et F n les fonctions <strong>de</strong> répartitions <strong>de</strong> X et X n . Soient ɛ > 0 et un entier k tels que<br />

1<br />

k ≤ ɛ. Comme F est continue, il existe x 1, . . . , x k tels que F (x i ) = i k . Soit x i−1 ≤ x ≤ x i ,<br />

par monotonie on a<br />

F n (x) − F (x) ≤ F n (x i ) − F (x i−1 ) ≤ F n (x i ) − F (x i ) + 1 k<br />

F n (x) − F (x) ≥ F n (x i−1 ) − F (x i ) ≤ F n (x i−1 ) − F (x i−1 ) − 1 k<br />

Ainsi |F n (x) − F (x)| ≤ sup i |F n (x i ) − F (x i )| + 1 . On conclut en notant que le premier terme<br />

k<br />

tend vers 0 (le sup est pris sur un ensemble fini).<br />

2.4 Les symboles o P et O P<br />

Nous introduisons ici <strong>de</strong>s notations très utiles par la suite.<br />

• X n = o P (1) signifie que X n converge vers 0 en probabilité. Plus généralement X n = o P (R n )<br />

signifie que X n = Y n R n avec Y n convergeant vers 0 en probabilité.<br />

• X n = O P (1) signifie que la famille (X n ) n est uniformément tendue. Plus généralement<br />

X n = O P (R n ) signifie que X n = Y n R n avec la famille (Y n ) n uniformément tendue.<br />

Le lemme suivant nous autorisera dans la suite à remplacer <strong>de</strong>s quantités déterministes par<br />

<strong>de</strong>s quantités aléatoires dans les relations o et O.<br />

Lemme 6 Soit X n une suite <strong>de</strong> vecteurs aléatoires qui converge vers zéro en probabilité.<br />

Alors pour tout p > 0, et toute fonction R telle que R(0) = 0,<br />

1. R(h) = o(‖h‖ p ) =⇒ R(X n ) = o P (‖X n ‖ p ).<br />

2. R(h) = O(‖h‖ p ) =⇒ R(X n ) = O P (‖X n ‖ p ).<br />

12


Preuve:<br />

On définit g(h) = R(h) si h ≠ 0 et par g(0) = 0. Alors R(X<br />

‖h‖ p n ) = g(X n )‖X n ‖ p .<br />

1. La fonction g est continue en zéro par construction, on en déduit par le théorème <strong>de</strong><br />

P<br />

l’image continue que g(X n ) −→ g(0) = 0.<br />

2. Par hypothèse il existe M > 0 et δ > 0 tels que |g(h)| ≤ M dès que ‖h‖ ≤ δ. Ainsi<br />

P ( |g(X n )| > M ) ≤ P ( ‖X n ‖ > δ ) . Le <strong>de</strong>rnier terme tend vers zéro par hypothèse et<br />

par suite g(X n ) est tendue.<br />

2.5 Fonctions caractéristiques<br />

Définition 2 Soit X un vecteur aléatoire <strong>de</strong> R k et t ∈ R k , la fonction caractéristique <strong>de</strong> X<br />

est définie par<br />

φ X (t) = E ( exp(i < t, X >) ) .<br />

Théorème 5 (Paul Lévy)<br />

1. Soient (X n ) n et X <strong>de</strong>s vecteurs aléatoires <strong>de</strong> R k . Alors il y a équivalence entre<br />

(a) X n<br />

L<br />

−→ X<br />

(b) φ Xn (t) → φ X (t), ∀t ∈ R k .<br />

2. Si φ Xn (t) → φ(t), ∀t ∈ R k et si φ est continue en 0, alors φ est la fonction caractéristique<br />

d’un vecteur aléatoire X et X n −→<br />

L<br />

X.<br />

Preuve:<br />

1. (a) =⇒ (b) Il suffit <strong>de</strong> constater que pour tout t, x ↦→ exp(i < t, x >) est continue<br />

bornée.<br />

(b) =⇒ (a) Il suffit <strong>de</strong> montrer 2) car la fonction caractéristique est continue en 0.<br />

2. Admettons momentanément que X n est uniformément tendue. Alors par Prohorov, il<br />

existe une sous-suite <strong>de</strong> X n qui converge en loi vers une variable aléatoire Y. C’est à<br />

dire que φ Xnk (t) → φ Y (t), ∀t ∈ R k . Par unicité <strong>de</strong> la limite, on en déduit que φ Y = φ.<br />

De plus ceci implique que toute sous-suite <strong>de</strong> X n convergeant en loi, converge vers Y .<br />

Ainsi, il existe un et un seul point d’accumulation au sens <strong>de</strong> la convergence en loi.<br />

Ceci implique que X n converge en loi vers Y . En effet supposons par l’absur<strong>de</strong> que X n<br />

ne converge pas en loi vers Y , il existe donc un point x <strong>de</strong> continuité <strong>de</strong> la fonction <strong>de</strong><br />

répartition <strong>de</strong> Y , tel que P ( X n ≤ x ) ↛ P ( Y ≤ x ) . Il existe donc ɛ > 0 et une sous-suite<br />

n k tels que |P ( X nk ≤ x ) − P ( Y ≤ x ) | ≥ ɛ. Mais comme (X n ) est uniformément tendue<br />

X nk l’est aussi, on peut donc par Prohorov en extraire une sous-suite qui converge en<br />

loi vers Y , ce qui est contradictoire.<br />

13


Montrons maintenant que X n est uniformément tendue. Cela va découler <strong>de</strong> la continuité<br />

<strong>de</strong> φ en 0. On peut supposer que X n ∈ R, car la tension composante par composante<br />

entraine la tension d’un vecteur. Soient x et δ > 0,<br />

(<br />

1l |δx|>2 ≤ 2 1 − sin(δx) )<br />

= 1 δx δ<br />

On remplace x par X n et on prend l’espérance<br />

P ( |δX n | > 2 ) ≤ 1 δ<br />

∫ δ<br />

−δ<br />

E(1 − cos(tX n )dt ≤ 1 δ<br />

∫ δ<br />

−δ<br />

(1 − cos(tx)dt.<br />

∫ δ<br />

−δ<br />

Re(1 − E ( exp(itX n ) ) dt.<br />

Par hypothèse l’intégrand converge ponctuellement vers Re(1 − φ(t)), par convergence<br />

∫<br />

dominée l’intégrale converge vers 1 δ<br />

Re(1 − φ(t))dt. Soit ɛ > 0 par continuité <strong>de</strong> φ<br />

δ −δ<br />

en zéro, il existe δ > 0, tel que |t| ≤ δ implique |1 − φ(t)| ≤ ɛ. Pour ce δ, l’intégrale<br />

limite est plus petite que 2ɛ. Il existe N tel que pour tout n ≥ N, P ( |δX n | > 2 ) ≤<br />

Re(1 − φ(t))dt + ɛ. Ce qui achève la preuve.<br />

1<br />

δ<br />

∫ δ<br />

−δ<br />

Lemme 7 (Admis) Deux vecteurs aléatoires X et Y <strong>de</strong> R k sont <strong>de</strong> même loi si et seulement<br />

si leurs fonctions caractéristiques sont égales.<br />

Proposition 1 (Loi faible <strong>de</strong>s grands nombres) Soient Y 1 , . . . , Y n <strong>de</strong>s v.a.i.i.d. <strong>de</strong> fonctions<br />

caractéristiques φ. Alors Y n −→ µ, si φ est différentiable en zéro et iµ = φ ′ P<br />

(0).<br />

Preuve:<br />

Par hypothèse φ(t) = 1 + tφ ′ (0) + o(t) (lorsque t tend vers zéro).<br />

E ( exp(itY n ) ) = φ n ( t n ) = (1 + t n iµ + o( t n ) ) n<br />

→ exp(itµ).<br />

L<br />

Ainsi par Paul Levy Y n −→ µ. Or la convergence en loi vers une constante est équivalente à<br />

la convergence en proba vers cette constante.<br />

Remarque 4 i) Si E|Y 1 | < ∞ alors on montre par convergence dominée que φ ′ (t) existe<br />

pour tout t et que φ ′ (0) = iE(Y 1 ).<br />

ii) La réciproque <strong>de</strong> la proposition est vraie (ref 127 p 52).<br />

Proposition 2 (Théorème <strong>de</strong> la limite central) Soient Y 1 , . . . , Y n <strong>de</strong>s v.a.i.i.d. vérifiant<br />

E(Y 1 ) = 0 et E(Y 2<br />

1 ) = 1 alors √ nY n converge en loi vers une v.a. <strong>de</strong> loi N (0, 1).<br />

Preuve:<br />

Toujours par Lebesgue, on peut dériver <strong>de</strong>ux fois φ(t) et on montre que φ ′′ (0) = −E(Y1 2 ).<br />

E ( exp(it √ nY n ) ) = φ n ( √ t (<br />

) = 1 − 1 t 2<br />

n 2 n iE(Y 2 ) + o( t ) (<br />

n )n → exp − 1 )<br />

2 t2 E(Y 2 ) .<br />

Ce qui prouve le résultat par Paul Levy.<br />

14


2.6 Représentation presque sûre<br />

Théorème 6 (Admis) Supposons qu’une suite (X n ) n <strong>de</strong> vecteurs aléatoires converge en loi<br />

vers un vecteur aléatoire X 0 . Alors, il existe un espace <strong>de</strong> probabilité ( Ω, A, P ) , <strong>de</strong>s vecteurs<br />

aléatoires ( )<br />

X 0 , (X n ) n , vérifiant que pour tout n ≥ 0, Xn et X n sont <strong>de</strong> même lois et que<br />

p.s.<br />

−→ X 0 .<br />

X n<br />

15


3 La métho<strong>de</strong> Delta ou ∆-method<br />

3.1 Le résultat<br />

Soit T n un estimateur <strong>de</strong> θ, on désire estimer le paramètre φ(θ) où φ est une fonction<br />

connue. Il est naturel d’estimer φ(θ) par φ(T n ). On peut alors se <strong>de</strong>man<strong>de</strong>r comment les<br />

propriétés <strong>asymptotique</strong>s <strong>de</strong> T n se transfèrent à φ(T n ).<br />

Le théorème <strong>de</strong> l’image continue fournit déjà une première réponse à la question. Mais il ne<br />

répond pas à la question suivante : si √ n ( T n − θ ) L<br />

−→ X a-t-on √ n ( φ(T n ) − φ(θ) ) L<br />

−→ Y ?<br />

Si φ est linéaire, le résultat est vrai avec Y = φ(X).<br />

On sent ici que c’est la partie linéaire <strong>de</strong> φ qui va être importante, c’est à dire la différentielle<br />

<strong>de</strong> φ. En effet en première approximation si T n est proche <strong>de</strong> θ on a √ n ( φ(T n ) − φ(θ) ) ≈<br />

Dφ(θ)( √ n(T n − θ)). Ainsi on s’attend à ce que √ n ( φ(T n ) − φ(θ) ) L<br />

−→ Dφ(θ)(X).<br />

Théorème 7 (Métho<strong>de</strong> Delta) Soit φ une application <strong>de</strong> R k dans R m différentiable en θ.<br />

Soit T n <strong>de</strong>s vecteurs aléatoires <strong>de</strong> R k (à valeurs dans le domaine <strong>de</strong> définition <strong>de</strong> φ) et (r n ) n<br />

une suite <strong>de</strong> nombres réels tendant vers ∞. Alors<br />

(<br />

r n φ(Tn ) − φ(θ) ) L<br />

−→ Dφ(θ)(T );<br />

(<br />

dès que r n Tn − θ ) L<br />

(<br />

−→ T. De plus la différence entre r n φ(Tn ) − φ(θ) ) et Dφ(θ) ( r n (T n − θ) )<br />

converge vers zéro en probabilité.<br />

Preuve:<br />

L<br />

Comme la suite r n (T n − θ) −→ T , par Prohorov, elle est uniformément tendue. De plus par<br />

le théorème <strong>de</strong> Slutsky T n − θ −→ P<br />

0. Soit R(h) = φ(θ + h) − φ(θ) − Dφ(θ)(h), par définition<br />

<strong>de</strong> la différentielle R(h) = o(‖h‖). On applique alors le Lemme 6,<br />

φ(T n ) − φ(θ) − Dφ(θ)(T n − θ) = R(T n − θ) = o P (‖T n − θ‖).<br />

On multiplie les <strong>de</strong>ux membres <strong>de</strong> l’égalité par r n ,<br />

r n φ(T n ) − r n φ(θ) − r n Dφ(θ)(T n − θ) = r n o P (‖T n − θ‖).<br />

r n o P (‖T n − θ‖) = o P (r n ‖T n − θ‖). De plus, comme r n (T n − θ) est uniformément tendue,<br />

on en déduit que o P (r n ‖T n − θ‖) = o P (1) 2 . Ceci achève la preuve <strong>de</strong> la <strong>de</strong>uxième partie<br />

du théorème. De plus Dφ(θ) est linéaire donc continue, donc par le théorème <strong>de</strong> l’image<br />

continue, on a<br />

L<br />

r n Dφ(θ)(T n − θ) −→ Dφ(θ)(T ).<br />

On conclut alors en appliquant le théorème 3, point 4.<br />

2 On écrit o P (r n ‖T n − θ‖) = r n ‖T n − θ‖Z n avec Z n = o P (1) puis on fixe ɛ > 0 et on prend M tel que<br />

P ( r n ‖T n − θ‖ > M ) < ɛ. On montre alors aisément que ∀η > 0, P ( r n ‖T n − θ‖Z n > η ) → 0.<br />

16


Remarque 5 On applique souvent la métho<strong>de</strong> Delta dans le cas où T n est un estimateur <strong>de</strong><br />

θ et la loi <strong>de</strong> T est gaussienne. Dans ce cas, si φ est différentiable en θ et si<br />

√ (<br />

n Tn − θ ) L<br />

−→ N (0, V ),<br />

alors<br />

3.2 Applications<br />

√ n<br />

(<br />

φ(Tn ) − φ(θ) )<br />

3.2.1 Variance empirique<br />

L<br />

−→ N (0, Dφ(θ)V Dφ(θ) T ).<br />

Commençons par rappeler le Théorème central limite multidimensionnel.<br />

Théorème 8 Soient Y 1 , Y 2 , . . . <strong>de</strong>s vecteurs ) aléatoires i.i.d. <strong>de</strong> R k d’espérance µ et <strong>de</strong> matrice<br />

<strong>de</strong> covariance Σ = E<br />

((Y 1 − µ)(Y 1 − µ) ∗ . Alors √ L<br />

n(Y n − µ) −→ N k (0, Σ).<br />

Preuve:<br />

Soit t ∈ R k , Notons Z n = √ n(Y n − µ) par le théorème central limite classique t ∗ Z n<br />

N (0, t ∗ Σt). On conclut alors par un résultat classique sur les vecteurs gaussiens.<br />

Soient X 1 , . . . , X n <strong>de</strong>s v.a. i.i.d.. On définit Sn 2 = n ∑ −1 n<br />

i=1 (X i − X n ) 2 . Un rapi<strong>de</strong> calcul<br />

montre que l’on peut écrire Sn 2 = φ(X n , Xn), 2 avec φ(x, y) = y−x 2 . On suppose que X 1 possè<strong>de</strong><br />

ses quatre premiers moments et on note α i le moment d’ordre i. Si on pose Y i = (X i , Xi 2 )<br />

dans le théorème précé<strong>de</strong>nt, on obtient<br />

√ n<br />

((<br />

Xn<br />

X 2 n<br />

)<br />

−<br />

(<br />

α1<br />

α 2<br />

))<br />

L<br />

−→ N 2<br />

(( 0<br />

0<br />

) (<br />

α2 − α1 ,<br />

2 α 3 − α 1 α 2<br />

α 3 − α 1 α 2 α 4 − α2<br />

2<br />

))<br />

.<br />

L’application φ est différentiable en tout point, <strong>de</strong> différentielle Dφ(x, y)(h, k) = −2xh + k.<br />

On applique le théorème 7 :<br />

√ (<br />

n S<br />

2<br />

n − (α 2 − α1) ) 2 L<br />

−→ N (0, −4α1 4 − α2 2 + 8α1α 2 2 − 4α 1 α 3 + α 4 ).<br />

Si α 1 = 0 (c’est-à-dire si les observations sont centrées), alors √ n ( )<br />

Sn−α 2 L<br />

2 −→ N (0, α 4 −α2).<br />

2<br />

On peut d’ailleurs supposer sans perte <strong>de</strong> généralité<br />

∑<br />

que les observations sont centrées. En<br />

effet, si on pose Z i = X i − α 1 , on montre que 1 n<br />

n i=1 (Z ∑<br />

i − Z n ) 2 = 1 n<br />

n i=1 (X i − X n ) 2 , donc<br />

Sn 2 est inchangée. Notons par µ k = EZi<br />

k le moment centré d’ordre k <strong>de</strong>s X i . Alors<br />

√ ( )<br />

n S<br />

2 L<br />

n − µ 2 −→ N (0, µ 4 − µ 2 2).<br />

On peut aussi exprimer ce résultat sous la forme suivante :<br />

√ S 2<br />

n(<br />

n L<br />

− 1) −→ N (0, κ + 2),<br />

µ 2<br />

où κ = µ 4 /µ 2 2 − 3 est le kurtosis (ou coefficient d’aplatissement <strong>de</strong> la distribution <strong>de</strong>s X i ).<br />

Remarquons enfin que par Slutsky, le résultat est inchangé si on considère l’estimateur sans<br />

biais <strong>de</strong> la variance (obtenu en divisant ∑ n<br />

i=1 (X i − X n ) 2 par n − 1).<br />

17<br />

L<br />

−→


3.2.2 Test sur la variance d’une loi normale<br />

Rappel 1 On rappelle les points suivants :<br />

1. Soient U 1 , . . . , U k <strong>de</strong>s v.a. i.i.d. <strong>de</strong> loi N (0, 1). Alors la v.a. Z = U 2 1 + . . . + U 2 k est<br />

appelée loi du Chi-<strong>de</strong>ux à k <strong>de</strong>grés <strong>de</strong> libertés ; on la note χ 2 (k).<br />

2. Si les X i sont <strong>de</strong> lois N (m, σ 2 ) alors n S2 n<br />

est une variable du Chi-<strong>de</strong>ux à (n − 1) <strong>de</strong>grés<br />

σ 2<br />

<strong>de</strong> libertés.<br />

3. Le théorème central limite assure que<br />

χ 2 n−1 − (n − 1)<br />

√ 2n − 2<br />

L<br />

−→ N (0, 1).<br />

Supposons que l’on désire tester l’hypothèse nulle H 0 que la variance σ 2 d’un n-échantillon<br />

X 1 , . . . , X n est inférieure ou égale à 1. Si les X i sont gaussiennes, on rejette H 0 si nSn 2 dépasse<br />

le quantile d’ordre (1 − α) d’un χ 2 (n − 1), que l’on notera χ 2 1−α(n − 1). Toujours dans le cas<br />

gaussien, le niveau <strong>de</strong> ce test est exactement α. Mais que se passe-t-il si les X i ne sont plus<br />

gaussiennes ?<br />

Nous avons en main <strong>de</strong>ux convergences en loi, l’une provenant du T.C.L. l’autre <strong>de</strong> la métho<strong>de</strong><br />

Delta. Notons χ 2 α le réel x tel que P(χ 2 n−1 > x) = α et u α son équivalent gaussien. Le T.L.C.<br />

implique χ2 α√ −(n−1)<br />

2n−2<br />

→ u α . Ainsi le niveau du test du Chi-<strong>de</strong>ux vérifie<br />

P {µ2 =1}(<br />

nS<br />

2<br />

n > χ 2 α<br />

) ( √n (S 2<br />

= P<br />

n<br />

− 1 ) > χ2 α − n<br />

)<br />

√ → 1 − Φ ( √<br />

u α 2 )<br />

√ .<br />

µ 2 n κ + 2<br />

Ainsi, le test est <strong>de</strong> niveau <strong>asymptotique</strong> α si et seulement si κ = 0.<br />

3.3 Stabilisation <strong>de</strong> la variance<br />

Soient T n et Θ ⊂ R tels que pour tout θ ∈ Θ, √ n ( T n −θ ) L<br />

−→ N ( 0, σ 2 (θ) ) . La convergence<br />

en loi a lieu ici sous P θ . Pour un θ fixé, un intervalle <strong>de</strong> confiance <strong>de</strong> niveau <strong>de</strong> confiance<br />

<strong>asymptotique</strong> 1 − 2α pour θ est <strong>de</strong> la forme<br />

(<br />

Tn − u 1−α<br />

σ(θ)<br />

√ n<br />

, T n + u 1−α<br />

σ(θ)<br />

√ n<br />

)<br />

,<br />

où u 1−α est le quantile d’ordre 1 − α <strong>de</strong> la loi normale centrée réduite. Le problème <strong>de</strong> ces<br />

intervalles est qu’ils dépen<strong>de</strong>nt du paramètre inconnu σ(θ). Une première solution est <strong>de</strong><br />

remplacer cette quantité par un estimateur. La secon<strong>de</strong> est <strong>de</strong> transformer notre problème<br />

en un problème où la variance <strong>de</strong> la loi limite ne dépend plus <strong>de</strong> θ.<br />

Soit φ une fonction différentiable. On considère maintenant le paramètre η = φ(θ), que<br />

l’on estime naturellement par φ(T n ). La métho<strong>de</strong> Delta assure que √ n ( φ(T n ) − φ(θ) ) L<br />

(<br />

)<br />

−→<br />

N 0, {φ ′ (θ)} 2 σ 2 (θ) . On choisit (sous réserve d’existence) φ <strong>de</strong> telle sorte que {φ ′ (θ)} 2 σ 2 (θ) ≡<br />

1, c’est-à-dire φ ′ (θ) = 1<br />

σ(θ)<br />

. On obtient ensuite un intervalle <strong>de</strong> confiance <strong>de</strong> niveau <strong>asymptotique</strong><br />

1−α pour φ(θ). On en déduit un intervalle <strong>de</strong> confiance pour θ en utilisant la croissance<br />

<strong>de</strong> φ (φ ′ (θ) = 1<br />

σ(θ) > 0). 18


Exemple 1<br />

Soit (X 1 , Y 1 ), . . . , (X n , Y n ) un échantillon i.i.d. d’une loi normale bivariée <strong>de</strong> coefficient <strong>de</strong><br />

corrélation ρ. Le coefficient <strong>de</strong> corrélation empirique est défini par :<br />

( ) ( )<br />

Xi − X n Yi − Y n<br />

ˆρ n =<br />

√ (<br />

1<br />

n<br />

∑ n<br />

i=1<br />

1<br />

n<br />

∑ n<br />

i=1<br />

(<br />

Xi − X n<br />

) 2<br />

) (<br />

1<br />

n<br />

∑ n<br />

i=1<br />

(<br />

Yi − Y n<br />

) 2<br />

) .<br />

On montre, dans le cas d’un échantillon <strong>de</strong> la loi normale bivariée, que √ L<br />

n(ˆρ n − ρ) −→<br />

N (0, (1 − ρ 2 ) 2 ) (dans le cas général, l’expression, beaucoup plus compliquée, fait intervenir<br />

les quatre premiers moments <strong>de</strong>s lois <strong>de</strong> X et Y ). On peut déduire <strong>de</strong> ce résultat et du<br />

théorème <strong>de</strong> Slutsky un intervalle <strong>de</strong> confiance <strong>asymptotique</strong> pour ρ, néanmoins les calculs<br />

sont compliqués par la présence d’un terme ˆρ 2 n.<br />

Une autre solution consiste à utiliser la métho<strong>de</strong> Delta et une transformation qui stabilise la<br />

variance. En appliquant le principe décrit ci-<strong>de</strong>ssus, on cherche φ telle que φ ′ (ρ) = 1 . Or<br />

1−ρ 2<br />

1<br />

1 − ρ = 1 [ 1<br />

2 2 1 − ρ + 1 ]<br />

,<br />

1 + ρ<br />

( )<br />

d’où on pose φ(ρ) = 1 ln 1+ρ<br />

= arctanhρ. On en déduit un intervalle <strong>de</strong> confiance <strong>de</strong><br />

2<br />

1−ρ<br />

niveau <strong>asymptotique</strong> 1 − α pour ρ (u 1−<br />

α désigne le quantile d’ordre 1 − α <strong>de</strong> la loi N (0, 1)) :<br />

2 2<br />

[ (<br />

tanh arctanh(ˆρ n ) − u ) (<br />

1− α 2<br />

√ , tanh arctanh(ˆρ n ) + u )]<br />

1− α 2<br />

√ .<br />

n n<br />

3.4 Développements à l’ordre supérieur<br />

Le résultat présenté par le théorème 7 repose sur un développement <strong>de</strong> Taylor à l’ordre<br />

1. Cependant, lorsque Dφ(θ) est nulle, la loi limite est dégénérée en 0. Il est alors intéressant<br />

<strong>de</strong> pousser le développement à un ordre supérieur.<br />

Dans le cas unidimensionnel, un développement <strong>de</strong> Taylor à l’ordre 2 appliqué à T n s’écrit :<br />

Si φ ′ (θ) = 0, on a<br />

φ(T n ) = φ(θ) + (T n − θ)φ ′ (θ) + 1 2 (T n − θ) 2 φ ′′ (θ) + o P (‖(T n − θ) 2 ‖).<br />

k n (φ(T n ) − φ(θ)) = k n<br />

2 (T n − θ) 2 φ ′′ (θ) + o P (k n ‖(T n − θ) 2 ‖).<br />

Si √ k n (T n − θ) L −→<br />

n<br />

N (0, σ 2 (θ)), alors<br />

k n (T n − θ) 2 L −→<br />

n<br />

σ 2 (θ)χ 2 1.<br />

Par le même raisonnement que précé<strong>de</strong>mment, on conclut que<br />

k n (φ(T n ) − φ(θ)) L −→<br />

n<br />

1<br />

2 σ2 (θ)φ ′′ (θ)χ 2 1. (4)<br />

19


Exemple 2<br />

Soit X 1 , . . . , X n n copies indépendantes <strong>de</strong> la loi B(p) (0 < p < 1). On note q = 1 − p et ¯X n<br />

la moyenne empirique <strong>de</strong>s X i (i = 1, . . . , n). Alors :<br />

√ n( ¯Xn − p) L −→<br />

n<br />

N (0, pq).<br />

Un estimateur <strong>de</strong> la variance pq est T n = φ( ¯X n ) = ¯X n (1 − ¯X n ). Quelle est la distribution<br />

<strong>asymptotique</strong> <strong>de</strong> cet estimateur ? Si p ≠ 1/2, alors φ ′ (p) ≠ 0 et d’après le théorème ? ?,<br />

√ n(Tn − pq) L −→<br />

n<br />

N (0, pq(1 − 2p) 2 ) si p ≠ 1/2.<br />

En revanche, φ ′ ( 1) = 0. Cependant, 2 φ′′ ( 1 ) = −2, d’où d’après (4),<br />

2<br />

n(T n − pq) −→ L − 1<br />

n 4 χ2 1.<br />

Exemple 3<br />

Supposons que √ n ¯X n −→ L<br />

n<br />

N (0, 1). Que peut-on dire <strong>de</strong> la distribution <strong>asymptotique</strong> <strong>de</strong><br />

cos ¯X n ?<br />

20


4 Métho<strong>de</strong>s classiques d’estimation par la Métho<strong>de</strong><br />

<strong>de</strong>s moments<br />

4.1 Principe d’estimation<br />

Notation 1 Soit X une variable aléatoire <strong>de</strong> loi P θ (θ ∈ Θ). On note :<br />

1. E θ [f(X)] = ∫ f(x)dP θ (x) := P θ f.<br />

2. P n f = 1 n<br />

∑ n<br />

i=1 f(X i) où P n = 1 n<br />

∑ n<br />

i=1 δ X i<br />

est la mesure empirique.<br />

3. G n f := √ n ( P n f − P θ f ) .<br />

Soient X 1 , . . . , X n un n−échantillon <strong>de</strong> loi P θ , où θ est un paramètre se promenant dans Θ.<br />

Si θ est <strong>de</strong> dimension k, on peut l’estimer en cherchant la solution du système d’équations<br />

⎧<br />

⎪⎨<br />

∑<br />

1 n<br />

n i=1 f 1(X i ) = E θ f 1 (X 1 )<br />

.<br />

⎪⎩ ∑<br />

1 n<br />

n i=1 f k(X i ) = E θ f k (X 1 )<br />

pour <strong>de</strong>s fonctions f 1 , . . . , f k intégrables fixées. Le choix f j (x) = x j conduit à la métho<strong>de</strong><br />

<strong>de</strong>s moments classiques. L’idée <strong>de</strong> la métho<strong>de</strong> repose sur le fait que les moments empiriques<br />

1<br />

n<br />

∑ n<br />

i=1 f j(X i ) sont <strong>de</strong> bons estimateurs <strong>de</strong>s moments théoriques E θ f j (X 1 ). Donc si Θ ⊂ R k ,<br />

une valeur <strong>de</strong> θ pour laquelle k moments empiriques sont égaux aux k moments théoriques<br />

correspondants semble être une estimation raisonnable du paramètre.<br />

Définition 3 Soit θ ∈ Θ ⊂ R k un paramètre k dimensionnel et soit f = (f 1 , . . . , f k ) un<br />

vecteur composé <strong>de</strong> fonctions intégrables. Soit e l’application <strong>de</strong> Θ dans R k définie par e(θ) =<br />

P θ f. On appelle estimateur <strong>de</strong> type moment associé à f, une solution notée ˆθ n (lorsqu’elle<br />

existe) du sytème d’équations (d’inconnue θ)<br />

Exemple 4<br />

P n f = e(θ).<br />

Soit le modèle (R, {N (m, σ 2 ); (m, σ 2 ) ∈ R × R + \{0}}). Un estimateur <strong>de</strong> θ = (m, σ 2 ) par la<br />

métho<strong>de</strong> <strong>de</strong>s moments est obtenu en résolvant le système d’équations d’inconnue θ<br />

∑ n<br />

i=1 X i = E θ X 1 = m<br />

{ 1<br />

n<br />

d’où<br />

1<br />

n<br />

∑ n<br />

i=1 X2 i = E θ X 2 1 = σ 2 + m 2<br />

{ m = Xn<br />

σ 2 = 1 n<br />

∑ n<br />

i=1 X2 i − X n<br />

2<br />

= S<br />

2<br />

n<br />

On en déduit qu’un estimateur <strong>de</strong> (m, σ 2 ) par la métho<strong>de</strong> <strong>de</strong>s moments est (X n , S 2 n).<br />

21


L’idée à la base <strong>de</strong> la métho<strong>de</strong> <strong>de</strong>s moments est la loi <strong>de</strong>s grands nombres, il est donc<br />

légitime d’imaginer que l’estimateur <strong>de</strong>s moments aura, sous certaines conditions, <strong>de</strong> bonnes<br />

propriétés <strong>asymptotique</strong>s.<br />

On note la différentielle <strong>de</strong> e en θ par De(θ).<br />

Théorème 9 Supposons que θ ↦→ e(θ) soit bijective, C 1 au voisinage <strong>de</strong> θ 0 et telle que<br />

De(θ 0 ) soit inversible. On suppose <strong>de</strong> plus que P θ0 ‖f‖ 2 < ∞. Alors l’estimateur <strong>de</strong> type<br />

moment ˆθ n existe avec une probabilité (sous θ 0 ) tendant vers un et vérifie<br />

√ (<br />

L<br />

n(ˆθn − θ 0 ) −→ N 0, De(θ 0 ) −1 Σ [ De(θ 0 ) −1] ) T<br />

,<br />

où Σ = P θ0<br />

(<br />

f − e(θ0 ) )( f − e(θ 0 ) ) T<br />

.<br />

Remarque 6 Les hypothèses <strong>de</strong> ce théorème peuvent paraître en première lecture étranges,<br />

mais elles sont en faite naturelles. En effet, ceux sont les hypothèses minimales pour pouvoir<br />

appliquer la métho<strong>de</strong> Delta.<br />

Preuve:<br />

On rappelle la notation e(θ) = P θ f. e étant bijective ˆθ n = e −1 (P n f). Par le théorème central<br />

limite multidimensionnel on a<br />

√ ( )<br />

L<br />

n P n f − e(θ 0 ) −→ N k (0, Σ)<br />

avec Σ = P θ0<br />

(<br />

f −e(θ0 ) )( f −e(θ 0 ) ) T<br />

. Les hypothèses nous permettent d’appliquer le théorème<br />

d’inversion local à e : il existe <strong>de</strong>s voisinages U <strong>de</strong> θ 0 et V <strong>de</strong> e(θ 0 ) tels que e : U → V soit<br />

un difféomorphisme. ˆθ n = e −1 (P n f) existe quand P n f ∈ V , or par la loi forte <strong>de</strong>s grands<br />

nombres, P n f converge presque sûrement vers e(θ 0 ), donc avec probabilité tendant vers 1,<br />

P n f appartient à V , et ˆθ n existe. On conclut en appliquant la métho<strong>de</strong> Delta à e −1 .<br />

4.2 Intervalles <strong>de</strong> confiance<br />

Supposons que nous souhaitons estimer la quantité T = Ef ( X) dans le cas où f est bornée<br />

par la constante M. Soit T n l’estimateur <strong>de</strong> substitution <strong>de</strong>s moments et pour α ∈ (0, 1),<br />

nous cherchons t n,α pour que [T n −t n,α , T n +t n,α ] soit un IC au niveau α. Il suffit <strong>de</strong> remarquer<br />

que<br />

P(T ∈ [T n − t n,α , T n + t n,α ]) = P(T n − T ∈ [−t n,α , t n,α ])<br />

= P(| 1 n∑<br />

(f(X i ) − Ef(X))| ≤ t n,α ).<br />

n<br />

Cette inégalité s’apparente à une inégalité <strong>de</strong> déviation et peut être controllée au moyen du<br />

Théorème suivant :<br />

i=1<br />

22


Théorème 10 (Inégalité d’Hoeffding) Soient Y 1 , . . . , Y n n variables aléatoires indépendantes<br />

telles ques<br />

E(Y i ) = 0 a i ≤ Y i ≤ b i .<br />

Alors pour tout λ > 0<br />

Preuve:<br />

– 1 Métho<strong>de</strong> :<br />

P(<br />

P(|<br />

n∑<br />

2λ 2<br />

Y i ≥ λ) ≤ exp(−∑ n<br />

i=1 (b i − a i ) ) 2<br />

i=1<br />

n∑<br />

2λ 2<br />

Y i | ≥ λ) ≤ 2 exp(−∑ n<br />

i=1 (b i − a i ) ) 2<br />

i=1<br />

Y =<br />

a<br />

b − a (b − Y ) + b (Y − a)<br />

b − a<br />

e tY ≤ b − Y<br />

b − a eta + Y − a<br />

b − a etb<br />

log Ee tY ≤ L(u) := [βe −αu + αe βu ]<br />

with α = −a/(b − a), β = b/(b − a) and u = t(b − a). Notons que<br />

Donc<br />

Finalement on obtient<br />

L(0) = 0 L ′ (0) = 0 L ′′ (u) ≤ 1 4 .<br />

L(u) ≤ u2<br />

2<br />

1<br />

4 ≤ t2 (b − a) 2<br />

8<br />

P(S n ≥ η) ≤ exp(−tη) exp( 1 8<br />

n∑<br />

t 2 (b i − a i ) 2 )<br />

i=1<br />

On finit par choisir<br />

– 2 Métho<strong>de</strong> :<br />

t =<br />

4η<br />

∑ n<br />

i=1 (b i − a i ) 2 .<br />

a < Y < b ⇒ |Y − a + b<br />

2 | ≤ b − a<br />

2<br />

(b − a)2<br />

Var(Y ) ≤ .<br />

2<br />

λ(Y −EY )<br />

ψ Y (λ)Ee<br />

ψ ′ λ(Y −EY )<br />

Y (λ)E(Y − EY )e<br />

ψ ′′<br />

Y (λ)E(Y − EY ) 2 e λ(Y −EY ) .<br />

23


Ainsi on applique cette ingalit Y i = f l (X i ) − Ef l (X i ) et on obtient un intervalle <strong>de</strong><br />

confiance au niveau α <strong>de</strong><br />

[T n − t n,α , T n + t n,α ],<br />

√<br />

8M<br />

2<br />

t n,α =<br />

n<br />

log(2/α)<br />

24


5 Les M- et les Z-estimateurs<br />

5.1 Définitions et exemples<br />

Soit X 1 , . . . , X n une suite finie <strong>de</strong> v.a. i.i.d. <strong>de</strong> loi P , définies sur un espace probabilisé<br />

(Ω, C, P). En statistique, on parle <strong>de</strong> n-échantillon <strong>de</strong> loi P . Chaque X i est une observation.<br />

Dans les problèmes d’estimation, la loi image <strong>de</strong> P par X, à savoir P , est inconnue. On<br />

sait simplement qu’elle est issue d’une famille <strong>de</strong> lois P = {P θ ; θ ∈ Θ} où Θ est un espace<br />

métrique muni d’une distance d. On cherche à estimer la valeur θ attachée à la loi P <strong>de</strong> X.<br />

Les M-estimateurs forment une classe très générale d’estimateurs, qui comprend notamment<br />

les estimateurs du maximum <strong>de</strong> vraisemblance et <strong>de</strong>s moindres carrés. L’objet <strong>de</strong> ce chapitre<br />

est <strong>de</strong> traiter <strong>de</strong>s propriétés <strong>asymptotique</strong>s <strong>de</strong> telles suites d’estimateurs. Nous nous<br />

intéressons à la consistance et à la normalité <strong>asymptotique</strong> <strong>de</strong> ces estimateurs.<br />

Définition 4 Une suite d’estimateurs (T n ) <strong>de</strong> θ est dite consistante si pour tout θ ∈ Θ,<br />

T n<br />

P<br />

−→ θ,<br />

ce qui s’écrit encore T n = θ + o P (1) (pour simplifier, on dira souvent estimateur, au lieu <strong>de</strong><br />

suite d’estimateurs).<br />

P<br />

Remarque 7 Si T n −→ θ, la probabilité P(‖T n − θ‖ < t) tend vers 1 pour tout t > 0.<br />

Considérons maintenant la probabilité P(r n ‖T n −θ‖ < t), où (r n ) est une suite <strong>de</strong> réels strictement<br />

positifs. On s’attend à ce que cette probabilité ten<strong>de</strong> vers 0 (respectivement 1) lorsque r n<br />

tend vers +∞ suffisamment rapi<strong>de</strong>ment (respectivement lentement). On peut alors imaginer<br />

qu’il existe une suite (r n ) ”intermédiaire”, tendant vers +∞, pour laquelle P(r n ‖T n −θ‖ < t)<br />

ten<strong>de</strong> vers une valeur strictement comprise entre 0 et 1. Une telle suite définit la vitesse <strong>de</strong><br />

convergence <strong>de</strong> (T n ) vers θ.<br />

Définition 5 Soit (r n ) une suite <strong>de</strong> réels strictement positifs tendant vers +∞. Un estimateur<br />

T n <strong>de</strong> θ est dit r n -consistant si, pour tout θ ∈ Θ, r n (T n − θ) = O P (1).<br />

Remarque 8 En multipliant (T n − θ) par r n , on créé ”un effet <strong>de</strong> compensation” qui permet<br />

d’affiner l’étu<strong>de</strong> du comportement <strong>asymptotique</strong> <strong>de</strong> l’estimateur T n . Cette démarche est<br />

analogue à celle adoptée lorsque l’on passe <strong>de</strong> la loi <strong>de</strong>s grands nombres au théorème central<br />

limite.<br />

Définition 6 La suite (T n ) est dite <strong>asymptotique</strong>ment normale s’il existe une suite <strong>de</strong> réels<br />

strictement positifs (r n ) telle que r n → ∞, et<br />

∀θ ∈ Θ, r n (T n − θ) L −→<br />

n<br />

N (0, V (θ)).<br />

V (θ) est appelée la matrice <strong>de</strong> variance-covariance <strong>asymptotique</strong> <strong>de</strong> la suite (r n (T n − θ)).<br />

25


Remarque 9 Notons qu’un estimateur <strong>asymptotique</strong>ment normal est consistant. En effet,<br />

T n − θ = 1 · r n (T n − θ).<br />

r n<br />

Comme 1<br />

r n<br />

converge vers 0 et que r n (T n − θ) converge en loi, le produit converge en loi vers<br />

la constante 0, et donc également en probabilité.<br />

Définition 7<br />

1. Soit M n une fonction définie sur Θ, à valeurs réelles, et dépendant <strong>de</strong>s observations.<br />

On dit que ˆθ n est un M-estimateur si M n (ˆθ n ) ≥ sup θ∈Θ M n (θ) − o P (1).<br />

2. Soit Ψ n une fonction définie sur Θ, à valeurs dans un espace vectoriel normé (L, ‖ · ‖),<br />

et qui dépend <strong>de</strong>s observations. On dit que ˆθ n est un Z-estimateur si ‖Ψ n (ˆθ n )‖ = o P (1).<br />

Remarque 10<br />

1. L’hypothèse M n (ˆθ n ) ≥ sup θ∈Θ M n (θ) − o P (1) signifie que ˆθ n est presque un maximum<br />

<strong>de</strong> M n . L’hypothèse ‖Ψ n (ˆθ n )‖ = o P (1) signifie que ˆθ n est presque un zéro <strong>de</strong> Ψ n .<br />

2. La fonction M n est souvent <strong>de</strong> la forme M n (θ) = 1 n<br />

∑ n<br />

i=1 m θ(X i ), où m θ est une fonction<br />

réelle.<br />

La fonction Ψ n est souvent <strong>de</strong> la forme Ψ n (θ) = 1 n<br />

∑ n<br />

i=1 ψ θ(X i ), où ψ θ est à valeurs<br />

vectorielles. Lorsque θ ∈ R k , ψ θ est généralement composée <strong>de</strong> k fonctions coordonnées<br />

ψ θ,j et on résoud le système<br />

Exemple 5<br />

⎧<br />

⎨<br />

⎩<br />

∑<br />

1 n<br />

n i=1 ψ θ,1(X i ) = 0<br />

∑<br />

. . .<br />

1 n<br />

n i=1 ψ θ,k(X i ) = 0.<br />

Soit X 1 , . . . , X n n observations indépendantes et <strong>de</strong> même loi. La métho<strong>de</strong> du maximum <strong>de</strong><br />

vraisemblance consiste à maximiser en θ la log-vraisemblance 1 n<br />

∑ n<br />

i=1 log f(x i; θ), où f(x; θ)<br />

désigne la <strong>de</strong>nsité <strong>de</strong> probabilité <strong>de</strong>s X i .<br />

L’estimateur correspondant est appelé estimateur du maximum <strong>de</strong> vraisemblance, c’est<br />

un M-estimateur associé à la fonction m θ (x) = log f(x; θ). L’estimateur du maximum <strong>de</strong><br />

vraisemblance est souvent déterminé en résolvant un système d’équations <strong>de</strong> vraisemblance :<br />

1<br />

n<br />

n∑<br />

i=1<br />

∂<br />

∂θ j<br />

log f(x i ; θ) = 0 (j = 1, . . . , k) si θ = (θ 1 , . . . , θ k ).<br />

L’estimateur du maximum <strong>de</strong> vraisemblance peut être vu dans ce cas comme un Z-estimateur<br />

associé à la fonction ψ θ (x) = ∂ ∂θ log f(x; θ), et ψ θ,j est la j-ième dérivée partielle <strong>de</strong> log f(x; θ).<br />

Réciproquement, un Z-estimateur peut être vu comme un M-estimateur : si Ψ n (ˆθ n ) = 0,<br />

alors ˆθ n maximise la fonction θ ↦−→ −‖Ψ n (θ)‖.<br />

26


Exemple 6<br />

Soit X 1 , . . . , X n un n-échantillon d’une loi <strong>de</strong> moyenne θ. La moyenne empirique est un<br />

Z-estimateur <strong>de</strong> θ : X n est en effet solution <strong>de</strong> l’équation Ψ n (θ) = 0, avec Ψ n (θ) =<br />

1<br />

n<br />

∑ n<br />

i=1 ψ θ(X i ) et ψ θ (X i ) = X i − θ.<br />

Exemple 7<br />

Soit X 1 , . . . , X n (les X i sont supposés distincts) un n-échantillon d’une loi <strong>de</strong> médiane θ.<br />

La médiane empirique est solution <strong>de</strong> l’équation Ψ n (θ) = ∑ n<br />

i=1 ψ θ(X i ) = 0 avec ψ θ (X i ) =<br />

signe(X i − θ), c’est donc un Z-estimateur 3 <strong>de</strong> θ.<br />

5.2 Consistance <strong>de</strong>s M- et Z-estimateurs<br />

Le théorème suivant énonce <strong>de</strong>s conditions suffisantes pour la consistance d’une suite <strong>de</strong><br />

M-estimateurs obtenus par maximisation du critère empirique M n .<br />

Théorème 11 Si la suite <strong>de</strong> fonctions aléatoires (M n (θ)) satisfait à la condition <strong>de</strong> convergence<br />

P<br />

sup |M n (θ) − M(θ)| −→ 0, (5)<br />

θ∈Θ<br />

où M est une fonction <strong>de</strong> Θ dans R, admettant un maximum unique en θ 0 ∈ Θ tel que<br />

∀ɛ > 0,<br />

sup<br />

{θ:d(θ,θ 0 )≥ɛ}<br />

M(θ) < M(θ 0 ), (6)<br />

alors toute suite <strong>de</strong> variables aléatoires (ˆθ n ) telle que M n (ˆθ n ) ≥ sup θ∈Θ M n (θ) − o P (1)<br />

converge en probabilité vers θ 0 .<br />

Preuve : On décompose puis on majore M(θ 0 )−M(ˆθ n ) (quantité positive car θ 0 est l’unique<br />

maximum <strong>de</strong> M) <strong>de</strong> la façon suivante :<br />

M(θ 0 ) − M(ˆθ n ) = M(θ 0 ) − M n (θ 0 ) + M n (θ 0 ) − M n (ˆθ n ) + M n (ˆθ n ) − M(ˆθ n )<br />

≤<br />

2 sup |M n (θ) − M(θ)| + M n (θ 0 ) − M n (ˆθ n ).<br />

θ∈Θ<br />

Si M n (ˆθ n ) ≥ sup θ∈Θ M n (θ) − o P (1), alors M n (ˆθ n ) ≥ M n (θ 0 ) − o P (1), d’où M(θ 0 ) − M(ˆθ n ) ≤<br />

2 sup θ∈Θ |M n (θ) − M(θ)| + o P (1) = o P (1).<br />

Soit ɛ > 0. D’après (6), il existe η > 0 tel que si d(θ, θ 0 ) ≥ ɛ, on a M(θ) < M(θ 0 ) − η.<br />

Donc {d(ˆθ n , θ 0 ) ≥ ɛ} ⊂ {M(ˆθ n ) < M(θ 0 ) − η} et P(d(ˆθ n , θ 0 ) ≥ ɛ) ≤ P(η < M(θ 0 ) − M(ˆθ n )).<br />

D’après ce qui précè<strong>de</strong>, P(d(ˆθ n , θ 0 ) ≥ ɛ) −→ 0.<br />

On trouve beaucoup <strong>de</strong> versions différentes <strong>de</strong> ce théorème, selon que l’on suppose ou<br />

non l’unicité du maximum ou du minimum, la compacité <strong>de</strong> l’espace <strong>de</strong>s paramètres. Une<br />

version très souvent utilisée est la suivante.<br />

3 la fonction signe est définie <strong>de</strong> la manière suivante : signe(x) = −1, 0, 1 selon que x < 0, x = 0, x > 0.<br />

27


Théorème 12 Supposons que l’on regar<strong>de</strong> (pour s’habituer à l’autre cas <strong>de</strong> figure, couramment<br />

employé pour les modèles d’ajustement comme la régression) un estimateur minimisant<br />

le contraste empirique, en supposant qu’il existe et qu’il est unique. Si en outre<br />

1. Θ est un compact <strong>de</strong> R k<br />

2. M n (θ)<br />

P<br />

−→ M(θ) pour tout θ ∈ Θ<br />

3. θ ↦→ M n (θ) et θ ↦→ M(θ) sont continues<br />

4. Soit<br />

W n (η) =<br />

sup |M n (α) − M n (β)|.<br />

|α−β|≤η<br />

Alors il existe 2 suites décroissantes tendant vers 0 (η k , ɛ k ) telles que<br />

lim P[W n(η k ) > ɛ k ] = 0.<br />

n→+∞<br />

Alors toute suite <strong>de</strong> variables aléatoires (ˆθ n ) telle que M n (ˆθ n ) ≤ inf θ∈Θ M n (θ)+o P (1) converge<br />

en probabilité vers θ 0 .<br />

Preuve : Sans perte <strong>de</strong> gnralit, on suppose que M(θ 0 ) = 0.<br />

Soit B une boule centre en θ 0 <strong>de</strong> rayon r > 0. Il existe ε > 0 tel que ∀θ ∈ Θ \ B, M(θ) > 2ε.<br />

En effet, M est continue sur Θ\B qui est un compact <strong>de</strong> R k . Elle y admet donc un minimum.<br />

Or M admet un unique minimum θ 0 sur B et θ 0 n’appartient pas Θ \ B, ce minimum est<br />

strictement plus grand que M(θ 0 ) = 0.<br />

Comme ε k → 0, il existe k ∈ N tel que ε k ε. Par compacit <strong>de</strong> Θ \ B, il existe N ∈ N ∗ ,<br />

k→+∞<br />

N⋃<br />

(θ 1 , . . . , θ N ) ∈ (Θ \ B) N tels que Θ \ B ⊂ B(θ i , η k ).<br />

Soit α ∈ Θ \ B. Il existe i ∈ [|1, N|] tel que α ∈ B(θ i , η k ).<br />

Soit n ∈ N. On a<br />

i=1<br />

M n (α) = M n (α) − M n (θ i ) + M n (θ i )<br />

M n (θ i ) − |M n (α) − M n (θ i )|<br />

<br />

inf M n(θ i ) − W n (η k ).<br />

i∈[|1,N|]<br />

} {<br />

}<br />

Or<br />

{ˆθn /∈ B ⊂ M n (ˆθ n ) inf M n(θ i ) − W n (η k ) .<br />

i∈[|1,N|]<br />

Or M n (θ 0 ) M n (ˆθ n ) car ˆθ n = ArgminM n (θ).<br />

θ∈Θ<br />

} {<br />

}<br />

Donc<br />

{ˆθn /∈ B ⊂ M n (θ 0 ) inf M n(θ i ) − W n (η k ) .<br />

i∈[|1,N|]<br />

28


Donc<br />

(<br />

)<br />

P(ˆθ n /∈ B) P W n (η k ) inf M n (θ i ) − M n (θ 0 )<br />

i∈[|1,N|]<br />

(<br />

)<br />

P W n (η k ) ε k , inf M n(θ i ) − M n (θ 0 ) ε k<br />

i∈[|1,N|]<br />

(<br />

)<br />

+ P W n (η k ) inf M n(θ i ) − M n (θ 0 ), inf M n(θ i ) − M n (θ 0 ) < ε k<br />

i∈[|1,N|] i∈[|1,N|]<br />

(<br />

)<br />

P (W n (η k ) ε k ) + P inf M n(θ i ) − M n (θ 0 ) < ε k .<br />

i∈[|1,N|]<br />

Par hypothse, P (W n (η k ) ε k )<br />

De plus,<br />

→ 0.<br />

n→+∞<br />

(<br />

)<br />

P inf M n(θ i ) − M n (θ 0 ) < ε k<br />

i∈[|1,N|]<br />

<br />

N∑<br />

P (M n (θ i ) − M n (θ 0 ) < ε k ) .<br />

i=1<br />

P<br />

Or M n (θ i ) − M n (θ 0 ) −→ M(θ i ) 2ε k .<br />

Donc, pour tout δ > 0, P (M(θ i ) − δ M n (θ i ) − M n (θ 0 ) M(θ i ) + δ) → 1.<br />

On pose δ = ε k . On a alors<br />

P (M n (θ i ) − M n (θ 0 ) ε k ) P (M(θ i ) − ε k M n (θ i ) − M n (θ 0 ) M(θ i ) + ε k ) → 1.<br />

Donc P (M n (θ i ) − M n (θ 0 ) < ε k ) → 0.<br />

D’o<br />

ˆθ n<br />

P<br />

−→ θ 0 .<br />

Pour les Z-estimateurs, on dispose du théorème suivant :<br />

Théorème 13 Soit Ψ n (θ) une suite <strong>de</strong> fonctions aléatoires et Ψ une fonction <strong>de</strong> Θ dans L<br />

telles que<br />

sup ‖Ψ n (θ) − Ψ(θ)‖ −→ P<br />

0,<br />

θ∈Θ<br />

∀ɛ > 0, inf ‖Ψ(θ)‖ > 0 = ‖Ψ(θ 0)‖. (7)<br />

{θ:d(θ,θ 0 )≥ɛ}<br />

Alors toute suite <strong>de</strong> variables aléatoires ˆθ n telle que ‖Ψ n (ˆθ n )‖ = o P (1) converge en probabilité<br />

vers θ 0 .<br />

Preuve : Il suffit d’appliquer le théorème 11 avec M n (θ) = −‖Ψ n (θ)‖ et M(θ) = −‖Ψ(θ)‖.<br />

Mais on peut aussi re-démontrer ce résultat entièrement, à titre d’exercice... Soit ɛ > 0.<br />

D’après (7), il existe η > 0 tel que si d(θ, θ 0 ) ≥ ɛ, on a ‖Ψ(θ)‖ > η. Donc {d(ˆθ n , θ 0 ) ≥ ɛ} ⊂<br />

29


{‖Ψ(ˆθ n )‖ > η} et P(d(ˆθ n , θ 0 ) ≥ ɛ) ≤ P(‖Ψ(ˆθ n )‖ > η).<br />

Ensuite, Ψ(ˆθ n ) = Ψ(ˆθ n ) − Ψ n (ˆθ n ) + Ψ n (ˆθ n ). Il vient<br />

‖Ψ(ˆθ n )‖ ≤ ‖Ψ(ˆθ n ) − Ψ n (ˆθ n )‖ + ‖Ψ n (ˆθ n )‖<br />

≤<br />

sup ‖Ψ n (θ) − Ψ(θ)‖ + ‖Ψ n (ˆθ n )‖ = o P (1) + ‖Ψ n (ˆθ n )‖.<br />

θ∈Θ<br />

Si ‖Ψ n (ˆθ n )‖ = o P (1), alors ‖Ψ(ˆθ n )‖ = o P (1) et P(d(ˆθ n , θ 0 ) ≥ ɛ) −→ 0.<br />

Remarque 11 La condition (7) est une condition d’i<strong>de</strong>ntifiabilité. Il peut être parfois utile<br />

<strong>de</strong> considérer la condition suivante :<br />

pour toute suite (θ n ) ∈ Θ, ‖Ψ(θ n )‖ −→ 0 implique ‖θ n − θ 0 ‖ −→ 0.<br />

Notons que pour simplifier les notations, nous avons utilisé la même notation ‖ · ‖ pour<br />

désigner les normes sur L et Θ.<br />

Remarque 12 Lorsque les fonctions M n (θ) (resp. Ψ n (θ)) s’expriment comme <strong>de</strong>s moyennes<br />

empiriques : M n (θ) = 1 n<br />

∑ n<br />

i=1 m θ(X i ) (resp.Ψ n (θ) = 1 n<br />

∑ n<br />

i=1 ψ θ(X i )), la convergence uniforme<br />

du théorème 11 (resp. 13) est équivalente à dire que la classe <strong>de</strong> fonctions {m θ : θ ∈ Θ}<br />

(resp. {ψ θ : θ ∈ Θ}) est <strong>de</strong> Glivenko-Cantelli (voir l’annexe sur les processus empiriques).<br />

Exemple 8 (Estimateur <strong>de</strong> Kaplan-Meier)<br />

Supposons que l’on souhaite estimer la fonction <strong>de</strong> survie S 0 (t) = P(T > t) d’une variable<br />

aléatoire positive T (<strong>de</strong> <strong>de</strong>nsité f 0 ), que l’on interprétera par exemple comme la durée <strong>de</strong> fonctionnement<br />

d’un équipement industriel. On considère ce problème d’estimation dans un cadre<br />

<strong>de</strong> durées censurées à droite, c’est-à-dire, on observe n répliques indépendantes (U i , ∆ i ) n i=1,<br />

où U i = min(T i , C i ), C i est une variable aléatoire positive dite <strong>de</strong> censure, indépendante <strong>de</strong><br />

T i , et ∆ i = 1 {Ti ≤C i }. On note f C et S C respectivement la <strong>de</strong>nsité et la fonction <strong>de</strong> survie <strong>de</strong><br />

C. Notons que S 0 (0) = S C (0) = 1.<br />

Notons ˜T j (j = 1, . . . , m n ) les instants distincts d’évènements non censurés observés.<br />

L’estimateur <strong>de</strong> Kaplan-Meier Ŝn <strong>de</strong> S 0 est donné par :<br />

Ŝ n (t) = ∏ ( ∑ n<br />

i=1<br />

1 −<br />

∆ )<br />

i1 {Ui = ˜T j }<br />

∑ n<br />

i=1 1 .<br />

{U i ≥ ˜T j }<br />

j: ˜T j ≤t<br />

Supposons qu’il existe 0 < τ < ∞ et η > 0 tels que S 0 (τ) ≥ η et S C (τ) > 0. Nous noterons<br />

Θ l’espace <strong>de</strong> toutes les fonctions <strong>de</strong> survie S restreintes à l’intervalle [0, τ], et telles que<br />

S(0) = 1 et S(τ) ≥ η. Θ sera muni <strong>de</strong> la norme uniforme ‖ · ‖ ∞ .<br />

On peut montrer que l’estimateur <strong>de</strong> Kaplan-Meier est solution <strong>de</strong> l’équation Ψ n (Ŝn) = 0,<br />

où Ψ n : Θ −→ Θ est définie par Ψ n (S)(t) = P n ψ S,t , où<br />

ψ S,t (U, ∆) = 1 {U>t} + (1 − ∆)1 {U≤t} 1 {S(U)>0}<br />

S(t)<br />

S(U) − S(t).<br />

30


P<br />

Posons Ψ(S)(t) = P ψ S,t . On peut montrer que sup S∈Θ ‖Ψ n (S) − Ψ(S)‖ ∞ −→ 0 (ceci sera<br />

justifié plus tard en utilisant <strong>de</strong>s arguments étudiés dans la suite <strong>de</strong> ce cours). On calcule<br />

[<br />

]<br />

S(t)<br />

P ψ S,t = P(U > t) + E 1 {T >C} 1 {C≤t} 1 {S(C)>0} − S(t)<br />

S(C)<br />

∫ t ∫ ∞<br />

S(t)<br />

= S 0 (t)S C (t) + 1 {S(c)>0}<br />

S(c) f C(c)f 0 (x) dxdc − S(t)<br />

= S 0 (t)S C (t) +<br />

0<br />

∫ t<br />

Il est immédiat <strong>de</strong> vérifier que Ψ(S 0 )(t) = 0.<br />

0<br />

c<br />

S 0 (c)<br />

S(c) 1 {S(c)>0}f C (c) dc · S(t) − S(t)<br />

Soit (S n ) une suite <strong>de</strong> Θ, et posons h n (t) = S 0 (t)/S n (t) − 1. Alors on vérifie que<br />

sup |Ψ(S n )(t)| = sup |u n (t) · S n (t)|,<br />

t∈[0,τ]<br />

t∈[0,τ]<br />

où u n (t) = h n (t)S C (t) + ∫ t<br />

0 h n(c)f C (c) dc. Par hypothèse, il existe η > 0 tel que pour tout<br />

t ∈ [0, τ], S n (t) ≥ η, donc sup t∈[0,τ] |Ψ(S n )(t)| ≥ sup t∈[0,τ] |u n (t)| · η. Donc si ‖Ψ(S n )‖ ∞ −→ 0,<br />

alors sup t∈[0,τ] |u n (t)| −→ 0.<br />

Un peu <strong>de</strong> calcul montre que h n (t) = u n (t)/S C (t) − ∫ t<br />

0 [S2 C (c)]−1 u n (c)f C (c) dc. On en déduit<br />

facilement une majoration <strong>de</strong> sup t∈[0,τ] |h n (t)|, puis on montre, en utilisant la convergence<br />

uniforme <strong>de</strong> u n , que sup t∈[0,τ] |h n (t)| −→ 0, d’où ‖S n − S 0 ‖ ∞ −→ 0.<br />

Remarque 13 Les conditions énoncées dans les <strong>de</strong>ux théorèmes précé<strong>de</strong>nts peuvent être<br />

affaiblies <strong>de</strong> multiples façons. En voici un exemple lorsque Θ ⊂ R, où l’on affaiblit l’hypothèse<br />

<strong>de</strong> convergence uniforme <strong>de</strong> Ψ n vers Ψ.<br />

Proposition 3 Supposons que :<br />

1. ∀θ ∈ Θ, Ψ n (θ)<br />

P<br />

−→ Ψ(θ),<br />

2. ∀θ ∈ Θ, θ ↦−→ Ψ n (θ) est continue et s’annule seulement en ˆθ n ,<br />

ou : 2’. θ ↦−→ Ψ n (θ) est croissante, telle que Ψ n (ˆθ n ) = o P (1),<br />

3. il existe θ 0 tel que : ∀ɛ > 0, Ψ(θ 0 − ɛ) < 0 < Ψ(θ 0 + ɛ).<br />

Alors (ˆθ n ) converge en probabilité vers θ 0 .<br />

Preuve:<br />

– Supposons tout d’abord 2. Soit ɛ > 0. Si Ψ n (θ 0 − ɛ) < 0 < Ψ n (θ 0 + ɛ), alors θ 0 − ɛ <<br />

ˆθ n < θ 0 + ɛ, d’après 2. et le théorème <strong>de</strong>s valeurs intermédiaires. D’où<br />

(<br />

P (Ψ n (θ 0 − ɛ) < 0, Ψ n (θ 0 + ɛ) > 0) ≤ P θ 0 − ɛ < ˆθ<br />

)<br />

n < θ 0 + ɛ .<br />

31


On montre facilement que P (Ψ n (θ 0 − ɛ) < 0, Ψ n (θ 0 + ɛ) > 0) −→ 1. En effet, d’après<br />

P<br />

1. et 3., Ψ n (θ 0 − ɛ) −→ Ψ(θ 0 − ɛ) < 0, i.e.<br />

∀η > 0, P (Ψ(θ 0 − ɛ) − η < Ψ n (θ 0 − ɛ) < Ψ(θ 0 − ɛ) + η) → 1.<br />

Posons η = −Ψ(θ 0 −ɛ) > 0. Il vient P (2Ψ(θ 0 − ɛ) < Ψ n (θ 0 − ɛ) < 0) → 1. Or {2Ψ(θ 0 −<br />

ɛ) < Ψ n (θ 0 − ɛ) < 0} ⊂ {Ψ n (θ 0 − ɛ) < 0} d’où P (Ψ n (θ 0 − ɛ) < 0) → 1. De même,<br />

P (Ψ n (θ 0 + ɛ) > 0) → 1. On en déduit que<br />

P (Ψ n (θ 0 − ɛ) < 0, Ψ n (θ 0 + ɛ) > 0) = P (Ψ n (θ 0 − ɛ) < 0) + P (Ψ n (θ 0 + ɛ) > 0)<br />

−P (Ψ n (θ 0 − ɛ) < 0 ∪ Ψ n (θ 0 + ɛ) > 0) −→ 1.<br />

(<br />

)<br />

D’où P |ˆθ n − θ 0 | < ɛ −→ 1, ce qui achève la démonstration.<br />

– Supposons maintenant 2’. Soit η > 0. On a {|ˆθ n − θ 0 | > η} = {ˆθ n > θ 0 + η} ∪ {ˆθ n <<br />

θ 0 − η} ⊂ {Ψ n (ˆθ n ) ≥ Ψ n (θ 0 + η)} ∪ {Ψ n (ˆθ n ) ≤ Ψ n (θ 0 − η)} car Ψ n est croissante. De<br />

là, on déduit<br />

P(|ˆθ n − θ 0 | > η) ≤ P(Ψ n (θ 0 + η) − Ψ n (ˆθ n ) ≤ 0) + P(0 ≤ Ψ n (θ 0 − η) − Ψ n (ˆθ n )).<br />

P<br />

Or Ψ n (θ 0 − η) − Ψ n (ˆθ n ) −→ Ψ(θ 0 − η) < 0. Par le même raisonnement que ci-<strong>de</strong>ssus,<br />

P(0 ≤ Ψ n (θ 0 − η) − Ψ n (ˆθ n )) −→ 0. De même, P(Ψ n (θ 0 + η) − Ψ n (ˆθ n ) ≤ 0) −→ 0. D’où<br />

P(|ˆθ n − θ 0 | > η) −→ 0.<br />

Exemple 9 (Médiane)<br />

La médiane empirique ˆθ ∑<br />

n est solution <strong>de</strong> Ψ n (θ) = 1 n<br />

n i=1 signe(X i −θ) = 0. La loi <strong>de</strong>s grands<br />

P<br />

nombres assure que ∀θ, Ψ n (θ) −→ Ψ(θ) = E[signe(X − θ)] = P(X > θ) − P(X < θ). On<br />

s’attend donc à ce que (ˆθ n ) converge en probabilité vers un θ 0 tel que Ψ(θ 0 ) = 0, soit tel que<br />

P(X > θ 0 ) = P(X < θ 0 ). Ce θ 0 est la médiane <strong>de</strong> la loi <strong>de</strong>s X i .<br />

On note que Ψ n est décroissante. D’après la proposition 3, ˆθ<br />

P<br />

n −→ θ 0 si ∀ɛ > 0, Ψ(θ 0 + ɛ) <<br />

0 < Ψ(θ 0 − ɛ), i.e. si P(X > θ 0 + ɛ) < P(X < θ 0 + ɛ) et P(X > θ 0 − ɛ) > P(X < θ 0 − ɛ). Ceci<br />

sera vérifié si ∀ɛ > 0, P(X < θ 0 − ɛ) < 1 < P(X < θ 2 0 + ɛ).<br />

5.3 Normalité <strong>asymptotique</strong> <strong>de</strong>s M- et Z-estimateurs<br />

Le premier théorème présenté énonce les ”conditions classiques” (Cramer, 1946) sous lesquelles<br />

une suite consistante <strong>de</strong> Z-estimateurs est <strong>asymptotique</strong>ment normale. Ces conditions<br />

sont trop restrictives pour certaines applications et nous présenterons ensuite <strong>de</strong>s théorèmes<br />

énonçant <strong>de</strong>s conditions moins fortes. Le théorème qui suit a l’avantage <strong>de</strong> se démontrer<br />

facilement.<br />

Soit X 1 , X 2 , . . . une suite <strong>de</strong> v.a. i.i.d. <strong>de</strong> loi P sur un espace mesurable (X , A). Nous nous<br />

intéressons à la normalité <strong>asymptotique</strong> d’une suite d’estimateurs (ˆθ n ) du paramètre θ attaché<br />

à la loi P .<br />

On suppose que θ appartient à un ouvert Θ <strong>de</strong> R. ˆθ n est obtenu comme solution <strong>de</strong> l’équation<br />

Ψ n (θ) = 0, où Ψ n (θ) = 1 n<br />

∑ n<br />

i=1 ψ θ(X i ). On note P ψ θ = E [ψ θ (X)] = ∫ X ψ θ(x) dP (x).<br />

32


Théorème 14 Supposons que θ ↦→ ψ θ (x) est C 2 pour tout x, et que, pour tout θ dans un<br />

voisinage <strong>de</strong> θ 0 , | ¨ψ θ (x)| ≤ h(x), avec P h < ∞. Supposons que P ψ θ0 = 0, que P |ψ θ0 | 2 < ∞,<br />

et que P ˙ψ θ0 est inversible. Soit une suite ˆθ n telle que ∀n, Ψ n (ˆθ n ) = o P (1/ √ n), et ˆθ<br />

P<br />

n −→ θ 0 .<br />

Alors<br />

Preuve:<br />

√ n(ˆθn − θ 0 )<br />

(<br />

L<br />

−→ N 0,<br />

(P ˙ψ<br />

) )<br />

−2<br />

θ0 P ψ<br />

2<br />

θ0<br />

.<br />

o P (1/ √ n) = Ψ n (ˆθ n ) = Ψ n (θ 0 ) + (ˆθ n − θ 0 ) ˙Ψ n (θ 0 ) + 1 2 (ˆθ n − θ 0 ) 2 ¨Ψn (˜θ n ),<br />

où ˜θ n est compris entre θ 0 et ˆθ n , d’où<br />

√ n(ˆθn − θ 0 ) =<br />

o P (1) − √ nΨ n (θ 0 )<br />

˙Ψ n (θ 0 ) + 1 2 (ˆθ n − θ 0 ) ¨Ψ n (˜θ n )<br />

(8)<br />

P<br />

D’après la loi <strong>de</strong>s grands nombres, Ψ n (θ 0 ) −→ P ψ θ0 = 0, et le TCL assure que √ nΨ n (θ 0 )<br />

converge en loi vers N ( )<br />

0, P ψθ 2 0 . Par Slutsky, le numérateur <strong>de</strong> (8) converge en loi vers<br />

P<br />

N ( )<br />

0, P ψθ 2 0 . De plus, ˙Ψn (θ 0 ) −→ P ˙ψ θ0 . Avec probabilité tendant vers 1,<br />

| ¨Ψ 1<br />

n∑<br />

n (˜θ n )| =<br />

(X ¨ψ˜θn i )<br />

∣n<br />

∣ ≤ 1 n∑<br />

|<br />

n<br />

¨ψ˜θn (X i )| ≤ 1 n∑<br />

P<br />

h(X i ) −→ P h.<br />

n<br />

i=1<br />

i=1<br />

Donc ¨Ψ n (˜θ n ) = O P (1) (on vérifie facilement que si Y n = O P (1) et pour tout n ∈ N, |X n | ≤<br />

|Y n |, alors X n = O P (1)). D’où (ˆθ n −θ 0 ) ¨Ψ n (˜θ n ) = o P (1)O P (1) = o P (1). Ainsi, ˙Ψ n (θ 0 )+ 1(ˆθ 2 n −<br />

θ 0 ) ¨Ψ<br />

P<br />

n (˜θ n ) −→ P ˙ψ θ0 . D’après le théorème <strong>de</strong> Slutsky, √ L<br />

n(ˆθ n − θ 0 ) −→ N (0, (P ˙ψ θ0 ) −2 P ψθ 2 0<br />

).<br />

i=1<br />

Remarque 14 Pour pouvoir appliquer ce théorème à une suite consistante <strong>de</strong> M−estimateurs<br />

ˆθ n = argmax θ<br />

1<br />

n<br />

∑ n<br />

i=1 m θ(X i ), il faut que θ ↦→ m θ soit C 3 . Nous énoncerons dans la suite un<br />

théorème qui ne nécessite pas une hypothèse aussi forte.<br />

Avant <strong>de</strong> donner un théorème affaiblissant les conditions du théorème 14, nous allons démontrer<br />

un lemme et donner un exemple.<br />

Lemme 8 Soit F une classe <strong>de</strong> fonctions mesurables, supposée Donsker, ˆfn une suite <strong>de</strong><br />

fonctions aléatoires à valeurs dans F, et f 0 ∈ L 2 (P ) (i.e. P f0 2 < ∞). Supposons que<br />

∫<br />

( ˆfn (x)−f 0 (x)) 2 dP (x) converge en probabilité vers 0. Alors, G n ( ˆf<br />

P<br />

L<br />

n −f 0 ) −→ 0 et G n ˆfn −→<br />

G P f 0 .<br />

Par ”fonction aléatoire à valeurs dans F”, on entend que ˆf n est une fonction définie sur<br />

le même espace <strong>de</strong> probabilité (Ω, C, P) que les X i et que pour tout ω ∈ Ω, ˆfn (ω) ∈ F<br />

33


(alors x ↦→ ˆf n (ω, x) est mesurable). Souvent, ˆfn (x, ω) est fonction <strong>de</strong>s observations X i et<br />

ˆf n (x, ω) = ˆf n (x, X 1 (ω), . . . , X n (ω)). On note, pour un ω fixé (que l’on ne fera plus figurer<br />

dans l’écriture), P ˆf n = ∫ X ˆf n (x, X 1 , . . . , X n ) dP (x), P n ˆfn = 1 n<br />

∑ n<br />

i=1 ˆf n (X i , X 1 , . . . , X n ), et<br />

G n ˆfn = √ n(P n ˆfn − P ˆf n ).<br />

Le TCL ne peut pas s’appliquer directement à la suite G n ˆfn , mais si les fonctions ˆf n sont<br />

”suffisamment régulières”, son résultat reste valable d’après le lemme 8.<br />

Preuve:<br />

Supposons (sans perte <strong>de</strong> généralité) que f 0 ∈ F (sinon, on considère la classe F ∪ {f 0 }).<br />

Définissons h : l ∞ (F) × F → R <strong>de</strong> la manière suivante : ∀(z, f) ∈ l ∞ (F) × F, h(z, f) =<br />

z(f) − z(f 0 ). On munit l ∞ (F) <strong>de</strong> la norme ‖z‖ = sup f∈F |z(f)| et F <strong>de</strong> la norme L 2 (P ) :<br />

‖f‖ 2,P = (P f 2 ) 1/2 . Alors h est continue en tout (z, f) tel que z soit continue en f. En effet,<br />

supposons que (z n , f n ) converge vers (z, f) dans l ∞ (F)×F. Alors z n converge uniformément<br />

vers z. Donc<br />

h(z n , f n ) = z n (f n ) − z n (f 0 ) = z(f n ) − z(f 0 ) + o(1),<br />

et h(z n , f n ) −→ h(z, f) si z(f n ) −→ z(f), donc si z est continue en f.<br />

On a supposé que ˆf<br />

P<br />

L<br />

n −→ f 0 dans (F, ‖ · ‖ 2,P ). De plus, F étant Donsker, G n −→ G P<br />

dans l ∞ (F), d’où (G n , ˆf<br />

L<br />

n ) −→ (G P , f 0 ) dans l ∞ (F) × F. On admettra sans démonstration<br />

que presque toutes les trajectoires <strong>de</strong> G P sont continues sur F. Donc h définie ci-<strong>de</strong>ssus est<br />

continue en presque tous les (G P , f 0 ). Par le théorème <strong>de</strong> l’image continue, h(G n , ˆf<br />

L<br />

n ) −→<br />

h(G P , f 0 ) = 0 soit G n ( ˆf<br />

L<br />

n − f 0 ) −→ 0. D’où G n ( ˆf<br />

P<br />

L<br />

n − f 0 ) −→ 0 et G n ˆfn −→ G P f 0 .<br />

Exemple 10<br />

Soit un échantillon i.i.d. X 1 , . . . , X n <strong>de</strong> loi P et <strong>de</strong> fonction <strong>de</strong> répartition F (on suppose<br />

pour simplifier les notations que la moyenne P x <strong>de</strong>s X i vaut 0). Un estimateur naturel <strong>de</strong><br />

l’erreur absolue moyenne est donné par<br />

M n = 1 n<br />

n∑<br />

|X i − X n |.<br />

i=1<br />

M n peut s’écrire sous la forme P n ˆfn , où ˆf n (x) := ˆf n (x; X n ) = |x − X n | est une fonction<br />

aléatoire<br />

√<br />

(elle dépend <strong>de</strong> ω au travers <strong>de</strong> X n (ω)). On souhaite déterminer la loi limite <strong>de</strong><br />

n(Mn − P |x|) = √ (P n ˆfn − P |x|). Pour ω ∈ Ω fixé, x ↦→ ˆf n (x; X n (ω)) appartient à<br />

l’ensemble F = {f θ : x ↦→ f θ (x) = |x − θ|, θ ∈ Θ}, où Θ est borné dans R. Supposons que<br />

P x 2 < ∞.<br />

On vérifie que |f θ1 (x) − f θ2 (x)| = ||x − θ 1 | − |x − θ 2 || ≤ m(x)|θ 1 − θ 2 |, où m ≡ 1 et<br />

P m 2 = 1, et ∫ fθ 2 dP ≤ P x2 + θ 2 < ∞, d’où F est une classe <strong>de</strong> Donsker d’après l’exemple<br />

(13).<br />

On a<br />

∫<br />

∫<br />

( ˆf n (x) − |x|) 2 dP (x) =<br />

∫<br />

(|x − X n | − |x|) 2 dP (x) ≤<br />

34<br />

|X n | 2 dP (x) = |X n | 2 p.s.<br />

−→ 0,


donc d’après le lemme 8, G n |x − X n | − G n |x| −→ 0, ce que l’on peut écrire<br />

( )<br />

√ 1<br />

n∑<br />

n |X i − X n | − P |x − X n | = G n |x| + o P (1).<br />

n<br />

D’où<br />

i=1<br />

√ n(Mn − P |x|) = √ n(M n − P |x − X n | + P |x − X n | − P |x|)<br />

P<br />

= √ n(P |x − X n | − P |x|) + √ n(M n − P |x − X n |)<br />

= √ n(P |x − X n | − P |x|) + G n |x| + o P (1)<br />

Si θ ↦→ P |x − θ| = ∫ |x − θ| dP (x) est dérivable en 0, sa dérivée en 0 vaut 2F (0) − 1, et<br />

d’après la métho<strong>de</strong> <strong>de</strong>lta, √ n(P |x − X n | − P |x − P x|) = [2F (0) − 1] √ n(X n − P x) + o P (1),<br />

soit √ n(P |x − X n | − P |x|) = [2F (0) − 1]G n x + o P (1). Donc √ n(M n − P |x|) = [2F (0) −<br />

1]G n x + G n |x| + o P (1), et √ n(M n − P |x|) converge en loi vers une gaussienne centrée <strong>de</strong><br />

variance var([2F (0) − 1]X 1 + |X 1 |).<br />

Théorème 15 Soit Θ un ouvert <strong>de</strong> R k . Supposons que la classe <strong>de</strong> fonctions <strong>de</strong> X dans R k<br />

F = {ψ θ : θ ∈ Θ} soit P -Donsker, que θ ↦→ P ψ θ soit différentiable en θ 0 (θ 0 est tel que<br />

P ψ θ0 = 0), et <strong>de</strong> dérivée V θ0 inversible. Supposons que P ‖ψ θ0 ‖ 2 < ∞. Si P n = o ψˆθn P (1/ √ n),<br />

P<br />

ˆθ n −→ θ 0 , et ∫ (x) − ψ ‖ψˆθn θ0 (x)‖ 2 dP (x) converge en probabilité vers 0, alors<br />

√ n(ˆθn − θ 0 ) = −V −1 1<br />

n∑<br />

θ 0<br />

√n ψ θ0 (X i ) + o P (1).<br />

Par suite,<br />

i=1<br />

√ L<br />

n(ˆθn − θ 0 ) −→ N ( 0, V −1 P (ψ θ0 ψθ T 0<br />

)(V −1<br />

θ 0<br />

) ) T .<br />

θ 0<br />

Preuve:<br />

On a : G n = √ n(P ψˆθn n − P ), et par hypothèse, √ nP ψˆθn<br />

ψˆθn n = o ψˆθn P (1) et P ψ θ0 = 0, d’où<br />

G n = o ψˆθn P (1) − √ nP + √ nP ψ ψˆθn θ0 = − √ n(P − P ψ ψˆθn θ0 ) + o P (1).<br />

P<br />

De plus, d’après le Lemme 8, G n − G ψˆθn n ψ θ0 −→ 0 d’où G n = G ψˆθn n ψ θ0 + o P (1). En<br />

combinant ces <strong>de</strong>ux résultats, on a donc<br />

− √ n(P ψˆθn<br />

− P ψ θ0 ) = G n ψ θ0 + o P (1). (9)<br />

P ψ θ est différentiable en θ 0 d’où P ψ θ0 +h − P ψ θ0 = V θ0 h + R(h), où R(h) = o(‖h‖) quand<br />

h → 0. D’après le lemme 6, et puisque ˆθ<br />

P<br />

n −→ θ 0 , on peut remplacer h par ˆθ n − θ 0 , et donc<br />

Ainsi (9) <strong>de</strong>vient<br />

P ψˆθn<br />

− P ψ θ0 = V θ0 (ˆθ n − θ 0 ) + o P (‖ˆθ n − θ 0 ‖).<br />

− √ nV θ0 (ˆθ n − θ 0 ) = o P ( √ n‖ˆθ n − θ 0 ‖) + G n ψ θ0 + o P (1). (10)<br />

On a alors − √ n(ˆθ n −θ 0 ) = o P ( √ n‖ˆθ n −θ 0 ‖)+O P (1), d’où √ n‖ˆθ n −θ 0 ‖ ≤ o P ( √ n‖ˆθ n −θ 0 ‖)+<br />

O P (1), puis √ n‖ˆθ n − θ 0 ‖(1 − o P (1)) = O P (1). Finalement, √ n‖ˆθ n − θ 0 ‖ = O P (1) et donc<br />

o P ( √ n‖ˆθ n − θ 0 ‖) = o P (1). De (10), on déduit donc que − √ nV θ0 (ˆθ n − θ 0 ) = G n ψ θ0 + o P (1).<br />

V θ0 étant supposée inversible, le résultat s’en déduit.<br />

35


Remarque 15 Soit X 1 , . . . , X n (les X i sont supposés distincts) un n-échantillon d’une loi<br />

<strong>de</strong> médiane θ. La médiane empirique est solution <strong>de</strong> l’équation P n ψ θ = 0 avec ψ θ (x) =<br />

signe(x − θ). La classe <strong>de</strong> fonctions F = {ψ θ (x) = sign(x − θ), θ ∈ Θ} (Θ ouvert <strong>de</strong> R)<br />

est Donsker (on le montre <strong>de</strong> la même manière que dans l’exemple 12). Ainsi le théorème<br />

précé<strong>de</strong>nt s’applique et la médiane empirique est <strong>asymptotique</strong>ment normale.<br />

Dans ce qui suit, l’espace <strong>de</strong>s paramètres Θ n’est plus supposé être un sous-ensemble <strong>de</strong><br />

R k , ni Ψ n être <strong>de</strong> la forme P n ψ θ . Ψ n : Θ ↦→ L est une fonction aléatoire entre <strong>de</strong>ux espaces<br />

<strong>de</strong> Banach (on ne fait pas figurer dans la notation l’espace <strong>de</strong> probabilité sous-jacent) et<br />

un ˆθ n qui vérifie (approximativement) Ψ n (ˆθ n ) = 0 est un Z-estimateur <strong>de</strong> θ. Si θ était<br />

jusqu’alors un paramètre fini-dimensionnel, le théorème qui va suivre va nous permettre <strong>de</strong><br />

traiter <strong>de</strong>s modèles statistiques in<strong>de</strong>xés par <strong>de</strong>s paramètres ”infini-dimensionnels” (modèles<br />

semi-paramétriques par exemple). Ψ n ”estime” en général une fonction fixée Ψ : Θ ↦→ L<br />

qui s’annule en θ 0 . Le théorème qui suit énonce <strong>de</strong>s conditions sous lesquelles √ n(ˆθ n − θ 0 )<br />

converge en loi.<br />

On rappelle que θ ↦→ Ψ(θ) est Fréchet-différentiable en θ 0 s’il existe une application<br />

linéaire continue ˙Ψ θ0 : Θ ↦→ L telle que Ψ(θ) − Ψ(θ 0 ) − ˙Ψ θ0 (θ − θ 0 ) = o(‖θ − θ 0 ‖) quand<br />

θ → θ 0 .<br />

Théorème 16 Soient Ψ n et Ψ respectivement une suite <strong>de</strong> fonctions aléatoires et une fonction<br />

<strong>de</strong> Θ dans L. On suppose que Ψ(θ 0 ) = 0, que θ ↦→ Ψ(θ) est Fréchet-différentiable en<br />

θ 0 , que sa différentielle ˙Ψ −1<br />

θ0 admet une inverse continue ˙Ψ<br />

θ 0<br />

, que Ψ n (ˆθ n ) = o ∗ P (n−1/2 ) et que<br />

P<br />

ˆθ ∗<br />

n −→ θ 0 . On suppose que √ n(Ψ n − Ψ)(θ 0 ) converge en loi vers Z tendu et que<br />

√ n(Ψn − Ψ)(ˆθ n ) − √ n(Ψ n − Ψ)(θ 0 ) = o ∗ P (1 + √ n‖ˆθ n − θ 0 ‖).<br />

Alors<br />

√ n ˙Ψθ0 (ˆθ n − θ 0 ) = − √ n(Ψ n − Ψ)(θ 0 ) + o ∗ P (1)<br />

et √ n(ˆθ n − θ 0 ) converge en loi vers −<br />

Preuve:<br />

On a<br />

˙Ψ θ0<br />

˙Ψ<br />

−1<br />

θ 0<br />

Z.<br />

√ n(Ψ(ˆθn ) − Ψ(θ 0 )) = √ n(Ψ(ˆθ n ) − Ψ n (ˆθ n )) + √ nΨ n (ˆθ n ) − √ nΨ(θ 0 )<br />

= √ n(Ψ(ˆθ n ) − Ψ n (ˆθ n )) + o ∗ P (1)<br />

= − √ n(Ψ n − Ψ)(θ 0 ) + o ∗ P (1 + √ n‖ˆθ n − θ 0 ‖). (11)<br />

admet une inverse continue donc il existe un c > 0 tel que ‖ ˙Ψ θ0 (θ − θ 0 )‖ > c‖θ − θ 0 ‖<br />

pour tous θ, θ 0 . Ceci combiné avec la Fréchet-différentiabilité <strong>de</strong> θ ↦→ Ψ(θ) en θ 0 nous permet<br />

d’écrire<br />

c‖θ − θ 0 ‖ < ‖ ˙Ψ θ0 (θ − θ 0 )‖ = ‖ ˙Ψ θ0 (θ − θ 0 ) − Ψ(θ) + Ψ(θ 0 ) + Ψ(θ) − Ψ(θ 0 )‖<br />

≤<br />

o(‖θ − θ 0 ‖) + ‖Ψ(θ) − Ψ(θ 0 )‖,<br />

36


d’où c‖θ − θ 0 ‖ + o(‖θ − θ 0 ‖) ≤ ‖Ψ(θ) − Ψ(θ 0 )‖. Combinons ce résultat avec (11), il vient :<br />

c √ n‖ˆθ n − θ 0 ‖ + o ∗ P ( √ n‖ˆθ n − θ 0 ‖) ≤ √ n‖Ψ(ˆθ n ) − Ψ(θ 0 )‖<br />

≤<br />

√ n‖(Ψ n − Ψ)(θ 0 )‖ + o ∗ P (1 + √ n‖ˆθ n − θ 0 ‖),<br />

d’où<br />

√ n‖ˆθn − θ 0 ‖(c + o ∗ P (1)) ≤ O P (1) + o ∗ P (1 + √ n‖ˆθ n − θ 0 ‖).<br />

On en déduit que ˆθ n est √ n-consistant pour θ 0 en norme. Maintenant, par la Fréchetdifférentiabilité<br />

<strong>de</strong> θ ↦→ Ψ(θ), on a<br />

√ n(Ψ(ˆθn ) − Ψ(θ 0 )) = √ n ˙Ψ θ0 (ˆθ n − θ 0 ) + o ∗ P ( √ n‖ˆθ n − θ 0 ‖) = √ n ˙Ψ θ0 (ˆθ n − θ 0 ) + o ∗ P (1),<br />

et d’après (11), √ n ˙Ψ θ0 (ˆθ n − θ 0 ) = − √ n(Ψ n − Ψ)(θ 0 ) + o ∗ P (1). On conclut en utilisant la<br />

−1<br />

continuité <strong>de</strong> ˙Ψ<br />

θ 0<br />

.<br />

On admettra le théorème suivant, qui énonce <strong>de</strong>s conditions pour la normalité <strong>asymptotique</strong><br />

d’une suite <strong>de</strong> M-estimateurs (i.e. d’estimateurs obtenus en maximisant une fonction<br />

θ ↦→ P n m θ ) consistante pour le maximum θ 0 <strong>de</strong> θ ↦→ P m θ .<br />

Théorème 17 Soit Θ un ouvert <strong>de</strong> R k . Soit x ↦→ m θ (x) une fonction mesurable, telle que<br />

θ ↦→ m θ (x) soit différentiable en θ 0 pour P -presque tout x (on note sa dérivée ṁ θ0 (x)). On<br />

suppose qu’il existe un voisinage U <strong>de</strong> θ 0 tel que pour tous θ 1 , θ 2 ∈ U, on ait<br />

|m θ1 (x) − m θ2 (x)| ≤ l(x)‖θ 1 − θ 2 ‖,<br />

où l : x ↦→ l(x) est une fonction mesurable vérifiant P l 2 < ∞. On suppose que θ ↦→ P m θ<br />

admet un développement <strong>de</strong> Taylor d’ordre 2 au point θ 0 (θ 0 maximum <strong>de</strong> θ ↦→ P m θ ) et que<br />

sa dérivée secon<strong>de</strong> est inversible. Si P n ≥ sup mˆθn θ P n m θ − o P (1/n) et ˆθ<br />

P<br />

n −→ θ 0 , alors<br />

√ n(ˆθn − θ 0 ) = −V −1<br />

θ 0<br />

1 √n<br />

n∑<br />

ṁ θ0 (X i ) + o P (1).<br />

i=1<br />

Par suite,<br />

√ n(ˆθn − θ 0 )<br />

L<br />

−→ N (0, V −1<br />

θ 0<br />

P ṁ θ0 ṁ T θ 0<br />

V −1<br />

θ 0<br />

).<br />

5.4 Maximum <strong>de</strong> vraisemblance<br />

L’estimateur du maximum <strong>de</strong> vraisemblance (emv) est un exemple <strong>de</strong> M-estimateur.<br />

Ses propriétés <strong>asymptotique</strong>s se déduisent <strong>de</strong>s résultats énoncés ci-<strong>de</strong>ssus. Néanmoins, du<br />

fait <strong>de</strong> son importance, nous soulignons maintenant les points spécifiques à la métho<strong>de</strong> du<br />

maximum <strong>de</strong> vraisemblance. Un premier point concerne la condition selon laquelle la fonction<br />

M : Θ −→ R a un maximum unique en θ 0 . Dans le cadre <strong>de</strong> l’emv, cette condition est une<br />

condition d’i<strong>de</strong>ntifiabilité.<br />

37


Définition 8 Soit un modèle statistique paramétré (X, A, {P θ ; θ ∈ Θ}). Une valeur du paramètre<br />

θ 0 ∈ Θ est i<strong>de</strong>ntifiable si ∀θ ≠ θ 0 , P θ ≠ P θ0 . Le modèle est i<strong>de</strong>ntifiable si pour tout<br />

(θ 1 , θ 2 ) ∈ Θ 2 tel que θ 1 ≠ θ 2 , P θ1 ≠ P θ2 .<br />

Définition 9 L’information <strong>de</strong> Küllback d’une loi P = f · µ contre une loi Q = g · µ est<br />

définie par<br />

∫ ( ) f<br />

K(P, Q) = f log dµ.<br />

g<br />

(On pose ln a 0 = +∞ si a ∈ R+∗ ).<br />

Propriétés 1 L’information <strong>de</strong> Küllback vérifie les propriétés suivantes :<br />

1. Pour tout (P, Q) ∈ P 2 , K(P, Q) ≥ 0.<br />

2. K(P, Q) = 0 ⇔ P = Q.<br />

Définition 10 On appelle distance <strong>de</strong> Hellinger entre les probabilités P et Q (<strong>de</strong> <strong>de</strong>nsités<br />

respectives f et g par rapport à µ) la quantité<br />

H(P, Q) =<br />

√ ∫ ( √<br />

f −<br />

√ g<br />

) 2<br />

dµ.<br />

Propriétés 2 La distance <strong>de</strong> Hellinger vérifie les propriétés suivantes :<br />

1. H 2 (P, Q) = 2 ( 1 − ∫ √ fg dµ ) . En particulier, H(P, Q) ≤ √ 2.<br />

2. H 2 (P, Q) ≤ K(P, Q).<br />

Preuve :<br />

1. trivial<br />

2. ∀x ≥ 0, log x ≤ 2( √ (<br />

x − 1), d’où log<br />

∫<br />

( ) ∫<br />

g<br />

f log dµ ≤ 2<br />

f<br />

D’où H 2 (P, Q) ≤ K(P, Q).<br />

g<br />

f<br />

)<br />

(√ )<br />

≤ 2 g − 1 . Puis<br />

f<br />

f√ g<br />

f dµ − 2 = 2 ∫ √fg<br />

dµ − 2 = −H 2 (P, Q).<br />

Soit X 1 , . . . , X n un n-échantillon <strong>de</strong> loi P θ0 . L’emv <strong>de</strong> θ 0 est obtenu en maximisant la fonction<br />

θ ↦−→ ∑ n<br />

i=1 log f(X i; θ), ou encore<br />

θ ↦−→ M n (θ) = 1 n<br />

n∑<br />

i=1<br />

log f(X i; θ)<br />

f(X i ; θ 0 ) .<br />

[ ]<br />

La fonction limite M est dans ce cas M(θ) = E θ0 log f(X;θ)<br />

f(X;θ 0 )<br />

résultat suivant :<br />

38<br />

= −K(P θ0 , P θ ). On montre le


[ ]<br />

Propriétés 3 La fonction θ ↦−→ M(θ) = E θ0 log f(X;θ)<br />

f(X;θ 0<br />

a un maximum unique en θ<br />

)<br />

0 si et<br />

seulement si θ 0 est i<strong>de</strong>ntifiable.<br />

Preuve : M(θ) ≤ 0 et M(θ 0 ) = 0 donc M atteint son maximum en θ 0 . De plus,<br />

5.5 Entropie<br />

M(θ) = 0 ⇔ K(P θ , P θ0 )<br />

⇔<br />

⇔<br />

P θ = P θ0<br />

θ = θ 0 si θ 0 est i<strong>de</strong>ntifiable.<br />

Nous allons voir une autre condition pour avoir <strong>de</strong>s classes <strong>de</strong> Glivenko Cantelli en tudiant<br />

l’entropie mtrique.<br />

Définition 11 Soit G un ensemble <strong>de</strong> fonctions. On dfinit N(δ, G, ‖.‖) comme le nombre minimal<br />

<strong>de</strong> boules (pour la norme ‖.‖) <strong>de</strong> rayon δ qui sont ncessaires pour recouvrir l’ensemble<br />

G. L’entropie mtrique H(δ, G, ‖.‖) est dfinie par H(δ, G, ‖.‖) = ln N(δ, G, ‖.‖).<br />

( ) 4R + δ<br />

Lemme 9 L’entropie d’une boule <strong>de</strong> rayon R dans R d , note B d (R), est majore par d ln .<br />

δ<br />

Preuve : On va construire une suite <strong>de</strong> points <strong>de</strong> la boule par rcurrence <strong>de</strong> la manire<br />

suivante : on prend un point c 0 dans cette boule puis on essaie <strong>de</strong> trouver un point c 1 <strong>de</strong><br />

cette boule tel que d(c 0 , c 1 ) > δ. On continue jusqu’ obtenir une suite maximale (c j ) <strong>de</strong><br />

points <strong>de</strong> B d (R) qui vrifie ∀i ≠ j, ‖c i − c j ‖ > δ.<br />

∀x ∈ B d (R), ∃ i tel que x ∈ B(c i , δ), sinon x serait un autre point <strong>de</strong> la suite (c j ) suppose<br />

N⋃<br />

maximale. Ainsi, par compacit <strong>de</strong> la boule B d (R), il existe N tel que B d (R) ⊂ B(c j , δ).<br />

On va regar<strong>de</strong>r les boules B(c i , δ ). 4<br />

N⋃<br />

On a B(c j , δ 4 ) ⊂ B d(R+ δ 4 ) en considrant le cas o l’un <strong>de</strong>s points c j se situe sur la frontire<br />

j=1<br />

N⋃<br />

<strong>de</strong> la boule. Ainsi V ol( B(c j , δ 4 )) ≤ V ol(B d(R + δ 4 )).<br />

j=1<br />

Or V ol(B d (R)) = k d R d o k d = π d 2<br />

Γ(1+ d ). Comme les boules B(c i, δ ) sont disjointes, on a<br />

4<br />

2<br />

N⋃<br />

V ol( B(c j , δ 4 )) = Nk d( δ 4 )d . D’o l’ingalit N ≤ (R+ δ 4 )d<br />

.<br />

( δ 4 )d<br />

j=1<br />

D’o le rsultat :<br />

H(δ, B d (R), ‖.‖) ≤ d ln( 4R + δ ).<br />

δ<br />

j=1<br />

39


Définition 12 L’espace <strong>de</strong> Sobolev H s est l’espace <strong>de</strong>s fonctions drivables s fois dont les<br />

drives successives sont dans L 2 (R).<br />

Proposition 4 L’entropie d’une boule <strong>de</strong> l’espace <strong>de</strong> Sobolev H s <strong>de</strong> rayon R est <strong>de</strong> l’ordre<br />

( ) 1<br />

1<br />

s<br />

8R<br />

<strong>de</strong> ln<br />

δ δ .<br />

Preuve : Pour calculer cette entropie, on va utiliser la dcomposition en srie <strong>de</strong> Fourier <strong>de</strong>s<br />

fonctions <strong>de</strong> H s . Soit f ∈ H s . Alors f s’crit f = ∑ c n e n . Comme la s me drive <strong>de</strong> f est dans<br />

L 2 (R), on a ∑ n 2s c 2 n < ∞.<br />

Soit H s (R) = {f = ∑ c n e n , ∑ n 2s c 2 n ≤ R} une boule <strong>de</strong> H s <strong>de</strong> rayon R, soit f ∈ H s (R)<br />

et soit δ > 0. On cherche le nombre <strong>de</strong> fonctions f j ncessaires pour qu’il existe j tel que<br />

‖f − f j ‖ ≤ δ.<br />

Pour tout entier N > 0, on peut crire f sous la forme f = f N +f −f N , avec f N = ∑ c n e n .<br />

n≤N<br />

Ainsi ‖f − f j ‖ ≤ ‖f N − f j ‖ + ‖f − f N ‖. Nous allons montrer qu’il existe <strong>de</strong>s entiers N pour<br />

lesquels ‖f − f N ‖ ≤ δ . Il suffira donc <strong>de</strong> prendre ‖f 2 N − f j ‖ ≤ δ . 2<br />

Puisque (e n ) est une base orthonorme, on a ‖f − f N ‖ 2 = ‖ ∑ n>N<br />

c n e n ‖ 2 = ∑ n>N<br />

c 2 n = ∑ n>N<br />

c 2 nn 2s n −2s .<br />

Ainsi, ‖f − f N ‖ 2 ≤ N −2s ∑ n>N<br />

c 2 nn 2s ≤ N −2s R. Donc, pour tout N vrifiant N −2s R ≤ δ2 4<br />

(soit<br />

N ≥ ( 4R ) 1 δ 2 2s ), on a ‖f − f N ‖ ≤ δ . 2<br />

N∑<br />

Les fonctions f N = c n e n sont caractrises par les coefficients rels (c n ) n=0,...,N . Ainsi, on<br />

n=0<br />

essaie <strong>de</strong> recouvrir une boule <strong>de</strong> R N+1 <strong>de</strong> rayon R par <strong>de</strong>s boules <strong>de</strong> rayon δ . Par le lemme<br />

2<br />

) N+1 = ( 8R+δ ) N+1 . D’o H( δ , B δ<br />

2 N+1(R), ‖ · ‖) ≤<br />

prc<strong>de</strong>nt, on a N( δ , B 2 N+1(R), ‖ · ‖) ≤ ( 4R+ δ 2<br />

δ<br />

2<br />

(N + 1) ln( 8R+δ<br />

Donc<br />

δ<br />

) et N ≥ ( 4R<br />

δ 2 ) 1 2s .<br />

H(δ, H s (R), ‖ · ‖) ∼<br />

δ→0<br />

( 1 δ ) 1 s ln(<br />

8R<br />

δ ).<br />

Remarque 16 Sur cette formule, on voit que, lorsque s augmente, l’entropie diminue. Donc<br />

plus l’espace est rgulier, plus il est facile d’avoir un contrle <strong>de</strong>ssus.<br />

Définition 13 Soit G un ensemble <strong>de</strong> fonctions. On suppose qu’on a une famille <strong>de</strong> (g L j , g U j ),<br />

j ∈ [|1, N|], telle que, pour toute fonction g ∈ G, il existe un indice j tel que g L j g g U j et<br />

||g L j − g U j || 1 δ.<br />

On dfinit N B (δ, G, ||.||) comme le nombre minimal <strong>de</strong> fonctions qui sont ncessaires pour<br />

recouvrir l’ensemble G par les cylindres (g L j , g U j ) <strong>de</strong> taille δ pour la norme ||.||. L’entropie<br />

crochets H B (δ, G, ||.||) est dfinie par H B (δ, G, ||.||) = ln N B (δ, G, ||.||).<br />

Proposition 5 Soit G un ensemble <strong>de</strong> fonctions tel que H B (δ, G, ||.|| L 1 (P )) < +∞. Alors G<br />

est <strong>de</strong> Glivenko-Cantelli.<br />

40


Preuve : Soit N = N B (δ, G, L 1 (P)). Comme H B (δ, G, L 1 (P)) < ∞ on a N < ∞.<br />

Soit g ∈ G. On veut montrer que sup |P n g − Pg| tend en probabilit vers 0. Pour cela, on va<br />

g∈G<br />

tudier le cylindre dans lequel se situe g. On sait qu’il existe j ∈ 1, . . . , N tel que gj<br />

L ≤ g ≤ gj<br />

U<br />

et ‖gj<br />

U − gj L ‖ 1 ≤ δ. On a donc<br />

∫ ∫<br />

∣∫<br />

∣∣∣<br />

|P n g − Pg| =<br />

∣ g dP n − g dP<br />

∣ = g d(P n − P)<br />

∣ .<br />

Comme g ≤ g U j , on a ∫ g d(P n − P) ≤ ∫ g U j dP n − ∫ g U j dP + ∫ g U j dP − ∫ g dP.<br />

D’o ∫ g d(P n − P) ≤ ∫ g U j d(P n − P) + ∫ (g U j − g) dP.<br />

Comme g ≥ g L j , | ∫ g d(P n − P) − ∫ g U j d(P n − P)| ≤ | ∫ (g U j − g L j ) dP| ≤ ‖g U j − g L j ‖ 1 ≤ δ.<br />

D’o ∫ g d(P n − P) ≤ ∫ g U j d(P n − P) + δ.<br />

En utilisant cette fois une minoration <strong>de</strong> g par g L j , on obtient<br />

∫<br />

∫<br />

g d(P n − P) ≥<br />

∫<br />

∫<br />

gj L d(P n − P) + (gj L − g) dP ≥<br />

∫<br />

gj L d(P n − P) + (gj L − gj U ) dP.<br />

D’o | ∫ gj L d(P n − P) − ∫ g d(P n − P)| ≤ | ∫ (gj U − gj L ) dP| ≤ ‖gj U − gj L ‖ 1 ≤ δ.<br />

D’o ∫ g d(P n − P) ≥ ∫ gj L d(P n − P) − δ.<br />

Finalement, on a ∫ gj L d(P n − P) − δ ≤ ∫ g d(P n − P) ≤ ∫ ∫<br />

∫<br />

gj U d(P n −<br />

∫<br />

P) + δ.<br />

Ainsi, ∀δ > 0, max gj<br />

L d(P n − P) − δ ≤ sup g d(P n − P) ≤ max gj U d(P n − P) + δ.<br />

j=1...N<br />

g∈G<br />

j=1...N<br />

Par la loi <strong>de</strong>s grands nombres applique aux fonctions gj U et gj L , ∫ gj U ∫<br />

d(P n − P) et<br />

∫<br />

g<br />

L<br />

j d(P n − P) convergent en probabilit vers 0. N tant fini, on a donc max gj U d(P n − P)<br />

∫<br />

j=1...N<br />

et max gj<br />

L d(P n − P) convergent en probabilit vers 0, d’o le rsultat cherch.<br />

j=1...N<br />

41


6 Ingalits uniformes <strong>de</strong> dviation (concentration)<br />

6.1 Chebychev<br />

Proposition 6 Soit X une variable alatoire relle. Pour toute fonction ϕ : R → R + croissante,<br />

alors P(X > a) E[ϕ(X)] .<br />

ϕ(a)<br />

6.2 Hoeffding<br />

Proposition 7 Soient (X 1 , . . . , X n ) <strong>de</strong>s variables indpendantes relles telles que, pour tout<br />

i ∈ [|1, n|], a i X i b i .<br />

n∑<br />

(<br />

)<br />

2λ 2<br />

Alors, pour tout λ > 0, P( X i > λ) exp −∑ n<br />

i=1 (a .<br />

i − b i ) 2<br />

6.3 Bernstein<br />

i=1<br />

Proposition 8 Soient (X 1 , . . . , X n ) <strong>de</strong>s variables relles telles que, pour tout i ∈ [|1, n|],<br />

E[X i ] = 0 et σ 2 i = E[X 2 i ].<br />

S’il existe K tel que, pour tout m ∈ N, E[|X i | m ] m!<br />

2 Km−2 σ 2 i , alors<br />

P(<br />

n∑<br />

(<br />

)<br />

a 2<br />

X i a) exp −<br />

2(aK + b 2 )<br />

i=1<br />

o b 2 =<br />

n∑<br />

σi 2 .<br />

i=1<br />

6.4 Symtrisation<br />

Soit X une variable alatoire valeurs dans X . On en prend <strong>de</strong>s copies indpendantes :<br />

(X 1 , . . . , X n ) et (X 1, ′ . . . , X n). ′ On note P n = 1 n∑<br />

δ Xi et P ′ n = 1 n∑<br />

δ X ′<br />

n<br />

n<br />

i<br />

. On note galement<br />

G = {g : X → R}. Enfin, on pose ‖P n − P‖ G = sup|P n g − Pg|.<br />

g∈G<br />

On va utiliser <strong>de</strong>s rsultats sur ‖P n − P ′ n‖ G pour contrler ‖P n − P‖ G .<br />

Lemme 10 (Symtrisation en moyenne) E [‖P n − P‖ G ] E [‖P n − P ′ n‖ G ] .<br />

(<br />

Lemme 11 (Symtrisation en probabilit) Si, pour tout g ∈ G, P<br />

1<br />

2 , alors P (‖P n − P‖ G > δ) 2P<br />

i=1<br />

(<br />

‖P n − P ′ n‖ G > δ 2<br />

)<br />

.<br />

i=1<br />

‖P n g − Pg‖ > δ )<br />

<br />

2<br />

42


7 Annexes<br />

7.1 Intégrale supérieure et probabilité extérieure<br />

7.1.1 Introduction<br />

Soit T un ensemble. On note l ∞ (T ) l’espace <strong>de</strong>s fonctions définies sur T , à valeurs réelles,<br />

et bornées. On munit l ∞ (T ) <strong>de</strong> la norme uniforme ‖ · ‖ T : si z ∈ l ∞ (T ), ‖z‖ T := sup t∈T |z(t)|.<br />

L’espace l ∞ (T ) intervient naturellement dans l’étu<strong>de</strong> <strong>de</strong>s processus stochastiques à trajectoires<br />

bornées.<br />

Rappelons qu’un processus stochastique in<strong>de</strong>xé par T est une collection {X(t), t ∈ T }<br />

<strong>de</strong> variables aléatoires X(t) : Ω → X définies sur le même espace <strong>de</strong> probabilité (Ω, B, P).<br />

Fixons l’aléa ω ∈ Ω qui génère tout le processus. La fonction t ∈ T → X(t)(ω) := X(t, ω)<br />

est appelée trajectoire du processus. Si chacune <strong>de</strong>s trajectoires est bornée, on peut aussi<br />

voir le processus comme une v.a. X : Ω −→ l ∞ (T ) à valeurs dans l’espace <strong>de</strong>s trajectoires.<br />

Néanmoins, il faut prendre gar<strong>de</strong> au fait que X, considéré comme une application <strong>de</strong> Ω<br />

dans l ∞ (T ), n’est plus forcément mesurable. Par exemple, considérons le processus {X(t) =<br />

1 {U≤t} , t ∈ [0, 1]}, où U a la loi uniforme sur [0, 1]. Prenons Ω = [0, 1], B les boréliens <strong>de</strong><br />

[0, 1] et P la loi uniforme sur [0, 1]. Une autre façon d’envisager ce processus consiste à le voir<br />

comme une application X : [0, 1] −→ l ∞ ([0, 1]). Munissons l ∞ ([0, 1]) <strong>de</strong> sa tribu borélienne.<br />

Notons H ⊂ [0, 1] une partie qui ne soit pas un borélien, et posons A = ∪ s∈H B s ( 1 ), où<br />

2<br />

B s ( 1) = {g ∈ 2 l∞ ([0, 1]) : ‖g − f s ‖ [0,1] < 1} est la boule ouverte <strong>de</strong> centre f 2 s : t ↦−→ 1 {s≤t} et<br />

rayon 1. A est un ouvert <strong>de</strong> 2 l∞ ([0, 1]). Notons maintenant que ‖f s1 − f s2 ‖ [0,1] vaut 0 ou 1,<br />

selon que s 1 = s 2 ou s 1 ≠ s 2 . Alors X −1 (A) = {u ∈ [0, 1] : X(u) ∈ A} = H. Comme H n’est<br />

pas un borélien, X n’est pas mesurable.<br />

Ce problème intervient notamment dans l’étu<strong>de</strong> <strong>de</strong>s processus empiriques, dont voici un<br />

exemple. Soit U 1 , . . . , U n <strong>de</strong>s variables aléatoires i.i.d. <strong>de</strong> loi uniforme sur [0, 1]. Considérons,<br />

pour t ∈ [0, 1], la fonction (aléatoire)<br />

et posons<br />

F n (t) = 1 n<br />

n∑<br />

1 [0,t] (U i ),<br />

i=1<br />

X n (t) = √ n ( F n (t) − t ) .<br />

Nous venons <strong>de</strong> voir que l’on pouvait considérer F n et X n comme <strong>de</strong>s fonctions aléatoires<br />

<strong>de</strong> [0, 1] n dans l ∞ ([0, 1]). Elles sont même à valeurs dans l’espace (<strong>de</strong> Skorohod) D([0, 1]) ⊂<br />

l ∞ ([0, 1]) <strong>de</strong>s fonctions càdlàg sur [0, 1]. On peut montrer qu’aucune <strong>de</strong> ces <strong>de</strong>ux applications<br />

n’est mesurable lorsque D([0, 1]) est muni <strong>de</strong> la norme uniforme. La tribu borélienne D sur<br />

D([0, 1]) est trop gran<strong>de</strong>, et l’on a pas Xn<br />

−1 (D) ⊂ B n . Ce problème <strong>de</strong> mesurabilité se pose<br />

souvent lorsque l’espace <strong>de</strong>s trajectoires n’est pas séparable.<br />

La définition classique <strong>de</strong> la convergence en loi ne peut donc être utilisée pour le processus<br />

empirique X n , vu comme une fonction aléatoire à valeurs dans (D([0, 1]), ‖ · ‖ [0,1] ). On peut<br />

imaginer plusieurs approches pour lever ce problème :<br />

1. Affaiblir la topologie <strong>de</strong> D([0, 1]), par exemple en le munissant <strong>de</strong> la topologie <strong>de</strong><br />

Skorohod (voir Skorohod, Billingley, Dudley),<br />

43


2. Affaiblir la définition <strong>de</strong> convergence en loi. Par exemple, Pyke et Shorack proposent<br />

<strong>de</strong> considérer seulement les fonctions f continues bornées pour lesquelles f(X n ) est<br />

une application mesurable.<br />

Ces différentes approches ne permettent malheureusement pas <strong>de</strong> traiter les processus empiriques<br />

généraux. Nous allons maintenant présenter l’idée introduite par Hoffmann-Jorgensen,<br />

qui permet d’échapper aux contraintes <strong>de</strong> mesurabilité <strong>de</strong>s processus et <strong>de</strong> taille <strong>de</strong>s tribus.<br />

7.1.2 Intégrale supérieure<br />

Définition 14 Soit (Ω, A, P) un espace <strong>de</strong> probabilité et T une application quelconque <strong>de</strong> Ω<br />

dans R. T n’est pas supposée mesurable. L’intégrale supérieure <strong>de</strong> T par rapport à P est :<br />

E ∗ T = inf{EU : U ≥ T, U : Ω → R mesurable et EU existe }.<br />

Remarque 17 “EU existe” signifie qu’au moins l’une <strong>de</strong>s <strong>de</strong>ux quantités EU − ou EU + est<br />

finie, où U + = max(U, 0) et U − = max(−U, 0). Dans ce cas, EU = EU + − EU − . Il se peut<br />

donc que E ∗ T = ±∞.<br />

L’existence d’un “majorant mesurable minimal” T ∗ <strong>de</strong> T est assurée par le lemme suivant.<br />

Ce majorant mesurable minimal est unique à une égalité P-ps près.<br />

Lemme 12 (admis) Soit T : Ω −→ R. Il existe une application mesurable T ∗ : Ω −→ R<br />

telle que<br />

1. T ∗ ≥ T ,<br />

2. pour toute applicaton mesurable U : Ω −→ R telle que T ≤ U p.s., on a T ∗ ≤ U p.s..<br />

De plus, si T ∗ vérifie 1. et 2., et si ET ∗ existe, E ∗ T = ET ∗ .<br />

Soit (D, d) un espace métrique muni <strong>de</strong> sa tribu borélienne T . On note C b (D) l’ensemble <strong>de</strong>s<br />

fonctions réelles continues, bornées, et définies sur D. Soit (Ω n , A n , P n ) une suite d’espaces <strong>de</strong><br />

probabilité et pour chaque n, soit X n : Ω n −→ D une application quelconque (en particulier,<br />

nous ne supposons pas que les X n sont mesurables). Soit X : (Ω, A, P) → (D, T ) une<br />

application mesurable. Nous définissons la convergence faible <strong>de</strong> la suite (X n ) vers X <strong>de</strong> la<br />

manière suivante :<br />

Définition 15 La suite (X n ) converge faiblement vers l’application mesurable X si<br />

∀f ∈ C b (D),<br />

E ∗ f(X n ) −→ Ef(X).<br />

Un cas particulier d’intégrale supérieure est la probabilité (mesure) extérieure, obtenue en<br />

appliquant la définition 14 à T = 1 B , pour B ⊂ Ω quelconque, non nécessairement mesurable.<br />

Notons que la langue anglaise utilise le même terme “outer” pour désigner l’intégrale<br />

supérieure (“outer integral”, aussi appelée “outer expectation”) et la probabilité extérieure<br />

(“outer probability”).<br />

Définition 16 La probabilité extérieure d’un sous-ensemble quelconque B <strong>de</strong> Ω est<br />

P ∗ (B) = inf{P(A) : B ⊂ A, A ∈ A}.<br />

44


Le lemme suivant donne les liens entre intégrale et probabilité extérieures.<br />

Lemme 13 (Admis) Soit B un sous-ensemble quelconque <strong>de</strong> Ω. Alors<br />

1. P ∗ (B) = E ∗ 1 B ,<br />

2. il existe un ensemble mesurable B ∗ ⊃ B tel que P(B ∗ ) = P ∗ (B), et on a 1 B ∗ = (1 B ) ∗ .<br />

Remarque 18 On définit <strong>de</strong> manière analogue les notions d’intégrale inférieure et <strong>de</strong> probabilité<br />

intérieure, en remplaçant inf par sup et U ≥ T par U ≤ T dans les définitions<br />

précé<strong>de</strong>ntes. On note E ∗ l’intégrale inférieure, et on a E ∗ T = −E ∗ (−T ). Le lecteur intéressé<br />

pourra se reporter au chapitre 1.2 <strong>de</strong> l’ouvrage <strong>de</strong> van <strong>de</strong>r Vaart et Wellner (1996).<br />

Définition 17 (Autres mo<strong>de</strong>s <strong>de</strong> convergence) Soit X n : Ω −→ D une suite d’applications<br />

et X : Ω −→ D une application mesurable.<br />

1. X n converge en P ∗ -probabilité vers X si pour tout ɛ > 0, P ∗ (d(X n , X) > ɛ) −→ 0. On<br />

P<br />

note X ∗<br />

n −→ X.<br />

2. X n converge *-p.s. vers X si il existe une suite <strong>de</strong> v.a. (∆ n ) telle que d(X n , X) ≤ ∆ n<br />

∗−p.s.<br />

pour tout n, et ∆ n converge p.s. vers 0. On note X n −→ X.<br />

7.2 Processus empiriques<br />

7.2.1 Introduction<br />

Un processus empirique est un processus stochastique basé sur un échantillon aléatoire.<br />

Soit X 1 , X 2 , . . . une suite <strong>de</strong> variables aléatoires réelles i.i.d. <strong>de</strong> loi P , définies sur l’espace probabilisé<br />

(Ω, C, P). On note F la fonction <strong>de</strong> répartition <strong>de</strong> P , définie par F (t) = P ((−∞, t]) =<br />

P({ω : X(ω) ≤ t}). A l’échantillon X 1 , . . . , X n , on associe une mesure empirique P n (ω) définie<br />

par<br />

n∑<br />

P n (ω) = 1 n<br />

i=1<br />

δ Xi (ω)<br />

et une fonction <strong>de</strong> répartition empirique F n (ω)(·) : R → [0, 1] définie par<br />

F n (ω)(t) = P n (ω)(] − ∞, t]) = 1 n<br />

n∑<br />

i=1<br />

1 {Xi (ω)≤t}.<br />

Notons bien que P n est une variable aléatoire à valeurs dans l’ensemble <strong>de</strong>s lois <strong>de</strong> probabilité<br />

sur R, et que F n est une variable aléatoire à valeurs dans l’ensemble <strong>de</strong>s fonctions <strong>de</strong><br />

répartition sur R.<br />

Pour tout ω ∈ Ω, P n (ω) est donc une probabilité sur R, <strong>de</strong> fonction <strong>de</strong> répartition F n (ω)(·).<br />

Par la suite, on omettra ω dans les notations. Ainsi, on notera P n (A) = 1 n<br />

∑ n<br />

i=1 δ X i<br />

(A) =<br />

card{i ≤ n : X i ∈ A}/n et F n (t) = P n (] − ∞, t]) = 1 n<br />

∑ n<br />

i=1 1 {X i ≤t}.<br />

On appelle processus empirique réel la quantité α n = √ n (F n − F ). Une réalisation α n (ω)<br />

<strong>de</strong> la fonction aléatoire α n est une fonction t ↦−→ α n (t) appelée trajectoire du processus.<br />

45


Pour tout t, les variables aléatoires 1 {Xi ≤t} sont <strong>de</strong>s Bernoulli B(F (t)) indépendantes,<br />

donc nF n (t) est binomiale B(n, F (t)), <strong>de</strong> sorte que<br />

De plus,<br />

E(F n (t)) = F (t) et V(F n (t)) =<br />

F (t)(1 − F (t))<br />

.<br />

n<br />

∀t ∈ R,<br />

F n (t) −→ p.s.<br />

L<br />

F (t) et α n (t) −→ N (0, F (t)(1 − F (t))).<br />

Le TCL multivarié assure <strong>de</strong> plus que pour tout (t 1 , . . . , t k ) ∈ R k , (α n (t 1 ), . . . , α n (t k ))<br />

converge en loi vers un vecteur gaussien centré, <strong>de</strong> matrice <strong>de</strong> variance-covariance (V i,j ), où<br />

V i,j = F (t i ∧ t j ) − F (t i )F (t j ) (V i,j = cov(1 {X≤ti }, 1 {X≤tj }) = P(X ≤ t i , X ≤ t j ) − F (t i )F (t j )).<br />

7.2.2 Théorèmes <strong>de</strong> Glivenko-Cantelli et Donsker<br />

La quantité aléatoire sup t∈R |F n (t) − F (t)| = ‖F n − F ‖ ∞ est connue sous le nom <strong>de</strong><br />

statistique <strong>de</strong> Kolmogorov-Smirnov et le résultat suivant est connu sous le nom <strong>de</strong> :<br />

Théorème 18 (Théorème <strong>de</strong> Glivenko-Cantelli, 1933) Soit X 1 , X 2 , . . . une suite <strong>de</strong><br />

variables aléatoires i.i.d. <strong>de</strong> fonction <strong>de</strong> répartition F . Alors<br />

‖F n − F ‖ ∞<br />

p.s.<br />

−→ 0.<br />

De même, on peut s’interroger sur l’existence d’un théorème central limite “uniforme”, ou<br />

“fonctionnel”. On note D[−∞, ∞] l’espace <strong>de</strong>s fonctions càdlàg (espace <strong>de</strong> Skorohod) muni<br />

<strong>de</strong> la norme du supremum.<br />

Théorème 19 (Théorème <strong>de</strong> Donsker, 1952) Soit X 1 , X 2 , . . . une suite <strong>de</strong> v.a. i.i.d. <strong>de</strong><br />

fonction <strong>de</strong> répartition F . Alors la suite <strong>de</strong> processus empiriques α n converge en loi dans<br />

D[−∞, ∞] vers un processus gaussien G F centré et <strong>de</strong> fonction <strong>de</strong> covariance<br />

cov(G F (s), G F (t)) = E(G F (s)G F (t)) = F (s ∧ t) − F (s)F (t), ∀s, t ∈ R.<br />

Les théorèmes <strong>de</strong> Glivenko-Cantelli et Donsker pour le processus empirique réel peuvent être<br />

vus comme <strong>de</strong>s cas particuliers <strong>de</strong> résultats généraux pour <strong>de</strong>s processus empiriques in<strong>de</strong>xés<br />

par <strong>de</strong>s classes <strong>de</strong> fonctions.<br />

7.2.3 Processus empirique in<strong>de</strong>xé par <strong>de</strong>s fonctions<br />

Considérons <strong>de</strong> nouveau X, X 1 , X 2 , . . . une suite <strong>de</strong> variables aléatoires i.i.d. <strong>de</strong> loi P sur<br />

(X , A), et soit F ⊂ L 1 (P ) une classe <strong>de</strong> fonctions mesurables <strong>de</strong> X dans R. Notons :<br />

∫<br />

∀f ∈ F, P f = Ef(X) =<br />

Le processus stochastique<br />

f dP et P n f = 1 n<br />

√ n(Pn − P )(f), f ∈ F<br />

n∑<br />

∫<br />

f(X i ) =<br />

i=1<br />

f dP n .<br />

46


où √ ∑<br />

n(P n −P )(f) = √ 1 n<br />

n i=1 (f(X i)−P f), s’appelle processus empirique (centré normalisé)<br />

in<strong>de</strong>xé par F. On le notera par la suite G n = √ n(P n − P ), ou {G n f, f ∈ F}. C’est une<br />

fonction aléatoire <strong>de</strong> F dans R.<br />

Si X = R, le processus {α n (t), t ∈ R} peut être ré-exprimé comme {G n f, f ∈ F}, où<br />

F = {1 {x≤t} , t ∈ R}. Ainsi, on peut voir le processus empirique réel comme in<strong>de</strong>xé par t ∈ R<br />

ou par f ∈ F.<br />

Pour f ∈ F, la loi forte <strong>de</strong>s grands nombres assure que P n f −→ p.s.<br />

P f, et une classe <strong>de</strong><br />

fonctions F pour laquelle une version uniforme <strong>de</strong> ce résultat existe est appelée classe <strong>de</strong><br />

Glivenko-Cantelli.<br />

Définition 18 (Classe <strong>de</strong> Glivenko-Cantelli) Une classe F ⊂ L 1 (P ) <strong>de</strong> fonctions mesurables<br />

f : X −→ R est dite P-Glivenko-Cantelli si<br />

‖P n − P ‖ F = sup |P n f − P f| ∗−p.s.<br />

−→ 0.<br />

f∈F<br />

Remarque 19 Une classe <strong>de</strong> fonctions Glivenko-Cantelli fournit une loi <strong>de</strong>s grands nombres<br />

uniforme, car<br />

lim sup<br />

1<br />

n∑<br />

f(X i ) − Ef(X)<br />

n→∞ ∣n<br />

∣ = 0 p.s.<br />

f∈F<br />

contrôle une infinité <strong>de</strong> loi <strong>de</strong>s grands nombres simultanément.<br />

i=1<br />

Remarque 20 La distance aléatoire ‖P n − P ‖ F n’est pas forcément mesurable, d’où l’utilisation,<br />

pour contourner cette difficulté, <strong>de</strong> la convergence ∗−p.s.. Fest aussi dite P-Glivenko-<br />

Cantelli lorsque la convergence a lieu en P ∗ −probabilité.<br />

Par le TCL, on a G n f −→ L<br />

N (0, P (f − P f) 2 ) (si P f 2 < ∞), et d’après le TCL multidimensionnel,<br />

on a pour tout ensemble fini (f 1 , . . . , f k ) <strong>de</strong> fonctions <strong>de</strong> F telles que P fi 2 < ∞,<br />

(G n f 1 , . . . , G n f k )<br />

L<br />

−→ (Gf 1 , . . . , Gf k ),<br />

où (Gf 1 , . . . , Gf k ) est un vecteur gaussien sur R k , d’espérance nulle et <strong>de</strong> covariances P (f i f j )−<br />

P f i P f j .<br />

Nous supposerons par la suite que<br />

sup |f(x) − P f| < ∞, ∀x ∈ X ,<br />

f∈F<br />

<strong>de</strong> sorte que le processus G n soit à valeurs dans l ∞ (F), que l’on munira <strong>de</strong> la norme ‖H‖ F =<br />

sup f∈F |H(f)|. Nous allons nous intéresser à la convergence faible <strong>de</strong> G n dans l ∞ (F).<br />

Rappelons qu’une suite <strong>de</strong> processus {Z n (f), f ∈ F} converge en loi dans l ∞ (F) vers le<br />

processus {Z(f), f ∈ F} si pour toute fonction h continue et bornée <strong>de</strong> l ∞ (F) dans R, on<br />

a : E ∗ h(Z n ) −→ Eh(Z).<br />

Le théorème suivant donne <strong>de</strong>s CNS pour la convergence en loi du processus {Z n (f), f ∈<br />

F}.<br />

47


Théorème 20 (Convergence en loi <strong>de</strong> processus) La suite <strong>de</strong> processus {Z n (f), f ∈<br />

F} converge en loi dans l ∞ (F) si et seulement les conditions suivantes sont vérifiées :<br />

– Pour toute famille finie f 1 , . . . , f k <strong>de</strong> F, (Z n (f 1 ), . . . , Z n (f k )) converge en loi dans R k<br />

(convergence <strong>de</strong>s marginales finies-dimensionnelles),<br />

– La famille ( Z n (f), f ∈ F ) est <strong>asymptotique</strong>ment équicontinue, c’est-à-dire ∀ɛ ><br />

0, ∀δ > 0, il existe un recouvrement fini <strong>de</strong> F : F = ∪ N i=1F i tel que<br />

lim sup n P ∗ (<br />

sup<br />

i<br />

)<br />

sup |Z n (f) − Z n (g)| ≥ ɛ ≤ δ.<br />

f∈F i , g∈F i<br />

Définition 19 (Classe <strong>de</strong> Donsker) Une classe F ⊂ L 2 (P ) <strong>de</strong> fonctions mesurables f :<br />

X −→ R est dite P-Donsker si la suite <strong>de</strong> processus {G n f, f ∈ F} converge en loi dans<br />

l’espace l ∞ (F) vers un processus {Gf, f ∈ F}. Le processus limite G est un processus gaussien<br />

centré <strong>de</strong> fonction <strong>de</strong> covariance cov(Gf 1 , Gf 2 ) = P (f 1 f 2 ) − P f 1 P f 2 , appelé P -pont<br />

brownien.<br />

Remarque 21 Une classe <strong>de</strong> Donsker fournit un TCL uniforme car le TCL usuel<br />

( )<br />

√ 1<br />

n∑<br />

L<br />

n f(X i ) − P f −→ N (0, var(f(X)))<br />

n<br />

i=1<br />

est vérifié “conjointement” pour tous les f ∈ F.<br />

L<br />

Remarque 22 Par continuité <strong>de</strong> la norme, la convergence en loi <strong>de</strong> G n implique ‖G n ‖ F −→<br />

‖G‖ F , donc n −1/2 L<br />

‖G n ‖ F −→ 0. D’où la convergence en probabilité, et finalement, ‖P n −<br />

P<br />

P ‖ F −→ 0, donc toute classe <strong>de</strong> Donsker est aussi une classe <strong>de</strong> Glivenko-Cantelli.<br />

Exemple 11 (Le processus empirique réel)<br />

Soit F = {f t = 1 (−∞,t] , t ∈ R} la classe <strong>de</strong>s indicatrices <strong>de</strong>s <strong>de</strong>mi-droites (−∞, t]. On voit<br />

aisément que P n f t = n ∑ −1 n<br />

i=1 1 {X i ≤t} = F n (t), donc le processus empirique in<strong>de</strong>xé par F se<br />

ramène au processus empirique réel α n , et la classe F est Donsker.<br />

7.2.4 Entropie et entropie à crochet<br />

Soit E une classe <strong>de</strong> fonctions f : X → R, munie d’une norme ‖ · ‖, et soit F ⊂ E. On<br />

rappelle que pour 1 ≤ r < ∞, L r (P ) désigne l’ensemble <strong>de</strong>s fonctions g : X → R telles<br />

que ‖g‖ r,P = [ ∫ X |g(x)|r dP (x)] 1/r < ∞. Pour une classe F, être ou ne pas être <strong>de</strong> Glivenko-<br />

Cantelli ou <strong>de</strong> Donsker dépend <strong>de</strong> la “taille” <strong>de</strong> cette classe. Dans le paragraphe suivant,<br />

nous donnons un moyen <strong>de</strong> mesurer la taille d’une classe.<br />

Définition 20<br />

1. Si ɛ > 0, on note N(ɛ, F, ‖ · ‖) le nombre minimum <strong>de</strong> boules <strong>de</strong> rayon ɛ nécessaires<br />

pour recouvrir F (i.e. F ⊂ ∪ N(ɛ,F,‖·‖)<br />

i=1 B(f i , ɛ), pour <strong>de</strong>s points f i ∈ E. Notons que les<br />

centres <strong>de</strong>s boules ne sont pas forcément <strong>de</strong>s points <strong>de</strong> F).<br />

On appelle entropie (sans crochet) <strong>de</strong> F la quantité<br />

(<br />

log N ( ɛ, F, ‖ · ‖ )) .<br />

48


2. Pour <strong>de</strong>ux fonctions l et u, le crochet [l, u] est l’ensemble <strong>de</strong>s fonctions f telles que<br />

l ≤ f ≤ u.<br />

3. Un ɛ−crochet pour la norme ‖ · ‖ est un crochet vérifiant ‖u − l‖ ≤ ɛ.<br />

( )<br />

4. On note N [] ɛ, F, ‖ · ‖ le nombre minimum <strong>de</strong> ɛ−crochets nécessaires pour recouvrir<br />

F (les bornes <strong>de</strong>s crochets ne sont pas forcément <strong>de</strong>s points <strong>de</strong> F). On appelle entropie<br />

à crochet la quantité<br />

( ( ) )<br />

log N [] ɛ, F, ‖ · ‖ .<br />

Remarque 23 Si la norme possè<strong>de</strong> la propriété <strong>de</strong> Riesz (|f| ≤ |g| =⇒ ‖f‖ ≤ ‖g‖) alors<br />

on a<br />

N ( ɛ, F, ‖ · ‖ ) ≤ N []<br />

(<br />

2ɛ, F, ‖ · ‖<br />

)<br />

.<br />

En effet, si f appartient au 2ɛ−crochet [l, u], alors f appartient à la boule <strong>de</strong> centre l+u<br />

2<br />

et<br />

rayon ɛ. Il n’existe pas en général d’inégalité inverse.<br />

Définition 21 (Fonction enveloppe) On dit qu’une fonction mesurable F : X → R + est<br />

une enveloppe <strong>de</strong> F si sup f∈F |f(x)| ≤ F (x), ∀x.<br />

Théorème 21 (Entropie à crochet) Soit F une classe <strong>de</strong> fonctions mesurables. Si pour<br />

tout ɛ > 0, N []<br />

(<br />

ɛ, F, L1 (P ) ) < ∞, alors F est P -Glivenko-Cantelli.<br />

Preuve:<br />

Soit ɛ > 0. Par hypothèse il existe un nombre fini <strong>de</strong> ɛ−crochets [l i , u i ] qui recouvrent F et<br />

tels que P (u i − l i ) < ɛ. Ainsi pour toute fonction f ∈ F, il existe un crochet [l i , u i ] contenant<br />

f, c’est-à-dire l i ≤ f ≤ u i . Alors<br />

(P n − P )f ≤ (P n − P )u i + P (u i − f) ≤ (P n − P )u i + ɛ.<br />

Un raisonnement analogue permet <strong>de</strong> montrer que<br />

d’où<br />

min(P n − P )l i − ɛ ≤ (P n − P )f ≤ max(P n − P )u i + ɛ,<br />

i<br />

i<br />

‖P n − P ‖ F = sup<br />

f∈F<br />

|P n f − P f| ≤ | max<br />

i<br />

(P n − P )u i | + | min(P n − P )l i | + 2ɛ<br />

i<br />

puis<br />

‖P n − P ‖ ∗ F ≤ | max(P n − P )u i | + | min(P n − P )l i | + 2ɛ.<br />

i<br />

i<br />

Par la loi forte <strong>de</strong>s grands nombres, le terme <strong>de</strong> droite tend presque sûrement vers 2ɛ (ne<br />

pas oublier que les min et max sont pris sur un nombre fini <strong>de</strong> fonctions). D’où<br />

pour tout ɛ > 0, d’où ‖P n − P ‖ ∗ F<br />

lim sup ‖P n − P ‖ ∗ F ≤ 2ɛ p.s<br />

n<br />

p.s.<br />

−→ 0.<br />

49


Remarque 24 Une classe finie <strong>de</strong> fonctions intégrables est Glivenko-Cantelli.<br />

On définit l’intégrale entropique à crochet à l’échelle δ (δ > 0) comme la quantité<br />

J [] (δ, F, L 2 (P )) =<br />

∫ δ<br />

0<br />

√<br />

log N [] (ɛ, F, L 2 (P )) dɛ.<br />

Intuitivement, une classe F sera Donsker si l’entropie à crochet log N [] (ɛ, F, L 2 (P )) ne ”croît<br />

pas trop vite quand ɛ tend vers 0”. L’intégrale entropique à crochet permet <strong>de</strong> mesurer cette<br />

vitesse.<br />

Théorème 22 (admis) Soit F une classe <strong>de</strong> fonctions mesurables. Si F admet une enveloppe<br />

F telle que P F 2 < ∞, et si J [] (∞, F, L 2 (P )) < ∞, alors F est P-Donsker.<br />

Exemple 12<br />

Le processus empirique in<strong>de</strong>xé par F = {f t = 1 (−∞,t] , t ∈ R} est le processus empirique<br />

réel. Pour tout ɛ > 0, on peut trouver un ensemble fini <strong>de</strong> réels −∞ = t 1 < t 2 < . . . <<br />

t m = ∞ tels que F (t j −) − F (t j−1 ) ≤ ɛ pour tout 1 < j ≤ m, F (t 1 ) = 0, F (t m −) = 1, où<br />

F (t−) = lim s↑t F (s). On peut choisir les t j <strong>de</strong> sorte que m ≤ 1 + 1 . Considérons la collection<br />

ɛ<br />

<strong>de</strong> crochets {[l j , u j ], 1 < j ≤ m}, avec l j (x) = 1 (−∞,tj−1 ](x) et u j (x) = 1 (−∞,tj )(x) (notons que<br />

u j /∈ F). Tout f ∈ F appartient à un crochet [l j , u j ] et ‖u j − l j ‖ 1,P = F (t j −) − F (t j−1 ) ≤ ɛ.<br />

D’où N [] (ɛ, F, L 1 (P )) < ∞ pour tout ɛ > 0, et F est Glivenko-Cantelli.<br />

Les ɛ-crochets que l’on vient d’introduire vérifient<br />

‖u j − l j ‖ 2,P = (‖u j − l j ‖ 1,P ) 1 2 ≤ ɛ<br />

1<br />

2 .<br />

D’où le nombre <strong>de</strong> L 2 (P ) ɛ-crochets nécessaires pour recouvrir F est majoré par 1 + 1 ɛ 2<br />

puisqu’un L 1 (P ) ɛ 2 -crochet est un L 2 (P ) ɛ-crochet. Notons<br />

√<br />

que pour ɛ ≥ 1, le nombre <strong>de</strong><br />

log(1 + 1 ) dɛ < ∞. En utilisant le<br />

ɛ 2<br />

crochets nécessaires est 1. J [] (∞, F, L 2 (P )) sera fini si ∫ 1<br />

0<br />

fait que log(1+x) ≤ 1+log x pour x ≥ 1/(exp(1)−1)(≈ 0.582), et le changement <strong>de</strong> variable<br />

√<br />

u = 1 + log( 1 ), on montre que ∫ 1<br />

ɛ 2 0<br />

√<br />

2π. Donc F est Donsker.<br />

√<br />

log(1 + 1 ɛ 2 ) dɛ est majorée par 2 ∫ ∞<br />

0<br />

u 2 exp(− u2<br />

2 ) du =<br />

Exemple 13<br />

Soit F = {f θ : θ ∈ Θ} ⊂ L 2 (P ) une classe <strong>de</strong> fonctions mesurables in<strong>de</strong>xée par un ensemble<br />

borné Θ <strong>de</strong> R d . On suppose qu’il existe une fonction mesurable m telle que<br />

∀θ 1 , θ 2 ∈ Θ,<br />

|f θ1 (x) − f θ2 (x)| ≤ m(x)‖θ 1 − θ 2 ‖<br />

et ‖m‖ 2,P < ∞. Alors F est Donsker.<br />

On peut recouvrir Θ par <strong>de</strong>s boules <strong>de</strong> centres θ i et rayon δ (i = 1, . . . , K (diamΘ/δ) d ),<br />

où les θ i constituent une grille <strong>de</strong> pas δ sur Θ. Alors ∀θ ∈ Θ, il existe un θ i tel que<br />

‖θ − θ i ‖ ≤ δ, ce qui entraîne que f θi (x) − δm(x) ≤ f θ (x) ≤ f θi (x) + δm(x). Chaque<br />

50


f θ ∈ F est donc inclus dans un crochet [f θi − δm, f θi + δm] <strong>de</strong> taille ‖f θi + δm − (f θi −<br />

δm)‖ 2,P = 2δ‖m‖ 2,P , et N [] (2δ‖m‖ 2,P , F, L 2 (P )) ≤ K (diamΘ/δ) d d’où N [] (ɛ, F, L 2 (P )) ≤<br />

K (2‖m‖ 2,P · diamΘ/ɛ) d ≤ cste/ɛ d .<br />

Notons que pour ɛ ≥ 2‖m‖ 2,P diamΘ, le nombre <strong>de</strong> crochets nécessaires est 1. En effet,<br />

soit f θ ∈ F. On a : ‖θ 1 − θ‖ ≤ diamΘ d’où |f θ1 (x) − f θ (x)| ≤ m(x) diamΘ. Ainsi, f θ<br />

est dans le crochet [f θ1 − m diamΘ, f θ1 + m diamΘ], et ce pour tout f θ ∈ F. De plus,<br />

‖f θ1 + m diamΘ − (f θ1 − m diamΘ)‖ 2,P = 2‖m‖ 2,P diamΘ.<br />

D’où ∫ ∞<br />

√<br />

0 log N[] (ɛ, F, L 2,P ) dɛ < ∞ et F est Donsker.<br />

Cas <strong>de</strong> la loi forte<br />

Notation 2 Soit Q une mesure <strong>de</strong> probabilité et F une classe <strong>de</strong> fonction on note<br />

‖Q‖ F = sup{Q|f| : f ∈ F}.<br />

Cas du T.C.L.<br />

Soit H n ∈ l ∞ (F) c’est à dire que H n : F → R et que sup f∈F |H n (f)| < ∞.<br />

Définition 22 (Convergence en loi <strong>de</strong> processus) On dit que H n converge en loi vers<br />

H dans l ∞ (F) si<br />

• H est une variable aléatoire <strong>de</strong> l ∞ (F).<br />

• Pour toute famille finie f 1 , . . . , f k <strong>de</strong> F on a<br />

(<br />

Hn (f 1 ), . . . , H n (f k ) ) L<br />

−→ ( H(f 1 ), . . . , H(f k ) ) .<br />

• La famille ( H n (f), f ∈ F ) est <strong>asymptotique</strong>ment équicontinue. C’est à dire ∀ɛ > 0, ∀δ > 0,<br />

il existe un recouvrement fini <strong>de</strong> F = ∪ N i=1F i tel que<br />

( )<br />

lim P ∗ sup sup |H n (f) − H n (g)| ≥ ɛ ≤ δ.<br />

n i f∈F i , g∈F i<br />

Remarque 25 Cette définition n’est pas la définition “classique” <strong>de</strong> la convergence en loi<br />

<strong>de</strong>s processus. En général on définit la convergence en loi <strong>de</strong>s processus comme on le fait<br />

pour la convergence en loi <strong>de</strong>s variables aléatoires (les espaces qui interviennent alors sont<br />

assez obscurs). La définition que nous donnons est dans ce cas une façons <strong>de</strong> caractériser la<br />

convergence en loi.<br />

Remarque 26 Si H n = G n alors on connait la loi <strong>de</strong>s finies dimensionnelles par le T.L.C.<br />

vectoriel N k (0, Σ) avec Σ i,j = P(f i −Pf i )P(f j −Pf j ). Alors si on l’équicontinuité <strong>asymptotique</strong><br />

le processus limite est un processus Gaussien appelé le pont Brownien.<br />

Définition 23 (Classes <strong>de</strong> Donsker) On appelle classe <strong>de</strong> Donsker toute classe <strong>de</strong> fonction<br />

F telle G n −→ G dans l ∞ L<br />

(F).<br />

Remarquons que si F est <strong>de</strong> cardinal fini, elle est <strong>de</strong> Donsker.<br />

51


7.3 Symétrisation<br />

Soient ɛ 1 , . . . , ɛ n <strong>de</strong>s variables aléatoires i.i.d. <strong>de</strong> Ra<strong>de</strong>macher (i.e. P(ɛ i = 1) = P(ɛ i =<br />

−1) = 1/2). On suppose <strong>de</strong> plus les (ɛ i ) i indépendantes <strong>de</strong>s (X i ) i .<br />

Le processus empirique centré est défini par<br />

f ↦→ (P n − P)f = 1 n<br />

n∑ (<br />

f(Xi ) − Pf ) .<br />

i=1<br />

Le processus empirique symétrisé est défini par<br />

f ↦→ P o nf = 1 n<br />

n∑<br />

ɛ i f(X i ).<br />

i=1<br />

Si on conditionne par rapport à X i on voit que les <strong>de</strong>ux processus sont centrés.<br />

Lemme 14 (Symétrisation Admis) Pour toute fonction φ convexe croissante et toute<br />

classe <strong>de</strong> fonction F mesurable, on a<br />

)<br />

)<br />

E ∗ φ<br />

(‖P n − P‖ F ≤ E ∗ φ<br />

(2‖P o n‖ F .<br />

7.3.1 Espaces d’Orlicz<br />

La preuve du Théorème 23 qui donne une condition par une classe F d’être Glivenko-<br />

Cantelli en fonction du nombre d’entropie sans crochet est beaucoup plus technique que<br />

la preuve précé<strong>de</strong>nte et nécessite l’introduction <strong>de</strong>s normes d’Orlicz que nous présentons<br />

maintenant brièvement.<br />

Définition 24 Soit ψ une fonction convexe croissante vérifiant ψ(0) = 0, et X une variable<br />

aléatoire. On définit alors la norme d’Orlicz <strong>de</strong> X par<br />

(<br />

‖X‖ ψ = inf{C > 0 : E ψ ( |X| ) ) ≤ 1}.<br />

C<br />

Remarque 27<br />

• Si ψ(x) = |x| p , pour p ≥ 1, on retrouve la norme L p .<br />

• Dans la suite on utilisera les normes d’Orlicz pour les fonctions ψ p (x) = exp(|x| p ) − 1.<br />

Lemme 15 On a pour p ≤ q<br />

‖X‖ p ≤ ‖X‖ ψp<br />

‖X‖ ψp ≤ ‖X‖ ψq<br />

(<br />

log 2<br />

) p/q.<br />

52


Preuve:<br />

La première inégalité <strong>de</strong>vient une ( évi<strong>de</strong>nce une fois que l’on a remarqué que pour x ≥ 0, x p ≤<br />

ψ p (x), en effet on a alors 1 ≤ E ψ ( |X|<br />

) ) avec C = ‖X‖<br />

C<br />

p .<br />

Considérons la fonction φ définie pour x ≥ 0 et p ≤ q par<br />

(<br />

)<br />

φ(x) = exp ln 2 1−p/q ln(x + 1) p/q − 1.<br />

( (<br />

Alors on a φ ψ q ln 2 1/q x )) (<br />

= ψ p ln 2 1/p x ) . Supposons que φ soit concave alors par Jensen<br />

pour tout C > 0 on a (<br />

Eψ ) (<br />

p CX ln 2<br />

1/p<br />

≤ φEψ ) q CX ln 2<br />

1/q<br />

.<br />

Pour C = ‖X‖ ψq ln 2 −1/q , le terme <strong>de</strong> droite vaut 1 car φ(1) = 1. Et on en déduit alors que<br />

‖X‖ ψp ≤ ‖X‖ ψq ln 2 p/q .<br />

Il reste maintenant à montrer que φ est concave. On écrit φ(x) = exp ( g(x) ) − 1 avec<br />

g(x) = c ln(x + 1) d (c et d < 1), φ sera concave si g ′ (x) 2 + g ′′ (x) ≤ 0. Calculons les dérivées<br />

<strong>de</strong> g,<br />

Comme<br />

g ′ ln(x + 1) d<br />

(x) = cd<br />

(x + 1) ln(x + 1) et d d − ln(x + 1) − 1<br />

g′′ (x) = cd ln(x + 1)<br />

(x + 1) 2 ln(x + 1) d<br />

g ′ (x) 2 ln(x + 1) d (<br />

+ g ′′ (x) = cd<br />

cd ln(x + 1) + d − ln(x + 1) − 1 ) ,<br />

(x + 1) 2 ln(x + 1) d<br />

on voit que son signe ne dépend que du signe <strong>de</strong> h(x) = cd ln(x + 1) + d − ln(x + 1) − 1.<br />

Comme c = ln 2 1−p/q et d = p/q, un calcul rapi<strong>de</strong> montre que h(x) ≤ 0. Ce qui achève la<br />

preuve.<br />

Lemme 16 Soit ψ une fonction convexe croissante non nulle vérifiant ψ(0) = 0 et<br />

lim sup ψ(x)ψ(y)/ψ(cxu) < ∞<br />

x,y→∞<br />

pour une constante c > 0. Alors pour toutes variables aléatoires X 1 , . . . , X m ,<br />

‖ max<br />

1≤i≤m X i‖ ψ ≤ Kψ −1 (m) max<br />

i<br />

‖X i ‖ ψ ,<br />

où K est une constante dépendant seulement <strong>de</strong> ψ.<br />

Preuve:<br />

On commence par supposer que pour x ≥ 1 et y ≥ 1, ψ(x)ψ(y) ≤ ψ(cxu). Dans ce cas<br />

ψ(x/y) ≤ ψ(cx)/ψ(y) pour tout x ≥ y ≥ 1. Ainsi pour tout y ≥ 1 et tout C,<br />

( |Xi |<br />

) [ ψ(c|Xi |/C)<br />

max ψ ≤ max<br />

+ ψ( |X ]<br />

i|<br />

Cy<br />

ψ(y) Cy )1l { |X i ≤ ∑ ψ(c|X i |/C)<br />

+ ψ(1).<br />

|<br />

Cy


On prend C = c max i ‖X i ‖ ψ , et on intègre<br />

( max |Xi |<br />

)<br />

Eψ<br />

≤<br />

Cy<br />

Si ψ(1) ≤ 1 2 , on choisit y = ψ−1 (2m) et alors<br />

Ainsi<br />

m<br />

ψ(y) + ψ(1).<br />

( max |Xi |<br />

)<br />

Eψ<br />

≤ 1.<br />

Cy<br />

‖ max |X i |‖ ψ ≤ ψ −1 (2m)c max ‖X i ‖ ψ .<br />

Sinon il existe τ > 0, tel que φ(x) = ψ(τx) vérifie φ(1) ≤ 1/2. On applique le résultat à φ et<br />

on conclut en remarquant que<br />

‖X‖ ψ ≤ ‖X‖ φ /τ = ‖X‖ ψ /τ.<br />

Lemme 17 (Hoeffding) Soient a 1 , . . . , a n <strong>de</strong>s constantes et ɛ 1 , . . . , ɛ n <strong>de</strong>s variables aléatoires<br />

<strong>de</strong> Ra<strong>de</strong>macher. Alors<br />

P ( ∣ ∣ ∣<br />

∑<br />

ɛi a i<br />

∣ ∣∣ > x<br />

)<br />

≤ 2 exp<br />

(<br />

−<br />

x 2<br />

2‖a‖ 2 )<br />

,<br />

‖a‖ est la norme eucliedienne <strong>de</strong>s a i . De plus, ‖ ∑ ɛ i a i ‖ ψ2 ≤ √ 6‖a‖.<br />

Preuve:<br />

En utilisant un développement en séries entières <strong>de</strong> la fonction exponentielle on montre que<br />

E exp(λɛ) ≤ exp(λ 2 /2). On utilise Markov pour montrer que pour tout λ > 0<br />

P ( ∑<br />

a i ɛ i > x ) ≤ exp(−λx) exp ( λ 2 ‖a 2 ‖/2 ) .<br />

i<br />

On optimise alors en λ pour obtenir la borne exponentielle. La majoration <strong>de</strong> la norme ψ 2<br />

est un conséquence directe du lemme suivant.<br />

Lemme 18 Si p ≥ 1 et X vérifie P(|X| > x) ≤ K exp(−Cx p ) alors ‖X‖ ψp ≤ ((1+K)/C) 1/p .<br />

Preuve:<br />

On applique Fubini<br />

E ( exp(D|X| p ) − 1 ) ∫ |X| p<br />

= E De Ds ds =<br />

0<br />

On applique ensuite l’hypothèse et on conclut aisément.<br />

∫ ∞<br />

0<br />

P(|X| > s 1/p )De Ds ds.<br />

54


7.3.2 Glivenko-Cantelli et entropie sans crochet<br />

Définition 25 Une classe F est dite P−mesurable si pour tout n et tout vecteur (e 1 , . . . , e n ) ∈<br />

{−1, 1} n , l’application<br />

n∑<br />

(X 1 , . . . , X n ) ↦→ ‖ e i f(X i )‖ F<br />

est mesurable dans le complété <strong>de</strong> ( Ω n , A n , P n) .<br />

Théorème 23 (Entropie sans crochet) Soit F une classe <strong>de</strong> fonctions P−mesurable,<br />

soit F une fonction enveloppe pour F vérifiant P ∗ F < ∞.<br />

Soit F M = {f1l {F ≤M} , f ∈ F}. Si pour tout ɛ > 0 et tout M > 0<br />

i=1<br />

log N ( ɛ, F M , L 1 (P n ) ) = o ∗ P(n)<br />

Alors ‖P n − P‖ ∗ F<br />

Cantelli.<br />

converge vers zéro p.s. et en espérance. En particulier F est Glivenko-<br />

Preuve:<br />

On commence par appliquer le lemme <strong>de</strong> symétrisation avec φ(x) = x<br />

E ∗ ‖P n − P‖ F ≤ 2E ∗ ‖ 1 n<br />

n∑<br />

ɛ i f(X i )‖ F .<br />

i=1<br />

Comme F est P−mesurable et que les ɛ i sont indépendant <strong>de</strong>s X i le E ∗ du terme <strong>de</strong> droite<br />

est une vraie espérance et on peut donc appliquer Fubini.<br />

Apparté :<br />

Si on n’avait pas l’hypothèse <strong>de</strong> P−mesurabilité,<br />

on aurait une espérance extérieure pour laquelle<br />

Fubini n’est pas valable, en effet pour pouvoir<br />

appliquer Fubini on a besoin d’hypothèses <strong>de</strong><br />

mesurabilités assez fortes.<br />

E ∗ ‖P n − P‖ F ≤ 2E X E ɛ ‖ 1 n<br />

n∑<br />

ɛ i f(X i )‖ F .<br />

i=1<br />

On écrit maintenant f(X i ) = f(X i )1l {F ≤M} + f(X i )1l {F >M} puis on utilise correctement<br />

l’inégalité triangulaire :<br />

E ∗ ‖P n − P‖ F ≤ 2E X E ɛ ‖ 1 n<br />

n∑<br />

ɛ i f(X i )‖ FM + 2P ∗ F 1l {F >M} .<br />

i=1<br />

Pour M suffisament grand le <strong>de</strong>uxième terme du membre <strong>de</strong> droite est aussi petit que l’on<br />

veut, donc pour montrer la convergence L 1 , il nous reste a montrer que le premier terme du<br />

membre <strong>de</strong> droite converge vers zéro pour tout M fixé. Soit R, un recouvrement <strong>de</strong> F M par<br />

55


<strong>de</strong>s boules <strong>de</strong> rayon ɛ, on note G l’ensemble <strong>de</strong>s centres <strong>de</strong> ces boules. Ainsi toute fonction<br />

f ∈ F il existe g ∈ G, ‖f − g‖ ≤ ɛ. Le cardinal <strong>de</strong> G est par construction N ( ɛ, F M , L 1 (P n ) )<br />

et<br />

E ɛ ‖ 1 n∑<br />

ɛ i f(X i )‖ FM ≤ E ɛ ‖ 1 n∑<br />

ɛ i f(X i )‖ G + ɛ.<br />

n<br />

n<br />

i=1<br />

Par lemme 15 on peut majorer la norme L 1 par la norme <strong>de</strong> Orlics ψ 2 , puis on utilise<br />

l’inégalité maximale (lemme 16), on obtient<br />

E ɛ ‖ 1 n<br />

n∑<br />

ɛ i f(X i )‖ FM<br />

i=1<br />

i=1<br />

√<br />

≤ C 1 + log N ( ɛ, F M , L 1 (P n ) ) sup<br />

f∈G<br />

On aplique maintenant Hoeffding (lemme 17) et on obtient,<br />

E ɛ ‖ 1 n<br />

n∑<br />

ɛ i f(X i )‖ FM<br />

i=1<br />

‖ 1 n<br />

n∑<br />

ɛ i f(X i )‖ ψ2 |X + ɛ.<br />

i=1<br />

√<br />

≤ C 1 + log N ( ɛ, F M , L 1 (P n ) )√ 6<br />

n sup<br />

Or par hypothèse sur F M les fonctions sont bornées par M et donc<br />

E ɛ ‖ 1 n<br />

n∑<br />

ɛ i f(X i )‖ FM<br />

i=1<br />

f∈G<br />

(P n f 2 ) 1/2 + ɛ.<br />

√<br />

≤ C 1 + log N ( ɛ, F M , L 1 (P n ) )√ 6<br />

n M + ɛ.<br />

Par hypothèse<br />

∑<br />

le membre <strong>de</strong> droite converge en P ∗ probabilité vers ɛ et par suite<br />

E ɛ ‖ 1 n<br />

n i=1 ɛ if(X i )‖ FM converge en P ∗ probabilité vers zéro. Par convergence dominée son<br />

espérance par rapport aux (X i ) i converge vers zéro. On vient <strong>de</strong> prouver la convergence en<br />

moyenne, on obtient la convergence p.s. en remarquant que ‖P n −P‖ ∗ F est une sous-martingale<br />

inverse (cette <strong>de</strong>rnière affirmation n’est pas triviale on renvoie le lecteur à l’ouvrage <strong>de</strong> Van<br />

<strong>de</strong>r Vaart et Wellner lemme 2.4.5 page 124 pour une preuve <strong>de</strong> celle-ci).<br />

7.4 Conditions pour qu’une classe F soit Donsker.<br />

7.4.1 Utilisation <strong>de</strong> l’entropie sans crochet<br />

Définition 26 (Condition d’entropie uniforme) Soient F une classe <strong>de</strong> fonctions et F<br />

une enveloppe, on dit que F vérifie la condition d’entropie uniforme si<br />

∫ ∞ √<br />

sup log N ( ɛ‖F ‖ Q,2 , F, L 2 (Q) ) dɛ < ∞.<br />

Q<br />

0<br />

Le sup est pris sur toutes les mesures <strong>de</strong> probabilités Q dont le support est discret fini sur<br />

(χ, A) avec n‖F ‖ Q,2 = inf F 2 dQ > 0.<br />

Théorème 24 Soit F une classe <strong>de</strong> fonctions vérifiant la condition d’entropie uniforme.<br />

Pour δ > 0 on définit la classe F δ = {f − g : f, g ∈ F, ‖f − g‖ P,2 < δ}. On suppose que les<br />

classes F δ et F ∞ sont P−mesurable. Si P ∗ F 2 < ∞, alors F est P−Donsker.<br />

56

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!