23.12.2013 Views

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

4.2. Sélection <strong>de</strong> modèle mélange<br />

Définition. Soient r ∈ N ∗ , <strong>et</strong> l, u ∈ L r (P).<br />

Le croch<strong>et</strong> [l, u] est l’ensemble <strong>de</strong>s fonctions g ∈ G / ∀y ∈ R d , l(y) ≤ g(y) ≤ u(y).<br />

[l, u] est un ɛ-croch<strong>et</strong> si ‖l − u‖ r = E [|l − u| r ] 1 r ≤ ɛ.<br />

On note N [ ] (ɛ, G, L r (P)) le <strong>nombre</strong> minimal d’ɛ-croch<strong>et</strong>s pour couvrir G.<br />

L’entropie associée ou “brack<strong>et</strong>ing entropy”, notée E [ ] (ɛ, G, L r (P)), correspond au logarithme <strong>de</strong><br />

N [ ] (ɛ, G, L r (P)).<br />

En fait, la “brack<strong>et</strong>ing entropy” est une mesure L r <strong>de</strong> la complexité <strong>de</strong> la classe <strong>de</strong> fonctions<br />

G. C<strong>et</strong>te définition perm<strong>et</strong> <strong>de</strong> se placer dans un cadre où contrôler les bornes du croch<strong>et</strong> revient<br />

à contrôler les fonctions qui y appartiennent. Il existe un résultat <strong>de</strong> van <strong>de</strong>r Vaart (1998) (dont<br />

la preuve est au chapitre 19) qui stipule un lien entre la “brack<strong>et</strong>ing entropy” d’un ensemble<br />

lié à une classe <strong>de</strong> fonction <strong>et</strong> la propriété d’être P-Glivenko Cantelli pour c<strong>et</strong>te même classe<br />

<strong>de</strong> fonctions :<br />

Théorème 5. Toute classe G <strong>de</strong> fonctions mesurables telles que E [ ] (ɛ, G, L 1 (P)) < ∞ pour<br />

tout ɛ > 0 est P-Glivenko Cantelli.<br />

Pour obtenir l’hypothèse <strong>de</strong> convergence uniforme presque sûre, nous allons donc considérer<br />

la norme L 1 (P). Il suffit maintenant <strong>de</strong> trouver sous quelles conditions la classe <strong>de</strong>s<br />

fonctions définies par la vraisemblance classifiante conditionnelle <strong>de</strong>s mélanges <strong>de</strong> <strong>GLMs</strong> a<br />

une “brack<strong>et</strong>ing entropy” finie, auquel cas nous détiendrons l’hypothèse (H3-A). Suivant les<br />

propriétés <strong>de</strong> l’espace <strong>de</strong>s paramètres, il existe <strong>de</strong>ux lemmes qui amènent à un tel résultat.<br />

Nous les présentons <strong>et</strong> en discutons ci-après. Dans toute la suite, la notation (∂ ln L cc / ∂ψ)<br />

désigne le vecteur <strong>de</strong>s dérivées partielles <strong>de</strong> la log-vraisemblance classifiante conditionnelle par<br />

rapport à chacune <strong>de</strong>s <strong>composantes</strong> du vecteur ψ.<br />

Lemme 2. (Brack<strong>et</strong>ing entropy, cas convexe).<br />

Soit r ∈ N ∗ . Soient K G ∈ N ∗ <strong>et</strong> Ψ G ⊂ R K G<br />

un ensemble convexe.<br />

Soit Ψ O G un ouvert <strong>de</strong> RK G<br />

tel que Ψ G ⊂ Ψ O G <strong>et</strong> ln L cc : Ψ O G × Rd −→ R.<br />

La fonction ψ ∈ Ψ O G ↦→ ln L cc(ψ; y) est supposée C 1 (f 0 -presque partout) sur Ψ O G .<br />

Supposons que<br />

∣∣ ∣∣∣∣ ∣∣∣∣ ( )<br />

L ′ ∂ ln Lcc<br />

(y) = sup<br />

< ∞ f 0 dλ − p.s.,<br />

ψ∈Ψ G<br />

∂ψ<br />

(ψ;y)<br />

∣∣ ∞<br />

[<br />

‖L ′ ‖ r = E f 0 L ′ (Y ) r] 1 r<br />

< ∞;<br />

Alors (avec ˜Ψ G borné)<br />

∀ ˜Ψ G ⊂ Ψ G , ∀ɛ > 0, N [ ] (ɛ, {ln L cc (ψ) : ψ ∈ ˜Ψ G }, ‖.‖ r ) ≤ max<br />

( (‖L ′<br />

‖ r diam ˜Ψ<br />

)<br />

)<br />

G<br />

KG<br />

, 1 .<br />

ɛ<br />

Nous r<strong>et</strong>iendrons que dans le cas d’un espace <strong>de</strong> paramètres convexe, la “brack<strong>et</strong>ing entropy”<br />

reste bornée tant que certaines conditions <strong>de</strong> régularité sont satisfaites pour la dérivée <strong>de</strong><br />

la log-vraisemblance classifiante conditionnelle. Ce résultat s’inspire <strong>de</strong> la propriété <strong>de</strong> fonction<br />

lipschitzienne énoncée dans van <strong>de</strong>r Vaart (1998) (p. 271) <strong>et</strong> Baudry (2009) dans le cadre<br />

général du contraste.<br />

127

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!