23.12.2013 Views

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Chapitre 4. Sélection <strong>de</strong> mélange <strong>de</strong> <strong>GLMs</strong><br />

à trouver une autre estimation <strong>de</strong>s paramètres : en découle une plus gran<strong>de</strong> confiance dans<br />

l’assignation <strong>de</strong>s observations à l’une ou l’autre <strong>de</strong>s <strong>composantes</strong>. Nous distinguons également<br />

le bémol <strong>de</strong> l’utilisation <strong>de</strong> c<strong>et</strong> estimateur : si les données ne sont pas issues d’un mélange,<br />

il est clairement moins bon que l’estimateur MLE par définition (car ce <strong>de</strong>rnier minimise la<br />

distance KL a la quasi-vraie distribution).<br />

Convergence <strong>de</strong> l’estimateur ML cc E<br />

Avant toute chose rappelons que nous considérons un modèle paramétrique M G <strong>de</strong> dimension<br />

K G , <strong>de</strong> paramètre ψ G ∈ Ψ G tel que Ψ G ⊂ R K G. Oublions également le contexte <strong>de</strong>s<br />

mélanges <strong>et</strong> introduisons les notations suivantes :<br />

– ∀ψ G ∈ R K G, ‖ψ G ‖ ∞ = max<br />

1≤k≤K G<br />

|ψ k G |, où ψk G est la ke coordonnée <strong>de</strong> ψ G dans la base<br />

canonique <strong>de</strong> R K G<br />

;<br />

– ∀ψ G ∈ Ψ G , ∀ ˜Ψ G ⊂ Ψ G , notons d la distance d(ψ G , ˜Ψ G ) = inf<br />

˜ψ G ∈ ˜Ψ G<br />

‖ψ G − ˜ψ G ‖ ∞ .<br />

Nous avons vu que l’estimateur ML cc E peut être approché par le M-estimateur suivant :<br />

ˆψ MLccE<br />

G<br />

1<br />

n∑<br />

= arg max ln L cc (ψ G ; y j )<br />

ψ G ∈Ψ G<br />

n<br />

j=1<br />

} {{ }<br />

L n(ψ G ;Y )<br />

Le théorème <strong>de</strong> convergence <strong>de</strong> l’estimateur ML cc E se place dans un cadre très général <strong>et</strong><br />

provient d’une adaptation <strong>de</strong>s résultats <strong>de</strong> van <strong>de</strong>r Vaart (1998) <strong>et</strong> Baudry (2009). van <strong>de</strong>r<br />

Vaart (1998) donne les hypothèses <strong>de</strong> convergence faible d’un M-estimateur pourvu que celuici<br />

existe ! Notre version <strong>de</strong> ce théorème perm<strong>et</strong> d’expliciter les conditions suffisantes pour la<br />

convergence forte d’un M-estimateur vers le meilleur paramètre dans un problème d’optimisation<br />

<strong>de</strong> log-vraisemblance classifiante conditionnelle.<br />

Théorème 4. Soit Ψ G ⊂ R K G<br />

<strong>et</strong> ln L cc : Ψ G × R d → R.<br />

Si nous avons les trois hypothèses suivantes :<br />

– (H1-A) : ∃ψG b ∈ Ψ [<br />

G tel que E f 0 ln Lcc (ψG b ; Y )] = max E f 0 [ln L cc (ψ G ; Y )] ;<br />

ψ G ∈Ψ G<br />

[<br />

– (H2-A) : ∀ɛ > 0, sup E f 0 [ln L cc (ψ G ; Y )] < E f 0 ln Lcc (ψ b<br />

{ψ G ; d(ψ G ,Ψ b G )>ɛ} G ; Y )] ,<br />

}<br />

où Ψ b G<br />

{ψ = G b : E [<br />

f 0 ln Lcc (ψG b ; Y )] = max E f 0 [ln L cc (ψ G ; Y )] .<br />

ψ G ∈Ψ G<br />

∣<br />

– (H3-A) : ∀ψ G ∈ Ψ G , sup<br />

L n (ψ G ; Y ) − E f 0 [ln L cc (ψ G ; Y )] ∣ −→ 0 p.s. ;<br />

ψ G ∈Ψ n→∞ G<br />

Alors,<br />

en définissant ˆψ G = ˆψ G (Y 1 , ..., Y n ) ∈ Ψ G tel que ∃n 0 ∈ N, ∀n ≥ n 0 ,<br />

.<br />

L n ( ˆψ G ; Y ) ≥ L n (ψ b G; Y ) − ξ n<br />

avec<br />

124<br />

{<br />

ξn ≥ 0 p.s.<br />

ξ n −→<br />

n→∞<br />

0 p.s.<br />

, nous avons d( ˆψ G , Ψ b G ) −→<br />

n→∞ 0<br />

p.s.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!