Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Chapitre 4. Sélection <strong>de</strong> mélange <strong>de</strong> <strong>GLMs</strong><br />
à trouver une autre estimation <strong>de</strong>s paramètres : en découle une plus gran<strong>de</strong> confiance dans<br />
l’assignation <strong>de</strong>s observations à l’une ou l’autre <strong>de</strong>s <strong>composantes</strong>. Nous distinguons également<br />
le bémol <strong>de</strong> l’utilisation <strong>de</strong> c<strong>et</strong> estimateur : si les données ne sont pas issues d’un mélange,<br />
il est clairement moins bon que l’estimateur MLE par définition (car ce <strong>de</strong>rnier minimise la<br />
distance KL a la quasi-vraie distribution).<br />
Convergence <strong>de</strong> l’estimateur ML cc E<br />
Avant toute chose rappelons que nous considérons un modèle paramétrique M G <strong>de</strong> dimension<br />
K G , <strong>de</strong> paramètre ψ G ∈ Ψ G tel que Ψ G ⊂ R K G. Oublions également le contexte <strong>de</strong>s<br />
mélanges <strong>et</strong> introduisons les notations suivantes :<br />
– ∀ψ G ∈ R K G, ‖ψ G ‖ ∞ = max<br />
1≤k≤K G<br />
|ψ k G |, où ψk G est la ke coordonnée <strong>de</strong> ψ G dans la base<br />
canonique <strong>de</strong> R K G<br />
;<br />
– ∀ψ G ∈ Ψ G , ∀ ˜Ψ G ⊂ Ψ G , notons d la distance d(ψ G , ˜Ψ G ) = inf<br />
˜ψ G ∈ ˜Ψ G<br />
‖ψ G − ˜ψ G ‖ ∞ .<br />
Nous avons vu que l’estimateur ML cc E peut être approché par le M-estimateur suivant :<br />
ˆψ MLccE<br />
G<br />
1<br />
n∑<br />
= arg max ln L cc (ψ G ; y j )<br />
ψ G ∈Ψ G<br />
n<br />
j=1<br />
} {{ }<br />
L n(ψ G ;Y )<br />
Le théorème <strong>de</strong> convergence <strong>de</strong> l’estimateur ML cc E se place dans un cadre très général <strong>et</strong><br />
provient d’une adaptation <strong>de</strong>s résultats <strong>de</strong> van <strong>de</strong>r Vaart (1998) <strong>et</strong> Baudry (2009). van <strong>de</strong>r<br />
Vaart (1998) donne les hypothèses <strong>de</strong> convergence faible d’un M-estimateur pourvu que celuici<br />
existe ! Notre version <strong>de</strong> ce théorème perm<strong>et</strong> d’expliciter les conditions suffisantes pour la<br />
convergence forte d’un M-estimateur vers le meilleur paramètre dans un problème d’optimisation<br />
<strong>de</strong> log-vraisemblance classifiante conditionnelle.<br />
Théorème 4. Soit Ψ G ⊂ R K G<br />
<strong>et</strong> ln L cc : Ψ G × R d → R.<br />
Si nous avons les trois hypothèses suivantes :<br />
– (H1-A) : ∃ψG b ∈ Ψ [<br />
G tel que E f 0 ln Lcc (ψG b ; Y )] = max E f 0 [ln L cc (ψ G ; Y )] ;<br />
ψ G ∈Ψ G<br />
[<br />
– (H2-A) : ∀ɛ > 0, sup E f 0 [ln L cc (ψ G ; Y )] < E f 0 ln Lcc (ψ b<br />
{ψ G ; d(ψ G ,Ψ b G )>ɛ} G ; Y )] ,<br />
}<br />
où Ψ b G<br />
{ψ = G b : E [<br />
f 0 ln Lcc (ψG b ; Y )] = max E f 0 [ln L cc (ψ G ; Y )] .<br />
ψ G ∈Ψ G<br />
∣<br />
– (H3-A) : ∀ψ G ∈ Ψ G , sup<br />
L n (ψ G ; Y ) − E f 0 [ln L cc (ψ G ; Y )] ∣ −→ 0 p.s. ;<br />
ψ G ∈Ψ n→∞ G<br />
Alors,<br />
en définissant ˆψ G = ˆψ G (Y 1 , ..., Y n ) ∈ Ψ G tel que ∃n 0 ∈ N, ∀n ≥ n 0 ,<br />
.<br />
L n ( ˆψ G ; Y ) ≥ L n (ψ b G; Y ) − ξ n<br />
avec<br />
124<br />
{<br />
ξn ≥ 0 p.s.<br />
ξ n −→<br />
n→∞<br />
0 p.s.<br />
, nous avons d( ˆψ G , Ψ b G ) −→<br />
n→∞ 0<br />
p.s.