Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
4.2. Sélection <strong>de</strong> modèle mélange<br />
Convergence <strong>de</strong> critère <strong>de</strong> sélection<br />
Soient g b le <strong>nombre</strong> optimal <strong>de</strong> <strong>composantes</strong> du mélange, <strong>et</strong> g le <strong>nombre</strong> <strong>de</strong> <strong>composantes</strong><br />
d’un modèle M g . Un critère <strong>de</strong> sélection pénalisé convergent doit normalement satisfaire à la<br />
fois<br />
⎧<br />
⎪ ⎨<br />
⎪ ⎩<br />
∀g < g b ,<br />
∀g ≥ g b ,<br />
sup E f 0 [ln L cc (ψ)] > sup E f 0 [ln L cc (ψ)] ,<br />
ψ∈Ψ g b<br />
ψ∈Ψ g<br />
sup E f 0 [ln L cc (ψ)] > sup E f 0 [ln L cc (ψ)] .<br />
ψ∈Ψ g b<br />
ψ∈Ψ g<br />
Autrement dit, le biais <strong>de</strong>s autres modèles par rapport au meilleur modèle M g b est stationnaire.<br />
La procédure a un but d’i<strong>de</strong>ntification : elle doit perm<strong>et</strong>tre <strong>de</strong> r<strong>et</strong>rouver le “vrai”<br />
<strong>nombre</strong> <strong>de</strong> clusters g b . Les résultats <strong>de</strong> c<strong>et</strong>te partie sont directement inspirés <strong>et</strong> adaptés <strong>de</strong><br />
van <strong>de</strong>r Vaart (1998), Massart (2007) <strong>et</strong> Baudry (2009). Nous formulons en premier lieu un<br />
théorème <strong>de</strong> convergence général <strong>de</strong> critère <strong>de</strong> sélection basé sur l’emploi d’un M-estimateur.<br />
Théorème 7. (Consistance faible <strong>de</strong> critère <strong>de</strong> sélection).<br />
Soit {M g } 1≤g≤m une collection <strong>de</strong> modèles <strong>de</strong> paramètres {ψ g } 1≤g≤m ∈ {Ψ g } 1≤g≤m <strong>et</strong> <strong>de</strong><br />
dimension {K g } 1≤g≤m , avec Ψ g ⊂ R Kg . Ces modèles sont classés dans un ordre croissant <strong>de</strong><br />
complexité, avec K 1 ≤ K 2 ≤ ... ≤ K m .<br />
Quel que soit g, posons Ψ b g = arg max<br />
ψ g∈Ψ g<br />
E f 0 [ln L cc (ψ g )]. Soit ψ b g ∈ Ψ b g.<br />
Supposons que<br />
Alors<br />
(H1-C)<br />
(H2-C)<br />
(H3-C)<br />
(H4-C)<br />
en considérant<br />
g b = min ( [<br />
arg max E f 0 ln Lcc (Ψ b g) ] ) ;<br />
1≤g≤m<br />
∀g ∈ 1, m, soit ˆψ g ∈ Ψ g . De plus,<br />
ˆψ g est défini tel que L n ( ˆψ g ) ≥ L n (ψ b g) − ξ n où<br />
ˆψ g satisfait : L n ( ˆψ<br />
[<br />
g ) −→ E f 0 ln Lcc (ψ b<br />
n→∞<br />
g) ] p.s. ;<br />
{<br />
ξn ≥ 0 p.s.<br />
ξ n −→<br />
n→∞<br />
0 p.s.<br />
⎧<br />
⎨pen(K g ) > 0 <strong>et</strong> pen(K g = o P (1) quand n → +∞;<br />
∀g ∈ 1, m,<br />
(<br />
)<br />
P<br />
⎩n<br />
pen(K g ) − pen(K g<br />
′ ) −→ ∞ quand g ><br />
n→+∞ g′ ;<br />
(<br />
n L n ( ˆψ g ) − L n ( ˆψ<br />
)<br />
g b)<br />
[<br />
= O P (1) quel que soit g ∈ arg max E f 0 ln Lcc (Ψ b g) ] ;<br />
1≤g≤m<br />
ĝ = arg min{−L n ( ˆψ g ) + pen(K g )},<br />
1≤g≤m<br />
P(ĝ ≠ g b ) −→<br />
n→∞<br />
0.<br />
D’un point <strong>de</strong> vue <strong>de</strong>s hypothèses, (H1-C) perm<strong>et</strong> d’i<strong>de</strong>ntifier le <strong>nombre</strong> <strong>de</strong> <strong>composantes</strong><br />
du modèle à choisir. Elle recomman<strong>de</strong> <strong>de</strong> sélectionner un modèle parcimonieux, c’est à dire<br />
le modèle <strong>de</strong> plus p<strong>et</strong>ite dimension parmi <strong>de</strong>s modèles <strong>de</strong> performance équivalente. (H3-C)<br />
définit les conditions que doit satisfaire la pénalité du critère <strong>de</strong> sélection, tandis que (H2-C)<br />
on a<br />
135