Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Chapitre 4. Sélection <strong>de</strong> mélange <strong>de</strong> <strong>GLMs</strong><br />
où β i = (β i0 , β i1 , ..., β ip ) T <strong>et</strong> X j = (1, X j1 , X j2 , ..., X jp ).<br />
En considérant un lien i<strong>de</strong>ntité <strong>et</strong> une erreur gaussienne dans un modèle mélange <strong>de</strong> <strong>GLMs</strong>,<br />
nous r<strong>et</strong>ombons sur le cas <strong>de</strong>s mélanges gaussiens auxquels nous ajoutons une dépendance en<br />
fonction <strong>de</strong> variables explicatives (par l’équation <strong>de</strong> régression). C’est tout l’intérêt <strong>de</strong> la<br />
présentation <strong>de</strong>s résultats sur mélanges gaussiens qui a été faite au préalable, <strong>et</strong> qui va nous<br />
servir d’inspiration pour les résultats à venir. C<strong>et</strong>te <strong>de</strong>nsité <strong>de</strong> mélange nous perm<strong>et</strong> d’exprimer<br />
la vraisemblance classifiante conditionnelle pour les mélanges <strong>de</strong> régressions linéaires pour une<br />
observation y j . Rappelons que<br />
ln L cc (ψ G ; y j ) = ln L(ψ G ; y j ) +<br />
(<br />
)<br />
G∑ π i f N (y j ; µ i , σi 2 ∑ )<br />
G<br />
k=1 π k f N (y j ; µ k , σk 2) ln π i f N (y j ; µ i , σi 2 ∑ )<br />
G<br />
k=1 π k f N (y j ; µ k , σk 2) .<br />
i=1<br />
D’où en développant<br />
⎛<br />
G∑<br />
ln L cc (ψ G ; y j ) = ln ⎝<br />
G∑<br />
i=1<br />
1<br />
π i √<br />
2πσi<br />
2<br />
G∑ 1<br />
π k √<br />
2πσk<br />
2<br />
k=1<br />
i=1<br />
(<br />
exp − 1 2<br />
(<br />
exp − 1 2<br />
1<br />
π i √<br />
2πσi<br />
2<br />
(<br />
exp − 1 2<br />
(y j − X j β i ) 2 ) ⎞ ⎠ +<br />
σ 2 i<br />
(y j − X j β i ) 2 ) ⎛<br />
1<br />
σi<br />
2 π i √<br />
2πσi<br />
2<br />
(y j − X j β k ) 2 ) ln<br />
⎜ G∑ 1<br />
⎝<br />
σk<br />
2 π k √<br />
k=1 2πσk<br />
2<br />
(<br />
exp − 1 2<br />
(<br />
exp − 1 2<br />
(y j − X j β i ) 2 ) ⎞<br />
σi<br />
2 (y j − X j β k ) 2 )<br />
.<br />
⎟<br />
⎠<br />
σ 2 k<br />
Clairement, les mêmes contraintes que celles sur les mélanges gaussiens doivent être imposées<br />
: ces contraintes sur µ i <strong>et</strong> σ 2 i sont répercutables sur β i <strong>et</strong> σ 2 i , <strong>et</strong> donc aussi sur θ i <strong>et</strong> φ i .<br />
L’annexe D.1.2 détaille les calculs <strong>de</strong>s limites <strong>de</strong> L cc . Nous obtenons finalement que :<br />
– la variance σ 2 i doit rester bornée, donc φ i doit également être bornée ;<br />
– σ 2 i ne doit pas tendre vers 0, ce qui induit la même contrainte pour φ i ;<br />
– les coefficients <strong>de</strong> régression β i <strong>de</strong>s <strong>composantes</strong> doivent rester bornés (|β i | ≠ ∞). Sachant<br />
que θ i = µ i = Xβ i , nous en déduisons que θ i doit aussi rester borné.<br />
Pour résumer, il faut se placer dans un espace compact bien choisi pour assurer la bornitu<strong>de</strong><br />
<strong>de</strong> la log-vraisemblance classifiante conditionnelle ainsi que <strong>de</strong> sa dérivée. Si les contraintes<br />
sur les paramètres θ i <strong>et</strong> φ i se révèlent être relativement similaires après l’étu<strong>de</strong> <strong>de</strong> toutes les<br />
classes <strong>de</strong> <strong>GLMs</strong>, il sera ainsi possible <strong>de</strong> formuler <strong>de</strong>s résultats généraux <strong>de</strong> convergence <strong>de</strong><br />
l’estimateur ML cc E pour c<strong>et</strong>te gran<strong>de</strong> famille.<br />
Mélange <strong>de</strong> régressions <strong>de</strong> Poisson<br />
Un autre choix <strong>de</strong> modélisation <strong>de</strong> l’erreur pourrait être une loi <strong>de</strong> Poisson lorsque nous<br />
nous intéressons à <strong>de</strong>s données <strong>de</strong> comptage. La loi <strong>de</strong> Poisson est à valeurs dans l’ensemble<br />
<strong>de</strong>s entiers naturels, <strong>et</strong> son paramètre µ appartient à l’ensemble <strong>de</strong>s réels strictement positifs.<br />
Le tableau 4.2 donne la correspondance entre le paramètre µ <strong>et</strong> les paramètres <strong>de</strong> tendance <strong>et</strong><br />
<strong>de</strong> dispersion <strong>de</strong> la famille exponentielle.<br />
152