Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Chapitre 4. Sélection <strong>de</strong> mélange <strong>de</strong> <strong>GLMs</strong><br />
Exemple 1. Considérons un mélange gaussien d-multivarié M G à G <strong>composantes</strong>, avec la<br />
paramétrisation donnée par la représentation spectrale <strong>de</strong>s mélanges : nous pouvons écrire la<br />
matrice <strong>de</strong> covariance <strong>de</strong> chaque composante comme Σ i = λ i D i A i D ′ i où D i est l’orientation <strong>de</strong><br />
la composante, <strong>et</strong> λ i A i est sa forme (Biernacki (2009) <strong>et</strong> McLachlan and Peel (2000) p.110).<br />
Nous imposons la contrainte que Ψ G ⊂ Π G × Θ G soit un ensemble compact, par exemple :<br />
∀i ∈ 1, ..., G,<br />
π i ≥ π min ,<br />
λ min ≤ λ i ≤ λ max ,<br />
∀k ∈ 1, d, µ min ≤ µ k i ≤ µ max,<br />
∀k ∈ 1, d, a min ≤ A k i ≤ a max,<br />
où A i est la matrice <strong>de</strong> diagonale (A 1 i , ..., Ad i ). Ce modèle a pour dimension<br />
K G = (G − 1)<br />
} {{ }<br />
poids<br />
+ Gd }{{}<br />
moyennes<br />
d(d + 1)<br />
+ G .<br />
} {{ 2 }<br />
covariances<br />
Nous avons vu qu’il est indispensable d’avoir un mélange i<strong>de</strong>ntifiable (section 3.1.2), ce<br />
qui nous oblige en fait à considérer l’espace<br />
{<br />
˜M G = (π 1 f N (.; θ 1 ), ..., π G f N (.; θ G )) | (π 1 , ..., π G ) ∈ Π G , (θ 1 , ..., θ G ) ∈ Θ G ⊂ (R d × S d +) G} .<br />
C’est d’autant plus vrai que nous allons dorénavant travailler avec la vraisemblance classifiante<br />
conditionnelle, qui nécessite <strong>de</strong> connaître les distributions <strong>de</strong> chaque composante pour<br />
correctement définir l’entropie. Les contraintes imposées à l’espace <strong>de</strong>s paramètres doivent<br />
donc notamment garantir c<strong>et</strong>te i<strong>de</strong>ntifiabilité.<br />
Par analogie avec la métho<strong>de</strong> du maximum <strong>de</strong> vraisemblance, nous pouvons définir un<br />
nouvel estimateur à partir <strong>de</strong> la vraisemblance L cc . Afin <strong>de</strong> gar<strong>de</strong>r une certaine logique, c<strong>et</strong><br />
estimateur est appelé “estimateur du maximum <strong>de</strong> vraisemblance classifiante conditionnelle”<br />
<strong>et</strong> est noté ML cc E. De la même manière que l’estimateur du maximum <strong>de</strong> vraisemblance mais<br />
en adaptant le raisonnement, l’estimateur du maximum <strong>de</strong> vraisemblance classifiante ML cc E<br />
pour un modèle M G satisfait<br />
ψ MLccE<br />
G<br />
= arg max<br />
ψ G ∈Ψ G<br />
E f 0[ln L cc (ψ G , Y )],<br />
estimé naturellement <strong>de</strong> manière empirique par la loi <strong>de</strong>s grands <strong>nombre</strong>s :<br />
ˆψ MLccE<br />
1<br />
n∑<br />
G<br />
= arg max ln L cc (ψ G ; y j ).<br />
ψ G ∈Ψ G<br />
n<br />
En développant l’expression <strong>de</strong> la log-vraisemblance classifiante conditionnelle pour <strong>de</strong>s mélanges<br />
gaussiens, les contraintes que nous <strong>de</strong>vons imposer sur l’espace <strong>de</strong>s paramètres (pour<br />
que celle-ci ne diverge pas) <strong>de</strong>viennent quasiment évi<strong>de</strong>ntes. En eff<strong>et</strong>, ln L cc (ψ G ; y j ) vaut pour<br />
une observation y j<br />
( G (<br />
)<br />
∑<br />
) G∑ π i f N (y j ; θ i )<br />
ln π i f N (y j ; θ i ) + ∑ G<br />
i=1<br />
i=1 k=1<br />
} {{ }<br />
π kf N (y j ; θ k ) ln π i f N (y j ; θ i )<br />
∑ G<br />
k=1 π . (4.10)<br />
kf N (y j ; θ k )<br />
} {{ }<br />
ln L(ψ G ;y j )<br />
−Ent(ψ G ;y j )<br />
122<br />
j=1