Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
4.2. Sélection <strong>de</strong> modèle mélange<br />
L’annexe D détaille l’étu<strong>de</strong> <strong>de</strong>s limites <strong>de</strong> ces <strong>de</strong>ux termes dans les différentes configurations<br />
possibles, sachant que<br />
1<br />
f N (y j ; θ i ) =<br />
(2π) d √ e − 1 2 (y j−µ i ) T Σ −1<br />
2 <strong>de</strong>t Σi<br />
i (y j −µ i ) .<br />
En prenant le cas unidimensionnel pour simplifier (<strong>de</strong>t Σ i <strong>de</strong>vient σi 2 ), nous avons :<br />
σi 2 ⎫<br />
→ 0<br />
σi 2 → +∞ ⎪⎬<br />
µ i → −∞ ⇒ ln L cc (ψ G ; y j ) <strong>et</strong>/ou ∂ ln L cc(ψ G ; y j )<br />
diverge(nt).<br />
∂θ<br />
µ i → +∞<br />
i<br />
⎪⎭<br />
π i → 0<br />
Ces limites, obtenues astucieusement ou par développements limités dans le but <strong>de</strong> lever les<br />
formes indéterminées rencontrées, suggèrent que les situations critiques correspon<strong>de</strong>nt majoritairement<br />
à <strong>de</strong>s paramètres qui ne seraient pas bornés.<br />
Objectif du ML cc E<br />
L’exemple suivant perm<strong>et</strong> <strong>de</strong> se rendre compte <strong>de</strong> la différence fondamentale entre l’estimateur<br />
ML cc E <strong>et</strong> l’estimateur MLE, ce <strong>de</strong>rnier minimisant la distance KL entre la distribution<br />
à estimer f(.; ψ G ) <strong>et</strong> la distribution théorique f 0 (.).<br />
Exemple 2. (Baudry). La <strong>de</strong>nsité théorique f 0 est celle d’une loi normale centrée réduite<br />
unidimensionnelle N (0, 1) (d = 1). Considérons le modèle<br />
{ 1<br />
M =<br />
2 f N (.; −µ, σ 2 ) + 1 }<br />
2 f N (.; µ, σ 2 ); µ ∈ R, σ 2 ∈ R +∗ .<br />
Aucune contrainte supplémentaire n’est imposée.<br />
Même dans un modèle extrêmement simple où σ 2 serait fixée, il est impossible <strong>de</strong> trouver<br />
l’expression du ML cc E ! Par contre, nous pouvons le calculer numériquement, <strong>et</strong> nous obtenons<br />
(µ MLccE , σ 2,MLccE ) = (0.83, 0.31).<br />
Ce résultat signifie que l’estimateur ML cc E construit un mélange à <strong>de</strong>ux <strong>composantes</strong> tel que<br />
E f 0[ln L cc (µ, σ 2 )] est maximisée en un point unique (à un “label switch” près). Cependant, c<strong>et</strong><br />
estimateur ne correspond en rien à l’estimateur MLE car celui-ci aurait donné l’estimation<br />
(µ MLE , σ 2,MLE ) = (0, 1). En eff<strong>et</strong> c<strong>et</strong>te estimation minimise la distance KL à la <strong>de</strong>nsité<br />
théorique, <strong>et</strong> c<strong>et</strong>te <strong>de</strong>nsité obtenue par MLE ne serait rien d’autre que la <strong>de</strong>nsité théorique<br />
elle-même !<br />
C<strong>et</strong> exemple illustre parfaitement le but <strong>de</strong> l’estimateur ML cc E, qui n’est pas <strong>de</strong> r<strong>et</strong>rouver<br />
la distribution théorique <strong>de</strong>s données même lorsqu’elle est contenue dans le modèle considéré<br />
(ce qui est le cas ici). L’estimateur MLE n’ayant pas <strong>de</strong> règle pour désigner <strong>de</strong>ux classes (<strong>composantes</strong>)<br />
adéquates pour ce modèle, il construirait les <strong>de</strong>ux mêmes <strong>composantes</strong> 1 2 f N (.; 0, 1)<br />
exactement superposées, <strong>et</strong> l’affectation <strong>de</strong>s observations à l’une ou l’autre <strong>de</strong> ces <strong>composantes</strong><br />
serait complètement arbitraire (avec probabilité <strong>de</strong> 1/2, d’où une entropie maximale). En revanche<br />
le compromis recherché par le ML cc E, qui pénalise c<strong>et</strong>te trop gran<strong>de</strong> entropie, amène<br />
123