Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Chapitre 4. Sélection <strong>de</strong> mélange <strong>de</strong> <strong>GLMs</strong><br />
moyen <strong>de</strong>s log-vraisemblances (autrement dit l’estimation du maximum <strong>de</strong> vraisemblance)<br />
converge en probabilité vers l’estimation du maximum d’entropie (ou minimum <strong>de</strong> négentropie,<br />
donc minimum en distance KL).<br />
Ne disposant que <strong>de</strong> ˆψ g (Z) comme estimation du maximum <strong>de</strong> vraisemblance dans le<br />
modèle M g , Akaike choisit d’approcher<br />
R(ψ 0 ) = E Z [D( ˆψ 0 (Z), ψ 0 )] par E Z [D( ˆψ g (Z), ψ 0 )].<br />
Il reste à déterminer le biais introduit par c<strong>et</strong>te approximation, <strong>et</strong> le fait d’utiliser les mêmes<br />
données pour estimer le maximum <strong>de</strong> vraisemblance qui sert ensuite à évaluer la “distance”<br />
D( ˆψ g (Z), ψ 0 ). D’après (4.4) <strong>et</strong> (4.5), nous avons<br />
[<br />
E Z 2 d KL<br />
(f(y; ψ 0 ), f Mg (y; ˆψ<br />
)]<br />
g (Z)) = 2 E Y [ln f(Y ; ψ 0 )] − 2 E (Y,Z) [ln f Mg (Y ; ˆψ g (Z))]<br />
Donc<br />
D’où<br />
E (Y,Z) [ln f Mg (Y ; ˆψ g (Z))] =<br />
indép. du modèle<br />
{ }} { [<br />
E Y [ln f(Y ; ψ 0 )] −E Z d KL<br />
(f(y; ψ 0 ), f Mg (y; ˆψ<br />
)]<br />
g (Z))<br />
1/2 E Z [D( ˆ ψ g(Z),ψ 0 )]<br />
{<br />
1<br />
n ln L( ˆψ<br />
[<br />
}} {<br />
g (Z)) = E Y [ln f(Y ; ψ 0 )] − E Z d KL<br />
(f(y; ψ 0 ), f Mg (y; ˆψ<br />
)]<br />
g (Z)) .<br />
Il faut donc évaluer le biais donné par<br />
[ ∫<br />
1<br />
B(K g ) = E Z<br />
n ln L( ˆψ g (Z); Y ) −<br />
Y<br />
]<br />
f(y; ψ 0 ) ln f Mg (y; ˆψ g (Z))dy . (4.6)<br />
Pour estimer ce biais, il définit une norme (‖.‖ 0 ) <strong>et</strong> un produit scalaire (< ., . > 0 ) à partir <strong>de</strong><br />
l’information <strong>de</strong> Fisher J(ψ 0 ), via l’approximation quadratique <strong>de</strong> D(ψ g , ψ 0 , Φ) par W (ψ g , ψ 0 )<br />
obtenue en utilisant la formule <strong>de</strong> Taylor (avec Φ(1) = −2 ln(1) = 0) :<br />
W (ψ g , ψ 0 ) = (ψ g − ψ 0 ) T J(ψ 0 )(ψ g − ψ 0 ).<br />
Ainsi pour un modèle M g , il obtient par Pythagore :<br />
D( ˆψ g (Z), ψ 0 ) ≃ W ( ˆψ g (Z), ψ 0 ) = ‖ ˆψ g (Z) − ψ 0 ‖ 2 0<br />
= ‖ψ 0|Kg − ψ 0 ‖ 2 0 + ‖ ˆψ g (Z) − ψ 0|Kg ‖ 2 0;<br />
avec ψ 0|Kg la projection <strong>de</strong> ψ 0 sur Ψ Kg , la métrique <strong>de</strong> l’information.<br />
Pour estimer R(ψ 0 ), il utilise donc E Z [W ( ˆψ g (Z), ψ 0 )]. Finalement après évaluation <strong>de</strong>s différents<br />
termes, il trouve<br />
nE Z [W ( ˆψ g (Z), ψ 0 )] ≃ n ˆD n ( ˆψ g (Z), ˆψ 0 (Z)) + 2 K g<br />
}{{}<br />
− K m ,<br />
≃ B(K g)<br />
où K g est la dimension du modèle M g étudié, K m la dimension maximale. C<strong>et</strong>te expression<br />
ayant K m i<strong>de</strong>ntique pour tous les sous-modèles considérés, la pénalité r<strong>et</strong>enue est 2K g .<br />
Finalement, le critère AIC est plus connu sous la forme analogue<br />
<strong>et</strong> le modèle sélectionné satisfait :<br />
AIC g = −2 ln(f Mg (Y, ˆψ g )) + 2K g ,<br />
M AIC =<br />
arg min AIC g .<br />
M g∈{M 1 ,...,M m}<br />
110