Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Chapitre 4. Sélection <strong>de</strong> mélange <strong>de</strong> <strong>GLMs</strong><br />
C<strong>et</strong>te proposition reste valable sous certaines conditions (satisfaites chez nous) pour <strong>de</strong>s<br />
fonctions L dépendantes <strong>de</strong> n. La fonction L vaut sur l’ensemble <strong>de</strong>s observations Y j indépendantes<br />
L(u) = L n (ψ g ) = f(ψ g)<br />
n<br />
= 1 n<br />
n∑<br />
j=1<br />
ln(f Mg (Y j , ψ g )) + ln(P (ψ g|M g ))<br />
n<br />
Notons ψg ⋆ = arg max L n (ψ g ), <strong>et</strong> H ψ ⋆ g<br />
l’opposé <strong>de</strong> la matrice hessienne <strong>de</strong>s dérivées partielles<br />
ψ g∈ψ g<br />
d’ordre 2 <strong>de</strong> L n (ψ g ) en ψ g ,<br />
[ ∂ 2 ]<br />
L n (ψ g )<br />
H ψ ⋆ g<br />
= −<br />
∂ψg∂ψ i g<br />
l | ψg=ψ ⋆,<br />
g<br />
i,l<br />
Alors nous avons<br />
( )<br />
P (Y |M g ) = e f(ψ⋆ g<br />
2π Kg<br />
( )<br />
) 2<br />
‖Hψ ⋆<br />
n<br />
g<br />
‖ − 1 1<br />
2 + O , d’où<br />
n<br />
ln(P (Y |M g )) = ln(f Mg (Y, ψg)) ⋆ + ln(P (ψg|M ⋆ g )) + K g<br />
2 (ln 2π − ln n) − 1 ( ) 1<br />
2 ln(‖H ψg ⋆‖) + O .<br />
n<br />
Reste donc à calculer ψg ⋆ <strong>et</strong> H ψ ⋆ g<br />
. Quand n → ∞, ln(f Mg (Y, ψ g )P (ψ g |M g )) croît alors que<br />
ln(P (ψ g |M g )) reste constant ; donc ce <strong>de</strong>rnier terme a tendance à disparaître.<br />
Asymptotiquement, ψg ⋆ peut être remplacé par l’estimateur du maximum <strong>de</strong> vraisemblance<br />
ˆψ g défini par ˆψ 1<br />
g = arg max<br />
n f M g<br />
(Y, ψ g ). Nous procédons <strong>de</strong> même pour le calcul <strong>de</strong> H ψ ⋆ g<br />
, ce<br />
ψ g∈Ψ g<br />
qui nous renvoie au calcul <strong>de</strong> la matrice d’information <strong>de</strong> Fisher que nous noterons J ˆψg<br />
. Ces<br />
approximations introduisent un terme d’erreur en n −1/2 , ce qui donne au final quand n → ∞ :<br />
ln(P (Y |M g )) =<br />
tend vers −∞ avec n<br />
{ }} {<br />
ln(f Mg (Y, ˆψ g )) − K g<br />
2 ln n + ln(P ( ˆψ g |M g )) + K g<br />
2 ln 2π − 1 2 ln(‖J ‖) ˆψg<br />
} {{ }<br />
borné<br />
( ) 1<br />
+O √n<br />
C’est à partir <strong>de</strong> c<strong>et</strong>te équation que nous r<strong>et</strong>rouvons la forme du critère BIC, par <strong>de</strong>s considérations<br />
asymptotiques <strong>et</strong> en négligeant le terme borné <strong>et</strong> le terme d’erreur :<br />
ln(P (Y |M g )) ≃ ln(f Mg (Y, ˆψ g )) − K g<br />
ln n.<br />
2<br />
Le terme <strong>de</strong> pénalité en ln n est ainsi issu <strong>de</strong> l’approximation <strong>de</strong> Laplace.<br />
Afin d’uniformiser avec les critères déjà existants, le critère BIC est donné par<br />
<strong>et</strong> le modèle sélectionné satisfait :<br />
BIC g = −2 ln(f Mg (X, ˆψ g )) + K g ln n,<br />
M BIC =<br />
arg min BIC g .<br />
M g∈{M 1 ,...,M m}<br />
Nous avons considéré que la loi a priori <strong>de</strong>s modèles était uniforme. Dans le cas contraire,<br />
un terme supplémentaire apparait mais c<strong>et</strong>te configuration est relativement rare. Par contre<br />
le premier <strong>de</strong>s <strong>de</strong>ux termes que nous négligeons (terme borné) s’apparente à une erreur systématique<br />
<strong>de</strong> l’approximation, qui pourrait se révéler préoccupante car non-négligeable dans<br />
certains cas.<br />
112