23.12.2013 Views

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Chapitre 4. Sélection <strong>de</strong> mélange <strong>de</strong> <strong>GLMs</strong><br />

C<strong>et</strong>te proposition reste valable sous certaines conditions (satisfaites chez nous) pour <strong>de</strong>s<br />

fonctions L dépendantes <strong>de</strong> n. La fonction L vaut sur l’ensemble <strong>de</strong>s observations Y j indépendantes<br />

L(u) = L n (ψ g ) = f(ψ g)<br />

n<br />

= 1 n<br />

n∑<br />

j=1<br />

ln(f Mg (Y j , ψ g )) + ln(P (ψ g|M g ))<br />

n<br />

Notons ψg ⋆ = arg max L n (ψ g ), <strong>et</strong> H ψ ⋆ g<br />

l’opposé <strong>de</strong> la matrice hessienne <strong>de</strong>s dérivées partielles<br />

ψ g∈ψ g<br />

d’ordre 2 <strong>de</strong> L n (ψ g ) en ψ g ,<br />

[ ∂ 2 ]<br />

L n (ψ g )<br />

H ψ ⋆ g<br />

= −<br />

∂ψg∂ψ i g<br />

l | ψg=ψ ⋆,<br />

g<br />

i,l<br />

Alors nous avons<br />

( )<br />

P (Y |M g ) = e f(ψ⋆ g<br />

2π Kg<br />

( )<br />

) 2<br />

‖Hψ ⋆<br />

n<br />

g<br />

‖ − 1 1<br />

2 + O , d’où<br />

n<br />

ln(P (Y |M g )) = ln(f Mg (Y, ψg)) ⋆ + ln(P (ψg|M ⋆ g )) + K g<br />

2 (ln 2π − ln n) − 1 ( ) 1<br />

2 ln(‖H ψg ⋆‖) + O .<br />

n<br />

Reste donc à calculer ψg ⋆ <strong>et</strong> H ψ ⋆ g<br />

. Quand n → ∞, ln(f Mg (Y, ψ g )P (ψ g |M g )) croît alors que<br />

ln(P (ψ g |M g )) reste constant ; donc ce <strong>de</strong>rnier terme a tendance à disparaître.<br />

Asymptotiquement, ψg ⋆ peut être remplacé par l’estimateur du maximum <strong>de</strong> vraisemblance<br />

ˆψ g défini par ˆψ 1<br />

g = arg max<br />

n f M g<br />

(Y, ψ g ). Nous procédons <strong>de</strong> même pour le calcul <strong>de</strong> H ψ ⋆ g<br />

, ce<br />

ψ g∈Ψ g<br />

qui nous renvoie au calcul <strong>de</strong> la matrice d’information <strong>de</strong> Fisher que nous noterons J ˆψg<br />

. Ces<br />

approximations introduisent un terme d’erreur en n −1/2 , ce qui donne au final quand n → ∞ :<br />

ln(P (Y |M g )) =<br />

tend vers −∞ avec n<br />

{ }} {<br />

ln(f Mg (Y, ˆψ g )) − K g<br />

2 ln n + ln(P ( ˆψ g |M g )) + K g<br />

2 ln 2π − 1 2 ln(‖J ‖) ˆψg<br />

} {{ }<br />

borné<br />

( ) 1<br />

+O √n<br />

C’est à partir <strong>de</strong> c<strong>et</strong>te équation que nous r<strong>et</strong>rouvons la forme du critère BIC, par <strong>de</strong>s considérations<br />

asymptotiques <strong>et</strong> en négligeant le terme borné <strong>et</strong> le terme d’erreur :<br />

ln(P (Y |M g )) ≃ ln(f Mg (Y, ˆψ g )) − K g<br />

ln n.<br />

2<br />

Le terme <strong>de</strong> pénalité en ln n est ainsi issu <strong>de</strong> l’approximation <strong>de</strong> Laplace.<br />

Afin d’uniformiser avec les critères déjà existants, le critère BIC est donné par<br />

<strong>et</strong> le modèle sélectionné satisfait :<br />

BIC g = −2 ln(f Mg (X, ˆψ g )) + K g ln n,<br />

M BIC =<br />

arg min BIC g .<br />

M g∈{M 1 ,...,M m}<br />

Nous avons considéré que la loi a priori <strong>de</strong>s modèles était uniforme. Dans le cas contraire,<br />

un terme supplémentaire apparait mais c<strong>et</strong>te configuration est relativement rare. Par contre<br />

le premier <strong>de</strong>s <strong>de</strong>ux termes que nous négligeons (terme borné) s’apparente à une erreur systématique<br />

<strong>de</strong> l’approximation, qui pourrait se révéler préoccupante car non-négligeable dans<br />

certains cas.<br />

112

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!