23.12.2013 Views

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Chapitre 4. Sélection <strong>de</strong> mélange <strong>de</strong> <strong>GLMs</strong><br />

moyen <strong>de</strong>s log-vraisemblances (autrement dit l’estimation du maximum <strong>de</strong> vraisemblance)<br />

converge en probabilité vers l’estimation du maximum d’entropie (ou minimum <strong>de</strong> négentropie,<br />

donc minimum en distance KL).<br />

Ne disposant que <strong>de</strong> ˆψ g (Z) comme estimation du maximum <strong>de</strong> vraisemblance dans le<br />

modèle M g , Akaike choisit d’approcher<br />

R(ψ 0 ) = E Z [D( ˆψ 0 (Z), ψ 0 )] par E Z [D( ˆψ g (Z), ψ 0 )].<br />

Il reste à déterminer le biais introduit par c<strong>et</strong>te approximation, <strong>et</strong> le fait d’utiliser les mêmes<br />

données pour estimer le maximum <strong>de</strong> vraisemblance qui sert ensuite à évaluer la “distance”<br />

D( ˆψ g (Z), ψ 0 ). D’après (4.4) <strong>et</strong> (4.5), nous avons<br />

[<br />

E Z 2 d KL<br />

(f(y; ψ 0 ), f Mg (y; ˆψ<br />

)]<br />

g (Z)) = 2 E Y [ln f(Y ; ψ 0 )] − 2 E (Y,Z) [ln f Mg (Y ; ˆψ g (Z))]<br />

Donc<br />

D’où<br />

E (Y,Z) [ln f Mg (Y ; ˆψ g (Z))] =<br />

indép. du modèle<br />

{ }} { [<br />

E Y [ln f(Y ; ψ 0 )] −E Z d KL<br />

(f(y; ψ 0 ), f Mg (y; ˆψ<br />

)]<br />

g (Z))<br />

1/2 E Z [D( ˆ ψ g(Z),ψ 0 )]<br />

{<br />

1<br />

n ln L( ˆψ<br />

[<br />

}} {<br />

g (Z)) = E Y [ln f(Y ; ψ 0 )] − E Z d KL<br />

(f(y; ψ 0 ), f Mg (y; ˆψ<br />

)]<br />

g (Z)) .<br />

Il faut donc évaluer le biais donné par<br />

[ ∫<br />

1<br />

B(K g ) = E Z<br />

n ln L( ˆψ g (Z); Y ) −<br />

Y<br />

]<br />

f(y; ψ 0 ) ln f Mg (y; ˆψ g (Z))dy . (4.6)<br />

Pour estimer ce biais, il définit une norme (‖.‖ 0 ) <strong>et</strong> un produit scalaire (< ., . > 0 ) à partir <strong>de</strong><br />

l’information <strong>de</strong> Fisher J(ψ 0 ), via l’approximation quadratique <strong>de</strong> D(ψ g , ψ 0 , Φ) par W (ψ g , ψ 0 )<br />

obtenue en utilisant la formule <strong>de</strong> Taylor (avec Φ(1) = −2 ln(1) = 0) :<br />

W (ψ g , ψ 0 ) = (ψ g − ψ 0 ) T J(ψ 0 )(ψ g − ψ 0 ).<br />

Ainsi pour un modèle M g , il obtient par Pythagore :<br />

D( ˆψ g (Z), ψ 0 ) ≃ W ( ˆψ g (Z), ψ 0 ) = ‖ ˆψ g (Z) − ψ 0 ‖ 2 0<br />

= ‖ψ 0|Kg − ψ 0 ‖ 2 0 + ‖ ˆψ g (Z) − ψ 0|Kg ‖ 2 0;<br />

avec ψ 0|Kg la projection <strong>de</strong> ψ 0 sur Ψ Kg , la métrique <strong>de</strong> l’information.<br />

Pour estimer R(ψ 0 ), il utilise donc E Z [W ( ˆψ g (Z), ψ 0 )]. Finalement après évaluation <strong>de</strong>s différents<br />

termes, il trouve<br />

nE Z [W ( ˆψ g (Z), ψ 0 )] ≃ n ˆD n ( ˆψ g (Z), ˆψ 0 (Z)) + 2 K g<br />

}{{}<br />

− K m ,<br />

≃ B(K g)<br />

où K g est la dimension du modèle M g étudié, K m la dimension maximale. C<strong>et</strong>te expression<br />

ayant K m i<strong>de</strong>ntique pour tous les sous-modèles considérés, la pénalité r<strong>et</strong>enue est 2K g .<br />

Finalement, le critère AIC est plus connu sous la forme analogue<br />

<strong>et</strong> le modèle sélectionné satisfait :<br />

AIC g = −2 ln(f Mg (Y, ˆψ g )) + 2K g ,<br />

M AIC =<br />

arg min AIC g .<br />

M g∈{M 1 ,...,M m}<br />

110

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!