Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
4.1. Théorie <strong>de</strong> l’information <strong>et</strong> sélection <strong>de</strong> modèle<br />
Le critère BIC<br />
La plupart <strong>de</strong>s publications utilisent le critère BIC comme critère <strong>de</strong> sélection <strong>de</strong> modèle.<br />
Dans le domaine <strong>de</strong> la mé<strong>de</strong>cine par exemple, Mun <strong>et</strong> al. (2008) sélectionnent par BIC un<br />
mélange gaussien multivarié pour modéliser le risque d’une prise abusive d’alcool en fonction<br />
<strong>de</strong> certains facteurs environnementaux. Nous suivons dans ce paragraphe les excellentes présentations<br />
<strong>de</strong> Raftery (1994) <strong>et</strong> Lebarbier and Mary-Huard (2004) <strong>de</strong> l’article à l’origine du<br />
critère BIC (Schwarz (1978)).<br />
Dans un contexte bayésien nous considérons les modèles M g <strong>et</strong> les paramètres ψ g comme<br />
<strong>de</strong>s variables aléatoires. Ils adm<strong>et</strong>tent donc <strong>de</strong>s distributions a priori, respectivement P (M g ) <strong>et</strong><br />
P (ψ g |M g ), ce qui serait utile pour intégrer <strong>de</strong>s informations particulières que nous connaîtrions<br />
au préalable (bien que souvent P (M g ) soit non-informative, c’est à dire uniforme). De toute<br />
façon c<strong>et</strong>te information n’apparaît pas dans la composition finale du critère BIC, pour <strong>de</strong>s<br />
raisons d’approximation asymptotique.<br />
Le modèle M g sélectionné par BIC maximise la probabilité a posteriori P (M g |Y ), d’où :<br />
M BIC =<br />
arg max P (M g |Y ).<br />
M g∈{M 1 ,...,M m}<br />
BIC cherche donc à sélectionner le modèle le plus probable au vu <strong>de</strong>s données.<br />
D’après la formule <strong>de</strong> Bayes, nous avons :<br />
P (M g |Y ) = P (Y |M g)P (M g )<br />
.<br />
P (Y )<br />
La loi a priori <strong>de</strong>s modèles M g est supposée non-informative : P (M 1 ) = P (M 2 ) = ... =<br />
P (M m ). Nous réalisons donc qu’il suffit <strong>de</strong> calculer P (Y |M g ) pour effectuer notre choix. Ainsi<br />
par la formule <strong>de</strong>s probabilités totales, il vient<br />
∫<br />
P (Y |M g ) = P (Y, ψ g |M g )dψ g<br />
ψ<br />
∫<br />
g<br />
= P (Y |ψ g , M g )P (ψ g |M g )dψ g (Bayes)<br />
ψ<br />
∫<br />
g<br />
= f Mg (Y, ψ g )P (ψ g |M g )dψ g ,<br />
ψ g<br />
où f Mg (Y, θ g ) est la vraisemblance du modèle M g <strong>de</strong> paramètre ψ g . C<strong>et</strong>te intégrale peut<br />
s’exprimer sous la forme<br />
P (Y |M g ) =<br />
∫<br />
e f(ψg) dψ g<br />
ψ g<br />
, où f(ψ g ) = ln(f Mg (Y, ψ g )P (ψ g |M g )).<br />
C<strong>et</strong>te formule nous fait naturellement penser à celle <strong>de</strong> la transformée <strong>de</strong> Laplace, d’où l’utilisation<br />
<strong>de</strong> la métho<strong>de</strong> d’approximation <strong>de</strong> Laplace pour calculer c<strong>et</strong>te probabilité.<br />
Proposition 6. (Approximation <strong>de</strong> Laplace). Soit une fonction L : R d → R telle que L est<br />
C 2 sur R d <strong>et</strong> atteint un unique maximum sur R d en u ⋆ . Alors<br />
∫<br />
R<br />
( ) d<br />
e nL(u) du = e nL(u⋆ ) 2π 2 ′′<br />
‖−L (u ⋆ )‖ − 1 2 + O(n −1 )<br />
n<br />
111