23.12.2013 Views

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

4.1. Théorie <strong>de</strong> l’information <strong>et</strong> sélection <strong>de</strong> modèle<br />

Le critère BIC<br />

La plupart <strong>de</strong>s publications utilisent le critère BIC comme critère <strong>de</strong> sélection <strong>de</strong> modèle.<br />

Dans le domaine <strong>de</strong> la mé<strong>de</strong>cine par exemple, Mun <strong>et</strong> al. (2008) sélectionnent par BIC un<br />

mélange gaussien multivarié pour modéliser le risque d’une prise abusive d’alcool en fonction<br />

<strong>de</strong> certains facteurs environnementaux. Nous suivons dans ce paragraphe les excellentes présentations<br />

<strong>de</strong> Raftery (1994) <strong>et</strong> Lebarbier and Mary-Huard (2004) <strong>de</strong> l’article à l’origine du<br />

critère BIC (Schwarz (1978)).<br />

Dans un contexte bayésien nous considérons les modèles M g <strong>et</strong> les paramètres ψ g comme<br />

<strong>de</strong>s variables aléatoires. Ils adm<strong>et</strong>tent donc <strong>de</strong>s distributions a priori, respectivement P (M g ) <strong>et</strong><br />

P (ψ g |M g ), ce qui serait utile pour intégrer <strong>de</strong>s informations particulières que nous connaîtrions<br />

au préalable (bien que souvent P (M g ) soit non-informative, c’est à dire uniforme). De toute<br />

façon c<strong>et</strong>te information n’apparaît pas dans la composition finale du critère BIC, pour <strong>de</strong>s<br />

raisons d’approximation asymptotique.<br />

Le modèle M g sélectionné par BIC maximise la probabilité a posteriori P (M g |Y ), d’où :<br />

M BIC =<br />

arg max P (M g |Y ).<br />

M g∈{M 1 ,...,M m}<br />

BIC cherche donc à sélectionner le modèle le plus probable au vu <strong>de</strong>s données.<br />

D’après la formule <strong>de</strong> Bayes, nous avons :<br />

P (M g |Y ) = P (Y |M g)P (M g )<br />

.<br />

P (Y )<br />

La loi a priori <strong>de</strong>s modèles M g est supposée non-informative : P (M 1 ) = P (M 2 ) = ... =<br />

P (M m ). Nous réalisons donc qu’il suffit <strong>de</strong> calculer P (Y |M g ) pour effectuer notre choix. Ainsi<br />

par la formule <strong>de</strong>s probabilités totales, il vient<br />

∫<br />

P (Y |M g ) = P (Y, ψ g |M g )dψ g<br />

ψ<br />

∫<br />

g<br />

= P (Y |ψ g , M g )P (ψ g |M g )dψ g (Bayes)<br />

ψ<br />

∫<br />

g<br />

= f Mg (Y, ψ g )P (ψ g |M g )dψ g ,<br />

ψ g<br />

où f Mg (Y, θ g ) est la vraisemblance du modèle M g <strong>de</strong> paramètre ψ g . C<strong>et</strong>te intégrale peut<br />

s’exprimer sous la forme<br />

P (Y |M g ) =<br />

∫<br />

e f(ψg) dψ g<br />

ψ g<br />

, où f(ψ g ) = ln(f Mg (Y, ψ g )P (ψ g |M g )).<br />

C<strong>et</strong>te formule nous fait naturellement penser à celle <strong>de</strong> la transformée <strong>de</strong> Laplace, d’où l’utilisation<br />

<strong>de</strong> la métho<strong>de</strong> d’approximation <strong>de</strong> Laplace pour calculer c<strong>et</strong>te probabilité.<br />

Proposition 6. (Approximation <strong>de</strong> Laplace). Soit une fonction L : R d → R telle que L est<br />

C 2 sur R d <strong>et</strong> atteint un unique maximum sur R d en u ⋆ . Alors<br />

∫<br />

R<br />

( ) d<br />

e nL(u) du = e nL(u⋆ ) 2π 2 ′′<br />

‖−L (u ⋆ )‖ − 1 2 + O(n −1 )<br />

n<br />

111

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!