23.12.2013 Views

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

4.1.4 Notion <strong>de</strong> consistance pour la dimension<br />

4.1. Théorie <strong>de</strong> l’information <strong>et</strong> sélection <strong>de</strong> modèle<br />

Le critère BIC Nous pouvons montrer <strong>de</strong> manière rigoureuse que le critère BIC associé à<br />

l’estimateur du maximum <strong>de</strong> vraisemblance est consistant, dans le sens où il sélectionne parmi<br />

un ensemble <strong>de</strong> modèles le modèle qui tend à être le modèle théorique. Notons au passage que<br />

la pénalité du critère BIC satisfait les conditions <strong>de</strong> Nishii (1988) évoquées en section 4.1.3.<br />

Il est également intéressant <strong>de</strong> donner une interprétation intuitive <strong>de</strong> c<strong>et</strong>te “consistance<br />

pour la dimension”, grâce à la notion <strong>de</strong> quasi-vrai modèle. Supposons que les modèles M 1 ,<br />

M 2 , ..., M m sont emboîtés ; <strong>et</strong> notons ˆd KL (f 0 , M g ) la plus p<strong>et</strong>ite distance KL <strong>de</strong> f 0 au modèle<br />

M g :<br />

ˆd KL (f 0 , M g ) = inf d KL (f 0 (.), f Mg (., ψ g )).<br />

ψ g∈Ψ g<br />

ˆd KL est logiquement décroissante en fonction <strong>de</strong> la dimension K g associée au modèle M g .<br />

Soit M t le modèle à partir duquel c<strong>et</strong>te distance ne diminue plus (il y a toujours existence<br />

<strong>de</strong> ce modèle). Selon le critère <strong>de</strong> distance KL, M t est préférable à tous les sous-modèles M g<br />

(g ∈ 1, t−1) puisqu’il est plus fidèle à f 0 . De la même façon, M t est préférable à tous les surmodèles<br />

M g (g ∈ t + 1, m) car ils sont plus complexes sans pour autant apporter davantage<br />

<strong>de</strong> précision (risque “d’overfitting”). On dit que le critère BIC est consistant pour ce modèle<br />

M t particulier, appelé quasi-vrai modèle. Nous nous intéressons à l’étu<strong>de</strong> <strong>de</strong> la différence<br />

Cas où g < t :<br />

BIC g − BIC t , g ≠ t <strong>et</strong> n → ∞.<br />

BIC g − BIC t = −2 ln(f Mg (Y, ˆψ g )) + K g ln n −<br />

[<br />

−2 ln(f Mt (Y, ˆψ<br />

]<br />

t )) + K t ln n<br />

= −2 ln(f Mg (Y, ˆψ g )) + 2 ln(f Mt (Y, ˆψ t )) + (K g − K t ) ln n<br />

⎡<br />

⎤<br />

= 2n ⎣− 1 n∑<br />

ln(f Mg (y j ,<br />

n<br />

ˆψ g )) + 1 n∑<br />

ln(f Mt (y j ,<br />

n<br />

ˆψ t )) ⎦ + (K g − K t ) ln n<br />

⎡<br />

= 2n ⎣ 1 n<br />

j=1<br />

(<br />

)<br />

n∑ f 0 (y j )<br />

ln<br />

f Mg (y j , ˆψ<br />

− 1<br />

g ) n<br />

j=1<br />

j=1<br />

( )<br />

n∑<br />

⎤ f 0 (y j )<br />

ln<br />

f Mt (y j , ˆψ<br />

⎦ + (K g − K t ) ln n.<br />

t )<br />

D’après Ripley (1995), les <strong>de</strong>ux sommes sont <strong>de</strong>s estimateurs consistants <strong>de</strong> ˆd KL (f 0 , M g ) <strong>et</strong><br />

ˆd KL (f 0 , M t ). Nous obtenons<br />

[<br />

BIC g − BIC t ≃ 2n ˆdKL (f 0 , M g ) − ˆd<br />

]<br />

KL (f 0 , M t ) + (K g − K t ) ln n.<br />

Asymptotiquement, le premier terme en n domine par rapport au <strong>de</strong>uxième terme en ln n,<br />

<strong>et</strong> tend vers +∞ lorsque n → ∞. Cela signifie que les modèles M g sont asymptotiquement<br />

disqualifiés car le BIC doit être minimisé, or BIC g >> BIC t . Nous ne tendons donc pas à<br />

sous-estimer la dimension réelle du modèle.<br />

Cas où g > t : le terme 2 ln(f Mg (Y, ˆψ g )) − 2 ln(f Mt (Y, ˆψ t )) correspond à la statistique du<br />

rapport <strong>de</strong> vraisemblance pour <strong>de</strong>s modèles emboîtés, qui sous l’hypothèse H 0 (selon laquelle<br />

ψ = ˆψ t ) suit asymptotiquement une loi du χ 2 à (K g − K t ) <strong>de</strong>grés <strong>de</strong> liberté. D’où<br />

j=1<br />

BIC g − BIC t ≃ −χ 2 (K g−K t) + (K g − K t ) ln n.<br />

113

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!