Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
4.1.4 Notion <strong>de</strong> consistance pour la dimension<br />
4.1. Théorie <strong>de</strong> l’information <strong>et</strong> sélection <strong>de</strong> modèle<br />
Le critère BIC Nous pouvons montrer <strong>de</strong> manière rigoureuse que le critère BIC associé à<br />
l’estimateur du maximum <strong>de</strong> vraisemblance est consistant, dans le sens où il sélectionne parmi<br />
un ensemble <strong>de</strong> modèles le modèle qui tend à être le modèle théorique. Notons au passage que<br />
la pénalité du critère BIC satisfait les conditions <strong>de</strong> Nishii (1988) évoquées en section 4.1.3.<br />
Il est également intéressant <strong>de</strong> donner une interprétation intuitive <strong>de</strong> c<strong>et</strong>te “consistance<br />
pour la dimension”, grâce à la notion <strong>de</strong> quasi-vrai modèle. Supposons que les modèles M 1 ,<br />
M 2 , ..., M m sont emboîtés ; <strong>et</strong> notons ˆd KL (f 0 , M g ) la plus p<strong>et</strong>ite distance KL <strong>de</strong> f 0 au modèle<br />
M g :<br />
ˆd KL (f 0 , M g ) = inf d KL (f 0 (.), f Mg (., ψ g )).<br />
ψ g∈Ψ g<br />
ˆd KL est logiquement décroissante en fonction <strong>de</strong> la dimension K g associée au modèle M g .<br />
Soit M t le modèle à partir duquel c<strong>et</strong>te distance ne diminue plus (il y a toujours existence<br />
<strong>de</strong> ce modèle). Selon le critère <strong>de</strong> distance KL, M t est préférable à tous les sous-modèles M g<br />
(g ∈ 1, t−1) puisqu’il est plus fidèle à f 0 . De la même façon, M t est préférable à tous les surmodèles<br />
M g (g ∈ t + 1, m) car ils sont plus complexes sans pour autant apporter davantage<br />
<strong>de</strong> précision (risque “d’overfitting”). On dit que le critère BIC est consistant pour ce modèle<br />
M t particulier, appelé quasi-vrai modèle. Nous nous intéressons à l’étu<strong>de</strong> <strong>de</strong> la différence<br />
Cas où g < t :<br />
BIC g − BIC t , g ≠ t <strong>et</strong> n → ∞.<br />
BIC g − BIC t = −2 ln(f Mg (Y, ˆψ g )) + K g ln n −<br />
[<br />
−2 ln(f Mt (Y, ˆψ<br />
]<br />
t )) + K t ln n<br />
= −2 ln(f Mg (Y, ˆψ g )) + 2 ln(f Mt (Y, ˆψ t )) + (K g − K t ) ln n<br />
⎡<br />
⎤<br />
= 2n ⎣− 1 n∑<br />
ln(f Mg (y j ,<br />
n<br />
ˆψ g )) + 1 n∑<br />
ln(f Mt (y j ,<br />
n<br />
ˆψ t )) ⎦ + (K g − K t ) ln n<br />
⎡<br />
= 2n ⎣ 1 n<br />
j=1<br />
(<br />
)<br />
n∑ f 0 (y j )<br />
ln<br />
f Mg (y j , ˆψ<br />
− 1<br />
g ) n<br />
j=1<br />
j=1<br />
( )<br />
n∑<br />
⎤ f 0 (y j )<br />
ln<br />
f Mt (y j , ˆψ<br />
⎦ + (K g − K t ) ln n.<br />
t )<br />
D’après Ripley (1995), les <strong>de</strong>ux sommes sont <strong>de</strong>s estimateurs consistants <strong>de</strong> ˆd KL (f 0 , M g ) <strong>et</strong><br />
ˆd KL (f 0 , M t ). Nous obtenons<br />
[<br />
BIC g − BIC t ≃ 2n ˆdKL (f 0 , M g ) − ˆd<br />
]<br />
KL (f 0 , M t ) + (K g − K t ) ln n.<br />
Asymptotiquement, le premier terme en n domine par rapport au <strong>de</strong>uxième terme en ln n,<br />
<strong>et</strong> tend vers +∞ lorsque n → ∞. Cela signifie que les modèles M g sont asymptotiquement<br />
disqualifiés car le BIC doit être minimisé, or BIC g >> BIC t . Nous ne tendons donc pas à<br />
sous-estimer la dimension réelle du modèle.<br />
Cas où g > t : le terme 2 ln(f Mg (Y, ˆψ g )) − 2 ln(f Mt (Y, ˆψ t )) correspond à la statistique du<br />
rapport <strong>de</strong> vraisemblance pour <strong>de</strong>s modèles emboîtés, qui sous l’hypothèse H 0 (selon laquelle<br />
ψ = ˆψ t ) suit asymptotiquement une loi du χ 2 à (K g − K t ) <strong>de</strong>grés <strong>de</strong> liberté. D’où<br />
j=1<br />
BIC g − BIC t ≃ −χ 2 (K g−K t) + (K g − K t ) ln n.<br />
113