Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Chapitre 4. Sélection <strong>de</strong> mélange <strong>de</strong> <strong>GLMs</strong><br />
Ici le second terme domine <strong>et</strong> tend vers +∞ lorsque n → ∞, donc les modèles M g sont encore<br />
une fois disqualifiés.<br />
Pour résumer, c’est donc le terme en ln n obtenu par l’approximation <strong>de</strong> Laplace qui<br />
perm<strong>et</strong> au critère BIC <strong>de</strong> converger ! Que se passe-t-il si la famille <strong>de</strong>s modèles considérée est<br />
mal spécifiée (i.e. que le modèle théorique n’appartient pas à c<strong>et</strong>te famille) ? L’hypothèse liée<br />
à c<strong>et</strong>te question n’apparait nulle part dans la construction du critère BIC, pourtant certains<br />
auteurs l’ont posé sans justifier son utilité. Ce que nous savons, c’est que le BIC converge<br />
en probabilité vers le quasi-vrai modèle lorsqu’il est unique. Cependant, le quasi-vrai modèle<br />
peut être très éloigné en distance KL du modèle théorique.<br />
Le critère AIC De <strong>nombre</strong>ux papiers comparent les performances obtenues par AIC <strong>et</strong> BIC<br />
en termes <strong>de</strong> sélection <strong>de</strong> modèle, dans le but <strong>de</strong> désigner un “meilleur” critère. En réalité,<br />
ces <strong>de</strong>ux critères ne sont pas comparables car ils poursuivent <strong>de</strong>ux objectifs bien différents.<br />
BIC cherche à maximiser la probabilité a posteriori que le modèle sélectionné soit le modèle<br />
théorique, alors que AIC essaie d’atteindre le meilleur compromis biais-variance.<br />
Dans la pratique, BIC sélectionne rapi<strong>de</strong>ment <strong>de</strong>s modèles <strong>de</strong> dimension plus p<strong>et</strong>ite que AIC<br />
(dès que n > 7 car ln(7) ≃ 2 dans le terme <strong>de</strong> pénalité). Il est alors logique <strong>de</strong> se poser la<br />
question <strong>de</strong> la consistance pour la dimension du critère AIC. Comme nous l’avons vu dans la<br />
construction du critère, le modèle r<strong>et</strong>enu est :<br />
M AIC =<br />
arg min (−2 ln f Mg (Y, ˆψ g ) + 2K g ).<br />
M g∈{M 1 ,...,M m}<br />
Avec le même raisonnement asymptotique que celui utilisé dans le cas du BIC, nous pouvons<br />
montrer que AIC n’est pas consistant pour la dimension. En eff<strong>et</strong>,<br />
g < t : AIC g − AIC t ≃ 2n[ ˆd KL (f 0 , M g ) − ˆd KL (f 0 , M t )] + 2(K g − K t )<br />
g > t : AIC g − AIC t ≃ −χ 2 K g−K t<br />
+ 2(K g − K t )<br />
Dans le premier cas, les modèles M g sont asymptotiquement disqualifiés pour les mêmes<br />
raisons que précé<strong>de</strong>mment. Par contre, la probabilité <strong>de</strong> disqualifier les modèles “surdimensionnés”<br />
ne tend pas vers 0 dans le <strong>de</strong>uxième cas, puisque le terme <strong>de</strong> pénalité ne diverge<br />
pas. AIC n’est donc pas consistant pour la dimension. Cependant, AIC a d’autres propriétés<br />
intéressantes. Rappelons que ce critère a pour objectif <strong>de</strong> minimiser l’espérance <strong>de</strong> la distance<br />
KL :<br />
[ ∫ ( ) ]<br />
f 0 (y)<br />
M AIC = arg min E ln<br />
M g∈{M 1 ,...,M m} Y f Mg (y, ˆψ<br />
f 0 (y)dy<br />
g )<br />
(<br />
[ ∫ (<br />
= arg min ˆd KL (f 0 fMg (y, ¯ψ<br />
) ])<br />
g )<br />
, M g ) + E ln<br />
M g∈{M 1 ,...,M m}<br />
Y f Mg (y, ˆψ<br />
f 0 (y)dy ,<br />
g )<br />
avec ¯ψ g est la valeur <strong>de</strong> ψ g qui minimise la distance KL entre f 0 <strong>et</strong> f Mg (., ψ g ).<br />
Dans c<strong>et</strong>te <strong>de</strong>rnière expression, le premier terme désigne le biais (distance du modèle M g à f 0 )<br />
alors que le <strong>de</strong>uxième terme mesure la variance (difficulté d’estimer f Mg (y, ¯ψ g )). Le modèle<br />
sélectionné par AIC réalise donc le meilleur compromis biais-variance parmi l’ensemble <strong>de</strong>s<br />
modèles, <strong>et</strong> est dit à ce titre efficace. Contrairement à ce qui est souvent dit, AIC dépend <strong>de</strong><br />
la taille d’échantillon n car il somme sur les échantillons la distance KL entre f 0 <strong>et</strong> f Mg (., ¯ψ g ).<br />
114