23.12.2013 Views

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Chapitre 4. Sélection <strong>de</strong> mélange <strong>de</strong> <strong>GLMs</strong><br />

Ici le second terme domine <strong>et</strong> tend vers +∞ lorsque n → ∞, donc les modèles M g sont encore<br />

une fois disqualifiés.<br />

Pour résumer, c’est donc le terme en ln n obtenu par l’approximation <strong>de</strong> Laplace qui<br />

perm<strong>et</strong> au critère BIC <strong>de</strong> converger ! Que se passe-t-il si la famille <strong>de</strong>s modèles considérée est<br />

mal spécifiée (i.e. que le modèle théorique n’appartient pas à c<strong>et</strong>te famille) ? L’hypothèse liée<br />

à c<strong>et</strong>te question n’apparait nulle part dans la construction du critère BIC, pourtant certains<br />

auteurs l’ont posé sans justifier son utilité. Ce que nous savons, c’est que le BIC converge<br />

en probabilité vers le quasi-vrai modèle lorsqu’il est unique. Cependant, le quasi-vrai modèle<br />

peut être très éloigné en distance KL du modèle théorique.<br />

Le critère AIC De <strong>nombre</strong>ux papiers comparent les performances obtenues par AIC <strong>et</strong> BIC<br />

en termes <strong>de</strong> sélection <strong>de</strong> modèle, dans le but <strong>de</strong> désigner un “meilleur” critère. En réalité,<br />

ces <strong>de</strong>ux critères ne sont pas comparables car ils poursuivent <strong>de</strong>ux objectifs bien différents.<br />

BIC cherche à maximiser la probabilité a posteriori que le modèle sélectionné soit le modèle<br />

théorique, alors que AIC essaie d’atteindre le meilleur compromis biais-variance.<br />

Dans la pratique, BIC sélectionne rapi<strong>de</strong>ment <strong>de</strong>s modèles <strong>de</strong> dimension plus p<strong>et</strong>ite que AIC<br />

(dès que n > 7 car ln(7) ≃ 2 dans le terme <strong>de</strong> pénalité). Il est alors logique <strong>de</strong> se poser la<br />

question <strong>de</strong> la consistance pour la dimension du critère AIC. Comme nous l’avons vu dans la<br />

construction du critère, le modèle r<strong>et</strong>enu est :<br />

M AIC =<br />

arg min (−2 ln f Mg (Y, ˆψ g ) + 2K g ).<br />

M g∈{M 1 ,...,M m}<br />

Avec le même raisonnement asymptotique que celui utilisé dans le cas du BIC, nous pouvons<br />

montrer que AIC n’est pas consistant pour la dimension. En eff<strong>et</strong>,<br />

g < t : AIC g − AIC t ≃ 2n[ ˆd KL (f 0 , M g ) − ˆd KL (f 0 , M t )] + 2(K g − K t )<br />

g > t : AIC g − AIC t ≃ −χ 2 K g−K t<br />

+ 2(K g − K t )<br />

Dans le premier cas, les modèles M g sont asymptotiquement disqualifiés pour les mêmes<br />

raisons que précé<strong>de</strong>mment. Par contre, la probabilité <strong>de</strong> disqualifier les modèles “surdimensionnés”<br />

ne tend pas vers 0 dans le <strong>de</strong>uxième cas, puisque le terme <strong>de</strong> pénalité ne diverge<br />

pas. AIC n’est donc pas consistant pour la dimension. Cependant, AIC a d’autres propriétés<br />

intéressantes. Rappelons que ce critère a pour objectif <strong>de</strong> minimiser l’espérance <strong>de</strong> la distance<br />

KL :<br />

[ ∫ ( ) ]<br />

f 0 (y)<br />

M AIC = arg min E ln<br />

M g∈{M 1 ,...,M m} Y f Mg (y, ˆψ<br />

f 0 (y)dy<br />

g )<br />

(<br />

[ ∫ (<br />

= arg min ˆd KL (f 0 fMg (y, ¯ψ<br />

) ])<br />

g )<br />

, M g ) + E ln<br />

M g∈{M 1 ,...,M m}<br />

Y f Mg (y, ˆψ<br />

f 0 (y)dy ,<br />

g )<br />

avec ¯ψ g est la valeur <strong>de</strong> ψ g qui minimise la distance KL entre f 0 <strong>et</strong> f Mg (., ψ g ).<br />

Dans c<strong>et</strong>te <strong>de</strong>rnière expression, le premier terme désigne le biais (distance du modèle M g à f 0 )<br />

alors que le <strong>de</strong>uxième terme mesure la variance (difficulté d’estimer f Mg (y, ¯ψ g )). Le modèle<br />

sélectionné par AIC réalise donc le meilleur compromis biais-variance parmi l’ensemble <strong>de</strong>s<br />

modèles, <strong>et</strong> est dit à ce titre efficace. Contrairement à ce qui est souvent dit, AIC dépend <strong>de</strong><br />

la taille d’échantillon n car il somme sur les échantillons la distance KL entre f 0 <strong>et</strong> f Mg (., ¯ψ g ).<br />

114

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!