Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Chapitre 4. Sélection <strong>de</strong> mélange <strong>de</strong> <strong>GLMs</strong><br />
<strong>composantes</strong> gaussiennes car la “brack<strong>et</strong>ing entropy” reste finie sous certaines conditions. Les<br />
contraintes sur les frontières <strong>de</strong> l’espace <strong>de</strong> paramètres compact sont fixées grâce aux limites<br />
<strong>de</strong> la fonction <strong>de</strong> vraisemblance classifiante conditionnelle <strong>et</strong> <strong>de</strong> sa dérivée, un suj<strong>et</strong> sur lequel<br />
nous reviendrons lors <strong>de</strong> l’étu<strong>de</strong> <strong>de</strong>s mélanges <strong>de</strong> régressions linéaires.<br />
De manière plus générale, la convergence forte <strong>de</strong> l’estimateur ML cc E vers l’ensemble Ψ b G<br />
va nous perm<strong>et</strong>tre <strong>de</strong> poursuivre sur l’étu<strong>de</strong> <strong>de</strong> la convergence du critère ICL c appliqué à c<strong>et</strong><br />
estimateur. Comme précé<strong>de</strong>mment, c<strong>et</strong>te étu<strong>de</strong> s’effectuera d’abord dans un cadre général,<br />
puis nous verrons comment étendre ces résultats au contexte <strong>de</strong>s mélanges <strong>de</strong> <strong>GLMs</strong>.<br />
4.2.3 Le critère <strong>de</strong> sélection ICL<br />
Biernacki (2000) essaie <strong>de</strong> contourner la difficulté du BIC à sélectionner le bon <strong>nombre</strong> <strong>de</strong><br />
classes, particulièrement dans le cas d’un modèle mélange mal spécifié. Il veut imiter l’approche<br />
du BIC en remplaçant la vraisemblance observée par la vraisemblance classifiante. Il s’attend<br />
donc non seulement à trouver un critère qui perm<strong>et</strong>te <strong>de</strong> prendre en compte la qualité <strong>de</strong> la<br />
classification ; mais aussi à éliminer le problème <strong>de</strong> surestimation du <strong>nombre</strong> <strong>de</strong> <strong>composantes</strong><br />
du mélange, un écueil souvent observé en pratique avec l’utilisation <strong>de</strong>s critères AIC <strong>et</strong> BIC.<br />
Ce problème <strong>de</strong> surestimation s’interpréte facilement dans le cadre <strong>de</strong> mélange gaussien : si<br />
certaines observations sont proches les unes <strong>de</strong>s autres mais n’ont pas la forme d’une ellipsoï<strong>de</strong><br />
(en se plaçant dans le plan), AIC <strong>et</strong> BIC sélectionneront un modèle qui consacrera plusieurs<br />
<strong>composantes</strong> à ces observations puisque l’objectif est <strong>de</strong> “coller” au mieux à la <strong>de</strong>nsité <strong>de</strong>s<br />
données. Pourtant ces données ne semblent représenter qu’un groupe homogène, <strong>et</strong> seule une<br />
composante du mélange <strong>de</strong>vrait y être affectée dans un objectif <strong>de</strong> clustering.<br />
Le critère ICL fait partie <strong>de</strong> la classe <strong>de</strong>s critères d’information pénalisés (comme AIC <strong>et</strong><br />
BIC), ou plus exactement appartient aux critères <strong>de</strong> classification. Il a été spécialement conçu<br />
dans ce but précis, ce qui en fait un critère particulièrement adapté aux questions <strong>de</strong> clustering<br />
d’une population. A l’inverse <strong>de</strong>s critères AIC <strong>et</strong> BIC qui sélectionnent le modèle qui estime au<br />
mieux la <strong>de</strong>nsité <strong>de</strong>s observations (via la distance KL), ICL recherche plutôt le “vrai” <strong>nombre</strong><br />
<strong>de</strong> groupes (clusters) dans une population donnée. Il vise à établir le meilleur compromis<br />
entre qualité d’estimation <strong>de</strong> c<strong>et</strong>te <strong>de</strong>nsité <strong>et</strong> confiance dans l’affectation <strong>de</strong>s observations aux<br />
différentes <strong>composantes</strong> du mélange. Il s’agit donc d’un estimateur “sur mesure”, qui s’inscrit<br />
exactement dans le sens que nous voulons donner à l’utilisation <strong>de</strong>s mélanges dans notre<br />
problématique opérationnelle. Une attention particulière doit être apportée à la définition <strong>de</strong><br />
la pénalité car <strong>de</strong>s nuances existent : les premiers travaux considéraient l’entropie comme partie<br />
intégrante <strong>de</strong> la pénalité mais aucun résultat théorique n’a pu être démontré sous c<strong>et</strong> angle <strong>de</strong><br />
vue (malgré <strong>de</strong>s résultats prom<strong>et</strong>teurs dans les <strong>application</strong>s pratiques, Biernacki <strong>et</strong> al. (2006)).<br />
Baudry (2009) propose alors d’étudier la vraisemblance classifiante conditionnelle qui intègre<br />
l’entropie à la source, <strong>et</strong> redéfinit le critère ICL en l’associant à c<strong>et</strong>te nouvelle vraisemblance.<br />
La pénalité <strong>de</strong>vient du même coup i<strong>de</strong>ntique à celle du BIC, <strong>et</strong> l’estimateur utilisé dans<br />
l’expression du critère ICL diffère <strong>de</strong> l’estimateur classique du maximum <strong>de</strong> vraisemblance.<br />
Historique<br />
Le choix du modèle mélange revient dans le contexte <strong>de</strong> notre étu<strong>de</strong> au choix du <strong>nombre</strong> <strong>de</strong><br />
<strong>composantes</strong> <strong>de</strong> ce mélange. En reprenant nos notations, c<strong>et</strong>te remarque nous amène à considérer<br />
l’ensemble <strong>de</strong> modèles {M 1 , ..., M m }, où M g (g ∈ 1, m) est un mélange à g <strong>composantes</strong>,<br />
132