23.12.2013 Views

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

4.2. Sélection <strong>de</strong> modèle mélange<br />

Le bilan <strong>de</strong> l’étu<strong>de</strong> <strong>de</strong> ces <strong>de</strong>ux critères est qu’il n’existe pas <strong>de</strong> critère universellement<br />

meilleur. La connaissance <strong>de</strong>s données <strong>et</strong> le but <strong>de</strong> l’expérimentateur (modèle explicatif ou<br />

prédictif) doivent conditionner le choix du critère <strong>de</strong> sélection. En pratique <strong>et</strong> dans le contexte<br />

<strong>de</strong>s mélanges, il est bien connu que ces <strong>de</strong>ux critères ont tendance à surestimer le <strong>nombre</strong><br />

théorique <strong>de</strong> <strong>composantes</strong> (voir le cas <strong>de</strong> modèle mal spécifié dans Baudry (2009)). Cela semble<br />

également être le cas dans nos <strong>application</strong>s, où nous avons noté <strong>de</strong> fortes ressemblances entre<br />

<strong>composantes</strong> d’un même mélange.<br />

4.2 Sélection <strong>de</strong> modèle mélange<br />

Comme nous l’avons vu précé<strong>de</strong>mment, l’utilisation <strong>de</strong> la modélisation mélange a explosé<br />

<strong>de</strong>puis la parution <strong>de</strong> l’article <strong>de</strong> Dempster <strong>et</strong> al. (1977). Par conséquent savoir pourquoi choisir<br />

tel ou tel modèle mélange a suscité l’intérêt <strong>de</strong> beaucoup <strong>de</strong> chercheurs, sans pour autant qu’il<br />

n’émerge une solution universelle pour répondre à la question du choix du <strong>nombre</strong> <strong>de</strong> <strong>composantes</strong>.<br />

De <strong>nombre</strong>ux articles sont consacrés au développement <strong>de</strong> métho<strong>de</strong>s <strong>de</strong> calibration<br />

d’un mélange, mais celles-ci souffrent régulièrement d’un manque <strong>de</strong> justification théorique.<br />

Bien souvent, les propriétés <strong>de</strong> convergence <strong>de</strong>s critères <strong>de</strong> sélection <strong>et</strong> <strong>de</strong>s algorithmes proposés<br />

ne sont pas garanties : c’est le cas par exemple <strong>de</strong> l’algorithme SSMEM proposé par<br />

Hai Xan <strong>et</strong> al. (2004). Pour pallier le fait que l’algorithme EM ne puisse estimer directement<br />

le <strong>nombre</strong> G <strong>de</strong> <strong>composantes</strong> (G doit être spécifié a priori), Hai Xan <strong>et</strong> al. (2004) introduisent<br />

<strong>de</strong>s nouveaux critères <strong>de</strong> distance qui vont servir à déci<strong>de</strong>r itérativement d’un regroupement<br />

ou d’une division <strong>de</strong>s <strong>composantes</strong> une fois les paramètres <strong>de</strong> ces <strong>composantes</strong> estimés via<br />

l’EM. Dans le même esprit, Wenbin (2006) définit une distance entre la <strong>de</strong>nsité du mélange<br />

obtenue par l’EM <strong>et</strong> la <strong>de</strong>nsité <strong>de</strong>s observations via la métho<strong>de</strong> <strong>de</strong> Parzen (estimation par<br />

noyau gaussien). C<strong>et</strong>te distance sert <strong>de</strong> socle au choix du <strong>nombre</strong> <strong>de</strong> <strong>composantes</strong> a posteriori<br />

(après estimation par EM), en minimisant la pénalité qui y est liée. L’algorithme semble bien<br />

se comporter mais les données <strong>de</strong> test sont originellement bien séparées, ce qui ne nous perm<strong>et</strong><br />

pas d’être convaincu <strong>de</strong> sa pertinence.<br />

Une revue sur la question <strong>de</strong> l’évaluation du <strong>nombre</strong> <strong>de</strong> <strong>composantes</strong> d’un mélange est proposée<br />

dans Oliviera-Brochado and Vitorino Martins (2005). Les auteurs rappellent que le <strong>nombre</strong><br />

<strong>de</strong> <strong>composantes</strong> du mélange n’est évi<strong>de</strong>mment pas observable dans la majorité <strong>de</strong>s cas, <strong>et</strong> que<br />

cinq gran<strong>de</strong>s approches ont vu le jour : les tests d’hypothèses présentés en section 3.1.4 (<strong>et</strong><br />

donc du bootstrap sur le ratio <strong>de</strong> vraisemblance), les critères d’information (log-vraisemblance<br />

pénalisée), les critères <strong>de</strong> classification (liés à la statistique d’entropie), le ratio d’information<br />

minimum (information ratio matrix) <strong>et</strong> enfin les outils graphiques. Garel (2007) souligne la<br />

difficulté d’établir la multimodalité avec le test du ratio <strong>de</strong> vraisemblance généralisé. En eff<strong>et</strong>,<br />

le résultat classique selon lequel la distribution <strong>de</strong> la statistique <strong>de</strong> ce test suit une loi du<br />

χ 2 n’est en général pas applicable dans le cas <strong>de</strong>s mélanges. Son papier donne un aperçu <strong>de</strong>s<br />

récents développements liés à l’utilisation <strong>de</strong> c<strong>et</strong>te technique pour détecter l’hétérogénéité <strong>de</strong>s<br />

données. Une métho<strong>de</strong> consiste à utiliser le bootstrap afin <strong>de</strong> pallier à c<strong>et</strong>te difficulté : en guise<br />

d’exemple, Schlattmann (2003) étudie par <strong>de</strong>s mélanges <strong>de</strong> lois <strong>de</strong> Poisson l’homogénéité <strong>de</strong>s<br />

SMR (Standard Mortality Ratio) dus à la leucémie infantile en Allemagne dans les années<br />

1980.<br />

Etant donné nos objectifs, nous nous focalisons sur les critères <strong>de</strong> classification. Toutefois<br />

Oliviera-Brochado and Vitorino Martins (2005) effectuent <strong>de</strong>s comparaisons intéressantes<br />

entre les métho<strong>de</strong>s proposées dans la littérature suivant le type d’étu<strong>de</strong> menée : la conclusion<br />

115

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!