Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Chapitre 3. Mélange <strong>de</strong> régressions logistiques<br />
d’un mélange (McLachlan and Peel (2000), p.15), bien que dans notre cas l’asymétrie est<br />
telle qu’il ne fait aucun doute qu’une simple transformation ne pourrait pas modéliser toute<br />
l’hétérogénéité présente dans nos données. Le cas le plus classique <strong>de</strong> la modélisation par<br />
mélange concerne les mélanges <strong>de</strong> lois normales, pour lesquels un grand <strong>nombre</strong> <strong>de</strong> résultats<br />
existe. Les modèles mélanges sont aussi régulièrement utilisés dans <strong>de</strong>s problèmatiques <strong>de</strong><br />
classification non-supervisée puisqu’ils assignent un composante donnée à chaque observation,<br />
ce qui constitue un clustering en soi.<br />
La première partie développe l’aspect théorique <strong>de</strong>s modèles mélange, les points importants<br />
à abor<strong>de</strong>r lors <strong>de</strong> leur utilisation <strong>et</strong> les pièges à éviter. En ce qui concerne l’<strong>application</strong>, nous<br />
verrons ensuite les outils pratiques <strong>de</strong> présentation <strong>de</strong>s résultats <strong>de</strong> la modélisation à travers<br />
un cas pratique (toujours basé sur les contrats mixtes en Espagne).<br />
3.1 Formalisation <strong>de</strong> la théorie<br />
La modélisation par mélange renvoie aux problèmes usuels suivants : i<strong>de</strong>ntifiabilité, estimation<br />
<strong>de</strong>s paramètres, propriétés <strong>de</strong> l’estimateur du maximum <strong>de</strong> vraisemblance, évaluation<br />
du <strong>nombre</strong> <strong>de</strong> <strong>composantes</strong> du mélange, <strong>application</strong> <strong>de</strong> la théorie asymptotique pour fournir<br />
une base <strong>de</strong> solutions à certains problèmes, critères <strong>de</strong> sélection <strong>et</strong> <strong>de</strong> performance du modèle.<br />
L’estimation <strong>de</strong>s paramètres d’un mélange est un <strong>de</strong>s axes <strong>de</strong> recherche ayant attiré le plus<br />
<strong>de</strong> chercheurs car <strong>de</strong> <strong>nombre</strong>uses questions subsistent encore aujourd’hui ; parmi lesquelles<br />
les valeurs initiales <strong>de</strong> l’algorithme d’optimisation qui maximise la vraisemblance, les critères<br />
d’arrêt <strong>de</strong> c<strong>et</strong> algorithme <strong>et</strong> les propriétés <strong>de</strong> la fonction <strong>de</strong> vraisemblance (convexité, bornitu<strong>de</strong>).<br />
Nous allons dans c<strong>et</strong>te partie tenter <strong>de</strong> résumer l’ensemble <strong>de</strong> ces problématiques afin <strong>de</strong><br />
donner au lecteur une base théorique qui lui perm<strong>et</strong>te d’appréhen<strong>de</strong>r ce type <strong>de</strong> modélisation,<br />
qui servira <strong>de</strong> socle dans toute la suite <strong>de</strong> la thèse.<br />
3.1.1 Généralités<br />
Nous formalisons l’approche par mélange dans le cadre d’un mélange discr<strong>et</strong> car elle correspond<br />
à notre cas d’étu<strong>de</strong> opérationnelle, <strong>et</strong> <strong>de</strong>meure <strong>de</strong> plus bien plus intuitive lorsque<br />
nous nous intéressons à <strong>de</strong>s questions <strong>de</strong> classification. Néanmoins, toutes les notions développées<br />
ci-<strong>de</strong>ssous peuvent être adaptées au cas continu, ce qui veut dire que la distribution<br />
mélangeante est continue (nous verrons qu’elle est multinomiale dans le cas discr<strong>et</strong>).<br />
Soit Y = (Y1 T , ..., Y n T ) T un échantillon aléatoire indépendant <strong>et</strong> i<strong>de</strong>ntiquement distribué<br />
(i.i.d.). Chaque enregistrement Y j <strong>de</strong> c<strong>et</strong> échantillon contient q mesures, d’où un vecteur aléatoire<br />
q-dimensionnel (q = 1 pour nous car la décision <strong>de</strong> rachat est univariée). Dans le contexte<br />
<strong>de</strong>s mélanges <strong>et</strong> par la formule <strong>de</strong>s probabilités totales, il vient<br />
f(y j ) =<br />
G∑<br />
π i f i (y j ), (3.1)<br />
i=1<br />
où f(y j ) est la <strong>de</strong>nsité <strong>de</strong> Y j dans R q , π i est la proportion (poids) a priori <strong>de</strong> la i e composante<br />
du mélange, f i (y j ) est la <strong>de</strong>nsité <strong>de</strong> la i e composante du mélange, avec la contrainte ∑ i π i = 1.<br />
La matrice Y <strong>de</strong>s observations est <strong>de</strong> taille n × q. On dit que f(y j ) est la <strong>de</strong>nsité d’un mélange<br />
fini à G <strong>composantes</strong>, <strong>et</strong> on note F (y j ) la distribution du mélange. Chaque individu est donc<br />
censé provenir d’un <strong>de</strong>s groupes composant le mélange.<br />
70