23.12.2013 Views

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Chapitre 3. Mélange <strong>de</strong> régressions logistiques<br />

d’un mélange (McLachlan and Peel (2000), p.15), bien que dans notre cas l’asymétrie est<br />

telle qu’il ne fait aucun doute qu’une simple transformation ne pourrait pas modéliser toute<br />

l’hétérogénéité présente dans nos données. Le cas le plus classique <strong>de</strong> la modélisation par<br />

mélange concerne les mélanges <strong>de</strong> lois normales, pour lesquels un grand <strong>nombre</strong> <strong>de</strong> résultats<br />

existe. Les modèles mélanges sont aussi régulièrement utilisés dans <strong>de</strong>s problèmatiques <strong>de</strong><br />

classification non-supervisée puisqu’ils assignent un composante donnée à chaque observation,<br />

ce qui constitue un clustering en soi.<br />

La première partie développe l’aspect théorique <strong>de</strong>s modèles mélange, les points importants<br />

à abor<strong>de</strong>r lors <strong>de</strong> leur utilisation <strong>et</strong> les pièges à éviter. En ce qui concerne l’<strong>application</strong>, nous<br />

verrons ensuite les outils pratiques <strong>de</strong> présentation <strong>de</strong>s résultats <strong>de</strong> la modélisation à travers<br />

un cas pratique (toujours basé sur les contrats mixtes en Espagne).<br />

3.1 Formalisation <strong>de</strong> la théorie<br />

La modélisation par mélange renvoie aux problèmes usuels suivants : i<strong>de</strong>ntifiabilité, estimation<br />

<strong>de</strong>s paramètres, propriétés <strong>de</strong> l’estimateur du maximum <strong>de</strong> vraisemblance, évaluation<br />

du <strong>nombre</strong> <strong>de</strong> <strong>composantes</strong> du mélange, <strong>application</strong> <strong>de</strong> la théorie asymptotique pour fournir<br />

une base <strong>de</strong> solutions à certains problèmes, critères <strong>de</strong> sélection <strong>et</strong> <strong>de</strong> performance du modèle.<br />

L’estimation <strong>de</strong>s paramètres d’un mélange est un <strong>de</strong>s axes <strong>de</strong> recherche ayant attiré le plus<br />

<strong>de</strong> chercheurs car <strong>de</strong> <strong>nombre</strong>uses questions subsistent encore aujourd’hui ; parmi lesquelles<br />

les valeurs initiales <strong>de</strong> l’algorithme d’optimisation qui maximise la vraisemblance, les critères<br />

d’arrêt <strong>de</strong> c<strong>et</strong> algorithme <strong>et</strong> les propriétés <strong>de</strong> la fonction <strong>de</strong> vraisemblance (convexité, bornitu<strong>de</strong>).<br />

Nous allons dans c<strong>et</strong>te partie tenter <strong>de</strong> résumer l’ensemble <strong>de</strong> ces problématiques afin <strong>de</strong><br />

donner au lecteur une base théorique qui lui perm<strong>et</strong>te d’appréhen<strong>de</strong>r ce type <strong>de</strong> modélisation,<br />

qui servira <strong>de</strong> socle dans toute la suite <strong>de</strong> la thèse.<br />

3.1.1 Généralités<br />

Nous formalisons l’approche par mélange dans le cadre d’un mélange discr<strong>et</strong> car elle correspond<br />

à notre cas d’étu<strong>de</strong> opérationnelle, <strong>et</strong> <strong>de</strong>meure <strong>de</strong> plus bien plus intuitive lorsque<br />

nous nous intéressons à <strong>de</strong>s questions <strong>de</strong> classification. Néanmoins, toutes les notions développées<br />

ci-<strong>de</strong>ssous peuvent être adaptées au cas continu, ce qui veut dire que la distribution<br />

mélangeante est continue (nous verrons qu’elle est multinomiale dans le cas discr<strong>et</strong>).<br />

Soit Y = (Y1 T , ..., Y n T ) T un échantillon aléatoire indépendant <strong>et</strong> i<strong>de</strong>ntiquement distribué<br />

(i.i.d.). Chaque enregistrement Y j <strong>de</strong> c<strong>et</strong> échantillon contient q mesures, d’où un vecteur aléatoire<br />

q-dimensionnel (q = 1 pour nous car la décision <strong>de</strong> rachat est univariée). Dans le contexte<br />

<strong>de</strong>s mélanges <strong>et</strong> par la formule <strong>de</strong>s probabilités totales, il vient<br />

f(y j ) =<br />

G∑<br />

π i f i (y j ), (3.1)<br />

i=1<br />

où f(y j ) est la <strong>de</strong>nsité <strong>de</strong> Y j dans R q , π i est la proportion (poids) a priori <strong>de</strong> la i e composante<br />

du mélange, f i (y j ) est la <strong>de</strong>nsité <strong>de</strong> la i e composante du mélange, avec la contrainte ∑ i π i = 1.<br />

La matrice Y <strong>de</strong>s observations est <strong>de</strong> taille n × q. On dit que f(y j ) est la <strong>de</strong>nsité d’un mélange<br />

fini à G <strong>composantes</strong>, <strong>et</strong> on note F (y j ) la distribution du mélange. Chaque individu est donc<br />

censé provenir d’un <strong>de</strong>s groupes composant le mélange.<br />

70

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!