Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
3.1. Formalisation <strong>de</strong> la théorie<br />
En général, G est fini mais inconnu <strong>et</strong> doit donc être estimé inférentiellement à partir <strong>de</strong>s<br />
données. Les probabilités d’appartenance à tel ou tel groupe doivent être estimées en même<br />
temps, <strong>de</strong> même que les <strong>de</strong>nsités f i (.) <strong>de</strong> chaque composante. Pour comprendre l’interprétation<br />
<strong>de</strong> la modélisation par mélange, une bonne métho<strong>de</strong> consiste à essayer <strong>de</strong> le générer. Pour<br />
simuler la variable Y j , nous définissons la variable Z j d’appartenance à une composante par<br />
⎧<br />
1 avec probabilité π 1 si l’individu j appartient au groupe 1,<br />
⎪⎨<br />
2 avec probabilité π 2 si l’individu j appartient au groupe 2,<br />
Z j =<br />
...<br />
⎪⎩<br />
G avec probabilité π G si l’individu j appartient au groupe G,<br />
<strong>et</strong> la <strong>de</strong>nsité conditionnelle <strong>de</strong> Y j est donnée par f Yj |Z j =i(y j ) = f i (y j ). Nous pouvons donc<br />
voir Z j comme le vecteur aléatoire Z j = (Z j1 , Z j2 , ..., Z jG ) T où<br />
{<br />
1 si la composante d’appartenance <strong>de</strong> Y j dans le mélange est la i e ,<br />
Z ij = (Z j ) i =<br />
0 sinon.<br />
Ainsi, Z j suit une loi multinomiale <strong>et</strong> l’on note Z j ∼ Mult G (1, π) avec π = (π 1 , ..., π G ) T . Nous<br />
avons donc<br />
P (Z j = z j ) = π z 1j<br />
1 ...πz Gj<br />
G .<br />
Les mélanges peuvent être vus comme une alternative entre un modèle complètement paramétrique<br />
<strong>et</strong> un modèle non-paramétrique. Dans le cas non-paramétrique, nous r<strong>et</strong>rouvons<br />
l’estimateur à noyau <strong>de</strong> la <strong>de</strong>nsité en prenant G = n <strong>composantes</strong> (où n est le <strong>nombre</strong> d’observations),<br />
<strong>de</strong>s poids tous égaux π = 1/n <strong>et</strong> f i (y j ) = 1 h k( y j−y i<br />
h<br />
) où k(.) est une <strong>de</strong>nsité. A<br />
l’inverse, si l’on fixe G = 1 composante, alors le modèle <strong>de</strong>vient complètement paramétrique.<br />
Nous nous intéressons dans la suite aux cas où G ∈ 1; n.<br />
Nous l’avons dit en introduction : la multimodalité <strong>de</strong>s données peut ne pas provenir d’un<br />
mélange. Il est possible <strong>de</strong> détecter ceci par l’usage du test du ratio <strong>de</strong> vraisemblance, mais<br />
la difficulté vient du fait que nous ne connaissons pas la distribution <strong>de</strong> la statistique <strong>de</strong> test<br />
sous l’hypothèse nulle dans ce cadre-là. Nous utilisons alors une approche <strong>de</strong> reéchantillonage<br />
qui perm<strong>et</strong> d’obtenir une p-valeur <strong>de</strong> test sans connaître c<strong>et</strong>te statistique (McLachlan and<br />
Peel (2000), p.75). La clef pour l’estimation <strong>de</strong>s paramètres d’un mélange est <strong>de</strong> reformaliser<br />
le problème <strong>de</strong> données incomplètes sous forme d’un problème aux données complètes : en<br />
eff<strong>et</strong>, nous ne connaissons pas le groupe d’appartenance <strong>de</strong> chaque observation dans la réalité,<br />
mais l’introduction <strong>de</strong> la variable Z j va nous perm<strong>et</strong>tre <strong>de</strong> mener directement l’estimation par<br />
maximum <strong>de</strong> vraisemblance par l’algorithme espérance-maximisation (EM). Dans un contexte<br />
bayésien (le nôtre est fréquentiste), c<strong>et</strong>te vision du problème perm<strong>et</strong> d’estimer les paramètres<br />
par <strong>de</strong>s métho<strong>de</strong>s <strong>de</strong> type MCMC (Monte Carlo Markov Chain).<br />
En résumé, nous observons y = (y 1 , ..., y n ), réalisations <strong>de</strong> Y = (Y 1 , ..., Y n ) issues <strong>de</strong> la<br />
même <strong>de</strong>nsité mélange donnée par (3.1). Ces observations sont i.i.d. <strong>et</strong> nous avons<br />
Y 1 , ..., Y n ∼ F = F (Y j ).<br />
⎛ ⎞<br />
(y 1 , z 1 )<br />
Les données complètes, notées y c , s’exprimeraient donc comme y c = ⎜(y 2 , z 2 )<br />
⎟<br />
⎝ ... ⎠ .<br />
(y n , z n )<br />
71