23.12.2013 Views

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

3.1. Formalisation <strong>de</strong> la théorie<br />

En général, G est fini mais inconnu <strong>et</strong> doit donc être estimé inférentiellement à partir <strong>de</strong>s<br />

données. Les probabilités d’appartenance à tel ou tel groupe doivent être estimées en même<br />

temps, <strong>de</strong> même que les <strong>de</strong>nsités f i (.) <strong>de</strong> chaque composante. Pour comprendre l’interprétation<br />

<strong>de</strong> la modélisation par mélange, une bonne métho<strong>de</strong> consiste à essayer <strong>de</strong> le générer. Pour<br />

simuler la variable Y j , nous définissons la variable Z j d’appartenance à une composante par<br />

⎧<br />

1 avec probabilité π 1 si l’individu j appartient au groupe 1,<br />

⎪⎨<br />

2 avec probabilité π 2 si l’individu j appartient au groupe 2,<br />

Z j =<br />

...<br />

⎪⎩<br />

G avec probabilité π G si l’individu j appartient au groupe G,<br />

<strong>et</strong> la <strong>de</strong>nsité conditionnelle <strong>de</strong> Y j est donnée par f Yj |Z j =i(y j ) = f i (y j ). Nous pouvons donc<br />

voir Z j comme le vecteur aléatoire Z j = (Z j1 , Z j2 , ..., Z jG ) T où<br />

{<br />

1 si la composante d’appartenance <strong>de</strong> Y j dans le mélange est la i e ,<br />

Z ij = (Z j ) i =<br />

0 sinon.<br />

Ainsi, Z j suit une loi multinomiale <strong>et</strong> l’on note Z j ∼ Mult G (1, π) avec π = (π 1 , ..., π G ) T . Nous<br />

avons donc<br />

P (Z j = z j ) = π z 1j<br />

1 ...πz Gj<br />

G .<br />

Les mélanges peuvent être vus comme une alternative entre un modèle complètement paramétrique<br />

<strong>et</strong> un modèle non-paramétrique. Dans le cas non-paramétrique, nous r<strong>et</strong>rouvons<br />

l’estimateur à noyau <strong>de</strong> la <strong>de</strong>nsité en prenant G = n <strong>composantes</strong> (où n est le <strong>nombre</strong> d’observations),<br />

<strong>de</strong>s poids tous égaux π = 1/n <strong>et</strong> f i (y j ) = 1 h k( y j−y i<br />

h<br />

) où k(.) est une <strong>de</strong>nsité. A<br />

l’inverse, si l’on fixe G = 1 composante, alors le modèle <strong>de</strong>vient complètement paramétrique.<br />

Nous nous intéressons dans la suite aux cas où G ∈ 1; n.<br />

Nous l’avons dit en introduction : la multimodalité <strong>de</strong>s données peut ne pas provenir d’un<br />

mélange. Il est possible <strong>de</strong> détecter ceci par l’usage du test du ratio <strong>de</strong> vraisemblance, mais<br />

la difficulté vient du fait que nous ne connaissons pas la distribution <strong>de</strong> la statistique <strong>de</strong> test<br />

sous l’hypothèse nulle dans ce cadre-là. Nous utilisons alors une approche <strong>de</strong> reéchantillonage<br />

qui perm<strong>et</strong> d’obtenir une p-valeur <strong>de</strong> test sans connaître c<strong>et</strong>te statistique (McLachlan and<br />

Peel (2000), p.75). La clef pour l’estimation <strong>de</strong>s paramètres d’un mélange est <strong>de</strong> reformaliser<br />

le problème <strong>de</strong> données incomplètes sous forme d’un problème aux données complètes : en<br />

eff<strong>et</strong>, nous ne connaissons pas le groupe d’appartenance <strong>de</strong> chaque observation dans la réalité,<br />

mais l’introduction <strong>de</strong> la variable Z j va nous perm<strong>et</strong>tre <strong>de</strong> mener directement l’estimation par<br />

maximum <strong>de</strong> vraisemblance par l’algorithme espérance-maximisation (EM). Dans un contexte<br />

bayésien (le nôtre est fréquentiste), c<strong>et</strong>te vision du problème perm<strong>et</strong> d’estimer les paramètres<br />

par <strong>de</strong>s métho<strong>de</strong>s <strong>de</strong> type MCMC (Monte Carlo Markov Chain).<br />

En résumé, nous observons y = (y 1 , ..., y n ), réalisations <strong>de</strong> Y = (Y 1 , ..., Y n ) issues <strong>de</strong> la<br />

même <strong>de</strong>nsité mélange donnée par (3.1). Ces observations sont i.i.d. <strong>et</strong> nous avons<br />

Y 1 , ..., Y n ∼ F = F (Y j ).<br />

⎛ ⎞<br />

(y 1 , z 1 )<br />

Les données complètes, notées y c , s’exprimeraient donc comme y c = ⎜(y 2 , z 2 )<br />

⎟<br />

⎝ ... ⎠ .<br />

(y n , z n )<br />

71

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!