Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
4.2. Sélection <strong>de</strong> modèle mélange<br />
ξ T = (θ1 T , ..., θT G<br />
). Nous avons donc finalement pour un mélange gaussien discr<strong>et</strong><br />
∀G ∈ N ∗ , ∀ψ G ∈<br />
(<br />
Π G × (R d ) G × (S d +) G) , f(.; ψ G ) =<br />
G∑<br />
π i f N (.; θ i ). (4.7)<br />
Nous pouvons ainsi définir l’ensemble <strong>de</strong>s mélanges gaussiens à G <strong>composantes</strong> comme l’ensemble<br />
<strong>de</strong>s <strong>de</strong>nsités qui appartiennent à<br />
{<br />
}<br />
G∑<br />
M G = f(.; ψ G ) = π i f N (.; θ i ) | ψ G = (π 1 , ..., π G , θ 1 , ..., θ G ) ∈ Ψ G ,<br />
i=1<br />
avec Ψ G ⊂ Π G × (R d × S d +) G . Notons par la suite Θ G = (R d × S d +) G .<br />
En fait, Baudry (2009) considère un sous-ensemble <strong>de</strong> M G pour pouvoir mener à bien l’étu<strong>de</strong><br />
d’un nouvel estimateur ainsi que ses propriétés <strong>de</strong> convergence. Il propose le nouvel ensemble<br />
˜M G =<br />
{(π 1 f N (.; θ 1 ), ..., π G f N (.; θ G )) | (π 1 , ..., π G ) ∈ Π G , (θ 1 , ..., θ G ) ∈ (R d × S d +) G}<br />
afin d’éviter les problèmes <strong>de</strong> non-i<strong>de</strong>ntifiabilité (dus aux possibles permutations) qui empêchent<br />
un “mapping” unique entre l’espace <strong>de</strong>s paramètres <strong>et</strong> l’ensemble <strong>de</strong>s modèles mélanges<br />
qui en sont issus. Comme discuté en section 3.1.2, la non-i<strong>de</strong>ntifiabilité peut s’éviter en<br />
imposant <strong>de</strong>s contraintes sur les paramètres (π 1 < ... < π G par exemple). Dans la pratique,<br />
Keribin (1999) se satisfait <strong>de</strong> l’i<strong>de</strong>ntifiabilité “faible” (autorisation du “label switching”) pour<br />
obtenir ses résultats <strong>de</strong> convergence du maximum <strong>de</strong> vraisemblance : imposer π i > 0 (∀i) <strong>et</strong><br />
θ i ≠ θ k (i ≠ k) dans le contexte <strong>de</strong>s mélanges gaussiens suffit à la garantir. Baudry (2009)<br />
travaille dans l’ensemble ˜M G <strong>et</strong> ne suppose donc pas d’hypothèse garantissant l’i<strong>de</strong>ntifiabilité<br />
faible ou forte <strong>de</strong>s mélanges.<br />
Comme vu dans les parties 3.1.1 <strong>et</strong> 3.1.3, les données complètes pour l’individu j sont les<br />
paires (Y j , Z j ) dont la <strong>de</strong>nsité est donnée ici par<br />
f(y j , z j ; ψ G ) =<br />
G∏<br />
[π i f N (y j ; θ i )] z ij<br />
.<br />
i=1<br />
En eff<strong>et</strong>, nous pouvons vérifier que la loi <strong>de</strong> ce couple définit bien la loi mélange <strong>de</strong> l’équation<br />
(4.7) pour Y, sachant que Z est une loi multinomiale (les Y 1 , ..., Y n , <strong>de</strong> même que les<br />
Z 1 , ..., Z n , sont <strong>de</strong>s échantillons i.i.d.). C<strong>et</strong>te remarque est la clef <strong>de</strong> voûte pour l’implémentation<br />
<strong>de</strong> l’algorithme EM qui maximise la log-vraisemblance du vecteur Y tout en considèrant<br />
le problème aux données complètes. Redner and Walker (1984) prouvent la monotonie <strong>et</strong> la<br />
convergence <strong>de</strong> c<strong>et</strong> algorithme, qui en font aujourd’hui l’outil le plus utilisé pour ce type <strong>de</strong><br />
problème. Les auteurs avertissent toutefois les utilisateurs du comportement parfois étrange<br />
<strong>de</strong> l’algorithme EM pour calibrer <strong>de</strong>s mélanges, à cause <strong>de</strong> problèmes bien connus (valeurs<br />
initiales <strong>de</strong> l’algorithme, non-convexité <strong>de</strong> la vraisemblance, convergence vers <strong>de</strong>s maxima<br />
locaux, bornitu<strong>de</strong>) liés à la complexité <strong>de</strong> la fonction <strong>de</strong> vraisemblance. Ces difficultés sont<br />
d’autant plus flagrantes que les <strong>composantes</strong> du mélange ne sont pas bien séparées, donc que<br />
la multimodalité <strong>de</strong>s données n’est pas évi<strong>de</strong>nte. Malheureusement ce sera bien souvent le cas<br />
dans les <strong>application</strong>s.<br />
D’un point <strong>de</strong> vue pratique, la convergence vers un maximum local s’explique soit par <strong>de</strong>s<br />
valeurs initiales <strong>de</strong> l’algorithme mal choisies ; soit par un p<strong>et</strong>it groupe d’observations très<br />
i=1<br />
117