23.12.2013 Views

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

4.2. Sélection <strong>de</strong> modèle mélange<br />

ξ T = (θ1 T , ..., θT G<br />

). Nous avons donc finalement pour un mélange gaussien discr<strong>et</strong><br />

∀G ∈ N ∗ , ∀ψ G ∈<br />

(<br />

Π G × (R d ) G × (S d +) G) , f(.; ψ G ) =<br />

G∑<br />

π i f N (.; θ i ). (4.7)<br />

Nous pouvons ainsi définir l’ensemble <strong>de</strong>s mélanges gaussiens à G <strong>composantes</strong> comme l’ensemble<br />

<strong>de</strong>s <strong>de</strong>nsités qui appartiennent à<br />

{<br />

}<br />

G∑<br />

M G = f(.; ψ G ) = π i f N (.; θ i ) | ψ G = (π 1 , ..., π G , θ 1 , ..., θ G ) ∈ Ψ G ,<br />

i=1<br />

avec Ψ G ⊂ Π G × (R d × S d +) G . Notons par la suite Θ G = (R d × S d +) G .<br />

En fait, Baudry (2009) considère un sous-ensemble <strong>de</strong> M G pour pouvoir mener à bien l’étu<strong>de</strong><br />

d’un nouvel estimateur ainsi que ses propriétés <strong>de</strong> convergence. Il propose le nouvel ensemble<br />

˜M G =<br />

{(π 1 f N (.; θ 1 ), ..., π G f N (.; θ G )) | (π 1 , ..., π G ) ∈ Π G , (θ 1 , ..., θ G ) ∈ (R d × S d +) G}<br />

afin d’éviter les problèmes <strong>de</strong> non-i<strong>de</strong>ntifiabilité (dus aux possibles permutations) qui empêchent<br />

un “mapping” unique entre l’espace <strong>de</strong>s paramètres <strong>et</strong> l’ensemble <strong>de</strong>s modèles mélanges<br />

qui en sont issus. Comme discuté en section 3.1.2, la non-i<strong>de</strong>ntifiabilité peut s’éviter en<br />

imposant <strong>de</strong>s contraintes sur les paramètres (π 1 < ... < π G par exemple). Dans la pratique,<br />

Keribin (1999) se satisfait <strong>de</strong> l’i<strong>de</strong>ntifiabilité “faible” (autorisation du “label switching”) pour<br />

obtenir ses résultats <strong>de</strong> convergence du maximum <strong>de</strong> vraisemblance : imposer π i > 0 (∀i) <strong>et</strong><br />

θ i ≠ θ k (i ≠ k) dans le contexte <strong>de</strong>s mélanges gaussiens suffit à la garantir. Baudry (2009)<br />

travaille dans l’ensemble ˜M G <strong>et</strong> ne suppose donc pas d’hypothèse garantissant l’i<strong>de</strong>ntifiabilité<br />

faible ou forte <strong>de</strong>s mélanges.<br />

Comme vu dans les parties 3.1.1 <strong>et</strong> 3.1.3, les données complètes pour l’individu j sont les<br />

paires (Y j , Z j ) dont la <strong>de</strong>nsité est donnée ici par<br />

f(y j , z j ; ψ G ) =<br />

G∏<br />

[π i f N (y j ; θ i )] z ij<br />

.<br />

i=1<br />

En eff<strong>et</strong>, nous pouvons vérifier que la loi <strong>de</strong> ce couple définit bien la loi mélange <strong>de</strong> l’équation<br />

(4.7) pour Y, sachant que Z est une loi multinomiale (les Y 1 , ..., Y n , <strong>de</strong> même que les<br />

Z 1 , ..., Z n , sont <strong>de</strong>s échantillons i.i.d.). C<strong>et</strong>te remarque est la clef <strong>de</strong> voûte pour l’implémentation<br />

<strong>de</strong> l’algorithme EM qui maximise la log-vraisemblance du vecteur Y tout en considèrant<br />

le problème aux données complètes. Redner and Walker (1984) prouvent la monotonie <strong>et</strong> la<br />

convergence <strong>de</strong> c<strong>et</strong> algorithme, qui en font aujourd’hui l’outil le plus utilisé pour ce type <strong>de</strong><br />

problème. Les auteurs avertissent toutefois les utilisateurs du comportement parfois étrange<br />

<strong>de</strong> l’algorithme EM pour calibrer <strong>de</strong>s mélanges, à cause <strong>de</strong> problèmes bien connus (valeurs<br />

initiales <strong>de</strong> l’algorithme, non-convexité <strong>de</strong> la vraisemblance, convergence vers <strong>de</strong>s maxima<br />

locaux, bornitu<strong>de</strong>) liés à la complexité <strong>de</strong> la fonction <strong>de</strong> vraisemblance. Ces difficultés sont<br />

d’autant plus flagrantes que les <strong>composantes</strong> du mélange ne sont pas bien séparées, donc que<br />

la multimodalité <strong>de</strong>s données n’est pas évi<strong>de</strong>nte. Malheureusement ce sera bien souvent le cas<br />

dans les <strong>application</strong>s.<br />

D’un point <strong>de</strong> vue pratique, la convergence vers un maximum local s’explique soit par <strong>de</strong>s<br />

valeurs initiales <strong>de</strong> l’algorithme mal choisies ; soit par un p<strong>et</strong>it groupe d’observations très<br />

i=1<br />

117

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!