23.12.2013 Views

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

3.1. Formalisation <strong>de</strong> la théorie<br />

du mélange mais qui rend ψ non-i<strong>de</strong>ntifiable pour <strong>de</strong>s <strong>de</strong>nsités <strong>composantes</strong> appartenant à la<br />

même famille paramétrique. Il faut donc ajouter une contrainte supplémentaire.<br />

Soit f(y j ; ψ) = ∑ G<br />

i=1 π if i (y j ; θ i ) <strong>et</strong> f(y j ; ψ ⋆ ) = ∑ G<br />

i=1 π⋆ i f i(y j ; θi ⋆ ) <strong>de</strong>ux membres d’une famille<br />

paramétrique <strong>de</strong> mélange. C<strong>et</strong>te classe <strong>de</strong> mélanges finis est dite i<strong>de</strong>ntifiable pour ψ ∈ Ψ si<br />

f(y j ; ψ) = f(y j ; ψ ⋆ )<br />

⇕<br />

G = G ⋆ <strong>et</strong> on peut permuter les indicatrices <strong>de</strong> <strong>composantes</strong><br />

d’appartenance pour que π i = πi ⋆ <strong>et</strong> f i (y j ; θ i ) = f i (y j ; θi ⋆ ).<br />

En général, nous ajoutons <strong>de</strong>s contraintes pour palier au manque d’i<strong>de</strong>ntifiabilité dû aux<br />

permutations possibles entre <strong>composantes</strong> d’appartenance. Un détail important est à ajouter :<br />

le manque d’i<strong>de</strong>ntifiabilité est un problème important en analyse bayésienne <strong>de</strong>s mélanges lors<br />

<strong>de</strong> la simulation a posteriori <strong>de</strong> l’appartenance à un groupe donné, mais n’est pas préoccupant<br />

dans le cadre <strong>de</strong> l’estimation par maximum <strong>de</strong> vraisemblance.<br />

En <strong>de</strong>hors <strong>de</strong> l’i<strong>de</strong>ntifiabilité, un autre problème à ne pas confondre est celui <strong>de</strong> l’i<strong>de</strong>ntification<br />

: est-ce facile <strong>de</strong> savoir à quelle composante appartient une observation donnée ?<br />

La réponse dépend évi<strong>de</strong>mment <strong>de</strong> la répartition <strong>de</strong>s données. Une multimodalité prononcée<br />

sera moins problématique que <strong>de</strong>s données faiblement asymétriques, mais nous reviendrons<br />

justement sur ce point dans le <strong>de</strong>rnier chapitre.<br />

3.1.3 Algorithme espérance-maximisation (EM)<br />

C<strong>et</strong> algorithme offre <strong>de</strong>s propriétés très intéressantes pour l’optimisation <strong>de</strong> fonction <strong>de</strong><br />

vraisemblance complexe, sur un problème aux données manquantes. Ces propriétés ont été<br />

démontrées dans un article célèbre <strong>de</strong> Dempster <strong>et</strong> al. (1977), qui a permis avec la révolution<br />

informatique l’explosion <strong>de</strong> l’usage <strong>de</strong> ce type <strong>de</strong> modèle, qui jusque là <strong>de</strong>mandait <strong>de</strong> complexes<br />

<strong>et</strong> fastidieux calculs pour maximiser la vraisemblance. Nous donnons ici la version originelle<br />

<strong>de</strong> c<strong>et</strong> algorithme <strong>et</strong> son idée, sachant qu’une multitu<strong>de</strong> <strong>de</strong> développement ont <strong>de</strong>puis été<br />

proposés pour traiter <strong>de</strong>s problématiques particulières (convergence vers le maximum global,<br />

dimension <strong>de</strong>s données, y j manquantes, ...).<br />

Le principe <strong>de</strong> base <strong>de</strong> c<strong>et</strong> algorithme est <strong>de</strong> transformer le problème aux données manquantes<br />

en problème aux données complètes Y c = (Y T , Z T ) T où les Z j ∼ Mult G (1, π) <strong>et</strong> sont<br />

i.i.d. La vraisemblance <strong>de</strong>s données complètes pour une observation j vaut<br />

f(y jc ; ψ) = Π G i=1[π i f i (y j ; θ i )] z ij<br />

,<br />

d’où la log-vraisemblance <strong>de</strong>s donnés complètes sur l’échantillon entier log L c (ψ; y) = log(Π n j=1 f(y jc; ψ))<br />

qui donne après développement :<br />

log L c (ψ; y) =<br />

n∑<br />

j=1 i=1<br />

G∑<br />

z ij [log π i + log f i (y j ; θ i )]. (3.3)<br />

73

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!