23.12.2013 Views

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

4.2. Sélection <strong>de</strong> modèle mélange<br />

peut donc être un regroupement <strong>de</strong> <strong>composantes</strong> du mélange, typiquement si ces <strong>composantes</strong><br />

se ressemblent. Dans notre étu<strong>de</strong> nous assimilerons les classes (clusters) aux <strong>composantes</strong><br />

du mélange, dans la mesure où notre objectif est justement d’obtenir un mélange final qui<br />

perm<strong>et</strong>te <strong>de</strong> bien distinguer les groupes (<strong>composantes</strong>) entre eux. Les contraintes imposées<br />

sur l’espace <strong>de</strong>s paramètres jouent un rôle prépondérant dans la panoplie <strong>de</strong>s formes que peut<br />

prendre une composante. Pensons par exemple dans le cas gaussien à une contrainte sur la<br />

matrice <strong>de</strong> covariance <strong>de</strong> type Σ i = σi 2 I, alors les <strong>composantes</strong> ne peuvent avoir qu’une forme<br />

d’ellipsoi<strong>de</strong> parallèle aux axes définissant l’espace <strong>de</strong>s observations. Il sera donc important<br />

<strong>de</strong> visualiser la contrainte imposée en fonction <strong>de</strong> la forme <strong>de</strong>s clusters que nous souhaitons<br />

considérer.<br />

4.2.2 Le maximum <strong>de</strong> vraisemblance classifiante conditionnelle<br />

L’estimation par maximum <strong>de</strong> vraisemblance classifiante conditionnelle fait intervenir une<br />

nouvelle quantité : la vraisemblance classifiante conditionnelle. C<strong>et</strong>te fonction est issue <strong>de</strong> la<br />

vision donnée par l’algorithme EM, <strong>et</strong> se rapproche <strong>de</strong> la vraisemblance <strong>de</strong>s données complètes<br />

dont nous avons parlé dans la section précé<strong>de</strong>nte. Dans c<strong>et</strong>te partie nous exhibons dans un<br />

premier temps le lien entre vraisemblance <strong>de</strong>s données observées <strong>et</strong> vraisemblance <strong>de</strong>s données<br />

complètes, afin d’en avoir une interprétation <strong>et</strong> une représentation plus précises. Puis nous<br />

développons un exemple qui non seulement explicite la différence majeure avec l’estimation<br />

par maximum <strong>de</strong> vraisemblance, mais expose également les nouveaux problèmes auxquels nous<br />

sommes confrontés avec l’utilisation <strong>de</strong> c<strong>et</strong>te fonction. L’accent est ensuite mis sur l’étu<strong>de</strong> <strong>de</strong>s<br />

propriétés <strong>de</strong> convergence <strong>de</strong> l’estimateur découlant <strong>de</strong> c<strong>et</strong>te quantité, grâce aux théorèmes<br />

résultant <strong>de</strong> la théorie asymptotique classique que nous adaptons à notre contexte d’étu<strong>de</strong>.<br />

De la vraisemblance à la vraisemblance classifiante conditionnelle (L cc )<br />

Plusieurs auteurs ont tenté d’exploiter le lien entre la vraisemblance <strong>de</strong>s données observées<br />

<strong>et</strong> la vraisemblance <strong>de</strong>s données complètes. De ces étu<strong>de</strong>s ont émergé un bon <strong>nombre</strong> d’algorithmes<br />

divers <strong>et</strong> variés, dont le plus connu est le CEM (Classification EM). C<strong>et</strong> algorithme,<br />

proposé par Celeux and Govaert (1992), consiste à ajouter une étape d’affectation <strong>de</strong>s observations<br />

par la règle MAP entre les étapes Espérance <strong>et</strong> Maximisation <strong>de</strong> l’algorithme EM.<br />

L’optimisation est facilitée puisque les probabilités conditionnelles a posteriori d’appartenir à<br />

telle ou telle composante disparaissent dans l’expression à maximiser. Quelques années auparavant,<br />

Hathaway (1986) avait déjà remarqué qu’un terme spécifique apparaissait dans l’écriture<br />

<strong>de</strong> la vraisemblance aux données complètes, ou vraisemblance classifiante : ∀ψ G ∈ Ψ G ,<br />

ln L c (ψ G ; y, z) =<br />

=<br />

n∑<br />

j=1 i=1<br />

n∑<br />

j=1 i=1<br />

G∑<br />

z ij ln (π i f N (y j ; θ i ))<br />

G∑<br />

(<br />

z ij ln<br />

= ln L(ψ G ; y) +<br />

π i f N (y j ; θ i )<br />

∑ G<br />

k=1 π kf N (y j ; θ k )<br />

} {{ }<br />

τ i (y j ;ψ G )<br />

n∑<br />

j=1 i=1<br />

)<br />

+<br />

=1<br />

{ }} {<br />

(<br />

n∑ G∑<br />

G<br />

)<br />

∑<br />

z ij ln π k f N (y j ; θ k )<br />

j=1 i=1<br />

k=1<br />

} {{ }<br />

ln L(ψ G ;y)<br />

G∑<br />

z ij ln τ i (y j ; ψ G ) (4.8)<br />

119

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!