23.12.2013 Views

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Chapitre 4. Sélection <strong>de</strong> mélange <strong>de</strong> <strong>GLMs</strong><br />

proches les unes <strong>de</strong>s autres qui vont constituer une composante dont la covariance va tendre<br />

vers 0, provoquant l’explosion <strong>de</strong> la vraisemblance <strong>et</strong> privilégiant c<strong>et</strong>te solution à celle du<br />

maximum global. Il faut alors par exemple fixer une borne inférieure sur la variance <strong>de</strong>s<br />

<strong>composantes</strong>. Concrètement, <strong>de</strong>s résultats asymptotiques montrent que ce problème tend à<br />

disparaitre lorsque n → +∞. Théoriquement, la difficulté majeure dans le cas <strong>de</strong> mélanges<br />

gaussiens provient <strong>de</strong> la non-bornitu<strong>de</strong> <strong>de</strong> la vraisemblance (ou sa dérivée) lorsque nous nous<br />

plaçons aux frontières <strong>de</strong> notre espace <strong>de</strong>s paramètres. D’où l’idée <strong>de</strong> considérer l’espace <strong>de</strong>s<br />

paramètres dans un ouvert, mais nous y reviendrons plus tard. La vraisemblance <strong>de</strong>s <strong>de</strong>nsités<br />

appartenant à l’ensemble M G vaut<br />

∀ψ G ∈ Ψ G , L(ψ G ; y 1 , ..., y n ) = L(ψ G ) =<br />

n∏<br />

j=1 i=1<br />

G∑<br />

π i f N (y j ; θ i ).<br />

Sachant que le maximum <strong>de</strong> vraisemblance préconise <strong>de</strong> choisir ˆψ G ∈ arg max L(ψ G ) comme<br />

ψ G ∈Ψ G<br />

meilleur estimateur <strong>de</strong>s paramètres, nous concevons aisément qu’un problème se pose si<br />

L(ψ G ) → +∞... Il faut donc restreindre l’espace <strong>de</strong>s paramètres en supposant par exemple<br />

qu’il est compact (Redner (1981)), ce qui perm<strong>et</strong> <strong>de</strong> garantir a priori l’existence d’un tel estimateur.<br />

La difficulté <strong>de</strong> considérer un tel espace est d’en choisir les nouvelles frontières, en<br />

prenant le risque que la distribution théorique <strong>de</strong>s données en <strong>de</strong>vienne exclue (si tant est<br />

qu’elle appartienne effectivement à la famille considérée !). Plusieurs propositions émergent<br />

alors, dépendant essentiellement <strong>de</strong> la paramétrisation du modèle mélange en question (Baudry<br />

(2009), p.29).<br />

Revenons maintenant à l’algorithme EM <strong>de</strong> calibration du mélange : l’idée <strong>de</strong> c<strong>et</strong> algorithme<br />

est <strong>de</strong> transformer le problème (en passant aux données complètes) dans le but <strong>de</strong><br />

simplifier l’étape d’optimisation. En eff<strong>et</strong>, il est bien plus facile <strong>de</strong> maximiser une somme <strong>de</strong><br />

logarithmes que <strong>de</strong> maximiser le logarithme d’une somme. Mathématiquement, nous avions<br />

∀ψ G ∈ Ψ G ,<br />

L(ψ G ; y) =<br />

n∏<br />

j=1 i=1<br />

G∑<br />

π i f N (y j ; θ i ) qui <strong>de</strong>vient L c (ψ G ; y, z) =<br />

n∏<br />

j=1 i=1<br />

G∏<br />

(π i f N (y j ; θ i )) z ij<br />

.<br />

Ainsi la log-vraisemblance à maximiser est ln L c (ψ G ) = ∑ n<br />

j=1<br />

∑ G<br />

i=1 z ij ln (π i f N (y j ; θ i )).<br />

Nous appelons c<strong>et</strong>te quantité la log-vraisemblance complète : maximiser la log-vraisemblance<br />

complète est équivalent (à un terme près) à maximiser la log-vraisemblance <strong>de</strong>s données observées<br />

y. Concrètement nous maximisons séparément <strong>et</strong> un à un le logarithme <strong>de</strong> chaque <strong>de</strong>nsité<br />

gaussienne par rapport aux observations qui y sont assignées, ce qui est numériquement très<br />

simple. Comme Z n’est pas observée, nous maximisons plus exactement E Z [ln L c (ψ; Y, Z)|Y ] ;<br />

d’où l’étape E <strong>de</strong> l’algorithme EM (voir section 3.1.3 pour la <strong>de</strong>scription détaillée <strong>de</strong> l’algorithme).<br />

Notion <strong>de</strong> classe : cluster ou composante ?<br />

Nous voulons effectuer une classification non-supervisée à partir <strong>de</strong> notre modèle mélange.<br />

A partir <strong>de</strong> c<strong>et</strong>te observation, il est important <strong>de</strong> préciser ce que nous entendons par “classe” :<br />

une “classe” est-elle une composante ? Un regroupement <strong>de</strong> <strong>composantes</strong> ? Qu’est-ce qu’un<br />

cluster ? Généralement, un cluster est un regroupement visuel : il s’agit d’individus proches<br />

les uns <strong>de</strong>s autres d’un point <strong>de</strong> vue géométrique si nous les proj<strong>et</strong>ons dans un plan. Un cluster<br />

118

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!