Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Chapitre 4. Sélection <strong>de</strong> mélange <strong>de</strong> <strong>GLMs</strong><br />
proches les unes <strong>de</strong>s autres qui vont constituer une composante dont la covariance va tendre<br />
vers 0, provoquant l’explosion <strong>de</strong> la vraisemblance <strong>et</strong> privilégiant c<strong>et</strong>te solution à celle du<br />
maximum global. Il faut alors par exemple fixer une borne inférieure sur la variance <strong>de</strong>s<br />
<strong>composantes</strong>. Concrètement, <strong>de</strong>s résultats asymptotiques montrent que ce problème tend à<br />
disparaitre lorsque n → +∞. Théoriquement, la difficulté majeure dans le cas <strong>de</strong> mélanges<br />
gaussiens provient <strong>de</strong> la non-bornitu<strong>de</strong> <strong>de</strong> la vraisemblance (ou sa dérivée) lorsque nous nous<br />
plaçons aux frontières <strong>de</strong> notre espace <strong>de</strong>s paramètres. D’où l’idée <strong>de</strong> considérer l’espace <strong>de</strong>s<br />
paramètres dans un ouvert, mais nous y reviendrons plus tard. La vraisemblance <strong>de</strong>s <strong>de</strong>nsités<br />
appartenant à l’ensemble M G vaut<br />
∀ψ G ∈ Ψ G , L(ψ G ; y 1 , ..., y n ) = L(ψ G ) =<br />
n∏<br />
j=1 i=1<br />
G∑<br />
π i f N (y j ; θ i ).<br />
Sachant que le maximum <strong>de</strong> vraisemblance préconise <strong>de</strong> choisir ˆψ G ∈ arg max L(ψ G ) comme<br />
ψ G ∈Ψ G<br />
meilleur estimateur <strong>de</strong>s paramètres, nous concevons aisément qu’un problème se pose si<br />
L(ψ G ) → +∞... Il faut donc restreindre l’espace <strong>de</strong>s paramètres en supposant par exemple<br />
qu’il est compact (Redner (1981)), ce qui perm<strong>et</strong> <strong>de</strong> garantir a priori l’existence d’un tel estimateur.<br />
La difficulté <strong>de</strong> considérer un tel espace est d’en choisir les nouvelles frontières, en<br />
prenant le risque que la distribution théorique <strong>de</strong>s données en <strong>de</strong>vienne exclue (si tant est<br />
qu’elle appartienne effectivement à la famille considérée !). Plusieurs propositions émergent<br />
alors, dépendant essentiellement <strong>de</strong> la paramétrisation du modèle mélange en question (Baudry<br />
(2009), p.29).<br />
Revenons maintenant à l’algorithme EM <strong>de</strong> calibration du mélange : l’idée <strong>de</strong> c<strong>et</strong> algorithme<br />
est <strong>de</strong> transformer le problème (en passant aux données complètes) dans le but <strong>de</strong><br />
simplifier l’étape d’optimisation. En eff<strong>et</strong>, il est bien plus facile <strong>de</strong> maximiser une somme <strong>de</strong><br />
logarithmes que <strong>de</strong> maximiser le logarithme d’une somme. Mathématiquement, nous avions<br />
∀ψ G ∈ Ψ G ,<br />
L(ψ G ; y) =<br />
n∏<br />
j=1 i=1<br />
G∑<br />
π i f N (y j ; θ i ) qui <strong>de</strong>vient L c (ψ G ; y, z) =<br />
n∏<br />
j=1 i=1<br />
G∏<br />
(π i f N (y j ; θ i )) z ij<br />
.<br />
Ainsi la log-vraisemblance à maximiser est ln L c (ψ G ) = ∑ n<br />
j=1<br />
∑ G<br />
i=1 z ij ln (π i f N (y j ; θ i )).<br />
Nous appelons c<strong>et</strong>te quantité la log-vraisemblance complète : maximiser la log-vraisemblance<br />
complète est équivalent (à un terme près) à maximiser la log-vraisemblance <strong>de</strong>s données observées<br />
y. Concrètement nous maximisons séparément <strong>et</strong> un à un le logarithme <strong>de</strong> chaque <strong>de</strong>nsité<br />
gaussienne par rapport aux observations qui y sont assignées, ce qui est numériquement très<br />
simple. Comme Z n’est pas observée, nous maximisons plus exactement E Z [ln L c (ψ; Y, Z)|Y ] ;<br />
d’où l’étape E <strong>de</strong> l’algorithme EM (voir section 3.1.3 pour la <strong>de</strong>scription détaillée <strong>de</strong> l’algorithme).<br />
Notion <strong>de</strong> classe : cluster ou composante ?<br />
Nous voulons effectuer une classification non-supervisée à partir <strong>de</strong> notre modèle mélange.<br />
A partir <strong>de</strong> c<strong>et</strong>te observation, il est important <strong>de</strong> préciser ce que nous entendons par “classe” :<br />
une “classe” est-elle une composante ? Un regroupement <strong>de</strong> <strong>composantes</strong> ? Qu’est-ce qu’un<br />
cluster ? Généralement, un cluster est un regroupement visuel : il s’agit d’individus proches<br />
les uns <strong>de</strong>s autres d’un point <strong>de</strong> vue géométrique si nous les proj<strong>et</strong>ons dans un plan. Un cluster<br />
118