Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Chapitre 4. Sélection <strong>de</strong> mélange <strong>de</strong> <strong>GLMs</strong><br />
une telle configuration, ICL a ≥ ICL b . Effectivement, ∀ψ g ∈ Ψ g , ∀y ∈ R d ,<br />
−Ent(ψ g ; y) =<br />
≤<br />
=<br />
g∑<br />
τ i (y; ψ g ) ln τ i (y; ψ g )<br />
i=1<br />
g∑<br />
max (τ k(y; ψ g )) ln τ i (y; ψ g )<br />
k∈{1,...,g}<br />
g∑<br />
ẑi MAP (y; ψ g ) ln τ i (y; ψ g ).<br />
i=1<br />
i=1<br />
Ce résultat montre que ICL a pénalise davantage que ICL b un modèle dont l’affectation <strong>de</strong>s<br />
observations aux <strong>composantes</strong> est incertaine. Biernacki (2000) <strong>et</strong> McLachlan and Peel (2000)<br />
ont montré à travers divers exemples simulés <strong>et</strong> réels que le critère ICL est plus robuste que<br />
le critère BIC lorsque le modèle est mal spécifié (ce qui est souvent le cas dans la réalité).<br />
Certes, BIC <strong>et</strong> ICL ont un comportement similaire quand les <strong>composantes</strong> du mélange sont<br />
bien séparées ; mais ICL pénalise fortement les modèles mélanges dans le cas inverse (tout en<br />
tenant compte <strong>de</strong> la complexité du modèle) alors que BIC ne pénalise que la complexité <strong>de</strong>s<br />
modèles.<br />
Le principal problème dans c<strong>et</strong>te définition d’ICL est qu’il n’existe <strong>de</strong> fait aucune relation<br />
évi<strong>de</strong>nte entre la théorie du maximum <strong>de</strong> vraisemblance <strong>et</strong> le terme d’entropie. En outre, le<br />
critère défini comme tel n’est pas satisfaisant au regard <strong>de</strong>s théoriciens car ses propriétés n’ont<br />
pas pu être prouvées : par exemple, il n’est pas consistant au sens où BIC l’est. Même dans le<br />
cas où la distribution théorique appartient à la classe <strong>de</strong> modèles étudiés, ICL ne garantit pas<br />
<strong>de</strong> r<strong>et</strong>rouver le bon <strong>nombre</strong> <strong>de</strong> <strong>composantes</strong>. Dans ces <strong>de</strong>ux premières définitions, la pénalité<br />
du critère ICL comprend <strong>de</strong>ux termes : l’entropie <strong>et</strong> la pénalisation du BIC en ln(n). Nous<br />
pouvons d’ailleurs remarquer que c<strong>et</strong>te pénalité ne satisfait pas les conditions <strong>de</strong> Nishii (1988)<br />
car elle n’est pas négligeable <strong>de</strong>vant n.<br />
En eff<strong>et</strong>, d’après la loi <strong>de</strong>s grands <strong>nombre</strong>s,<br />
1<br />
n Ent(ψ P<br />
g; y) −→ E f 0 [Ent(ψ g ; Y )] .<br />
Nous en déduisons que Ent(ψ g ; y) = O(n E f 0 [Ent(ψ g ; Y )]), <strong>et</strong> donc que n <strong>et</strong> Ent(ψ g ; y) sont<br />
du même ordre.<br />
Ainsi <strong>et</strong> jusqu’à très récemment, il existait clairement un gouffre entre l’intérêt pratique<br />
que suscitait ce critère <strong>et</strong> ses justifications théoriques. C’est alors que Baudry (2009) proposa<br />
une nouvelle version du critère ICL, dont la définition est liée à l’estimateur du maximum <strong>de</strong><br />
vraisemblance classifiante ML cc E :<br />
M ICLc =<br />
(<br />
arg min − ln L cc (<br />
M g∈{M 1 ,...,M m}<br />
ˆψ<br />
MLccE<br />
g<br />
) + K g<br />
2 ln n<br />
} {{ }<br />
pen ICLc<br />
)<br />
En introduisant c<strong>et</strong>te idée dans le cadre <strong>de</strong>s mélanges gaussiens, Baudry (2009) démontre<br />
<strong>de</strong> manière rigoureuse que le <strong>nombre</strong> <strong>de</strong> <strong>composantes</strong> sélectionné via ce critère converge faiblement<br />
vers le <strong>nombre</strong> théorique <strong>de</strong> <strong>composantes</strong> ; dès lors que nous nous intéressons à <strong>de</strong>s<br />
problématiques <strong>de</strong> clustering. Le paragraphe qui suit énonce <strong>de</strong> manière succinte les conditions<br />
<strong>de</strong> convergence d’un critère <strong>de</strong> sélection pénalisé dans un cadre général.<br />
134<br />
.