23.12.2013 Views

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Chapitre 4. Sélection <strong>de</strong> mélange <strong>de</strong> <strong>GLMs</strong><br />

une telle configuration, ICL a ≥ ICL b . Effectivement, ∀ψ g ∈ Ψ g , ∀y ∈ R d ,<br />

−Ent(ψ g ; y) =<br />

≤<br />

=<br />

g∑<br />

τ i (y; ψ g ) ln τ i (y; ψ g )<br />

i=1<br />

g∑<br />

max (τ k(y; ψ g )) ln τ i (y; ψ g )<br />

k∈{1,...,g}<br />

g∑<br />

ẑi MAP (y; ψ g ) ln τ i (y; ψ g ).<br />

i=1<br />

i=1<br />

Ce résultat montre que ICL a pénalise davantage que ICL b un modèle dont l’affectation <strong>de</strong>s<br />

observations aux <strong>composantes</strong> est incertaine. Biernacki (2000) <strong>et</strong> McLachlan and Peel (2000)<br />

ont montré à travers divers exemples simulés <strong>et</strong> réels que le critère ICL est plus robuste que<br />

le critère BIC lorsque le modèle est mal spécifié (ce qui est souvent le cas dans la réalité).<br />

Certes, BIC <strong>et</strong> ICL ont un comportement similaire quand les <strong>composantes</strong> du mélange sont<br />

bien séparées ; mais ICL pénalise fortement les modèles mélanges dans le cas inverse (tout en<br />

tenant compte <strong>de</strong> la complexité du modèle) alors que BIC ne pénalise que la complexité <strong>de</strong>s<br />

modèles.<br />

Le principal problème dans c<strong>et</strong>te définition d’ICL est qu’il n’existe <strong>de</strong> fait aucune relation<br />

évi<strong>de</strong>nte entre la théorie du maximum <strong>de</strong> vraisemblance <strong>et</strong> le terme d’entropie. En outre, le<br />

critère défini comme tel n’est pas satisfaisant au regard <strong>de</strong>s théoriciens car ses propriétés n’ont<br />

pas pu être prouvées : par exemple, il n’est pas consistant au sens où BIC l’est. Même dans le<br />

cas où la distribution théorique appartient à la classe <strong>de</strong> modèles étudiés, ICL ne garantit pas<br />

<strong>de</strong> r<strong>et</strong>rouver le bon <strong>nombre</strong> <strong>de</strong> <strong>composantes</strong>. Dans ces <strong>de</strong>ux premières définitions, la pénalité<br />

du critère ICL comprend <strong>de</strong>ux termes : l’entropie <strong>et</strong> la pénalisation du BIC en ln(n). Nous<br />

pouvons d’ailleurs remarquer que c<strong>et</strong>te pénalité ne satisfait pas les conditions <strong>de</strong> Nishii (1988)<br />

car elle n’est pas négligeable <strong>de</strong>vant n.<br />

En eff<strong>et</strong>, d’après la loi <strong>de</strong>s grands <strong>nombre</strong>s,<br />

1<br />

n Ent(ψ P<br />

g; y) −→ E f 0 [Ent(ψ g ; Y )] .<br />

Nous en déduisons que Ent(ψ g ; y) = O(n E f 0 [Ent(ψ g ; Y )]), <strong>et</strong> donc que n <strong>et</strong> Ent(ψ g ; y) sont<br />

du même ordre.<br />

Ainsi <strong>et</strong> jusqu’à très récemment, il existait clairement un gouffre entre l’intérêt pratique<br />

que suscitait ce critère <strong>et</strong> ses justifications théoriques. C’est alors que Baudry (2009) proposa<br />

une nouvelle version du critère ICL, dont la définition est liée à l’estimateur du maximum <strong>de</strong><br />

vraisemblance classifiante ML cc E :<br />

M ICLc =<br />

(<br />

arg min − ln L cc (<br />

M g∈{M 1 ,...,M m}<br />

ˆψ<br />

MLccE<br />

g<br />

) + K g<br />

2 ln n<br />

} {{ }<br />

pen ICLc<br />

)<br />

En introduisant c<strong>et</strong>te idée dans le cadre <strong>de</strong>s mélanges gaussiens, Baudry (2009) démontre<br />

<strong>de</strong> manière rigoureuse que le <strong>nombre</strong> <strong>de</strong> <strong>composantes</strong> sélectionné via ce critère converge faiblement<br />

vers le <strong>nombre</strong> théorique <strong>de</strong> <strong>composantes</strong> ; dès lors que nous nous intéressons à <strong>de</strong>s<br />

problématiques <strong>de</strong> clustering. Le paragraphe qui suit énonce <strong>de</strong> manière succinte les conditions<br />

<strong>de</strong> convergence d’un critère <strong>de</strong> sélection pénalisé dans un cadre général.<br />

134<br />

.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!