Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Chapitre 4. Sélection <strong>de</strong> mélange <strong>de</strong> <strong>GLMs</strong><br />
Evi<strong>de</strong>mment, c<strong>et</strong>te relation reste vraie en toute généralité : nous sommes ici dans le cas <strong>de</strong><br />
mélanges gaussiens car nous présenterons les idées sous c<strong>et</strong> angle pour en faciliter la compréhension,<br />
mais nous travaillerons ensuite avec <strong>de</strong>s mélanges <strong>de</strong> <strong>GLMs</strong>.<br />
Le terme d’entropie<br />
Le terme qui lie les <strong>de</strong>ux vraisemblances est très proche <strong>de</strong> ce que l’on appelle couramment<br />
l’entropie. Initialement, la fonction d’entropie est définie comme suit :<br />
∀ψ G ∈ Ψ G , ∀y j ∈ R d , Ent(ψ G ; y j ) = −<br />
G∑<br />
τ i (y j ; ψ G ) ln τ i (y j ; ψ G ).<br />
Ainsi nous réalisons que c<strong>et</strong>te fonction résulte <strong>de</strong> l’espérance <strong>de</strong> la variable aléatoire Z (non<br />
observée) prise dans le <strong>de</strong>uxième membre <strong>de</strong> (4.8). D’où le nom <strong>et</strong> la définition <strong>de</strong> la vraisemblance<br />
classifiante conditionnelle :<br />
ln L cc (ψ G ; Y ) = E Z [ln L c (ψ G ; Y, Z)]<br />
=<br />
n∑ G∑<br />
ln L(ψ G ; Y ) + E Z [Z ij |Y j ] ln τ i (Y j ; ψ G )<br />
avec Ent(ψ G ; Y ) = ∑ n<br />
j=1 Ent(ψ G; Y j ).<br />
i=1<br />
j=1 i=1<br />
= ln L(ψ G ; Y ) − Ent(ψ G ; Y ), (4.9)<br />
Voyons maintenant le comportement <strong>de</strong> la fonction d’entropie avec <strong>de</strong>s antécé<strong>de</strong>nts τ i qui ne<br />
sont rien d’autre que <strong>de</strong>s probabilités. L’objectif est d’étudier<br />
Ent : [0, 1] G → R<br />
τ = (τ 1 , ..., τ G ) → Ent(τ) = − ∑ G<br />
i=1 τ i ln τ i<br />
Si nous traçons le graphe <strong>de</strong> c<strong>et</strong>te fonction en supposant qu’il y a <strong>de</strong>ux <strong>composantes</strong> dans le<br />
mélange (toujours sous la contrainte sur Π G ), nous obtenons la figure 4.1. L’interprétation en<br />
est relativement simple : l’entropie est maximale en cas d’équiprobabilité, <strong>et</strong> minimale lorsque<br />
la probabilité d’être dans l’une ou l’autre <strong>de</strong>s classes vaut 1. Ce terme peut être vu comme<br />
une pénalisation <strong>de</strong> la vraisemblance observée, comme le montre l’équation (4.9). Ainsi, plus<br />
la probabilité <strong>de</strong> classer une observation dans l’un ou l’autre <strong>de</strong>s groupes est équirépartie, plus<br />
la pénalité est gran<strong>de</strong>. Nous pénalisons donc fortement un manque <strong>de</strong> confiance lors <strong>de</strong> la<br />
classification via la règle MAP (après calibration du mélange). Au contraire, si les probabilités<br />
a posteriori <strong>de</strong> classer les observations dans telle ou telle composante ten<strong>de</strong>nt vers 0 ou 1, alors<br />
la pénalisation est minime. La vraisemblance classifiante conditionnelle est donc quasiment<br />
équivalente à la vraisemblance <strong>de</strong>s données observées lorsque l’information disponible dans<br />
l’échantillon perm<strong>et</strong> <strong>de</strong> construire un mélange dans lequel les observations sont clairement<br />
affectées aux <strong>composantes</strong>. Notons d’ailleurs que dans le cas d’homogénéité (1 composante),<br />
ces <strong>de</strong>ux vraisemblances sont i<strong>de</strong>ntiques.<br />
Remarquez l’analogie avec la métho<strong>de</strong> CART développée au chapitre 1 : il est très intéressant<br />
<strong>de</strong> constater que la fonction d’entropie correspond précisément à la mesure d’hétérogénéité <strong>de</strong><br />
l’échantillon définie par la fonction d’impur<strong>et</strong>é dans CART (l’in<strong>de</strong>x <strong>de</strong> Gini) ! Nous ne sommes<br />
donc pas étonnés d’une telle interprétation, puisque ces idées sont totalement concordantes.<br />
120