23.12.2013 Views

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Chapitre 4. Sélection <strong>de</strong> mélange <strong>de</strong> <strong>GLMs</strong><br />

Evi<strong>de</strong>mment, c<strong>et</strong>te relation reste vraie en toute généralité : nous sommes ici dans le cas <strong>de</strong><br />

mélanges gaussiens car nous présenterons les idées sous c<strong>et</strong> angle pour en faciliter la compréhension,<br />

mais nous travaillerons ensuite avec <strong>de</strong>s mélanges <strong>de</strong> <strong>GLMs</strong>.<br />

Le terme d’entropie<br />

Le terme qui lie les <strong>de</strong>ux vraisemblances est très proche <strong>de</strong> ce que l’on appelle couramment<br />

l’entropie. Initialement, la fonction d’entropie est définie comme suit :<br />

∀ψ G ∈ Ψ G , ∀y j ∈ R d , Ent(ψ G ; y j ) = −<br />

G∑<br />

τ i (y j ; ψ G ) ln τ i (y j ; ψ G ).<br />

Ainsi nous réalisons que c<strong>et</strong>te fonction résulte <strong>de</strong> l’espérance <strong>de</strong> la variable aléatoire Z (non<br />

observée) prise dans le <strong>de</strong>uxième membre <strong>de</strong> (4.8). D’où le nom <strong>et</strong> la définition <strong>de</strong> la vraisemblance<br />

classifiante conditionnelle :<br />

ln L cc (ψ G ; Y ) = E Z [ln L c (ψ G ; Y, Z)]<br />

=<br />

n∑ G∑<br />

ln L(ψ G ; Y ) + E Z [Z ij |Y j ] ln τ i (Y j ; ψ G )<br />

avec Ent(ψ G ; Y ) = ∑ n<br />

j=1 Ent(ψ G; Y j ).<br />

i=1<br />

j=1 i=1<br />

= ln L(ψ G ; Y ) − Ent(ψ G ; Y ), (4.9)<br />

Voyons maintenant le comportement <strong>de</strong> la fonction d’entropie avec <strong>de</strong>s antécé<strong>de</strong>nts τ i qui ne<br />

sont rien d’autre que <strong>de</strong>s probabilités. L’objectif est d’étudier<br />

Ent : [0, 1] G → R<br />

τ = (τ 1 , ..., τ G ) → Ent(τ) = − ∑ G<br />

i=1 τ i ln τ i<br />

Si nous traçons le graphe <strong>de</strong> c<strong>et</strong>te fonction en supposant qu’il y a <strong>de</strong>ux <strong>composantes</strong> dans le<br />

mélange (toujours sous la contrainte sur Π G ), nous obtenons la figure 4.1. L’interprétation en<br />

est relativement simple : l’entropie est maximale en cas d’équiprobabilité, <strong>et</strong> minimale lorsque<br />

la probabilité d’être dans l’une ou l’autre <strong>de</strong>s classes vaut 1. Ce terme peut être vu comme<br />

une pénalisation <strong>de</strong> la vraisemblance observée, comme le montre l’équation (4.9). Ainsi, plus<br />

la probabilité <strong>de</strong> classer une observation dans l’un ou l’autre <strong>de</strong>s groupes est équirépartie, plus<br />

la pénalité est gran<strong>de</strong>. Nous pénalisons donc fortement un manque <strong>de</strong> confiance lors <strong>de</strong> la<br />

classification via la règle MAP (après calibration du mélange). Au contraire, si les probabilités<br />

a posteriori <strong>de</strong> classer les observations dans telle ou telle composante ten<strong>de</strong>nt vers 0 ou 1, alors<br />

la pénalisation est minime. La vraisemblance classifiante conditionnelle est donc quasiment<br />

équivalente à la vraisemblance <strong>de</strong>s données observées lorsque l’information disponible dans<br />

l’échantillon perm<strong>et</strong> <strong>de</strong> construire un mélange dans lequel les observations sont clairement<br />

affectées aux <strong>composantes</strong>. Notons d’ailleurs que dans le cas d’homogénéité (1 composante),<br />

ces <strong>de</strong>ux vraisemblances sont i<strong>de</strong>ntiques.<br />

Remarquez l’analogie avec la métho<strong>de</strong> CART développée au chapitre 1 : il est très intéressant<br />

<strong>de</strong> constater que la fonction d’entropie correspond précisément à la mesure d’hétérogénéité <strong>de</strong><br />

l’échantillon définie par la fonction d’impur<strong>et</strong>é dans CART (l’in<strong>de</strong>x <strong>de</strong> Gini) ! Nous ne sommes<br />

donc pas étonnés d’une telle interprétation, puisque ces idées sont totalement concordantes.<br />

120

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!