23.12.2013 Views

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Annexe B. Métho<strong>de</strong>s <strong>de</strong> segmentation<br />

• impur(t) = ∑ j≠k<br />

p(j|t) p(k|t) (in<strong>de</strong>x <strong>de</strong> Gini)<br />

Remarque B.1.2. Dans une approche variance,<br />

• l’in<strong>de</strong>x <strong>de</strong> Gini est aussi égal à 1 − ∑ j p2 j ;<br />

• nous utilisons également la twoing rule : choisir ∆ qui maximise p Lp R<br />

4<br />

2<br />

p(j|t R )|]<br />

;<br />

[ ∑<br />

j |p(j|t L) −<br />

• dans un problème avec une réponse binaire, l’in<strong>de</strong>x <strong>de</strong> Gini se réduit à impur(t) =<br />

2p(1|t)p(2|t).<br />

Commentaires sur l’erreur <strong>de</strong> prévision<br />

Nous pouvons écrire <strong>de</strong> manière formelle l’expression <strong>de</strong> la portion d’observations mal<br />

classées par la fonction class suivant l’estimation choisie <strong>de</strong> l’erreur <strong>de</strong> prévision :<br />

– l’estimate “resubstitution” :<br />

ˆτ(class) = 1 ∑<br />

1{class(x n , ɛ) ≠ j n }<br />

(B.1)<br />

N<br />

(x n,j n)∈ɛ<br />

– l’estimation par échantillon <strong>de</strong> validation : quasiment comme dans (B.1) :<br />

ˆτ ts (class) = 1 ∑<br />

1{class(x<br />

N ′<br />

n , ɛ) ≠ j n }<br />

– l’estimation par validations croisées :<br />

Remarquons aussi que<br />

ˆτ cv (class) = 1 N<br />

E[ˆτ(class)] = E<br />

= 1 N<br />

[<br />

K∑<br />

k=1<br />

(x n,j n)∈W<br />

∑<br />

(B.2)<br />

(x n,j n)∈ɛ k<br />

1{class(x n , ɛ k ) ≠ j n } (B.3)<br />

∑<br />

1<br />

N<br />

(x n,j n)∈ɛ<br />

∑<br />

(x n,j n)∈ɛ<br />

1{class(x n , ɛ) ≠ j n }<br />

E[ 1{class(x n , ɛ) ≠ j n }]<br />

= P (class(X, ɛ) ≠ Y ) = τ(class).<br />

<strong>et</strong> que tous les estimateurs présentés ci-<strong>de</strong>ssus sont non-biaisés :<br />

E[ˆτ(class)] = E[ˆτ cv (class)] = E[ˆτ ts (class)]<br />

L’erreur <strong>de</strong> prévision <strong>et</strong> le taux <strong>de</strong> mauvaise classification sont <strong>de</strong>ux concepts différents. L’erreur<br />

<strong>de</strong> mauvaise classification est l’erreur dans les noeuds <strong>de</strong> l’arbre alors que l’erreur <strong>de</strong><br />

prévision est liée à la classification finale <strong>de</strong> la variable d’intérêt <strong>et</strong> est calculée une fois l’arbre<br />

construit.<br />

Par défaut, R calcule un estimateur par validations croisées <strong>de</strong> l’erreur d’apprentissage.<br />

Ce sont les résultats du tableau <strong>de</strong>s paramètres <strong>de</strong> complexité. Toutefois c<strong>et</strong>te procédure <strong>de</strong><br />

validations croisées ne correspond pas à la fameuse technique <strong>de</strong> validations croisées dans la<br />

théorie du reéchantillonage. La première calcule l’arbre optimal pour une taille donnée en<br />

minimisant l’erreur d’apprentissage alors que la <strong>de</strong>rnière perm<strong>et</strong> d’obtenir une estimation plus<br />

réaliste <strong>de</strong> l’erreur <strong>de</strong> prévision mais ne traite pas le problème qui est <strong>de</strong> trouver un arbre<br />

optimal.<br />

192<br />

]

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!