Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Annexe B. Métho<strong>de</strong>s <strong>de</strong> segmentation<br />
• impur(t) = ∑ j≠k<br />
p(j|t) p(k|t) (in<strong>de</strong>x <strong>de</strong> Gini)<br />
Remarque B.1.2. Dans une approche variance,<br />
• l’in<strong>de</strong>x <strong>de</strong> Gini est aussi égal à 1 − ∑ j p2 j ;<br />
• nous utilisons également la twoing rule : choisir ∆ qui maximise p Lp R<br />
4<br />
2<br />
p(j|t R )|]<br />
;<br />
[ ∑<br />
j |p(j|t L) −<br />
• dans un problème avec une réponse binaire, l’in<strong>de</strong>x <strong>de</strong> Gini se réduit à impur(t) =<br />
2p(1|t)p(2|t).<br />
Commentaires sur l’erreur <strong>de</strong> prévision<br />
Nous pouvons écrire <strong>de</strong> manière formelle l’expression <strong>de</strong> la portion d’observations mal<br />
classées par la fonction class suivant l’estimation choisie <strong>de</strong> l’erreur <strong>de</strong> prévision :<br />
– l’estimate “resubstitution” :<br />
ˆτ(class) = 1 ∑<br />
1{class(x n , ɛ) ≠ j n }<br />
(B.1)<br />
N<br />
(x n,j n)∈ɛ<br />
– l’estimation par échantillon <strong>de</strong> validation : quasiment comme dans (B.1) :<br />
ˆτ ts (class) = 1 ∑<br />
1{class(x<br />
N ′<br />
n , ɛ) ≠ j n }<br />
– l’estimation par validations croisées :<br />
Remarquons aussi que<br />
ˆτ cv (class) = 1 N<br />
E[ˆτ(class)] = E<br />
= 1 N<br />
[<br />
K∑<br />
k=1<br />
(x n,j n)∈W<br />
∑<br />
(B.2)<br />
(x n,j n)∈ɛ k<br />
1{class(x n , ɛ k ) ≠ j n } (B.3)<br />
∑<br />
1<br />
N<br />
(x n,j n)∈ɛ<br />
∑<br />
(x n,j n)∈ɛ<br />
1{class(x n , ɛ) ≠ j n }<br />
E[ 1{class(x n , ɛ) ≠ j n }]<br />
= P (class(X, ɛ) ≠ Y ) = τ(class).<br />
<strong>et</strong> que tous les estimateurs présentés ci-<strong>de</strong>ssus sont non-biaisés :<br />
E[ˆτ(class)] = E[ˆτ cv (class)] = E[ˆτ ts (class)]<br />
L’erreur <strong>de</strong> prévision <strong>et</strong> le taux <strong>de</strong> mauvaise classification sont <strong>de</strong>ux concepts différents. L’erreur<br />
<strong>de</strong> mauvaise classification est l’erreur dans les noeuds <strong>de</strong> l’arbre alors que l’erreur <strong>de</strong><br />
prévision est liée à la classification finale <strong>de</strong> la variable d’intérêt <strong>et</strong> est calculée une fois l’arbre<br />
construit.<br />
Par défaut, R calcule un estimateur par validations croisées <strong>de</strong> l’erreur d’apprentissage.<br />
Ce sont les résultats du tableau <strong>de</strong>s paramètres <strong>de</strong> complexité. Toutefois c<strong>et</strong>te procédure <strong>de</strong><br />
validations croisées ne correspond pas à la fameuse technique <strong>de</strong> validations croisées dans la<br />
théorie du reéchantillonage. La première calcule l’arbre optimal pour une taille donnée en<br />
minimisant l’erreur d’apprentissage alors que la <strong>de</strong>rnière perm<strong>et</strong> d’obtenir une estimation plus<br />
réaliste <strong>de</strong> l’erreur <strong>de</strong> prévision mais ne traite pas le problème qui est <strong>de</strong> trouver un arbre<br />
optimal.<br />
192<br />
]