Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
B.1. Métho<strong>de</strong> CART<br />
Pénalisation <strong>de</strong> la mauvaise classification<br />
Les métho<strong>de</strong>s en structure d’arbre ont subi beaucoup <strong>de</strong> critiques à cause <strong>de</strong> la taille<br />
<strong>de</strong>s arbres finaux sélectionnés en pratique <strong>et</strong> <strong>de</strong> l’usage <strong>de</strong> l’estimation par resubstitution (cf<br />
1.1.1). Le coût <strong>de</strong> mal classer une observation n’est souvent pas le même pour toutes les classes<br />
dans les <strong>application</strong>s, d’où l’idée <strong>de</strong> pénaliser la mauvaise classification d’une observation (par<br />
rapport à sa classe observée, apprentissage supervisé) par un facteur positif.<br />
Définition. Le coût <strong>de</strong> mauvais classement d’une observation est défini par<br />
Définissons ainsi<br />
Γ : C × C → R + , such that<br />
Γ(i|j) ≥ 0 and Γ(i|i) = 0<br />
• la probabilité <strong>de</strong> mal classer une observation par P class (i|j) = P (class(x, ɛ) = i | j) (la<br />
fonction class classe x dans la classe i au lieu <strong>de</strong> la classe j ),<br />
• τ class (j) = ∑ i Γ(i|j)P class(i|j) : le coût moyen <strong>de</strong> mauvaise classification.<br />
Nous obtenons τ class = τ(T ) <strong>et</strong><br />
τ(T ) = ∑ j<br />
π(j)τ class (j) = 1 ∑<br />
N j τ class (j)<br />
N<br />
Ghattas (1999) définit dans ce contexte la fonction <strong>de</strong> classification pénalisée d’assignation<br />
d’une classe à un noeud terminal t :<br />
∑<br />
class(x, ɛ) = argmin Γ(i|j) p(j|t)<br />
(B.4)<br />
i∈C<br />
D’après (B.4), l’estimation du taux <strong>de</strong> mauvaise classification est maintenant<br />
∑<br />
r(t) = min Γ(i|j) p(j|t)<br />
i∈C<br />
j∈C<br />
Sachant que τ(t) = r(t)p(t), le taux <strong>de</strong> mauvaise classification par substitution <strong>de</strong> l’arbre T<br />
est donné par<br />
ˆτ(T ) = ∑ t∈ ˜T<br />
ˆτ(t). (B.5)<br />
j∈C<br />
j<br />
Corollaire 3. L’estimateur ˆτ(T ) du taux <strong>de</strong> mauvaise classification <strong>de</strong> l’arbre s’abaissent à<br />
chaque division, <strong>et</strong> ce quelle que soit la division. Ainsi, si nous notons T s l’arbre obtenu par<br />
division <strong>de</strong> T à une feuille, nous avons<br />
ˆτ(T s ) ≤ ˆτ(T )<br />
Soient t L <strong>et</strong> t R les <strong>de</strong>scendants du noeud t dans l’arbre T s .<br />
D’après (B.5) <strong>et</strong> (B.6),<br />
∑<br />
∑<br />
t∈ ˜T sˆτ(t) ≤ ∑ t∈ ˜T<br />
ˆτ(t)<br />
ˆτ(t)<br />
(B.6)<br />
ˆτ(t) − ˆτ(t) + ˆτ(t L ) + ˆτ(t R ) ≤ ∑<br />
t∈ ˜T t∈ ˜T<br />
ˆτ(t L ) + ˆτ(t R ) ≤ ˆτ(t) (B.7)<br />
193