23.12.2013 Views

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

B.1. Métho<strong>de</strong> CART<br />

Pénalisation <strong>de</strong> la mauvaise classification<br />

Les métho<strong>de</strong>s en structure d’arbre ont subi beaucoup <strong>de</strong> critiques à cause <strong>de</strong> la taille<br />

<strong>de</strong>s arbres finaux sélectionnés en pratique <strong>et</strong> <strong>de</strong> l’usage <strong>de</strong> l’estimation par resubstitution (cf<br />

1.1.1). Le coût <strong>de</strong> mal classer une observation n’est souvent pas le même pour toutes les classes<br />

dans les <strong>application</strong>s, d’où l’idée <strong>de</strong> pénaliser la mauvaise classification d’une observation (par<br />

rapport à sa classe observée, apprentissage supervisé) par un facteur positif.<br />

Définition. Le coût <strong>de</strong> mauvais classement d’une observation est défini par<br />

Définissons ainsi<br />

Γ : C × C → R + , such that<br />

Γ(i|j) ≥ 0 and Γ(i|i) = 0<br />

• la probabilité <strong>de</strong> mal classer une observation par P class (i|j) = P (class(x, ɛ) = i | j) (la<br />

fonction class classe x dans la classe i au lieu <strong>de</strong> la classe j ),<br />

• τ class (j) = ∑ i Γ(i|j)P class(i|j) : le coût moyen <strong>de</strong> mauvaise classification.<br />

Nous obtenons τ class = τ(T ) <strong>et</strong><br />

τ(T ) = ∑ j<br />

π(j)τ class (j) = 1 ∑<br />

N j τ class (j)<br />

N<br />

Ghattas (1999) définit dans ce contexte la fonction <strong>de</strong> classification pénalisée d’assignation<br />

d’une classe à un noeud terminal t :<br />

∑<br />

class(x, ɛ) = argmin Γ(i|j) p(j|t)<br />

(B.4)<br />

i∈C<br />

D’après (B.4), l’estimation du taux <strong>de</strong> mauvaise classification est maintenant<br />

∑<br />

r(t) = min Γ(i|j) p(j|t)<br />

i∈C<br />

j∈C<br />

Sachant que τ(t) = r(t)p(t), le taux <strong>de</strong> mauvaise classification par substitution <strong>de</strong> l’arbre T<br />

est donné par<br />

ˆτ(T ) = ∑ t∈ ˜T<br />

ˆτ(t). (B.5)<br />

j∈C<br />

j<br />

Corollaire 3. L’estimateur ˆτ(T ) du taux <strong>de</strong> mauvaise classification <strong>de</strong> l’arbre s’abaissent à<br />

chaque division, <strong>et</strong> ce quelle que soit la division. Ainsi, si nous notons T s l’arbre obtenu par<br />

division <strong>de</strong> T à une feuille, nous avons<br />

ˆτ(T s ) ≤ ˆτ(T )<br />

Soient t L <strong>et</strong> t R les <strong>de</strong>scendants du noeud t dans l’arbre T s .<br />

D’après (B.5) <strong>et</strong> (B.6),<br />

∑<br />

∑<br />

t∈ ˜T sˆτ(t) ≤ ∑ t∈ ˜T<br />

ˆτ(t)<br />

ˆτ(t)<br />

(B.6)<br />

ˆτ(t) − ˆτ(t) + ˆτ(t L ) + ˆτ(t R ) ≤ ∑<br />

t∈ ˜T t∈ ˜T<br />

ˆτ(t L ) + ˆτ(t R ) ≤ ˆτ(t) (B.7)<br />

193

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!