23.12.2013 Views

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

1.1. Modélisation CART<br />

nous entendons réponse par groupe d’appartenance, ce qui se traduira dans nos <strong>application</strong>s<br />

par le rachat ou non-rachat. Le classifieur, noté class(., ɛ), s’exprime comme<br />

class : X → C<br />

x → class(x, ɛ) = j,<br />

avec B j = {x ∈ X ; class(x, ɛ) = j}. C<strong>et</strong>te fonction doit si possible classer au mieux les données<br />

<strong>et</strong> avoir un pouvoir prédictif intéressant. Considérons que l’arbre optimal a été construit ; pour<br />

connaître la classe d’appartenance d’un noeud terminal, nous utilisons la règle<br />

class(x, ɛ) = arg max<br />

j∈C<br />

p(j|t), (1.6)<br />

autrement dit la fameuse règle <strong>de</strong> Bayes qui maximise la probabilité a posteriori d’être dans la<br />

classe j sachant que nous sommes dans le noeud t. Ce processus nous perm<strong>et</strong> ainsi d’effectuer<br />

<strong>de</strong>s prévisions <strong>de</strong> classification. Une estimation <strong>de</strong> la mauvaise classification d’une observation<br />

dans le noeud t (par rapport à la classe observée) est donnée par<br />

r(t) = 1 − class(x, ɛ) = 1 − max p(j|t), (1.7)<br />

j∈C<br />

Soit ˆτ(t) = p(t) r(t) le taux <strong>de</strong> mauvaise classification du noeud t. Pour chaque noeud, c’est la<br />

probabilité d’être dans le noeud t multipliée par la probabilité <strong>de</strong> mal classer une observation<br />

sachant que nous sommes dans ce noeud t. Nous en déduisons immédiatement le taux global<br />

<strong>de</strong> mauvaise classification <strong>de</strong> l’arbre T , donné par<br />

ˆτ(T ) = ∑ t∈ ˜T<br />

ˆτ(t). (1.8)<br />

Finalement, nous pouvons résumer les quatre étapes essentielles <strong>de</strong> la procédure <strong>de</strong> construction<br />

<strong>de</strong> l’arbre :<br />

1. un ensemble <strong>de</strong> questions binaires {x ∈ S ?}, S ∈ X ,<br />

2. une fonction d’impur<strong>et</strong>é pour le critère <strong>de</strong> qualité d’ajustement (choix arbitraire),<br />

3. une règle d’arrêt <strong>de</strong>s divisions (choix arbitraire),<br />

4. une procédure <strong>de</strong> classification perm<strong>et</strong>tant d’affecter à chaque feuille une classe.<br />

De fait, le choix arbitraire concernant la règle d’arrêt <strong>de</strong>s divisions est évitée puisque l’algorithme<br />

CART construit un arbre maximal T max avant <strong>de</strong> procé<strong>de</strong>r à un élagage.<br />

Estimation <strong>de</strong> l’erreur <strong>de</strong> prévision<br />

L’erreur <strong>de</strong> prévision est évaluée par la probabilité qu’une observation soit mal classée par<br />

class(., ɛ), c’est-à-dire :<br />

τ(class) = P (class(X, ɛ) ≠ Y )<br />

L’efficacité du prédicteur est basée sur l’estimation <strong>de</strong> c<strong>et</strong>te erreur. Le taux <strong>de</strong> mauvaise<br />

classification réel τ ∗ (class) ne peut pas être estimé lorsque la procédure <strong>de</strong> classification est<br />

construite à partir <strong>de</strong> l’ensemble <strong>de</strong>s données, mais il existe plusieurs estimateurs dans la littérature<br />

(Ghattas (1999)). L’expression du taux <strong>de</strong> mauvaise classification dépend évi<strong>de</strong>mment<br />

<strong>de</strong> l’échantillon d’apprentissage (détails en annexe B.1.3).<br />

27

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!