Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
1.1. Modélisation CART<br />
nous entendons réponse par groupe d’appartenance, ce qui se traduira dans nos <strong>application</strong>s<br />
par le rachat ou non-rachat. Le classifieur, noté class(., ɛ), s’exprime comme<br />
class : X → C<br />
x → class(x, ɛ) = j,<br />
avec B j = {x ∈ X ; class(x, ɛ) = j}. C<strong>et</strong>te fonction doit si possible classer au mieux les données<br />
<strong>et</strong> avoir un pouvoir prédictif intéressant. Considérons que l’arbre optimal a été construit ; pour<br />
connaître la classe d’appartenance d’un noeud terminal, nous utilisons la règle<br />
class(x, ɛ) = arg max<br />
j∈C<br />
p(j|t), (1.6)<br />
autrement dit la fameuse règle <strong>de</strong> Bayes qui maximise la probabilité a posteriori d’être dans la<br />
classe j sachant que nous sommes dans le noeud t. Ce processus nous perm<strong>et</strong> ainsi d’effectuer<br />
<strong>de</strong>s prévisions <strong>de</strong> classification. Une estimation <strong>de</strong> la mauvaise classification d’une observation<br />
dans le noeud t (par rapport à la classe observée) est donnée par<br />
r(t) = 1 − class(x, ɛ) = 1 − max p(j|t), (1.7)<br />
j∈C<br />
Soit ˆτ(t) = p(t) r(t) le taux <strong>de</strong> mauvaise classification du noeud t. Pour chaque noeud, c’est la<br />
probabilité d’être dans le noeud t multipliée par la probabilité <strong>de</strong> mal classer une observation<br />
sachant que nous sommes dans ce noeud t. Nous en déduisons immédiatement le taux global<br />
<strong>de</strong> mauvaise classification <strong>de</strong> l’arbre T , donné par<br />
ˆτ(T ) = ∑ t∈ ˜T<br />
ˆτ(t). (1.8)<br />
Finalement, nous pouvons résumer les quatre étapes essentielles <strong>de</strong> la procédure <strong>de</strong> construction<br />
<strong>de</strong> l’arbre :<br />
1. un ensemble <strong>de</strong> questions binaires {x ∈ S ?}, S ∈ X ,<br />
2. une fonction d’impur<strong>et</strong>é pour le critère <strong>de</strong> qualité d’ajustement (choix arbitraire),<br />
3. une règle d’arrêt <strong>de</strong>s divisions (choix arbitraire),<br />
4. une procédure <strong>de</strong> classification perm<strong>et</strong>tant d’affecter à chaque feuille une classe.<br />
De fait, le choix arbitraire concernant la règle d’arrêt <strong>de</strong>s divisions est évitée puisque l’algorithme<br />
CART construit un arbre maximal T max avant <strong>de</strong> procé<strong>de</strong>r à un élagage.<br />
Estimation <strong>de</strong> l’erreur <strong>de</strong> prévision<br />
L’erreur <strong>de</strong> prévision est évaluée par la probabilité qu’une observation soit mal classée par<br />
class(., ɛ), c’est-à-dire :<br />
τ(class) = P (class(X, ɛ) ≠ Y )<br />
L’efficacité du prédicteur est basée sur l’estimation <strong>de</strong> c<strong>et</strong>te erreur. Le taux <strong>de</strong> mauvaise<br />
classification réel τ ∗ (class) ne peut pas être estimé lorsque la procédure <strong>de</strong> classification est<br />
construite à partir <strong>de</strong> l’ensemble <strong>de</strong>s données, mais il existe plusieurs estimateurs dans la littérature<br />
(Ghattas (1999)). L’expression du taux <strong>de</strong> mauvaise classification dépend évi<strong>de</strong>mment<br />
<strong>de</strong> l’échantillon d’apprentissage (détails en annexe B.1.3).<br />
27