23.12.2013 Views

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

B.2. La régression logistique<br />

Algorithme 1. Pour connaître les branches à élaguer <strong>et</strong> le α optimal associé,<br />

1. Soient les feuilles t L <strong>et</strong> t R les <strong>de</strong>scendants immédiats du noeud parent t ; en commençant<br />

par T max , nous cherchons la division qui n’a pas donné <strong>de</strong> diminution <strong>de</strong> l’erreur, i.e.<br />

pour laquelle ˆτ(t) = ˆτ(t L ) + ˆτ(t R ) (voir (B.7)). Elaguer t L <strong>et</strong> t R , <strong>et</strong> recommencer <strong>de</strong><br />

même jusqu’à ce que ce ne soit plus possible. Nous obtenons T 1 < T ;<br />

2. Pour T1 t branche <strong>de</strong> T 1, définissons ˆτ(T 1 t) = ∑ t∈ ˜T 1<br />

t ˆτ(t). D’après (B.8), les noeuds nonterminaux<br />

t <strong>de</strong> l’arbre T 1 satisfont la propriété : ˆτ(t) > ˆτ(T 1 t ) (pas d’égalité grâce à la<br />

première étape).<br />

3. Notons {t} la sous-branche <strong>de</strong> T1 t qui consiste en l’unique noeud {t}, card({t}) = 1.<br />

Ainsi, τˆ<br />

α ({t}) = ˆτ(t) + α <strong>et</strong><br />

τˆ<br />

α (T1) t = ˆτ(T 1) t + α Card( ˜T 1)<br />

t<br />

(B.11)<br />

Nous avons vu que ˆτ(T 1 t ) < ˆτ({t}), mais l’introduction d’un terme <strong>de</strong> complexité fait<br />

que c<strong>et</strong>te inégalité avec τˆ<br />

α n’est pas toujours respectée. Tant que τˆ<br />

α (T1 t) < τˆ<br />

α({t}) il est<br />

inutile d’élaguer, mais il existe un seuil α c tel que τˆ<br />

αc (T1 t) = τˆ<br />

α c<br />

({t}). On a donc<br />

ˆτ(T t 1) + α c Card( ˜T t 1) = ˆτ(t) + α c<br />

α c = ˆτ(t) − ˆτ(T t 1 )<br />

Card( ˜T t 1 ) − 1<br />

Tant que α < α c , il n’est pas nécessaire d’élaguer l’arbre au noeud t, mais dès que α = α c<br />

l’élagage <strong>de</strong> c<strong>et</strong>te sous-branche est intéressante car l’erreur est équivalente <strong>et</strong> l’arbre est<br />

plus simple ;<br />

4. Faire ceci pour tous les noeuds t <strong>de</strong> T 1 <strong>et</strong> choisir le noeud t dans T 1 qui minimise la<br />

quantité α c . Soit α 1 = α c . En élaguant T 1 au noeud t, nous obtenons T 2 = T 1 − T t 1 .<br />

Répéter 3. <strong>et</strong> 4. récursivement avec T 2 , obtenez α 2 <strong>et</strong> ainsi <strong>de</strong> suite jusqu’à la racine.<br />

Au final, nous obtenons par construction (avec les cas extrêmes) une suite α 1 < α 2 < ... < α root<br />

qui correspondant aux arbres élagués T 1 > T 2 > ... > T root . T root est juste le noeud racine.<br />

Pour définir l’arbre optimal <strong>de</strong> c<strong>et</strong>te suite, (B.10) nous dit que le meilleur arbre élagué est<br />

celui avec le taux <strong>de</strong> mauvaise classification minimum.<br />

B.2 La régression logistique<br />

B.2.1<br />

Résultats numériques <strong>de</strong> l’analyse statique<br />

Les coefficients <strong>de</strong> régression, leur écart-type, la confiance que nous pouvons avoir dans<br />

l’estimation <strong>de</strong> ces coefficients <strong>et</strong> leur eff<strong>et</strong> sont disponibles dans la table B.2. Les coefficients<br />

<strong>de</strong> régression <strong>de</strong> l’analyse dynamique du début du chapitre... ne sont pas donnés ici car ils<br />

n’ont pas vraiment d’intérêt (l’analyse logistique dynamique avait pour but <strong>de</strong> montrer que<br />

les prévisions n’étaient pas robustes).<br />

B.2.2<br />

Un peu <strong>de</strong> théorie<br />

La modélisation “logit” est pertinente car nous voulons étudier un événement binaire (le<br />

rachat), or la régression logistique analyse <strong>de</strong>s données issues <strong>de</strong> loi binomiale <strong>de</strong> la forme<br />

195

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!