Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
B.2. La régression logistique<br />
Algorithme 1. Pour connaître les branches à élaguer <strong>et</strong> le α optimal associé,<br />
1. Soient les feuilles t L <strong>et</strong> t R les <strong>de</strong>scendants immédiats du noeud parent t ; en commençant<br />
par T max , nous cherchons la division qui n’a pas donné <strong>de</strong> diminution <strong>de</strong> l’erreur, i.e.<br />
pour laquelle ˆτ(t) = ˆτ(t L ) + ˆτ(t R ) (voir (B.7)). Elaguer t L <strong>et</strong> t R , <strong>et</strong> recommencer <strong>de</strong><br />
même jusqu’à ce que ce ne soit plus possible. Nous obtenons T 1 < T ;<br />
2. Pour T1 t branche <strong>de</strong> T 1, définissons ˆτ(T 1 t) = ∑ t∈ ˜T 1<br />
t ˆτ(t). D’après (B.8), les noeuds nonterminaux<br />
t <strong>de</strong> l’arbre T 1 satisfont la propriété : ˆτ(t) > ˆτ(T 1 t ) (pas d’égalité grâce à la<br />
première étape).<br />
3. Notons {t} la sous-branche <strong>de</strong> T1 t qui consiste en l’unique noeud {t}, card({t}) = 1.<br />
Ainsi, τˆ<br />
α ({t}) = ˆτ(t) + α <strong>et</strong><br />
τˆ<br />
α (T1) t = ˆτ(T 1) t + α Card( ˜T 1)<br />
t<br />
(B.11)<br />
Nous avons vu que ˆτ(T 1 t ) < ˆτ({t}), mais l’introduction d’un terme <strong>de</strong> complexité fait<br />
que c<strong>et</strong>te inégalité avec τˆ<br />
α n’est pas toujours respectée. Tant que τˆ<br />
α (T1 t) < τˆ<br />
α({t}) il est<br />
inutile d’élaguer, mais il existe un seuil α c tel que τˆ<br />
αc (T1 t) = τˆ<br />
α c<br />
({t}). On a donc<br />
ˆτ(T t 1) + α c Card( ˜T t 1) = ˆτ(t) + α c<br />
α c = ˆτ(t) − ˆτ(T t 1 )<br />
Card( ˜T t 1 ) − 1<br />
Tant que α < α c , il n’est pas nécessaire d’élaguer l’arbre au noeud t, mais dès que α = α c<br />
l’élagage <strong>de</strong> c<strong>et</strong>te sous-branche est intéressante car l’erreur est équivalente <strong>et</strong> l’arbre est<br />
plus simple ;<br />
4. Faire ceci pour tous les noeuds t <strong>de</strong> T 1 <strong>et</strong> choisir le noeud t dans T 1 qui minimise la<br />
quantité α c . Soit α 1 = α c . En élaguant T 1 au noeud t, nous obtenons T 2 = T 1 − T t 1 .<br />
Répéter 3. <strong>et</strong> 4. récursivement avec T 2 , obtenez α 2 <strong>et</strong> ainsi <strong>de</strong> suite jusqu’à la racine.<br />
Au final, nous obtenons par construction (avec les cas extrêmes) une suite α 1 < α 2 < ... < α root<br />
qui correspondant aux arbres élagués T 1 > T 2 > ... > T root . T root est juste le noeud racine.<br />
Pour définir l’arbre optimal <strong>de</strong> c<strong>et</strong>te suite, (B.10) nous dit que le meilleur arbre élagué est<br />
celui avec le taux <strong>de</strong> mauvaise classification minimum.<br />
B.2 La régression logistique<br />
B.2.1<br />
Résultats numériques <strong>de</strong> l’analyse statique<br />
Les coefficients <strong>de</strong> régression, leur écart-type, la confiance que nous pouvons avoir dans<br />
l’estimation <strong>de</strong> ces coefficients <strong>et</strong> leur eff<strong>et</strong> sont disponibles dans la table B.2. Les coefficients<br />
<strong>de</strong> régression <strong>de</strong> l’analyse dynamique du début du chapitre... ne sont pas donnés ici car ils<br />
n’ont pas vraiment d’intérêt (l’analyse logistique dynamique avait pour but <strong>de</strong> montrer que<br />
les prévisions n’étaient pas robustes).<br />
B.2.2<br />
Un peu <strong>de</strong> théorie<br />
La modélisation “logit” est pertinente car nous voulons étudier un événement binaire (le<br />
rachat), or la régression logistique analyse <strong>de</strong>s données issues <strong>de</strong> loi binomiale <strong>de</strong> la forme<br />
195