29.07.2013 Views

Modèle logistique et scoring - Université Rennes 2

Modèle logistique et scoring - Université Rennes 2

Modèle logistique et scoring - Université Rennes 2

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Année Universitaire 2007-2008<br />

UFR Sciences Sociales - Département MASS<br />

MASTER Statistique pour l’entreprise<br />

<strong>Modèle</strong> <strong>logistique</strong> <strong>et</strong> <strong>scoring</strong><br />

Pierre-André Cornillon <strong>et</strong> Laurent Rouvière<br />

<strong>Université</strong> <strong>Rennes</strong> 2<br />

Place du Recteur H. le Moal<br />

CS 24307 - 35043 <strong>Rennes</strong><br />

Tel : 02 99 14 18 21<br />

Mel : Pierre-Andre.Cornillon@supagro-inra.fr<br />

laurent.rouviere@uhb.fr


Table des matières<br />

1 Introduction 5<br />

1.1 Rappels sur le modèle linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5<br />

1.2 Analyse discriminante de linéaire (au sens de Fisher ou LDA) . . . . . . . . . . . . 6<br />

1.2.1 L’analyse discriminante linéaire <strong>et</strong> quadratique . . . . . . . . . . . . . . . . . 10<br />

1.2.2 Estimation des paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11<br />

1.2.3 Point de vue géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12<br />

1.3 Le modèle linéaire généralisé : GLM . . . . . . . . . . . . . . . . . . . . . . . . . . . 15<br />

1.3.1 La régression <strong>logistique</strong> . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15<br />

1.3.2 La régression log-linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16<br />

1.3.3 Généralisation : GLM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17<br />

2 Analyse discriminante <strong>logistique</strong> 19<br />

2.1 le modèle <strong>logistique</strong> . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19<br />

2.1.1 Variable explicative continue . . . . . . . . . . . . . . . . . . . . . . . . . . . 19<br />

2.1.2 Facteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20<br />

2.1.3 Définition générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22<br />

2.1.4 Interprétation des coefficients β . . . . . . . . . . . . . . . . . . . . . . . . . 23<br />

2.2 Rappels sur la méthode du maximum de vraisemblance . . . . . . . . . . . . . . . . 24<br />

2.3 Estimation des paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25<br />

2.4 Précision des estimations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28<br />

2.5 Un exemple avec R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28<br />

2.5.1 <strong>Modèle</strong>s “classiques” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28<br />

2.5.2 Encore d’autres modèles... . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30<br />

3 Sélection <strong>et</strong> validation de modèles 33<br />

3.1 Sélection ou choix de modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33<br />

3.1.1 Un outil spécifique : la déviance . . . . . . . . . . . . . . . . . . . . . . . . . 33<br />

3.1.2 Critère de choix de modèles . . . . . . . . . . . . . . . . . . . . . . . . . . . 35<br />

3.1.3 Apprentissage/validation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36<br />

3.1.4 Validation croisée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39<br />

3.1.5 Sélection automatique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39<br />

3.2 Validation du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42<br />

3.2.1 Test d’adéquation par la déviance . . . . . . . . . . . . . . . . . . . . . . . . 42<br />

3.2.2 Test d’Hosmer Lemershow . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44<br />

3.2.3 Analyse des résidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44<br />

3.2.4 Points leviers <strong>et</strong> points influents . . . . . . . . . . . . . . . . . . . . . . . . . 46<br />

Régression <strong>logistique</strong> <strong>et</strong> <strong>scoring</strong> Pierre-André Cornillon<br />

Laurent Rouvière


4 Table des matières<br />

Pierre-André Cornillon<br />

Laurent Rouvière<br />

Régression <strong>logistique</strong> <strong>et</strong> <strong>scoring</strong>


Chapitre 1<br />

Introduction<br />

Notations :<br />

– X = (X1,...,Xp) : variable aléatoire explicative de dimension p, x = (x1,...,xp) une réalisation<br />

de x ;<br />

– Y variable (univariée) à expliquer.<br />

– (X1,Y1),...,(Xn,Yn) : un n-échantillon aléatoire (iid <strong>et</strong> de même loi que le couple (X,Y )), tel<br />

que Xi = (Xi1,...,Xip) ;<br />

– (x1,y1),...,(xn,yn) une réalisation de (X1,Y1),...,(Xn,Yn).<br />

1.1 Rappels sur le modèle linéaire<br />

Le contexte<br />

Nous cherchons à expliquer une variable Y par p variables X = (X1,...,Xp) ′ . Pour se faire,<br />

on dispose de n réalisations (x1,y1),...,(xn,yn) du couple (X,Y ). Le but est de modéliser la<br />

dépendance de la variable réponse Y sur les variables explicatives X1,...,Xp. Plusieurs raisons<br />

peuvent motiver c<strong>et</strong>te modélisation :<br />

– la description : on veut un modèle qui perm<strong>et</strong>te de décrire la relation entre Y <strong>et</strong> X ;<br />

– l’évaluation des contributions relatives de chaque prédicteur pour expliquer Y ;<br />

– la prédiction : prévoir la valeur de Y pour des nouvelles variables explicatives.<br />

Le modèle linéaire classique s’écrit :<br />

Y = X ′ β + ǫ = β0 + β1X1 + ... + βpXp + ǫ,<br />

avec β = (β0,β1,...,βp) ′ ∈ R p+1 <strong>et</strong> ǫ ∼ N(0,σ 2 ). On distingue alors deux cas :<br />

– Les variables Xi sont déterministes (non-aléatoires) :<br />

– Les variables Xi sont aléatoires :<br />

Y ∼ N(X ′ β,σ 2 ), E(Y ) = X ′ β ;<br />

(Y |X) ∼ N(X ′ β,σ 2 ), E(Y |X) = X ′ β.<br />

Plaçons nous maintenant dans le cas où la variable à expliquer Y est qualitative ou de type facteur<br />

(sexe, couleur, présence ou absence d’une maladie...). C<strong>et</strong>te variable possède un nombre fini de<br />

modalités g1,...,gm. Le problème consiste à expliquer l’appartenance d’un individu à un groupe<br />

à partir des p variables explicatives, on parlera alors de discrimination au lieu de régression.<br />

Régression <strong>logistique</strong> <strong>et</strong> <strong>scoring</strong> Pierre-André Cornillon<br />

Laurent Rouvière


6 Introduction<br />

Il est bien entendu impossible de modéliser directement la variable Y par une relation linéaire<br />

(imaginons que Y soit le sexe d’une personne ou la couleur de ces cheveux).<br />

Afin de pallier à c<strong>et</strong>te difficulté, on va s’intéresser aux probabilités P(Y = gk|X = x). Supposons<br />

pour simplifier que la variable Y prenne uniquement deux valeurs : 0 (“groupe 0”) ou 1 (“groupe 1”).<br />

La connaissance de P(Y = 1|X = x) implique celle de P(Y = 0|X = x), on peut alors modéliser<br />

p(x) = P(Y = 1|X = x) par une relation linéaire de la forme<br />

(Y |X = x) ∼ B(p(x)), E(Y |X = x) = p(x) = β0 + β1x1 + ... + βpxp = x ′ β.<br />

Tout comme le modèle linéaire, l’estimation des paramètres peut s’effectuer par minimisation du<br />

critère des moindres carrés :<br />

n<br />

(yi − pi) 2 =<br />

i=1<br />

n<br />

i=1<br />

C<strong>et</strong>te approche possède plusieurs inconvénients :<br />

(yi − β0 + β1xi1 + ... + βpxip) 2 .<br />

– Remarquons tout d’abord que la variance de Y |X = x vaut p(x)(1 − p(x)). Contrairement au<br />

modèle linéaire traditionnel, c<strong>et</strong>te variance n’est pas constante <strong>et</strong> par conséquent l’hypothèse<br />

classique d’homoscédasticité des résidus ne sera pas vérifiée.<br />

– Le fait qu’aucune restriction ne soit effectuée sur les β implique que x ′ β peut prendre n’importe<br />

quelle valeur sur R. Ce qui peut être gênant pour l’estimation d’une probabilité (imaginez une<br />

estimation du genre P(Y = 1|X = x) = −1297.56!!!).<br />

Pour ces raisons, nous devons étendre le modèle linéaire classique aux cas où :<br />

– Y peut être une variable qualitative (présence ou absence d’une maladie, appartenance à une<br />

catégorie...) ;<br />

– les erreurs peuvent ne pas avoir la même variance (s’affranchir de l’hypothèse d’homoscédasticité).<br />

1.2 Analyse discriminante de linéaire (au sens de Fisher ou<br />

LDA)<br />

A travers l’exemple des iris de Fisher, nous allons étudier une première méthode de discrimination<br />

appelée Analyse discriminante. Ce jeu de données classique présente 4 variables : la longueur <strong>et</strong><br />

la largeur des pétales ainsi que la longueur <strong>et</strong> la largeur des sépales. Ces variables sont mesurées<br />

sur 150 iris répartis dans 3 espèces Iris s<strong>et</strong>osa, versicolor <strong>et</strong> virginica. La figure 1.1 propose une<br />

représentation de la longueur <strong>et</strong> la largeur des pétales par groupe.<br />

Pierre-André Cornillon<br />

Laurent Rouvière<br />

Régression <strong>logistique</strong> <strong>et</strong> <strong>scoring</strong>


1.2 Analyse discriminante de linéaire (au sens de Fisher ou LDA) 7<br />

width<br />

0.0 0.5 1.0 1.5 2.0 2.5<br />

*<br />

*<br />

+ + +<br />

+ +<br />

+ + + + + + +<br />

+ +<br />

+<br />

+ + + + +<br />

+<br />

+ + + +<br />

+ +<br />

+ +<br />

+<br />

+<br />

*<br />

*<br />

+<br />

* +<br />

+<br />

+ *<br />

* * *<br />

*<br />

*<br />

* * *<br />

+ +<br />

* * *<br />

*<br />

+<br />

+<br />

+<br />

+<br />

+<br />

+ +<br />

* *<br />

* * * * * *<br />

* *<br />

* *<br />

* * *<br />

*<br />

* * *<br />

1 2 3 4 5 6 7<br />

length<br />

Fig. 1.1 – Longueur <strong>et</strong> largeur des pétales des différents groupes. rond=”S<strong>et</strong>osa”, +=”Virginica”,<br />

*=”Versicolor”.<br />

Nous souhaitons expliquer l’espèce par les 4 caractéristiques mesurées. Enoncé autrement, est ce<br />

que l’on peut déterminer une espèce d’iris parmi ces 3 avec seulement la longueur <strong>et</strong> la largeur des<br />

pétales ainsi que la longueur <strong>et</strong> la largeur des sépales ?<br />

Pour simplifier, intéressons nous d’abord à une seule variable, la longueur des pétales, qui sera<br />

notée X. Si nous traçons par espèce (notée Y ), les estimations de la densité de la longueur des<br />

pétales, nous obtenons 3 estimateurs (Figure 1.2).<br />

0.0 0.5 1.0 1.5 2.0 2.5<br />

Density<br />

1 2 3 4 5 6 7<br />

Fig. 1.2 – Densités estimées des longueurs des pétales selon les espèces (noir=”S<strong>et</strong>osa”,<br />

rouge=”Virginica”, vert=”Versicolor”).<br />

Nous pourrions supposer que ces densités ont une forme connue, par exemple la loi normale N(µ,σ),<br />

où bien entendu les paramètres de moyennes <strong>et</strong> de variances seraient différents d’une espèce à<br />

l’autre. Nous aurions alors que pour l’espèce 1 (noté Y = 1) la densité s’écrierait<br />

f(x|y = 1) =<br />

1<br />

√ exp<br />

2πσ1<br />

<br />

− 1<br />

2σ2(x − µ1)<br />

1<br />

2<br />

Régression <strong>logistique</strong> <strong>et</strong> <strong>scoring</strong> Pierre-André Cornillon<br />

Laurent Rouvière<br />

<br />

,<br />

+


8 Introduction<br />

pour la seconde espèce (Y = 2) cela deviendrait<br />

<strong>et</strong> la dernière serait<br />

f(x|y = 2) =<br />

f(x|y = 3) =<br />

<br />

1<br />

√ exp −<br />

2πσ2<br />

1<br />

2σ2(x − µ2)<br />

2<br />

2<br />

<br />

,<br />

<br />

1<br />

√ exp −<br />

2πσ3<br />

1<br />

2σ2(x − µ3)<br />

3<br />

2<br />

<br />

.<br />

Bien entendu ce raisonnement est intéressant pour décrire la variabilité d’une variable, la longueur<br />

des pétales, par groupe ou par espèce. Si nous n’avions que 2 variables explicatives, par exemple<br />

la longueur <strong>et</strong> la largeur des pétales, la représentation graphique d’un estimateur des densités<br />

(conjointes) par espèce est encore possible.<br />

density<br />

Fig. 1.3 – Densités estimées des longueurs <strong>et</strong> largeurs des pétales selon les espèces (noir=s<strong>et</strong>osa,<br />

rouge=virginica, vert=versicolor).<br />

C<strong>et</strong>te représentation peu visuelle peut être remplacée par un contour des lignes de niveau de la<br />

densité (Figure 1.4).<br />

Pierre-André Cornillon<br />

Laurent Rouvière<br />

Régression <strong>logistique</strong> <strong>et</strong> <strong>scoring</strong>


1.2 Analyse discriminante de linéaire (au sens de Fisher ou LDA) 9<br />

P<strong>et</strong>al.Length<br />

1 2 3 4 5 6 7<br />

0.5 1.0 1.5<br />

P<strong>et</strong>al.Width<br />

2.0 2.5<br />

Fig. 1.4 – Observation des longueurs <strong>et</strong> largeurs des pétales selon les espèces (noir=s<strong>et</strong>osa,<br />

rouge=virginica, vert=versicolor) <strong>et</strong> ligne de niveau des densités estimées.<br />

Rappelons que nous sommes en présence de 4 variables <strong>et</strong> non pas 1 seule ou 2. L’extension<br />

naturelle pour prendre en compte ces 4 variables est simplement une loi de R4 par exemple une loi<br />

multi-normale de dimension 4. Nous aurons donc pour le groupe j ∈ {1, 2, 3}<br />

<br />

1<br />

f(x|y = j) = exp −<br />

(2π|Σj|) 4/2 1<br />

2 (x − µj) ′ Σ −1<br />

<br />

j (x − µj) ,<br />

où Σj ∈ M(4, 4) est la matrice symétrique, carrée d’ordre 4 de variance du groupe j <strong>et</strong> µj ∈ R 4 est<br />

le vecteur moyenne du groupe j. Cependant avec ce modèle, dont les paramètres sont inconnus, il<br />

est impossible de prévoir l’espèce j au vu d’une observation nouvelle X = x. En eff<strong>et</strong> ce modèle<br />

nous donne la variabilité des X sachant le groupe j, groupe inconnu que l’on souhaite justement<br />

connaître.<br />

Nous allons donc essayer de prévoir l’appartenance à une espèce d’un iris avec uniquement ses<br />

longueurs des pétales <strong>et</strong> sépales ainsi que ses largeurs des pétales <strong>et</strong> sépales. Ces mesures sont<br />

notées x. Lorsque l’on détermine l’appartenance à une espèce, sans connaître c<strong>et</strong>te espèce, avec<br />

uniquement les longueurs <strong>et</strong> largeurs, il est inéluctable de faire des erreurs (par exemple deux iris<br />

peuvent avoir exactement les mêmes longueurs <strong>et</strong> largeurs de pétales <strong>et</strong> sépales sans pour autant<br />

appartenir à la même espèce). Il existe donc une incertitude dans le processus de détermination,<br />

incertitude que nous pouvons modéliser par des probabilités d’appartenance à une espèce. Plus la<br />

probabilité d’un groupe j est grande, plus on est sûr de son classement parmi ce groupe, au vu<br />

des mesures x des longueurs <strong>et</strong> largeurs.<br />

Nous cherchons donc trois probabilités ⎧⎨<br />

⎩<br />

P(Y = 1|X = x)<br />

P(Y = 2|X = x)<br />

P(Y = 3|X = x),<br />

<strong>et</strong> nous affecterons à x le groupe j0 pour lequel la probabilité sera maximale. Pour déterminer ces<br />

trois probabilités de classement nous utilisons le théorème de Bayes qui sous sa forme “probabilités<br />

discrètes” s’énonce<br />

P(A|B) =<br />

P(A ∩ B)<br />

P(B)<br />

P(B|A)P(A)<br />

= .<br />

P(B)<br />

Régression <strong>logistique</strong> <strong>et</strong> <strong>scoring</strong> Pierre-André Cornillon<br />

Laurent Rouvière


10 Introduction<br />

Cela donne, en remplaçant les probabilités par des densités lorsque la variable est continue, les<br />

trois probabilités cherchées :<br />

P(Y = 1|X = x) =<br />

P(Y = 2|X = x) =<br />

P(Y = 3|X = x) =<br />

f(x|y = 1)P(Y = 1)<br />

,<br />

f(x)<br />

f(x|y = 2)P(Y = 2)<br />

,<br />

f(x)<br />

f(x|y = 3)P(Y = 3)<br />

.<br />

f(x)<br />

Remarquons que f(x) au dénominateur est toujours présent dans les trois probabilités. Ce n’est<br />

donc pas ce facteur qui détermine l’appartenance à un groupe. De plus puisque nous savons que ce<br />

sont des probabilités, la somme des trois vaut 1 <strong>et</strong> donc on peut récrire ces trois formules comme<br />

P(Y = 1|X = x) =<br />

P(Y = 2|X = x) =<br />

P(Y = 3|X = x) =<br />

f(x|y = 1)P(Y = 1)<br />

f(x|y = 1)P(Y = 1) + f(x|y = 2)P(Y = 2) + f(x|y = 3)P(Y = 3) ,<br />

f(x|y = 2)P(Y = 2)<br />

f(x|y = 1)P(Y = 1) + f(x|y = 2)P(Y = 2) + f(x|y = 3)P(Y = 3) ,<br />

f(x|y = 3)P(Y = 3)<br />

f(x|y = 1)P(Y = 1) + f(x|y = 2)P(Y = 2) + f(x|y = 3)P(Y = 3) .<br />

Il reste donc à déterminer, pour chaque espèce j, la probabilité P(Y = j) <strong>et</strong> f(x|y = j). La<br />

probabilité P(Y = j) représente la probabilité a priori d’une espèce, c’est à dire la probabilité que<br />

l’on donne à une espèce sans avoir aucune donnée. En général nous n’avons aucun a priori, deux<br />

stratégies peuvent alors être utilisées :<br />

– Les probabilité sont choisies égales, c’est à dire ici 1/3;<br />

– On prend le pourcentage d’observations dans chaque groupe<br />

ˆP(Y = j) = 1<br />

n<br />

<br />

Xi.<br />

Enfin si des études préalables ont donné des indications sur ces probabilités il sera bon de les<br />

utiliser. Nous pouvons maintenant énoncer de manière générale toutes les considérations vues<br />

dans c<strong>et</strong> exemple.<br />

1.2.1 L’analyse discriminante linéaire <strong>et</strong> quadratique<br />

Le modèle<br />

Nous sommes en présence de n observations d’un couple (X,Y ). Pour la i ème observation, notée<br />

(Xi,Yi), Yi est un label qui dénote l’appartenance à un groupe j ∈ {1,...,g} <strong>et</strong> Xi ∈ R p est un<br />

ensemble de variables explicatives de l’appartenance à un groupe (variable notée Y ).<br />

Le problème :<br />

Une nouvelle observation arrive, nous mesurons les variables explicatives, c<strong>et</strong>te mesure est notée<br />

x ∈ R p <strong>et</strong> nous souhaitons connaître son groupe y inconnu.<br />

Comme nous ne pouvons connaître avec certitude le groupe y, nous modélisons c<strong>et</strong>te incertitude<br />

par des probabilités d’appartenance à tel ou tel groupe : P(Y = j|X = x), ∀j. Le modèle propose<br />

Pierre-André Cornillon<br />

Laurent Rouvière<br />

i∈j<br />

Régression <strong>logistique</strong> <strong>et</strong> <strong>scoring</strong>


1.2 Analyse discriminante de linéaire (au sens de Fisher ou LDA) 11<br />

donc P(X = x|Y = j), ∀j. Les probabilités cherchées sont évaluées grâce au théorème de Bayes<br />

de la façon suivante.<br />

P(Y = j|X = x) =<br />

f(x|y = j)P(Y = j)<br />

g<br />

j ′ =1 f(x|y = j′ )P(Y = j ′ )<br />

∀j ∈ {1,...,g}. (1.1)<br />

Les probabilités a priori des groupes j, notée P(Y = j), sont connues (elles doivent être choisies<br />

comme présenté précédemment).<br />

Pour pouvoir calculer ces probabilités d’appartenance, il faut modéliser f(x|y = j). L’analyse<br />

discriminante linéaire ou quadratique propose une modélisation gaussienne comme expliciter ciaprès.<br />

Discriminante quadratique La densité des variables explicatives dans chaque groupe j suit une<br />

loi multi-normale : f(x|y = j) ∼ N(µj, Σj).<br />

Ensuite nous pouvons ajouter une hypothèse supplémentaire pour obtenir le modèle de discrimination<br />

linéaire.<br />

Discriminante linéaire La densité des variables explicatives dans chaque groupe j suit une loi<br />

multi-normale de même matrice de variance Σ dans chacun des groupes : f(x|y = j) ∼<br />

N(µj, Σ).<br />

Une fois estimés tous les paramètres des lois normales il suffit alors d’utiliser l’équation (1.1)<br />

pour connaître les probabilités d’affectation de la nouvelle observation aux différents groupes.<br />

Evidemment la prévision par la méthode sera donnée par le groupe le plus probable, c’est à dire<br />

j0 = argmax<br />

j∈{1,...,g}<br />

1.2.2 Estimation des paramètres<br />

P(Y = j|X = x) = argmax f(x|y = j)P(Y = j).<br />

j∈{1,...,g}<br />

Nous devons pour chacun des g groupes estimer (µj, Σj) g<br />

j=1 où µj ∈ R p <strong>et</strong> Σj ∈ M(p,p) à partir du<br />

n-échantillon (X1,Y1),...,(Xn,Yn). Il y a donc g moyennes à estimer <strong>et</strong> 1 ou g matrice de variance<br />

à estimer. Il existe de nombreuses procédures d’estimation plus ou moins classiques. Citons par<br />

exemple<br />

– la méthode des moments ;<br />

– le maximum de vraisemblance ;<br />

– les méthodes d’estimation robuste.<br />

Dans ce cours, nous nous focaliserons sur la méthode du maximum de vraisamblance dont nous<br />

rappelons le principe dans le paragraphe à venir.<br />

La méthode du maximum de vraisemblance<br />

Etant donné un échantillon observé (X1,...,Xn) <strong>et</strong> une loi de probabilité Pθ, la vraisemblance<br />

quantifie la probabilité que les observations proviennent effectivement d’un échantillon (théorique)<br />

de la loi Pθ.<br />

Régression <strong>logistique</strong> <strong>et</strong> <strong>scoring</strong> Pierre-André Cornillon<br />

Laurent Rouvière


12 Introduction<br />

Définition 1.1 Soit {Pθ} une famille de lois de probabilité continues sur R <strong>et</strong> n un entier. Notons<br />

fθ la densité de probabilité de la loi Pθ. On appelle vraisemblance associée à la famille {Pθ}, la<br />

fonction qui à un n-upl<strong>et</strong> (x1,...,xn) <strong>et</strong> à une valeur θ du paramètre associe la quantité :<br />

L(x1,...,xn,θ) =<br />

n<br />

fθ(xi) .<br />

Estimer un paramètre par la méthode du maximum de vraisemblance, c’est proposer comme valeur<br />

de ce paramètre celle qui rend maximale la vraisemblance, à savoir la probabilité d’observer les<br />

données comme réalisation d’un échantillon de la loi Pθ, ou encore à chercher la loi Pθ la plus<br />

“vraisemblable” pour l’échantillon (x1,...,xn).<br />

Exemple Montrer que pour la méthode du maximum de vraisemblance, les paramètres estimés<br />

des lois normales sont :<br />

ˆµj = 1<br />

⎧<br />

ˆΣj =<br />

<br />

⎪⎨<br />

Xi,<br />

nj<br />

i∈J<br />

⎪⎩<br />

1 <br />

(Xi − ˆµj)(Xi − ˆµj)<br />

nj<br />

i∈J<br />

′<br />

Discriminante quadratique<br />

ˆΣ = 1<br />

g <br />

(Xi − ˆµj)(Xi − ˆµj)<br />

n<br />

′ Discriminante linéaire.<br />

j=1<br />

i∈J<br />

où J est l’ensemble des numéros d’observations qui sont dans le groupe j <strong>et</strong> nj le nombre d’observations<br />

dans le groupe j (ce qui est le cardinal de J). On remarquera que les moyennes par<br />

groupes µj sont estimées par le centre de gravité de chacun des groupes .<br />

1.2.3 Point de vue géométrique<br />

L’analyse discriminante possède une interprétation géométrique. C<strong>et</strong>te interprétation n’est pas utile<br />

pour faire des calculs ni pour appliquer la méthode mais elle perm<strong>et</strong> d’associer une interprétation<br />

visuelle à des calculs pas toujours très clairs.<br />

Afin de pouvoir faire des représentations graphiques <strong>et</strong> y voir quelque chose, nous allons supposer<br />

que le nombre de variables explicatives p est égal à 2. Par ailleurs supposons que nous n’avons pas<br />

d’a priori, ce qui perm<strong>et</strong> de ne pas s’occuper des P(Y = j) qui sont tous égaux à 1/g.<br />

Discriminer revient à chercher<br />

i=1<br />

argmax f(x|y = j)P(Y = j) = argmax f(x|y = j).<br />

j∈{1,...,g}<br />

j∈{1,...,g}<br />

Rappelons que p = 2, donc x ∈ R 2 est un point du plan. Nous cherchons à savoir, en fonction de la<br />

valeur de x, la classe que l’on va choisir. Il va y avoir des régions du plan où tous les points seront<br />

classés dans le groupe 1, d’autres où le classement sera 2 <strong>et</strong>c.. Nous sommes donc intéressés par<br />

les frontières, c’est à dire l’ensemble des points x que l’on peut classer soit dans une classe j, soit<br />

dans une autre j ′ . C<strong>et</strong>te frontière est simplement les points x qui sont tels que<br />

P(Y = j|X = x) = P(Y = j ′ |X = x)<br />

f(x|y = j) = f(x|y = j ′ )<br />

1<br />

(2π|Σj|) exp<br />

<br />

− 1<br />

2 (x − µj) ′ Σ −1<br />

<br />

1<br />

j (x − µj) = exp<br />

(2π|Σj ′|)<br />

Pierre-André Cornillon<br />

Laurent Rouvière<br />

<br />

− 1<br />

2 (x − µ′ j ′)′ Σ −1<br />

j ′ (x − µ ′ j ′)<br />

<br />

Régression <strong>logistique</strong> <strong>et</strong> <strong>scoring</strong>


1.2 Analyse discriminante de linéaire (au sens de Fisher ou LDA) 13<br />

En passant au log nous obtenons,<br />

ln<br />

|Σj ′|<br />

|Σj|<br />

1<br />

−<br />

2 x′ (Σ −1<br />

j − Σ−1<br />

j ′ )x + x ′ (Σ −1<br />

j µj − Σ −1<br />

j ′ 1<br />

µj ′) −<br />

2 (µ′ jΣ −1<br />

j µj − µ ′ j ′Σ−1 j ′ µj ′) = 0<br />

Si l’on développe c<strong>et</strong>te équation en remplaçant le vecteur x par ses coordonnées (x1,x2) nous<br />

obtenons une équation quadratique en x1 <strong>et</strong> x2 qui perm<strong>et</strong> de dire qu’une frontière sera de la forme<br />

d’une conique. C<strong>et</strong>te constatation donne son nom à la méthode dite de discrimination quadratique.<br />

Par contre lorsque Σ = Σj = Σj ′ nous avons alors<br />

x ′ Σ −1 1<br />

(µj − µj ′) −<br />

2 (µj + µj ′)′ Σ −1 (µj − µj ′) = 0<br />

Si l’on développe c<strong>et</strong>te équation en remplaçant le vecteur x par ses coordonnées (x1,x2) nous<br />

obtenons une équation d’une droite.<br />

Exemple (LDA dans R 2 pour 3 groupes, variables X non corrélées) Supposons que g =<br />

3 <strong>et</strong> que Σ = Σ1 = Σ2 = Σ3 = I2. Les observations suivent toutes des lois normales N(µj,I2), où<br />

µj est la moyenne du groupe. Les moyennes sont choisies égales à µ1 = (2, 2) ′ , µ2 = (−2, 2) ′ <strong>et</strong><br />

µ3 = (0, −2) ′ respectivement.<br />

La frontière entre le groupe 1 <strong>et</strong> le groupe 2 est donc l’ensemble des x ∈ R 2 tel que :<br />

P(Y = 1|X = x) = P(Y = 2|X = x)<br />

f(x|y = 1) = f(x|Y = 2)<br />

1<br />

(2π|Σ|) exp<br />

<br />

− 1<br />

2 (x − µ1) ′ Σ −1 <br />

1<br />

(x − µ1) =<br />

(2π|Σ|) exp<br />

<br />

− 1<br />

2 (x − µ2) ′ Σ −1 (x − µ ′ <br />

2)<br />

− 1<br />

2 (x − µ1) ′ (x − µ1) = − 1<br />

2 (x − µ2) ′ (x − µ ′ 2)<br />

− 1<br />

2 x′ x − x ′ µ1 − 1<br />

2 µ′ 1µ1 = − 1<br />

2 x′ x − x ′ µ2 − 1<br />

2 µ′ 2µ2<br />

x ′ (µ1 − µ2) − 1<br />

2 (µ1 + µ2) ′ (µ1 − µ2) = 0<br />

(x − 1<br />

2 (µ1 + µ2)) ′ (µ1 − µ2) = 0<br />

Soit M le point de coordonnée x, G1 le centre de gravité du groupe 1 de coordonnées µ1 <strong>et</strong> G2 celui<br />

du groupe 2 de coordonnées µ2. Soit G12 le milieu des deux points G1, G2. Il est de coordonnées<br />

1<br />

2 (µ1 + µ2). C<strong>et</strong>te dernière équation se lit alors<br />

< −−−→<br />

G12M, −−−→<br />

G2G1 >= 0,<br />

c’est à dire que les points M cherchés sont sur une droite passant par G12 <strong>et</strong> orthogonale à la droite<br />

portée par −−−→<br />

G2G1 c’est à dire la droite (G1G2).<br />

En faisant de même pour les 2 autres frontières nous pouvons obtenir les frontières théoriques de<br />

la méthode LDA. En général nous n’avons pas les valeurs de µj <strong>et</strong> Σ <strong>et</strong> on les remplace par leurs<br />

estimateurs, donnant des frontières empiriques légèrement différentes.<br />

Régression <strong>logistique</strong> <strong>et</strong> <strong>scoring</strong> Pierre-André Cornillon<br />

Laurent Rouvière


14 Introduction<br />

y<br />

−4 −2 0 2 4<br />

−4 −2 0 2<br />

x<br />

Fig. 1.5 – Frontières théoriques pour une LDA basée sur des données N(µj,I2), où µ1 = (2, 2) ′ ,<br />

µ2 = (−2, 2) ′ <strong>et</strong> µ3 = (0, −2) ′ . Les cercles correspondent à la région de probabilité 1/2.<br />

Pour terminer rappelons que si X ∈ R 2 suit une loi normale centrée réduite N(0, 1) alors X 2 ∼<br />

χ 2 (2). Nous pouvons donc tracer des cercles de rayons q(1 − α, 2) (le quantile 1 −α d’une loi du<br />

χ 2 (2)) qui délimitent une région dont l’extérieur possède une probabilité α.<br />

Si nous changions d’exemple, avec des données N(µj, Σ), la frontière entre les groupes 1 <strong>et</strong> 2<br />

passerait toujours par G12 mais comme le produit scalaire serait par rapport à Σ −1 , l’angle serait<br />

différent. De plus les régions de probabilité seraient alors des ellipses.<br />

Exemple (LDA dans R2 pour 3 groupes (avec covariance)) Plaçons nous dans le cas de<br />

l’exemple précédent. Nous avons g = 3 groupes mais ici il existe une corrélation entre les 2 variables<br />

explicatives, Σ = Σ1 = Σ2 = Σ3 = <br />

1 0.7<br />

0.7 1 . Les observations suivent toutes des lois normales<br />

N(µj, Σ), où µj est la moyenne du groupe. Les moyennes sont toujours choisies égales à µ1 = (2, 2) ′ ,<br />

µ2 = (−2, 2) ′ <strong>et</strong> µ3 = (0, −2) ′ respectivement.<br />

Le même calcul que précédemment sur la frontière entre les groupes 1 <strong>et</strong> 2 aboutit à<br />

< −−−→<br />

G12M, −−−→<br />

G2G1 > Σ −1 = 0,<br />

En faisant de même pour les 2 autres frontières nous pouvons obtenir les frontières théoriques<br />

de la méthode LDA. La frontière entre les groupes 1 <strong>et</strong> 2 passe toujours par G12 mais la droite<br />

représentant la frontière est calculée par rapport au produit scalaire induit par Σ −1 (l’angle est<br />

différent). Les régions de probabilité sont alors des ellipses. En général nous n’avons pas les valeurs<br />

de µj <strong>et</strong> Σ <strong>et</strong> on les remplace par leur estimateurs, donnant des frontière empiriques légèrement<br />

différentes.<br />

Pierre-André Cornillon<br />

Laurent Rouvière<br />

Régression <strong>logistique</strong> <strong>et</strong> <strong>scoring</strong>


1.3 Le modèle linéaire généralisé : GLM 15<br />

y<br />

−4 −2 0 2 4<br />

−4 −2 0 2 4<br />

x<br />

Fig. 1.6 – Frontières théoriques pour une LDA basée sur des données X ∼ N(µj, Σ), où µ1 = (2, 2) ′ ,<br />

µ2 = (−2, 2) ′ , µ3 = (0, −2) ′ , les variables X étant corrélées. Les ellipses correspondent à la région de<br />

probabilité 1/2.<br />

1.3 Le modèle linéaire généralisé : GLM<br />

1.3.1 La régression <strong>logistique</strong><br />

Nous sommes en présence de n observations (x1,y1),...,(xn,yn) d’un couple de variables aléatoires<br />

(X,Y ). Pour la i ème observation (xi,yi), yi est un label qui dénote l’appartenance à un groupe<br />

j ∈ {1,...,g} <strong>et</strong> xi ∈ R p est un ensemble de variables explicatives de l’appartenance à un groupe<br />

(variable notée Y ). Nous souhaitons prédire le label y0 d’une nouvelle observation pour laquelle<br />

nous avons seulement mesuré les variables explicatives x.<br />

Pour simplifier les notations, nous nous placerons dans un contexte de classification binaire, c’est à<br />

dire que nous supposerons qu’il existe seulement deux groupes. Par conséquent la variable aléatoire<br />

Y peut prendre seulement deux valeurs que l’on notera 0 <strong>et</strong> 1. Nous verrons plus tard dans ce cours<br />

comment étendre les techniques à des modèles multiclasses (plus de deux groupes).<br />

L’analyse discriminante propose de calculer les probabilités<br />

P(Y = 0|X = x) <strong>et</strong> P(Y = 1|X = x),<br />

en modélisant la loi de X|Y = j avec j = 0, 1. Le calcul s’effectue à l’aide du Théorème de Bayes.<br />

Ici nous allons modéliser directement P(Y = j|X = x), ce qui semble la démarche la plus naturelle.<br />

Plus précisément, nous allons modéliser non pas P(Y = j|X = x) mais le rapport<br />

P(Y = 1|X = x)<br />

P(Y = 0|X = x)<br />

= P(Y = 1|X = x)<br />

1 − P(Y = 1|X = x) .<br />

Ce rapport est toujours positif <strong>et</strong> il est compris entre 0 <strong>et</strong> +∞. En passant au log nous obtenons<br />

une mesure qui sera dans R <strong>et</strong> que nous pouvons relier aux variables explicatives X via une fonction<br />

f qui sera choisie dans la classe la plus simple, à savoir les fonctions linéaires :<br />

log<br />

P(Y = 1|X = x)<br />

P(Y = 0|X = x) = f(x) = x′ β.<br />

Régression <strong>logistique</strong> <strong>et</strong> <strong>scoring</strong> Pierre-André Cornillon<br />

Laurent Rouvière


16 Introduction<br />

Ce type de modélisation est appelé analyse discriminante <strong>logistique</strong> ou régression <strong>logistique</strong>.<br />

Définition 1.2 (Régression <strong>logistique</strong>) Soit Y une variable binaire à expliquer <strong>et</strong> X = (X1,...,<br />

Xp) ∈ R p p variables explicatives. Le modèle <strong>logistique</strong> propose une modélisation de la loi de<br />

Y |X = x par une loi de Bernoulli de paramètre P(Y = 1|X = x) telle que :<br />

ou encore<br />

log<br />

P(Y = 1|X = x)<br />

P(Y = 0|X = x) = f(x) = x′ β, (1.2)<br />

logit (P(Y = 1|X = x)) = x ′ β,<br />

où logit désigne la fonction bijective <strong>et</strong> dérivable de (0, 1) dans R : p ↦→ log(p/(1 − p)).<br />

Nous pouvons ainsi déduire de (1.2)<br />

P(Y = 1|X = x) = exp(x′ β)<br />

1 + exp(x ′ β) .<br />

Remarque Dans un modèle <strong>logistique</strong>, nous effectuons deux choix pour définir le modèle :<br />

1. le choix d’une loi pour Y |X = x, ici la loi de Bernoulli ;<br />

2. le choix de la modélisation de P(Y = 1|X = x) par<br />

logit (P(Y = 1|X = x)) = x ′ β.<br />

La fonction logit est bijective <strong>et</strong> dérivable. Elle est appelée fonction de lien. C’est une fonction<br />

de lien spéciale, appelée canonique (pour la loi de Bernoulli).<br />

Remarquons également que<br />

⎧<br />

⎪⎨ E(Y |X = x) = P(Y = 1|X = x)<br />

<br />

<br />

⎪⎩ V(Y |X = x) = P(Y = 1|X = x) 1 − P(Y = 1|X = x)<br />

ce qui implique que la variance n’est pas constante <strong>et</strong> varie selon la valeur x de X.<br />

1.3.2 La régression log-linéaire<br />

Dans le modèle <strong>logistique</strong> la variable à expliquer est une variable binaire. Le modèle log-linéaire<br />

traite le cas d’une variable de comptage. Voici quelques exemples :<br />

– nombre de catastrophes aériennes sur une période donnée ;<br />

– nombre de voitures à un feu rouge ;<br />

– nombre d’accidents par jour sur une autoroute...<br />

Définition 1.3 (Régression log-linéaire) Soit Y une variable de comptage à expliquer <strong>et</strong> X =<br />

(X1,...,Xp) ∈ R p p variables explicatives. On suppose que la loi de Y |X = x est une loi de poisson<br />

de paramètre λ = λ(x). Le modèle log-linéaire s’écrit alors :<br />

logE(Y |X = x) = x ′ β.<br />

Pour une nouvelle mesure x effectuée, le modèle log-linéaire va donc prédire exp(x ′ β).<br />

Remarque Ici encore, deux choix sont effectués pour définir le modèle :<br />

1. le choix d’une loi pour Y |X = x, ici la loi de Poisson ;<br />

2. le choix de la modélisation de E(Y |X = x) par<br />

La fonction log est bijective <strong>et</strong> dérivable.<br />

Pierre-André Cornillon<br />

Laurent Rouvière<br />

logE(Y |X = x) = x ′ β.<br />

Régression <strong>logistique</strong> <strong>et</strong> <strong>scoring</strong>


1.3 Le modèle linéaire généralisé : GLM 17<br />

1.3.3 Généralisation : GLM<br />

On peut résumer les remarques 1.1 <strong>et</strong> 1.2 par le tableau suivant :<br />

Choix <strong>logistique</strong> log-linéaire linéaire<br />

Y |X = x Bernoulli Poisson Normale<br />

modélisation<br />

de logit E(Y |X = x) = x ′ β logE(Y |X = x) = x ′ β E(Y |X = x) = x ′ β<br />

E(Y |X = x)<br />

Une généralisation de ces méthodes est appelée GLM (Generalized Linear Model). C<strong>et</strong>te méthode<br />

revient à :<br />

1. choisir une loi pour Y |X = x parmi un ensemble restreint de loi (les lois exponentielles<br />

GLM) ;<br />

2. choisir une fonction de lien g(.) parmi une ensemble réduit de fonctions bijectives <strong>et</strong> dérivable.<br />

3. la transformation de l’espérance conditionnelle E(Y |X = x) par la fonction g est ensuite<br />

modélisée par une fonction η qui n’est autre qu’une combaison linéaire des variables explicatives<br />

:<br />

g (E(Y |X = x)) = η(x) = x ′ β.<br />

On peut résumer un modèle GLM par le schéma suivant :<br />

A expliquer<br />

composante aléatoire<br />

Y |X = x suit une loi fixée.<br />

Remarque<br />

Lien<br />

E(Y |X = x) dépend de<br />

η(x) au travers de la fonction<br />

g appelée fonction de<br />

lien<br />

g(E(Y |X)) = η(X)<br />

g est une fonction inversible.<br />

Explicatif<br />

Composante systématique<br />

On modélise η par une combinaison<br />

linéaire des Xj<br />

η(x) =<br />

1. Pour choisir un modèle GLM il faut donc<br />

– choisir la loi de Y |X = x dans la famille exponentielle des GLM Pθ.<br />

– choisir une fonction de lien inversible g.<br />

2. Pour utiliser un modèle GLM il faudra donc estimer les paramètres β = (β1,...,βp). Une<br />

fois c<strong>et</strong>te estimation réalisée, η(x) est fixé, ce qui fixe E(Y |X = x) = g −1 (η(x)) (qui est la<br />

moyenne, donc la prévision par le modèle) <strong>et</strong> ce qui finalement fixe aussi θ.<br />

Régression <strong>logistique</strong> <strong>et</strong> <strong>scoring</strong> Pierre-André Cornillon<br />

Laurent Rouvière<br />

p<br />

j=1<br />

xjβj


18 Introduction<br />

−3 −2 −1 0 1 2 3<br />

0.0 0.2 0.4 0.6 0.8 1.0<br />

Fig. 1.7 – logit<br />

Le tableau suivant donne quelques exemples de GLM.<br />

0.0 0.2 0.4 0.6 0.8 1.0<br />

−3 −2 −1 0 1 2 3<br />

Fig. 1.8 – Inverse de logit<br />

Loi Nom du lien Fonction de lien<br />

Bernouilli/Binomiale lien logit g(µ) = logit (µ) = log(µ/(1 − µ))<br />

Poisson lien log g(µ) = log(µ)<br />

Normale lien identité g(µ) = µ<br />

Gamma lien réciproque g(µ) = −1/µ<br />

Tab. 1.1 – Exemples de GLM.<br />

Dans la suite du cours, afin de simplifier les notations, nous étudierons le modèle <strong>logistique</strong>. Les<br />

différents résultats obtenus pourront s’étendre aux autres modèles GLM. Il est toutefois important<br />

de connaitre les notations des GLM présentées dans c<strong>et</strong>te partie. C’est en eff<strong>et</strong> sous c<strong>et</strong>te forme<br />

là qu’elles sont présentées dans la littérature ainsi que dans la plupart des logiciels statistiques<br />

(notamment R).<br />

Pierre-André Cornillon<br />

Laurent Rouvière<br />

Régression <strong>logistique</strong> <strong>et</strong> <strong>scoring</strong>


Chapitre 2<br />

Analyse discriminante <strong>logistique</strong><br />

Dans ce chapitre, Y désigne une variable à expliquer binaire (qui prend 2 valeurs 0 ou 1 pour<br />

simplifier) ou un label qui dénote l’appartenance à un groupe (0 ou 1) <strong>et</strong> X = (X1,...,Xp)<br />

désigne p variables explicatives. Rappelons que l’on souhaite :<br />

– expliquer la variable Y à l’aide des p variables explicatives X = (X1,...,Xp) ;<br />

– étant donnée une nouvelle mesure x des p variables explicatives X, prédire le label y associé à<br />

c<strong>et</strong>te variable.<br />

Nous allons maintenant présenter différentes écritures de modèles <strong>logistique</strong>s suivant la nature des<br />

variables explicatives X.<br />

2.1 le modèle <strong>logistique</strong><br />

Nous allons tout d’abord distinguer deux cas : le cas où la variable explicative est continue <strong>et</strong> celui<br />

où la variable explicative est un facteur (sexe, couleur des yeux...). Nous présenterons ensuite une<br />

écriture générale du modèle regroupant ces deux types de variables. Pour simplifier, nous nous<br />

placerons d’abord dans le cas d’une seule variable explicative X.<br />

2.1.1 Variable explicative continue<br />

Si X est une variable continue, le modèle est alors décrit par :<br />

La variable Y |X = x suit une loi de Bernoulli de paramètre P(Y = 1|X = x) <strong>et</strong><br />

logit (P(Y = 1|X = x)) = ln<br />

Dans un contexte de prévision, on a<br />

⎧<br />

⎪⎨<br />

⎪⎩<br />

P(Y = 1|X = x) = exp(x′ β)<br />

1+exp(x ′ β)<br />

P(Y = 1|X = x)<br />

P(Y = 0|X = x) = f(x) = x′ β. (2.1)<br />

P(Y = 0|X = x) = 1 − exp(x′ β)<br />

1+exp(x ′ β)<br />

<strong>et</strong> on affecte à x le label correspondant à la probabilité la plus élevée.<br />

Régression <strong>logistique</strong> <strong>et</strong> <strong>scoring</strong> Pierre-André Cornillon<br />

Laurent Rouvière


20 Analyse discriminante <strong>logistique</strong><br />

2.1.2 Facteurs<br />

Un Facteur<br />

Nous allons maintenant nous placer dans le cas où la variable explicative X est de type facteur.<br />

X peut par exemple désigner le sexe, la couleur des yeux... On note g1,...,gm les m niveaux de<br />

X. Bien entendu, le problème ici consiste à estimer les probabilités de succès pour chaque niveau.<br />

Le modèle <strong>logistique</strong> est décrit par<br />

La variable Y |X = x suit une loi de Bernoulli de paramètre P(Y = 1|X = x) <strong>et</strong><br />

logit (P(Y = 1|X = gk)) = ln<br />

P(Y = 1|X = gk)<br />

P(Y = 0|X = gk) = µk, k = 1,...,m.<br />

Ce premier modèle nécessite l’estimation de m paramètres µk. On lui préfère en général l’écriture<br />

suivante suivante qui ouvre la voie à d’importantes généralisations :<br />

logit (P(Y = 1|X = gk)) = ln<br />

P(Y = 1|X = gk)<br />

P(Y = 0|X = gk) = α0 + αk i = k,...,m.<br />

On remarquera que ce nouveau modèle nécessite l’estimation de m + 1 paramètres alors que<br />

simplement m paramètres sont identifiables de manière unique. Par conséquent, c<strong>et</strong>te nouvelle<br />

décomposition nécessite, pour être unique, une contrainte sur les αi. Une solution souvent utilisée<br />

consiste à prendre un des paramètres égal à 0. C’est la stratégie adoptée par R qui par convention<br />

prend le coefficient correspondant au premier facteur.<br />

Exemple Considérons le cas d’une variable explicative à trois niveaux g1,g2,g3. Les observations<br />

sont récoltées dans les tableaux suivants (équivalents)<br />

observation X Y<br />

1 g1 1<br />

2 g2 1<br />

3 g3 1<br />

4 g1 1<br />

5 g2 0<br />

6 g1 0<br />

X #{Y = 1} #{Y = 0}<br />

g1 2 1<br />

g2 1 1<br />

g3 1 0<br />

Lorsque les données sont présentées comme dans le second tableau, on parle de présentation sous<br />

forme binomiale. On effectue une régression <strong>logistique</strong> sur R, les sorties sont les suivantes :<br />

> model model<br />

Call: glm(formula = Y ~ ., family = binomial, data = X)<br />

Coefficients:<br />

(Intercept) xg2 xg3<br />

0.6931 -0.6931 17.8729<br />

Degrees of Freedom: 5 Total (i.e. Null); 3 Residual<br />

Null Deviance: 7.638<br />

Residual Deviance: 6.592 AIC: 12.59<br />

Pierre-André Cornillon<br />

Laurent Rouvière<br />

Régression <strong>logistique</strong> <strong>et</strong> <strong>scoring</strong>


2.1 le modèle <strong>logistique</strong> 21<br />

Le modèle s’écrit donc :<br />

⎧<br />

⎨ 0.6931 si j = 1<br />

logit P(Y = 1|X = gj) = 0<br />

⎩<br />

0.6931 + 17.8729 = 18.566<br />

si j = 2<br />

si j = 3.<br />

ou encore<br />

Plusieurs facteurs<br />

⎧<br />

⎪⎨<br />

P(Y = 1|X = gj) =<br />

⎪⎩<br />

exp(0.6931)<br />

1+exp(0.6391)<br />

= 2/3 si j = 1<br />

1/2 si j = 2<br />

= 1.0000 si j = 3.<br />

exp(18.566)<br />

1+exp(18.566)<br />

On suppose ici que l’on a p facteurs X1,...,Xp à m1,...,mp niveaux. On notera gjk le k ème niveau<br />

du j ème facteur. Dans ce cas là pour une réalisation x = (g1k1,...,gpkp) de la variable X, on écrira<br />

comme modèle :<br />

logit (P(Y = 1|X = x)) = α0 + α1k1 + ... + αpkp.<br />

On remarquera qu’a priori un tel modèle nécessite l’estimation de p<br />

j=1 mj + 1 paramètres.<br />

Exemple Considérons le cas de deux facteurs F <strong>et</strong> H possédant respectivement m1 = 2 <strong>et</strong> m2 = 3<br />

facteurs. On dispose de 16 individus, les sorties R pour un modèle <strong>logistique</strong> sont données par :<br />

model1<br />

Call: glm(formula = Y ~ ., family = binomial, data = X)<br />

Coefficients:<br />

(Intercept) Fg2 Fg3 Hh2<br />

-0.7529 1.3225 2.1600 -0.4011<br />

Degrees of Freedom: 15 Total (i.e. Null); 12 Residual<br />

Null Deviance: 22.18<br />

Residual Deviance: 19.48 AIC: 27.48<br />

On peut alors résumer le modèle par le tableau suivant :<br />

g1 g2 g3<br />

h1 α0 α0 + Fg2 α0 + Fg3<br />

h2 α0 + Hh2 α0 + Fg2 + Hh2 α0 + Fg3 + Hh2<br />

Les probabilités prédites par ce modèle pour les nouveaux individus x1 = (g1,h1), x2 = (g2,h1),<br />

x3 = (g3,h2) sont<br />

P(Y = 1|X = x1) = exp(−0.7529)<br />

1 + exp(−0.7529)<br />

P(Y = 1|X = x2) =<br />

P(Y = 1|X = x3) =<br />

exp(−0.7529 + 1.3225)<br />

1 + exp(−0.7529 + 1.3225)<br />

= 0.3202<br />

exp(−0.7529 + 2.1600 − 0.4011)<br />

1 + exp(−0.7529 + 2.1600 − 0.4011)<br />

= 0.6387<br />

= 0.7322.<br />

Régression <strong>logistique</strong> <strong>et</strong> <strong>scoring</strong> Pierre-André Cornillon<br />

Laurent Rouvière


22 Analyse discriminante <strong>logistique</strong><br />

Le modèle de l’exemple précédent nécessite l’estimation de 1+(m1 −1)+(m2 −1) = 4 paramètres.<br />

De manière générale on peut montrer que le nombre de paramètres identifiables de manière unique<br />

est :<br />

Variable constante X1 X2 · · · Xp Total<br />

Nb param 1 m1 − 1 m2 − 1 · · · mp − 1 p<br />

j=1 (mj − 1) + 1<br />

p<br />

(mj − 1) + 1 =<br />

j=1<br />

2.1.3 Définition générale<br />

p<br />

mj − p + 1.<br />

Soit Y une variable binaire que l’on cherche à expliquer par p variables explicatives (X1,...,Xp).<br />

On suppose que les p0 premières variables sont des facteurs <strong>et</strong> que les p − p0 dernières sont des<br />

variables continues. Pour une réalisation x = (g1k1,...,gp0kp 0 ,xp0+1,...,xp), le modèle <strong>logistique</strong><br />

est défini par :<br />

Y |X = x suit une loi de Bernoulli de paramètre p(x) = P(Y = 1|X = x) <strong>et</strong><br />

logit (P(Y = 1|X = x)) = α0 + α1k1 + ... + αp0kp0 + βp0+1xp0+1 + ... + βpxp.<br />

Remarque (importante) Etant donné une réalisation gk, k = 1,...,m d’une variable X de type<br />

facteur, on note x = (x1,...,xm) le vecteur de R m tel que :<br />

xj =<br />

j=1<br />

1 si j = k<br />

0 sinon.<br />

Une réalisation gk de la variable X pourra ainsi s’écrire x = (0, 0,...,1, 0,...,0) <strong>et</strong> le modèle<br />

logit (P(Y = 1|X = x)) = α0 + αk<br />

= α0 + α1x1 + ... + αmxm = x ′ α<br />

C<strong>et</strong>te écriture est similaire à celle d’une variable continue de R m . C’est pourquoi dans la suite,<br />

lorsque nous parlerons de modèle <strong>logistique</strong> de manière générale, nous écrirons :<br />

logit (P(Y = 1|X = x)) = β0 + β1x1 + ... + βpxp = x ′ β.<br />

Il faut tout de même prendre garde aux nombres de paramètres identifiables de manière unique<br />

qui est fonction du nombre de niveaux des variables de type facteur. Si nous sommes en présence<br />

de p0 facteurs parmi les p variables, ce nombre sera :<br />

Pierre-André Cornillon<br />

Laurent Rouvière<br />

p0 <br />

1 + (mj − 1) + (p − p0).<br />

j=1<br />

Régression <strong>logistique</strong> <strong>et</strong> <strong>scoring</strong>


2.1 le modèle <strong>logistique</strong> 23<br />

0.3 0.7<br />

0.0 1.0<br />

β = 0<br />

0.2 0.8<br />

0.0 1.0<br />

β = 0.5<br />

β = 2 β = 10<br />

Fig. 2.1 – P(Y = 1|X = x) pour différentes valeurs de β.<br />

2.1.4 Interprétation des coefficients β<br />

Nous avons représenté sur la Figure 2.1 plusieurs représentations de la fonction x ↦→ exp(xβ)<br />

1+exp(xβ) pour<br />

différentes valeurs de β. On remarque que :<br />

– pour de faibles valeurs de β on a une large plage de valeurs de x pour lesquelles la fonction se<br />

situe aux alentours de 0.5 (la fonction est même constante (0.5) dans le cas extrême β = 0).<br />

Pour ces valeurs P(Y = 1|X = x) sera proche de 0.5 <strong>et</strong> on peut donc penser qu’il sera difficile<br />

de faire une prévision;<br />

– lorsque β augmente, la zone où la fonction est proche de 0.5 diminue <strong>et</strong> la fonction est proche<br />

de 0 ou 1 pour un grand nombre de valeurs de x. Par conséquent, P(Y = 1|X = x) sera souvent<br />

proche de 1 ou 0, ce qui risque de minimiser d’éventuelles erreurs de prédictions.<br />

On peut interpréter ainsi : plus β est grand, mieux on discrimine. Cependant une telle interprétation<br />

dépend des valeurs que x prend, plus précisément de son échelle. C’est pourquoi en général<br />

l’interprétation des coefficients β s’effectue en terme d’odd-ratio. Les odd-ratios sont des outils<br />

souvent appréciés dans le domaine de l’épidémiologie (mais pas toujours bien utilisés !).<br />

Définition 2.1 L’odd-ratio est le rapport entre la probabilité d’avoir la réponse Y = 1 <strong>et</strong> la probabilité<br />

d’avoir la non-réponse dans le cas où X = xi <strong>et</strong> dans le cas où X = xi ′ :<br />

ORi,i ′ =<br />

pi<br />

1−pi<br />

pi ′<br />

1−pi ′<br />

.<br />

Dit autrement l’odd-ratio perm<strong>et</strong> de mesurer “l’écart” entre les rapports des probabilités de succès<br />

<strong>et</strong> d’échec entre deux observations de la variable qualitative.<br />

Les odd-ratio peuvent être utilisés de plusieurs manières :<br />

1. Comparaison de probabilités de succés entre deux individus : voir Tableau 2.1.<br />

Régression <strong>logistique</strong> <strong>et</strong> <strong>scoring</strong> Pierre-André Cornillon<br />

Laurent Rouvière


24 Analyse discriminante <strong>logistique</strong><br />

ORi,i ′ > 1 ⇐⇒ pi > pi ′<br />

ORi,i ′ = 1 ⇐⇒ pi = pi ′<br />

ORi,i ′ < 1 ⇐⇒ pi < pi ′<br />

Tab. 2.1 – Règles d’interprétation des odd-ratio.<br />

2. Interprétation en terme de risque relatif : dans le cas où pi <strong>et</strong> pi ′ sont très p<strong>et</strong>its par<br />

rapport à 1, comme dans le cas d’une maladie très rare, alors on peut approximer l’odd-ratio<br />

comme ORi,i ′ ∼ pi/pi ′ <strong>et</strong> interpréter simplement. Par exemple si ORi,i ′ = 4 alors la réponse<br />

(maladie) est 4 fois plus probable dans le cas où X = xi que dans le cas où X = xi ′.<br />

3. Mesure de l’impact d’une variable : pour le modèle <strong>logistique</strong><br />

il est facile de vérifier que<br />

logit (p(x)) = β0 + β1x1 + ... + βpxp,<br />

ORi,i ′ = exp(β1(x1 − x ′ 1))...exp(βp(xp − x ′ p)).<br />

Si par exemple nous souhaitons étudier l’influence d’une variable sur l’odd-ratio, il nous suffit<br />

de considérer deux observation xi <strong>et</strong> xi ′ qui diffèrent uniquement par la jème variable, dans<br />

ce cas :<br />

ORi,i ′ = exp(βj(xj − x ′ j)).<br />

Ainsi une variation de la j ème variable d’une unité (sur l’échelle de c<strong>et</strong>te variable) correspond à<br />

un odd-ratio exp(βj) qui est uniquement fonction du coefficient βj. Le coefficient βj perm<strong>et</strong><br />

de mesurer l’influence de la j ème variable sur le rapport p(x)/(1 − p(x)) lorsque xj varie<br />

d’une unité, <strong>et</strong> ceux indépendamment de la valeur de xj. Une telle analyse peut se révéler<br />

intéressante pour étudier l’influence d’un changement d’état d’une variable qualitative.<br />

Bien entendu, en pratique on ne connaît pas la loi du couple (X,Y ), on dispose simplement de<br />

n réalisations (X1,Y1),...,(Xn,Yn) de ce couple. Par conséquent, on ne peut calculer les vrais<br />

coefficients β, il va donc falloir les estimer à partir de l’échantillon.<br />

2.2 Rappels sur la méthode du maximum de vraisemblance<br />

Théorème 2.1 (Inégalité de Cramer-Rao) Soit T un estimateur sans biais pour θ en dimension<br />

1. Sous certaines conditions de régularité, on a<br />

où I(θ) est l’information de Fisher :<br />

I(θ) = Eθ<br />

Vθ(T) ≥ 1<br />

nI(θ) ,<br />

∂<br />

<br />

2<br />

ln f(X,θ) .<br />

∂θ<br />

Si un estimateur sans biais pour θ atteint la borne de Cramer-Rao, on dit qu’il est efficace.<br />

Pour généraliser l’inégalité de Cramer-Rao aux dimensions supérieures à 1, on introduit la matrice<br />

d’information de Fisher I(Θ) symétrique d’ordre k dont l’élément en position (i,j) est :<br />

Pierre-André Cornillon<br />

Laurent Rouvière<br />

Régression <strong>logistique</strong> <strong>et</strong> <strong>scoring</strong>


2.3 Estimation des paramètres 25<br />

Eθ<br />

<br />

∂<br />

ln f(X,θ)<br />

∂θi<br />

∂<br />

∂θj<br />

2 ∂<br />

<br />

ln f(X,θ) = −Eθ ln f(X,θ) .<br />

∂θi∂θj<br />

On montre alors que pour tout estimateur sans biais T <strong>et</strong> pour tout u ∈ R k<br />

Vθ(u ′ T) ≥ u ′[I(θ)]−1<br />

u,<br />

n<br />

où Vθ(u ′ T) dénote la variance de la combinaison linéaire u ′ T. Ceci est équivalent à écrire<br />

Vθ(T) ≥ 1<br />

n [I(θ)]−1 ,<br />

où Vθ(T) représente ici la matrice de variance-covariance de la statistique T (en cas d’égalité on<br />

dit que l’estimateur T est efficace).<br />

Définition 2.2 Soit un échantillon aléatoire X1,...,Xn dont la loi mère appartient à une famille<br />

paramétrique {f(x,θ),θ ∈ Θ} où θ ⊆ R k . On appelle fonction de vraisemblance de θ pour une<br />

réalisation donnée x1,...,xn de l’échantillon, la fonction de θ :<br />

L(θ;x1,...,xn) = f(x1,...,xn,θ) =<br />

n<br />

f(xi,θ).<br />

Remarquons que dans le cas discr<strong>et</strong>, la vraisemblance est exactement la probabilité Pθ(X1 =<br />

x1,...,Xn = xn). On dira que la valeur θ1 de θ est “plus vraisemblable” que la valeur θ2 si<br />

L(θ1;x1,...,xn) > L(θ2;x1,...,xn).<br />

Définition 2.3 On appelle estimation du maximum de vraisemblance une valeur ˆ θ, s’il en<br />

existe une, telle que :<br />

L( ˆ θ) = supL(θ).<br />

θ∈Θ<br />

Une telle solution dépend de x1,...,xn, soit ˆ θ = h(x1,...,xn). La statistique ˆ θ = h(X1,...,Xn)<br />

est appelée estimateur du maximum de vraisemblance (EMV).<br />

Théorème 2.2 Soit ˆ θ l’estimateur du maximum de vraisemblance défini ci dessus. Sous certaines<br />

conditions de régularité, on a :<br />

– ˆ θ converge presque sûrement vers θ (il est donc asymptotiquement sans biais);<br />

– ˆ θ est asymptotiquement normal :<br />

i=1<br />

√ n( ˆ θ − θ) loi<br />

→ N(O, [I(θ)] −1 ).<br />

On en déduit que la matrice de variance-covariance de ˆ θ se “rapproche” de 1<br />

n [I(θ)]−1 . On dit que<br />

l’estimateur du maximum de vraisemblance est asymptotiquement efficace.<br />

2.3 Estimation des paramètres<br />

Nous allons utiliser l’échantillon (x1,y1),...,(xn,yn) pour estimer les paramètres β par maximum<br />

de vraisemblance. C<strong>et</strong>te méthode consiste à chercher β = (β0,β1,...,βp) qui maximise<br />

n<br />

P(Y = yi|X = xi).<br />

i=1<br />

Régression <strong>logistique</strong> <strong>et</strong> <strong>scoring</strong> Pierre-André Cornillon<br />

Laurent Rouvière


26 Analyse discriminante <strong>logistique</strong><br />

Rappelons que par définition du modèle <strong>logistique</strong> Y |X = x ∼ Ber(p(x)). Par conséquent :<br />

n<br />

n<br />

P(Y = yi|X = xi) = p yi 1−yi<br />

i (1 − pi)<br />

i=1<br />

avec pi = P(Y = 1|X = xi). En passant au log nous avons alors<br />

n<br />

L(β) = {yi log(pi) + (1 − yi) log(1 − pi)}<br />

=<br />

i=1<br />

n<br />

<br />

i=1<br />

<br />

pi<br />

yi log<br />

i=1<br />

1 − pi<br />

<br />

<br />

+ log(1 − pi) .<br />

Grâce à la définition du modèle <strong>logistique</strong> (2.1) nous avons alors<br />

n<br />

L(β) = {yix ′ iβ − log(1 + exp(x ′ iβ))}.<br />

En dérivant par rapport au paramètre β nous avons que ∂L<br />

∂β =<br />

<br />

∂L ∂L ,..., ∂β1 ∂βp<br />

∂L<br />

∂βr<br />

Ce qui donne en écriture matricielle<br />

=<br />

=<br />

i=1<br />

n<br />

<br />

yix r i − xri exp(x ′ iβ)<br />

1 + exp(x ′ iβ) <br />

n<br />

[x r i(yi − pi)] .<br />

i=1<br />

i=1<br />

∂L<br />

∂β =<br />

n<br />

[xi(yi − pi)].<br />

i=1<br />

Une condition nécessaire d’optimum (sur Rp ) est l’annulation des dérivée à l’optimum noté ˆ β, nous<br />

avons donc<br />

n<br />

x ′ i {yi − P(Y = 1|X = xi)} = X ′ (Y − ˆ P) = 0, (2.2)<br />

i=1<br />

ˆP est le vecteur de dimension n des P(Y = 1|X = xi) qui dépend de ˆ β.<br />

Trouver explicitement ˆ β n’est pas possible. En eff<strong>et</strong>, l’équation (2.2) s’écrit :<br />

⎧<br />

exp(β1x11 + ... + βpx1p)<br />

exp(β1xn1 + ... + βpxnp)<br />

x11y1 + ... + xn1yn = x11<br />

+ ... + xn1<br />

1 + exp(β1x11 + ... + βpx1p) 1 + exp(β1xn1 + ... + βpxnp)<br />

⎪⎨<br />

.<br />

⎪⎩<br />

.<br />

exp(β1x11 + ... + βpx1p)<br />

exp(β1xn1 + ... + βpxnp)<br />

x1py1 + ... + xnpyn = x1p<br />

+ ... + xnp<br />

1 + exp(β1x11 + ... + βpx1p) 1 + exp(β1xn1 + ... + βpxnp) .<br />

Dans le cas de la régression <strong>logistique</strong> (binaire), il existe une procédure spécifique dite IRLS<br />

(Iterative Reweighted Least Squares) issue de la procédure de Newton-Raphson :<br />

Pierre-André Cornillon<br />

Laurent Rouvière<br />

′<br />

avec<br />

Régression <strong>logistique</strong> <strong>et</strong> <strong>scoring</strong>


2.3 Estimation des paramètres 27<br />

1. choix d’un point de départ β 0 ;<br />

2. On construit βk+1 à partir de βk tel que −L(βk+1 ) < −L(βk ), pour cela on utilise la direction<br />

de la plus forte descente qui n’est autre que le gradient ∇L = ∂L ′<br />

∂β<br />

β k+1 = β k + A k ∇L| β k,<br />

où ∇L| β k est le gradient au point β k <strong>et</strong> A k est la matrice de “pas” de l’algorithme. Il existe<br />

plusieurs manières de choisir A k , la méthode IRPLS suggère A k = −(∇ 2 L| β k) −1 (l’inverse du<br />

hessien de L au point β k .<br />

Algorithme 1 maximisation de la vraisemblance<br />

Require: β 0<br />

k ← 1<br />

repeat<br />

β k+1 ← β k + A k ∇Lk {différent choix possible pour A k }<br />

k ← k + 1<br />

until β k+1 ≈ β k+1 <strong>et</strong>/ou L(β k+1 ) ≈ L(β k )<br />

Calculons la matrice hessienne ∇ 2 2 ∂ L<br />

L =<br />

:<br />

∂βr∂βs 1≤r,s≤p<br />

∂2 n<br />

L<br />

= − x<br />

∂βr∂βs<br />

r ix s exp(x<br />

i<br />

′ iβ)<br />

(1 + exp(x ′ n<br />

= − x<br />

iβ))2 r ix s ipi(1 − pi),<br />

par conséquent<br />

∇ 2 L = ∂2L = −<br />

∂β2 i=1<br />

i=1<br />

n<br />

xix ′ iP(Y = 1|X = xi)(1 − P(Y = 1|X = xi)).<br />

i=1<br />

Rappelons que dans le contexte qui est le nôtre, à l’étape k de l’algorithme pi = P(Y = 1|X = xi)<br />

est la i ème coordonnée de P k <strong>et</strong> dépend de xi <strong>et</strong> de β k . Ainsi en notant W k = diag(pi(1 − pi)) <strong>et</strong><br />

X la matrice n × p des xi, il vient<br />

Nous sommes maintenant à même de calculer β k+1<br />

−(∇ 2 L| β k) −1 = (X ′ W k X) −1 . (2.3)<br />

β k+1 = β k + (X ′ W k X) −1 X ′ (Y − P k )<br />

= (X ′ W k X) −1 X ′ W k (X ˆ β k + W k−1 (Y − P k ))<br />

= (X ′ W k X) −1 X ′ W k Z k ,<br />

où Z k = Xβ k + W k−1 (Y − P k ). C<strong>et</strong>te équation est simplement une régression pondérée où les<br />

poids W k dépendent de X <strong>et</strong> β k . Les poids sont donc réévalués à chaque étape de l’algorithme,<br />

une étape étant une simple régression pondérée.<br />

Remarque Dans le cas de la régression linéaire, P est équivalent à E(Y |X = xi) = Xβ. Ainsi,<br />

d’après (2.2)<br />

X ′ (Y − ˆ P) = 0 ⇐⇒ ˆ β = (X ′ X) −1 X ′ Y,<br />

on r<strong>et</strong>rouve l’estimateur des moindres carrés (qui est également celui du maximum de vraisemblance).<br />

Régression <strong>logistique</strong> <strong>et</strong> <strong>scoring</strong> Pierre-André Cornillon<br />

Laurent Rouvière


28 Analyse discriminante <strong>logistique</strong><br />

2.4 Précision des estimations<br />

Puisque nous utilisons le maximum de vraisemblance, il est alors possible en utilisant le Théorème<br />

2.2 de bâtir des intervalles de confiance pour βj. En eff<strong>et</strong>, on déduit du théorème 2.2 que<br />

asymptotiquement :<br />

où σβj =<br />

−1 I(β)<br />

jj<br />

<br />

ˆβj ∼ N 0, σβj<br />

<br />

,<br />

n<br />

(l’élément (j,j) de l’inverse de la matrice d’information de Fisher). Dans le<br />

cas binaire c<strong>et</strong>te matrice vaut (X ′ WX) −1 (eq. 2.3). On déduit donc un intervalle de confiance de<br />

niveau 1 − α pour βj :<br />

ICα(βj) =<br />

ˆβj − u1−α/2<br />

1<br />

√ n ˆσˆ βj ; ˆ βj + u1−α/2<br />

1<br />

<br />

√ ˆσˆ , βj n<br />

où u1−α/2 représente le quantile de niveau (1 − α/2) de la loi normale N(0, 1).<br />

La validité de ces intervalles est toute relative puisqu’il s’agit d’une approximation valable asymptotiquement<br />

<strong>et</strong> dont la variance dans le cas de l’approximation normale, doit être évaluée à la vraie<br />

valeur du paramètre inconnue. Il est toujours possible de compléter c<strong>et</strong>te étude par un bootstrap<br />

afin d’obtenir d’autres intervalles de confiance dans le cas ou ceux-ci sont particulièrement importants.<br />

Cela dit, en pratique, on se contente de l’intervalle de confiance bâti grâce à la matrice<br />

d’information de Fisher.<br />

2.5 Un exemple avec R<br />

Le traitement du cancer de la prostate change si le cancer a atteint ou non les nøeuds lymphatiques<br />

entourant la prostate. Pour éviter une investigation lourde (ouverture de la cavité abdominale) un<br />

certain nombre de variables sont considérées comme explicative de la variable Y binaire : Y = 0 le<br />

cancer n’a pas atteint le réseau lymphatique, Y = 1 le cancer a atteint le réseau lymphatique. Le<br />

but de c<strong>et</strong>te étude est donc d’essayer d’expliquer Y par les variables suivantes (toutes contenues<br />

dans le fichier cancerprostate.csv)<br />

– âge du patient au moment du diagnostic (age)<br />

– le niveau d’acide phosphatase sérique (acide), que l’on appellera par la suite niveau d’acidité<br />

– Le résultat d’une analyse par rayon X, 0= négatif, 1=positif (rayonx)<br />

– La taille de la tumeur, 0=p<strong>et</strong>ite, 1=grande, (taille)<br />

– L’état pathologique de la tumeur déterminée par biopsie (0=moyen, 1=grave)<br />

– Le logarithme népérien du niveau d’acidité (log.acid)<br />

2.5.1 <strong>Modèle</strong>s “classiques”<br />

Nous sommes en présence de 6 variables explicatives, notées X = (X1,...,X6) avec :<br />

– X1, X2 <strong>et</strong> X6 quantitatives ;<br />

– X3, X4 <strong>et</strong> X5 qualitatives (2 niveaux pour chacune).<br />

Pierre-André Cornillon<br />

Laurent Rouvière<br />

Régression <strong>logistique</strong> <strong>et</strong> <strong>scoring</strong>


2.5 Un exemple avec R 29<br />

age acide rayonx taille grade log.acid.<br />

1 66 0.48 0 0 0 -0.73396918<br />

2 68 0.56 0 0 0 -0.57981850<br />

3 66 0.50 0 0 0 -0.69314718<br />

4 56 0.52 0 0 0 -0.65392647<br />

5 58 0.50 0 0 0 -0.69314718<br />

6 60 0.49 0 0 0 -0.71334989<br />

7 65 0.46 1 0 0 -0.77652879<br />

8 60 0.62 1 0 0 -0.47803580<br />

9 50 0.56 0 0 1 -0.57981850<br />

10 49 0.55 1 0 0 -0.59783700<br />

Premier modèle<br />

Tab. 2.2 – Tableau de données sur R.<br />

Considérons tout d’abord les trois variables explicatives X = (X3,X4,X5). Une observation x va<br />

s’écrire x = (g3k3,g4k4,g5k5). On écrira donc le modèle<br />

logit (P(Y = 1|X = x)) = α0 + α3k3 + α4k4 + α5k5.<br />

Ecrit de c<strong>et</strong>te manière, ce modèle possède 7 paramètres mais seulement 4 paramètres indépendants.<br />

Voici les sorties du logiciel R :<br />

> model_quali model_quali<br />

Call: glm(formula = Y ~ rayonx + taille + grade, family = binomial, data = donnees)<br />

Coefficients:<br />

(Intercept) rayonx1 taille1 grade1<br />

-2.1455 2.0731 1.4097 0.5499<br />

Degrees of Freedom: 52 Total (i.e. Null); 49 Residual<br />

Null Deviance: 70.25<br />

Residual Deviance: 52.78 AIC: 60.78<br />

Le logiciel R estime les coefficients α0,α31,α41,α51, les coefficients αi0 étant par défaut pris égaux<br />

à 0. Si par exemple (x3,x4,x5) = (1, 0, 1), on aura alors :<br />

logit ( ˆ P(Y = 1|X = x)) = ˆα0 + ˆα31 + ˆα40 + ˆα51 = −2.1455 + 2.0731 + 0 + 0.5499 = 0.4785<br />

<strong>et</strong><br />

ˆP(Y = 1|X = x) = exp(0.4785)<br />

= 0.6174.<br />

1 + exp(0.4785)<br />

Ainsi, dans un contexte de prévision, nous assignerons le label 0 a la nouvelle observation x.<br />

Deuxième modèle<br />

Considérons maintenant le modèle uniquement composé de variables quantitatives,<br />

<strong>et</strong> R fournit les estimations suivantes<br />

logit (P(Y = 1|X = x)) = β0 + β1x1 + β2x2 + β6x6,<br />

Régression <strong>logistique</strong> <strong>et</strong> <strong>scoring</strong> Pierre-André Cornillon<br />

Laurent Rouvière


30 Analyse discriminante <strong>logistique</strong><br />

> model_quanti model_quanti<br />

Call: glm(formula = Y ~ age + acide + log.acid., family = binomial, data = donnees)<br />

Coefficients:<br />

(Intercept) age acide log.acid.<br />

12.34700 -0.02805 -9.96499 10.54332<br />

Degrees of Freedom: 52 Total (i.e. Null); 49 Residual<br />

Null Deviance: 70.25<br />

Residual Deviance: 59.95 AIC: 67.95<br />

Troisième modèle<br />

Le modèle “compl<strong>et</strong>” à 6 variables s’écrit<br />

logit (P(Y = 1|X = x)) = β0 + β1x1 + β2x2 + α3(x3) + α4(x4) + α5(x5) + β6x5.<br />

> model_compl<strong>et</strong> model_compl<strong>et</strong><br />

Call: glm(formula = Y ~ ., family = binomial, data = donnees)<br />

Coefficients:<br />

(Intercept) age acide rayonx1 taille1 grade1<br />

10.08672 -0.04289 -8.48006 2.06673 1.38415 0.85376<br />

log.acid.<br />

9.60912<br />

Degrees of Freedom: 52 Total (i.e. Null); 46 Residual<br />

Null Deviance: 70.25<br />

Residual Deviance: 44.77 AIC: 58.77<br />

2.5.2 Encore d’autres modèles...<br />

Comme dans le cas du le modèle “linéaire” on peut également considérer des interactions entre les<br />

variables explicatives dans le contexte de la régression <strong>logistique</strong>. Généralement, on dit qu’il y a<br />

interaction entre deux facteurs F1 <strong>et</strong> F2 sur une variable Y si l’eff<strong>et</strong> de l’un des facteurs diffère<br />

selon la modalité de l’autre. Remarquons que c<strong>et</strong>te notion n’a rien à voir avec celle de corrélation<br />

qui ne concerne que deux variables alors que l’interaction m<strong>et</strong> en jeu une troisième variable Y .<br />

Exemple (Construction d’interaction) On s’intéresse à l’eff<strong>et</strong> de deux traitements X1 <strong>et</strong> X2<br />

sur le rhum. Le traitement X1 consiste à prendre à intervalle de temps réguliers deux verres de<br />

cognac, <strong>et</strong> X2 représente un traitement aux antibiotiques. La variable réponse Y correspond à<br />

l’état du patient (1 si malade, 0 si bonne santé). On simule un échantillon de la manière suivante :<br />

1. deux facteurs X1 <strong>et</strong> X2 à deux niveaux équiprobables ;<br />

2. la loi de Y conditionnellement à X1 <strong>et</strong> X2 est donnée dans le tableau suivant :<br />

On estime les taux d’erreurs sur un échantillon indépendant <strong>et</strong> on reporte dans le tableau suivant<br />

les erreurs commises par les modèles sans <strong>et</strong> avec interactions.<br />

Pierre-André Cornillon<br />

Laurent Rouvière<br />

Régression <strong>logistique</strong> <strong>et</strong> <strong>scoring</strong>


2.5 Un exemple avec R 31<br />

0 1<br />

0 B(0.95) B(0.05)<br />

1 B(0.05) B(0.95)<br />

Tab. 2.3 – Loi de Y .<br />

Sans 0.54<br />

Avec 0.065<br />

Tab. 2.4 – Taux d’erreurs estimés.<br />

Dans le cas de deux facteurs X1 <strong>et</strong> X2 adm<strong>et</strong>tant m1 <strong>et</strong> m2 niveaux, si x = (g1k1,g2k2) le modèle<br />

va ainsi s’écrire :<br />

logit (P(Y = 1|X = x)) = α0 + α1k1 + α2k2 + αk1k2.<br />

Le nombre de paramètres identifiables de manière unique se calcule de la manière suivante :<br />

Variable constante X1 X2 X1 : X2 Total<br />

Nb param 1 m1 − 1 m2 − 1 (m1 − 1)(m2 − 1) m1m2<br />

Ainsi si nous revenons à l’exemple du cancer de la prostate avec toutes les interactions :<br />

> model_inter model_inter<br />

Call: glm(formula = Y ~ .^2, family = binomial, data = donnees)<br />

Coefficients:<br />

(Intercept) age acide rayonx1<br />

2.843e+17 -4.229e+15 -3.117e+17 -5.453e+16<br />

taille1 grade1 log.acid. age:acide<br />

2.516e+16 -5.778e+15 2.026e+17 4.665e+15<br />

age:rayonx1 age:taille1 age:grade1 age:log.acid.<br />

2.077e+13 -5.245e+13 -1.670e+14 -2.869e+15<br />

acide:rayonx1 acide:taille1 acide:grade1 acide:log.acid.<br />

5.572e+16 -2.420e+16 2.336e+16 -5.687e+15<br />

rayonx1:taille1 rayonx1:grade1 rayonx1:log.acid. taille1:grade1<br />

1.129e+15 -1.176e+15 -4.004e+16 -5.496e+15<br />

taille1:log.acid. grade1:log.acid.<br />

8.625e+15 -1.228e+16<br />

Degrees of Freedom: 52 Total (i.e. Null); 31 Residual<br />

Null Deviance: 70.25<br />

Residual Deviance: 504.6 AIC: 548.6<br />

On peut vérifier que ce modèle nécessite l’estimation de 22 paramètres. Bien entendu, d’autres sousmodèles<br />

avec interactions peuvent être utilisés. De plus, nous pouvons nous demander si toutes les<br />

variables sont bien explicatives ? Dés lors, des méthodes sélection <strong>et</strong> validation de modèles doivent<br />

être mise au point.<br />

Régression <strong>logistique</strong> <strong>et</strong> <strong>scoring</strong> Pierre-André Cornillon<br />

Laurent Rouvière


Chapitre 3<br />

Sélection <strong>et</strong> validation de modèles<br />

Ce chapitre se divise essentiellement en deux parties qui :<br />

1. Sélection : Etant donnée M modèles M1,...MM, comment choisir le “meilleur” à partir<br />

de l’échantillon dont on dispose.<br />

2. Validation : Est-ce-que le modèle sélectionné M0 est bon? En statistique c<strong>et</strong>te question<br />

peut être vue de différentes façons :<br />

• Est-ce-que la qualité d’ajustement globale est satisfaisante : le modèle décrit-il bien les<br />

valeurs observées ?<br />

– Ce type de question fait l’obj<strong>et</strong> des tests d’ajustement ou d’adéquation (goodness of fit).<br />

– L’ajustement peut être aussi regardé observation par observation (individus aberrants)<br />

par des méthodes graphiques (analyse des résidus) ou analytiques.<br />

• Est ce que les hypothèses sont vérifiées ? Les méthodes sont essentiellement graphiques<br />

(analyse des résidus).<br />

• L’influence sur l’estimation des points peut être aussi envisagée (distance de Cook, robustesse).<br />

Dans ce chapitre nous allons traiter ces questions à travers l’exemple du modèle <strong>logistique</strong>. Mais<br />

l’ensemble des méthodes que nous présenterons peuvent s’étendre à d’autres problématiques de<br />

sélection-validation de modèles.<br />

3.1 Sélection ou choix de modèle<br />

Pour la régression <strong>logistique</strong>, sélectionner un modèle revient à choisir les variables (interactions<br />

inclues) qui vont constituer le modèle. On se place dans le cas où on dispose d’un certain nombre<br />

de modèles, <strong>et</strong> on se pose le problème de chercher le meilleur.<br />

3.1.1 Un outil spécifique : la déviance<br />

Comme la vraisemblance n’est jamais à la même échelle (cela dépend des données), il n’est pas<br />

facile d’avoir une idée de la qualité d’ajustement en regardant la vraisemblance. Pour cela, un<br />

outil spécifique est introduit : la déviance. Elle compare la vraisemblance obtenue à celle que l’on<br />

obtiendrait dans un modèle parfait : le modèle saturé. Elle est définie par :<br />

D = 2 (Lsaturé − L(β)) ≥ 0.<br />

La déviance est égal à 2 fois une différence de vraisemblance. Elle constitue un écart en terme de<br />

log-vraisemblance entre le modèle saturé d’ajustement maximum <strong>et</strong> le modèle considéré :<br />

Régression <strong>logistique</strong> <strong>et</strong> <strong>scoring</strong> Pierre-André Cornillon<br />

Laurent Rouvière


34 Sélection <strong>et</strong> validation de modèles<br />

Ajustement<br />

parfait bon moyen mauvais Qualité d’ajustement<br />

✲<br />

0 Déviance<br />

Dans le modèle saturé, on considère que la prévision est parfaite, c’est à dire que les valeurs prédites<br />

sont égales aux valeurs observées. On rappelle que dans le cas où il n’y a pas de répétitions sur les<br />

xi la log-vraisemblance du modèle <strong>logistique</strong> est donnée par<br />

<br />

n<br />

<br />

n<br />

L(β) = log P(Y = yi|X = xi) = yi log(pi) + (1 − yi) log(1 − pi).<br />

i=1<br />

Pour le modèle saturé, il n’existe aucune incertitude <strong>et</strong> la probabilité estimée par le modèle au<br />

point X = xi est donc 1 pour le groupe observé <strong>et</strong> 0 sinon :<br />

<br />

1 si yi = j<br />

P(Y = j|X = xi) =<br />

ou encore P(Y = yi|X = xi) = 1.<br />

0 sinon.<br />

Par conséquent Lsaturé = 0 <strong>et</strong> la déviance est égale à deux fois l’opposé de la log-vraisemblance.<br />

Remarque Si maintenant plusieurs observations sont effectuées au même point du design, on a vu<br />

dans le chapitre précédent que les données étaient alors présentées sous une forme dite binomiale.<br />

La log vraisemblance du modèle <strong>logistique</strong> s’écrit :<br />

<br />

n<br />

<br />

n<br />

n ni<br />

L(β) = log P(T = ti|X = xi) = log + ni {¯yi log(pi) + (1 − ¯yi) log(1 − pi)}<br />

i=1<br />

i=1<br />

où on rappelle que ni est le nombre d’observations au point xi <strong>et</strong> ti est le nombre de succès associé.<br />

Dans ce contexte le modèle saturé sera tel que :<br />

On aura donc :<br />

Lsaturé =<br />

n<br />

log<br />

i=1<br />

La déviance sera alors égale à<br />

D = 2<br />

n<br />

i=1<br />

ni<br />

ti<br />

i=1<br />

i=1<br />

P(Y = yi|X = xi) = ¯yi,<br />

ti<br />

ni<br />

<br />

+<br />

n<br />

ni {¯yi log ¯yi + (1 − ¯yi) log(1 − ¯yi)} .<br />

i=1<br />

Test de déviance entre 2 modèles emboîtés<br />

<br />

¯yi log ¯yi<br />

<br />

1 − ¯yi<br />

+ (1 − ¯yi) log ) .<br />

pi 1 − pi<br />

Rappelons que par définition un modèle est dit emboîté dans un autre plus général (ou plus grand)<br />

lorsqu’il est un cas particulier de ce modèle plus général.<br />

Exemple Dans le cas de la régression simple, le modèle<br />

Pierre-André Cornillon<br />

Laurent Rouvière<br />

y = β0 + β1x1 + ε,<br />

Régression <strong>logistique</strong> <strong>et</strong> <strong>scoring</strong>


3.1 Sélection ou choix de modèle 35<br />

est un cas particulier du modèle<br />

y = β0 + β1x1 + β2x2 + ε.<br />

En eff<strong>et</strong> il suffit de poser que β2 = 0 dans le second modèle pour r<strong>et</strong>rouver le premier. Notons les<br />

estimations dans le modèle 1 ( ˆ β (1)<br />

0 , ˆ β (1)<br />

1 ) <strong>et</strong> dans le modèle 2 ( ˆ β (2)<br />

0 , ˆ β (2)<br />

1 , ˆ β (2)<br />

2 ). En général nous avons<br />

ˆβ (1)<br />

0 = ˆ β (2)<br />

0 <strong>et</strong> ˆ β (1)<br />

1 = ˆ β (2)<br />

1 .<br />

Exemple Dans le cas d’un modèle <strong>logistique</strong> binaire, cela est identique<br />

<strong>et</strong><br />

sont emboîtés l’un dans l’autre.<br />

logit (P(Y = 1|X = x)) = β0 + β1x1 + β2x2<br />

logit (P(Y = 1|X = x)) = β0 + β1x1 + β2x2 + β3x3<br />

Pour comparer deux modèles emboîtés M1 ⊂ M2 nous allons comparer leur déviance D1 <strong>et</strong> D2.<br />

On a alors deux cas :<br />

– La différence est grande → le fait de passer d’un modèle simple (p<strong>et</strong>it) à un modèle plus complexe<br />

(plus général ou plus grand) a donc apporté un écart de déviance significatif → le modèle plus<br />

général est acceptable.<br />

– La différence est faible → le modèle simple <strong>et</strong> celui plus complexe sont voisins <strong>et</strong> par souci de<br />

parcimonie le modèle simple est conservé.<br />

Il nous faut bien entendu déterminer un seuil à partir duquel on pourra dire que la différence de<br />

déviance est p<strong>et</strong>ite ou grande. Pour se faire, on construit un test dans lequel nous allons chercher<br />

la loi de la différence de déviance sous H0 (l’hypothèse selon laquelle le modèle simple est vrai).<br />

Sous des hypothèses techniques ∆D = D1 −D2 = Dp<strong>et</strong>it −Dgrand suit une loi du χ 2 à p2 −p1 degrés<br />

de liberté où p1 est le nombre de paramètres du modèle simple <strong>et</strong> p2 celui du modèle complexe. Le<br />

test se déroule alors de la manière classique<br />

1. Les hypothèses sont fixées<br />

– H0 le modèle simple à p1 paramètres est adéquat ;<br />

– H1 le modèle complexe à p2 paramètres est adéquat.<br />

2. α est choisi (en général 5% ou 1%)<br />

3. L’observation de ∆D est calculée, notons la ∆Dobs<br />

4. Calcul du quantile de niveau (1 − α) de la loi du χ 2 (p2 − p1), noté q1−α(p2 − p1).<br />

– Si ∆Dobs > q1−α(p2 − p1) alors H0 est repoussé au profit de H1, le modèle considéré n’est<br />

pas adéquat.<br />

– Si ∆Dobs ≤ q1−α(p2 − p1) alors H0 est conservé, le modèle considéré est adéquat.<br />

3.1.2 Critère de choix de modèles<br />

Le test que nous venons d’étudier perm<strong>et</strong> de sélectionner un modèle parmi deux modèles emboîtés.<br />

Or en régression <strong>logistique</strong>, nous avons vu qu’à partir de p variables explicatives, nous pouvions<br />

construire une grand nombre de modèles <strong>logistique</strong>s, qui ne sont pas forcément emboîtés. L’utilisation<br />

d’un simple test de déviance se révèle alors insuffisante. On a alors recours à des critères de<br />

Régression <strong>logistique</strong> <strong>et</strong> <strong>scoring</strong> Pierre-André Cornillon<br />

Laurent Rouvière


36 Sélection <strong>et</strong> validation de modèles<br />

choix de modèles qui perm<strong>et</strong>tent de comparer des modèles qui ne sont pas forcément emboîtés les<br />

uns dans les autres.<br />

Les critères AIC <strong>et</strong> BIC sont les plus utilisés. Ces critères sont basés sur la philosophie suivante :<br />

plus la vraisemblance est grande, plus grande est donc la log-vraisemblance L <strong>et</strong> meilleur est<br />

le modèle. Cependant la vraisemblance augmente avec la complexité du modèle, <strong>et</strong> choisir le<br />

modèle qui maximise la vraisemblance revient à choisir le modèle saturé. Ce modèle est clairement<br />

surparamétré, on dit qu’il “sur-ajuste” les données (overfitting). Sur l’exemple de la Figure 3.1,<br />

nous avons simulé un échantillon de taille 100 suivant :<br />

Xi ∼ N(0, 1), Ui ∼ U[0, 1], <strong>et</strong> Yi =<br />

1Ui≤0.25 si Xi ≤ 0<br />

1Ui≥0.25 si Xi ≥ 0<br />

Dit autrement, environ 3/4 des labels valent 0 pour les valeurs de Xi négatives <strong>et</strong> 1 pour les valeurs<br />

positives. De manière évidente, le modèle saturé ajuste parfaitement les observations. Nous voyons<br />

cependant qu’il est difficile, pour ne pas dire impossible à utiliser dans un contexte de prévision. De<br />

plus le modèle saturé possède ici n = 100 paramètres tandis que le modèle <strong>logistique</strong> n’en possède<br />

que 2. Ce qui est n<strong>et</strong>tement plus avantageux pour expliquer Y .<br />

Pour choisir des modèles plus parcimonieux, une stratégie consiste à pénaliser la vraisemblance<br />

par une fonction du nombre de paramètres.<br />

– Par définition l’AIC (Akaike Informative Criterion) pour un modèle à p paramètres est<br />

AIC = −2L + 2p.<br />

– Le critère de choix de modèle le BIC (Bayesian Informative Criterion) pour un modèle à p<br />

paramètres estimé sur n observations est défini par<br />

BIC = −2L + p log(n).<br />

On choisira ainsi le modèle qui possède le plus p<strong>et</strong>it AIC ou BIC. L’utilisation de ces critères est<br />

simple. Pour chaque modèle concurrent le critère de choix de modèle est calculé <strong>et</strong> le modèle qui<br />

présente le plus faible est sélectionné.<br />

Remarque Remarquons que certains logiciels (R par exemple) utilisent −AIC <strong>et</strong> −BIC il est<br />

donc prudent de bien vérifier dans quel sens doivent être optimisés ces critères (maximisation ou<br />

minimisation). Ceci peut être fait aisément en comparant un modèle très mauvais (sans variable<br />

explicative) à un bon modèle (à une variable) <strong>et</strong> de vérifier dans quel sens varie les critères de<br />

choix.<br />

3.1.3 Apprentissage/validation<br />

Un moyen naturel de sélectionner un modèle consisterait à :<br />

1. estimer le taux d’erreurs commises par tous les modèles à l’aide de l’échantillon ;<br />

2. choisir le modèle qui possède la plus p<strong>et</strong>ite estimation.<br />

Dans le cas d’observations binaires, un estimateur du taux d’erreur d’un modèle est le nombre de<br />

mal classés (également appelés erreur empirique) :<br />

Pierre-André Cornillon<br />

Laurent Rouvière<br />

1<br />

n<br />

n<br />

i=1<br />

1ˆ Yi(j)=Yi ,<br />

Régression <strong>logistique</strong> <strong>et</strong> <strong>scoring</strong>


3.1 Sélection ou choix de modèle 37<br />

Y<br />

0.0 0.5<br />

1.0<br />

+ +<br />

+<br />

+<br />

+ + + + + +++ + + ++ + + + +++ + +<br />

+ + +++ + + ++ +<br />

+ +<br />

+ +<br />

−2 0 2<br />

X<br />

Y<br />

0.0 0.5<br />

1.0<br />

+ +<br />

+<br />

+<br />

+ + + + + +++ + + ++ + + + +++ + +<br />

+ + +++ + + ++ +<br />

+ +<br />

+ +<br />

−2 0 2<br />

Fig. 3.1 – Gauche : Représentation des observations (gauche). Droite : Tracé des modèles saturés<br />

(pointillés) <strong>et</strong> <strong>logistique</strong> (trait plein).<br />

où ˆ Yi(j) désigne la i ème prédiction (celle associée à Xi) du j ème modèle.<br />

Nous avons vu que le modèle saturé ajuste de manière “parfaite” les données (dans le cas de données<br />

binaires sans répétitions au point de design), ce qui signifie que son taux de mal classés est nul.<br />

L’utilisation d’un tel critère semble alors peu pertinente. En fait, la faiblesse de ce genre de critères<br />

tient du fait que le même échantillon (x1,y1),...,(xn,yn) est utilisé pour :<br />

– construire le modèle (estimer ses paramètres) ;<br />

– estimer le taux d’erreurs.<br />

Ce qui engendre naturellement des problèmes de biais dans l’estimation du taux d’erreur. La<br />

procédure apprentissage-validation s’affranchit de ce problème en séparant de manière aléatoire<br />

les données (X1,Y1),...,(Xn,Yn) en deux parties distinctes :<br />

– (Xi,Yi),i ∈ Iℓ un échantillon d’apprentissage de taille ℓ ;<br />

– (Xi,Yi),i ∈ Im un échantillon de validation de taille m tel que ℓ + m = n.<br />

L’échantillon d’apprentissage est utilisé pour construire les modèles concurrents (pour estimer les<br />

paramètres des différents modèles <strong>logistique</strong>s envisagés) (Figure 3.2). L’échantillon de validation est<br />

ensuite utilisé pour estimer les différents taux d’erreurs des modèles concurrents. De manière plus<br />

précise, nous allons ensuite appliquer chaque modèle j sur les variables explicatives du deuxième<br />

échantillon. Nous obtiendrons alors pour chaque modèle j <strong>et</strong> chaque observation i de l’échantillon<br />

de validation une valeur prédite ˆ Yi(j) que nous allons comparer à la valeur observée Yi. Notre<br />

critère sera alors :<br />

MC(j) = 1<br />

m<br />

<br />

1 { Yi(j)=Yi} ˆ .<br />

i∈Im<br />

On choisira bien entendu le modèle pour lequel MC sera minimum. Si les modèles concurrents<br />

sont tous des modèles <strong>logistique</strong>s, nous aurons pour chaque modèle j <strong>et</strong> chaque observation i de<br />

l’échantillon Im une estimation de la probabilité :<br />

ˆpj(Y = 1|X = Xi),<br />

Régression <strong>logistique</strong> <strong>et</strong> <strong>scoring</strong> Pierre-André Cornillon<br />

Laurent Rouvière<br />

X


38 Sélection <strong>et</strong> validation de modèles<br />

la prévision sera bien entendu<br />

Y<br />

X<br />

Données de départ<br />

<br />

ˆYi(j)<br />

1 si ˆpj(Y = 1|X = Xi) > 0.5<br />

=<br />

0 sinon.<br />

Séparation<br />

Y<br />

Y<br />

Valeurs observées<br />

Apprentissage<br />

Validation<br />

Toutes les variables<br />

Uniquement les X<br />

Estimations des modèles<br />

concurrents<br />

Valeurs prédites (pour tous les modèles concurrents)<br />

Fig. 3.2 – Procédure d’apprentissage/validation<br />

Le tableau 3.1 compare les taux d’erreurs des modèles saturés <strong>et</strong> <strong>logistique</strong> de l’exemple de la<br />

Figure 3.1. La procédure qui utilise un seul échantillon pour calculer le taux de mal classés va ainsi<br />

sélectionner le modèle saturé, ce n’est pas le cas de la procédure Apprentissage-Validation qui<br />

fournit des estimations des taux d’erreurs plus précises <strong>et</strong> qui sélectionnera le modèle <strong>logistique</strong>.<br />

Saturé Logistique<br />

Sans AV 0 0.146<br />

avec AV 0.244 0.160<br />

Tab. 3.1 – Taux d’erreurs des modèles saturés <strong>et</strong> <strong>logistique</strong> de l’exemple de la Figure 3.1 avec <strong>et</strong> sans<br />

la procédure de validation (deux échantillons de même taille)<br />

C<strong>et</strong>te procédure semble la plus indiquée. Il faut néanmoins nuancer car elle requiert beaucoup de<br />

données<br />

– dans l’échantillon d’apprentissage pour estimer le modèle <strong>et</strong> ainsi ne pas trop pénaliser les<br />

modèles avec beaucoup de variables dont les coefficients seront moins bien estimés ;<br />

– dans l’échantillon de validation pour bien évaluer la capacité de prévision dans de nombreux cas<br />

de figure.<br />

De plus il n’existe pas de règle pour choisir les tailles des deux échantillons.<br />

Pierre-André Cornillon<br />

Laurent Rouvière<br />

Régression <strong>logistique</strong> <strong>et</strong> <strong>scoring</strong>


3.1 Sélection ou choix de modèle 39<br />

3.1.4 Validation croisée<br />

Lorsque l’on n’a pas assez de données pour l’apprentissage/validation, la validation croisée est<br />

utilisée. Le principe est de “moyenner” le taux de mal classés à l’aide de plusieurs découpages de<br />

l’échantillon. Plus précisément, on divise l’échantillon initial en K sous échantillons Ek de même<br />

taille <strong>et</strong> on effectue K procédures apprentissage-validation pour lesquelles :<br />

– l’échantillon test sera constitué d’une division Ek ;<br />

– l’échantillon d’apprentissage sera constitué de l’ensemble des autres divisions E −Ek (voir Figure<br />

3.3).<br />

00000000000000000000000000000000000000000000<br />

11111111111111111111111111111111111111111111<br />

00000000000000000000000000000000000000000000<br />

11111111111111111111111111111111111111111111<br />

E1<br />

00000000000000000000000000000000000000000000<br />

11111111111111111111111111111111111111111111<br />

00000000000000000000000000000000000000000000<br />

11111111111111111111111111111111111111111111<br />

00000000000000000000000000000000000000000000<br />

11111111111111111111111111111111111111111111<br />

00000000000000000000000000000000000000000000<br />

11111111111111111111111111111111111111111111<br />

E2<br />

00000000000000000000000000000000000000000000<br />

11111111111111111111111111111111111111111111<br />

00000000000000000000000000000000000000000000<br />

11111111111111111111111111111111111111111111<br />

00000000000000000000000000000000000000000000<br />

11111111111111111111111111111111111111111111<br />

00000000000000000000000000000000000000000000<br />

11111111111111111111111111111111111111111111<br />

00000000000000000000000000000000000000000000<br />

11111111111111111111111111111111111111111111<br />

00000000000000000000000000000000000000000000<br />

11111111111111111111111111111111111111111111<br />

00000000000000000000000000000000000000000000<br />

11111111111111111111111111111111111111111111<br />

00000000000000000000000000000000000000000000<br />

11111111111111111111111111111111111111111111<br />

00000000000000000000000000000000000000000000<br />

11111111111111111111111111111111111111111111<br />

00000000000000000000000000000000000000000000<br />

11111111111111111111111111111111111111111111<br />

00000000000000000000000000000000000000000000<br />

11111111111111111111111111111111111111111111<br />

00000000000000000000000000000000000000000000<br />

11111111111111111111111111111111111111111111<br />

Ek<br />

Y<br />

00000000000000000000000000000000000000000000<br />

11111111111111111111111111111111111111111111<br />

00000000000000000000000000000000000000000000<br />

11111111111111111111111111111111111111111111<br />

00000000000000000000000000000000000000000000<br />

11111111111111111111111111111111111111111111<br />

00000000000000000000000000000000000000000000<br />

11111111111111111111111111111111111111111111<br />

00000000000000000000000000000000000000000000<br />

11111111111111111111111111111111111111111111<br />

00000000000000000000000000000000000000000000<br />

11111111111111111111111111111111111111111111<br />

00000000000000000000000000000000000000000000<br />

11111111111111111111111111111111111111111111<br />

00000000000000000000000000000000000000000000<br />

11111111111111111111111111111111111111111111<br />

00000000000000000000000000000000000000000000<br />

11111111111111111111111111111111111111111111<br />

00000000000000000000000000000000000000000000<br />

11111111111111111111111111111111111111111111<br />

00000000000000000000000000000000000000000000<br />

11111111111111111111111111111111111111111111<br />

00000000000000000000000000000000000000000000<br />

11111111111111111111111111111111111111111111<br />

EB<br />

00000000000000000000000000000000000000000000<br />

11111111111111111111111111111111111111111111<br />

00000000000000000000000000000000000000000000<br />

11111111111111111111111111111111111111111111<br />

00000000000000000000000000000000000000000000<br />

11111111111111111111111111111111111111111111<br />

Fig. 3.3 – Découpage de l’échantillon pour la validation croisée,. L’échantillon d’apprentissage correspond<br />

à la partie hachurée.<br />

Pour chaque division, on évalue le taux de mal classé MCk obtenue pour ce découpage. Le critère<br />

à minimiser est alors la moyenne des MCk(j), k = 1,...,K (j représentant le modèle candidat) :<br />

MCCV (j) = 1<br />

K<br />

X<br />

K<br />

MCk(j),<br />

<strong>et</strong> le modèle j r<strong>et</strong>enu est celui qui conduit au minimum sur {MCCV (j)}. Bien entendu le choix du<br />

nombre B parties n’est pas anodin.<br />

– Plus le nombre B est faible, plus la capacité de prévision sera évaluée dans de nombreux cas<br />

puisque le nombre d’observations dans la validation sera élevé, mais moins l’estimation sera<br />

précise ;<br />

– Au contraire, un B élevé conduit à peu d’observations dans la validation <strong>et</strong> donc à une plus<br />

grande variance dans les nombres de mal classés.<br />

3.1.5 Sélection automatique<br />

Les procédures que nous venons d’étudier perm<strong>et</strong>tent de sélectionner un modèle à partir d’une<br />

famille de modèle donnée. Un autre point de vue de la sélection de modèle consiste à chercher<br />

Régression <strong>logistique</strong> <strong>et</strong> <strong>scoring</strong> Pierre-André Cornillon<br />

Laurent Rouvière<br />

k=1


40 Sélection <strong>et</strong> validation de modèles<br />

<strong>Modèle</strong> de départ<br />

<strong>Modèle</strong> en cours = M0<br />

AIC M0 moins bon Ajout d’un coefficient<br />

M1 devient M0<br />

<strong>Modèle</strong> sélectionné =M1<br />

Comparaison AIC modele M0 <strong>et</strong> modele M1<br />

AIC M0 meilleur<br />

<strong>Modèle</strong> courant M0 r<strong>et</strong>enu<br />

Choix parmi tous les modèles (+ grand AIC)<br />

Fig. 3.4 – Technique ascendante utilisant l’AIC.<br />

parmi les variables X1,...,Xp, celles qui “expliquent le mieux” Y . Par exemple dans le contexte de<br />

la régression <strong>logistique</strong>, nous pourrions nous poser le problème de chercher le meilleur sous-ensemble<br />

des p variables explicatives pour un critère C donnée (AIC, BIC...). Le nombre de sous ensemble<br />

de p variables étant 2 p , nous serions en présence de 2 p régressions <strong>logistique</strong> possibles, c’est à dire<br />

2 p modèles différents. Bien entendu, nous sélectionnerions le modèle pour lequel le critère C serait<br />

minimum. Cependant, dans de nombreuses situations, p est grand <strong>et</strong> par conséquent le nombre de<br />

modèles considérés est “très grand”. Les algorithmes de minimisation du critère C deviennent très<br />

coûteux en temps de calcul. On préfère alors souvent utiliser des méthodes de recherche pas à pas.<br />

Recherche pas à pas, méthode ascendante (forward selection)<br />

A chaque pas, une variable est ajoutée au modèle.<br />

– Si la méthode ascendante utilise un test de déviance, nous rajoutons la variable Xj dont la valeur<br />

“p” associée à la statistique de test de déviance qui compare les 2 modèles est minimale. Nous<br />

nous arrêtons lorsque toutes les variables sont intégrées ou lorsque la valeur p est plus grande<br />

qu’une valeur seuil.<br />

– Si la méthode ascendante utilise un critère de choix, nous ajoutons la variable Xj dont l’ajout au<br />

modèle conduit à l’optimisation la plus grande du critère de choix. Nous nous arrêtons lorsque<br />

toutes les variables sont intégrées ou lorsque qu’aucune variable ne perm<strong>et</strong> l’optimisation du<br />

critère de choix (voir aussi Figure 3.4).<br />

Recherche pas à pas, méthode descendante (backward selection)<br />

A la première étape toutes les variables sont intégrées au modèle.<br />

– Si la méthode descendante utilise un test de déviance, nous éliminons ensuite la variable Xi dont<br />

la valeur “p” associée à la statistique de test de déviance est la plus grande. Nous nous arrêtons<br />

Pierre-André Cornillon<br />

Laurent Rouvière<br />

Régression <strong>logistique</strong> <strong>et</strong> <strong>scoring</strong>


3.1 Sélection ou choix de modèle 41<br />

lorsque toutes les variables sont r<strong>et</strong>irées du modèle ou lorsque la valeur p est plus p<strong>et</strong>ite qu’une<br />

valeur seuil.<br />

– Si la méthode descendante utilise un critère de choix, nous r<strong>et</strong>irons la variable Xi dont le r<strong>et</strong>rait<br />

du modèle conduit à l’augmentation la plus grande du critère de choix. Nous nous arrêtons<br />

lorsque toutes les variables sont r<strong>et</strong>irées ou lorsque qu’aucune variable ne perm<strong>et</strong> l’augmentation<br />

du critère de choix.<br />

Recherche pas à pas, méthode progressive (stepwise selection)<br />

Idem que l’ascendante, sauf que l’on peut éliminer des variables déjà introduites. En eff<strong>et</strong>, il peut<br />

arriver que des variables introduites en début ne soient plus significatives après introduction de<br />

nouvelles variables. Remarquons qu’en général la variable “constante” constituée de 1 <strong>et</strong> associée<br />

au coefficient “moyenne générale” est en général traitée à part <strong>et</strong> elle est toujours présente dans le<br />

modèle.<br />

Exemple Reprenons l’exemple des données du cancer de la prostate. Nous allons sélectionner des<br />

modèles par les différentes approches pas à pas.<br />

1. Méthode ascendante : Le modèle initial est constitué uniquement de la variable âge.<br />

> model_age model_asc model_asc<br />

Call: glm(formula = Y ~ age + rayonx + taille + log.acid., family = binomial,<br />

data = donnees)<br />

Coefficients:<br />

(Intercept) age rayonx1 taille1 log.acid.<br />

2.65636 -0.06523 2.08995 1.75652 2.34941<br />

Degrees of Freedom: 52 Total (i.e. Null); 48 Residual<br />

Null Deviance: 70.25<br />

Residual Deviance: 47.68 AIC: 57.68<br />

2. Méthode descendante : le modèle initial est ici constitué de toutes les variables (sans<br />

interactions).<br />

> modelcompl<strong>et</strong> model_des model_des<br />

Call: glm(formula = Y ~ acide + rayonx + taille + log.acid., family = binomial,<br />

data = donnees)<br />

Coefficients:<br />

(Intercept) acide rayonx1 taille1 log.acid.<br />

9.067 -9.862 2.093 1.591 10.410<br />

Degrees of Freedom: 52 Total (i.e. Null); 48 Residual<br />

Null Deviance: 70.25<br />

Residual Deviance: 46.43 AIC: 56.43<br />

3. Méthode progressive : le modèle initial est ici constitué de toutes les variables (sans<br />

interactions).<br />

Régression <strong>logistique</strong> <strong>et</strong> <strong>scoring</strong> Pierre-André Cornillon<br />

Laurent Rouvière


42 Sélection <strong>et</strong> validation de modèles<br />

> model_pro model_pro<br />

Call: glm(formula = Y ~ acide + rayonx + taille + log.acid., family = binomial,<br />

data = donnees)<br />

Coefficients:<br />

(Intercept) acide rayonx1 taille1 log.acid.<br />

9.067 -9.862 2.093 1.591 10.410<br />

Degrees of Freedom: 52 Total (i.e. Null); 48 Residual<br />

Null Deviance: 70.25<br />

Residual Deviance: 46.43 AIC: 56.43<br />

On peut également m<strong>et</strong>tre des variables d’interactions parmi les variables candidates.<br />

> model_pro1 model_pro1<br />

Call: glm(formula = Y ~ acide + rayonx + taille + grade + log.acid. + taille:grade +<br />

taille:log.acid. + acide:grade, family = binomial,data = donnees)<br />

Coefficients:<br />

(Intercept) acide rayonx1 taille1<br />

49.385 -49.186 3.135 -2.635<br />

grade1 log.acid. taille1:grade1 taille1:log.acid.<br />

1.227 53.329 -14.264 -21.719<br />

acide:grade1<br />

17.629<br />

Degrees of Freedom: 52 Total (i.e. Null); 44 Residual<br />

Null Deviance: 70.25<br />

Residual Deviance: 26.47 AIC: 44.47<br />

Nous voyons sur c<strong>et</strong> exemple que suivant le choix de la méthode pas à pas <strong>et</strong> du modèle initial,<br />

les modèles sélectionnés diffèrent. Une stratégie perm<strong>et</strong>tant de sélectionne un seul modèle peut<br />

s’effectuer en deux temps :<br />

1. On sélectionne un nombre faible (entre 5 <strong>et</strong> 10 par exemples) de modèles candidats par ces<br />

algorithmes pas à pas ;<br />

2. On choisit le modèle qui minimise un critère de choix (AIC, BIC) ou par la méthode apprentissage<br />

validation.<br />

Une fois le modèle choisi, il est nécessaire de mener une étude plus approfondie de ce dernier qui<br />

perm<strong>et</strong>tra de le “valider” ou l’affiner (suppression de points abberants, analyse des résidus...).<br />

3.2 Validation du modèle<br />

3.2.1 Test d’adéquation par la déviance<br />

Ce test perm<strong>et</strong> de valider un modèle à p paramètres. Les hypothèses nulle <strong>et</strong> alternatives sont :<br />

– H0 le modèle considéré à p paramètres est adéquat ;<br />

Pierre-André Cornillon<br />

Laurent Rouvière<br />

Régression <strong>logistique</strong> <strong>et</strong> <strong>scoring</strong>


3.2 Validation du modèle 43<br />

– H1 le modèle considéré à p paramètres n’est pas adéquat.<br />

Ici, nous allons comparer le modèle saturé au modèle considéré au moyen de la déviance. Nous<br />

savons que<br />

– si la déviance est grande, alors le modèle considéré est loin du modèle saturé <strong>et</strong> que par conséquent<br />

il n’ajuste pas bien les données ;<br />

– Par contre si la déviance est proche de 0, le modèle considéré sera adéquat.<br />

Pour quantifier c<strong>et</strong>te notion de “proche de 0” <strong>et</strong> de “grande déviance”, la loi de la déviance sous<br />

H0 (le modèle considéré est le vrai modèle) va nous être utile. En eff<strong>et</strong> si H0 est vraie, le modèle<br />

considéré est vrai par définition. La déviance sera répartie sur R + mais avec plus de chance d’être<br />

proche de 0. Par contre si H0 n’est pas vraie la déviance sera répartie sur R + mais avec plus de<br />

chance d’être éloignée de 0. Nous nous accordons α % de chance de se tromper sous H0 donc si,<br />

l’on connaît la loi de D sous H0 alors en prenant le quantile de niveau 1 − α nous excluons les α<br />

% d’erreur tout en excluant les déviances les plus grandes, c’est à dire les cas qui se présenteront<br />

vraisemblablement si H0 n’est pas vraie.<br />

La déviance est en fait le test de rapport de vraisemblance <strong>et</strong> sous des hypothèses techniques, D<br />

suit donc une loi du χ 2 (n − p) degrés de liberté, où p est le nombre de paramètres du modèle <strong>et</strong><br />

n le nombre de point du design, ce qui est, sauf répétition, le nombre d’observations. Le test se<br />

déroule alors de la manière classique :<br />

1. Les hypothèses sont fixées<br />

– H0 le modèle considéré à p paramètres est adéquat<br />

– H1 le modèle considéré à p paramètres n’est pas adéquat<br />

2. α est choisi (en général 5% ou 1%)<br />

3. L’observation de D est calculée, notons la Dobs<br />

4. Calcul du quantile de niveau (1 − α) de la loi du χ 2 (n − p), noté q1−α(n − p).<br />

– Si Dobs > q1−α(n − p) alors H0 est repoussé au profit de H1, le modèle considéré n’est pas<br />

adéquat.<br />

– Si Dobs ≤ q1−α(n − p) alors H0 est conservé, le modèle considéré est adéquat.<br />

densité<br />

0.00 0.05 0.10 0.15 0.20 0.25<br />

H0 conservé H0 repoussé<br />

0 2 4 6 8 10<br />

Fig. 3.5 – Test de déviance, la droite horizontale représente le seuil de rej<strong>et</strong> Dc = q1−α(n − p).<br />

Remarque La validité de la loi <strong>et</strong> donc du test n’est qu’asymptotique, il est donc nécessaire<br />

d’avoir un peu de recul quant aux conclusions. Lorsque les données sont binaires <strong>et</strong> qu’aucune<br />

répétition n’est présente au point X = xi, ∀i, alors D ne suit pas une loi du χ 2 . Pour les données<br />

binaires le test d’adéquation d’Hosmer Lemershow est à conseiller.<br />

Régression <strong>logistique</strong> <strong>et</strong> <strong>scoring</strong> Pierre-André Cornillon<br />

Laurent Rouvière<br />

D


44 Sélection <strong>et</strong> validation de modèles<br />

3.2.2 Test d’Hosmer Lemershow<br />

Ce test perm<strong>et</strong> de vérifier l’adéquation d’un modèle quand la variable à expliquer est une variable<br />

binaire uniquement. Il perm<strong>et</strong> donc de vérifier l’adéquation dans les cas où le test d’adéquation<br />

par la déviance est particulièrement déconseillé.<br />

Pour cela, les ˆ Pi sont ordonnés par ordre croissant. Ensuite K groupes de tailles égales sont créés,<br />

en général K = 10 <strong>et</strong> le dernier groupe, celui des ˆ Pi les plus grands, possède un effectif inégal aux<br />

autres. Notons m∗ k l’effectif du groupe k. Ensuite une statistique du type χ2 est calculée sur ces<br />

groupes. L’effectif observé ok des cas (Y = 1) dans le groupe k est décompté, ce qui donne de<br />

manière mathématique ok = <br />

j∈gpe k yj. La fréquence théorique est simplement la moyenne des<br />

probabilités estimées par le modèle, pour toutes les observations du groupe : ¯µk = <br />

j∈gpe k ˆ Pj. La<br />

statistique de test est alors<br />

où m ∗ k<br />

est l’effectif du groupe k.<br />

C 2 =<br />

K<br />

k=1<br />

(ok − m∗ 2<br />

k¯µk) m∗ k¯µk(1 − ¯µk) ,<br />

Le test se conduit de manière identique au test de déviance, la statistique C 2 suivant approximativement<br />

un χ 2 à K − 1 degrés de liberté. C<strong>et</strong>te approximation ayant été validée uniquement par<br />

simulation, il semble donc important de ne pas appliquer trop strictement la procédure de test,<br />

mais plutôt de la considérer comme une indication.<br />

3.2.3 Analyse des résidus<br />

Les différents types de résidus<br />

A l’image de la régression plusieurs types de résidus sont proposés par les logiciels. Le premier,<br />

le plus simple à calculer est tout simplement Yi − ˆpi. Ces résidus sont appelés résidus bruts. Ils<br />

perm<strong>et</strong>tent de mesurer l’ajustement du model sur chaque observations. Ces résidus n’ayant pas ma<br />

même variance, ils sont difficiles à comparer. En eff<strong>et</strong>, on rappelle que V(Y |X = xi) = pi(1 − pi),<br />

<strong>et</strong> par conséquent, de tels résidus risquent d’être pour des valeurs de pi proches de 1/2. Un moyen<br />

de pallier à c<strong>et</strong>te difficulté est de considérer les résidus de Pearson<br />

ri = ˆεi =<br />

Yi − ˆpi<br />

. (3.1)<br />

ˆpi(1 − ˆpi)<br />

Par définition on standardise les résidus par la variance théorique de Yi qui prend comme valeur 0<br />

ou 1. La variance théorique est donc celle d’une loi de Bernouilli pi(1−pi). Ce n’est pas la variance<br />

de l’estimation ˆpi qui est un estimateur donc aléatoire. On note<br />

⎧<br />

⎨ εi = Yi − pi<br />

Pierre-André Cornillon<br />

Laurent Rouvière<br />

⎩<br />

ˆεi = Yi − ˆpi<br />

Hypothèses Réalité<br />

E(εi) = 0 E(ˆεi) ≃ 0<br />

V(εi) = pi(1 − pi) V(ˆεi) = pi(1 − pi)(1 − hii)<br />

Régression <strong>logistique</strong> <strong>et</strong> <strong>scoring</strong>


3.2 Validation du modèle 45<br />

où hii est l’élément de la i ème ligne <strong>et</strong> de la i ème colonne de la matrice H = X(X ′ W ∗ X) −1 X ′ W ∗ .<br />

Pour essayer d’obtenir des résidus de même variance approximative (standardisés)<br />

ˆεi =<br />

Yi − ˆpi<br />

ˆpi(1 − ˆpi)(1 − hii) ,<br />

Les résidus de déviance sont définis par<br />

<br />

di = ˆεi = signe(Yi − ˆpi) 2(lsaturé(Yi) − l(Yi, ˆ β)),<br />

où l(Yi, ˆ β) est la log-vraisemblance associée à l’observation Yi (<strong>et</strong> non pas toutes les observations)<br />

<strong>et</strong> lsaturé(Yi) son homologue pour le modèle saturé. C<strong>et</strong>te définition est moins naturelle. Là encore<br />

pour tenir compte de la variabilité ces résidus sont standardisés :<br />

<br />

2(lsaturé(Yi) − l(Yi,<br />

ˆεi = signe(Yi − ˆpi)<br />

ˆ β,φ))<br />

.<br />

1 − hii<br />

Ces deux types de résidus de déviance sont ceux qui sont en général conseillés.<br />

Examen des résidus<br />

Index plot Pour le modèle <strong>logistique</strong> les résidus de déviance sont souvent préférés. De nombreuses<br />

études expérimentales ont montré qu’ils approchent mieux la loi normale que les résidus<br />

de Pearson. Pour c<strong>et</strong>te raison ces résidus prennent généralement des valeurs qui varient entre -2<br />

<strong>et</strong> 2. Nous pourrons construire un index plot pour détecter des valeurs aberrantes. Ce graphique<br />

ordonne les résidus en fonction du numéro de leur observation. Nous dirons ainsi qu’une donnée<br />

est abberante si la valeur de son résidu est élevée (si elle n’est pas entre -2 <strong>et</strong> 2 par exemple).<br />

> model plot(rstudent(model),type="p",cex=0.5,ylab="Résidus studentisés par VC")<br />

abline(h=c(-2,2))<br />

Graphique prédiction linéaire/résidus Ce graphique qui représente X ˆ β en abscisse <strong>et</strong> ˆε en<br />

ordonné perm<strong>et</strong> de détecter les valeurs aberrantes mais aussi les structurations suspectes. Si une<br />

structuration suspecte apparaît, il sera peut être adéquat d’ajouter une nouvelle variable afin de<br />

prendre en compte c<strong>et</strong>te structuration. Dans le cas des données y binaire ce type de graphique<br />

donne toujours des structurations (Figure 3.7) <strong>et</strong> n’est donc pas à conseiller.<br />

Résidus partiels Les résidus partiels sont définis par<br />

ˆε P .j = Yi − ˆpi<br />

ˆpi(1 − ˆpi) + ˆ βjX.j<br />

L’analyse consiste à tracer pour toutes les variables j le dessin suivant : tracer les points avec<br />

en abscisse la variable j <strong>et</strong> en ordonnée les résidus partiels. Si le tracé est linéaire alors tout est<br />

normal. Si par contre une tendance non linéaire se dégage, il faut remplacer la variable j par une<br />

fonction de celle ci donnant la même tendance que celle observée.<br />

Régression <strong>logistique</strong> <strong>et</strong> <strong>scoring</strong> Pierre-André Cornillon<br />

Laurent Rouvière


46 Sélection <strong>et</strong> validation de modèles<br />

Résidus studentisés par VC<br />

−2 −1 0 1 2<br />

0 10 20 30 40 50<br />

26<br />

Index<br />

Fig. 3.6 – Index plot<br />

> residpartiels prov ordre plot(donnees$log.acid.,residpartiels[,"log.acid."],type="p",cex=0.5,xlab="",ylab="")<br />

> matlines(donnees$log.acid.[ordre],predict(prov)[ordre])<br />

> abline(lsfit(donnees$log.acid.,residpartiels[,"log.acid."]),lty=2)<br />

Le graphique 3.8 montrent qu’aucune transformation n’est nécessaire, les résidus partiels étant<br />

répartis le long de la droite ajustée.<br />

Mallows (1986) propose d’utiliser les résidus partiels augmentés qui dans certaines situations perm<strong>et</strong>tent<br />

de mieux dégager c<strong>et</strong>te tendance. Les résidus partiels augmentés pour la j ème variable<br />

nécessitent un nouveau modèle GLM identique mis à part le fait qu’une variable explicative supplémentaire<br />

est ajouté : Xp+1 = X 2 j la j ème variable élevée au carré. Le nouveau vecteur de<br />

coefficient β du modèle est estimé <strong>et</strong> les résidus partiels sont alors définis comme<br />

ˆε PA<br />

.j = Yi − ˆpi<br />

ˆpi(1 − ˆpi) + ˆ βjX.j + ˆ βp+1X 2 .j.<br />

L’analyse des diagrammes est identique à ceux des résidus partiels.<br />

3.2.4 Points leviers <strong>et</strong> points influents<br />

Ces notions sont analogues à celles du modèle linéaire.<br />

Points leviers<br />

Par définition les points leviers sont les points du design qui déterminent très fortement le modèle.<br />

Nous avons vu que l’algorithme d’estimation à chaque étape fait une régression linéaire <strong>et</strong> s’arrête<br />

à l’étape finale où le processus est stationnaire :<br />

Pierre-André Cornillon<br />

Laurent Rouvière<br />

ˆβ = (X ′ W ∗ X) −1 X ′ W ∗ z,<br />

34<br />

Régression <strong>logistique</strong> <strong>et</strong> <strong>scoring</strong>


3.2 Validation du modèle 47<br />

<strong>et</strong> la prédiction linéaire est alors<br />

Résidus studentisés par VC<br />

−2 −1 0 1 2<br />

−5 0 5 10<br />

prévision linéaire<br />

Fig. 3.7 – Graphique prédiction/résidus pour un modèle <strong>logistique</strong><br />

X ˆ β = X(X ′ W ∗ X) −1 X ′ W ∗ z = Hz,<br />

où H est une matrice de projection selon la métrique W ∗ . Comme nous transformons X ˆ β par<br />

une fonction monotone, des X ˆ β extrêmes entraînent des valeurs de ˆy extrêmes. Nous allons donc<br />

utiliser la même méthode de diagnostic que celle de la régression simple avec une nouvelle matrice<br />

de projection H. Pour la i ème prédiction linéaire nous avons<br />

[X ˆ β]i = Hiizi + <br />

j=i<br />

Hijzj.<br />

Si Hii est grand relativement aux Hij, j = i alors la i ème observation contribue fortement à la<br />

construction de [X ˆ β]i. On dira que le “poids” de l’observation i sur sa propre estimation vaut hii.<br />

Comme H est un projecteur nous savons que 0 ≤ Hij ≤ 1. Nous avons alors les cas extrêmes<br />

suivants :<br />

– si hii = 1, ˆpi est entièrement déterminé par Yi car hij = 0 pour tout j.<br />

– si hii = 0, Yi n’a pas d’influence sur ˆpi.<br />

Comme la trace d’un projecteur est égale à la dimension du sous espace dans lequel on proj<strong>et</strong>te,<br />

on a donc tr(H) = <br />

i Hii = p. Donc en moyenne Hii vaut p/n. Pour dire que la valeur de Hii<br />

contribue trop fortement à la construction de ˆ Yi, alors il faut un seuil au delà duquel le point est<br />

un point levier. Par habitude, si Hii > 2p/n ou si Hii > 3p/n alors le ième point est déclaré comme<br />

un point levier.<br />

En pratique un tracé de Hii est effectué <strong>et</strong> l’on cherche les points leviers dont le Hii est supérieur à<br />

3p/n ou 2p/n ou alors qui semblent très différents des autres. Ces points sont leviers <strong>et</strong> leur valeur<br />

influe fortement sur leur propre prévision.<br />

p


48 Sélection <strong>et</strong> validation de modèles<br />

−5 0 5 10 15 20<br />

26<br />

−0.5 0.0 0.5<br />

Fig. 3.8 – Résidus partiels pour la variable log.acid., le trait continu représente le résumé lissé des<br />

données par l’estimateur loess, le trait discontinu représente l’estimateur linéaire par moindre carré.<br />

n


3.2 Validation du modèle 49<br />

est définie par<br />

Di = 1<br />

p (ˆ β(i) − ˆ β) ′ X ′ W ∗ X( ˆ β(i) − ˆ β) ≈ r2 Pi Hii<br />

p(1 − Hii) 2,<br />

où rPi est le résidu de Pearson pour le i ème individu.<br />

Un tracé des distances de Cook est effectué <strong>et</strong> si la distance de Cook est grande pour un individu<br />

<strong>et</strong> de plus très différente des autres, alors ce(s) point(s) est un point influent. Il convient alors de<br />

comprendre pourquoi il est influent, soit<br />

– il est levier ;<br />

– il est abberant ;<br />

– (les deux !)<br />

Dans tous les cas il convient de comprendre si une erreur de mesure, une différence dans la population<br />

des individus est à l’origine de ce phénomène. Eventuellement pour obtenir des conclusions<br />

robustes il sera bon de refaire l’analyse sans ce(s) point(s).<br />

Distance de Cook<br />

0.0 0.2 0.4 0.6 0.8<br />

0 10 20 30 40 50<br />

Index<br />

Fig. 3.10 – Distances de Cook<br />

Régression <strong>logistique</strong> <strong>et</strong> <strong>scoring</strong> Pierre-André Cornillon<br />

Laurent Rouvière<br />

34

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!