Modèle logistique et scoring - Université Rennes 2

Année Universitaire 2007-2008 

UFR Sciences Sociales - Département MASS 

MASTER Statistique pour l’entreprise 

Modèle logistique et scoring 

Pierre-André Cornillon et Laurent Rouvière 

Université Rennes 2 

Place du Recteur H. le Moal 

CS 24307 - 35043 Rennes 

Tel : 02 99 14 18 21 

Mel : Pierre-Andre.Cornillon@supagro-inra.fr 

laurent.rouviere@uhb.fr

Table des matières 

1 Introduction 5 

1.1 Rappels sur le modèle linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 

1.2 Analyse discriminante de linéaire (au sens de Fisher ou LDA) . . . . . . . . . . . . 6 

1.2.1 L’analyse discriminante linéaire et quadratique . . . . . . . . . . . . . . . . . 10 

1.2.2 Estimation des paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 

1.2.3 Point de vue géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 

1.3 Le modèle linéaire généralisé : GLM . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 

1.3.1 La régression logistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 

1.3.2 La régression log-linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 

1.3.3 Généralisation : GLM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 

2 Analyse discriminante logistique 19 

2.1 le modèle logistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 

2.1.1 Variable explicative continue . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 

2.1.2 Facteurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 

2.1.3 Définition générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 

2.1.4 Interprétation des coefficients β . . . . . . . . . . . . . . . . . . . . . . . . . 23 

2.2 Rappels sur la méthode du maximum de vraisemblance . . . . . . . . . . . . . . . . 24 

2.3 Estimation des paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 

2.4 Précision des estimations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 

2.5 Un exemple avec R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 

2.5.1 Modèles “classiques” . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 

2.5.2 Encore d’autres modèles... . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 

3 Sélection et validation de modèles 33 

3.1 Sélection ou choix de modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 

3.1.1 Un outil spécifique : la déviance . . . . . . . . . . . . . . . . . . . . . . . . . 33 

3.1.2 Critère de choix de modèles . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 

3.1.3 Apprentissage/validation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 

3.1.4 Validation croisée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 

3.1.5 Sélection automatique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 

3.2 Validation du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 

3.2.1 Test d’adéquation par la déviance . . . . . . . . . . . . . . . . . . . . . . . . 42 

3.2.2 Test d’Hosmer Lemershow . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 

3.2.3 Analyse des résidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 

3.2.4 Points leviers et points influents . . . . . . . . . . . . . . . . . . . . . . . . . 46 

Régression logistique et scoring Pierre-André Cornillon 

Laurent Rouvière

4 Table des matières 

Pierre-André Cornillon 

Laurent Rouvière 

Régression logistique et scoring

Chapitre 1 

Introduction 

Notations : 

– X = (X1,...,Xp) : variable aléatoire explicative de dimension p, x = (x1,...,xp) une réalisation 

de x ; 

– Y variable (univariée) à expliquer. 

– (X1,Y1),...,(Xn,Yn) : un n-échantillon aléatoire (iid et de même loi que le couple (X,Y )), tel 

que Xi = (Xi1,...,Xip) ; 

– (x1,y1),...,(xn,yn) une réalisation de (X1,Y1),...,(Xn,Yn). 

1.1 Rappels sur le modèle linéaire 

Le contexte 

Nous cherchons à expliquer une variable Y par p variables X = (X1,...,Xp) ′ . Pour se faire, 

on dispose de n réalisations (x1,y1),...,(xn,yn) du couple (X,Y ). Le but est de modéliser la 

dépendance de la variable réponse Y sur les variables explicatives X1,...,Xp. Plusieurs raisons 

peuvent motiver cette modélisation : 

– la description : on veut un modèle qui permette de décrire la relation entre Y et X ; 

– l’évaluation des contributions relatives de chaque prédicteur pour expliquer Y ; 

– la prédiction : prévoir la valeur de Y pour des nouvelles variables explicatives. 

Le modèle linéaire classique s’écrit : 

Y = X ′ β + ǫ = β0 + β1X1 + ... + βpXp + ǫ, 

avec β = (β0,β1,...,βp) ′ ∈ R p+1 et ǫ ∼ N(0,σ 2 ). On distingue alors deux cas : 

– Les variables Xi sont déterministes (non-aléatoires) : 

– Les variables Xi sont aléatoires : 

Y ∼ N(X ′ β,σ 2 ), E(Y ) = X ′ β ; 

(Y |X) ∼ N(X ′ β,σ 2 ), E(Y |X) = X ′ β. 

Plaçons nous maintenant dans le cas où la variable à expliquer Y est qualitative ou de type facteur 

(sexe, couleur, présence ou absence d’une maladie...). Cette variable possède un nombre fini de 

modalités g1,...,gm. Le problème consiste à expliquer l’appartenance d’un individu à un groupe 

à partir des p variables explicatives, on parlera alors de discrimination au lieu de régression. 


Laurent Rouvière

6 Introduction 

Il est bien entendu impossible de modéliser directement la variable Y par une relation linéaire 

(imaginons que Y soit le sexe d’une personne ou la couleur de ces cheveux). 

Afin de pallier à cette difficulté, on va s’intéresser aux probabilités P(Y = gk|X = x). Supposons 

pour simplifier que la variable Y prenne uniquement deux valeurs : 0 (“groupe 0”) ou 1 (“groupe 1”). 

La connaissance de P(Y = 1|X = x) implique celle de P(Y = 0|X = x), on peut alors modéliser 

p(x) = P(Y = 1|X = x) par une relation linéaire de la forme 

(Y |X = x) ∼ B(p(x)), E(Y |X = x) = p(x) = β0 + β1x1 + ... + βpxp = x ′ β. 

Tout comme le modèle linéaire, l’estimation des paramètres peut s’effectuer par minimisation du 

critère des moindres carrés : 

n 

(yi − pi) 2 = 

i=1 

n 

i=1 

Cette approche possède plusieurs inconvénients : 

(yi − β0 + β1xi1 + ... + βpxip) 2 . 

– Remarquons tout d’abord que la variance de Y |X = x vaut p(x)(1 − p(x)). Contrairement au 

modèle linéaire traditionnel, cette variance n’est pas constante et par conséquent l’hypothèse 

classique d’homoscédasticité des résidus ne sera pas vérifiée. 

– Le fait qu’aucune restriction ne soit effectuée sur les β implique que x ′ β peut prendre n’importe 

quelle valeur sur R. Ce qui peut être gênant pour l’estimation d’une probabilité (imaginez une 

estimation du genre P(Y = 1|X = x) = −1297.56!!!). 

Pour ces raisons, nous devons étendre le modèle linéaire classique aux cas où : 

– Y peut être une variable qualitative (présence ou absence d’une maladie, appartenance à une 

catégorie...) ; 

– les erreurs peuvent ne pas avoir la même variance (s’affranchir de l’hypothèse d’homoscédasticité). 

1.2 Analyse discriminante de linéaire (au sens de Fisher ou 

LDA) 

A travers l’exemple des iris de Fisher, nous allons étudier une première méthode de discrimination 

appelée Analyse discriminante. Ce jeu de données classique présente 4 variables : la longueur et 

la largeur des pétales ainsi que la longueur et la largeur des sépales. Ces variables sont mesurées 

sur 150 iris répartis dans 3 espèces Iris setosa, versicolor et virginica. La figure 1.1 propose une 

représentation de la longueur et la largeur des pétales par groupe. 




1.2 Analyse discriminante de linéaire (au sens de Fisher ou LDA) 7 

width 

0.0 0.5 1.0 1.5 2.0 2.5 

* 

* 

+ + + 

+ + 

+ + + + + + + 

+ + 

+ 

+ + + + + 

+ 

+ + + + 

+ + 

+ + 

+ 

+ 

* 

* 

+ 

* + 

+ 

+ * 

* * * 

* 

* 

* * * 

+ + 

* * * 

* 

+ 

+ 

+ 

+ 

+ 

+ + 

* * 

* * * * * * 

* * 

* * 

* * * 

* 

* * * 

1 2 3 4 5 6 7 

length 

Fig. 1.1 – Longueur et largeur des pétales des différents groupes. rond=”Setosa”, +=”Virginica”, 

*=”Versicolor”. 

Nous souhaitons expliquer l’espèce par les 4 caractéristiques mesurées. Enoncé autrement, est ce 

que l’on peut déterminer une espèce d’iris parmi ces 3 avec seulement la longueur et la largeur des 

pétales ainsi que la longueur et la largeur des sépales ? 

Pour simplifier, intéressons nous d’abord à une seule variable, la longueur des pétales, qui sera 

notée X. Si nous traçons par espèce (notée Y ), les estimations de la densité de la longueur des 

pétales, nous obtenons 3 estimateurs (Figure 1.2). 

0.0 0.5 1.0 1.5 2.0 2.5 

Density 

1 2 3 4 5 6 7 

Fig. 1.2 – Densités estimées des longueurs des pétales selon les espèces (noir=”Setosa”, 

rouge=”Virginica”, vert=”Versicolor”). 

Nous pourrions supposer que ces densités ont une forme connue, par exemple la loi normale N(µ,σ), 

où bien entendu les paramètres de moyennes et de variances seraient différents d’une espèce à 

l’autre. Nous aurions alors que pour l’espèce 1 (noté Y = 1) la densité s’écrierait 

f(x|y = 1) = 

1 

√ exp 

2πσ1 

 

− 1 

2σ2(x − µ1) 

1 

2 



 

, 

+


pour la seconde espèce (Y = 2) cela deviendrait 

et la dernière serait 

f(x|y = 2) = 

f(x|y = 3) = 

 

1 

√ exp − 

2πσ2 

1 

2σ2(x − µ2) 

2 

2 

 

, 

 

1 

√ exp − 

2πσ3 

1 

2σ2(x − µ3) 

3 

2 

 

. 

Bien entendu ce raisonnement est intéressant pour décrire la variabilité d’une variable, la longueur 

des pétales, par groupe ou par espèce. Si nous n’avions que 2 variables explicatives, par exemple 

la longueur et la largeur des pétales, la représentation graphique d’un estimateur des densités 

(conjointes) par espèce est encore possible. 

density 

Fig. 1.3 – Densités estimées des longueurs et largeurs des pétales selon les espèces (noir=setosa, 

rouge=virginica, vert=versicolor). 

Cette représentation peu visuelle peut être remplacée par un contour des lignes de niveau de la 

densité (Figure 1.4). 





Petal.Length 

1 2 3 4 5 6 7 

0.5 1.0 1.5 

Petal.Width 

2.0 2.5 

Fig. 1.4 – Observation des longueurs et largeurs des pétales selon les espèces (noir=setosa, 

rouge=virginica, vert=versicolor) et ligne de niveau des densités estimées. 

Rappelons que nous sommes en présence de 4 variables et non pas 1 seule ou 2. L’extension 

naturelle pour prendre en compte ces 4 variables est simplement une loi de R4 par exemple une loi 

multi-normale de dimension 4. Nous aurons donc pour le groupe j ∈ {1, 2, 3} 

 

1 

f(x|y = j) = exp − 

(2π|Σj|) 4/2 1 

2 (x − µj) ′ Σ −1 

 

j (x − µj) , 

où Σj ∈ M(4, 4) est la matrice symétrique, carrée d’ordre 4 de variance du groupe j et µj ∈ R 4 est 

le vecteur moyenne du groupe j. Cependant avec ce modèle, dont les paramètres sont inconnus, il 

est impossible de prévoir l’espèce j au vu d’une observation nouvelle X = x. En effet ce modèle 

nous donne la variabilité des X sachant le groupe j, groupe inconnu que l’on souhaite justement 

connaître. 

Nous allons donc essayer de prévoir l’appartenance à une espèce d’un iris avec uniquement ses 

longueurs des pétales et sépales ainsi que ses largeurs des pétales et sépales. Ces mesures sont 

notées x. Lorsque l’on détermine l’appartenance à une espèce, sans connaître cette espèce, avec 

uniquement les longueurs et largeurs, il est inéluctable de faire des erreurs (par exemple deux iris 

peuvent avoir exactement les mêmes longueurs et largeurs de pétales et sépales sans pour autant 

appartenir à la même espèce). Il existe donc une incertitude dans le processus de détermination, 

incertitude que nous pouvons modéliser par des probabilités d’appartenance à une espèce. Plus la 

probabilité d’un groupe j est grande, plus on est sûr de son classement parmi ce groupe, au vu 

des mesures x des longueurs et largeurs. 

Nous cherchons donc trois probabilités ⎧⎨ 

⎩ 

P(Y = 1|X = x) 

P(Y = 2|X = x) 

P(Y = 3|X = x), 

et nous affecterons à x le groupe j0 pour lequel la probabilité sera maximale. Pour déterminer ces 

trois probabilités de classement nous utilisons le théorème de Bayes qui sous sa forme “probabilités 

discrètes” s’énonce 

P(A|B) = 

P(A ∩ B) 

P(B) 

P(B|A)P(A) 

= . 

P(B) 


Laurent Rouvière


Cela donne, en remplaçant les probabilités par des densités lorsque la variable est continue, les 

trois probabilités cherchées : 

P(Y = 1|X = x) = 

P(Y = 2|X = x) = 

P(Y = 3|X = x) = 

f(x|y = 1)P(Y = 1) 

, 

f(x) 

f(x|y = 2)P(Y = 2) 

, 

f(x) 

f(x|y = 3)P(Y = 3) 

. 

f(x) 

Remarquons que f(x) au dénominateur est toujours présent dans les trois probabilités. Ce n’est 

donc pas ce facteur qui détermine l’appartenance à un groupe. De plus puisque nous savons que ce 

sont des probabilités, la somme des trois vaut 1 et donc on peut récrire ces trois formules comme 

P(Y = 1|X = x) = 

P(Y = 2|X = x) = 

P(Y = 3|X = x) = 

f(x|y = 1)P(Y = 1) 

f(x|y = 1)P(Y = 1) + f(x|y = 2)P(Y = 2) + f(x|y = 3)P(Y = 3) , 

f(x|y = 2)P(Y = 2) 

f(x|y = 1)P(Y = 1) + f(x|y = 2)P(Y = 2) + f(x|y = 3)P(Y = 3) , 

f(x|y = 3)P(Y = 3) 

f(x|y = 1)P(Y = 1) + f(x|y = 2)P(Y = 2) + f(x|y = 3)P(Y = 3) . 

Il reste donc à déterminer, pour chaque espèce j, la probabilité P(Y = j) et f(x|y = j). La 

probabilité P(Y = j) représente la probabilité a priori d’une espèce, c’est à dire la probabilité que 

l’on donne à une espèce sans avoir aucune donnée. En général nous n’avons aucun a priori, deux 

stratégies peuvent alors être utilisées : 

– Les probabilité sont choisies égales, c’est à dire ici 1/3; 

– On prend le pourcentage d’observations dans chaque groupe 

ˆP(Y = j) = 1 

n 

 

Xi. 

Enfin si des études préalables ont donné des indications sur ces probabilités il sera bon de les 

utiliser. Nous pouvons maintenant énoncer de manière générale toutes les considérations vues 

dans cet exemple. 

1.2.1 L’analyse discriminante linéaire et quadratique 

Le modèle 

Nous sommes en présence de n observations d’un couple (X,Y ). Pour la i ème observation, notée 

(Xi,Yi), Yi est un label qui dénote l’appartenance à un groupe j ∈ {1,...,g} et Xi ∈ R p est un 

ensemble de variables explicatives de l’appartenance à un groupe (variable notée Y ). 

Le problème : 

Une nouvelle observation arrive, nous mesurons les variables explicatives, cette mesure est notée 

x ∈ R p et nous souhaitons connaître son groupe y inconnu. 

Comme nous ne pouvons connaître avec certitude le groupe y, nous modélisons cette incertitude 

par des probabilités d’appartenance à tel ou tel groupe : P(Y = j|X = x), ∀j. Le modèle propose 



i∈j 



donc P(X = x|Y = j), ∀j. Les probabilités cherchées sont évaluées grâce au théorème de Bayes 

de la façon suivante. 

P(Y = j|X = x) = 

f(x|y = j)P(Y = j) 

g 

j ′ =1 f(x|y = j′ )P(Y = j ′ ) 

∀j ∈ {1,...,g}. (1.1) 

Les probabilités a priori des groupes j, notée P(Y = j), sont connues (elles doivent être choisies 

comme présenté précédemment). 

Pour pouvoir calculer ces probabilités d’appartenance, il faut modéliser f(x|y = j). L’analyse 

discriminante linéaire ou quadratique propose une modélisation gaussienne comme expliciter ciaprès. 

Discriminante quadratique La densité des variables explicatives dans chaque groupe j suit une 

loi multi-normale : f(x|y = j) ∼ N(µj, Σj). 

Ensuite nous pouvons ajouter une hypothèse supplémentaire pour obtenir le modèle de discrimination 

linéaire. 

Discriminante linéaire La densité des variables explicatives dans chaque groupe j suit une loi 

multi-normale de même matrice de variance Σ dans chacun des groupes : f(x|y = j) ∼ 

N(µj, Σ). 

Une fois estimés tous les paramètres des lois normales il suffit alors d’utiliser l’équation (1.1) 

pour connaître les probabilités d’affectation de la nouvelle observation aux différents groupes. 

Evidemment la prévision par la méthode sera donnée par le groupe le plus probable, c’est à dire 

j0 = argmax 

j∈{1,...,g} 

1.2.2 Estimation des paramètres 

P(Y = j|X = x) = argmax f(x|y = j)P(Y = j). 

j∈{1,...,g} 

Nous devons pour chacun des g groupes estimer (µj, Σj) g 

j=1 où µj ∈ R p et Σj ∈ M(p,p) à partir du 

n-échantillon (X1,Y1),...,(Xn,Yn). Il y a donc g moyennes à estimer et 1 ou g matrice de variance 

à estimer. Il existe de nombreuses procédures d’estimation plus ou moins classiques. Citons par 

exemple 

– la méthode des moments ; 

– le maximum de vraisemblance ; 

– les méthodes d’estimation robuste. 

Dans ce cours, nous nous focaliserons sur la méthode du maximum de vraisamblance dont nous 

rappelons le principe dans le paragraphe à venir. 

La méthode du maximum de vraisemblance 

Etant donné un échantillon observé (X1,...,Xn) et une loi de probabilité Pθ, la vraisemblance 

quantifie la probabilité que les observations proviennent effectivement d’un échantillon (théorique) 

de la loi Pθ. 


Laurent Rouvière


Définition 1.1 Soit {Pθ} une famille de lois de probabilité continues sur R et n un entier. Notons 

fθ la densité de probabilité de la loi Pθ. On appelle vraisemblance associée à la famille {Pθ}, la 

fonction qui à un n-uplet (x1,...,xn) et à une valeur θ du paramètre associe la quantité : 

L(x1,...,xn,θ) = 

n 

fθ(xi) . 

Estimer un paramètre par la méthode du maximum de vraisemblance, c’est proposer comme valeur 

de ce paramètre celle qui rend maximale la vraisemblance, à savoir la probabilité d’observer les 

données comme réalisation d’un échantillon de la loi Pθ, ou encore à chercher la loi Pθ la plus 

“vraisemblable” pour l’échantillon (x1,...,xn). 

Exemple Montrer que pour la méthode du maximum de vraisemblance, les paramètres estimés 

des lois normales sont : 

ˆµj = 1 

⎧ 

ˆΣj = 

 

⎪⎨ 

Xi, 

nj 

i∈J 

⎪⎩ 

1 

(Xi − ˆµj)(Xi − ˆµj) 

nj 

i∈J 

′ 

Discriminante quadratique 

ˆΣ = 1 

g 

(Xi − ˆµj)(Xi − ˆµj) 

n 

′ Discriminante linéaire. 

j=1 

i∈J 

où J est l’ensemble des numéros d’observations qui sont dans le groupe j et nj le nombre d’observations 

dans le groupe j (ce qui est le cardinal de J). On remarquera que les moyennes par 

groupes µj sont estimées par le centre de gravité de chacun des groupes . 

1.2.3 Point de vue géométrique 

L’analyse discriminante possède une interprétation géométrique. Cette interprétation n’est pas utile 

pour faire des calculs ni pour appliquer la méthode mais elle permet d’associer une interprétation 

visuelle à des calculs pas toujours très clairs. 

Afin de pouvoir faire des représentations graphiques et y voir quelque chose, nous allons supposer 

que le nombre de variables explicatives p est égal à 2. Par ailleurs supposons que nous n’avons pas 

d’a priori, ce qui permet de ne pas s’occuper des P(Y = j) qui sont tous égaux à 1/g. 

Discriminer revient à chercher 

i=1 

argmax f(x|y = j)P(Y = j) = argmax f(x|y = j). 

j∈{1,...,g} 

j∈{1,...,g} 

Rappelons que p = 2, donc x ∈ R 2 est un point du plan. Nous cherchons à savoir, en fonction de la 

valeur de x, la classe que l’on va choisir. Il va y avoir des régions du plan où tous les points seront 

classés dans le groupe 1, d’autres où le classement sera 2 etc.. Nous sommes donc intéressés par 

les frontières, c’est à dire l’ensemble des points x que l’on peut classer soit dans une classe j, soit 

dans une autre j ′ . Cette frontière est simplement les points x qui sont tels que 

P(Y = j|X = x) = P(Y = j ′ |X = x) 

f(x|y = j) = f(x|y = j ′ ) 

1 

(2π|Σj|) exp 

 

− 1 

2 (x − µj) ′ Σ −1 

 

1 

j (x − µj) = exp 

(2π|Σj ′|) 



 

− 1 

2 (x − µ′ j ′)′ Σ −1 

j ′ (x − µ ′ j ′) 

 



En passant au log nous obtenons, 

ln 

|Σj ′| 

|Σj| 

1 

− 

2 x′ (Σ −1 

j − Σ−1 

j ′ )x + x ′ (Σ −1 

j µj − Σ −1 

j ′ 1 

µj ′) − 

2 (µ′ jΣ −1 

j µj − µ ′ j ′Σ−1 j ′ µj ′) = 0 

Si l’on développe cette équation en remplaçant le vecteur x par ses coordonnées (x1,x2) nous 

obtenons une équation quadratique en x1 et x2 qui permet de dire qu’une frontière sera de la forme 

d’une conique. Cette constatation donne son nom à la méthode dite de discrimination quadratique. 

Par contre lorsque Σ = Σj = Σj ′ nous avons alors 

x ′ Σ −1 1 

(µj − µj ′) − 

2 (µj + µj ′)′ Σ −1 (µj − µj ′) = 0 

Si l’on développe cette équation en remplaçant le vecteur x par ses coordonnées (x1,x2) nous 

obtenons une équation d’une droite. 

Exemple (LDA dans R 2 pour 3 groupes, variables X non corrélées) Supposons que g = 

3 et que Σ = Σ1 = Σ2 = Σ3 = I2. Les observations suivent toutes des lois normales N(µj,I2), où 

µj est la moyenne du groupe. Les moyennes sont choisies égales à µ1 = (2, 2) ′ , µ2 = (−2, 2) ′ et 

µ3 = (0, −2) ′ respectivement. 

La frontière entre le groupe 1 et le groupe 2 est donc l’ensemble des x ∈ R 2 tel que : 

P(Y = 1|X = x) = P(Y = 2|X = x) 

f(x|y = 1) = f(x|Y = 2) 

1 

(2π|Σ|) exp 

 

− 1 

2 (x − µ1) ′ Σ −1 

1 

(x − µ1) = 

(2π|Σ|) exp 

 

− 1 

2 (x − µ2) ′ Σ −1 (x − µ ′ 

2) 

− 1 

2 (x − µ1) ′ (x − µ1) = − 1 

2 (x − µ2) ′ (x − µ ′ 2) 

− 1 

2 x′ x − x ′ µ1 − 1 

2 µ′ 1µ1 = − 1 

2 x′ x − x ′ µ2 − 1 

2 µ′ 2µ2 

x ′ (µ1 − µ2) − 1 

2 (µ1 + µ2) ′ (µ1 − µ2) = 0 

(x − 1 

2 (µ1 + µ2)) ′ (µ1 − µ2) = 0 

Soit M le point de coordonnée x, G1 le centre de gravité du groupe 1 de coordonnées µ1 et G2 celui 

du groupe 2 de coordonnées µ2. Soit G12 le milieu des deux points G1, G2. Il est de coordonnées 

1 

2 (µ1 + µ2). Cette dernière équation se lit alors 

< −−−→ 

G12M, −−−→ 

G2G1 >= 0, 

c’est à dire que les points M cherchés sont sur une droite passant par G12 et orthogonale à la droite 

portée par −−−→ 

G2G1 c’est à dire la droite (G1G2). 

En faisant de même pour les 2 autres frontières nous pouvons obtenir les frontières théoriques de 

la méthode LDA. En général nous n’avons pas les valeurs de µj et Σ et on les remplace par leurs 

estimateurs, donnant des frontières empiriques légèrement différentes. 


Laurent Rouvière


y 

−4 −2 0 2 4 

−4 −2 0 2 

x 

Fig. 1.5 – Frontières théoriques pour une LDA basée sur des données N(µj,I2), où µ1 = (2, 2) ′ , 

µ2 = (−2, 2) ′ et µ3 = (0, −2) ′ . Les cercles correspondent à la région de probabilité 1/2. 

Pour terminer rappelons que si X ∈ R 2 suit une loi normale centrée réduite N(0, 1) alors X 2 ∼ 

χ 2 (2). Nous pouvons donc tracer des cercles de rayons q(1 − α, 2) (le quantile 1 −α d’une loi du 

χ 2 (2)) qui délimitent une région dont l’extérieur possède une probabilité α. 

Si nous changions d’exemple, avec des données N(µj, Σ), la frontière entre les groupes 1 et 2 

passerait toujours par G12 mais comme le produit scalaire serait par rapport à Σ −1 , l’angle serait 

différent. De plus les régions de probabilité seraient alors des ellipses. 

Exemple (LDA dans R2 pour 3 groupes (avec covariance)) Plaçons nous dans le cas de 

l’exemple précédent. Nous avons g = 3 groupes mais ici il existe une corrélation entre les 2 variables 

explicatives, Σ = Σ1 = Σ2 = Σ3 = 

1 0.7 

0.7 1 . Les observations suivent toutes des lois normales 

N(µj, Σ), où µj est la moyenne du groupe. Les moyennes sont toujours choisies égales à µ1 = (2, 2) ′ , 

µ2 = (−2, 2) ′ et µ3 = (0, −2) ′ respectivement. 

Le même calcul que précédemment sur la frontière entre les groupes 1 et 2 aboutit à 

< −−−→ 

G12M, −−−→ 

G2G1 > Σ −1 = 0, 

En faisant de même pour les 2 autres frontières nous pouvons obtenir les frontières théoriques 

de la méthode LDA. La frontière entre les groupes 1 et 2 passe toujours par G12 mais la droite 

représentant la frontière est calculée par rapport au produit scalaire induit par Σ −1 (l’angle est 

différent). Les régions de probabilité sont alors des ellipses. En général nous n’avons pas les valeurs 

de µj et Σ et on les remplace par leur estimateurs, donnant des frontière empiriques légèrement 

différentes. 




1.3 Le modèle linéaire généralisé : GLM 15 

y 

−4 −2 0 2 4 

−4 −2 0 2 4 

x 

Fig. 1.6 – Frontières théoriques pour une LDA basée sur des données X ∼ N(µj, Σ), où µ1 = (2, 2) ′ , 

µ2 = (−2, 2) ′ , µ3 = (0, −2) ′ , les variables X étant corrélées. Les ellipses correspondent à la région de 

probabilité 1/2. 

1.3 Le modèle linéaire généralisé : GLM 

1.3.1 La régression logistique 

Nous sommes en présence de n observations (x1,y1),...,(xn,yn) d’un couple de variables aléatoires 

(X,Y ). Pour la i ème observation (xi,yi), yi est un label qui dénote l’appartenance à un groupe 

j ∈ {1,...,g} et xi ∈ R p est un ensemble de variables explicatives de l’appartenance à un groupe 

(variable notée Y ). Nous souhaitons prédire le label y0 d’une nouvelle observation pour laquelle 

nous avons seulement mesuré les variables explicatives x. 

Pour simplifier les notations, nous nous placerons dans un contexte de classification binaire, c’est à 

dire que nous supposerons qu’il existe seulement deux groupes. Par conséquent la variable aléatoire 

Y peut prendre seulement deux valeurs que l’on notera 0 et 1. Nous verrons plus tard dans ce cours 

comment étendre les techniques à des modèles multiclasses (plus de deux groupes). 

L’analyse discriminante propose de calculer les probabilités 

P(Y = 0|X = x) et P(Y = 1|X = x), 

en modélisant la loi de X|Y = j avec j = 0, 1. Le calcul s’effectue à l’aide du Théorème de Bayes. 

Ici nous allons modéliser directement P(Y = j|X = x), ce qui semble la démarche la plus naturelle. 

Plus précisément, nous allons modéliser non pas P(Y = j|X = x) mais le rapport 

P(Y = 1|X = x) 

P(Y = 0|X = x) 

= P(Y = 1|X = x) 

1 − P(Y = 1|X = x) . 

Ce rapport est toujours positif et il est compris entre 0 et +∞. En passant au log nous obtenons 

une mesure qui sera dans R et que nous pouvons relier aux variables explicatives X via une fonction 

f qui sera choisie dans la classe la plus simple, à savoir les fonctions linéaires : 

log 

P(Y = 1|X = x) 

P(Y = 0|X = x) = f(x) = x′ β. 


Laurent Rouvière


Ce type de modélisation est appelé analyse discriminante logistique ou régression logistique. 

Définition 1.2 (Régression logistique) Soit Y une variable binaire à expliquer et X = (X1,..., 

Xp) ∈ R p p variables explicatives. Le modèle logistique propose une modélisation de la loi de 

Y |X = x par une loi de Bernoulli de paramètre P(Y = 1|X = x) telle que : 

ou encore 

log 

P(Y = 1|X = x) 

P(Y = 0|X = x) = f(x) = x′ β, (1.2) 

logit (P(Y = 1|X = x)) = x ′ β, 

où logit désigne la fonction bijective et dérivable de (0, 1) dans R : p ↦→ log(p/(1 − p)). 

Nous pouvons ainsi déduire de (1.2) 

P(Y = 1|X = x) = exp(x′ β) 

1 + exp(x ′ β) . 

Remarque Dans un modèle logistique, nous effectuons deux choix pour définir le modèle : 

1. le choix d’une loi pour Y |X = x, ici la loi de Bernoulli ; 

2. le choix de la modélisation de P(Y = 1|X = x) par 

logit (P(Y = 1|X = x)) = x ′ β. 

La fonction logit est bijective et dérivable. Elle est appelée fonction de lien. C’est une fonction 

de lien spéciale, appelée canonique (pour la loi de Bernoulli). 

Remarquons également que 

⎧ 

⎪⎨ E(Y |X = x) = P(Y = 1|X = x) 

 

 

⎪⎩ V(Y |X = x) = P(Y = 1|X = x) 1 − P(Y = 1|X = x) 

ce qui implique que la variance n’est pas constante et varie selon la valeur x de X. 

1.3.2 La régression log-linéaire 

Dans le modèle logistique la variable à expliquer est une variable binaire. Le modèle log-linéaire 

traite le cas d’une variable de comptage. Voici quelques exemples : 

– nombre de catastrophes aériennes sur une période donnée ; 

– nombre de voitures à un feu rouge ; 

– nombre d’accidents par jour sur une autoroute... 

Définition 1.3 (Régression log-linéaire) Soit Y une variable de comptage à expliquer et X = 

(X1,...,Xp) ∈ R p p variables explicatives. On suppose que la loi de Y |X = x est une loi de poisson 

de paramètre λ = λ(x). Le modèle log-linéaire s’écrit alors : 

logE(Y |X = x) = x ′ β. 

Pour une nouvelle mesure x effectuée, le modèle log-linéaire va donc prédire exp(x ′ β). 

Remarque Ici encore, deux choix sont effectués pour définir le modèle : 

1. le choix d’une loi pour Y |X = x, ici la loi de Poisson ; 

2. le choix de la modélisation de E(Y |X = x) par 

La fonction log est bijective et dérivable. 



logE(Y |X = x) = x ′ β. 


1.3 Le modèle linéaire généralisé : GLM 17 

1.3.3 Généralisation : GLM 

On peut résumer les remarques 1.1 et 1.2 par le tableau suivant : 

Choix logistique log-linéaire linéaire 

Y |X = x Bernoulli Poisson Normale 

modélisation 

de logit E(Y |X = x) = x ′ β logE(Y |X = x) = x ′ β E(Y |X = x) = x ′ β 

E(Y |X = x) 

Une généralisation de ces méthodes est appelée GLM (Generalized Linear Model). Cette méthode 

revient à : 

1. choisir une loi pour Y |X = x parmi un ensemble restreint de loi (les lois exponentielles 

GLM) ; 

2. choisir une fonction de lien g(.) parmi une ensemble réduit de fonctions bijectives et dérivable. 

3. la transformation de l’espérance conditionnelle E(Y |X = x) par la fonction g est ensuite 

modélisée par une fonction η qui n’est autre qu’une combaison linéaire des variables explicatives 

: 

g (E(Y |X = x)) = η(x) = x ′ β. 

On peut résumer un modèle GLM par le schéma suivant : 

A expliquer 

composante aléatoire 

Y |X = x suit une loi fixée. 

Remarque 

Lien 

E(Y |X = x) dépend de 

η(x) au travers de la fonction 

g appelée fonction de 

lien 

g(E(Y |X)) = η(X) 

g est une fonction inversible. 

Explicatif 

Composante systématique 

On modélise η par une combinaison 

linéaire des Xj 

η(x) = 

1. Pour choisir un modèle GLM il faut donc 

– choisir la loi de Y |X = x dans la famille exponentielle des GLM Pθ. 

– choisir une fonction de lien inversible g. 

2. Pour utiliser un modèle GLM il faudra donc estimer les paramètres β = (β1,...,βp). Une 

fois cette estimation réalisée, η(x) est fixé, ce qui fixe E(Y |X = x) = g −1 (η(x)) (qui est la 

moyenne, donc la prévision par le modèle) et ce qui finalement fixe aussi θ. 



p 

j=1 

xjβj


−3 −2 −1 0 1 2 3 

0.0 0.2 0.4 0.6 0.8 1.0 

Fig. 1.7 – logit 

Le tableau suivant donne quelques exemples de GLM. 

0.0 0.2 0.4 0.6 0.8 1.0 

−3 −2 −1 0 1 2 3 

Fig. 1.8 – Inverse de logit 

Loi Nom du lien Fonction de lien 

Bernouilli/Binomiale lien logit g(µ) = logit (µ) = log(µ/(1 − µ)) 

Poisson lien log g(µ) = log(µ) 

Normale lien identité g(µ) = µ 

Gamma lien réciproque g(µ) = −1/µ 

Tab. 1.1 – Exemples de GLM. 

Dans la suite du cours, afin de simplifier les notations, nous étudierons le modèle logistique. Les 

différents résultats obtenus pourront s’étendre aux autres modèles GLM. Il est toutefois important 

de connaitre les notations des GLM présentées dans cette partie. C’est en effet sous cette forme 

là qu’elles sont présentées dans la littérature ainsi que dans la plupart des logiciels statistiques 

(notamment R). 




Chapitre 2 

Analyse discriminante logistique 

Dans ce chapitre, Y désigne une variable à expliquer binaire (qui prend 2 valeurs 0 ou 1 pour 

simplifier) ou un label qui dénote l’appartenance à un groupe (0 ou 1) et X = (X1,...,Xp) 

désigne p variables explicatives. Rappelons que l’on souhaite : 

– expliquer la variable Y à l’aide des p variables explicatives X = (X1,...,Xp) ; 

– étant donnée une nouvelle mesure x des p variables explicatives X, prédire le label y associé à 

cette variable. 

Nous allons maintenant présenter différentes écritures de modèles logistiques suivant la nature des 

variables explicatives X. 

2.1 le modèle logistique 

Nous allons tout d’abord distinguer deux cas : le cas où la variable explicative est continue et celui 

où la variable explicative est un facteur (sexe, couleur des yeux...). Nous présenterons ensuite une 

écriture générale du modèle regroupant ces deux types de variables. Pour simplifier, nous nous 

placerons d’abord dans le cas d’une seule variable explicative X. 

2.1.1 Variable explicative continue 

Si X est une variable continue, le modèle est alors décrit par : 

La variable Y |X = x suit une loi de Bernoulli de paramètre P(Y = 1|X = x) et 

logit (P(Y = 1|X = x)) = ln 

Dans un contexte de prévision, on a 

⎧ 

⎪⎨ 

⎪⎩ 

P(Y = 1|X = x) = exp(x′ β) 

1+exp(x ′ β) 

P(Y = 1|X = x) 

P(Y = 0|X = x) = f(x) = x′ β. (2.1) 

P(Y = 0|X = x) = 1 − exp(x′ β) 

1+exp(x ′ β) 

et on affecte à x le label correspondant à la probabilité la plus élevée. 


Laurent Rouvière

20 Analyse discriminante logistique 

2.1.2 Facteurs 

Un Facteur 

Nous allons maintenant nous placer dans le cas où la variable explicative X est de type facteur. 

X peut par exemple désigner le sexe, la couleur des yeux... On note g1,...,gm les m niveaux de 

X. Bien entendu, le problème ici consiste à estimer les probabilités de succès pour chaque niveau. 

Le modèle logistique est décrit par 

La variable Y |X = x suit une loi de Bernoulli de paramètre P(Y = 1|X = x) et 

logit (P(Y = 1|X = gk)) = ln 

P(Y = 1|X = gk) 

P(Y = 0|X = gk) = µk, k = 1,...,m. 

Ce premier modèle nécessite l’estimation de m paramètres µk. On lui préfère en général l’écriture 

suivante suivante qui ouvre la voie à d’importantes généralisations : 

logit (P(Y = 1|X = gk)) = ln 

P(Y = 1|X = gk) 

P(Y = 0|X = gk) = α0 + αk i = k,...,m. 

On remarquera que ce nouveau modèle nécessite l’estimation de m + 1 paramètres alors que 

simplement m paramètres sont identifiables de manière unique. Par conséquent, cette nouvelle 

décomposition nécessite, pour être unique, une contrainte sur les αi. Une solution souvent utilisée 

consiste à prendre un des paramètres égal à 0. C’est la stratégie adoptée par R qui par convention 

prend le coefficient correspondant au premier facteur. 

Exemple Considérons le cas d’une variable explicative à trois niveaux g1,g2,g3. Les observations 

sont récoltées dans les tableaux suivants (équivalents) 

observation X Y 

1 g1 1 

2 g2 1 

3 g3 1 

4 g1 1 

5 g2 0 

6 g1 0 

X #{Y = 1} #{Y = 0} 

g1 2 1 

g2 1 1 

g3 1 0 

Lorsque les données sont présentées comme dans le second tableau, on parle de présentation sous 

forme binomiale. On effectue une régression logistique sur R, les sorties sont les suivantes : 

> model model 

Call: glm(formula = Y ~ ., family = binomial, data = X) 

Coefficients: 

(Intercept) xg2 xg3 

0.6931 -0.6931 17.8729 

Degrees of Freedom: 5 Total (i.e. Null); 3 Residual 

Null Deviance: 7.638 

Residual Deviance: 6.592 AIC: 12.59 




2.1 le modèle logistique 21 

Le modèle s’écrit donc : 

⎧ 

⎨ 0.6931 si j = 1 

logit P(Y = 1|X = gj) = 0 

⎩ 

0.6931 + 17.8729 = 18.566 

si j = 2 

si j = 3. 

ou encore 

Plusieurs facteurs 

⎧ 

⎪⎨ 

P(Y = 1|X = gj) = 

⎪⎩ 

exp(0.6931) 

1+exp(0.6391) 

= 2/3 si j = 1 

1/2 si j = 2 

= 1.0000 si j = 3. 

exp(18.566) 

1+exp(18.566) 

On suppose ici que l’on a p facteurs X1,...,Xp à m1,...,mp niveaux. On notera gjk le k ème niveau 

du j ème facteur. Dans ce cas là pour une réalisation x = (g1k1,...,gpkp) de la variable X, on écrira 

comme modèle : 

logit (P(Y = 1|X = x)) = α0 + α1k1 + ... + αpkp. 

On remarquera qu’a priori un tel modèle nécessite l’estimation de p 

j=1 mj + 1 paramètres. 

Exemple Considérons le cas de deux facteurs F et H possédant respectivement m1 = 2 et m2 = 3 

facteurs. On dispose de 16 individus, les sorties R pour un modèle logistique sont données par : 

model1 

Call: glm(formula = Y ~ ., family = binomial, data = X) 

Coefficients: 

(Intercept) Fg2 Fg3 Hh2 

-0.7529 1.3225 2.1600 -0.4011 




On peut alors résumer le modèle par le tableau suivant : 

g1 g2 g3 

h1 α0 α0 + Fg2 α0 + Fg3 

h2 α0 + Hh2 α0 + Fg2 + Hh2 α0 + Fg3 + Hh2 

Les probabilités prédites par ce modèle pour les nouveaux individus x1 = (g1,h1), x2 = (g2,h1), 

x3 = (g3,h2) sont 

P(Y = 1|X = x1) = exp(−0.7529) 

1 + exp(−0.7529) 

P(Y = 1|X = x2) = 

P(Y = 1|X = x3) = 

exp(−0.7529 + 1.3225) 

1 + exp(−0.7529 + 1.3225) 

= 0.3202 

exp(−0.7529 + 2.1600 − 0.4011) 

1 + exp(−0.7529 + 2.1600 − 0.4011) 

= 0.6387 

= 0.7322. 


Laurent Rouvière


Le modèle de l’exemple précédent nécessite l’estimation de 1+(m1 −1)+(m2 −1) = 4 paramètres. 

De manière générale on peut montrer que le nombre de paramètres identifiables de manière unique 

est : 

Variable constante X1 X2 · · · Xp Total 

Nb param 1 m1 − 1 m2 − 1 · · · mp − 1 p 

j=1 (mj − 1) + 1 

p 

(mj − 1) + 1 = 

j=1 

2.1.3 Définition générale 

p 

mj − p + 1. 

Soit Y une variable binaire que l’on cherche à expliquer par p variables explicatives (X1,...,Xp). 

On suppose que les p0 premières variables sont des facteurs et que les p − p0 dernières sont des 

variables continues. Pour une réalisation x = (g1k1,...,gp0kp 0 ,xp0+1,...,xp), le modèle logistique 

est défini par : 

Y |X = x suit une loi de Bernoulli de paramètre p(x) = P(Y = 1|X = x) et 

logit (P(Y = 1|X = x)) = α0 + α1k1 + ... + αp0kp0 + βp0+1xp0+1 + ... + βpxp. 

Remarque (importante) Etant donné une réalisation gk, k = 1,...,m d’une variable X de type 

facteur, on note x = (x1,...,xm) le vecteur de R m tel que : 

xj = 

j=1 

1 si j = k 

0 sinon. 

Une réalisation gk de la variable X pourra ainsi s’écrire x = (0, 0,...,1, 0,...,0) et le modèle 

logit (P(Y = 1|X = x)) = α0 + αk 

= α0 + α1x1 + ... + αmxm = x ′ α 

Cette écriture est similaire à celle d’une variable continue de R m . C’est pourquoi dans la suite, 

lorsque nous parlerons de modèle logistique de manière générale, nous écrirons : 

logit (P(Y = 1|X = x)) = β0 + β1x1 + ... + βpxp = x ′ β. 

Il faut tout de même prendre garde aux nombres de paramètres identifiables de manière unique 

qui est fonction du nombre de niveaux des variables de type facteur. Si nous sommes en présence 

de p0 facteurs parmi les p variables, ce nombre sera : 



p0 

1 + (mj − 1) + (p − p0). 

j=1 


2.1 le modèle logistique 23 

0.3 0.7 

0.0 1.0 

β = 0 

0.2 0.8 

0.0 1.0 

β = 0.5 

β = 2 β = 10 

Fig. 2.1 – P(Y = 1|X = x) pour différentes valeurs de β. 

2.1.4 Interprétation des coefficients β 

Nous avons représenté sur la Figure 2.1 plusieurs représentations de la fonction x ↦→ exp(xβ) 

1+exp(xβ) pour 

différentes valeurs de β. On remarque que : 

– pour de faibles valeurs de β on a une large plage de valeurs de x pour lesquelles la fonction se 

situe aux alentours de 0.5 (la fonction est même constante (0.5) dans le cas extrême β = 0). 

Pour ces valeurs P(Y = 1|X = x) sera proche de 0.5 et on peut donc penser qu’il sera difficile 

de faire une prévision; 

– lorsque β augmente, la zone où la fonction est proche de 0.5 diminue et la fonction est proche 

de 0 ou 1 pour un grand nombre de valeurs de x. Par conséquent, P(Y = 1|X = x) sera souvent 

proche de 1 ou 0, ce qui risque de minimiser d’éventuelles erreurs de prédictions. 

On peut interpréter ainsi : plus β est grand, mieux on discrimine. Cependant une telle interprétation 

dépend des valeurs que x prend, plus précisément de son échelle. C’est pourquoi en général 

l’interprétation des coefficients β s’effectue en terme d’odd-ratio. Les odd-ratios sont des outils 

souvent appréciés dans le domaine de l’épidémiologie (mais pas toujours bien utilisés !). 

Définition 2.1 L’odd-ratio est le rapport entre la probabilité d’avoir la réponse Y = 1 et la probabilité 

d’avoir la non-réponse dans le cas où X = xi et dans le cas où X = xi ′ : 

ORi,i ′ = 

pi 

1−pi 

pi ′ 

1−pi ′ 

. 

Dit autrement l’odd-ratio permet de mesurer “l’écart” entre les rapports des probabilités de succès 

et d’échec entre deux observations de la variable qualitative. 

Les odd-ratio peuvent être utilisés de plusieurs manières : 

1. Comparaison de probabilités de succés entre deux individus : voir Tableau 2.1. 


Laurent Rouvière


ORi,i ′ > 1 ⇐⇒ pi > pi ′ 

ORi,i ′ = 1 ⇐⇒ pi = pi ′ 

ORi,i ′ < 1 ⇐⇒ pi < pi ′ 

Tab. 2.1 – Règles d’interprétation des odd-ratio. 

2. Interprétation en terme de risque relatif : dans le cas où pi et pi ′ sont très petits par 

rapport à 1, comme dans le cas d’une maladie très rare, alors on peut approximer l’odd-ratio 

comme ORi,i ′ ∼ pi/pi ′ et interpréter simplement. Par exemple si ORi,i ′ = 4 alors la réponse 

(maladie) est 4 fois plus probable dans le cas où X = xi que dans le cas où X = xi ′. 

3. Mesure de l’impact d’une variable : pour le modèle logistique 

il est facile de vérifier que 

logit (p(x)) = β0 + β1x1 + ... + βpxp, 

ORi,i ′ = exp(β1(x1 − x ′ 1))...exp(βp(xp − x ′ p)). 

Si par exemple nous souhaitons étudier l’influence d’une variable sur l’odd-ratio, il nous suffit 

de considérer deux observation xi et xi ′ qui diffèrent uniquement par la jème variable, dans 

ce cas : 

ORi,i ′ = exp(βj(xj − x ′ j)). 

Ainsi une variation de la j ème variable d’une unité (sur l’échelle de cette variable) correspond à 

un odd-ratio exp(βj) qui est uniquement fonction du coefficient βj. Le coefficient βj permet 

de mesurer l’influence de la j ème variable sur le rapport p(x)/(1 − p(x)) lorsque xj varie 

d’une unité, et ceux indépendamment de la valeur de xj. Une telle analyse peut se révéler 

intéressante pour étudier l’influence d’un changement d’état d’une variable qualitative. 

Bien entendu, en pratique on ne connaît pas la loi du couple (X,Y ), on dispose simplement de 

n réalisations (X1,Y1),...,(Xn,Yn) de ce couple. Par conséquent, on ne peut calculer les vrais 

coefficients β, il va donc falloir les estimer à partir de l’échantillon. 

2.2 Rappels sur la méthode du maximum de vraisemblance 

Théorème 2.1 (Inégalité de Cramer-Rao) Soit T un estimateur sans biais pour θ en dimension 

1. Sous certaines conditions de régularité, on a 

où I(θ) est l’information de Fisher : 

I(θ) = Eθ 

Vθ(T) ≥ 1 

nI(θ) , 

∂ 

 

2 

ln f(X,θ) . 

∂θ 

Si un estimateur sans biais pour θ atteint la borne de Cramer-Rao, on dit qu’il est efficace. 

Pour généraliser l’inégalité de Cramer-Rao aux dimensions supérieures à 1, on introduit la matrice 

d’information de Fisher I(Θ) symétrique d’ordre k dont l’élément en position (i,j) est : 




2.3 Estimation des paramètres 25 

Eθ 

 

∂ 

ln f(X,θ) 

∂θi 

∂ 

∂θj 

2 ∂ 

 

ln f(X,θ) = −Eθ ln f(X,θ) . 

∂θi∂θj 

On montre alors que pour tout estimateur sans biais T et pour tout u ∈ R k 

Vθ(u ′ T) ≥ u ′[I(θ)]−1 

u, 

n 

où Vθ(u ′ T) dénote la variance de la combinaison linéaire u ′ T. Ceci est équivalent à écrire 

Vθ(T) ≥ 1 

n [I(θ)]−1 , 

où Vθ(T) représente ici la matrice de variance-covariance de la statistique T (en cas d’égalité on 

dit que l’estimateur T est efficace). 

Définition 2.2 Soit un échantillon aléatoire X1,...,Xn dont la loi mère appartient à une famille 

paramétrique {f(x,θ),θ ∈ Θ} où θ ⊆ R k . On appelle fonction de vraisemblance de θ pour une 

réalisation donnée x1,...,xn de l’échantillon, la fonction de θ : 

L(θ;x1,...,xn) = f(x1,...,xn,θ) = 

n 

f(xi,θ). 

Remarquons que dans le cas discret, la vraisemblance est exactement la probabilité Pθ(X1 = 

x1,...,Xn = xn). On dira que la valeur θ1 de θ est “plus vraisemblable” que la valeur θ2 si 

L(θ1;x1,...,xn) > L(θ2;x1,...,xn). 

Définition 2.3 On appelle estimation du maximum de vraisemblance une valeur ˆ θ, s’il en 

existe une, telle que : 

L( ˆ θ) = supL(θ). 

θ∈Θ 

Une telle solution dépend de x1,...,xn, soit ˆ θ = h(x1,...,xn). La statistique ˆ θ = h(X1,...,Xn) 

est appelée estimateur du maximum de vraisemblance (EMV). 

Théorème 2.2 Soit ˆ θ l’estimateur du maximum de vraisemblance défini ci dessus. Sous certaines 

conditions de régularité, on a : 

– ˆ θ converge presque sûrement vers θ (il est donc asymptotiquement sans biais); 

– ˆ θ est asymptotiquement normal : 

i=1 

√ n( ˆ θ − θ) loi 

→ N(O, [I(θ)] −1 ). 

On en déduit que la matrice de variance-covariance de ˆ θ se “rapproche” de 1 

n [I(θ)]−1 . On dit que 

l’estimateur du maximum de vraisemblance est asymptotiquement efficace. 

2.3 Estimation des paramètres 

Nous allons utiliser l’échantillon (x1,y1),...,(xn,yn) pour estimer les paramètres β par maximum 

de vraisemblance. Cette méthode consiste à chercher β = (β0,β1,...,βp) qui maximise 

n 

P(Y = yi|X = xi). 

i=1 


Laurent Rouvière


Rappelons que par définition du modèle logistique Y |X = x ∼ Ber(p(x)). Par conséquent : 

n 

n 

P(Y = yi|X = xi) = p yi 1−yi 

i (1 − pi) 

i=1 

avec pi = P(Y = 1|X = xi). En passant au log nous avons alors 

n 

L(β) = {yi log(pi) + (1 − yi) log(1 − pi)} 

= 

i=1 

n 

 

i=1 

 

pi 

yi log 

i=1 

1 − pi 

 

 

+ log(1 − pi) . 

Grâce à la définition du modèle logistique (2.1) nous avons alors 

n 

L(β) = {yix ′ iβ − log(1 + exp(x ′ iβ))}. 

En dérivant par rapport au paramètre β nous avons que ∂L 

∂β = 

 

∂L ∂L ,..., ∂β1 ∂βp 

∂L 

∂βr 

Ce qui donne en écriture matricielle 

= 

= 

i=1 

n 

 

yix r i − xri exp(x ′ iβ) 

1 + exp(x ′ iβ) 

n 

[x r i(yi − pi)] . 

i=1 

i=1 

∂L 

∂β = 

n 

[xi(yi − pi)]. 

i=1 

Une condition nécessaire d’optimum (sur Rp ) est l’annulation des dérivée à l’optimum noté ˆ β, nous 

avons donc 

n 

x ′ i {yi − P(Y = 1|X = xi)} = X ′ (Y − ˆ P) = 0, (2.2) 

i=1 

ˆP est le vecteur de dimension n des P(Y = 1|X = xi) qui dépend de ˆ β. 

Trouver explicitement ˆ β n’est pas possible. En effet, l’équation (2.2) s’écrit : 

⎧ 

exp(β1x11 + ... + βpx1p) 

exp(β1xn1 + ... + βpxnp) 

x11y1 + ... + xn1yn = x11 

+ ... + xn1 

1 + exp(β1x11 + ... + βpx1p) 1 + exp(β1xn1 + ... + βpxnp) 

⎪⎨ 

. 

⎪⎩ 

. 

exp(β1x11 + ... + βpx1p) 

exp(β1xn1 + ... + βpxnp) 

x1py1 + ... + xnpyn = x1p 

+ ... + xnp 

1 + exp(β1x11 + ... + βpx1p) 1 + exp(β1xn1 + ... + βpxnp) . 

Dans le cas de la régression logistique (binaire), il existe une procédure spécifique dite IRLS 

(Iterative Reweighted Least Squares) issue de la procédure de Newton-Raphson : 



′ 

avec 


2.3 Estimation des paramètres 27 

1. choix d’un point de départ β 0 ; 

2. On construit βk+1 à partir de βk tel que −L(βk+1 ) < −L(βk ), pour cela on utilise la direction 

de la plus forte descente qui n’est autre que le gradient ∇L = ∂L ′ 

∂β 

β k+1 = β k + A k ∇L| β k, 

où ∇L| β k est le gradient au point β k et A k est la matrice de “pas” de l’algorithme. Il existe 

plusieurs manières de choisir A k , la méthode IRPLS suggère A k = −(∇ 2 L| β k) −1 (l’inverse du 

hessien de L au point β k . 

Algorithme 1 maximisation de la vraisemblance 

Require: β 0 

k ← 1 

repeat 

β k+1 ← β k + A k ∇Lk {différent choix possible pour A k } 

k ← k + 1 

until β k+1 ≈ β k+1 et/ou L(β k+1 ) ≈ L(β k ) 

Calculons la matrice hessienne ∇ 2 2 ∂ L 

L = 

: 

∂βr∂βs 1≤r,s≤p 

∂2 n 

L 

= − x 

∂βr∂βs 

r ix s exp(x 

i 

′ iβ) 

(1 + exp(x ′ n 

= − x 

iβ))2 r ix s ipi(1 − pi), 

par conséquent 

∇ 2 L = ∂2L = − 

∂β2 i=1 

i=1 

n 

xix ′ iP(Y = 1|X = xi)(1 − P(Y = 1|X = xi)). 

i=1 

Rappelons que dans le contexte qui est le nôtre, à l’étape k de l’algorithme pi = P(Y = 1|X = xi) 

est la i ème coordonnée de P k et dépend de xi et de β k . Ainsi en notant W k = diag(pi(1 − pi)) et 

X la matrice n × p des xi, il vient 

Nous sommes maintenant à même de calculer β k+1 

−(∇ 2 L| β k) −1 = (X ′ W k X) −1 . (2.3) 

β k+1 = β k + (X ′ W k X) −1 X ′ (Y − P k ) 

= (X ′ W k X) −1 X ′ W k (X ˆ β k + W k−1 (Y − P k )) 

= (X ′ W k X) −1 X ′ W k Z k , 

où Z k = Xβ k + W k−1 (Y − P k ). Cette équation est simplement une régression pondérée où les 

poids W k dépendent de X et β k . Les poids sont donc réévalués à chaque étape de l’algorithme, 

une étape étant une simple régression pondérée. 

Remarque Dans le cas de la régression linéaire, P est équivalent à E(Y |X = xi) = Xβ. Ainsi, 

d’après (2.2) 

X ′ (Y − ˆ P) = 0 ⇐⇒ ˆ β = (X ′ X) −1 X ′ Y, 

on retrouve l’estimateur des moindres carrés (qui est également celui du maximum de vraisemblance). 


Laurent Rouvière


2.4 Précision des estimations 

Puisque nous utilisons le maximum de vraisemblance, il est alors possible en utilisant le Théorème 

2.2 de bâtir des intervalles de confiance pour βj. En effet, on déduit du théorème 2.2 que 

asymptotiquement : 

où σβj = 

−1 I(β) 

jj 

 

ˆβj ∼ N 0, σβj 

 

, 

n 

(l’élément (j,j) de l’inverse de la matrice d’information de Fisher). Dans le 

cas binaire cette matrice vaut (X ′ WX) −1 (eq. 2.3). On déduit donc un intervalle de confiance de 

niveau 1 − α pour βj : 

ICα(βj) = 

ˆβj − u1−α/2 

1 

√ n ˆσˆ βj ; ˆ βj + u1−α/2 

1 

 

√ ˆσˆ , βj n 

où u1−α/2 représente le quantile de niveau (1 − α/2) de la loi normale N(0, 1). 

La validité de ces intervalles est toute relative puisqu’il s’agit d’une approximation valable asymptotiquement 

et dont la variance dans le cas de l’approximation normale, doit être évaluée à la vraie 

valeur du paramètre inconnue. Il est toujours possible de compléter cette étude par un bootstrap 

afin d’obtenir d’autres intervalles de confiance dans le cas ou ceux-ci sont particulièrement importants. 

Cela dit, en pratique, on se contente de l’intervalle de confiance bâti grâce à la matrice 

d’information de Fisher. 

2.5 Un exemple avec R 

Le traitement du cancer de la prostate change si le cancer a atteint ou non les nøeuds lymphatiques 

entourant la prostate. Pour éviter une investigation lourde (ouverture de la cavité abdominale) un 

certain nombre de variables sont considérées comme explicative de la variable Y binaire : Y = 0 le 

cancer n’a pas atteint le réseau lymphatique, Y = 1 le cancer a atteint le réseau lymphatique. Le 

but de cette étude est donc d’essayer d’expliquer Y par les variables suivantes (toutes contenues 

dans le fichier cancerprostate.csv) 

– âge du patient au moment du diagnostic (age) 

– le niveau d’acide phosphatase sérique (acide), que l’on appellera par la suite niveau d’acidité 

– Le résultat d’une analyse par rayon X, 0= négatif, 1=positif (rayonx) 

– La taille de la tumeur, 0=petite, 1=grande, (taille) 

– L’état pathologique de la tumeur déterminée par biopsie (0=moyen, 1=grave) 

– Le logarithme népérien du niveau d’acidité (log.acid) 

2.5.1 Modèles “classiques” 

Nous sommes en présence de 6 variables explicatives, notées X = (X1,...,X6) avec : 

– X1, X2 et X6 quantitatives ; 

– X3, X4 et X5 qualitatives (2 niveaux pour chacune). 




2.5 Un exemple avec R 29 

age acide rayonx taille grade log.acid. 

1 66 0.48 0 0 0 -0.73396918 

2 68 0.56 0 0 0 -0.57981850 

3 66 0.50 0 0 0 -0.69314718 

4 56 0.52 0 0 0 -0.65392647 

5 58 0.50 0 0 0 -0.69314718 

6 60 0.49 0 0 0 -0.71334989 

7 65 0.46 1 0 0 -0.77652879 

8 60 0.62 1 0 0 -0.47803580 

9 50 0.56 0 0 1 -0.57981850 

10 49 0.55 1 0 0 -0.59783700 

Premier modèle 

Tab. 2.2 – Tableau de données sur R. 

Considérons tout d’abord les trois variables explicatives X = (X3,X4,X5). Une observation x va 

s’écrire x = (g3k3,g4k4,g5k5). On écrira donc le modèle 

logit (P(Y = 1|X = x)) = α0 + α3k3 + α4k4 + α5k5. 

Ecrit de cette manière, ce modèle possède 7 paramètres mais seulement 4 paramètres indépendants. 

Voici les sorties du logiciel R : 

> model_quali model_quali 

Call: glm(formula = Y ~ rayonx + taille + grade, family = binomial, data = donnees) 

Coefficients: 

(Intercept) rayonx1 taille1 grade1 

-2.1455 2.0731 1.4097 0.5499 




Le logiciel R estime les coefficients α0,α31,α41,α51, les coefficients αi0 étant par défaut pris égaux 

à 0. Si par exemple (x3,x4,x5) = (1, 0, 1), on aura alors : 

logit ( ˆ P(Y = 1|X = x)) = ˆα0 + ˆα31 + ˆα40 + ˆα51 = −2.1455 + 2.0731 + 0 + 0.5499 = 0.4785 

et 

ˆP(Y = 1|X = x) = exp(0.4785) 

= 0.6174. 

1 + exp(0.4785) 

Ainsi, dans un contexte de prévision, nous assignerons le label 0 a la nouvelle observation x. 

Deuxième modèle 

Considérons maintenant le modèle uniquement composé de variables quantitatives, 

et R fournit les estimations suivantes 

logit (P(Y = 1|X = x)) = β0 + β1x1 + β2x2 + β6x6, 


Laurent Rouvière


> model_quanti model_quanti 

Call: glm(formula = Y ~ age + acide + log.acid., family = binomial, data = donnees) 

Coefficients: 

(Intercept) age acide log.acid. 

12.34700 -0.02805 -9.96499 10.54332 




Troisième modèle 

Le modèle “complet” à 6 variables s’écrit 

logit (P(Y = 1|X = x)) = β0 + β1x1 + β2x2 + α3(x3) + α4(x4) + α5(x5) + β6x5. 

> model_complet model_complet 

Call: glm(formula = Y ~ ., family = binomial, data = donnees) 

Coefficients: 

(Intercept) age acide rayonx1 taille1 grade1 

10.08672 -0.04289 -8.48006 2.06673 1.38415 0.85376 

log.acid. 

9.60912 




2.5.2 Encore d’autres modèles... 

Comme dans le cas du le modèle “linéaire” on peut également considérer des interactions entre les 

variables explicatives dans le contexte de la régression logistique. Généralement, on dit qu’il y a 

interaction entre deux facteurs F1 et F2 sur une variable Y si l’effet de l’un des facteurs diffère 

selon la modalité de l’autre. Remarquons que cette notion n’a rien à voir avec celle de corrélation 

qui ne concerne que deux variables alors que l’interaction met en jeu une troisième variable Y . 

Exemple (Construction d’interaction) On s’intéresse à l’effet de deux traitements X1 et X2 

sur le rhum. Le traitement X1 consiste à prendre à intervalle de temps réguliers deux verres de 

cognac, et X2 représente un traitement aux antibiotiques. La variable réponse Y correspond à 

l’état du patient (1 si malade, 0 si bonne santé). On simule un échantillon de la manière suivante : 

1. deux facteurs X1 et X2 à deux niveaux équiprobables ; 

2. la loi de Y conditionnellement à X1 et X2 est donnée dans le tableau suivant : 

On estime les taux d’erreurs sur un échantillon indépendant et on reporte dans le tableau suivant 

les erreurs commises par les modèles sans et avec interactions. 




2.5 Un exemple avec R 31 

0 1 

0 B(0.95) B(0.05) 

1 B(0.05) B(0.95) 

Tab. 2.3 – Loi de Y . 

Sans 0.54 

Avec 0.065 

Tab. 2.4 – Taux d’erreurs estimés. 

Dans le cas de deux facteurs X1 et X2 admettant m1 et m2 niveaux, si x = (g1k1,g2k2) le modèle 

va ainsi s’écrire : 

logit (P(Y = 1|X = x)) = α0 + α1k1 + α2k2 + αk1k2. 

Le nombre de paramètres identifiables de manière unique se calcule de la manière suivante : 

Variable constante X1 X2 X1 : X2 Total 

Nb param 1 m1 − 1 m2 − 1 (m1 − 1)(m2 − 1) m1m2 

Ainsi si nous revenons à l’exemple du cancer de la prostate avec toutes les interactions : 

> model_inter model_inter 

Call: glm(formula = Y ~ .^2, family = binomial, data = donnees) 

Coefficients: 

(Intercept) age acide rayonx1 

2.843e+17 -4.229e+15 -3.117e+17 -5.453e+16 

taille1 grade1 log.acid. age:acide 

2.516e+16 -5.778e+15 2.026e+17 4.665e+15 

age:rayonx1 age:taille1 age:grade1 age:log.acid. 

2.077e+13 -5.245e+13 -1.670e+14 -2.869e+15 

acide:rayonx1 acide:taille1 acide:grade1 acide:log.acid. 

5.572e+16 -2.420e+16 2.336e+16 -5.687e+15 

rayonx1:taille1 rayonx1:grade1 rayonx1:log.acid. taille1:grade1 

1.129e+15 -1.176e+15 -4.004e+16 -5.496e+15 

taille1:log.acid. grade1:log.acid. 

8.625e+15 -1.228e+16 




On peut vérifier que ce modèle nécessite l’estimation de 22 paramètres. Bien entendu, d’autres sousmodèles 

avec interactions peuvent être utilisés. De plus, nous pouvons nous demander si toutes les 

variables sont bien explicatives ? Dés lors, des méthodes sélection et validation de modèles doivent 

être mise au point. 


Laurent Rouvière

Chapitre 3 

Sélection et validation de modèles 

Ce chapitre se divise essentiellement en deux parties qui : 

1. Sélection : Etant donnée M modèles M1,...MM, comment choisir le “meilleur” à partir 

de l’échantillon dont on dispose. 

2. Validation : Est-ce-que le modèle sélectionné M0 est bon? En statistique cette question 

peut être vue de différentes façons : 

• Est-ce-que la qualité d’ajustement globale est satisfaisante : le modèle décrit-il bien les 

valeurs observées ? 

– Ce type de question fait l’objet des tests d’ajustement ou d’adéquation (goodness of fit). 

– L’ajustement peut être aussi regardé observation par observation (individus aberrants) 

par des méthodes graphiques (analyse des résidus) ou analytiques. 

• Est ce que les hypothèses sont vérifiées ? Les méthodes sont essentiellement graphiques 

(analyse des résidus). 

• L’influence sur l’estimation des points peut être aussi envisagée (distance de Cook, robustesse). 

Dans ce chapitre nous allons traiter ces questions à travers l’exemple du modèle logistique. Mais 

l’ensemble des méthodes que nous présenterons peuvent s’étendre à d’autres problématiques de 

sélection-validation de modèles. 

3.1 Sélection ou choix de modèle 

Pour la régression logistique, sélectionner un modèle revient à choisir les variables (interactions 

inclues) qui vont constituer le modèle. On se place dans le cas où on dispose d’un certain nombre 

de modèles, et on se pose le problème de chercher le meilleur. 

3.1.1 Un outil spécifique : la déviance 

Comme la vraisemblance n’est jamais à la même échelle (cela dépend des données), il n’est pas 

facile d’avoir une idée de la qualité d’ajustement en regardant la vraisemblance. Pour cela, un 

outil spécifique est introduit : la déviance. Elle compare la vraisemblance obtenue à celle que l’on 

obtiendrait dans un modèle parfait : le modèle saturé. Elle est définie par : 

D = 2 (Lsaturé − L(β)) ≥ 0. 

La déviance est égal à 2 fois une différence de vraisemblance. Elle constitue un écart en terme de 

log-vraisemblance entre le modèle saturé d’ajustement maximum et le modèle considéré : 


Laurent Rouvière

34 Sélection et validation de modèles 

Ajustement 

parfait bon moyen mauvais Qualité d’ajustement 

✲ 

0 Déviance 

Dans le modèle saturé, on considère que la prévision est parfaite, c’est à dire que les valeurs prédites 

sont égales aux valeurs observées. On rappelle que dans le cas où il n’y a pas de répétitions sur les 

xi la log-vraisemblance du modèle logistique est donnée par 

 

n 

 

n 

L(β) = log P(Y = yi|X = xi) = yi log(pi) + (1 − yi) log(1 − pi). 

i=1 

Pour le modèle saturé, il n’existe aucune incertitude et la probabilité estimée par le modèle au 

point X = xi est donc 1 pour le groupe observé et 0 sinon : 

 

1 si yi = j 

P(Y = j|X = xi) = 

ou encore P(Y = yi|X = xi) = 1. 

0 sinon. 

Par conséquent Lsaturé = 0 et la déviance est égale à deux fois l’opposé de la log-vraisemblance. 

Remarque Si maintenant plusieurs observations sont effectuées au même point du design, on a vu 

dans le chapitre précédent que les données étaient alors présentées sous une forme dite binomiale. 

La log vraisemblance du modèle logistique s’écrit : 

 

n 

 

n 

n ni 

L(β) = log P(T = ti|X = xi) = log + ni {¯yi log(pi) + (1 − ¯yi) log(1 − pi)} 

i=1 

i=1 

où on rappelle que ni est le nombre d’observations au point xi et ti est le nombre de succès associé. 

Dans ce contexte le modèle saturé sera tel que : 

On aura donc : 

Lsaturé = 

n 

log 

i=1 

La déviance sera alors égale à 

D = 2 

n 

i=1 

ni 

ti 

i=1 

i=1 

P(Y = yi|X = xi) = ¯yi, 

ti 

ni 

 

+ 

n 

ni {¯yi log ¯yi + (1 − ¯yi) log(1 − ¯yi)} . 

i=1 

Test de déviance entre 2 modèles emboîtés 

 

¯yi log ¯yi 

 

1 − ¯yi 

+ (1 − ¯yi) log ) . 

pi 1 − pi 

Rappelons que par définition un modèle est dit emboîté dans un autre plus général (ou plus grand) 

lorsqu’il est un cas particulier de ce modèle plus général. 

Exemple Dans le cas de la régression simple, le modèle 



y = β0 + β1x1 + ε, 


3.1 Sélection ou choix de modèle 35 

est un cas particulier du modèle 

y = β0 + β1x1 + β2x2 + ε. 

En effet il suffit de poser que β2 = 0 dans le second modèle pour retrouver le premier. Notons les 

estimations dans le modèle 1 ( ˆ β (1) 

0 , ˆ β (1) 

1 ) et dans le modèle 2 ( ˆ β (2) 

0 , ˆ β (2) 

1 , ˆ β (2) 

2 ). En général nous avons 

ˆβ (1) 

0 = ˆ β (2) 

0 et ˆ β (1) 

1 = ˆ β (2) 

1 . 

Exemple Dans le cas d’un modèle logistique binaire, cela est identique 

et 

sont emboîtés l’un dans l’autre. 

logit (P(Y = 1|X = x)) = β0 + β1x1 + β2x2 

logit (P(Y = 1|X = x)) = β0 + β1x1 + β2x2 + β3x3 

Pour comparer deux modèles emboîtés M1 ⊂ M2 nous allons comparer leur déviance D1 et D2. 

On a alors deux cas : 

– La différence est grande → le fait de passer d’un modèle simple (petit) à un modèle plus complexe 

(plus général ou plus grand) a donc apporté un écart de déviance significatif → le modèle plus 

général est acceptable. 

– La différence est faible → le modèle simple et celui plus complexe sont voisins et par souci de 

parcimonie le modèle simple est conservé. 

Il nous faut bien entendu déterminer un seuil à partir duquel on pourra dire que la différence de 

déviance est petite ou grande. Pour se faire, on construit un test dans lequel nous allons chercher 

la loi de la différence de déviance sous H0 (l’hypothèse selon laquelle le modèle simple est vrai). 

Sous des hypothèses techniques ∆D = D1 −D2 = Dpetit −Dgrand suit une loi du χ 2 à p2 −p1 degrés 

de liberté où p1 est le nombre de paramètres du modèle simple et p2 celui du modèle complexe. Le 

test se déroule alors de la manière classique 

1. Les hypothèses sont fixées 

– H0 le modèle simple à p1 paramètres est adéquat ; 

– H1 le modèle complexe à p2 paramètres est adéquat. 

2. α est choisi (en général 5% ou 1%) 

3. L’observation de ∆D est calculée, notons la ∆Dobs 

4. Calcul du quantile de niveau (1 − α) de la loi du χ 2 (p2 − p1), noté q1−α(p2 − p1). 

– Si ∆Dobs > q1−α(p2 − p1) alors H0 est repoussé au profit de H1, le modèle considéré n’est 

pas adéquat. 

– Si ∆Dobs ≤ q1−α(p2 − p1) alors H0 est conservé, le modèle considéré est adéquat. 

3.1.2 Critère de choix de modèles 

Le test que nous venons d’étudier permet de sélectionner un modèle parmi deux modèles emboîtés. 

Or en régression logistique, nous avons vu qu’à partir de p variables explicatives, nous pouvions 

construire une grand nombre de modèles logistiques, qui ne sont pas forcément emboîtés. L’utilisation 

d’un simple test de déviance se révèle alors insuffisante. On a alors recours à des critères de 


Laurent Rouvière


choix de modèles qui permettent de comparer des modèles qui ne sont pas forcément emboîtés les 

uns dans les autres. 

Les critères AIC et BIC sont les plus utilisés. Ces critères sont basés sur la philosophie suivante : 

plus la vraisemblance est grande, plus grande est donc la log-vraisemblance L et meilleur est 

le modèle. Cependant la vraisemblance augmente avec la complexité du modèle, et choisir le 

modèle qui maximise la vraisemblance revient à choisir le modèle saturé. Ce modèle est clairement 

surparamétré, on dit qu’il “sur-ajuste” les données (overfitting). Sur l’exemple de la Figure 3.1, 

nous avons simulé un échantillon de taille 100 suivant : 

Xi ∼ N(0, 1), Ui ∼ U[0, 1], et Yi = 

1Ui≤0.25 si Xi ≤ 0 

1Ui≥0.25 si Xi ≥ 0 

Dit autrement, environ 3/4 des labels valent 0 pour les valeurs de Xi négatives et 1 pour les valeurs 

positives. De manière évidente, le modèle saturé ajuste parfaitement les observations. Nous voyons 

cependant qu’il est difficile, pour ne pas dire impossible à utiliser dans un contexte de prévision. De 

plus le modèle saturé possède ici n = 100 paramètres tandis que le modèle logistique n’en possède 

que 2. Ce qui est nettement plus avantageux pour expliquer Y . 

Pour choisir des modèles plus parcimonieux, une stratégie consiste à pénaliser la vraisemblance 

par une fonction du nombre de paramètres. 

– Par définition l’AIC (Akaike Informative Criterion) pour un modèle à p paramètres est 

AIC = −2L + 2p. 

– Le critère de choix de modèle le BIC (Bayesian Informative Criterion) pour un modèle à p 

paramètres estimé sur n observations est défini par 

BIC = −2L + p log(n). 

On choisira ainsi le modèle qui possède le plus petit AIC ou BIC. L’utilisation de ces critères est 

simple. Pour chaque modèle concurrent le critère de choix de modèle est calculé et le modèle qui 

présente le plus faible est sélectionné. 

Remarque Remarquons que certains logiciels (R par exemple) utilisent −AIC et −BIC il est 

donc prudent de bien vérifier dans quel sens doivent être optimisés ces critères (maximisation ou 

minimisation). Ceci peut être fait aisément en comparant un modèle très mauvais (sans variable 

explicative) à un bon modèle (à une variable) et de vérifier dans quel sens varie les critères de 

choix. 

3.1.3 Apprentissage/validation 

Un moyen naturel de sélectionner un modèle consisterait à : 

1. estimer le taux d’erreurs commises par tous les modèles à l’aide de l’échantillon ; 

2. choisir le modèle qui possède la plus petite estimation. 

Dans le cas d’observations binaires, un estimateur du taux d’erreur d’un modèle est le nombre de 

mal classés (également appelés erreur empirique) : 



1 

n 

n 

i=1 

1ˆ Yi(j)=Yi , 



Y 

0.0 0.5 

1.0 

+ + 

+ 

+ 

+ + + + + +++ + + ++ + + + +++ + + 

+ + +++ + + ++ + 

+ + 

+ + 

−2 0 2 

X 

Y 

0.0 0.5 

1.0 

+ + 

+ 

+ 

+ + + + + +++ + + ++ + + + +++ + + 

+ + +++ + + ++ + 

+ + 

+ + 

−2 0 2 

Fig. 3.1 – Gauche : Représentation des observations (gauche). Droite : Tracé des modèles saturés 

(pointillés) et logistique (trait plein). 

où ˆ Yi(j) désigne la i ème prédiction (celle associée à Xi) du j ème modèle. 

Nous avons vu que le modèle saturé ajuste de manière “parfaite” les données (dans le cas de données 

binaires sans répétitions au point de design), ce qui signifie que son taux de mal classés est nul. 

L’utilisation d’un tel critère semble alors peu pertinente. En fait, la faiblesse de ce genre de critères 

tient du fait que le même échantillon (x1,y1),...,(xn,yn) est utilisé pour : 

– construire le modèle (estimer ses paramètres) ; 

– estimer le taux d’erreurs. 

Ce qui engendre naturellement des problèmes de biais dans l’estimation du taux d’erreur. La 

procédure apprentissage-validation s’affranchit de ce problème en séparant de manière aléatoire 

les données (X1,Y1),...,(Xn,Yn) en deux parties distinctes : 

– (Xi,Yi),i ∈ Iℓ un échantillon d’apprentissage de taille ℓ ; 

– (Xi,Yi),i ∈ Im un échantillon de validation de taille m tel que ℓ + m = n. 

L’échantillon d’apprentissage est utilisé pour construire les modèles concurrents (pour estimer les 

paramètres des différents modèles logistiques envisagés) (Figure 3.2). L’échantillon de validation est 

ensuite utilisé pour estimer les différents taux d’erreurs des modèles concurrents. De manière plus 

précise, nous allons ensuite appliquer chaque modèle j sur les variables explicatives du deuxième 

échantillon. Nous obtiendrons alors pour chaque modèle j et chaque observation i de l’échantillon 

de validation une valeur prédite ˆ Yi(j) que nous allons comparer à la valeur observée Yi. Notre 

critère sera alors : 

MC(j) = 1 

m 

 

1 { Yi(j)=Yi} ˆ . 

i∈Im 

On choisira bien entendu le modèle pour lequel MC sera minimum. Si les modèles concurrents 

sont tous des modèles logistiques, nous aurons pour chaque modèle j et chaque observation i de 

l’échantillon Im une estimation de la probabilité : 

ˆpj(Y = 1|X = Xi), 



X


la prévision sera bien entendu 

Y 

X 

Données de départ 

 

ˆYi(j) 

1 si ˆpj(Y = 1|X = Xi) > 0.5 

= 

0 sinon. 

Séparation 

Y 

Y 

Valeurs observées 

Apprentissage 

Validation 

Toutes les variables 

Uniquement les X 

Estimations des modèles 

concurrents 

Valeurs prédites (pour tous les modèles concurrents) 

Fig. 3.2 – Procédure d’apprentissage/validation 

Le tableau 3.1 compare les taux d’erreurs des modèles saturés et logistique de l’exemple de la 

Figure 3.1. La procédure qui utilise un seul échantillon pour calculer le taux de mal classés va ainsi 

sélectionner le modèle saturé, ce n’est pas le cas de la procédure Apprentissage-Validation qui 

fournit des estimations des taux d’erreurs plus précises et qui sélectionnera le modèle logistique. 

Saturé Logistique 

Sans AV 0 0.146 

avec AV 0.244 0.160 

Tab. 3.1 – Taux d’erreurs des modèles saturés et logistique de l’exemple de la Figure 3.1 avec et sans 

la procédure de validation (deux échantillons de même taille) 

Cette procédure semble la plus indiquée. Il faut néanmoins nuancer car elle requiert beaucoup de 

données 

– dans l’échantillon d’apprentissage pour estimer le modèle et ainsi ne pas trop pénaliser les 

modèles avec beaucoup de variables dont les coefficients seront moins bien estimés ; 

– dans l’échantillon de validation pour bien évaluer la capacité de prévision dans de nombreux cas 

de figure. 

De plus il n’existe pas de règle pour choisir les tailles des deux échantillons. 





3.1.4 Validation croisée 

Lorsque l’on n’a pas assez de données pour l’apprentissage/validation, la validation croisée est 

utilisée. Le principe est de “moyenner” le taux de mal classés à l’aide de plusieurs découpages de 

l’échantillon. Plus précisément, on divise l’échantillon initial en K sous échantillons Ek de même 

taille et on effectue K procédures apprentissage-validation pour lesquelles : 

– l’échantillon test sera constitué d’une division Ek ; 

– l’échantillon d’apprentissage sera constitué de l’ensemble des autres divisions E −Ek (voir Figure 

3.3). 

00000000000000000000000000000000000000000000 

11111111111111111111111111111111111111111111 

00000000000000000000000000000000000000000000 

11111111111111111111111111111111111111111111 

E1 

00000000000000000000000000000000000000000000 

11111111111111111111111111111111111111111111 

00000000000000000000000000000000000000000000 

11111111111111111111111111111111111111111111 

00000000000000000000000000000000000000000000 

11111111111111111111111111111111111111111111 

00000000000000000000000000000000000000000000 

11111111111111111111111111111111111111111111 

E2 

00000000000000000000000000000000000000000000 

11111111111111111111111111111111111111111111 

00000000000000000000000000000000000000000000 

11111111111111111111111111111111111111111111 

00000000000000000000000000000000000000000000 

11111111111111111111111111111111111111111111 

00000000000000000000000000000000000000000000 

11111111111111111111111111111111111111111111 

00000000000000000000000000000000000000000000 

11111111111111111111111111111111111111111111 

00000000000000000000000000000000000000000000 

11111111111111111111111111111111111111111111 

00000000000000000000000000000000000000000000 

11111111111111111111111111111111111111111111 

00000000000000000000000000000000000000000000 

11111111111111111111111111111111111111111111 

00000000000000000000000000000000000000000000 

11111111111111111111111111111111111111111111 

00000000000000000000000000000000000000000000 

11111111111111111111111111111111111111111111 

00000000000000000000000000000000000000000000 

11111111111111111111111111111111111111111111 

00000000000000000000000000000000000000000000 

11111111111111111111111111111111111111111111 

Ek 

Y 

00000000000000000000000000000000000000000000 

11111111111111111111111111111111111111111111 

00000000000000000000000000000000000000000000 

11111111111111111111111111111111111111111111 

00000000000000000000000000000000000000000000 

11111111111111111111111111111111111111111111 

00000000000000000000000000000000000000000000 

11111111111111111111111111111111111111111111 

00000000000000000000000000000000000000000000 

11111111111111111111111111111111111111111111 

00000000000000000000000000000000000000000000 

11111111111111111111111111111111111111111111 

00000000000000000000000000000000000000000000 

11111111111111111111111111111111111111111111 

00000000000000000000000000000000000000000000 

11111111111111111111111111111111111111111111 

00000000000000000000000000000000000000000000 

11111111111111111111111111111111111111111111 

00000000000000000000000000000000000000000000 

11111111111111111111111111111111111111111111 

00000000000000000000000000000000000000000000 

11111111111111111111111111111111111111111111 

00000000000000000000000000000000000000000000 

11111111111111111111111111111111111111111111 

EB 

00000000000000000000000000000000000000000000 

11111111111111111111111111111111111111111111 

00000000000000000000000000000000000000000000 

11111111111111111111111111111111111111111111 

00000000000000000000000000000000000000000000 

11111111111111111111111111111111111111111111 

Fig. 3.3 – Découpage de l’échantillon pour la validation croisée,. L’échantillon d’apprentissage correspond 

à la partie hachurée. 

Pour chaque division, on évalue le taux de mal classé MCk obtenue pour ce découpage. Le critère 

à minimiser est alors la moyenne des MCk(j), k = 1,...,K (j représentant le modèle candidat) : 

MCCV (j) = 1 

K 

X 

K 

MCk(j), 

et le modèle j retenu est celui qui conduit au minimum sur {MCCV (j)}. Bien entendu le choix du 

nombre B parties n’est pas anodin. 

– Plus le nombre B est faible, plus la capacité de prévision sera évaluée dans de nombreux cas 

puisque le nombre d’observations dans la validation sera élevé, mais moins l’estimation sera 

précise ; 

– Au contraire, un B élevé conduit à peu d’observations dans la validation et donc à une plus 

grande variance dans les nombres de mal classés. 

3.1.5 Sélection automatique 

Les procédures que nous venons d’étudier permettent de sélectionner un modèle à partir d’une 

famille de modèle donnée. Un autre point de vue de la sélection de modèle consiste à chercher 



k=1


Modèle de départ 

Modèle en cours = M0 

AIC M0 moins bon Ajout d’un coefficient 

M1 devient M0 

Modèle sélectionné =M1 

Comparaison AIC modele M0 et modele M1 

AIC M0 meilleur 

Modèle courant M0 retenu 

Choix parmi tous les modèles (+ grand AIC) 

Fig. 3.4 – Technique ascendante utilisant l’AIC. 

parmi les variables X1,...,Xp, celles qui “expliquent le mieux” Y . Par exemple dans le contexte de 

la régression logistique, nous pourrions nous poser le problème de chercher le meilleur sous-ensemble 

des p variables explicatives pour un critère C donnée (AIC, BIC...). Le nombre de sous ensemble 

de p variables étant 2 p , nous serions en présence de 2 p régressions logistique possibles, c’est à dire 

2 p modèles différents. Bien entendu, nous sélectionnerions le modèle pour lequel le critère C serait 

minimum. Cependant, dans de nombreuses situations, p est grand et par conséquent le nombre de 

modèles considérés est “très grand”. Les algorithmes de minimisation du critère C deviennent très 

coûteux en temps de calcul. On préfère alors souvent utiliser des méthodes de recherche pas à pas. 

Recherche pas à pas, méthode ascendante (forward selection) 

A chaque pas, une variable est ajoutée au modèle. 

– Si la méthode ascendante utilise un test de déviance, nous rajoutons la variable Xj dont la valeur 

“p” associée à la statistique de test de déviance qui compare les 2 modèles est minimale. Nous 

nous arrêtons lorsque toutes les variables sont intégrées ou lorsque la valeur p est plus grande 

qu’une valeur seuil. 

– Si la méthode ascendante utilise un critère de choix, nous ajoutons la variable Xj dont l’ajout au 

modèle conduit à l’optimisation la plus grande du critère de choix. Nous nous arrêtons lorsque 

toutes les variables sont intégrées ou lorsque qu’aucune variable ne permet l’optimisation du 

critère de choix (voir aussi Figure 3.4). 

Recherche pas à pas, méthode descendante (backward selection) 

A la première étape toutes les variables sont intégrées au modèle. 

– Si la méthode descendante utilise un test de déviance, nous éliminons ensuite la variable Xi dont 

la valeur “p” associée à la statistique de test de déviance est la plus grande. Nous nous arrêtons 





lorsque toutes les variables sont retirées du modèle ou lorsque la valeur p est plus petite qu’une 

valeur seuil. 

– Si la méthode descendante utilise un critère de choix, nous retirons la variable Xi dont le retrait 

du modèle conduit à l’augmentation la plus grande du critère de choix. Nous nous arrêtons 

lorsque toutes les variables sont retirées ou lorsque qu’aucune variable ne permet l’augmentation 

du critère de choix. 

Recherche pas à pas, méthode progressive (stepwise selection) 

Idem que l’ascendante, sauf que l’on peut éliminer des variables déjà introduites. En effet, il peut 

arriver que des variables introduites en début ne soient plus significatives après introduction de 

nouvelles variables. Remarquons qu’en général la variable “constante” constituée de 1 et associée 

au coefficient “moyenne générale” est en général traitée à part et elle est toujours présente dans le 

modèle. 

Exemple Reprenons l’exemple des données du cancer de la prostate. Nous allons sélectionner des 

modèles par les différentes approches pas à pas. 

1. Méthode ascendante : Le modèle initial est constitué uniquement de la variable âge. 

> model_age model_asc model_asc 

Call: glm(formula = Y ~ age + rayonx + taille + log.acid., family = binomial, 

data = donnees) 

Coefficients: 

(Intercept) age rayonx1 taille1 log.acid. 

2.65636 -0.06523 2.08995 1.75652 2.34941 




2. Méthode descendante : le modèle initial est ici constitué de toutes les variables (sans 

interactions). 

> modelcomplet model_des model_des 

Call: glm(formula = Y ~ acide + rayonx + taille + log.acid., family = binomial, 


Coefficients: 

(Intercept) acide rayonx1 taille1 log.acid. 

9.067 -9.862 2.093 1.591 10.410 




3. Méthode progressive : le modèle initial est ici constitué de toutes les variables (sans 

interactions). 


Laurent Rouvière


> model_pro model_pro 

Call: glm(formula = Y ~ acide + rayonx + taille + log.acid., family = binomial, 


Coefficients: 

(Intercept) acide rayonx1 taille1 log.acid. 

9.067 -9.862 2.093 1.591 10.410 




On peut également mettre des variables d’interactions parmi les variables candidates. 

> model_pro1 model_pro1 

Call: glm(formula = Y ~ acide + rayonx + taille + grade + log.acid. + taille:grade + 

taille:log.acid. + acide:grade, family = binomial,data = donnees) 

Coefficients: 

(Intercept) acide rayonx1 taille1 

49.385 -49.186 3.135 -2.635 

grade1 log.acid. taille1:grade1 taille1:log.acid. 

1.227 53.329 -14.264 -21.719 

acide:grade1 

17.629 




Nous voyons sur cet exemple que suivant le choix de la méthode pas à pas et du modèle initial, 

les modèles sélectionnés diffèrent. Une stratégie permettant de sélectionne un seul modèle peut 

s’effectuer en deux temps : 

1. On sélectionne un nombre faible (entre 5 et 10 par exemples) de modèles candidats par ces 

algorithmes pas à pas ; 

2. On choisit le modèle qui minimise un critère de choix (AIC, BIC) ou par la méthode apprentissage 

validation. 

Une fois le modèle choisi, il est nécessaire de mener une étude plus approfondie de ce dernier qui 

permettra de le “valider” ou l’affiner (suppression de points abberants, analyse des résidus...). 

3.2 Validation du modèle 

3.2.1 Test d’adéquation par la déviance 

Ce test permet de valider un modèle à p paramètres. Les hypothèses nulle et alternatives sont : 

– H0 le modèle considéré à p paramètres est adéquat ; 




3.2 Validation du modèle 43 

– H1 le modèle considéré à p paramètres n’est pas adéquat. 

Ici, nous allons comparer le modèle saturé au modèle considéré au moyen de la déviance. Nous 

savons que 

– si la déviance est grande, alors le modèle considéré est loin du modèle saturé et que par conséquent 

il n’ajuste pas bien les données ; 

– Par contre si la déviance est proche de 0, le modèle considéré sera adéquat. 

Pour quantifier cette notion de “proche de 0” et de “grande déviance”, la loi de la déviance sous 

H0 (le modèle considéré est le vrai modèle) va nous être utile. En effet si H0 est vraie, le modèle 

considéré est vrai par définition. La déviance sera répartie sur R + mais avec plus de chance d’être 

proche de 0. Par contre si H0 n’est pas vraie la déviance sera répartie sur R + mais avec plus de 

chance d’être éloignée de 0. Nous nous accordons α % de chance de se tromper sous H0 donc si, 

l’on connaît la loi de D sous H0 alors en prenant le quantile de niveau 1 − α nous excluons les α 

% d’erreur tout en excluant les déviances les plus grandes, c’est à dire les cas qui se présenteront 

vraisemblablement si H0 n’est pas vraie. 

La déviance est en fait le test de rapport de vraisemblance et sous des hypothèses techniques, D 

suit donc une loi du χ 2 (n − p) degrés de liberté, où p est le nombre de paramètres du modèle et 

n le nombre de point du design, ce qui est, sauf répétition, le nombre d’observations. Le test se 

déroule alors de la manière classique : 

1. Les hypothèses sont fixées 

– H0 le modèle considéré à p paramètres est adéquat 

– H1 le modèle considéré à p paramètres n’est pas adéquat 

2. α est choisi (en général 5% ou 1%) 

3. L’observation de D est calculée, notons la Dobs 

4. Calcul du quantile de niveau (1 − α) de la loi du χ 2 (n − p), noté q1−α(n − p). 

– Si Dobs > q1−α(n − p) alors H0 est repoussé au profit de H1, le modèle considéré n’est pas 

adéquat. 

– Si Dobs ≤ q1−α(n − p) alors H0 est conservé, le modèle considéré est adéquat. 

densité 

0.00 0.05 0.10 0.15 0.20 0.25 

H0 conservé H0 repoussé 

0 2 4 6 8 10 

Fig. 3.5 – Test de déviance, la droite horizontale représente le seuil de rejet Dc = q1−α(n − p). 

Remarque La validité de la loi et donc du test n’est qu’asymptotique, il est donc nécessaire 

d’avoir un peu de recul quant aux conclusions. Lorsque les données sont binaires et qu’aucune 

répétition n’est présente au point X = xi, ∀i, alors D ne suit pas une loi du χ 2 . Pour les données 

binaires le test d’adéquation d’Hosmer Lemershow est à conseiller. 



D


3.2.2 Test d’Hosmer Lemershow 

Ce test permet de vérifier l’adéquation d’un modèle quand la variable à expliquer est une variable 

binaire uniquement. Il permet donc de vérifier l’adéquation dans les cas où le test d’adéquation 

par la déviance est particulièrement déconseillé. 

Pour cela, les ˆ Pi sont ordonnés par ordre croissant. Ensuite K groupes de tailles égales sont créés, 

en général K = 10 et le dernier groupe, celui des ˆ Pi les plus grands, possède un effectif inégal aux 

autres. Notons m∗ k l’effectif du groupe k. Ensuite une statistique du type χ2 est calculée sur ces 

groupes. L’effectif observé ok des cas (Y = 1) dans le groupe k est décompté, ce qui donne de 

manière mathématique ok = 

j∈gpe k yj. La fréquence théorique est simplement la moyenne des 

probabilités estimées par le modèle, pour toutes les observations du groupe : ¯µk = 

j∈gpe k ˆ Pj. La 

statistique de test est alors 

où m ∗ k 

est l’effectif du groupe k. 

C 2 = 

K 

k=1 

(ok − m∗ 2 

k¯µk) m∗ k¯µk(1 − ¯µk) , 

Le test se conduit de manière identique au test de déviance, la statistique C 2 suivant approximativement 

un χ 2 à K − 1 degrés de liberté. Cette approximation ayant été validée uniquement par 

simulation, il semble donc important de ne pas appliquer trop strictement la procédure de test, 

mais plutôt de la considérer comme une indication. 

3.2.3 Analyse des résidus 

Les différents types de résidus 

A l’image de la régression plusieurs types de résidus sont proposés par les logiciels. Le premier, 

le plus simple à calculer est tout simplement Yi − ˆpi. Ces résidus sont appelés résidus bruts. Ils 

permettent de mesurer l’ajustement du model sur chaque observations. Ces résidus n’ayant pas ma 

même variance, ils sont difficiles à comparer. En effet, on rappelle que V(Y |X = xi) = pi(1 − pi), 

et par conséquent, de tels résidus risquent d’être pour des valeurs de pi proches de 1/2. Un moyen 

de pallier à cette difficulté est de considérer les résidus de Pearson 

ri = ˆεi = 

Yi − ˆpi 

. (3.1) 

ˆpi(1 − ˆpi) 

Par définition on standardise les résidus par la variance théorique de Yi qui prend comme valeur 0 

ou 1. La variance théorique est donc celle d’une loi de Bernouilli pi(1−pi). Ce n’est pas la variance 

de l’estimation ˆpi qui est un estimateur donc aléatoire. On note 

⎧ 

⎨ εi = Yi − pi 



⎩ 

ˆεi = Yi − ˆpi 

Hypothèses Réalité 

E(εi) = 0 E(ˆεi) ≃ 0 

V(εi) = pi(1 − pi) V(ˆεi) = pi(1 − pi)(1 − hii) 



où hii est l’élément de la i ème ligne et de la i ème colonne de la matrice H = X(X ′ W ∗ X) −1 X ′ W ∗ . 

Pour essayer d’obtenir des résidus de même variance approximative (standardisés) 

ˆεi = 

Yi − ˆpi 

ˆpi(1 − ˆpi)(1 − hii) , 

Les résidus de déviance sont définis par 

 

di = ˆεi = signe(Yi − ˆpi) 2(lsaturé(Yi) − l(Yi, ˆ β)), 

où l(Yi, ˆ β) est la log-vraisemblance associée à l’observation Yi (et non pas toutes les observations) 

et lsaturé(Yi) son homologue pour le modèle saturé. Cette définition est moins naturelle. Là encore 

pour tenir compte de la variabilité ces résidus sont standardisés : 

 

2(lsaturé(Yi) − l(Yi, 

ˆεi = signe(Yi − ˆpi) 

ˆ β,φ)) 

. 

1 − hii 

Ces deux types de résidus de déviance sont ceux qui sont en général conseillés. 

Examen des résidus 

Index plot Pour le modèle logistique les résidus de déviance sont souvent préférés. De nombreuses 

études expérimentales ont montré qu’ils approchent mieux la loi normale que les résidus 

de Pearson. Pour cette raison ces résidus prennent généralement des valeurs qui varient entre -2 

et 2. Nous pourrons construire un index plot pour détecter des valeurs aberrantes. Ce graphique 

ordonne les résidus en fonction du numéro de leur observation. Nous dirons ainsi qu’une donnée 

est abberante si la valeur de son résidu est élevée (si elle n’est pas entre -2 et 2 par exemple). 

> model plot(rstudent(model),type="p",cex=0.5,ylab="Résidus studentisés par VC") 

abline(h=c(-2,2)) 

Graphique prédiction linéaire/résidus Ce graphique qui représente X ˆ β en abscisse et ˆε en 

ordonné permet de détecter les valeurs aberrantes mais aussi les structurations suspectes. Si une 

structuration suspecte apparaît, il sera peut être adéquat d’ajouter une nouvelle variable afin de 

prendre en compte cette structuration. Dans le cas des données y binaire ce type de graphique 

donne toujours des structurations (Figure 3.7) et n’est donc pas à conseiller. 

Résidus partiels Les résidus partiels sont définis par 

ˆε P .j = Yi − ˆpi 

ˆpi(1 − ˆpi) + ˆ βjX.j 

L’analyse consiste à tracer pour toutes les variables j le dessin suivant : tracer les points avec 

en abscisse la variable j et en ordonnée les résidus partiels. Si le tracé est linéaire alors tout est 

normal. Si par contre une tendance non linéaire se dégage, il faut remplacer la variable j par une 

fonction de celle ci donnant la même tendance que celle observée. 


Laurent Rouvière


Résidus studentisés par VC 

−2 −1 0 1 2 

0 10 20 30 40 50 

26 

Index 

Fig. 3.6 – Index plot 

> residpartiels prov ordre plot(donnees$log.acid.,residpartiels[,"log.acid."],type="p",cex=0.5,xlab="",ylab="") 

> matlines(donnees$log.acid.[ordre],predict(prov)[ordre]) 

> abline(lsfit(donnees$log.acid.,residpartiels[,"log.acid."]),lty=2) 

Le graphique 3.8 montrent qu’aucune transformation n’est nécessaire, les résidus partiels étant 

répartis le long de la droite ajustée. 

Mallows (1986) propose d’utiliser les résidus partiels augmentés qui dans certaines situations permettent 

de mieux dégager cette tendance. Les résidus partiels augmentés pour la j ème variable 

nécessitent un nouveau modèle GLM identique mis à part le fait qu’une variable explicative supplémentaire 

est ajouté : Xp+1 = X 2 j la j ème variable élevée au carré. Le nouveau vecteur de 

coefficient β du modèle est estimé et les résidus partiels sont alors définis comme 

ˆε PA 

.j = Yi − ˆpi 

ˆpi(1 − ˆpi) + ˆ βjX.j + ˆ βp+1X 2 .j. 

L’analyse des diagrammes est identique à ceux des résidus partiels. 

3.2.4 Points leviers et points influents 

Ces notions sont analogues à celles du modèle linéaire. 

Points leviers 

Par définition les points leviers sont les points du design qui déterminent très fortement le modèle. 

Nous avons vu que l’algorithme d’estimation à chaque étape fait une régression linéaire et s’arrête 

à l’étape finale où le processus est stationnaire : 



ˆβ = (X ′ W ∗ X) −1 X ′ W ∗ z, 

34 



et la prédiction linéaire est alors 

Résidus studentisés par VC 

−2 −1 0 1 2 

−5 0 5 10 

prévision linéaire 

Fig. 3.7 – Graphique prédiction/résidus pour un modèle logistique 

X ˆ β = X(X ′ W ∗ X) −1 X ′ W ∗ z = Hz, 

où H est une matrice de projection selon la métrique W ∗ . Comme nous transformons X ˆ β par 

une fonction monotone, des X ˆ β extrêmes entraînent des valeurs de ˆy extrêmes. Nous allons donc 

utiliser la même méthode de diagnostic que celle de la régression simple avec une nouvelle matrice 

de projection H. Pour la i ème prédiction linéaire nous avons 

[X ˆ β]i = Hiizi + 

j=i 

Hijzj. 

Si Hii est grand relativement aux Hij, j = i alors la i ème observation contribue fortement à la 

construction de [X ˆ β]i. On dira que le “poids” de l’observation i sur sa propre estimation vaut hii. 

Comme H est un projecteur nous savons que 0 ≤ Hij ≤ 1. Nous avons alors les cas extrêmes 

suivants : 

– si hii = 1, ˆpi est entièrement déterminé par Yi car hij = 0 pour tout j. 

– si hii = 0, Yi n’a pas d’influence sur ˆpi. 

Comme la trace d’un projecteur est égale à la dimension du sous espace dans lequel on projette, 

on a donc tr(H) = 

i Hii = p. Donc en moyenne Hii vaut p/n. Pour dire que la valeur de Hii 

contribue trop fortement à la construction de ˆ Yi, alors il faut un seuil au delà duquel le point est 

un point levier. Par habitude, si Hii > 2p/n ou si Hii > 3p/n alors le ième point est déclaré comme 

un point levier. 

En pratique un tracé de Hii est effectué et l’on cherche les points leviers dont le Hii est supérieur à 

3p/n ou 2p/n ou alors qui semblent très différents des autres. Ces points sont leviers et leur valeur 

influe fortement sur leur propre prévision. 

p


−5 0 5 10 15 20 

26 

−0.5 0.0 0.5 

Fig. 3.8 – Résidus partiels pour la variable log.acid., le trait continu représente le résumé lissé des 

données par l’estimateur loess, le trait discontinu représente l’estimateur linéaire par moindre carré. 

n


est définie par 

Di = 1 

p (ˆ β(i) − ˆ β) ′ X ′ W ∗ X( ˆ β(i) − ˆ β) ≈ r2 Pi Hii 

p(1 − Hii) 2, 

où rPi est le résidu de Pearson pour le i ème individu. 

Un tracé des distances de Cook est effectué et si la distance de Cook est grande pour un individu 

et de plus très différente des autres, alors ce(s) point(s) est un point influent. Il convient alors de 

comprendre pourquoi il est influent, soit 

– il est levier ; 

– il est abberant ; 

– (les deux !) 

Dans tous les cas il convient de comprendre si une erreur de mesure, une différence dans la population 

des individus est à l’origine de ce phénomène. Eventuellement pour obtenir des conclusions 

robustes il sera bon de refaire l’analyse sans ce(s) point(s). 

Distance de Cook 

0.0 0.2 0.4 0.6 0.8 

0 10 20 30 40 50 

Index 

Fig. 3.10 – Distances de Cook 



34

Modèle logistique et scoring - Université Rennes 2

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?