Modèle logistique et scoring - Université Rennes 2
Modèle logistique et scoring - Université Rennes 2
Modèle logistique et scoring - Université Rennes 2
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
1.3 Le modèle linéaire généralisé : GLM 15<br />
y<br />
−4 −2 0 2 4<br />
−4 −2 0 2 4<br />
x<br />
Fig. 1.6 – Frontières théoriques pour une LDA basée sur des données X ∼ N(µj, Σ), où µ1 = (2, 2) ′ ,<br />
µ2 = (−2, 2) ′ , µ3 = (0, −2) ′ , les variables X étant corrélées. Les ellipses correspondent à la région de<br />
probabilité 1/2.<br />
1.3 Le modèle linéaire généralisé : GLM<br />
1.3.1 La régression <strong>logistique</strong><br />
Nous sommes en présence de n observations (x1,y1),...,(xn,yn) d’un couple de variables aléatoires<br />
(X,Y ). Pour la i ème observation (xi,yi), yi est un label qui dénote l’appartenance à un groupe<br />
j ∈ {1,...,g} <strong>et</strong> xi ∈ R p est un ensemble de variables explicatives de l’appartenance à un groupe<br />
(variable notée Y ). Nous souhaitons prédire le label y0 d’une nouvelle observation pour laquelle<br />
nous avons seulement mesuré les variables explicatives x.<br />
Pour simplifier les notations, nous nous placerons dans un contexte de classification binaire, c’est à<br />
dire que nous supposerons qu’il existe seulement deux groupes. Par conséquent la variable aléatoire<br />
Y peut prendre seulement deux valeurs que l’on notera 0 <strong>et</strong> 1. Nous verrons plus tard dans ce cours<br />
comment étendre les techniques à des modèles multiclasses (plus de deux groupes).<br />
L’analyse discriminante propose de calculer les probabilités<br />
P(Y = 0|X = x) <strong>et</strong> P(Y = 1|X = x),<br />
en modélisant la loi de X|Y = j avec j = 0, 1. Le calcul s’effectue à l’aide du Théorème de Bayes.<br />
Ici nous allons modéliser directement P(Y = j|X = x), ce qui semble la démarche la plus naturelle.<br />
Plus précisément, nous allons modéliser non pas P(Y = j|X = x) mais le rapport<br />
P(Y = 1|X = x)<br />
P(Y = 0|X = x)<br />
= P(Y = 1|X = x)<br />
1 − P(Y = 1|X = x) .<br />
Ce rapport est toujours positif <strong>et</strong> il est compris entre 0 <strong>et</strong> +∞. En passant au log nous obtenons<br />
une mesure qui sera dans R <strong>et</strong> que nous pouvons relier aux variables explicatives X via une fonction<br />
f qui sera choisie dans la classe la plus simple, à savoir les fonctions linéaires :<br />
log<br />
P(Y = 1|X = x)<br />
P(Y = 0|X = x) = f(x) = x′ β.<br />
Régression <strong>logistique</strong> <strong>et</strong> <strong>scoring</strong> Pierre-André Cornillon<br />
Laurent Rouvière