29.07.2013 Views

Modèle logistique et scoring - Université Rennes 2

Modèle logistique et scoring - Université Rennes 2

Modèle logistique et scoring - Université Rennes 2

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

1.3 Le modèle linéaire généralisé : GLM 15<br />

y<br />

−4 −2 0 2 4<br />

−4 −2 0 2 4<br />

x<br />

Fig. 1.6 – Frontières théoriques pour une LDA basée sur des données X ∼ N(µj, Σ), où µ1 = (2, 2) ′ ,<br />

µ2 = (−2, 2) ′ , µ3 = (0, −2) ′ , les variables X étant corrélées. Les ellipses correspondent à la région de<br />

probabilité 1/2.<br />

1.3 Le modèle linéaire généralisé : GLM<br />

1.3.1 La régression <strong>logistique</strong><br />

Nous sommes en présence de n observations (x1,y1),...,(xn,yn) d’un couple de variables aléatoires<br />

(X,Y ). Pour la i ème observation (xi,yi), yi est un label qui dénote l’appartenance à un groupe<br />

j ∈ {1,...,g} <strong>et</strong> xi ∈ R p est un ensemble de variables explicatives de l’appartenance à un groupe<br />

(variable notée Y ). Nous souhaitons prédire le label y0 d’une nouvelle observation pour laquelle<br />

nous avons seulement mesuré les variables explicatives x.<br />

Pour simplifier les notations, nous nous placerons dans un contexte de classification binaire, c’est à<br />

dire que nous supposerons qu’il existe seulement deux groupes. Par conséquent la variable aléatoire<br />

Y peut prendre seulement deux valeurs que l’on notera 0 <strong>et</strong> 1. Nous verrons plus tard dans ce cours<br />

comment étendre les techniques à des modèles multiclasses (plus de deux groupes).<br />

L’analyse discriminante propose de calculer les probabilités<br />

P(Y = 0|X = x) <strong>et</strong> P(Y = 1|X = x),<br />

en modélisant la loi de X|Y = j avec j = 0, 1. Le calcul s’effectue à l’aide du Théorème de Bayes.<br />

Ici nous allons modéliser directement P(Y = j|X = x), ce qui semble la démarche la plus naturelle.<br />

Plus précisément, nous allons modéliser non pas P(Y = j|X = x) mais le rapport<br />

P(Y = 1|X = x)<br />

P(Y = 0|X = x)<br />

= P(Y = 1|X = x)<br />

1 − P(Y = 1|X = x) .<br />

Ce rapport est toujours positif <strong>et</strong> il est compris entre 0 <strong>et</strong> +∞. En passant au log nous obtenons<br />

une mesure qui sera dans R <strong>et</strong> que nous pouvons relier aux variables explicatives X via une fonction<br />

f qui sera choisie dans la classe la plus simple, à savoir les fonctions linéaires :<br />

log<br />

P(Y = 1|X = x)<br />

P(Y = 0|X = x) = f(x) = x′ β.<br />

Régression <strong>logistique</strong> <strong>et</strong> <strong>scoring</strong> Pierre-André Cornillon<br />

Laurent Rouvière

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!