Modèle logistique et scoring - Université Rennes 2

More documents

Recommendations

Info

14 Introduction y −4 −2 0 2 4 −4 −2 0 2 x Fig. 1.5 – Frontières théoriques pour une LDA basée sur des données N(µj,I2), où µ1 = (2, 2) ′ , µ2 = (−2, 2) ′ et µ3 = (0, −2) ′ . Les cercles correspondent à la région de probabilité 1/2. Pour terminer rappelons que si X ∈ R 2 suit une loi normale centrée réduite N(0, 1) alors X 2 ∼ χ 2 (2). Nous pouvons donc tracer des cercles de rayons q(1 − α, 2) (le quantile 1 −α d’une loi du χ 2 (2)) qui délimitent une région dont l’extérieur possède une probabilité α. Si nous changions d’exemple, avec des données N(µj, Σ), la frontière entre les groupes 1 et 2 passerait toujours par G12 mais comme le produit scalaire serait par rapport à Σ −1 , l’angle serait différent. De plus les régions de probabilité seraient alors des ellipses. Exemple (LDA dans R2 pour 3 groupes (avec covariance)) Plaçons nous dans le cas de l’exemple précédent. Nous avons g = 3 groupes mais ici il existe une corrélation entre les 2 variables explicatives, Σ = Σ1 = Σ2 = Σ3 = 1 0.7 0.7 1 . Les observations suivent toutes des lois normales N(µj, Σ), où µj est la moyenne du groupe. Les moyennes sont toujours choisies égales à µ1 = (2, 2) ′ , µ2 = (−2, 2) ′ et µ3 = (0, −2) ′ respectivement. Le même calcul que précédemment sur la frontière entre les groupes 1 et 2 aboutit à < −−−→ G12M, −−−→ G2G1 > Σ −1 = 0, En faisant de même pour les 2 autres frontières nous pouvons obtenir les frontières théoriques de la méthode LDA. La frontière entre les groupes 1 et 2 passe toujours par G12 mais la droite représentant la frontière est calculée par rapport au produit scalaire induit par Σ −1 (l’angle est différent). Les régions de probabilité sont alors des ellipses. En général nous n’avons pas les valeurs de µj et Σ et on les remplace par leur estimateurs, donnant des frontière empiriques légèrement différentes. Pierre-André Cornillon Laurent Rouvière Régression logistique et scoring
1.3 Le modèle linéaire généralisé : GLM 15 y −4 −2 0 2 4 −4 −2 0 2 4 x Fig. 1.6 – Frontières théoriques pour une LDA basée sur des données X ∼ N(µj, Σ), où µ1 = (2, 2) ′ , µ2 = (−2, 2) ′ , µ3 = (0, −2) ′ , les variables X étant corrélées. Les ellipses correspondent à la région de probabilité 1/2. 1.3 Le modèle linéaire généralisé : GLM 1.3.1 La régression logistique Nous sommes en présence de n observations (x1,y1),...,(xn,yn) d’un couple de variables aléatoires (X,Y ). Pour la i ème observation (xi,yi), yi est un label qui dénote l’appartenance à un groupe j ∈ {1,...,g} et xi ∈ R p est un ensemble de variables explicatives de l’appartenance à un groupe (variable notée Y ). Nous souhaitons prédire le label y0 d’une nouvelle observation pour laquelle nous avons seulement mesuré les variables explicatives x. Pour simplifier les notations, nous nous placerons dans un contexte de classification binaire, c’est à dire que nous supposerons qu’il existe seulement deux groupes. Par conséquent la variable aléatoire Y peut prendre seulement deux valeurs que l’on notera 0 et 1. Nous verrons plus tard dans ce cours comment étendre les techniques à des modèles multiclasses (plus de deux groupes). L’analyse discriminante propose de calculer les probabilités P(Y = 0|X = x) et P(Y = 1|X = x), en modélisant la loi de X|Y = j avec j = 0, 1. Le calcul s’effectue à l’aide du Théorème de Bayes. Ici nous allons modéliser directement P(Y = j|X = x), ce qui semble la démarche la plus naturelle. Plus précisément, nous allons modéliser non pas P(Y = j|X = x) mais le rapport P(Y = 1|X = x) P(Y = 0|X = x) = P(Y = 1|X = x) 1 − P(Y = 1|X = x) . Ce rapport est toujours positif et il est compris entre 0 et +∞. En passant au log nous obtenons une mesure qui sera dans R et que nous pouvons relier aux variables explicatives X via une fonction f qui sera choisie dans la classe la plus simple, à savoir les fonctions linéaires : log P(Y = 1|X = x) P(Y = 0|X = x) = f(x) = x′ β. Régression logistique et scoring Pierre-André Cornillon Laurent Rouvière
Page 1: Année Universitaire 2007-2008 UFR
Page 4 and 5: 4 Table des matières Pierre-André
Page 6 and 7: 6 Introduction Il est bien entendu
Page 8 and 9: 8 Introduction pour la seconde esp
Page 10 and 11: 10 Introduction Cela donne, en remp
Page 12 and 13: 12 Introduction Définition 1.1 Soi
Page 16 and 17: 16 Introduction Ce type de modélis
Page 18 and 19: 18 Introduction −3 −2 −1 0 1
Page 20 and 21: 20 Analyse discriminante logistique
Page 33 and 34: Chapitre 3 Sélection et validation
Page 35 and 36: 3.1 Sélection ou choix de modèle
Page 43 and 44: 3.2 Validation du modèle 43 - H1 l
Page 45 and 46: 3.2 Validation du modèle 45 où hi
Page 47 and 48: 3.2 Validation du modèle 47 et la
Page 49: 3.2 Validation du modèle 49 est d

Modèle logistique et scoring - Université Rennes 2

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?