Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
1.2. Segmentation par modèle logistique (Logit)<br />
robustesse <strong>et</strong> significativité ont été validées dans diverses étu<strong>de</strong>s ((Breiman (1996), Breiman<br />
(1994) <strong>et</strong> Breiman (1998)). Elles ont amené au développement <strong>de</strong>s “forêts aléatoires” (Breiman<br />
(2001)), un algorithme que nous utiliserons dans nos <strong>application</strong>s. Pour plus <strong>de</strong> détails,<br />
consulter la page web <strong>de</strong> Breiman <strong>et</strong> la documentation <strong>de</strong> la librairie randomForest 3 du<br />
logiciel R, <strong>de</strong> même que Breiman <strong>et</strong> al. (1984).<br />
1.2 Segmentation par modèle logistique (Logit)<br />
La régression logistique (Hosmer and Lemeshow (2000), Balakrishnan (1991)) appartient<br />
à la classe <strong>de</strong>s modèles linéaires généralisés (McCullagh and Nel<strong>de</strong>r (1989)). Elle perm<strong>et</strong> <strong>de</strong><br />
modéliser la probabilité d’occurence d’un événement binaire à partir <strong>de</strong> covariables catégorielles<br />
ou continues, en ajustant une courbe logistique aux données. Ce modèle <strong>de</strong> choix est<br />
utilisé dans le cadre <strong>de</strong>s régressions binomiales, principalement dans le domaine médical <strong>et</strong><br />
dans le mon<strong>de</strong> du mark<strong>et</strong>ing. Les actuaires l’utilisent également pour modéliser la mortalité<br />
(qui présente une croissance exponentielle en fonction <strong>de</strong> l’âge, non loin <strong>de</strong> la forme logistique<br />
pour <strong>de</strong> p<strong>et</strong>ites probabilités) à partir <strong>de</strong> données empiriques, avec pour but la segmentation<br />
<strong>de</strong> leur portefeuille. Dans notre contexte, l’objectif est <strong>de</strong> segmenter la population par rapport<br />
au risque binaire du rachat. La présentation théorique sera raccourcie étant donnée la popularité<br />
<strong>de</strong> c<strong>et</strong>te modélisation ; quelques exemples d’<strong>application</strong> sont consultables dans Kagraoka<br />
(2005), ainsi que certains modèles similaires dont le modèle Tobit (Cox and Lin (2006)) ou<br />
le modèle <strong>de</strong> Cox (Cox (1972)). Pour <strong>de</strong> plus amples comparaisons <strong>de</strong> ces différents modèles,<br />
l’article d’Austin (2007) est une référence intéressante.<br />
1.2.1 Pourquoi utiliser la régression logistique ?<br />
La fonction logistique est très utile car elle perm<strong>et</strong> d’obtenir une image Φ(z) dans [0,1] à<br />
partir d’un antécé<strong>de</strong>nt z prenant <strong>de</strong>s valeurs sur l’ensemble <strong>de</strong> la droite <strong>de</strong>s réels :<br />
Φ(z) =<br />
1 ez<br />
=<br />
1 + e−z 1 + e z . (1.9)<br />
Notre volonté <strong>de</strong> modéliser une probabilité <strong>de</strong> rachat entre complètement dans ce cadre-là,<br />
sachant <strong>de</strong> plus que la propriété <strong>de</strong> non-décroissance d’une fonction <strong>de</strong> répartition classique<br />
est respectée par la fonction logistique. L’exposition z à un ensemble <strong>de</strong> facteurs <strong>de</strong> risque est<br />
appelé prédicteur linéaire. Il est donné par l’équation <strong>de</strong> régression classique<br />
z = β 0 + β 1 X 1 + ... + β p X p = X T β,<br />
où les X k sont les covariables (explicatives), par exemple l’âge. Ainsi ∀k = 1, ..., p; β k représente<br />
le coefficient <strong>de</strong> régression associé au facteur <strong>de</strong> risque k. Nous noterons les coefficients <strong>de</strong><br />
régression β = (β 0 , ..., β k ) T <strong>et</strong> le vecteur <strong>de</strong>s variables X = (1, X 1 , ..., X p ) T .<br />
Si l’on considère une approche stricte <strong>de</strong> régression, l’idée est <strong>de</strong> transformer la sortie d’une<br />
régression linéaire classique pour obtenir une probabilité en utilisant une fonction <strong>de</strong> lien (ici<br />
le “logit-link”, mais il existe aussi d’autres liens comme le “probit”, <strong>et</strong>c).<br />
3. Disponible à http ://cran.r-project.org/web/packages/randomForest/in<strong>de</strong>x.html<br />
29