23.12.2013 Views

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

1.2. Segmentation par modèle logistique (Logit)<br />

robustesse <strong>et</strong> significativité ont été validées dans diverses étu<strong>de</strong>s ((Breiman (1996), Breiman<br />

(1994) <strong>et</strong> Breiman (1998)). Elles ont amené au développement <strong>de</strong>s “forêts aléatoires” (Breiman<br />

(2001)), un algorithme que nous utiliserons dans nos <strong>application</strong>s. Pour plus <strong>de</strong> détails,<br />

consulter la page web <strong>de</strong> Breiman <strong>et</strong> la documentation <strong>de</strong> la librairie randomForest 3 du<br />

logiciel R, <strong>de</strong> même que Breiman <strong>et</strong> al. (1984).<br />

1.2 Segmentation par modèle logistique (Logit)<br />

La régression logistique (Hosmer and Lemeshow (2000), Balakrishnan (1991)) appartient<br />

à la classe <strong>de</strong>s modèles linéaires généralisés (McCullagh and Nel<strong>de</strong>r (1989)). Elle perm<strong>et</strong> <strong>de</strong><br />

modéliser la probabilité d’occurence d’un événement binaire à partir <strong>de</strong> covariables catégorielles<br />

ou continues, en ajustant une courbe logistique aux données. Ce modèle <strong>de</strong> choix est<br />

utilisé dans le cadre <strong>de</strong>s régressions binomiales, principalement dans le domaine médical <strong>et</strong><br />

dans le mon<strong>de</strong> du mark<strong>et</strong>ing. Les actuaires l’utilisent également pour modéliser la mortalité<br />

(qui présente une croissance exponentielle en fonction <strong>de</strong> l’âge, non loin <strong>de</strong> la forme logistique<br />

pour <strong>de</strong> p<strong>et</strong>ites probabilités) à partir <strong>de</strong> données empiriques, avec pour but la segmentation<br />

<strong>de</strong> leur portefeuille. Dans notre contexte, l’objectif est <strong>de</strong> segmenter la population par rapport<br />

au risque binaire du rachat. La présentation théorique sera raccourcie étant donnée la popularité<br />

<strong>de</strong> c<strong>et</strong>te modélisation ; quelques exemples d’<strong>application</strong> sont consultables dans Kagraoka<br />

(2005), ainsi que certains modèles similaires dont le modèle Tobit (Cox and Lin (2006)) ou<br />

le modèle <strong>de</strong> Cox (Cox (1972)). Pour <strong>de</strong> plus amples comparaisons <strong>de</strong> ces différents modèles,<br />

l’article d’Austin (2007) est une référence intéressante.<br />

1.2.1 Pourquoi utiliser la régression logistique ?<br />

La fonction logistique est très utile car elle perm<strong>et</strong> d’obtenir une image Φ(z) dans [0,1] à<br />

partir d’un antécé<strong>de</strong>nt z prenant <strong>de</strong>s valeurs sur l’ensemble <strong>de</strong> la droite <strong>de</strong>s réels :<br />

Φ(z) =<br />

1 ez<br />

=<br />

1 + e−z 1 + e z . (1.9)<br />

Notre volonté <strong>de</strong> modéliser une probabilité <strong>de</strong> rachat entre complètement dans ce cadre-là,<br />

sachant <strong>de</strong> plus que la propriété <strong>de</strong> non-décroissance d’une fonction <strong>de</strong> répartition classique<br />

est respectée par la fonction logistique. L’exposition z à un ensemble <strong>de</strong> facteurs <strong>de</strong> risque est<br />

appelé prédicteur linéaire. Il est donné par l’équation <strong>de</strong> régression classique<br />

z = β 0 + β 1 X 1 + ... + β p X p = X T β,<br />

où les X k sont les covariables (explicatives), par exemple l’âge. Ainsi ∀k = 1, ..., p; β k représente<br />

le coefficient <strong>de</strong> régression associé au facteur <strong>de</strong> risque k. Nous noterons les coefficients <strong>de</strong><br />

régression β = (β 0 , ..., β k ) T <strong>et</strong> le vecteur <strong>de</strong>s variables X = (1, X 1 , ..., X p ) T .<br />

Si l’on considère une approche stricte <strong>de</strong> régression, l’idée est <strong>de</strong> transformer la sortie d’une<br />

régression linéaire classique pour obtenir une probabilité en utilisant une fonction <strong>de</strong> lien (ici<br />

le “logit-link”, mais il existe aussi d’autres liens comme le “probit”, <strong>et</strong>c).<br />

3. Disponible à http ://cran.r-project.org/web/packages/randomForest/in<strong>de</strong>x.html<br />

29

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!