Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
1.2. Segmentation par modèle logistique (Logit)<br />
A partir <strong>de</strong> (1.12) <strong>et</strong> (1.13), nous obtenons l’intervalle <strong>de</strong> confiance <strong>de</strong> la probabilité <strong>de</strong> rachat<br />
ˆp i = Ni s/n i du i e groupe homogène en utilisant celui <strong>de</strong> la distribution gaussienne. Le <strong>nombre</strong><br />
total <strong>de</strong> rachats N s du portefeuille est la somme <strong>de</strong>s rachats <strong>de</strong> chaque sous-groupe homogène :<br />
N s = ∑ i N i s. Or la loi Normale est stable par somme, donc N s est toujours normalement<br />
distribué. Nous avons donc finalement une bonne approximation <strong>de</strong> la probabilité <strong>de</strong> rachat<br />
du portefeuille ˆp = N s /n par<br />
ˆp = 1 ∑ ( 1 ∑<br />
Ni s ∼ N n i p j , 1 ∑<br />
)<br />
n<br />
n n 2 n i p j (1 − p j ) ,<br />
i<br />
qui conduit logiquement à l’intervalle <strong>de</strong> confiance (au niveau 5%)<br />
i<br />
[A − 1.96 B , A + 1.96 B] (1.14)<br />
∑<br />
i<br />
où A =<br />
n √∑<br />
i p j<br />
i<br />
, B =<br />
n i p j (1 − p j )<br />
n<br />
n 2 , i est l’indice <strong>de</strong>s sous-groupes homogènes, <strong>et</strong> p j est<br />
la probabilité <strong>de</strong> rachat correspondante estimée.<br />
Pour <strong>de</strong>s soucis <strong>de</strong> concision, nous ne présentons pas ici les tests statistiques conduisant à la<br />
validation du modèle. Le test du ratio <strong>de</strong> vraisemblance (pour la validation du modèle) <strong>et</strong> <strong>de</strong><br />
Wald (pour la pertinence <strong>de</strong>s covariables) sont détaillés en annexe B.2.5.<br />
1.2.3 Interprétations <strong>de</strong>s résultats<br />
Les valeurs estimées <strong>de</strong>s coefficients <strong>de</strong> régression nous renseignent sur l’impact <strong>de</strong> chaque<br />
facteur <strong>de</strong> risque. L’ordonnée à l’origine β 0 correspond à la valeur <strong>de</strong> z pour le profil <strong>de</strong> risque<br />
<strong>de</strong> référence : c’est la moyenne <strong>de</strong> la réponse lorsque les covariables du prédicteur valent les<br />
modalités <strong>de</strong> référence pour les variables catégorielles, <strong>et</strong> sont nulles pour les variables continues<br />
(à condition d’avoir centré ces covariables continues en amont, sinon lorsqu’elles valent leur<br />
moyenne). Les coefficients β k (k = 1,2,...,p) décrivent la contribution <strong>de</strong> chaque risque : un<br />
β k positif signifie que si le facteur <strong>de</strong> risque augmente alors la probabilité <strong>de</strong> rachat augmente<br />
(corrélation positive), alors que s’il est négatif l’évolution se fait en sens inverse. Si la valeur<br />
absolue <strong>de</strong> β k /σ(β k ) (où σ(β k ) est l’écart-type <strong>de</strong> l’estimation du coefficient) est gran<strong>de</strong>, alors<br />
le facteur <strong>de</strong> risque k a une forte influence sur la probabilité <strong>de</strong> rachat, <strong>et</strong> inversement. Ces<br />
coefficients sont à comparer au profil <strong>de</strong> risque <strong>de</strong> référence, pour lequel β = 0 (sauf pour β 0 ).<br />
Les praticiens aiment bien utiliser le rapport <strong>de</strong> côte (OR pour “odd-ratio”), car il exprime<br />
le rapport entre les chances <strong>de</strong> rach<strong>et</strong>er ou non (p/(1-p)). Prenons un exemple d’illustration :<br />
la probabilité <strong>de</strong> rachat P (Y =1|X) vaut p = 0, 7. L’OR vaut donc p/q=0.7/0.3=2.33, ce qui<br />
veut dire qu’avec les mêmes caractéristiques X, le rachat a 2,33 fois plus <strong>de</strong> chance <strong>de</strong> se<br />
produire que le non-rachat. C<strong>et</strong>te idée se généralise lorsque les professionnels veulent évaluer<br />
la différence en termes <strong>de</strong> probabilité <strong>de</strong> rachat avec un changement <strong>de</strong>s caractéristiques entre<br />
<strong>de</strong>ux individus. Prenons comme exemple l’âge : grâce à l’équation (1.11), nous savons que<br />
p/q = e β 0+β 1 X age<br />
est l’OR pour un assuré donné. Lors <strong>de</strong> la comparaison <strong>de</strong> <strong>de</strong>ux individus<br />
ne différant que par leur âge (40 <strong>et</strong> 30 ans), tous les termes disparaissent excepté l’âge, ce qui<br />
donne un OR entre les <strong>de</strong>ux individus <strong>de</strong><br />
P (Y = 1|X age = 40)<br />
P (Y = 0|X age = 40) / P (Y = 1|X age = 30)<br />
P (Y = 0|X age = 30) = e40β 1<br />
e 30β 1 = e10β 1<br />
Nous constatons que la variation <strong>de</strong>s valeurs <strong>de</strong> variables explicatives entraîne un eff<strong>et</strong><br />
multiplicatif du risque, par <strong>de</strong>s constantes liées aux coefficients <strong>de</strong> régression. Ces OR sont un<br />
outil opérationnel très utile (car simple) pour la définition <strong>de</strong> classe <strong>de</strong> risque.<br />
i<br />
31