23.12.2013 Views

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

1.2. Segmentation par modèle logistique (Logit)<br />

A partir <strong>de</strong> (1.12) <strong>et</strong> (1.13), nous obtenons l’intervalle <strong>de</strong> confiance <strong>de</strong> la probabilité <strong>de</strong> rachat<br />

ˆp i = Ni s/n i du i e groupe homogène en utilisant celui <strong>de</strong> la distribution gaussienne. Le <strong>nombre</strong><br />

total <strong>de</strong> rachats N s du portefeuille est la somme <strong>de</strong>s rachats <strong>de</strong> chaque sous-groupe homogène :<br />

N s = ∑ i N i s. Or la loi Normale est stable par somme, donc N s est toujours normalement<br />

distribué. Nous avons donc finalement une bonne approximation <strong>de</strong> la probabilité <strong>de</strong> rachat<br />

du portefeuille ˆp = N s /n par<br />

ˆp = 1 ∑ ( 1 ∑<br />

Ni s ∼ N n i p j , 1 ∑<br />

)<br />

n<br />

n n 2 n i p j (1 − p j ) ,<br />

i<br />

qui conduit logiquement à l’intervalle <strong>de</strong> confiance (au niveau 5%)<br />

i<br />

[A − 1.96 B , A + 1.96 B] (1.14)<br />

∑<br />

i<br />

où A =<br />

n √∑<br />

i p j<br />

i<br />

, B =<br />

n i p j (1 − p j )<br />

n<br />

n 2 , i est l’indice <strong>de</strong>s sous-groupes homogènes, <strong>et</strong> p j est<br />

la probabilité <strong>de</strong> rachat correspondante estimée.<br />

Pour <strong>de</strong>s soucis <strong>de</strong> concision, nous ne présentons pas ici les tests statistiques conduisant à la<br />

validation du modèle. Le test du ratio <strong>de</strong> vraisemblance (pour la validation du modèle) <strong>et</strong> <strong>de</strong><br />

Wald (pour la pertinence <strong>de</strong>s covariables) sont détaillés en annexe B.2.5.<br />

1.2.3 Interprétations <strong>de</strong>s résultats<br />

Les valeurs estimées <strong>de</strong>s coefficients <strong>de</strong> régression nous renseignent sur l’impact <strong>de</strong> chaque<br />

facteur <strong>de</strong> risque. L’ordonnée à l’origine β 0 correspond à la valeur <strong>de</strong> z pour le profil <strong>de</strong> risque<br />

<strong>de</strong> référence : c’est la moyenne <strong>de</strong> la réponse lorsque les covariables du prédicteur valent les<br />

modalités <strong>de</strong> référence pour les variables catégorielles, <strong>et</strong> sont nulles pour les variables continues<br />

(à condition d’avoir centré ces covariables continues en amont, sinon lorsqu’elles valent leur<br />

moyenne). Les coefficients β k (k = 1,2,...,p) décrivent la contribution <strong>de</strong> chaque risque : un<br />

β k positif signifie que si le facteur <strong>de</strong> risque augmente alors la probabilité <strong>de</strong> rachat augmente<br />

(corrélation positive), alors que s’il est négatif l’évolution se fait en sens inverse. Si la valeur<br />

absolue <strong>de</strong> β k /σ(β k ) (où σ(β k ) est l’écart-type <strong>de</strong> l’estimation du coefficient) est gran<strong>de</strong>, alors<br />

le facteur <strong>de</strong> risque k a une forte influence sur la probabilité <strong>de</strong> rachat, <strong>et</strong> inversement. Ces<br />

coefficients sont à comparer au profil <strong>de</strong> risque <strong>de</strong> référence, pour lequel β = 0 (sauf pour β 0 ).<br />

Les praticiens aiment bien utiliser le rapport <strong>de</strong> côte (OR pour “odd-ratio”), car il exprime<br />

le rapport entre les chances <strong>de</strong> rach<strong>et</strong>er ou non (p/(1-p)). Prenons un exemple d’illustration :<br />

la probabilité <strong>de</strong> rachat P (Y =1|X) vaut p = 0, 7. L’OR vaut donc p/q=0.7/0.3=2.33, ce qui<br />

veut dire qu’avec les mêmes caractéristiques X, le rachat a 2,33 fois plus <strong>de</strong> chance <strong>de</strong> se<br />

produire que le non-rachat. C<strong>et</strong>te idée se généralise lorsque les professionnels veulent évaluer<br />

la différence en termes <strong>de</strong> probabilité <strong>de</strong> rachat avec un changement <strong>de</strong>s caractéristiques entre<br />

<strong>de</strong>ux individus. Prenons comme exemple l’âge : grâce à l’équation (1.11), nous savons que<br />

p/q = e β 0+β 1 X age<br />

est l’OR pour un assuré donné. Lors <strong>de</strong> la comparaison <strong>de</strong> <strong>de</strong>ux individus<br />

ne différant que par leur âge (40 <strong>et</strong> 30 ans), tous les termes disparaissent excepté l’âge, ce qui<br />

donne un OR entre les <strong>de</strong>ux individus <strong>de</strong><br />

P (Y = 1|X age = 40)<br />

P (Y = 0|X age = 40) / P (Y = 1|X age = 30)<br />

P (Y = 0|X age = 30) = e40β 1<br />

e 30β 1 = e10β 1<br />

Nous constatons que la variation <strong>de</strong>s valeurs <strong>de</strong> variables explicatives entraîne un eff<strong>et</strong><br />

multiplicatif du risque, par <strong>de</strong>s constantes liées aux coefficients <strong>de</strong> régression. Ces OR sont un<br />

outil opérationnel très utile (car simple) pour la définition <strong>de</strong> classe <strong>de</strong> risque.<br />

i<br />

31

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!