Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
C.2. Famille <strong>de</strong> produits Ahorro<br />
C.2.3<br />
Sélection <strong>de</strong>s variables : résultats par CART<br />
Taux d’erreur <strong>de</strong> classification <strong>de</strong> l’arbre Au vu <strong>de</strong> la matrice <strong>de</strong> confusion sur l’échantillon<br />
<strong>de</strong> validation, le taux d’erreur <strong>de</strong> classification <strong>de</strong> l’arbre s’élève à 6,77 %. Ce bon résultat<br />
est à prendre avec précaution car la spécificité est assez mauvaise (34 %), bien que la sensibilité<br />
soit excellente (99,6 %). Nous nous servons <strong>de</strong> ce classifieur relativement précis pour en<br />
extraire les variables discriminantes dans le paragraphe suivant.<br />
Rachats non-observés<br />
Rachat observés<br />
Rachats non-prédits 1731 3363<br />
Rachats prédits 196 47281<br />
Importance <strong>de</strong>s variables explicatives Les variables qui apparaissent comme les plus<br />
discriminantes dans la figure C.5 sont l’ancienn<strong>et</strong>é <strong>de</strong> contrat, suivie <strong>de</strong> la richesse <strong>de</strong> l’assuré,<br />
<strong>de</strong> l’option <strong>de</strong> participation aux bénéfices (PB), <strong>de</strong> la prime d’épargne (corrélée à la richesse,<br />
donc nous ne considérerons qu’une <strong>de</strong>s <strong>de</strong>ux variables dans la modélisation), <strong>de</strong> l’ancienn<strong>et</strong>é<br />
<strong>de</strong> contrat catégorisée (celle que nous considérerons par la suite pour mieux refléter le profil<br />
spécifique <strong>de</strong>s rachats vu au graphe C.2) <strong>et</strong> ainsi <strong>de</strong> suite. Ce classement nous sert <strong>de</strong> base<br />
dans le choix <strong>de</strong>s inputs aux futures modélisations, sachant qu’il confirme quasiment tout le<br />
temps les statistiques <strong>de</strong>scriptives du taux <strong>de</strong> rachat en fonction <strong>de</strong> ces variables explicatives<br />
(nous nous abstenons donc dans le mémoire d’exposer l’ensemble <strong>de</strong>s statistiques <strong>de</strong>scriptives<br />
<strong>de</strong>s rachats en fonction <strong>de</strong> chaque variable, ce qui serait long <strong>et</strong> fastidieux). La relation entre le<br />
taux <strong>de</strong> rachat <strong>et</strong> les variables explicatives continues n’étant que très rarement monotone, nous<br />
considérons très souvent dans la suite le classement par importance <strong>de</strong>s variables catégorisées.<br />
Les trois principales que nous r<strong>et</strong>enons ici sont donc l’option <strong>de</strong> PB, l’ancienn<strong>et</strong>é <strong>de</strong> contrat <strong>et</strong><br />
la fréquence <strong>de</strong> la prime. La saisonnalité n’apparait pas car elle ne fait pas partie <strong>de</strong>s variables<br />
Variable importance for Ahorro (All) on<br />
3 months basis<br />
General and by class error rate of Ahorro (All) in<br />
3 months basis<br />
duration<br />
●<br />
face.amount<br />
PB.guarantee<br />
saving.premium<br />
duration.range<br />
risk.premium<br />
un<strong>de</strong>rwriting.age<br />
lapse.age<br />
premium.frequency<br />
riskPrem.range<br />
fa.range<br />
savingPrem.range<br />
un<strong>de</strong>rwritingAge.range<br />
gen<strong>de</strong>r<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
Error<br />
0.005 0.010 0.020 0.050 0.100 0.200 0.500<br />
0 200 400 600 800 1000<br />
MeanDecreaseGini<br />
0 10 20 30 40<br />
trees<br />
Figure C.5 – Importance <strong>de</strong>s variables explicatives, produit Ahorro.<br />
203