Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
3.2.2 Sélection <strong>de</strong>s variables par CART<br />
3.2. Cas pratique d’utilisation <strong>de</strong> mélange <strong>de</strong> Logit<br />
Taux d’erreur <strong>de</strong> classification <strong>de</strong> l’arbre Le classifieur par forêts aléatoires avec en<br />
variables d’entrée l’ensemble <strong>de</strong>s variables à disposition (<strong>et</strong> pas seulement les variables catégorielles)<br />
donne d’excellents résultats. Le taux d’erreur <strong>de</strong> la matrice <strong>de</strong> confusion est <strong>de</strong> 4,6 %,<br />
avec une sensibilité <strong>de</strong> 99,5 % <strong>et</strong> une spécificité <strong>de</strong> 84 %. Ces statistiques nous sécurisent quant<br />
au classement (énoncé dans le paragraphe suivant) du pouvoir discriminant <strong>de</strong>s variables.<br />
Rachats non-observés<br />
Rachat observés<br />
Rachats non-prédits 4599 877<br />
Rachats prédits 85 15485<br />
Importance <strong>de</strong>s variables explicatives Comme énoncé dans la section 1.3.1, nous avons<br />
vérifié que le classement <strong>de</strong> l’importance <strong>de</strong>s variables explicatives soit le même pour les<br />
pério<strong>de</strong>s <strong>de</strong> pics <strong>de</strong> rachat comme pour les pério<strong>de</strong>s creux (ce qui est le cas) lorsque nous<br />
regardons les comportements <strong>de</strong> rachat en fonction <strong>de</strong> l’ancienn<strong>et</strong>é du contrat. Il n’y a donc<br />
pas <strong>de</strong> biais introduit dans les résultats <strong>de</strong> la figure 3.5, qui va nous servir <strong>de</strong> base pour la prise<br />
en compte <strong>de</strong>s bons inputs lors <strong>de</strong> la modélisation. Nous prenons ainsi en priorité les variables<br />
<strong>de</strong> saisonnalité <strong>et</strong> d’ancienn<strong>et</strong>é <strong>de</strong> contrat (catégorisée) déjà validées comme importantes, en y<br />
ajoutant l’option <strong>de</strong> PB <strong>et</strong> la prime <strong>de</strong> risque (catégorisée également car relation non-monotone<br />
encore une fois).<br />
Variable importance for Mixtos (All) on<br />
3 months basis<br />
General and by class error rate of Mixtos (All) in<br />
3 months basis<br />
PB.guarantee<br />
risk.premium<br />
duration<br />
fa.range<br />
face.amount<br />
riskPrem.range<br />
saving.premium<br />
duration.range<br />
premium.frequency<br />
lapse.age<br />
un<strong>de</strong>rwriting.age<br />
savingPrem.range<br />
un<strong>de</strong>rwritingAge.range<br />
gen<strong>de</strong>r<br />
Error<br />
0.005 0.010 0.020 0.050 0.100<br />
0 500 1000 1500 2000<br />
MeanDecreaseGini<br />
0 10 20 30 40<br />
trees<br />
Figure 3.5 – Importance <strong>de</strong>s variables explicatives, produit Mixtes.<br />
81