23.12.2013 Views

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

3.2.2 Sélection <strong>de</strong>s variables par CART<br />

3.2. Cas pratique d’utilisation <strong>de</strong> mélange <strong>de</strong> Logit<br />

Taux d’erreur <strong>de</strong> classification <strong>de</strong> l’arbre Le classifieur par forêts aléatoires avec en<br />

variables d’entrée l’ensemble <strong>de</strong>s variables à disposition (<strong>et</strong> pas seulement les variables catégorielles)<br />

donne d’excellents résultats. Le taux d’erreur <strong>de</strong> la matrice <strong>de</strong> confusion est <strong>de</strong> 4,6 %,<br />

avec une sensibilité <strong>de</strong> 99,5 % <strong>et</strong> une spécificité <strong>de</strong> 84 %. Ces statistiques nous sécurisent quant<br />

au classement (énoncé dans le paragraphe suivant) du pouvoir discriminant <strong>de</strong>s variables.<br />

Rachats non-observés<br />

Rachat observés<br />

Rachats non-prédits 4599 877<br />

Rachats prédits 85 15485<br />

Importance <strong>de</strong>s variables explicatives Comme énoncé dans la section 1.3.1, nous avons<br />

vérifié que le classement <strong>de</strong> l’importance <strong>de</strong>s variables explicatives soit le même pour les<br />

pério<strong>de</strong>s <strong>de</strong> pics <strong>de</strong> rachat comme pour les pério<strong>de</strong>s creux (ce qui est le cas) lorsque nous<br />

regardons les comportements <strong>de</strong> rachat en fonction <strong>de</strong> l’ancienn<strong>et</strong>é du contrat. Il n’y a donc<br />

pas <strong>de</strong> biais introduit dans les résultats <strong>de</strong> la figure 3.5, qui va nous servir <strong>de</strong> base pour la prise<br />

en compte <strong>de</strong>s bons inputs lors <strong>de</strong> la modélisation. Nous prenons ainsi en priorité les variables<br />

<strong>de</strong> saisonnalité <strong>et</strong> d’ancienn<strong>et</strong>é <strong>de</strong> contrat (catégorisée) déjà validées comme importantes, en y<br />

ajoutant l’option <strong>de</strong> PB <strong>et</strong> la prime <strong>de</strong> risque (catégorisée également car relation non-monotone<br />

encore une fois).<br />

Variable importance for Mixtos (All) on<br />

3 months basis<br />

General and by class error rate of Mixtos (All) in<br />

3 months basis<br />

PB.guarantee<br />

risk.premium<br />

duration<br />

fa.range<br />

face.amount<br />

riskPrem.range<br />

saving.premium<br />

duration.range<br />

premium.frequency<br />

lapse.age<br />

un<strong>de</strong>rwriting.age<br />

savingPrem.range<br />

un<strong>de</strong>rwritingAge.range<br />

gen<strong>de</strong>r<br />

Error<br />

0.005 0.010 0.020 0.050 0.100<br />

0 500 1000 1500 2000<br />

MeanDecreaseGini<br />

0 10 20 30 40<br />

trees<br />

Figure 3.5 – Importance <strong>de</strong>s variables explicatives, produit Mixtes.<br />

81

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!