Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
1.3. Illustration : <strong>application</strong> sur <strong>de</strong>s contrats mixtes<br />
Figure 1.2 – L’arbre final <strong>de</strong> classification. Variable réponse binaire : rachat. La première<br />
règle <strong>de</strong> division contract.type = bd signifie que le type <strong>de</strong> contrat est la variable la plus<br />
discriminante (bd correspond aux 2 e <strong>et</strong> 4 e modalités, comme dans l’ordre alphabétique). Les<br />
variables continues ont été catégorisées pour la modélisation.<br />
contract.type=bd<br />
|<br />
No<br />
2608/2<br />
duration.range=i<br />
duration.range=ghi<br />
duration.range=c<strong>de</strong>f<br />
fa.range=ac<br />
No<br />
3008/682<br />
premium.frequency=<strong>de</strong><br />
Surr<br />
3/58<br />
No<br />
419/265<br />
Surr<br />
203/286<br />
duration.range=f<br />
fa.range=ac<br />
un<strong>de</strong>rwritingAge.range=a<strong>de</strong><br />
Surr<br />
935/2427<br />
savingPrem.range=ab<br />
Surr<br />
149/231<br />
No<br />
122/78<br />
Surr<br />
23/43<br />
Surr<br />
1/326<br />
Surr<br />
198/4801<br />
l’âge <strong>de</strong> souscription. Nous remarquons que le sexe <strong>et</strong> la prime <strong>de</strong> risque n’apparaissent pas<br />
dans c<strong>et</strong> arbre final, parce que leurs eff<strong>et</strong>s ne semblent pas être significatifs. La première règle<br />
<strong>de</strong> division est “L’assuré possè<strong>de</strong> t’il l’option <strong>de</strong> participation au bénéfice ?”. Si la réponse est<br />
négative alors <strong>de</strong>scendre dans la branche <strong>de</strong> gauche, sinon <strong>de</strong>scendre dans la branche <strong>de</strong> droite.<br />
Les classes prédites (rachat ou non-rachat) sont écrites sur les feuilles, les proportions qui y<br />
apparaissent sont le <strong>nombre</strong> d’assurés n’ayant pas rach<strong>et</strong>é versus ceux qui ont rach<strong>et</strong>é leur<br />
contrat. Plus la différence entre ces <strong>de</strong>ux <strong>nombre</strong>s est gran<strong>de</strong>, meilleure est la segmentation.<br />
Ici, un assuré dont le contrat ne contient pas l’option <strong>de</strong> participation au bénéfice a 99,92%<br />
(2608/2610) <strong>de</strong> ne pas rach<strong>et</strong>er, quel que soit le format <strong>de</strong> sa prime (PP sin PB <strong>et</strong> PU sin<br />
PB, voir légen<strong>de</strong> du tableau 1.4). La classe attribuée est donc “No”, équivalente à l’absence <strong>de</strong><br />
rachat. Considérons un assuré dont les caractéristiques sont une prime périodique, un contrat<br />
avec clause <strong>de</strong> participation au bénéfice. Son ancienn<strong>et</strong>é appartient aujourd’hui à la septième<br />
modalité <strong>de</strong> la variable catégorisée, <strong>et</strong> sa richesse se situe dans la <strong>de</strong>uxième classe. Selon l’arbre<br />
construit, c<strong>et</strong> assuré aurait 95% (58/61) <strong>de</strong> chance <strong>de</strong> rach<strong>et</strong>er, <strong>et</strong> serait donc considéré comme<br />
potentiellement très risqué.<br />
Il est évi<strong>de</strong>nt que le facteur <strong>de</strong> risque le plus discriminant lorsque nous regardons la figure<br />
1.2 est l’option <strong>de</strong> participation au bénéfice. Le taux <strong>de</strong> mauvaise classification (erreur<br />
d’apprentissage) <strong>de</strong> c<strong>et</strong> arbre est <strong>de</strong> 15% (33.1% × 45.4%, où 45.4% est l’erreur <strong>de</strong> la racine<br />
quand aucune division n’est réalisée) d’après le tableau B.1 <strong>de</strong>s erreurs relatives, disponible en<br />
annexe B.1.2. L’erreur <strong>de</strong> prévision <strong>de</strong> 14.97% peut être estimée via la matrice <strong>de</strong> confusion du<br />
tableau 1.2, elle est relativement satisfaisante puisqu’elle reste proche <strong>de</strong> l’erreur <strong>de</strong> prévision<br />
<strong>de</strong> l’arbre maximal T max . Le compromis est ici très intéressant : l’élagage d’un arbre <strong>de</strong> 175<br />
feuilles à un arbre <strong>de</strong> 11 feuilles augmente l’erreur <strong>de</strong> prévision <strong>de</strong> moins <strong>de</strong> 1% !<br />
Afin <strong>de</strong> consoli<strong>de</strong>r ces résultats, nous utilisons les bagging predictors dont l’implémentation est<br />
35