23.12.2013 Views

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

1.3. Illustration : <strong>application</strong> sur <strong>de</strong>s contrats mixtes<br />

Figure 1.2 – L’arbre final <strong>de</strong> classification. Variable réponse binaire : rachat. La première<br />

règle <strong>de</strong> division contract.type = bd signifie que le type <strong>de</strong> contrat est la variable la plus<br />

discriminante (bd correspond aux 2 e <strong>et</strong> 4 e modalités, comme dans l’ordre alphabétique). Les<br />

variables continues ont été catégorisées pour la modélisation.<br />

contract.type=bd<br />

|<br />

No<br />

2608/2<br />

duration.range=i<br />

duration.range=ghi<br />

duration.range=c<strong>de</strong>f<br />

fa.range=ac<br />

No<br />

3008/682<br />

premium.frequency=<strong>de</strong><br />

Surr<br />

3/58<br />

No<br />

419/265<br />

Surr<br />

203/286<br />

duration.range=f<br />

fa.range=ac<br />

un<strong>de</strong>rwritingAge.range=a<strong>de</strong><br />

Surr<br />

935/2427<br />

savingPrem.range=ab<br />

Surr<br />

149/231<br />

No<br />

122/78<br />

Surr<br />

23/43<br />

Surr<br />

1/326<br />

Surr<br />

198/4801<br />

l’âge <strong>de</strong> souscription. Nous remarquons que le sexe <strong>et</strong> la prime <strong>de</strong> risque n’apparaissent pas<br />

dans c<strong>et</strong> arbre final, parce que leurs eff<strong>et</strong>s ne semblent pas être significatifs. La première règle<br />

<strong>de</strong> division est “L’assuré possè<strong>de</strong> t’il l’option <strong>de</strong> participation au bénéfice ?”. Si la réponse est<br />

négative alors <strong>de</strong>scendre dans la branche <strong>de</strong> gauche, sinon <strong>de</strong>scendre dans la branche <strong>de</strong> droite.<br />

Les classes prédites (rachat ou non-rachat) sont écrites sur les feuilles, les proportions qui y<br />

apparaissent sont le <strong>nombre</strong> d’assurés n’ayant pas rach<strong>et</strong>é versus ceux qui ont rach<strong>et</strong>é leur<br />

contrat. Plus la différence entre ces <strong>de</strong>ux <strong>nombre</strong>s est gran<strong>de</strong>, meilleure est la segmentation.<br />

Ici, un assuré dont le contrat ne contient pas l’option <strong>de</strong> participation au bénéfice a 99,92%<br />

(2608/2610) <strong>de</strong> ne pas rach<strong>et</strong>er, quel que soit le format <strong>de</strong> sa prime (PP sin PB <strong>et</strong> PU sin<br />

PB, voir légen<strong>de</strong> du tableau 1.4). La classe attribuée est donc “No”, équivalente à l’absence <strong>de</strong><br />

rachat. Considérons un assuré dont les caractéristiques sont une prime périodique, un contrat<br />

avec clause <strong>de</strong> participation au bénéfice. Son ancienn<strong>et</strong>é appartient aujourd’hui à la septième<br />

modalité <strong>de</strong> la variable catégorisée, <strong>et</strong> sa richesse se situe dans la <strong>de</strong>uxième classe. Selon l’arbre<br />

construit, c<strong>et</strong> assuré aurait 95% (58/61) <strong>de</strong> chance <strong>de</strong> rach<strong>et</strong>er, <strong>et</strong> serait donc considéré comme<br />

potentiellement très risqué.<br />

Il est évi<strong>de</strong>nt que le facteur <strong>de</strong> risque le plus discriminant lorsque nous regardons la figure<br />

1.2 est l’option <strong>de</strong> participation au bénéfice. Le taux <strong>de</strong> mauvaise classification (erreur<br />

d’apprentissage) <strong>de</strong> c<strong>et</strong> arbre est <strong>de</strong> 15% (33.1% × 45.4%, où 45.4% est l’erreur <strong>de</strong> la racine<br />

quand aucune division n’est réalisée) d’après le tableau B.1 <strong>de</strong>s erreurs relatives, disponible en<br />

annexe B.1.2. L’erreur <strong>de</strong> prévision <strong>de</strong> 14.97% peut être estimée via la matrice <strong>de</strong> confusion du<br />

tableau 1.2, elle est relativement satisfaisante puisqu’elle reste proche <strong>de</strong> l’erreur <strong>de</strong> prévision<br />

<strong>de</strong> l’arbre maximal T max . Le compromis est ici très intéressant : l’élagage d’un arbre <strong>de</strong> 175<br />

feuilles à un arbre <strong>de</strong> 11 feuilles augmente l’erreur <strong>de</strong> prévision <strong>de</strong> moins <strong>de</strong> 1% !<br />

Afin <strong>de</strong> consoli<strong>de</strong>r ces résultats, nous utilisons les bagging predictors dont l’implémentation est<br />

35

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!