Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
1.3. Illustration : <strong>application</strong> sur <strong>de</strong>s contrats mixtes<br />
Figure 1.4 – Importance <strong>de</strong>s variables explicatives en excluant l’eff<strong>et</strong> <strong>de</strong> l’ancienn<strong>et</strong>é. Sur la<br />
gauche les assurés dont l’ancienn<strong>et</strong>é du contrat correspond aux pics observés en Figure 1.1, <strong>et</strong><br />
autres assurés sur la droite.<br />
Variable importance for Mixtos (All) on<br />
month basis<br />
Variable importance for Mixtos (All) on<br />
month basis<br />
contract.type<br />
fa.range<br />
fa.range<br />
contract.type<br />
riskPrem.range<br />
premium.frequency<br />
premium.frequency<br />
savingPrem.range<br />
un<strong>de</strong>rwritingAge.range<br />
un<strong>de</strong>rwritingAge.range<br />
savingPrem.range<br />
riskPrem.range<br />
gen<strong>de</strong>r<br />
gen<strong>de</strong>r<br />
0 500 1000 1500 2000 2500 3000<br />
MeanDecreaseGini<br />
0 50 100 150<br />
MeanDecreaseGini<br />
<strong>de</strong> données : d’un côté les personnes dont le rachat s’est effectué pour <strong>de</strong>s ancienn<strong>et</strong>és <strong>de</strong><br />
contrat correspondantes aux pics observés en figure 1.1, <strong>de</strong> l’autre les assurés restants. Nous<br />
regardons ainsi les rachats provoqués par les contraintes <strong>de</strong> frais à payer, mais aussi ceux qui<br />
ne le sont pas. La figure 1.4 montre que les facteurs discriminants principaux restent les mêmes<br />
quelle que soit la population étudiée (l’ordre diffère légèrement), ce qui signifie que l’eff<strong>et</strong> <strong>de</strong><br />
l’ancienn<strong>et</strong>é n’est pas corrélé à un autre facteur <strong>de</strong> risque <strong>et</strong> n’introduit pas <strong>de</strong> biais dans les<br />
résultats que nous obtenons.<br />
1.3.2 Classification par le modèle logistique (LR)<br />
Le logiciel R <strong>et</strong> sa fonction glm nous perm<strong>et</strong>tent d’implémenter le modèle logistique sur<br />
nos données. Comme détaillé dans la partie théorique, les sorties du modèle sont l’eff<strong>et</strong> <strong>de</strong><br />
chaque covariable (facteur) par les coefficients <strong>de</strong> régression, l’écart-type <strong>de</strong> l’estimation <strong>de</strong><br />
ces coefficients, <strong>et</strong> la déviance du modèle (cf annexes B.2.3, B.2.4 <strong>et</strong> B.2.5).<br />
Lors <strong>de</strong> la résolution du système d’équation amenant à l’estimation <strong>de</strong>s coefficients <strong>de</strong> régression,<br />
les variables catégorielles sont introduites par une suite <strong>de</strong> variables indicatrices (une<br />
par modalité) qui perm<strong>et</strong> <strong>de</strong> définir la matrice <strong>de</strong> “<strong>de</strong>sign” qui sera inversée par la procédure<br />
glm. C<strong>et</strong>te fonction utilise un algorithme itératif pas-à-pas dans le but <strong>de</strong> comparer un modèle<br />
basé sur p ′ <strong>de</strong>s p variables d’origine à n’importe quel sous-modèle (contenant une variable <strong>de</strong><br />
moins), ou même à n’importe quel sur-modèle (avec une variable supplémentaire). La fonction<br />
37