Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Chapitre 4<br />
Sélection <strong>de</strong> mélange <strong>de</strong> <strong>GLMs</strong><br />
Ce chapitre correspond aux <strong>de</strong>rniers développements <strong>et</strong> aspire à une future<br />
publication dans une revue <strong>de</strong> statistiques appliquées.<br />
Nous avons vu dans le chapitre précé<strong>de</strong>nt un moyen <strong>de</strong> modéliser précisément les comportements<br />
<strong>de</strong> rachat. Il découle <strong>de</strong> c<strong>et</strong>te modélisation <strong>de</strong>s questions légitimes quant à l’interprétation<br />
<strong>de</strong>s résultats finaux. En eff<strong>et</strong>, une problématique classique en modélisation comportementale<br />
est <strong>de</strong> pouvoir remonter au groupe d’appartenance <strong>de</strong> chaque individu à partir <strong>de</strong><br />
la partition finale établie. Ce n’est pas tant l’affectation d’une observation à un groupe qui<br />
pose problème, mais plutôt l’interprétation qui s’ensuit : en quoi tel groupe diffère-t-il <strong>de</strong> son<br />
voisin, qu’est-ce qui le caractérise ? L’affectation <strong>de</strong> l’individu j à un groupe est réalisée par<br />
la règle <strong>de</strong> Bayes ou du maximum-a-posteriori (MAP), donnée en reprenant les notations <strong>de</strong>s<br />
chapitres 1 <strong>et</strong> 3 par :<br />
ẑj<br />
MAP ( ˆψ MLE ) = arg max τ i (y j ; ˆψ MLE ).<br />
i=1,...,G<br />
Ainsi, l’individu j est logiquement affecté au groupe dont il maximise la probabilité a posteriori<br />
d’appartenance, calculée à partir <strong>de</strong> l’estimateur du maximum <strong>de</strong> vraisemblance. Dans<br />
notre cas, les groupes (classes) formés sont représentés par les <strong>composantes</strong> <strong>de</strong>s mélanges <strong>de</strong><br />
régressions logistiques. Autrement dit, nous effectuons une classification non supervisée <strong>de</strong><br />
nos assurés à partir <strong>de</strong> notre modèle : <strong>de</strong>rrière c<strong>et</strong>te technique couramment appelée “mo<strong>de</strong>lbased<br />
clustering” se cache l’idée que chaque assuré est issu d’une classe, <strong>et</strong> que l’estimation<br />
du mélange perm<strong>et</strong> <strong>de</strong> remonter à ces différentes classes que nous n’observons pas. Lorsque<br />
nous regardons les valeurs numériques associées à l’estimation <strong>de</strong> chaque composante <strong>de</strong> ces<br />
mélanges, il arrive fréquemment que :<br />
i) certaines <strong>composantes</strong> se ressemblent fortement,<br />
ii) la variance <strong>de</strong>s coefficients estimés soit gran<strong>de</strong>.<br />
La ressemblance implique que les assurés ayant été classés dans <strong>de</strong>s <strong>composantes</strong> presque similaires<br />
aient <strong>de</strong>s réactions quasi-i<strong>de</strong>ntiques. Nous pouvons dès lors nous poser la question <strong>de</strong> la<br />
pertinence <strong>de</strong> la modélisation trouvée : est-ce bien la “meilleure” représentation <strong>de</strong> la réalité ?<br />
Avoir moins <strong>de</strong> groupes nous perm<strong>et</strong>trait-il d’améliorer la robustesse <strong>de</strong> nos estimations ?<br />
Nous verrons par la suite que “meilleure” doit s’interpréter selon un certain critère <strong>de</strong> choix,<br />
lequel doit perm<strong>et</strong>tre <strong>de</strong> répondre au mieux à la problématique originelle. En l’occurrence nos<br />
problématiques sont d’être capable <strong>de</strong> bien approcher la loi <strong>de</strong>s données observées (afin d’effectuer<br />
<strong>de</strong>s prévisions robustes) <strong>et</strong> <strong>de</strong> correctement segmenter notre portefeuille d’assurance. Nous<br />
supposons dans toute la suite que les données correspon<strong>de</strong>nt à l’échantillonnage indépendant<br />
103