23.12.2013 Views

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Chapitre 4<br />

Sélection <strong>de</strong> mélange <strong>de</strong> <strong>GLMs</strong><br />

Ce chapitre correspond aux <strong>de</strong>rniers développements <strong>et</strong> aspire à une future<br />

publication dans une revue <strong>de</strong> statistiques appliquées.<br />

Nous avons vu dans le chapitre précé<strong>de</strong>nt un moyen <strong>de</strong> modéliser précisément les comportements<br />

<strong>de</strong> rachat. Il découle <strong>de</strong> c<strong>et</strong>te modélisation <strong>de</strong>s questions légitimes quant à l’interprétation<br />

<strong>de</strong>s résultats finaux. En eff<strong>et</strong>, une problématique classique en modélisation comportementale<br />

est <strong>de</strong> pouvoir remonter au groupe d’appartenance <strong>de</strong> chaque individu à partir <strong>de</strong><br />

la partition finale établie. Ce n’est pas tant l’affectation d’une observation à un groupe qui<br />

pose problème, mais plutôt l’interprétation qui s’ensuit : en quoi tel groupe diffère-t-il <strong>de</strong> son<br />

voisin, qu’est-ce qui le caractérise ? L’affectation <strong>de</strong> l’individu j à un groupe est réalisée par<br />

la règle <strong>de</strong> Bayes ou du maximum-a-posteriori (MAP), donnée en reprenant les notations <strong>de</strong>s<br />

chapitres 1 <strong>et</strong> 3 par :<br />

ẑj<br />

MAP ( ˆψ MLE ) = arg max τ i (y j ; ˆψ MLE ).<br />

i=1,...,G<br />

Ainsi, l’individu j est logiquement affecté au groupe dont il maximise la probabilité a posteriori<br />

d’appartenance, calculée à partir <strong>de</strong> l’estimateur du maximum <strong>de</strong> vraisemblance. Dans<br />

notre cas, les groupes (classes) formés sont représentés par les <strong>composantes</strong> <strong>de</strong>s mélanges <strong>de</strong><br />

régressions logistiques. Autrement dit, nous effectuons une classification non supervisée <strong>de</strong><br />

nos assurés à partir <strong>de</strong> notre modèle : <strong>de</strong>rrière c<strong>et</strong>te technique couramment appelée “mo<strong>de</strong>lbased<br />

clustering” se cache l’idée que chaque assuré est issu d’une classe, <strong>et</strong> que l’estimation<br />

du mélange perm<strong>et</strong> <strong>de</strong> remonter à ces différentes classes que nous n’observons pas. Lorsque<br />

nous regardons les valeurs numériques associées à l’estimation <strong>de</strong> chaque composante <strong>de</strong> ces<br />

mélanges, il arrive fréquemment que :<br />

i) certaines <strong>composantes</strong> se ressemblent fortement,<br />

ii) la variance <strong>de</strong>s coefficients estimés soit gran<strong>de</strong>.<br />

La ressemblance implique que les assurés ayant été classés dans <strong>de</strong>s <strong>composantes</strong> presque similaires<br />

aient <strong>de</strong>s réactions quasi-i<strong>de</strong>ntiques. Nous pouvons dès lors nous poser la question <strong>de</strong> la<br />

pertinence <strong>de</strong> la modélisation trouvée : est-ce bien la “meilleure” représentation <strong>de</strong> la réalité ?<br />

Avoir moins <strong>de</strong> groupes nous perm<strong>et</strong>trait-il d’améliorer la robustesse <strong>de</strong> nos estimations ?<br />

Nous verrons par la suite que “meilleure” doit s’interpréter selon un certain critère <strong>de</strong> choix,<br />

lequel doit perm<strong>et</strong>tre <strong>de</strong> répondre au mieux à la problématique originelle. En l’occurrence nos<br />

problématiques sont d’être capable <strong>de</strong> bien approcher la loi <strong>de</strong>s données observées (afin d’effectuer<br />

<strong>de</strong>s prévisions robustes) <strong>et</strong> <strong>de</strong> correctement segmenter notre portefeuille d’assurance. Nous<br />

supposons dans toute la suite que les données correspon<strong>de</strong>nt à l’échantillonnage indépendant<br />

103

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!