23.12.2013 Views

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Chapitre 4. Sélection <strong>de</strong> mélange <strong>de</strong> <strong>GLMs</strong><br />

d’une loi théorique <strong>de</strong> <strong>de</strong>nsité f 0 (inconnue). Le critère BIC, que nous utilisons au chapitre 3<br />

comme critère <strong>de</strong> sélection <strong>de</strong> modèle, est connu pour ses propriétés <strong>de</strong> convergence vers c<strong>et</strong>te<br />

loi théorique. Cependant seul un <strong>de</strong> nos <strong>de</strong>ux objectifs est visé par ce critère, notre étu<strong>de</strong><br />

suggérant d’autre part une éventuelle surestimation du <strong>nombre</strong> <strong>de</strong> <strong>composantes</strong> <strong>de</strong>s mélanges<br />

dans certains cas (ex. : les <strong>composantes</strong> 2, 4 <strong>et</strong> 5 pour les produits Ahorro, annexe C.2.4).<br />

Dans l’optique où nous voudrions comprendre quels sont les grands types <strong>de</strong> réaction <strong>de</strong>s assurés<br />

face à un changement <strong>de</strong> contexte économique ou une modification contractuelle, nous<br />

<strong>de</strong>vons les classer selon <strong>de</strong>s comportements bien différenciés. L’idée d’utiliser les modèles mélanges<br />

comme outil pour la classification non-supervisée n’est pas nouvelle, <strong>et</strong> certains <strong>de</strong>s<br />

avantages <strong>de</strong> c<strong>et</strong>te métho<strong>de</strong> sont notamment résumés dans Biernacki (2009). Afin <strong>de</strong> tirer<br />

au mieux parti <strong>de</strong> ce type <strong>de</strong> modélisation, il est nécessaire <strong>de</strong> s’attar<strong>de</strong>r sur la question <strong>de</strong><br />

sélection <strong>de</strong> modèle <strong>et</strong> donc indirectement sur le choix du <strong>nombre</strong> <strong>de</strong> <strong>composantes</strong> du mélange.<br />

Après quelques rappels sur les notions essentielles <strong>de</strong> la théorie <strong>de</strong> l’information <strong>et</strong> du<br />

maximum <strong>de</strong> vraisemblance, ce chapitre développe l’étu<strong>de</strong> théorique <strong>et</strong> pratique du critère <strong>de</strong><br />

sélection ICL (Integrated Classification Likelihood) dans le cadre <strong>de</strong>s mélanges <strong>de</strong> modèles<br />

linéaires généralisés (GLM). Ce critère, qui semble avoir été introduit à la fin <strong>de</strong>s années 1990<br />

dans l’article <strong>de</strong> Biernacki and Govaert (1997), se révèle être particulièrement bien adapté à la<br />

classification par modèle mélange. En particulier, nous démontrons les propriétés <strong>de</strong> convergence<br />

du critère ICL pour <strong>de</strong>s mélanges <strong>de</strong> GLM sous certaines conditions. Pour ce faire nous<br />

présentons un nouvel estimateur, le maximum <strong>de</strong> vraisemblance classifiante conditionnelle,<br />

défini pour la première fois dans Baudry <strong>et</strong> al. (2008). La régression logistique faisant partie<br />

<strong>de</strong>s modèles GLM, nos résultats théoriques seront directement applicables dans le contexte <strong>de</strong><br />

notre étu<strong>de</strong> opérationnelle.<br />

4.1 Théorie <strong>de</strong> l’information <strong>et</strong> sélection <strong>de</strong> modèle<br />

La question <strong>de</strong> sélection <strong>de</strong> modèle est un problème classique <strong>de</strong> statistique qui a été largement<br />

étudié par la communauté scientifique. Ce problème vient du fait que l’inférence pour<br />

l’estimation d’un modèle paramètrique nous amène très fréquemment à considérer non pas un<br />

modèle en particulier mais un ensemble <strong>de</strong> modèles. Naturellement, l’étape suivante consiste<br />

à faire un choix parmi ces modèles sur la base d’une argumentation rigoureuse, basée dans<br />

la littérature sur la théorie <strong>de</strong> l’information. Les statisticiens ont principalement développé<br />

<strong>de</strong>s métho<strong>de</strong>s <strong>de</strong> minimisation <strong>de</strong> critère d’information pénalisé : c’est ainsi qu’apparaissent<br />

parmi bien d’autres les plus célèbres AIC (Akaike Information Criterion, Akaike (1973)), C p<br />

<strong>de</strong> Mallows dans le contexte <strong>de</strong> la régression par moindres carrés (Mallows (1974)), <strong>et</strong> BIC<br />

(Bayesian Information Criterion, Schwarz (1978)) dans un contexte bayésien. Ces critères, très<br />

largement diffusés, font toutefois appel à <strong>de</strong>s hypothèses <strong>et</strong> <strong>de</strong>s justifications théoriques bien<br />

souvent omises dans la plupart <strong>de</strong>s <strong>application</strong>s. Nous nous proposons donc <strong>de</strong> reformaliser<br />

leur construction <strong>et</strong> le contexte <strong>de</strong> leur utilisation, basée sur l’estimation par maximum <strong>de</strong><br />

vraisemblance. La compréhension <strong>de</strong>s notions phares qu’ils sous-ten<strong>de</strong>nt sera un élément-clef<br />

<strong>de</strong> la définition <strong>et</strong> <strong>de</strong> l’étu<strong>de</strong> théorique du nouveau critère développé en section 4.2.3.<br />

4.1.1 Distance <strong>de</strong> Kullback-Leibler<br />

Il y a un bon <strong>de</strong>mi siècle, Kullback and Leibler (1951) introduisent la distance <strong>de</strong> Kullback-<br />

Leibler (notée distance KL dans la suite) comme mesure <strong>de</strong> la proximité entre <strong>de</strong>ux distributions<br />

<strong>de</strong> probabilité. Ils s’intéressent à la question <strong>de</strong> discrimination statistique entre <strong>de</strong>ux<br />

104

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!