Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
4.3. Extension aux mélanges <strong>de</strong> <strong>GLMs</strong><br />
Quel que soit g <strong>et</strong> n, soit<br />
ˆψ<br />
MLccE<br />
g<br />
=<br />
ˆψ<br />
MLccE<br />
g (Y 1 , ..., Y n ) ∈ Ψ g un estimateur tel que<br />
Sélectionnons ĝ tel que<br />
ln L cc (<br />
MLccE ˆψ g ; Y ) ≥ ln L cc (ψg; b Y ) − o P (n);<br />
Alors<br />
MLccE<br />
ĝ = arg min{− ln L cc ( ˆψ g ; y) + pen(K g )},<br />
1≤g≤m<br />
P(ĝ ≠ g b ) −→<br />
n→∞<br />
0.<br />
Démonstration. Elle reprend les mêmes ingrédients que la preuve du théorème 7, tout en<br />
insérant les preuves <strong>de</strong>s lemmes <strong>et</strong> corollaires que nous venons <strong>de</strong> voir pour satisfaire les<br />
hypothèses (H1-C) à (H4-C). Il n’y a donc pas <strong>de</strong> difficulté particulière.<br />
4.3 Extension aux mélanges <strong>de</strong> <strong>GLMs</strong><br />
Quelques auteurs s’intéressent actuellement aux mélanges <strong>de</strong> modèles linéaires généralisés ;<br />
notamment Grun and Leisch (2004), Grun and Leisch (2007), Grun and Leisch (2008) <strong>et</strong><br />
Leisch (2008). Ils développent en parallèle une librairie R dont nous nous servirons dans<br />
les <strong>application</strong>s, nommée “flexmix”, <strong>et</strong> étudient aussi bien les problèmes d’i<strong>de</strong>ntifiabilité que<br />
ceux d’estimation <strong>de</strong>s paramètres. Par exemple, Leisch (2008) montre dans une partie <strong>de</strong><br />
ses travaux à quel point certains points aberrants dans les observations peuvent affecter la<br />
distribution du mélange final. L’élément qui ressort <strong>de</strong> notre étu<strong>de</strong> bibliographique est qu’il<br />
n’existe aucun développement théorique sur les propriétés d’un critère <strong>de</strong> sélection pour modèle<br />
mélange <strong>de</strong> <strong>GLMs</strong> satisfaisant <strong>de</strong>s objectifs <strong>de</strong> classification. Nous proposons ici <strong>de</strong> démontrer<br />
la convergence du critère ICL c dans le cadre <strong>de</strong> la sélection <strong>de</strong> mélange <strong>de</strong> <strong>GLMs</strong>. C<strong>et</strong>te<br />
convergence sera établie au prix <strong>de</strong> certaines hypothèses inhérentes à c<strong>et</strong>te classe <strong>de</strong> modèles.<br />
4.3.1 Les <strong>GLMs</strong> : présentation <strong>et</strong> concepts<br />
Nous avons déjà utilisé la régression logistique dans les chapitres précé<strong>de</strong>nts, sans pour<br />
autant l’introduire dans un contexte plus général que sont les modèles linéaires généralisés.<br />
Il nous apparaît indispensable <strong>de</strong> présenter <strong>de</strong> manière formalisée c<strong>et</strong>te extension naturelle,<br />
puisque nous allons par la suite démontrer <strong>de</strong>s résultats sur c<strong>et</strong>te famille <strong>de</strong> modèles. Les<br />
<strong>GLMs</strong> incluent non seulement la régression linéaire, mais aussi les modèles d’analyse <strong>de</strong> variance<br />
(ou modèles factoriels), les modèles logit <strong>et</strong> probit pour <strong>de</strong>s variables réponses sous<br />
forme <strong>de</strong> taux, les modèles log-linéaires pour les données <strong>de</strong> comptage ou encore les modèles<br />
à réponse multinomiale.<br />
En pratique les mesures que nous utilisons comme variable réponse contiennent <strong>de</strong>s erreurs<br />
dont la distribution n’est pas forcément gaussienne, ce qui explique en gran<strong>de</strong> partie l’utilité<br />
<strong>de</strong>s <strong>GLMs</strong>. En Actuariat, ces modèles sont très populaires car ils ont permis le développement<br />
<strong>de</strong> techniques sophistiquées <strong>de</strong> tarification, perm<strong>et</strong>tant aux assureurs d’effectuer une segmentation<br />
<strong>de</strong>s risques <strong>de</strong> leur portefeuille (Ohlson and Johansson (2010)). La suite <strong>de</strong> l’introduction<br />
à ces modèles est fortement inspirée du livre <strong>de</strong> référence en la matière, McCullagh and Nel<strong>de</strong>r<br />
(1989), ainsi que <strong>de</strong> la présentation synthétique proposée dans Dutang (2011). C<strong>et</strong>te partie<br />
n’a pas vocation à être exhaustive, mais doit donner au lecteur les éléments suffisants pour sa<br />
compréhension <strong>de</strong>s paragraphes traitant <strong>de</strong> la sélection <strong>de</strong> mélange <strong>de</strong> <strong>GLMs</strong>.<br />
147