23.12.2013 Views

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

4.3. Extension aux mélanges <strong>de</strong> <strong>GLMs</strong><br />

Quel que soit g <strong>et</strong> n, soit<br />

ˆψ<br />

MLccE<br />

g<br />

=<br />

ˆψ<br />

MLccE<br />

g (Y 1 , ..., Y n ) ∈ Ψ g un estimateur tel que<br />

Sélectionnons ĝ tel que<br />

ln L cc (<br />

MLccE ˆψ g ; Y ) ≥ ln L cc (ψg; b Y ) − o P (n);<br />

Alors<br />

MLccE<br />

ĝ = arg min{− ln L cc ( ˆψ g ; y) + pen(K g )},<br />

1≤g≤m<br />

P(ĝ ≠ g b ) −→<br />

n→∞<br />

0.<br />

Démonstration. Elle reprend les mêmes ingrédients que la preuve du théorème 7, tout en<br />

insérant les preuves <strong>de</strong>s lemmes <strong>et</strong> corollaires que nous venons <strong>de</strong> voir pour satisfaire les<br />

hypothèses (H1-C) à (H4-C). Il n’y a donc pas <strong>de</strong> difficulté particulière.<br />

4.3 Extension aux mélanges <strong>de</strong> <strong>GLMs</strong><br />

Quelques auteurs s’intéressent actuellement aux mélanges <strong>de</strong> modèles linéaires généralisés ;<br />

notamment Grun and Leisch (2004), Grun and Leisch (2007), Grun and Leisch (2008) <strong>et</strong><br />

Leisch (2008). Ils développent en parallèle une librairie R dont nous nous servirons dans<br />

les <strong>application</strong>s, nommée “flexmix”, <strong>et</strong> étudient aussi bien les problèmes d’i<strong>de</strong>ntifiabilité que<br />

ceux d’estimation <strong>de</strong>s paramètres. Par exemple, Leisch (2008) montre dans une partie <strong>de</strong><br />

ses travaux à quel point certains points aberrants dans les observations peuvent affecter la<br />

distribution du mélange final. L’élément qui ressort <strong>de</strong> notre étu<strong>de</strong> bibliographique est qu’il<br />

n’existe aucun développement théorique sur les propriétés d’un critère <strong>de</strong> sélection pour modèle<br />

mélange <strong>de</strong> <strong>GLMs</strong> satisfaisant <strong>de</strong>s objectifs <strong>de</strong> classification. Nous proposons ici <strong>de</strong> démontrer<br />

la convergence du critère ICL c dans le cadre <strong>de</strong> la sélection <strong>de</strong> mélange <strong>de</strong> <strong>GLMs</strong>. C<strong>et</strong>te<br />

convergence sera établie au prix <strong>de</strong> certaines hypothèses inhérentes à c<strong>et</strong>te classe <strong>de</strong> modèles.<br />

4.3.1 Les <strong>GLMs</strong> : présentation <strong>et</strong> concepts<br />

Nous avons déjà utilisé la régression logistique dans les chapitres précé<strong>de</strong>nts, sans pour<br />

autant l’introduire dans un contexte plus général que sont les modèles linéaires généralisés.<br />

Il nous apparaît indispensable <strong>de</strong> présenter <strong>de</strong> manière formalisée c<strong>et</strong>te extension naturelle,<br />

puisque nous allons par la suite démontrer <strong>de</strong>s résultats sur c<strong>et</strong>te famille <strong>de</strong> modèles. Les<br />

<strong>GLMs</strong> incluent non seulement la régression linéaire, mais aussi les modèles d’analyse <strong>de</strong> variance<br />

(ou modèles factoriels), les modèles logit <strong>et</strong> probit pour <strong>de</strong>s variables réponses sous<br />

forme <strong>de</strong> taux, les modèles log-linéaires pour les données <strong>de</strong> comptage ou encore les modèles<br />

à réponse multinomiale.<br />

En pratique les mesures que nous utilisons comme variable réponse contiennent <strong>de</strong>s erreurs<br />

dont la distribution n’est pas forcément gaussienne, ce qui explique en gran<strong>de</strong> partie l’utilité<br />

<strong>de</strong>s <strong>GLMs</strong>. En Actuariat, ces modèles sont très populaires car ils ont permis le développement<br />

<strong>de</strong> techniques sophistiquées <strong>de</strong> tarification, perm<strong>et</strong>tant aux assureurs d’effectuer une segmentation<br />

<strong>de</strong>s risques <strong>de</strong> leur portefeuille (Ohlson and Johansson (2010)). La suite <strong>de</strong> l’introduction<br />

à ces modèles est fortement inspirée du livre <strong>de</strong> référence en la matière, McCullagh and Nel<strong>de</strong>r<br />

(1989), ainsi que <strong>de</strong> la présentation synthétique proposée dans Dutang (2011). C<strong>et</strong>te partie<br />

n’a pas vocation à être exhaustive, mais doit donner au lecteur les éléments suffisants pour sa<br />

compréhension <strong>de</strong>s paragraphes traitant <strong>de</strong> la sélection <strong>de</strong> mélange <strong>de</strong> <strong>GLMs</strong>.<br />

147

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!