Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Chapitre 4. Sélection <strong>de</strong> mélange <strong>de</strong> <strong>GLMs</strong><br />
Epaisseur limite <strong>de</strong>s queues <strong>de</strong> distribution<br />
Nous avions fait remarquer lors <strong>de</strong> la discussion sur l’hypothèse (H1-A) que la queue <strong>de</strong><br />
distribution <strong>de</strong> f 0 ne doit pas s’avérer trop épaisse. En eff<strong>et</strong>, l’intégrale paramétrique en ψ G<br />
donnée par l’espérance (sous f 0 ) <strong>de</strong> la log-vraisemblance classifiante conditionnelle doit être<br />
continue. Le théorème <strong>de</strong> convergence dominée perm<strong>et</strong> <strong>de</strong> garantir une telle continuité sous<br />
certaines conditions, en l’occurrence que la fonction sous l’intégrale soit bornée par une fonction<br />
indépendante <strong>de</strong> ψ G qui soit elle-même intégrable. En <strong>de</strong>s termes plus mathématiques, nous<br />
voulons étudier E f 0 [ln L cc (ψ G , y)] donnée par ∫ Y ln L cc(ψ G , y)f 0 (y)dy.<br />
L’objectif est donc <strong>de</strong> borner la fonction g(ψ G , y) = ln L cc (ψ G , y)f 0 (y) par une fonction h<br />
telle que h = h(y) <strong>et</strong> h intégrable dans Y. Pour visualiser intuitivement ce résultat, nous<br />
considérons le supremum en ψ G <strong>de</strong> la fonction ln L cc (qui ne dépend donc plus <strong>de</strong> ψ G ). Ce<br />
supremum se comporte pour les gran<strong>de</strong>s valeurs <strong>de</strong> y comme la vraisemblance ln L cc tant<br />
que ψ G est compact. De plus, le terme d’entropie dans la vraisemblance L cc ne pose aucun<br />
problème d’intégration dans le passage à l’espérance car nous avons toujours (grâce à la limite<br />
lim<br />
x→0 x ln x = 0) : ∀y ∈ R d , 0 ≤ Ent(ψ G ; y) ≤ ln G.<br />
Nous allons donc considérer la vraisemblance <strong>de</strong>s données observées dans ce raisonnement, sans<br />
se soucier du comportement du terme entropique. A l’ai<strong>de</strong> <strong>de</strong> ces <strong>de</strong>ux remarques il <strong>de</strong>vient<br />
bien plus simple <strong>de</strong> trouver la fonction h, bien que les calculs soient longs <strong>et</strong> fastidieux. Nous<br />
en donnons pour ainsi dire directement certains résultats, qui n’ont pas vocation à fournir la<br />
fonction h la moins contraignante possible mais plutôt à donner une idée <strong>de</strong> la forme <strong>de</strong> la<br />
queue <strong>de</strong> distribution limite.<br />
( En pratique avec <strong>de</strong>s mélanges <strong>de</strong> régressions linéaires, il suffit par exemple que f 0 (y) =<br />
o 1<br />
), ce qui est largement raisonnable en réalité si l’on pense à la <strong>de</strong>nsité gaussienne comme<br />
y 3<br />
loi qui sous-tend les données observées. Clairement c<strong>et</strong>te loi a un comportement asymptotique<br />
qui tend plus vite vers 0 en l’infini puisqu’il est en exponentielle. Pour le cas <strong>de</strong>s régressions<br />
<strong>de</strong> Poisson, le terme en factorielle pose problème : en eff<strong>et</strong> la factorielle ( l’emporte ) sur l’exponentielle<br />
en l’infini, ce qui suggère <strong>de</strong> prendre f 0 <strong>de</strong> la forme f 0 (y) = o 1<br />
y!<br />
. C<strong>et</strong>te <strong>de</strong>nsité est<br />
en revanche beaucoup moins anodine <strong>et</strong> ne reflète en général pas la réalité, car la décroissance<br />
<strong>de</strong> la queue <strong>de</strong> la <strong>de</strong>nsité se fait ici à une vitesse supérieure à une décroissance exponentielle !<br />
Il en est <strong>de</strong> même lorsqu’on nous étudions les mélanges <strong>de</strong> régressions logistiques, à cause<br />
du coefficient binomial qui comporte également un terme en factorielle (y!). A contrario, les<br />
mélanges <strong>de</strong> régression Gamma, ainsi que les mélanges d’inverses gaussiennes, ne semblent<br />
pas poser <strong>de</strong> souci quant à la queue <strong>de</strong> la <strong>de</strong>nsité inconnue f 0 . Respectivement, nous <strong>de</strong>vrions<br />
adm<strong>et</strong>tre que f 0 (y) = o( 1 y ), <strong>et</strong> que f 0 (y) = o( 1 ). Ces considérations sont tout à fait plausibles<br />
y 2<br />
au regard <strong>de</strong>s <strong>de</strong>nsités usuelles d’observations que nous manipulons.<br />
Convergence du ML cc E <strong>et</strong> consistance <strong>de</strong> ICL c , mélange <strong>de</strong> <strong>GLMs</strong><br />
Nous sommes maintenant en mesure d’expliciter le théorème <strong>de</strong> convergence <strong>de</strong> l’estimateur<br />
par maximum <strong>de</strong> vraisemblance classifiante conditionnelle (qui est un M-estimateur) dans le<br />
cadre <strong>de</strong>s mélanges <strong>de</strong> <strong>GLMs</strong>. Ces hypothèses reposent effectivement sur <strong>de</strong>s propriétés <strong>de</strong><br />
la fonction <strong>de</strong> vraisemblance classifiante conditionnelle <strong>et</strong> <strong>de</strong> sa dérivée, qui sont directement<br />
vérifiables par calcul. Le nouveau théorème en question est le suivant :<br />
158