23.12.2013 Views

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Chapitre 4. Sélection <strong>de</strong> mélange <strong>de</strong> <strong>GLMs</strong><br />

Epaisseur limite <strong>de</strong>s queues <strong>de</strong> distribution<br />

Nous avions fait remarquer lors <strong>de</strong> la discussion sur l’hypothèse (H1-A) que la queue <strong>de</strong><br />

distribution <strong>de</strong> f 0 ne doit pas s’avérer trop épaisse. En eff<strong>et</strong>, l’intégrale paramétrique en ψ G<br />

donnée par l’espérance (sous f 0 ) <strong>de</strong> la log-vraisemblance classifiante conditionnelle doit être<br />

continue. Le théorème <strong>de</strong> convergence dominée perm<strong>et</strong> <strong>de</strong> garantir une telle continuité sous<br />

certaines conditions, en l’occurrence que la fonction sous l’intégrale soit bornée par une fonction<br />

indépendante <strong>de</strong> ψ G qui soit elle-même intégrable. En <strong>de</strong>s termes plus mathématiques, nous<br />

voulons étudier E f 0 [ln L cc (ψ G , y)] donnée par ∫ Y ln L cc(ψ G , y)f 0 (y)dy.<br />

L’objectif est donc <strong>de</strong> borner la fonction g(ψ G , y) = ln L cc (ψ G , y)f 0 (y) par une fonction h<br />

telle que h = h(y) <strong>et</strong> h intégrable dans Y. Pour visualiser intuitivement ce résultat, nous<br />

considérons le supremum en ψ G <strong>de</strong> la fonction ln L cc (qui ne dépend donc plus <strong>de</strong> ψ G ). Ce<br />

supremum se comporte pour les gran<strong>de</strong>s valeurs <strong>de</strong> y comme la vraisemblance ln L cc tant<br />

que ψ G est compact. De plus, le terme d’entropie dans la vraisemblance L cc ne pose aucun<br />

problème d’intégration dans le passage à l’espérance car nous avons toujours (grâce à la limite<br />

lim<br />

x→0 x ln x = 0) : ∀y ∈ R d , 0 ≤ Ent(ψ G ; y) ≤ ln G.<br />

Nous allons donc considérer la vraisemblance <strong>de</strong>s données observées dans ce raisonnement, sans<br />

se soucier du comportement du terme entropique. A l’ai<strong>de</strong> <strong>de</strong> ces <strong>de</strong>ux remarques il <strong>de</strong>vient<br />

bien plus simple <strong>de</strong> trouver la fonction h, bien que les calculs soient longs <strong>et</strong> fastidieux. Nous<br />

en donnons pour ainsi dire directement certains résultats, qui n’ont pas vocation à fournir la<br />

fonction h la moins contraignante possible mais plutôt à donner une idée <strong>de</strong> la forme <strong>de</strong> la<br />

queue <strong>de</strong> distribution limite.<br />

( En pratique avec <strong>de</strong>s mélanges <strong>de</strong> régressions linéaires, il suffit par exemple que f 0 (y) =<br />

o 1<br />

), ce qui est largement raisonnable en réalité si l’on pense à la <strong>de</strong>nsité gaussienne comme<br />

y 3<br />

loi qui sous-tend les données observées. Clairement c<strong>et</strong>te loi a un comportement asymptotique<br />

qui tend plus vite vers 0 en l’infini puisqu’il est en exponentielle. Pour le cas <strong>de</strong>s régressions<br />

<strong>de</strong> Poisson, le terme en factorielle pose problème : en eff<strong>et</strong> la factorielle ( l’emporte ) sur l’exponentielle<br />

en l’infini, ce qui suggère <strong>de</strong> prendre f 0 <strong>de</strong> la forme f 0 (y) = o 1<br />

y!<br />

. C<strong>et</strong>te <strong>de</strong>nsité est<br />

en revanche beaucoup moins anodine <strong>et</strong> ne reflète en général pas la réalité, car la décroissance<br />

<strong>de</strong> la queue <strong>de</strong> la <strong>de</strong>nsité se fait ici à une vitesse supérieure à une décroissance exponentielle !<br />

Il en est <strong>de</strong> même lorsqu’on nous étudions les mélanges <strong>de</strong> régressions logistiques, à cause<br />

du coefficient binomial qui comporte également un terme en factorielle (y!). A contrario, les<br />

mélanges <strong>de</strong> régression Gamma, ainsi que les mélanges d’inverses gaussiennes, ne semblent<br />

pas poser <strong>de</strong> souci quant à la queue <strong>de</strong> la <strong>de</strong>nsité inconnue f 0 . Respectivement, nous <strong>de</strong>vrions<br />

adm<strong>et</strong>tre que f 0 (y) = o( 1 y ), <strong>et</strong> que f 0 (y) = o( 1 ). Ces considérations sont tout à fait plausibles<br />

y 2<br />

au regard <strong>de</strong>s <strong>de</strong>nsités usuelles d’observations que nous manipulons.<br />

Convergence du ML cc E <strong>et</strong> consistance <strong>de</strong> ICL c , mélange <strong>de</strong> <strong>GLMs</strong><br />

Nous sommes maintenant en mesure d’expliciter le théorème <strong>de</strong> convergence <strong>de</strong> l’estimateur<br />

par maximum <strong>de</strong> vraisemblance classifiante conditionnelle (qui est un M-estimateur) dans le<br />

cadre <strong>de</strong>s mélanges <strong>de</strong> <strong>GLMs</strong>. Ces hypothèses reposent effectivement sur <strong>de</strong>s propriétés <strong>de</strong><br />

la fonction <strong>de</strong> vraisemblance classifiante conditionnelle <strong>et</strong> <strong>de</strong> sa dérivée, qui sont directement<br />

vérifiables par calcul. Le nouveau théorème en question est le suivant :<br />

158

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!