23.12.2013 Views

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Chapitre 4. Sélection <strong>de</strong> mélange <strong>de</strong> <strong>GLMs</strong><br />

correspondant au modèle paramétrique sous-jacent à Y. Nous y associons ψ 0 son paramètre<br />

théorique. Lorsque le modèle est correctement spécifié (la <strong>de</strong>nsité théorique appartient à la<br />

famille paramétrique étudiée), f 0 (y) = f(y; ψ 0 ). Dans le cas contraire, on dira que f(y; ψ 0 )<br />

est le quasi-vrai modèle.<br />

Convergence <strong>de</strong> l’estimateur MLE<br />

A la suite <strong>de</strong>s travaux <strong>de</strong> Doob (1934) <strong>et</strong> Cramér (1946), Wald (1949) étudie la convergence<br />

<strong>de</strong> l’estimateur du maximum <strong>de</strong> vraisemblance pour <strong>de</strong>s distributions <strong>de</strong> probabilité dépendant<br />

d’un unique paramètre. Il formule huit hypothèses (en fait 7 car la <strong>de</strong>rnière est une implication<br />

d’une <strong>de</strong>s sept premières) qui perm<strong>et</strong>tent d’aboutir aux propriétés <strong>de</strong> convergence <strong>de</strong> c<strong>et</strong> estimateur<br />

vers le paramètre théorique <strong>de</strong> la distribution <strong>de</strong>s données. Néanmoins l’ensemble <strong>de</strong><br />

ses résultats reposent sur l’hypothèse que le modèle a été correctement spécifié. C’est le point<br />

<strong>de</strong> départ d’une pério<strong>de</strong> <strong>de</strong> recherche intense dans ce domaine, qui aboutit notamment aux<br />

travaux <strong>de</strong> Redner (1981) <strong>et</strong> Nishii (1988) dans le contexte <strong>de</strong>s mélanges. Le premier cité étend<br />

les résultats <strong>de</strong> Wald (1949) au cas où la distribution théorique <strong>de</strong>s données est représentée<br />

par plus d’un paramètre, incluant ainsi les distributions qui souffrent du problème d’i<strong>de</strong>ntifiabilité.<br />

Il prend l’exemple <strong>de</strong>s modèles mélange <strong>et</strong> démontre la convergence <strong>de</strong> l’estimateur<br />

du maximum <strong>de</strong> vraisemblance lorsque l’espace <strong>de</strong>s paramètres est supposé compact, ce qui<br />

perm<strong>et</strong> <strong>de</strong> garantir l’existence d’un tel estimateur. Redner suppose à quelques différences près<br />

les mêmes hypothèses que Wald (1949) (sans les hypothèses 1 <strong>et</strong> 8 mais en en introduisant<br />

une nouvelle).<br />

Nishii (1988) se concentre sur le fait que le modèle théorique est inconnu <strong>de</strong> l’observateur, ce<br />

qui augmente considérablement les chances <strong>de</strong> mauvaise spécification du modèle. Dans un tel<br />

cadre, a-t-on toujours les mêmes propriétés ? Il montre la convergence forte <strong>de</strong> l’estimateur<br />

du maximum <strong>de</strong> vraisemblance vers le paramètre théorique en montrant que maximiser la<br />

vraisemblance revient à minimiser la distance KL entre la quasi-vraie distribution <strong>et</strong> la famille<br />

paramétrique considérée (voir son exemple p. 393-394). Nishii (1988) suppose pour cela que<br />

l’espace <strong>de</strong>s paramètres est convexe <strong>et</strong> adopte une approche différente <strong>de</strong> Wald (1949). Dans<br />

sa preuve, il formule essentiellement <strong>de</strong>s hypothèses sur la dérivabilité <strong>et</strong> l’intégrabilité <strong>de</strong> la<br />

fonction <strong>de</strong> vraisemblance, ce qui lui perm<strong>et</strong> <strong>de</strong> prouver c<strong>et</strong>te convergence par un développement<br />

<strong>de</strong> Taylor. Nous verrons qu’un parallèle évi<strong>de</strong>nt pourra être fait entre les hypothèses que<br />

nous formulerons pour nos résultats <strong>et</strong> celles <strong>de</strong> Nishii (1988) (section 2).<br />

4.1.3 Critères <strong>de</strong> sélection pénalisés<br />

Rappelons que Y = (Y 1 , Y 2 , ..., Y n ) est un échantillon <strong>de</strong> n variables aléatoires continues<br />

indépendantes, <strong>de</strong> <strong>de</strong>nsité inconnue f 0 . Nous désirons estimer f 0 , <strong>et</strong> disposons d’un ensemble<br />

fini <strong>de</strong> m modèles au choix {M 1 , M 2 , ..., M m }. L’objectif d’un critère <strong>de</strong> sélection est donc <strong>de</strong><br />

trouver le meilleur modèle parmi c<strong>et</strong> ensemble. Nous nous plaçons dans un cadre paramétrique<br />

(comme c’est le cas tout au long <strong>de</strong> la thèse) où chaque modèle M g (g ∈ 1, m) <strong>de</strong> dimension<br />

K g (<strong>nombre</strong> <strong>de</strong> paramètres libres) correspond à une <strong>de</strong>nsité f Mg , avec pour paramètre ψ g . Soit<br />

Ψ g l’espace <strong>de</strong> dimension K g , où ψ g ∈ Ψ g .<br />

Un critère <strong>de</strong> vraisemblance pénalisée empêche la sélection d’un modèle sur la seule valeur<br />

<strong>de</strong> la vraisemblance obtenue. En eff<strong>et</strong>, celle-ci s’accroît logiquement lorsque le modèle<br />

se complexifie, notamment lorsque les modèles considérés sont emboîtés (un mélange à <strong>de</strong>ux<br />

<strong>composantes</strong> est “emboîté” dans un mélange à trois <strong>composantes</strong>, une régression à p covariables<br />

106

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!