Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Chapitre 4. Sélection <strong>de</strong> mélange <strong>de</strong> <strong>GLMs</strong><br />
correspondant au modèle paramétrique sous-jacent à Y. Nous y associons ψ 0 son paramètre<br />
théorique. Lorsque le modèle est correctement spécifié (la <strong>de</strong>nsité théorique appartient à la<br />
famille paramétrique étudiée), f 0 (y) = f(y; ψ 0 ). Dans le cas contraire, on dira que f(y; ψ 0 )<br />
est le quasi-vrai modèle.<br />
Convergence <strong>de</strong> l’estimateur MLE<br />
A la suite <strong>de</strong>s travaux <strong>de</strong> Doob (1934) <strong>et</strong> Cramér (1946), Wald (1949) étudie la convergence<br />
<strong>de</strong> l’estimateur du maximum <strong>de</strong> vraisemblance pour <strong>de</strong>s distributions <strong>de</strong> probabilité dépendant<br />
d’un unique paramètre. Il formule huit hypothèses (en fait 7 car la <strong>de</strong>rnière est une implication<br />
d’une <strong>de</strong>s sept premières) qui perm<strong>et</strong>tent d’aboutir aux propriétés <strong>de</strong> convergence <strong>de</strong> c<strong>et</strong> estimateur<br />
vers le paramètre théorique <strong>de</strong> la distribution <strong>de</strong>s données. Néanmoins l’ensemble <strong>de</strong><br />
ses résultats reposent sur l’hypothèse que le modèle a été correctement spécifié. C’est le point<br />
<strong>de</strong> départ d’une pério<strong>de</strong> <strong>de</strong> recherche intense dans ce domaine, qui aboutit notamment aux<br />
travaux <strong>de</strong> Redner (1981) <strong>et</strong> Nishii (1988) dans le contexte <strong>de</strong>s mélanges. Le premier cité étend<br />
les résultats <strong>de</strong> Wald (1949) au cas où la distribution théorique <strong>de</strong>s données est représentée<br />
par plus d’un paramètre, incluant ainsi les distributions qui souffrent du problème d’i<strong>de</strong>ntifiabilité.<br />
Il prend l’exemple <strong>de</strong>s modèles mélange <strong>et</strong> démontre la convergence <strong>de</strong> l’estimateur<br />
du maximum <strong>de</strong> vraisemblance lorsque l’espace <strong>de</strong>s paramètres est supposé compact, ce qui<br />
perm<strong>et</strong> <strong>de</strong> garantir l’existence d’un tel estimateur. Redner suppose à quelques différences près<br />
les mêmes hypothèses que Wald (1949) (sans les hypothèses 1 <strong>et</strong> 8 mais en en introduisant<br />
une nouvelle).<br />
Nishii (1988) se concentre sur le fait que le modèle théorique est inconnu <strong>de</strong> l’observateur, ce<br />
qui augmente considérablement les chances <strong>de</strong> mauvaise spécification du modèle. Dans un tel<br />
cadre, a-t-on toujours les mêmes propriétés ? Il montre la convergence forte <strong>de</strong> l’estimateur<br />
du maximum <strong>de</strong> vraisemblance vers le paramètre théorique en montrant que maximiser la<br />
vraisemblance revient à minimiser la distance KL entre la quasi-vraie distribution <strong>et</strong> la famille<br />
paramétrique considérée (voir son exemple p. 393-394). Nishii (1988) suppose pour cela que<br />
l’espace <strong>de</strong>s paramètres est convexe <strong>et</strong> adopte une approche différente <strong>de</strong> Wald (1949). Dans<br />
sa preuve, il formule essentiellement <strong>de</strong>s hypothèses sur la dérivabilité <strong>et</strong> l’intégrabilité <strong>de</strong> la<br />
fonction <strong>de</strong> vraisemblance, ce qui lui perm<strong>et</strong> <strong>de</strong> prouver c<strong>et</strong>te convergence par un développement<br />
<strong>de</strong> Taylor. Nous verrons qu’un parallèle évi<strong>de</strong>nt pourra être fait entre les hypothèses que<br />
nous formulerons pour nos résultats <strong>et</strong> celles <strong>de</strong> Nishii (1988) (section 2).<br />
4.1.3 Critères <strong>de</strong> sélection pénalisés<br />
Rappelons que Y = (Y 1 , Y 2 , ..., Y n ) est un échantillon <strong>de</strong> n variables aléatoires continues<br />
indépendantes, <strong>de</strong> <strong>de</strong>nsité inconnue f 0 . Nous désirons estimer f 0 , <strong>et</strong> disposons d’un ensemble<br />
fini <strong>de</strong> m modèles au choix {M 1 , M 2 , ..., M m }. L’objectif d’un critère <strong>de</strong> sélection est donc <strong>de</strong><br />
trouver le meilleur modèle parmi c<strong>et</strong> ensemble. Nous nous plaçons dans un cadre paramétrique<br />
(comme c’est le cas tout au long <strong>de</strong> la thèse) où chaque modèle M g (g ∈ 1, m) <strong>de</strong> dimension<br />
K g (<strong>nombre</strong> <strong>de</strong> paramètres libres) correspond à une <strong>de</strong>nsité f Mg , avec pour paramètre ψ g . Soit<br />
Ψ g l’espace <strong>de</strong> dimension K g , où ψ g ∈ Ψ g .<br />
Un critère <strong>de</strong> vraisemblance pénalisée empêche la sélection d’un modèle sur la seule valeur<br />
<strong>de</strong> la vraisemblance obtenue. En eff<strong>et</strong>, celle-ci s’accroît logiquement lorsque le modèle<br />
se complexifie, notamment lorsque les modèles considérés sont emboîtés (un mélange à <strong>de</strong>ux<br />
<strong>composantes</strong> est “emboîté” dans un mélange à trois <strong>composantes</strong>, une régression à p covariables<br />
106