Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
4.1. Théorie <strong>de</strong> l’information <strong>et</strong> sélection <strong>de</strong> modèle<br />
échantillons, <strong>et</strong> la motivation <strong>de</strong> leur travail est <strong>de</strong> définir une “distance” ou “divergence” entre<br />
<strong>de</strong>ux populations statistiques en termes <strong>de</strong> mesure d’information. Pour cela, les auteurs supposent<br />
donnés <strong>de</strong>ux espaces probabilisés (Y, Y, ν i ), i = 1, 2 ; tels qu’il existe une mesure <strong>de</strong><br />
probabilité dominante notée λ. D’après le théorème <strong>de</strong> Radom-Nikodym, il existe <strong>de</strong>s <strong>de</strong>nsités<br />
uniques f i , i = 1, 2, λ-mesurables avec 0 < f i (y) < ∞ [λ], telles que pour i = 1, 2,<br />
∫<br />
ν i (E) = f i (y)dλ(y), ∀E ∈ Y.<br />
E<br />
En notant H i (i = 1, 2) l’hypothèse selon laquelle l’observation y est issue <strong>de</strong> la population<br />
dont la mesure <strong>de</strong> probabilité est ν i , ils définissent “ln f 1(y)<br />
” comme l’information <strong>de</strong> y pour la<br />
f 2 (y)<br />
discrimination entre H 1 <strong>et</strong> H 2 . C’est ainsi qu’est créée la “distance” KL, résumé <strong>de</strong> l’information<br />
moyenne d’une observation pour la discrimination entre H 1 <strong>et</strong> H 2 :<br />
∫<br />
d KL = I(1 : 2) = I 1:2 (Y ) = dν 1 (y) ln f ∫<br />
1(y)<br />
f 2 (y) = f 1 (y) ln f 1(y)<br />
f 2 (y) dλ(y).<br />
Kullback and Leibler (1951) soulignent également le lien entre leur mesure <strong>et</strong> l’information <strong>de</strong><br />
Fisher par l’introduction <strong>de</strong> la “divergence”. En réalité c<strong>et</strong>te mesure <strong>de</strong> Kullback-Leibler n’est<br />
pas une distance (elle ne satisfait pas toutes les propriétés d’une distance), mais elle perm<strong>et</strong><br />
<strong>de</strong> mesurer la différence d’information entre <strong>de</strong>ux populations <strong>et</strong> a d’intéressantes propriétés.<br />
Notamment,<br />
Lemme 1. I(1 : 2) est presque partout définie positive, donc I(1 : 2) ≥ 0 avec égalité si <strong>et</strong><br />
seulement si f 1 (y) = f 2 (y) [λ].<br />
Démonstration. La preuve est consultable dans l’article d’origine, Kullback and Leibler (1951).<br />
Dans les paragraphes à venir, nous montrons l’importance du lien entre la distance KL <strong>et</strong> la<br />
théorie du maximum <strong>de</strong> vraisemblance, qui repose finalement sur c<strong>et</strong>te mesure <strong>de</strong> l’information.<br />
Beaucoup d’autres travaux utilisent également c<strong>et</strong>te théorie, dont le critère <strong>de</strong> sélection <strong>de</strong><br />
modèle AIC que nous détailllons au 4.1.3.<br />
4.1.2 Estimateur du maximum <strong>de</strong> vraisemblance (MLE)<br />
L’estimation par maximum <strong>de</strong> vraisemblance repose sur certaines justifications dont il est<br />
indispensable d’avoir conscience. Ces justifications, souvent écartées par ses très <strong>nombre</strong>ux<br />
utilisateurs, s’imposent pourtant comme la base théorique à <strong>de</strong> nouveaux développements<br />
potentiels. Nous proposons ici <strong>de</strong> revenir sur les conditions qui garantissent dans un cadre<br />
paramétrique la convergence <strong>de</strong> l’estimateur du maximum <strong>de</strong> vraisemblance vers le paramètre<br />
théorique à estimer. Notre objectif est <strong>de</strong> se familiariser avec ces notions, avant <strong>de</strong> présenter<br />
la définition d’un nouvel estimateur qui se révéle plus adapté dans notre contexte, <strong>et</strong> dont les<br />
propriétés <strong>de</strong> convergence sont prouvées dans le champ <strong>de</strong> notre étu<strong>de</strong>.<br />
Notations<br />
Nous notons dans le reste du chapitre f(y; ψ) la <strong>de</strong>nsité <strong>de</strong> la famille paramétrique considérée<br />
pour modéliser les données Y. Notons f 0 (y) la <strong>de</strong>nsité théorique <strong>de</strong> Y, inconnue <strong>et</strong><br />
105