23.12.2013 Views

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

4.1. Théorie <strong>de</strong> l’information <strong>et</strong> sélection <strong>de</strong> modèle<br />

échantillons, <strong>et</strong> la motivation <strong>de</strong> leur travail est <strong>de</strong> définir une “distance” ou “divergence” entre<br />

<strong>de</strong>ux populations statistiques en termes <strong>de</strong> mesure d’information. Pour cela, les auteurs supposent<br />

donnés <strong>de</strong>ux espaces probabilisés (Y, Y, ν i ), i = 1, 2 ; tels qu’il existe une mesure <strong>de</strong><br />

probabilité dominante notée λ. D’après le théorème <strong>de</strong> Radom-Nikodym, il existe <strong>de</strong>s <strong>de</strong>nsités<br />

uniques f i , i = 1, 2, λ-mesurables avec 0 < f i (y) < ∞ [λ], telles que pour i = 1, 2,<br />

∫<br />

ν i (E) = f i (y)dλ(y), ∀E ∈ Y.<br />

E<br />

En notant H i (i = 1, 2) l’hypothèse selon laquelle l’observation y est issue <strong>de</strong> la population<br />

dont la mesure <strong>de</strong> probabilité est ν i , ils définissent “ln f 1(y)<br />

” comme l’information <strong>de</strong> y pour la<br />

f 2 (y)<br />

discrimination entre H 1 <strong>et</strong> H 2 . C’est ainsi qu’est créée la “distance” KL, résumé <strong>de</strong> l’information<br />

moyenne d’une observation pour la discrimination entre H 1 <strong>et</strong> H 2 :<br />

∫<br />

d KL = I(1 : 2) = I 1:2 (Y ) = dν 1 (y) ln f ∫<br />

1(y)<br />

f 2 (y) = f 1 (y) ln f 1(y)<br />

f 2 (y) dλ(y).<br />

Kullback and Leibler (1951) soulignent également le lien entre leur mesure <strong>et</strong> l’information <strong>de</strong><br />

Fisher par l’introduction <strong>de</strong> la “divergence”. En réalité c<strong>et</strong>te mesure <strong>de</strong> Kullback-Leibler n’est<br />

pas une distance (elle ne satisfait pas toutes les propriétés d’une distance), mais elle perm<strong>et</strong><br />

<strong>de</strong> mesurer la différence d’information entre <strong>de</strong>ux populations <strong>et</strong> a d’intéressantes propriétés.<br />

Notamment,<br />

Lemme 1. I(1 : 2) est presque partout définie positive, donc I(1 : 2) ≥ 0 avec égalité si <strong>et</strong><br />

seulement si f 1 (y) = f 2 (y) [λ].<br />

Démonstration. La preuve est consultable dans l’article d’origine, Kullback and Leibler (1951).<br />

Dans les paragraphes à venir, nous montrons l’importance du lien entre la distance KL <strong>et</strong> la<br />

théorie du maximum <strong>de</strong> vraisemblance, qui repose finalement sur c<strong>et</strong>te mesure <strong>de</strong> l’information.<br />

Beaucoup d’autres travaux utilisent également c<strong>et</strong>te théorie, dont le critère <strong>de</strong> sélection <strong>de</strong><br />

modèle AIC que nous détailllons au 4.1.3.<br />

4.1.2 Estimateur du maximum <strong>de</strong> vraisemblance (MLE)<br />

L’estimation par maximum <strong>de</strong> vraisemblance repose sur certaines justifications dont il est<br />

indispensable d’avoir conscience. Ces justifications, souvent écartées par ses très <strong>nombre</strong>ux<br />

utilisateurs, s’imposent pourtant comme la base théorique à <strong>de</strong> nouveaux développements<br />

potentiels. Nous proposons ici <strong>de</strong> revenir sur les conditions qui garantissent dans un cadre<br />

paramétrique la convergence <strong>de</strong> l’estimateur du maximum <strong>de</strong> vraisemblance vers le paramètre<br />

théorique à estimer. Notre objectif est <strong>de</strong> se familiariser avec ces notions, avant <strong>de</strong> présenter<br />

la définition d’un nouvel estimateur qui se révéle plus adapté dans notre contexte, <strong>et</strong> dont les<br />

propriétés <strong>de</strong> convergence sont prouvées dans le champ <strong>de</strong> notre étu<strong>de</strong>.<br />

Notations<br />

Nous notons dans le reste du chapitre f(y; ψ) la <strong>de</strong>nsité <strong>de</strong> la famille paramétrique considérée<br />

pour modéliser les données Y. Notons f 0 (y) la <strong>de</strong>nsité théorique <strong>de</strong> Y, inconnue <strong>et</strong><br />

105

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!