23.12.2013 Views

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Chapitre 4. Sélection <strong>de</strong> mélange <strong>de</strong> <strong>GLMs</strong><br />

la nécessité <strong>de</strong> développer <strong>de</strong> nouvelles métho<strong>de</strong>s <strong>de</strong> sélection <strong>de</strong> modèle dans un contexte<br />

global, par opposition aux récents développements <strong>de</strong> l’époque qui ne s’appliquaient qu’à une<br />

certaine classe <strong>de</strong> modèles. Il introduit la notion <strong>de</strong> critère d’information, en ce sens que sa<br />

démarche est complètement liée à l’étu<strong>de</strong> <strong>de</strong> la distance KL. Le succès d’Akaike (1973) vient<br />

notamment du pont établi entre la théorie du maximum <strong>de</strong> vraisemblance, base théorique<br />

largement reconnue par les statisticiens pour l’estimation paramétrique, <strong>et</strong> le critère AIC. De<br />

plus ce critère ne nécessite pas <strong>de</strong> calcul supplémentaire en <strong>de</strong>hors <strong>de</strong>s calculs inhérents à la<br />

métho<strong>de</strong> du maximum <strong>de</strong> vraisemblance, ce qui est un avantage non-négligeable au vu <strong>de</strong>s<br />

performances calculatoires <strong>de</strong>s outils informatiques <strong>de</strong> l’époque.<br />

L’idée novatrice d’Akaike est <strong>de</strong> choisir comme estimateur final parmi un ensemble d’estimateurs<br />

ˆψ (pour une <strong>de</strong>nsité <strong>de</strong> probabilité f(y; ψ)) celui qui maximise la log-vraisemblance<br />

espérée. Autrement dit, il cherche<br />

( [<br />

M AIC = arg max E (Y, ψg) ˆ ln f Mg (Y ; ˆψ<br />

])<br />

g )<br />

M g∈{M 1 ,...,M m}<br />

( [∫<br />

])<br />

= arg max E ψg ˆ ln f Mg (Y ; ˆψ g )f(Y ; ψ 0 )dy . (4.1)<br />

M g∈{M 1 ,...,M m}<br />

Y<br />

L’égalité ci-<strong>de</strong>ssus vient <strong>de</strong> l’hypothèse d’indépendance entre les lois <strong>de</strong> Y <strong>et</strong> <strong>de</strong> ˆψ g , ce qui<br />

perm<strong>et</strong> d’avoir<br />

f (Y, ψg) ˆ (y, ˆψ g ) = f Y (y; ψ 0 )f ψg ˆ ( ˆψ g ).<br />

L’auteur différencie sa métho<strong>de</strong> <strong>de</strong> celle du maximum <strong>de</strong> vraisemblance en justifiant du fait<br />

que c<strong>et</strong>te <strong>de</strong>rnière ne s’intéresse à l’estimation du paramètre ψ g du modèle M g que pour<br />

une réalisation donnée <strong>de</strong>s observations : ainsi ˆψg (Z) maximise ln f Mg (z; ψ g ) pour une seule<br />

réalisation <strong>de</strong> Z (clairement ˆψ g est une statistique <strong>de</strong> Z). Ainsi, la métho<strong>de</strong> du maximum <strong>de</strong><br />

vraisemblance ne nécessite aucune connaissance sur ψ 0 , le paramètre théorique <strong>de</strong> la <strong>de</strong>nsité<br />

<strong>de</strong> la loi <strong>de</strong> Y.<br />

Pour comparer sans perte d’efficacité un modèle général donné par f Mg (.; ψ g ) avec le modèle<br />

théorique f(.; ψ 0 ), il utilise le célèbre ratio <strong>de</strong> vraisemblance τ(y) = f Mg (y; ψ g )/f(y; ψ 0 ) qui<br />

détermine par l’introduction d’une fonction Φ la discrimination en y entre ψ g <strong>et</strong> ψ 0 . Nous en<br />

déduisons immédiatement la discrimination moyenne dans le cas où ψ 0 est “vrai” (donc Y a<br />

effectivement pour <strong>de</strong>nsité f(y; ψ 0 )) :<br />

∫<br />

D(ψ g , ψ 0 , Φ) = f(y; ψ 0 )Φ(τ(y))dy = E Y [Φ(τ(Y ))].<br />

Y<br />

Comment choisir Φ pour définir c<strong>et</strong>te discrimination moyenne ? En effectuant un développement<br />

<strong>de</strong> Taylor à l’ordre 2 <strong>de</strong> la fonction composée Φ(τ(y)) pour ψ g au voisinage <strong>de</strong> ψ 0 , nous<br />

obtenons sous certaines conditions <strong>de</strong> régularité <strong>de</strong> Φ <strong>et</strong> en remarquant que le terme d’ordre<br />

1 s’annule (la vraisemblance est maximisée en ψ 0 donc sa dérivée en ce point vaut 0) :<br />

D(ψ g , ψ 0 , Φ) = E Y<br />

[Φ(1) + 1 ]<br />

2 Φ′′ (1)(ψ g − ψ 0 ) T I(ψ 0 )(ψ g − ψ 0 ) + o(‖ψ g − ψ 0 ‖ 2 ) ,<br />

= Φ(1) + 1 2 Φ′′ (1)(ψ g − ψ 0 ) T J(ψ 0 )(ψ g − ψ 0 ) + o(‖ψ g − ψ 0 ‖ 2 ). (4.2)<br />

où<br />

∫<br />

J(ψ 0 ) =<br />

Y<br />

[ (∂ ) ( ) ]<br />

ln fMg (y; ψ g ) ∂ ln fMg (y; ψ g ) T<br />

f(y; ψ 0 )dy.<br />

∂ψ g ψ g=ψ<br />

∂ψ 0 g ψ g=ψ 0<br />

108

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!