23.12.2013 Views

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

4.1. Théorie <strong>de</strong> l’information <strong>et</strong> sélection <strong>de</strong> modèle<br />

En eff<strong>et</strong> pour ψ g au voisinage <strong>de</strong> ψ 0 , τ(y) se trouve au voisinage <strong>de</strong> 1 ; <strong>et</strong> le terme d’ordre 1<br />

disparait. J(ψ 0 ) n’est rien d’autre que la matrice d’information <strong>de</strong> Fisher en ψ 0 , obtenue par<br />

passage à l’espérance (rappelons qu’elle s’exprime également E Y<br />

[ (<br />

∂<br />

∂ψ ln L(ψ; Y ) ) 2<br />

ψ=ψ 0 ]).<br />

Pour que la discrimination se comporte comme une distance entre ψ g <strong>et</strong> ψ 0 , il faut que Φ(1) = 0<br />

<strong>et</strong> que Φ ′′ (1) > 0. C<strong>et</strong>te remarque amène l’auteur à choisir <strong>de</strong> manière arbitraire Φ(x) =<br />

−2 ln(x). Par ce choix il r<strong>et</strong>ombe (à un facteur 2 près) sur la distance KL, appelée aussi<br />

négentropie :<br />

∫<br />

D(ψ g , ψ 0 ) = 2<br />

Y<br />

f(y; ψ 0 ) ln f(y; ψ0 )<br />

f Mg (y; ψ g ) dy<br />

= 2 ( E Y [ln f(Y ; ψ 0 )] − E Y [ln f Mg (Y ; ψ g )] ) = 2 d KL (f 0 , f Mg ). (4.3)<br />

De plus, nous r<strong>et</strong>rouvons l’objectif initial dans le <strong>de</strong>uxième terme en passant à l’espérance<br />

dans (4.3) <strong>et</strong> en considérant l’estimateur du maximum <strong>de</strong> vraisemblance pour ψ g , dans le cas<br />

où Y <strong>et</strong> Z sont indépendantes :<br />

E Z [D( ˆψ<br />

(<br />

g (Z), ψ 0 )] = E Z<br />

[2 E Y [ln f(Y ; ψ 0 )] − E Y [ln f Mg (Y ; ˆψ<br />

)]<br />

g (Z))]<br />

= 2 E Y [ln f(Y ; ψ 0 )] − 2 E (Y,Z) [ln f Mg (Y ; ˆψ g (Z))], (4.4)<br />

} {{ }<br />

(4.1)<br />

[<br />

= E Z 2 d KL<br />

(f(y; ψ 0 ), f Mg (y; ˆψ<br />

)]<br />

g (Z)) . (4.5)<br />

Nous appelons c<strong>et</strong>te quantité la négentropie probabilisée.<br />

Par conséquent, Akaike en déduit que maximiser la log-vraisemblance espérée n’est<br />

donc rien d’autre que minimiser l’espérance <strong>de</strong> la distance KL entre la <strong>de</strong>nsité estimée<br />

f Mg (.; ˆψ g (Z)) <strong>et</strong> la <strong>de</strong>nsité théorique f(.; ψ 0 ). De plus il remarque que dans le cas <strong>de</strong> n<br />

observations indépendantes, la fonction Φ choisie conserve la propriété d’additivité :<br />

D n (ψ g , ψ 0 ) = nD(ψ g , ψ 0 ).<br />

Afin d’évaluer l’adéquation du modèle, Akaike se base sur le principe <strong>de</strong> maximisation<br />

<strong>de</strong> l’entropie provenant <strong>de</strong> la théorie <strong>de</strong>s grands échantillons. Celui-ci préconise d’étudier la<br />

negentropie probabilisée en le paramètre théorique :<br />

R(ψ 0 ) = E Z [D( ˆψ 0 (Z), ψ 0 )] = 2E Y [ln f(Y ; ψ 0 )] − 2E (Y,Z) [ln f Mg (Y ; ˆψ 0 (Z))].<br />

Remarquer que ˆψ 0 (Z) remplace ˆψ g (Z) dans (4.4). Finalement, le modèle sélectionné sera donc<br />

celui dont la valeur R(ψ 0 ) sera la plus p<strong>et</strong>ite. Cependant quelques problèmes subsistent : ψ 0<br />

est inconnu, <strong>de</strong> même que l’espérance sur Z ; cela nous empêche <strong>de</strong> calculer la valeur minimale<br />

<strong>de</strong> R(ψ 0 ). Pour résoudre ce problème, Akaike utilise alors la loi faible <strong>de</strong>s grands <strong>nombre</strong>s sur<br />

n observations indépendantes :<br />

ˆD n (ψ g , ψ 0 ) = 2 n<br />

n∑<br />

k=1<br />

ln f(y k; ψ 0 )<br />

f Mg (y k ; ψ g )<br />

P<br />

−→ D(ψ g , ψ 0 ) = 2(E Y [ln f(Y ; ψ 0 )] − E Y [ln f Mg (Y ; ψ g )]).<br />

Sous certaines conditions <strong>de</strong> régularité <strong>de</strong> la <strong>de</strong>nsité f, c<strong>et</strong>te convergence simple <strong>de</strong>vient uniforme<br />

(donc convergence du sup ψ∈Ψ ). Ceci garantit que l’estimation du maximum du rapport<br />

109

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!