Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Chapitre 4. Sélection <strong>de</strong> mélange <strong>de</strong> <strong>GLMs</strong><br />
La <strong>de</strong>uxième hypothèse suggère que<br />
[<br />
∃n 0 ∈ N, ∀n ≥ n 0 , E f 0[ln L cc ( ˆψ g ; Y )] − L n ( ˆψ g ; y) < ν ]<br />
2<br />
p.s.<br />
Etudions la quantité E f 0[ln L cc (ψ b g; Y )] − L n ( ˆψ g ; y) dont nous ne connaissons pas le signe<br />
(puisque ˆψ g est aléatoire). Nous déduisons :<br />
E f 0[ln L cc (ψg; b Y )] − L n ( ˆψ g ; y) = E f 0[ln L cc (ψg; b Y )] − L n (ψg; b y) + L n (ψg; b y) − L n ( ˆψ g ; y) , <strong>et</strong><br />
} {{ } } {{ }<br />
< ν/2 p.s.<br />
< ν/2 p.s.<br />
E f 0[ln L cc (ψg; b Y )]−L n ( ˆψ g ; y) = E f 0[ln L cc (ψg; b Y )] − E f 0[ln L cc ( ˆψ g ; Y )] + E f 0[ln L cc ( ˆψ g ; Y )] − L n ( ˆψ g ; y) .<br />
} {{ } } {{ }<br />
≥ 0 p.s.<br />
> −ν/2 p.s.<br />
La convergence vers 0 s’effectue donc aussi bien du côté positif que du côté négatif. En prenant<br />
une suite dénombrable (ν p ) p∈N = ( 1<br />
2<br />
) p p∈N , <strong>et</strong> puisque l’intersection <strong>de</strong> <strong>de</strong>ux évènements <strong>de</strong><br />
probabilité 1 est elle-même <strong>de</strong> probabilité 1, nous obtenons immédiatement le résultat.<br />
Ce lemme perm<strong>et</strong> <strong>de</strong> r<strong>et</strong>rouver (H2-C) : il s’appuie sur la définition <strong>de</strong> l’estimateur ˆψ g <strong>et</strong><br />
l’hypothèse (H3-A). Asymptotiquement, maximiser la moyenne empirique <strong>de</strong> la log-vraisemblance<br />
L cc ne doit pas être très loin <strong>de</strong> maximiser ψ g ↦→ E f 0[ln L cc (ψ g ; Y )] puisqu’ils sont uniformément<br />
proches l’un <strong>de</strong> l’autre. Le même type d’hypothèses que pour pour la convergence forte<br />
du ML cc E seront donc suffisantes pour avoir (H2-C).<br />
Dans l’optique d’étudier (H4-C), nous nous intéressons à la distance suivante :<br />
S n ln L cc (ψ; y) = n [ L n (ψ; y) − E f 0[ln L cc (ψ; Y )] ] = n L n (ψ; y) − n E f 0[ln L cc (ψ; Y )].<br />
C<strong>et</strong>te distance représente (à une constante n près) l’écart entre la moyenne empirique <strong>et</strong> la<br />
moyenne théorique <strong>de</strong> la log-vraisemblance L cc prise en un paramètre quelconque. La démarche<br />
consiste à s’intéresser au contrôle <strong>de</strong> c<strong>et</strong>te “erreur” (appliquée entre ψ b <strong>et</strong> ˆψ g b g ) en montrant<br />
qu’elle peut s’écrire autrement, <strong>et</strong> notamment sous une forme qui nous perm<strong>et</strong> d’effectuer <strong>de</strong>s<br />
simplifications. Nous allons dans la suite présenter un ensemble <strong>de</strong> résultats qui vont nous<br />
perm<strong>et</strong>tre <strong>de</strong> remonter jusqu’à (H4-C). Tout d’abord, nous utilisons trois résultats existants<br />
qui sont issus <strong>de</strong> Massart (2007).<br />
Introduisons la notation suivante pour la suite : ∀A mesurable avec P(A) > 0, ∀φ : R d → R,<br />
E A [φ(X)] = E[φ(X)1 A(X)]<br />
P(A)<br />
Lemme 6. (Lemme 2.4 dans Massart (2007))<br />
Soit Z ∈ L 1 (R). Soit la fonction strictement croissante ϕ : R + ↦→ R telle que pour tout<br />
ensemble mesurable A avec P(A) > 0, on a<br />
(<br />
E A [Z] ≤ ϕ ln 1 )<br />
,<br />
P(A)<br />
Alors<br />
∀y > 0, P[Z ≥ ϕ(y)] ≤ e −y .<br />
138