Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Mélanges de GLMs et nombre de composantes : application ... - Scor
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Chapitre 4. Sélection <strong>de</strong> mélange <strong>de</strong> <strong>GLMs</strong><br />
dominée, la continuité est assurée tant que la distribution f 0 n’a pas <strong>de</strong> queue trop épaisse<br />
(voir section 4.3.3).<br />
L’hypothèse (H2-A) signifie que l’ensemble Ψ b G<br />
est discr<strong>et</strong>, <strong>et</strong> que les paramètres que nous<br />
considérons se situent toujours à une distance positive <strong>de</strong> c<strong>et</strong> ensemble. Elle est aussi garantie<br />
sous l’hypothèse <strong>de</strong> compacité <strong>de</strong> Ψ G . En eff<strong>et</strong>, ψ G ↦→ E f 0[ln L cc (ψ G ; Y )] atteint<br />
son maximum sur l’espace Ψ G \{ψ G ∈ Ψ G : d(ψ G , Ψ b G<br />
) > ɛ}. C<strong>et</strong> espace est fermé <strong>et</strong> borné si<br />
Ψ G est compact, donc le supremum est nécessairement inférieur à E f 0[ln L cc (ψG b )].<br />
L’hypothèse (H3-A) est une hypothèse très forte, inspirée du théorème <strong>de</strong> Glivenko-Cantelli<br />
pour les fonctions <strong>de</strong> répartition. C<strong>et</strong>te généralisation stipule la convergence uniforme <strong>de</strong> la<br />
moyenne empirique <strong>de</strong> la log-vraisemblance classifiante conditionnelle vers son espérance mathématique,<br />
<strong>et</strong> nécessite l’étu<strong>de</strong> approfondie <strong>de</strong> la classe <strong>de</strong>s fonctions considérées<br />
(L cc ). Dans la suite, nous détaillons davantage c<strong>et</strong>te hypothèse qui fait intervenir <strong>de</strong> nouvelles<br />
notions <strong>de</strong> mesure <strong>de</strong> complexité.<br />
Résultats auxiliaires fondamentaux Comme nous l’avons vu, la convergence presque<br />
sûre du ML cc E vers le meilleur paramètre ne coule pas <strong>de</strong> source : en eff<strong>et</strong>, elle nécessite <strong>de</strong><br />
démontrer un résultat <strong>de</strong> convergence uniforme. Afin <strong>de</strong> prouver c<strong>et</strong>te convergence uniforme,<br />
nous introduisons les notations suivantes :<br />
– Soit r<br />
{<br />
∈ N ∗ ∪ {∞}, <strong>et</strong> g : R d → R. ‖g‖ r est la norme L r <strong>de</strong> g par rapport à f 0 ,<br />
si r < ∞ : ‖g‖<br />
avec<br />
r = E f 0 [|g(Y )| r ] 1 r ;<br />
sinon : ‖g‖ ∞ = ess sup Y ∼f 0|g(Y )| où ess sup Z∼P Z = inf{z : P(Z ≤ z) = 1}.<br />
– Soit une <strong>application</strong> linéaire t : R K G<br />
→ R.<br />
‖t‖ ∞ est la norme usuelle sur un espace vectoriel normé : ‖t‖ ∞ =<br />
– ∀ ˜Ψ G borné tel que ˜Ψ G ⊂ R K G, diam ˜Ψ G = sup<br />
ψ 1 ,ψ 2 ∈ ˜Ψ G<br />
‖ψ 1 − ψ 2 ‖ ∞ .<br />
max<br />
ψ G ∈R K G<br />
t(ψ G )<br />
.<br />
‖ψ G ‖ ∞<br />
Autant les hypothèses (H1-A) <strong>et</strong> (H2-A) apparaissent comme presque triviales si l’espace<br />
<strong>de</strong>s paramètres est compact, autant (H3-A) aurait besoin d’être explicitée en <strong>de</strong>s termes plus<br />
communs. Un certain <strong>nombre</strong> <strong>de</strong> résultats vont nous être utiles pour garantir c<strong>et</strong>te hypothèse.<br />
Le but <strong>de</strong> c<strong>et</strong>te section est <strong>de</strong> présenter un ensemble <strong>de</strong> définitions <strong>et</strong> <strong>de</strong> lemmes qui perm<strong>et</strong>tront<br />
<strong>de</strong> substituer (H3-A) par <strong>de</strong> nouvelles hypothèses, vérifiables <strong>de</strong> manière plus directe.<br />
A ce titre, nous donnons la définition d’une classe <strong>de</strong> fonctions P-Glivenko Cantelli :<br />
Définition. Une classe G <strong>de</strong> fonctions mesurables g : R d −→ R est P-Glivenko Cantelli si <strong>et</strong><br />
seulement si ∣∣∣∣∣∣ ∣ ∣∣∣∣∣<br />
1<br />
n<br />
n∑<br />
g(Y i ) − E [g(Y )]<br />
:= sup<br />
1<br />
∣∣ g∈G ∣n<br />
G<br />
j=1<br />
n∑<br />
g(Y i ) − E [g(Y )]<br />
∣ −→ 0<br />
j=1<br />
p.s.,<br />
où Y 1 , ..., Y n est un échantillon <strong>de</strong> distribution P <strong>et</strong> l’espérance sur Y est prise par rapport à<br />
la distribution P.<br />
A la vue <strong>de</strong> c<strong>et</strong>te définition, l’objectif est évi<strong>de</strong>nt : prouver que la vraisemblance L cc est une<br />
classe <strong>de</strong> fonctions P-Glivenko Cantelli nous perm<strong>et</strong>trait <strong>de</strong> r<strong>et</strong>rouver immédiatement (H3-A).<br />
Pour démontrer c<strong>et</strong>te propriété, nous introduisons la notion <strong>de</strong> “brack<strong>et</strong>ing entropy” (Dudley<br />
(1999)) :<br />
126