23.12.2013 Views

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Chapitre 4. Sélection <strong>de</strong> mélange <strong>de</strong> <strong>GLMs</strong><br />

dominée, la continuité est assurée tant que la distribution f 0 n’a pas <strong>de</strong> queue trop épaisse<br />

(voir section 4.3.3).<br />

L’hypothèse (H2-A) signifie que l’ensemble Ψ b G<br />

est discr<strong>et</strong>, <strong>et</strong> que les paramètres que nous<br />

considérons se situent toujours à une distance positive <strong>de</strong> c<strong>et</strong> ensemble. Elle est aussi garantie<br />

sous l’hypothèse <strong>de</strong> compacité <strong>de</strong> Ψ G . En eff<strong>et</strong>, ψ G ↦→ E f 0[ln L cc (ψ G ; Y )] atteint<br />

son maximum sur l’espace Ψ G \{ψ G ∈ Ψ G : d(ψ G , Ψ b G<br />

) > ɛ}. C<strong>et</strong> espace est fermé <strong>et</strong> borné si<br />

Ψ G est compact, donc le supremum est nécessairement inférieur à E f 0[ln L cc (ψG b )].<br />

L’hypothèse (H3-A) est une hypothèse très forte, inspirée du théorème <strong>de</strong> Glivenko-Cantelli<br />

pour les fonctions <strong>de</strong> répartition. C<strong>et</strong>te généralisation stipule la convergence uniforme <strong>de</strong> la<br />

moyenne empirique <strong>de</strong> la log-vraisemblance classifiante conditionnelle vers son espérance mathématique,<br />

<strong>et</strong> nécessite l’étu<strong>de</strong> approfondie <strong>de</strong> la classe <strong>de</strong>s fonctions considérées<br />

(L cc ). Dans la suite, nous détaillons davantage c<strong>et</strong>te hypothèse qui fait intervenir <strong>de</strong> nouvelles<br />

notions <strong>de</strong> mesure <strong>de</strong> complexité.<br />

Résultats auxiliaires fondamentaux Comme nous l’avons vu, la convergence presque<br />

sûre du ML cc E vers le meilleur paramètre ne coule pas <strong>de</strong> source : en eff<strong>et</strong>, elle nécessite <strong>de</strong><br />

démontrer un résultat <strong>de</strong> convergence uniforme. Afin <strong>de</strong> prouver c<strong>et</strong>te convergence uniforme,<br />

nous introduisons les notations suivantes :<br />

– Soit r<br />

{<br />

∈ N ∗ ∪ {∞}, <strong>et</strong> g : R d → R. ‖g‖ r est la norme L r <strong>de</strong> g par rapport à f 0 ,<br />

si r < ∞ : ‖g‖<br />

avec<br />

r = E f 0 [|g(Y )| r ] 1 r ;<br />

sinon : ‖g‖ ∞ = ess sup Y ∼f 0|g(Y )| où ess sup Z∼P Z = inf{z : P(Z ≤ z) = 1}.<br />

– Soit une <strong>application</strong> linéaire t : R K G<br />

→ R.<br />

‖t‖ ∞ est la norme usuelle sur un espace vectoriel normé : ‖t‖ ∞ =<br />

– ∀ ˜Ψ G borné tel que ˜Ψ G ⊂ R K G, diam ˜Ψ G = sup<br />

ψ 1 ,ψ 2 ∈ ˜Ψ G<br />

‖ψ 1 − ψ 2 ‖ ∞ .<br />

max<br />

ψ G ∈R K G<br />

t(ψ G )<br />

.<br />

‖ψ G ‖ ∞<br />

Autant les hypothèses (H1-A) <strong>et</strong> (H2-A) apparaissent comme presque triviales si l’espace<br />

<strong>de</strong>s paramètres est compact, autant (H3-A) aurait besoin d’être explicitée en <strong>de</strong>s termes plus<br />

communs. Un certain <strong>nombre</strong> <strong>de</strong> résultats vont nous être utiles pour garantir c<strong>et</strong>te hypothèse.<br />

Le but <strong>de</strong> c<strong>et</strong>te section est <strong>de</strong> présenter un ensemble <strong>de</strong> définitions <strong>et</strong> <strong>de</strong> lemmes qui perm<strong>et</strong>tront<br />

<strong>de</strong> substituer (H3-A) par <strong>de</strong> nouvelles hypothèses, vérifiables <strong>de</strong> manière plus directe.<br />

A ce titre, nous donnons la définition d’une classe <strong>de</strong> fonctions P-Glivenko Cantelli :<br />

Définition. Une classe G <strong>de</strong> fonctions mesurables g : R d −→ R est P-Glivenko Cantelli si <strong>et</strong><br />

seulement si ∣∣∣∣∣∣ ∣ ∣∣∣∣∣<br />

1<br />

n<br />

n∑<br />

g(Y i ) − E [g(Y )]<br />

:= sup<br />

1<br />

∣∣ g∈G ∣n<br />

G<br />

j=1<br />

n∑<br />

g(Y i ) − E [g(Y )]<br />

∣ −→ 0<br />

j=1<br />

p.s.,<br />

où Y 1 , ..., Y n est un échantillon <strong>de</strong> distribution P <strong>et</strong> l’espérance sur Y est prise par rapport à<br />

la distribution P.<br />

A la vue <strong>de</strong> c<strong>et</strong>te définition, l’objectif est évi<strong>de</strong>nt : prouver que la vraisemblance L cc est une<br />

classe <strong>de</strong> fonctions P-Glivenko Cantelli nous perm<strong>et</strong>trait <strong>de</strong> r<strong>et</strong>rouver immédiatement (H3-A).<br />

Pour démontrer c<strong>et</strong>te propriété, nous introduisons la notion <strong>de</strong> “brack<strong>et</strong>ing entropy” (Dudley<br />

(1999)) :<br />

126

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!