23.12.2013 Views

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

Mélanges de GLMs et nombre de composantes : application ... - Scor

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Chapitre 4. Sélection <strong>de</strong> mélange <strong>de</strong> <strong>GLMs</strong><br />

Le modèle linéaire<br />

Pour commencer formalisons les hypothèses <strong>et</strong> résultats connus dans le cadre simple du<br />

modèle linéaire, afin d’être capable par la suite <strong>de</strong> comprendre en quoi les <strong>GLMs</strong> en sont une<br />

extension immédiate.<br />

Soit la matrice X ∈ M np (R) dont les p colonnes contiennent les variables explicatives (exemple :<br />

âge, sexe, ...), <strong>et</strong> les n lignes sont les valeurs observées <strong>de</strong> ces covariables par individu. Nous<br />

appelons X la matrice <strong>de</strong> schéma (ou <strong>de</strong>sign) suivante :<br />

⎛<br />

⎞<br />

1 X 11 . . . X 1p<br />

⎜<br />

X = ⎝<br />

.<br />

. ..<br />

⎟<br />

. . . ⎠<br />

1 X n1 . . . X np<br />

Nous désignons par Y la variable réponse (à expliquer), avec Y = (Y 1 , ..., Y n ) T où Y j ∈ R d<br />

(d = 1 en unidimensionnel pour l’individu j). Le vecteur X j = (X j1 , ..., X jp ) représente les<br />

facteurs explicatifs <strong>de</strong> l’individu j.<br />

Sous forme matricielle, le modèle linéaire établit la relation suivante entre X <strong>et</strong> Y :<br />

Y = Xβ + ɛ<br />

où β = (β 0 , β 1 , ..., β p ) T est le vecteur <strong>de</strong>s paramètres à estimer, <strong>et</strong> ɛ = (ɛ 1 , ..., ɛ n ) T est l’erreur<br />

commise lors <strong>de</strong> la mesure <strong>de</strong> Y (les mesures y sont entachées d’un bruit).<br />

L’étu<strong>de</strong> du modèle linéaire nécessite <strong>de</strong> poser les hypothèses suivantes :<br />

1. i<strong>de</strong>ntification (non-colinéarité <strong>de</strong>s covariables) : rang(X) = p < n, où n est le <strong>nombre</strong><br />

d’individus <strong>et</strong> p le <strong>nombre</strong> <strong>de</strong> covariables considérées ;<br />

2. bruit blanc ou résidus centrés : E[ɛ j |X j ] = 0 ;<br />

3. non-corrélation <strong>de</strong>s résidus : ∀k ≠ j, E[ɛ k ɛ j | X k , X j ] = 0 ;<br />

4. homoscédasticité (variance constante) : ∀j ∈ 1, n, V ar(ɛ j |X j ) = σ 2 ;<br />

5. normalité <strong>de</strong>s résidus : ɛ j |X j ∼ N (0, σ 2 ).<br />

Le théorème <strong>de</strong> Gauss-Markov garantit que l’estimateur <strong>de</strong>s moindres carrés est le meilleur<br />

estimateur linéaire (il est sans biais <strong>et</strong> <strong>de</strong> variance minimale). C<strong>et</strong> estimateur ˆβ minimise<br />

l’erreur L 2 entre l’observation Y obs <strong>et</strong> la réponse modélisée Y mod :<br />

ˆβ = arg min<br />

β<br />

n∑<br />

j=1<br />

(Y j,obs − Y j,mod ) 2 = arg min<br />

β<br />

n∑<br />

(Y j,obs − X j β) 2 .<br />

j=1<br />

C<strong>et</strong> estimateur est donné par ˆβ = (XT Y )<br />

(X T . Nous trouvons par la même métho<strong>de</strong> un estimateur<br />

<strong>de</strong> la variance <strong>de</strong>s résidus, donné par ˆσ 2 = 1 ∑ n<br />

X) −1<br />

j=1<br />

n − p<br />

(Y j − X j ˆβ) 2 .<br />

Quelques propriétés <strong>de</strong> c<strong>et</strong> estimateur sont bien connues, notamment :<br />

– ˆβ est un vecteur gaussien ;<br />

– ˆβ est indépendant <strong>de</strong> ˆσ 2 ∼ χ 2 n−p ;<br />

– V ar( ˆβ) = σ 2 (X T X) −1 .<br />

148

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!