03.07.2015 Views

Le mod`ele de régression multiple

Le mod`ele de régression multiple

Le mod`ele de régression multiple

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Supposons que l’on s’intéresse à une variable aléatoire X qui suit une certaine<br />

loi (inconnue) d’espérance µ et <strong>de</strong> variance σ 2 , µ et σ 2 étant inconnus.<br />

Un échantillon <strong>de</strong> taille n est une série <strong>de</strong> variables aléatoires X 1 ,X 2 ,...,X n<br />

indépendantes, suivant la même loi que X.<br />

Un “bon” estimateur <strong>de</strong> µ, l’espérance inconnue <strong>de</strong> X, est la moyenne empirique,<br />

définie par :<br />

¯X = 1 n∑<br />

X i<br />

n<br />

Il est très important <strong>de</strong> noter que ¯X est une variable aléatoire, dont la valeur dépend<br />

<strong>de</strong>s valeurs prises par X 1 ,X 2 ,...,X n ,même si la moyenne <strong>de</strong> la population µ reste<br />

inchangée. Ceci car ¯X dépend <strong>de</strong>s observations que l’on va observer et donc <strong>de</strong><br />

l’échantillon considéré.<br />

En effet, il n’y a pas <strong>de</strong> raison que, si l’on tire aléatoirement 1 échantillon <strong>de</strong> 1000<br />

personnes dans la population totale et qu’on leur <strong>de</strong>man<strong>de</strong> leur taille, la moyenne<br />

( ¯X) soitégale à la vraie valeur (µ).<br />

Si on recommence 100 fois (soit 100 échantillons <strong>de</strong> 1000 personnes), il n’y a<br />

pas <strong>de</strong> raison qu’on trouve 100 fois la même moyenne <strong>de</strong> la taille. On trouvera 100<br />

valeurs différentes, mais on espère que la moyenne <strong>de</strong> ces 100 valeurs soit très proche<br />

<strong>de</strong> la vraie taille moyenne <strong>de</strong> la population (estimateur sans biais).<br />

On conçoit bien aussi que si on augmente le nombre <strong>de</strong> personnes dans l’échantillon<br />

(<strong>de</strong> 1000 on passe à 100000), on va se rapprocher <strong>de</strong> la vraie valeur et on va avoir<br />

un nombre plus précis (estimateur convergent).<br />

On peut montrer que ¯X est un “bon” estimateur, c’est-à-dire qu’il est sans biais<br />

(en espérance, on obtient la vraie valeur inconnue du paramètre µ) :<br />

(∑<br />

E( ¯X) i<br />

=E<br />

X ) ∑<br />

i<br />

i<br />

=<br />

µ<br />

n n = µ<br />

et convergent (l’estimation est plus précise quand le nombre <strong>de</strong> répétitions augmente)<br />

:<br />

Var( ¯X) =<br />

∑i σ2<br />

n 2<br />

i=1<br />

= σ2<br />

n →n→∞ 0<br />

Supposons que, maintenant, on s’intéresse àladifférence <strong>de</strong> taille <strong>de</strong>s individus,<br />

donc à la variance <strong>de</strong> la taille. Un choix raisonnable pour estimer la variance serait :<br />

1<br />

n<br />

∑<br />

(X i − ¯X) 2<br />

i<br />

<strong>Le</strong> problème est que cet estimateur est biaisé si la moyenne est inconnue et que l’on<br />

doit l’estimer. Un estimateur sans biais <strong>de</strong> la variance est :<br />

S 2 = 1<br />

n − 1<br />

n∑<br />

(X i − ¯X) 2<br />

i=1<br />

12

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!