Le mod`ele de régression multiple
Le mod`ele de régression multiple
Le mod`ele de régression multiple
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Chapitre 2 :<br />
<strong>Le</strong> modèle <strong>de</strong> régression simple<br />
L’analyse <strong>de</strong> la régression est l’outil le plus utilisé enéconométrie. L’idée est <strong>de</strong><br />
décrire et d’évaluer la relation entre une variable (dite variable à expliquer ou variable<br />
dépendante) souvent notée y, et une (ou plusieurs) variable(s), dite(s) variable(s)<br />
explicative(s) ou indépendante(s), à partir d’un échantillon <strong>de</strong> taille n, valeurs<strong>de</strong><br />
ces variables pour n observations (individus ou pays ou dates).<br />
Nous allons tout d’abord supposer qu’il n’y a qu’une seule variable explicative,<br />
notée x. On cherche alors àétudier la relation entre 2 variables, y et x, ouplus<br />
précisément l’influence <strong>de</strong> x sur y. On parle <strong>de</strong> régression simple. On étendra<br />
ensuite les résultats au cas <strong>de</strong> la régression <strong>multiple</strong>, c’est-à-dire lorsqu’il y a plusieurs<br />
variables explicatives (chapitre 3).<br />
Pour étudier le lien entre les variables y et x, on doit tout d’abord se donner une<br />
relation (ou forme fonctionnelle) entre les <strong>de</strong>ux. On retient une relation linéaire 3 :<br />
y = a + bx<br />
Puisque la relation qu’on étudie est une simplification <strong>de</strong> la réalité, que l’on a<br />
forcément oublié <strong>de</strong>s facteurs explicatifs <strong>de</strong> y, on introduit un terme aléatoire (une<br />
perturbation, appelé encorerésidu) noté u à cette relation déterministe. Ainsi le<br />
modèle que l’on étudie est le suivant :<br />
y = a + bx + u<br />
avec y la variable à expliquer, x la variable explicative, u le terme d’erreur, qui est<br />
supposé être une variable aléatoire (inobservable, mais dont on suppose que l’on<br />
connaît la loi).<br />
a et b sont les paramètres inconnus, appelés coefficients <strong>de</strong> régression, que l’on<br />
cherche àdéterminer (à estimer).<br />
On suppose que l’on dispose d’un échantillon <strong>de</strong> n observations pour y et x, soit<br />
{(y 1 ,x 1 ),...,(y n ,x n )}.<br />
Ainsi, pour chaque observation i, onpeutécrire :<br />
y i = a + bx i + u i<br />
L’objectif est <strong>de</strong> déterminer <strong>de</strong>s valeurs pour les paramètres a et b à partir<br />
<strong>de</strong>s n observations sur les variables x et y. Graphiquement, il s’agit <strong>de</strong> trouver les<br />
paramètres <strong>de</strong> la droite <strong>de</strong> régression, qui passe au milieu du nuage <strong>de</strong> points <strong>de</strong>ssiné<br />
dans le plan (x, y).<br />
On remarque que les paramètres a et b sont les mêmes pour toutes les observations,<br />
autrement dit que l’influence <strong>de</strong> x sur y est la même pour toutes les observations.<br />
3 Hypothèse peu restrictive, voir discussion plus loin.<br />
16