60 CHAPITRE 4.THÉORIE DE L’ÉCHANTILLONNAGEou non 4 . Soit P c<strong>et</strong>te population, nous pouvons alors définir la variable aléatoire X suivante :X : P −→ {0, 1}b ↦−→ 0 si le bull<strong>et</strong>in b est nonb ↦−→ 1 si le bull<strong>et</strong>in b est oui.X est encore une variable aléatoire de loi de Bernoulli de paramètre p. Ce paramètre représente ici le pourcentagedes électeurs qui ont voté oui dans la population des électeurs qui ont voté oui ou non. Le problème est alors deconnaître la valeur de ce paramètre <strong>et</strong> plus précisemment de savoir si c<strong>et</strong>te valeur est supérieure ou inférieure à1/2.Remarque 1.2.3. Dans l’exemple précédent, nous avons considéré le cas d’un référendum <strong>et</strong> non celui d’unsondage d’opinion. Dans le cas du référendum, les estimations qui seront données le soir du 29 mai seront obtenuesà partir de bull<strong>et</strong>ins dépouillés, donc de données exactes. Le cas des sondages est lui beaucoup plus délicat. En eff<strong>et</strong>,on n’est pas sûr dans un sondage que les personnes interrogées répondent vraiment ce qu’elles pensent <strong>et</strong> on nesait pas si les personnes qui refusent de répondre ont le même comportement que celles qui répondent ; bref, nousn’avons pas les données exactes. La fiabilité des données est bien évidemment une question très importante enpratique qu’il faut toujours garder à l’esprit. Nous n’aborderons pas c<strong>et</strong>te question dans ce <strong>cours</strong>, question qui esttotalement dépendante du domaine d’application. La collecte des données pour un référendum ou celle pour l’étudede la pollution d’une nappe phréatique sont bien évidemment très différentes. Elle doit donc être effectuée par unspécialiste du domaine. Nous supposerons donc toujours ici que les données sont fiables.Exemple 1.2.4. Considérons maintenant un cas d’école qui nous sera très utile pédagogiquement. La populationU étudiée est une urne remplie de boules blanches <strong>et</strong> noires. On définit alors la variable aléatoire suivanteX : U −→ {0, 1}b ↦−→ 0 si b est noireb ↦−→ 1 si b est blanche.X est toujours une variable aléatoire de loi de Bernoulli de paramètre p. Ici ce paramètre est le pourcentage deboules blanches dans l’urne.On voit donc ici qu’estimer un taux de germination, un pourcentage de réponses par oui à un référendum ouun pourcentage de boules blanches dans une urne contenant des boules blanches <strong>et</strong> noires, sont des problèmesidentiques.Exemple 1.2.5. On s’interesse ici à un caractére qualitatif (la couleur des yeux) dans une population déterminéeP, par exemple la population française. On définit alors la variable aléatoireX : P −→ {marron,noir, bleu,vert,autre}1 individu ↦−→ la couleur de ses yeux.Ce qu’on désire connaître c’est la proportion des individus qui ont la couleur des yeux marron, noir, bleu, vert <strong>et</strong>autre, c’est-à-dire la loi de la variable aléatoire X : P (X = marron), P (X = noir), P (X = bleu), P (X = vert), <strong>et</strong>P (X = autre).Exemple 1.2.6. On s’intéresse au rendement exprimé en quintaux à l’hectare d’une variété fixée de tournesol T .Définissons la variable aléatoire suivante :X : P −→ Rune culture ↦−→ le rendement de c<strong>et</strong>te culture.Il faut là encore bien définir la population P. On doit en autre préciser :– la variété T ;– le type de terrain ;4 En France les bull<strong>et</strong>ins blancs sont considérés comme des bull<strong>et</strong>ins nuls <strong>et</strong> ne sont donc pas des suffrages exprimés. Ceci n’est pasle cas dans tous les pays.
1.MODÉLISATION DES VARIABLES 61– la taille des parcelles, leurs expositions, ... ;– les conditions de cultures ;– ...Le rendement est alors définie comme l’espérance mathématique de c<strong>et</strong>te variable : µ = E(X). Estimer un rendement,c’est donc encore trouver une ”valeur approchée” de l’espérance mathématique d’une variable aléatoire.Nous supposerons en pratique pour cela que la loi de c<strong>et</strong>te variable aléatoire (qui est une loi de probabilité sur R)est normale de paramètre µ <strong>et</strong> σ. On écrira que X suit une loi N (µ, σ 2 ) (attention nous m<strong>et</strong>tons la variance σ 2 <strong>et</strong>non l’écart type dans N (µ, σ 2 )). Ceci n’est bien sûr qu’un modèle. En eff<strong>et</strong>, un rendement est toujours positif <strong>et</strong>donc on sait que P (X < 0) = 0. Or, si X suit une loi normale, c<strong>et</strong>te quantité est ègale à∫ 0−∞1√2πσe −(x−µ)2 /(2σ 2) dx,qui est strictement positif. Cependant, c<strong>et</strong>te dernière quantité sera en pratique extrêment faible (voir l’exercice6.1.2). Elle ne rem<strong>et</strong>tra donc pas en cause le modèle choisi.Remarque 1.2.7. Le choix d’une loi de probabilité d’une variable aléatoire comme le rendement n’est pas toujours évident. Il se fait enpratique à partir de la connaissance que l’on peut avoir a priori. La justification théorique de l’emploi de la loi normale vient du théorèmelimite central. On peut en eff<strong>et</strong> penser que le rendement obtenu est le résultat moyen d’un grand nombre de variable indépendantes (devariances majorées). Le théorème limite central nous dit alors que la loi de probabilité qui en résulte est très proche d’une loi normale.Nous m<strong>et</strong>tons cependant en garde le lecteur sur l’utilisation parfois abusive de c<strong>et</strong>te loi normale.Exemple 1.2.8. On désire étudier simultanément sur la population P des étudiants français de l’année 2005 lesvariables suivantes : le sexe, la taille, la couleur des yeux, <strong>et</strong> leurs ressources annuelles. On définit en fait ici levecteur aléatoire de dimension 5 suivant :X : P −→ {M, F } × R × R × {marron,noir,bleu, vert,autre} × Run étudiant ↦−→ (son sexe,sa taille, son poids, la couleur de ses yeux, ses ressources annuelles).Les applications composantes de X définissent cinq variables aléatoires X 1 , X 2 , X 3 , X 4 , X 5 qui sont définies sur lemême espace de départ que X : P <strong>et</strong> qui représentent respectivement les variables sexe, taille, poids, couleur desyeux <strong>et</strong> ressources. La variable couleur des yeux s’écrit par exempleX 4 : P −→ {marron,noir,bleu, vert,autre}un étudiant ↦−→ la couleur de ses yeux.On peut donc parler ici de l’indépendance ou non de ces variables aléatoires (X 1 , X 2 , X 3 , X 4 , X 5 ).Ces exemples montrent clairement que l’on formalise toujours les variables étudiées par des variables aléatoires. Ilfaudra toujours en pratique bien préciser ces variables aléatoires, c’est-à-dire la population de départ <strong>et</strong> l’applicationelle même. En eff<strong>et</strong> les données seront en pratique les valeurs obtenues des variables aléatoires sur un échantillonde la population. Les statistiques ne pourront donner de réponses que sur la population à partir de laquelle ona extrait l’échantillon <strong>et</strong> uniquement celle-ci. Précisons aussi que les termes de population <strong>et</strong> d’individu sont àprendre dans leur sens statistique. Ainsi, dans l’exemple 1.2.6 un individu est en fait une culture sur une parcelle.On parle aussi parfois d’unité expérimentale au lieu d’individu. On emploie aussi le terme de caractère au lieu devariable.En conclusion une variable sera en fait une variable aléatoireX : P −→ Cω ↦−→ X(ω),où– la population P est en terme de probabilité un espace fondamental ;– un individu ω est un élément de la population P ;– C est l’ensemble des valeurs que peut prendre la variable aléaloire.Ce que l’on souhaite connaître en pratique c’est la loi de c<strong>et</strong>te variable aléatoire, ou la valeur de certain de sesparamètres. Nous souhaitons ici souligner que la terminologie de variable aléatoire est très mauvaise. En eff<strong>et</strong>, une variable aléatoire X deP à valeurs dans C est en fait une fonction parfaitement déterninée qui perm<strong>et</strong> de transposer une probabilité d’un espace probabilisé dans unautre. Une variable aléatoire n’est donc pas une variable dans le sens mathématique du terme puisque c’est une fonction ; <strong>et</strong> c<strong>et</strong>te fonction estparfaitement connue. On peut donc dire, comme cela est mentionné dans [2] qu’une variable aléatoire, c’est comme le Saint Empire RomainGermanique : il n’était pas saint, ce n’était pas un empire <strong>et</strong> il n’était pas romain ! ! !