66 CHAPITRE 4.THÉORIE DE L’ÉCHANTILLONNAGEParamètre p Valeur minimale de npour une approximationpar la loi normale0.5 300.4 500.3 800.2 2000.1 6000.05 14000.0 poissonTab. 4.2 – Approximation d’une loi binômiale par une loi normaleDans le cas d’un référendum, nous sommes donc dans le cas favorable où l’on peut considérer que Ȳ suit une loiN (p, pq/n). Or on sait (voir l’exercice 6.1.2) que dans le cas d’une loi normale on aP (µ − 1, 96σ ≤ X ≤ µ + 1, 96σ) = 0.95 (4.4)Supposons maintenant que la proportion dans la population de oui soit exactement de 50%, nous avons alorsp = 0.5, <strong>et</strong> supposons que n = 100000. La formule 4.4 donne alors P (0.497 ≤ Ȳ ≤ 0.503) = 0.95 (µ = p<strong>et</strong> σ = √ pq/n). Ceci signifie concrètement que l’on a 95 chance sur 100 d’avoir une proportion de oui dansl’échantillon de taille n = 100000 compris entre 49.7% <strong>et</strong> 50.3%.Remarque 2.3.1.(i) Le soir du référendum, les estimations sont données dès la ferm<strong>et</strong>ure des bureaux de vote des grandes villes.Celles-ci sont obtenues à partir du dépouillement des résultats dans des communes tests qui ont fermées plus tôt. Nous ne sommesdonc pas en réalité dans le cas exposé ici où l’échantillon est supposé être pris totalement au hasard dans la population. Unedeuxième différence est qu’en pratique c’est le nombre total d’électeurs dans chaque commune test qui est fixé au départ, <strong>et</strong> non pasle nombre totale de suffrages exprimés dans ces communes tests. Les choses sont donc en fait beaucoup plus compliqués. Le lecteurintéressé pourra consulter les ouvrages suivants [1] <strong>et</strong> [6].(ii) Si n = 1000 l’intervalle obtenu exprimé en pourcentage est [46.9%; 53.1%]. Les sondages effectués actuellement portent sur deseffectifs inférieurs à 1000 personnes. Bien que les méthodes utilisées (principalement la méthode des quotas), soient plus fines quel’échantillonnage au hasard considéré ici, la précision obtenue, vue de plus les difficultés concernant la fiabilité des données <strong>et</strong> lenombre d’indécis déjà mentionnées, est plus proche de ±5%, voir plus ! À notre avis, les journalistes <strong>et</strong> commentateurs politiquesferaient mieux d’utiliser les temps d’antenne radio ou de télévision à parler du fond du débat, plutôt que des sondages qui n’apportentque peu d’informations.Les résultats obtenus sur c<strong>et</strong> exemple peuvent être schématisés par le schéma 4.3.X : P :−→ {0, 1} de loi B(p)p = proportion de oui dans la population P❄ÉchantilonnageY = (Y 1 , . . . , Y n ) : P n −→ {0, 1} n❄Statistique MȲ = M(Y ) : P n −→ RȲ : N (p, pq/n)Fig. 4.3 – Échantillonnage de la moyenne pour un référundumL’obj<strong>et</strong> de la théorie de l’échantillonnage est d’étudier ce schéma <strong>et</strong> les propriétés des variables aléatoires M(Y )lorsque M est la moyenne ou une autre fonction.
3. ÉCHANTILLONNAGE 67Remarque 2.3.2. Le soir du référendum, les instituts de sondages ont les résultats sur un échantillon de taille n.Leur objectif est alors d’en déduire de l’information sur le paramètre p. Ce problème d’estimation, qui sera traitéau chapitre sur l’estimation, est le processus ”inverse” de celui de l’échantillonnage vu ici. En eff<strong>et</strong> la théorie del’échantillonnage part de la population pour étudier ce qui se passe sur l’ensemble de tous les échantillons de taillen alors que la théorie de l’estimation part d’un échantillon pour obtenir des informations sur la population.3 Échantillonnage3.1 ÉchantillonD’une façon générale, on considère une variable aléatoire X définie sur une population P à valeurs dans unensemble C qui modélise la variable que l’on désire étudier. On construit ensuite le vecteur aléatoire Y suivant :Y = (Y 1 , . . . , Y n ) : Ω −→ C nω = (ω 1 , . . . , ω n ) ↦−→ Y (ω) = (Y 1 (ω), . . . , Y n (ω)) (4.5)= (X(ω 1 ), . . . , X(ω n )),où Ω est l’espace déchantillonnage. Ω = P n si l’échantillonnage est avec remise <strong>et</strong>si l’échantillonnage est sans remise.Ω = {ω = (ω 1 , . . . , ω n ) ∈ P|ω i ≠ ω j pour tout i ≠ j}, (4.6)Définition 3.1.1 (Échantillon aléatoire). On appelle échantillon aléatoire de taille n ou n-échantillon aléatoire dela variable aléatoire X le vecteur aléatoire Y = (Y 1 , . . . , Y n ).Définition 3.1.2 (échantillon). On appelle échantillon de taile n ou n-échantillon, une réalisation ou une observation(y 1 , . . . , y n ) du n-échantillon aléatoire.Remarque 3.1.3. Un n-échantillon n’est pas autre chose que les données relatif à la variable étudiée.Remarque 3.1.4. (i) Comme nous l’avons déjà mentionné, les variables aléatoire (Y i ) i=1,n sont définies sur lemême espace Ω que le n-échantillon aléatoire Y . Nous pouvons donc parler de l’indépendance ou de la nonindépendance de ces variables aléatoires (Y i ) i .(ii) Les variables aléatoires (Y i ) i sont à valeurs dans le même ensemble que la variable aléatoire X <strong>et</strong> leurs loissont identiques à celle de X.(iii) Nous avons en fait la relation suivanteY i (ω) = X(ω i ), (4.7)où l’indice i est à gauche sur la vecteur aléatoire Y <strong>et</strong> à droite sur l’argument de la variable aléatoire X.Définition 3.1.5 (Échantillon aléatoire simple–Échantillon Bernoullien). On appelle échantillon aléatoire simpleou échantillon Bernoullien tout n-échantillon aléatoire d’une variable aléatoire X où les variables aléatoires (Y i ) isont indépendantes.Lorsque l’échantillonnage est avec remise, Y est donc un échantillon Bernoullien, ce qui n’est plus le cas sil’échantillonnage est sans remise. Cependant si la taille déchantillon n est très p<strong>et</strong>ite devant la taille de la populationN (en pratique si (n/N) < 0.1) alors on peut approximer l’échantillonnage sans remise par un échantillonnage avecremise. Dans ce cas des théorèmes de la théorie des probabilités nous perm<strong>et</strong>, connaissant la loi de X, de déterminerla loi de Y .Théorème 3.1.6. Soit P une population <strong>et</strong> X une variable aléatoire (X : P → C) sur c<strong>et</strong>te population. Soit(Y 1 , . . . , Y n ) un n-échantillon Bernoullien, alors les n variables aléatoires Y 1 , . . . , Y n ont pour loi la loi de X, sontindépendantes <strong>et</strong> Y = (Y 1 , . . . , Y n ) est une variable aléatoire à n dimensions :de loi :(i) Si X est discrète :P C n(Y = (y 1 , . . . , y n )) =Y : Ω −→ C nn∏P C (Y i = y i ) =i=1n∏P C (X = y i ). (4.8)(ii) Si X est continue de fonction de densité f(x), Y a pour densité :n∏g(y) = f(y i ) ; où y = (y 1 , . . . , y n ). (4.9)i=1i=1