STAT0002 - Statistique descriptive Transparents Philippe Lambert ...

STAT0002 - Statistique descriptive 

Transparents 

Philippe Lambert 

http : //www.statsoc.ulg.ac.be/statdescr.html 

Institut des Sciences Humaines et Sociales 

Université de Liège

Avertissement - Droits d’auteur 

Les supports de cours mis sur Internet ont pour seule 

vocation d’être utilisés par les étudiants dans le cadre 

de leur cursus au sein de l’Université de Liège. Aucun 

autre usage ni diffusion ne sont autorisés, sous peine 

de constituer une violation de la Loi du 30 juin 1994 

relative aux droits d’auteurs. 

Les supports de cours mis sur Internet ne représentent 

pas l’entièreté de la matière, mais constituent les 

notes de base indispensables et minimales à la bonne 

connaissance de celle-ci. 

P. Lambert c○ - Institut des sciences humaines et sociales

Ch 4: Les sondages (partie 2): les sondages probabilistes 

Préambule 

• Le fait de disposer d’un base de sondage de qualité permet au sondeur de maîtriser 

la probabilité qu’un individu donné soit questionné durant l’enquête. 

• Cette maîtrise permet d’élaborer des mesures de précision pour les estimateurs 

retenus pour les paramètres de population, et ainsi, en plus d’intervalles de valeurs 

plausibles pour ces derniers, de tester des hypothèses concernant cette population. 

• Nous limiterons notre intérêt aux paramètres de population suivants: 

N∑ 

i=1 

Y i ; Ȳ = N ∑ 

i=1 

1 

N Y i ; et plus généralement, θ = N ∑ 

• Les estimateurs étudiés auront généralement la même forme: 

ˆθ(s) = ∑ W i (s)Y i 

i∈s 

où W i (s) est poids de sondage associé à l’observation i. 

i=1 

α i Y i . 

P. Lambert c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 1

Préambule (2) 

• Si θ impliquait, par ex, des carrés de Y i , cette propriété serait également retenue 

pour l’estimateur correspondant. 

• La stratégie de sondage déterminera les poids de sondage W i (s). 

Définition 

P i : c’est la probabilité que l’individu i fasse partie de l’échantillon. 

• De cette définition, on déduit que 

P i = 

∑ 

s: i∈s 

p(s) ≡ somme des probs. des sondages impliquant l’individu i 

• Si l’échantillon est de taille fixe n, alors 

N∑ 

i=1 

P i = n 

où, pour rappel, n est la taille d’échantillon et N la taille de la population. 


Préambule (3) 

Ex Reprenons l’exemple du chapitre précédent avec une population notée symboliquement 

par {1, 2, 3, 4}. Les K = 6 échantillons possibles de taille n = 2 sont 

s 1 = {1, 2}, s 2 = {1, 3}, s 3 = {1, 4}, s 4 = {2, 3}, s 5 = {2, 4} et s 6 = {3, 4}. 

Cas 1 : le sondeur choisit au hasard un des 6 échantillons avec, chacun, la même 

probabilité 1/6 d’être sélectionné: 

P 1 = p(s 1 ) + p(s 2 ) + p(s 3 ) = 3/6 ; . . . ; P 4 = p(s 3 ) + p(s 5 ) + p(s 6 ) = 3/6 

⇒ 

N ∑ 

i=1 

P i = N × 3 6 = 2 = n 

Cas 2 : nous avions imposé p(s 1 ) = p(s 2 ) = p(s 4 ) = 3/15 et p(s 3 ) = p(s 5 ) = 

p(s 6 ) = 2/15. Cela implique que 

P 1 = p(s 1 ) + p(s 2 ) + p(s 3 ) = 8/15 ; P 2 = p(s 1 ) + p(s 4 ) + p(s 5 ) = 8/15 

P 3 = p(s 2 ) + p(s 4 ) + p(s 6 ) = 8/15 ; P 4 = p(s 3 ) + p(s 5 ) + p(s 6 ) = 6/15 

⇒ 

N ∑ 

i=1 

P i = 8 15 + 8 15 + 8 15 + 6 15 = 2 = n 


Sondage aléatoire simple 

Définition 

• N= taille de la population ; n= taille de l’échantillon. 

• Un sondage aléatoire simple est un échantillonnage sans remise où chaque individu 

a la même probabilité d’inclusion. Aucune information ”auxiliaire’ n’est 

utilisée. 

• Donc P 1 = . . . = P N et comme N ∑ 

i=1 

P i = n, on a 

P i = n N 

= f = taux de sondage 

Ex Considérons une population de N = 20 personnes dont les salaires (inconnus 

du sondeurs) respectifs sont 1775, 1850, 1801, 1912, 1982, 1917, 2022, 1992, 

2127, 1963, 1880, 1976, 2058, 2104, 2078, 1898, 2150, 2040, 1985 et 1819 euros. 

Si un échantillon de n = 5 personnes est constitué, alors 

P 1 = . . . = P 20 = n N = 0.25 = f 

Chaque individu a 1 chance sur 4 d’être questionné. 


Sondage aléatoire simple (2) 

Estimation du total 

• Estimation sans biais du total T = N ∑ 

En effet, on peut réécrire ˆT comme 

ˆT = ∑ i∈s 

Y i 

P i 

= N ∑ 

⇒ E( ˆT ) = E 

i=1 

⎛ 

N∑ 

⎝ 

i=1 

i=1 

Y i : 

ˆT = Y i 1 

P i1 

+ . . . + Y i n 

P in 

= ∑ i∈s 

Y i 

P i 

I i (s) avec I i (s) = 

Y i 

P i 

I i (s) 

⎞ 

⎠ = N ∑ 

i=1 

⎧ 

⎪⎨ 

⎪⎩ 

Y i 

P i 

1 si i ∈ s avec prob. P i 

0 sinon avec prob. (1 − P i ) 

Y i 

E(I i (s)) Bernoulli = 

P i 

N∑ 

i=1 

Y i ∑ 

P i = N Y i = T 

P i i=1 

• On voit que le poids de sondage associé à l’individu i dans l’estimation de T est 

W i (s) = 1/P i = N/n 

Tout fonctionne donc comme si chaque individu représentait N/n personnes de la 

population. 



Ex (suite) Intéressons-nous à l’estimation du revenu total (inconnu du sondeur) de 

∑ 

ces 20 personnes, soit T = 20 

Y i = 1775 + . . . + 1819 = 39329 euros. 

i=1 

• Si les n = 5 personnes à questionner sont choisies par sondage aléatoire simple, 

alors P 1 = . . . = P 20 = n/N = 0.25 = f. 

• Imaginons que les personnes échantillonnées portent les étiquettes s = {6, 13, 5, 2, 19}, 

càd i 1 = 6, i 2 = 13, i 3 = 5, i 4 = 2 et i 5 = 19. La théorie qui précède nous dit 

qu’un estimateur non biaisé de T est donné par 

ˆT = Y i 1 

+ . . . + Y i n 

= 1917 

P i1 P in 0.25 + 2058 

0.25 + 1982 

0.25 + 1850 

0.25 + 1985 

0.25 

• On peut réécrire la formule précédente avec les poids de sondages: 

= 39168 euros. 

ˆT = W i1 Y i1 +. . .+W in Y in = 4 × 1917+4 × 2058+4 × 1982+4 × 1850+4 × 1985 

mettant en évidence que chaque personne sondée est la “porte-parole” de 4 personnes 

de la population. 



Estimation de la moyenne 

• Comme Ȳ = T , on déduit qu’un estimateur sans biais de la moyenne est donné 

N 

par 

ˆȲ = ȳ 

En effet, comme P i = n/N en aléatoire simple, 

ˆȲ = ˆT 

N = ∑ i∈s 

Y i 

× 1 P i N = ∑ Y i 

i∈s n = ȳ 

• Autrement dit, pour estimer (sans bias) la moyenne d’une variable dans une population 

à l’aide d’un échantillon aléatoire simple, on prend simplement la moyenne 

arithmétique des données recueillies. 

Ex (suite) La moyenne inconnue vaut 

Ȳ = 1966.45 et est estimée (sans biais) par 

ȳ = 

1917 + 2058 + 1982 + 1850 + 1985 

n 

= 9792 

5 

= 1958.40 = . . . = ˆT 

N = 39168 

20 



Variance de ȳ 

• On peut démontrer que 

V(ȳ) = (1 − f) σ2 

n 

où σ 2 est la variance de Y dans la population. 

• Pour améliorer la précision dans l’estimation de 

⊲ augmenter la taille d’échantillon n, 

⊲ augmenter le taux de sondage f = n N . 

Ȳ , on peut donc 

• La variance σ 2 est un aspect sur lequel on ne peut pas agir. Plus la population 

est homogène en Y , plus l’estimation de Ȳ sera précise. 



Remarques 

• Le taux de sondage, f, apparaît dans la formule car on échantillonne sans remise 

(puisque qu’une même personne ne peut pas être comptabilisée plus d’une fois!). 

• Lorsque n ≪ N, on a f ≈ 0 et donc V(ȳ) ≈ σ 2 /n. La taille de la population n’a 

alors plus vraiment d’importance. 

• La variance de l’estimateur ˆT du total T est 

V( ˆT ) = N 2 (1 − f) σ2 

n 

• On estime σ 2 par 

s 2 = 1 

n − 1 

Cela permet d’estimer V(ȳ) par 

∑ 

i∈s 

(Y i − ȳ) 2 

ˆV(ȳ) = (1 − f) s2 

n 



Intervalle de confiance pour la moyenne 

• Sous certaines conditions (. . . notamment n ≥ 20, N suffisamment grand par 

rapport à n. . . ), un intervalle de confiance (approximatif) 95% pour Ȳ est donné 

par 

IC(Ȳ ) = ȳ ± 2 √ √√√√ 

(1 − f) s2 

n 

• Par définition, si on répète la procédure d’échantillonnage un grand nombre de 

fois, 95% des intervalles ainsi construits contiendront la valeur inconnue de la 

moyenne, Ȳ . Il s’agit donc d’une ensemble de valeurs plausibles pour Ȳ . 

Remarque 

L’IC(Ȳ ) associé à un sondage donné contient ou ne contient pas Ȳ . 



Ex Le ministère de l’agriculture souhaite estimer la surface totale cultivée par 2100 

fermes d’une région rurale. A cette fin, un sondage aléatoire simple est réalisé auprès de 

100 fermes pour lesquelles la surface totale cultivée est évaluée. Les résultats obtenus 

pour les 100 fermes sont: 

– somme des surfaces cultivées: 2907 ha (=hectares). 

– somme des carrés des surfaces cultivées: 154593 ha 2 . 

Sur base de ces informations, 

(a) estimons la surface cultivée en moyenne par une ferme de la région d’intérêt ; 

(b) donnons un ensemble de valeurs plausibles pour cette quantité. 

Les données sont donc N = 2100, n = 100, ∑ Y i = 2907, ∑ 

i∈s 

i∈s 

Y 2 

i = 154593. 

(a) ˆȲ = ȳ = 1 n 

∑ 

i∈s 

Y i = 2907 

100 

= 29.07 ha. 

(b) Ces valeurs sont données par l’intervalle de confiance ȳ ± 2 

√ 

(1 − f) s2 

n . 



Or 

Donc 

ˆσ 2 = 

∑ 

i∈s 

Y 2 

i 

n − ȳ2 = 154593 − 29.07 2 = 700.865 

100 

s 2 = 

n 

n − 1 ˆσ2 = 707.945 

Comme le taux de sondage vaut 

f = n N = 100 

2100 = 0.047 , 

l’ensemble des valeurs plausibles demandé est 

√ 

29.07 ± 2 √(1 − 0.047) × 707.945 = (23.9, 34.3) 

100 



Intervalle de confiance pour une proportion 

• Un cas particulier de la théorie précédente survient lorsque Y i est simplement un 

indicateur 0 − 1 pour l’individu i. 

Dans ce cas, Ȳ = ∑ N 

i=1 Y i 

N 

est la proportion π d’individus présentant la caractéristique 

d’intérêt dans la population cible. 

• L’estimateur non-biaisé vaut p = 1 n 

• La variance de p vaut 

V(p) = (1 − f) σ2 

n 

∑ 

i∈s 

Bernoulli 

= (1 − f) 

Y i ≡ proportion de ‘1’ dans l’échantillon. 

π(1 − π) 

n 

≈ (1 − f) 

p(1 − p) 

n 

• Sous certaines conditions (. . . ), un intervalle de confiance 95% pour π est 

IC(π) = p ± 2 

√ 

√ 

(1 − f) 

p(1 − p) 

n 

• La marge d’erreur est la demi largeur de l’intervalle, soit 2 

√ 

(1 − f) p(1−p) 

n 

. 



Ex Un sondage aléatoire simple est réalisé auprès de 150 étudiants d’une Faculté 

qui en compte 1500 pour déterminer s’ils sont satisfaits de l’orientation qu’ils ont 

choisie à l’université. Quelles sont les valeurs plausibles pour le taux de satisfaction 

sachant que 114 étudiants se sont dits satisfaits par leur choix 

• Nous avons n = 150, N = 1500 et ∑ i∈s 

Y i = 114. 

Le taux de sondage est f = n/N = 150/1500 = 0.1 = P i : chaque étudiant a 

donc 1 chance sur 10 d’être interrogé. 

• Une estimation (non biaisée) de la proportion π d’étudiants satisfaits de l’orientation 

choise parmi les 1500 de la population étudiée est 

∑ 

i∈s Y i 

p = = 114 = 0.76 = 76% 

n 150 

• Un ensemble de valeur plausible pour π est donné par 

√ 

IC(π) = p±2 √ 

p(1 − p) 

(1 − f) = 0.76 ± 2 √ 

0.76(1 − 0.76) 

(1 − 0.1) × = (0.69, 0.83) 

n 

150 

Il est donc raisonnable de penser qu’une majorité est satisfaite de son choix. 

P. Lambert c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 14 

√


Marge d’erreur et taille d’échantillon 

• Lorsque le taux de sondage f = n/N est proche de 0, la marge d’erreur vaut 

approximativement 2 

√ 

p(1−p) 

n 

. 

• Elle est maximum lorsque p = 0.50, et vaut alors 

2 

√ 

0.50 × (1 − 0.50) 

n 

= 

√ 

√ 1 n 

• Par conséquent, si l’on souhaite estimer p par sondage aléatoire simple avec une 

marge d’erreur d’au plus 100 × x%, il suffit de prendre 

n ≥ 1 x 2 

• Voici le résultat de ce calcul pour quelques marges d’erreur: 

Marge d’erreur x 1% 2% 3% 4% 5% 10% 

Taille d’échantillon n 10000 2500 1112 625 400 100 


Sondage stratifié 

Motivation 

• Rappel: dans les sondages aléatoires simples, aucune information auxiliaire n’est 

utilisée durant le tirage de l’échantillon ou durant l’estimation. 

• Si la population d’intérêt est très hétérogène au niveau du Y d’intérêt (σY 2 grand), 

alors l’estimation de Ȳ peut être très imprécise. 

• Idée fondamentale des sondages stratifiés: effectuer un sondage aléatoire simple 

au sein de groupes (a priori) homogènes (en matière de Y ). 

Ex Estimation de la durée moyenne de travail domestique hebdomadaire: stratifier 

par sexe s’impose a priori. 


Sondage stratifié (2) 


• Soient: 

⊲ H le nombre de groupes (=strates), 

⊲ N h le nombre d’individus dans la strate h, 

⊲ Ȳh la moyenne de Y dans la strate h. 

⊲ n h le nombre d’individus sondés dans la strate h. 

Y i 

• La moyenne Ȳh = ∑ 

est estimée sans biais par ȳ h = ∑ Y i 

, càd la moyenne 

i∈G h 

N h i∈s h 

n h 

des données collectées dans la strate. 

• On sait que Ȳ = H ∑ 

h=1 

N h 

N 

Ȳh 

• On en déduit un estimateur sans biais de Ȳ : ∑ 

ˆȲ st = H N h 

h=1 N ȳh . 

C’est simplement la moyenne pondérée (par le poids de la strate h dans la population) 

des estimations obtenues dans chacune des strates. 



Ex On s’intéresse au nombre moyen d’employés dans 1060 entreprises. A l’aide 

de documents fiscaux, on dispose d’une variable auxiliaire donnant un ordre de 

grandeur pour ce nombre d’employés dans chacune des entreprises. 

Sur cette base les 1060 entreprises ont été classées en 5 groupes: celles avec de 

0 à 9 (500 entreprises), 10 à 19 (300), 20 à 49 (150), 50 à 499 (100) ou plus de 

500 (10 entreprises) employés. 

Un sondage aléatoire simple a été réalisé dans chacun de ces groupes auprès de, 

respectivement, 130, 80, 60, 25 et 5 entreprises, soit 300 au total. Dans chacune 

des entreprises sondées, les employés ont été comptés. Les moyennes (variances) 

suivantes ont alors été calculées dans chaque groupe: 5 (1.5), 12 (4), 30 (8), 150 

(100) et 600 (2500) respectivement. 

Sur base de ces informations, donnons une estimation sans biais du nombre moyen 

d’employés dans les 1060 entreprises. 



Nous pouvons résumer les informations communiquées par 

Strate 

(# employés) N h n h ȳ h s 2 h 

0–9 500 130 5 1.5 

10–19 300 80 12 4 

20–49 150 60 30 8 

50-499 100 25 150 100 

> 500 10 5 600 2500 

Total 1060 300 

ˆȲ st = H ∑ 

h=1 

N h 

N ȳh = 500 

1060 × 5 + . . . + 10 

1060 

× 600 = 29.8 employés. 



Variance de la moyenne 

V( ˆȲ st ) = V 

⎛ 

⎞ 

H∑ N 

⎝ h 

h=1 N ȳh 

∑ 

⎠ = H ⎛ 

h=1 

⎝ N h 

N 

⎞2 

⎠ 

V(ȳ h ) = H ∑ 

h=1 

⎛ 

⎝ N h 

N 

⎞2 

⎠ 

(1 − f h ) σ2 h 

n h 

où f h = n h /N h est le taux de sondage dans la strate h et σ 2 h la variance de Y 

dans cette strate. 

• Elle peut être estimée par ˆV( ˆȲ st ) = H ∑ 

Remarques 

h=1 

⎛ 

⎝ N h 

N 

⎞2 

⎠ 

(1 − f h ) s2 h 

n h 

• La variance est donc d’autant plus petite que les variances σ 2 h le sont. 

• Cela est d’autant plus vrai que la variable auxiliaire utilisée pour construire les 

strates est corrélée avec la variable d’intérêt Y . 



Intervalle de confiance pour la moyenne 

Sous certaines conditions (. . . ), un intervalle de confiance (approximatif) 95% est 

donné par 

IC(Ȳ ) = ˆȲ 

√ 

st ± 2 ˆV( ˆȲ st ) 

Ex (suite) Construisons un ensemble de valeurs plausibles pour le nombre moyen 

d’employés dans les 1060 entreprises. 

ˆV( ˆȲ st ) = 

H ∑ 

h=1 

⎛ 

N ⎞2 

h 

⎝ ⎠ 

N 

⎛ 

= 

500 

⎞2 

⎛ 

⎝ ⎠ × 

1060 

= 0.055 = 0.235 2 

(1 − f h ) s2 h 

n h 

⎞ 

⎝1 − 130 ⎠ × 1.5 

⎛ 

500 130 + . . . + 10 ⎝ 

1060 

⎞2 

⎠ 

⎛ 

× ⎝1 − 5 10 

⎞ 

⎠ × 2500 

5 

L’intervalle recherché est donc 

29.8 ± 2 √ 0.235 2 = (29.3, 30.3) employés. 



Choix de n h : l’allocation proportionnelle 

• C’est la méthode de détermination de n h la plus fréquemment utilisée car, pour 

beaucoup, c’est la plus naturelle et la plus ”facile” à mettre en oeuvre: 

n h 

n = N h 

N 

Ex Le pourcentage d’habitants par région en Belgique est 58%(= N 1 /N) 

en Flandre, 32%(= N 2 /N) en Wallonie et 10%(= N 3 /N) à Bruxelles. 

Si on stratifie par région, n = 500 individus sondés pourraient se répartir 

selon la même clé, càd 290, 160 et 50 respectivement (n h = n × N h /N). 

• La taille d’échantillon par strate est proport. au poids de la strate dans la population: 

l’échantillon est un modèle réduit de la population vis-à-vis de l’auxiliaire. 

• Comme le sondage est aléatoire simple dans chaque strate, on déduit que la probabilité 

qu’un individu i, appartenant à la strate h, soit choisi vaut 

P i = Pr(Etre choisi | strate h) = f h = n h 

N h 

= n N = f 

L’allocation proportionnelle assure donc que tous les individus ont la même probabilité 

d’étre sondé: le taux de sondage est le même dans toutes les strates. 



Il existe des alternatives à l’allocation proportionnelle qui intègrent une dimension de 

coût dans la procédure d’échantillonnage. 

Choix de n h en allocation proportionnelle avec un budget C 

• Supposons, par ex, que 

⊲ le nombre H de strates soit fixé, 

⊲ une allocation proportionnelle soit considérée, 

⊲ le budget disponible soit C avec un coût c h par unité dans la strate h. 

Combien d’individus va-t-on interroger dans chacune des strates 

Ex Enquête réalisée en Wallonnie et à Bruxelles avec un coût moyen HTVA de, 

respectivement, 1.10 et de 0.90 euros par personne interrogée: 

Combien de personnes va-t-on interroger dans chacune des régions avec un budget 

global de 1000 euros 

Pour rappel, les wallons représentent ≈ 76% de la population en Wallonie-BXL. 



• Les tailles d’échantillons par strate doivent vérifier l’égalité 

C = H ∑ 

h=1 

n h c h 

• Comme l’allocation est proportionnelle, nous avons: n h = N h 

N 

n 

• Par conséquent, 

C = H ∑ 

h=1 

N h 

N n c h ⇔ n = 

H∑ 

h=1 

C 

N h 

N c h 

Ex (suite): 1000 = n 1 × 1.10 + n 2 × 0.90 = 0.76n × 1.10 + 0.24n × 0.90 

En conclusion, 

n ≈ 

1000 

0.76 × 1.10 + 0.24 × 0.90 

= 950.57 > 950 

⇒ n 1 = 0.76 × 950 = 722 ; n 2 = 0.24 × 950 = 228 

avec un coût total de 722 × 1.10 + 228 × 0.90 = 999.40 euros. 



Choix de n h : allocation optimale de Neyman pour un budget C 

• Tout en contrôlant le coût total de collecte C, on peut déterminer n h de façon à 

minimiser la variance de l’estimateur, V( ˆȲ st ). 

• On peut démontrer (multiplicateurs de Lagrange. . . ) que l’allocation optimale est 

n h = N h S h 

√ 

ch 

∑ 

l 

C 

√ ∝ N h S h 

√ 

N l S l cl ch 

• Cette allocation de Neyman prévilégie donc les strates 

⊲ comprenant un nombre important d’invidus, 

⊲ avec une grande variabilité pour la réponse: c’est là qu’il y a le plus 

d’information à collecter, 

⊲ avec un plus faible coût de collecte par unité. 



Ex (suite) Supposons que la variabilité de Y soit la même en Wallonie qu’à Bruxelles, 

càd que S 1 = S 2 = S. 

En se rappelant que N 1 = 0.76N et N 2 = 0.24N, et la formule de Neyman, 

on a 

n h = N h S h 

√ 

ch 

∑ 

l 

C 

√ ∝ N h S h 

√ 

N l S l cl ch 

n 1 = 0.76N × S √ 

1.10 

× 1000 

0.76N × S × √ 1.10 + 0.24N × S × √ 0.90 

n 2 = 0.24N × S √ 

0.90 

× 1000 

0.76N × S × √ 1.10 + 0.24N × S × √ 0.90 

= 707.11 > 707 

= 246.86 > 246 

• On interrogera donc un total de 953 (=707+246 ) personnes pour un coût de 

707 × 1.10 + 246 × 0.90 = 999.10 euros 

• Une plus grande précision est attendue dans l’estimation de la moyenne qu’avec 

l’allocation proportionnelle (à coût identique). 



Ex (suite) Reprenons l’exemple précédent en supposant cette fois que des sondages 

antérieurs suggèrent que la variabilité de Y soit 20% supérieure en Wallonie, càd que 

S 1 = 1.20S 2 . 

La formule de Neyman suggère 

n 1 = 0.76N × 1.20S 2 

√ × 1.10 

= 734.30 > 734 

1000 

0.76N × 1.20S 2 × √ 1.10 + 0.24N × S 2 × √ 0.90 

n 2 = 0.24N × S 2 

√ × 0.90 

1000 

0.76N × 1.20S 2 × √ 1.10 + 0.24N × S 2 × √ 0.90 

= 213.63 > 213 

• On interrogera donc un total de 947 (=734+213 ) personnes pour un coût total de 

734 × 1.10 + 213 × 0.90 = 999.10 euros 

• La variabilité de Y étant supérieure en Wallonie, il est suggéré d’y interroger plus 

de personnes que dans le cas précédent. 



Remarques 

• L’allocation de Neyman requiert une estimation de σ 2 h. 

• Une mauvaise estimation de σ 2 h n’induit pas de biais dans l’estimation de Ȳ . 

• Si σ 2 h est correctement estimé, on a 

V opt ( ˆȲ st ) ≤ V prop ( ˆȲ st ) ≤ V( ˆȲ aleat.simple ) 

Le gain en précision en passant du proportionnel à l’optimal n’est important que 

si les σ 2 h sont très différents. 

• La recherche d’optimalité concerne la précision dans l’estimation de Ȳ . Les 

moyennes par strate, Ȳ h , pourraient être estimées imprécisément, en particulier 

dans les petites strates (puisque n h est proportionnel à N h ). 



Choix des strates 

• La stratification se fait à l’aide des variables auxiliaires de la base de sondage les 

plus corrélées avec la réponse Y . 

• En théorie, le nombre de strates doit être aussi élevé que possible. 

• Cependant, au-delà d’un certain nombre, 

⊲ le gain en précision escompté devient marginal ; 

⊲ les σh 2 deviennent difficiles à estimer dans les strates à faibles effectifs. Ces 

estimations peuvent également induire des coûts non négligeables si elles 

nécessitent une étude pilote. 



Estimation d’une proportion 

• A chaque individu i de la population est associée un variable 0-1 (binaire) Y i , la 

valeur 1 indiquant que la caractéristique d’intérêt est présente. 

• Dans ce cas particulier, Ȳ = π où π est la proportion (à estimer) d’individus dans 

la population avec la caractéristique d’intérêt. 

• Le rôle de Ȳh sera joué par π h qui est la proportion précédente au niveau de la 

sous-population correspondant à la strate h. 

• Le rôle de l’estimateur ȳ h de Ȳh sera joué par p h qui estime π h . Lorsque l’échantillon 

dans chaque strate est aléatoire simple, on a simplement f h = n h /N h . 

• Sous cette condition, la variance de p h est 

V(p h ) = (1 − f h ) π h(1 − π h ) 

n h 

où f h = n h /N h est le taux de sondage dans la strate h. 



• La théorie précédente concernant 

Ȳ s’applique sans modification à π. 

• Nous avons donc, avec les mêmes notations que précédemment: 

Estimation sans biais de π 

p st = ˆπ st = H ∑ 

h=1 

N h 

N p h 

Variance de l’estimateur 

V(p st ) = H ∑ 

Cette variance est estimée par 

h=1 

ˆV(p st ) = H ∑ 

h=1 

⎛ 

⎝ N h 

N 

⎛ 

⎝ N h 

N 

⎞2 

⎠ 

⎞2 

⎠ 

(1 − f h ) π h(1 − π h ) 

n h 

(1 − f h ) p h(1 − p h ) 

n h 

Intervalle de confiance 95% 

IC(π) = p st ± 2 

√ˆV(pst ) 



Ex Une enquête menée dans une entreprise employant 7500 personnes a pour objectif 

de déterminer la proportion d’employés disposant d’une voiture personnelle. 

Une variable auxiliaire suggérée est le revenu de ces personnes: elles sont classées 

en 3 groupes: -1- revenus bas (3500 employés) ; -2- revenus moyens (2000 employés) 

; -3- revenus élevés (2000 employés). Un sondage aléatoire simple a été 

mené dans chacun de ces groupes auprès de, respectivement, 500, 300 et 200 personnes. 

Parmi elles, 65, 135 et 100 ont déclaré disposer d’une voiture personnelle. 

• Nous avons donc N 1 = 3500, N 2 = 2000 et N 3 = 2000 ; n 1 = 500, n 2 = 300 et 

n 3 = 200 ; p 1 = 65 

n 1 

= 0.13, p 2 = 135 

n 2 

= 0.45 et p 3 = 100 

n 3 

= 0.50. 

• Estimons la proportion recherchée: 

p st = ˆπ st = H ∑ 

h=1 

N h 

N p h = 3500 

7500 

× 0.13 + 

2000 

7500 

× 0.45 + 

2000 

7500 

× 0.50 = 0.314 

• Dérivons également un ensemble de valeurs plausibles pour cette proportion: 

IC(π) = p st ± 2 

√ˆV(pst ) 



Or 

ˆV(p st ) = 

= 

+ 

+ 

H ∑ 

⎛ 

N ⎞2 

h 

⎝ ⎠ 

h=1 N 

⎛ 

3500 

⎞ 

⎝ ⎠ 

7500 

⎛ 

2000 

⎞ 

⎝ ⎠ 

7500 

⎛ 

2000 

⎞ 

⎝ ⎠ 

7500 

2 

2 

2 

× 

× 

× 

(1 − f h ) p h(1 − p h ) 

⎛ 

⎝1 − 500 

3500 

⎛ 

⎝1 − 300 

2000 

⎛ 

⎝1 − 200 

2000 

n h 

⎞ 

⎠ × 

⎞ 

⎠ × 

⎞ 

⎠ × 

Un ensemble de valeurs plausibles pour π est donc 

0.13 × (1 − 0.13) 

500 

0.45 × (1 − 0.45) 

300 

0.50 × (1 − 0.50) 

200 

= 0.013 2 

0.314 ± 2 × 0.013 = (0.29, 0.34). 


Sondage à plusieurs degrés 

Principes de base 

• Parmi les désavantages des sondages aléatoires simple et stratifié, citons: 

⊲ 

⊲ 

la nécessité de disposer d’une base de sondage complète, 

les coûts de déplacement lorsque la présence physique d’un enquêteur auprès 

de chaque interviewé est nécessaire. 

• Le sondage à plusieurs degrés permet de limiter ces inconvénients. 

L’idée est d’effectuer l’échantillonnage en plusieurs phases ou degrés. 

• Degré 1: sélection d’unités primaires (UPs) 

Les UPs correspondent, la plupart du temps, à des entités (ex: géographiques) 

disjointes qui partitionnent le ”territoire” qui doit être sondé (ex: les communes ; 

des bureaux de vote ; des caisses de produits manufacturés ; des médecins). 

Un échantillon d’UPs est sélectionné à l’aide d’une procédure adéquate (ex: par 

sondage aléatoire simple ou à l’aide d’un sondage avec probabilités de sélection 

proportionnelles au nombre d’unités dans chaque entité). 


Sondage à plusieurs degrés (2) 

• Degré 2: sondage à l’intérieur de chaque UP 

Un sondage aléatoire simple ou stratifié pourrait être envisagé. 

• Le 1er degré permet de réduire les coûts (ex: par la concentration des interviews 

à réaliser sur des poches du territoire ; par des sondages à la sortie des 

bureaux de vote sélectionnés ; par l’ouverture des caisses désignées par le 1er 

degré du sondage ; par l’examen approfondi des prescriptions faites aux patients 

des médecins sélectionnés). 

Dans le 1er exemple, il est alors envisageable de former des équipes d’enquêteurs 

pour chacune des UPs et de les resolliciter à l’occasion d’autres sondages. 

• Il n’est pas nécessaire de disposer d’une base de sondage dans les UPs non retenues 

si la sélection des UPs se fait par sondage aléatoire simple. 

• Si on souhaite sélectionner les UPs par sondage avec probabilités de sélection proportionnelles 

au nombre d’individus dans chaque UP, il faut au minimum connaître 

les effectifs dans chacune des UPs. 



Estimation du total 

• Si on numérote les M unités primaires avec un indice i, alors la probabilité P ij 

que le jème individu de l’UP i soit sélectionné vaut 

P ij = P(j selectionne|j ∈ UP i ) × P(UP i selectionnee) 

• Si m UPs sont sélectionnées parmi les M par sondage aléatoire simple, alors 

P(UP i selectionnee) = m M 

• Si n i individus sont sélectionnés par sondage aléatoire simple parmi les N i personnes 

de la ième UP, alors 

P(j selectionne|j ∈ UP i ) = n i 

N i 

• Par conséquent, avec un sondage aléatoire simple à chaque degré: 

P ij = n i 

N i 

× m M 

La probabilité de sélection n’est donc pas nécessairement la même pour tout le 

monde!! (sauf si le taux de sondage n i /N i est le même dans chaque UP). 



Notations 

⊲ 

⊲ 

s est l’ensemble des UP sélectionnées. 

s i est l’ensemble des individus sélectionnés dans la ième UP. 

• La formule générale de l’estimateur sans biais du total T reste d’actualité: 

ˆT = ∑ 

i:i∈s 

∑ Y ij 

j:j∈s i P ij 

• Si les 2 phases du sondages sont aléatoire simples, alors 

ˆT = M m 

∑ 

⎧ 

⎪⎨ 

⎪⎩ 

i:i∈s 

N i 

n i 

∑ 

j:j∈s i 

Y ij 

⎫ 

⎪⎬ 

⎪ ⎭ 

La connaissance de la taille totale N de la population n’est pas requise! 



Variance de ˆT 

• On peut calculer (expression non fournie) la variance V( ˆT ) de ˆT . Elle fait intervenir 

un terme lié au 1er degré (tirage des UPs) et un terme lié au 2ème degré (tirage 

des individus dans chaque UP). Le 1er terme est le plus grand en pratique. 

• Afin d’avoir une variance de taille raisonnable, on conseille de prendre des UPs 

⊲ de tailles N i sembables, 

⊲ de petites tailles, 

⊲ avec des comportements moyens Ȳi = T i /N i semblables. 

Ex Sondage auprès de n = 1000 ménages. Les 3 stratégies suivantes sont possibles: 

-1- 250 UPs avec 4 ménages par UP, 

-2- 500 UPs avec 2 ménages par UP, 

-3- 1000 UPs avec 1 ménage par UP. 

En terme de précision, -1- < -2- < -3-. 



Remarques 

• Les estimations obtenues avec un sondage à plusieurs degrés sont généralement 

moins précises qu’en travaillant avec un seul degré par sondage aléatoire simple. 

Il est en effet très fréquent qu’un effet grappe soit présent: les réponses enregistrées 

dans une même UP sont plus homogènes que dans la population totale. 

L’information accumulée est alors moins importante que dans un seul échantillon 

aléatoire simple de même taille. 

• Plus le nombre de degrés du sondage est élevé, moins grande est la précision des 

estimations. 


Autres sondages probabilistes 

• Il existe d’autres sondages probabilistes que ceux exposés jusqu’ici. Leur étude est 

post-posée à un cours plus avancé. 

• Citons parmi ces sondages: 

⊲ les sondages en grappes: c’est un sondage à plusieurs degrés où tous les 

individus du dernier degré sont interrogés. 

⊲ . . . 


Les sondages empiriques 

• Les sondages probabilistes sont de loin les plus recommendables car ils permettent 

un contrôle du bais et une évaluation des précisions obtenues. 

• Cependant, les sondages empiriques sont fréquemment utilisés en pratique. 

C’est notamment le cas lorsqu’on ne dispose pas d’une base de sondage ou 

lorsqu’un sondage probaliste est trop coûteux ou trop long à mettre en oeuvre. 

• Ce type de sondage est très fréquemment utilisé par les instituts de sondage privés. 

• Ce type de sondage doit être évité si cela est possible. 


Les sondages empiriques (2) 

La méthode des quotas 

• Le but de cette approche est de construire un échantillon dont la structure est la 

même que celle de la population. 

Ex Même proportion d’hommes dans l’échantillon que dans la population ; même 

répartition au niveau des âges. . . 

• Pour la qème catégorie, la méthode des quotas impose que n q 

n = N q 

N 

. Un enquêteur 

doit alors réunir un quota de n q personnes de la qème catégorie dans l’échantillon 

(exemple de feuille de quotas à la page suivante). 

• La plupart du temps, pour des raisons pratiques, les quotas imposés sur le terrain 

sont marginaux. 





• Hypothèse de travail: on peut tranposer les conclusions recueillies sur l’échantillon 

à la population entière. 

• Par définition de la moyenne, on sait que 

Ȳ = Q ∑ 

q=1 

N q 

N 

Ȳq 

• Si un quota est imposé sur Q catégories de population, on estime Ȳ par: 

ˆȲ = Q ∑ 

q=1 

n q 

n ȳq 

Remarques 

• La variance de ˆȲ ne peut pas être évaluée. 

• Le sondage probabiliste le plus sembable est le stratifié à allocation proportionnelle. 



La méthode des quotas: biais 

• La qualité de l’estimation repose sur l’homogénéité des groupes définis par les 

quotas. Il est donc souhaitable d’avoir un maximum de variables auxiliaires pour 

constituer les groupes. 

En pratique, pour les sondages d’opinion, on se limite souvent au sexe, à l’âge et 

à la catégorie socio-professionnelle. 

• Un biais apparaît s’il existe un lien entre la probabilité de sélection et la variable 

réponse Y pour une catégorie q donnée. 

• Afin de limiter ce biais, il est conseillé à chaque enquêteur d’étaler ses interviews sur 

l’ensemble de la journée, de couvrir l’ensemble du territoire qui lui est attribué. . . 

• Un sondage stratifié à allocation proportionnelle est d’autant plus précis que la 

taille d’échantillon n est grande: ce n’est pas le cas avec la méthode des quotas!! 



La méthode des quotas: remarques finales 

• Il est fréquent de privilégier la méthode des quotas pour les petits sondages (n ≤ 

1000). 

• Les quotas sont souvent utilisés lors d’enquêtes pilotes (préliminaires à un sondage 

probabiliste de taille conséquente). 

• La méthode des quotas est souvent combinée avec plusieurs degrés d’échantillonnage. 

Ex 1er degré: province ; 2ème degré: communes avec un quota par commune 

retenue ; 3ème degré: quartier. 

• Le problème de non-réponse existe également avec les quotas: certaines parties de 

la population ne sont jamais atteintes. 

• Il est pratiquement impossible de vérifier la qualité du travail des enquêteurs (sauf 

si les coordonnées complètes des sondés sont disponibles). 



• Il existe d’autres méthodes empiriques: 

⊲ 

⊲ 

⊲ 

la méthode des itinéraires: c’est la méthode des quotas avec un itinéraire 

imposé à chaque enquêteur. 

la méthode des unités-types: des individus sont pré-désignés pour représenter 

des sous-groupes de la population. Ex Calcul de l’audimat. 

l’échantillonnage de volontaires: les sondés sont recrutés sur base volontaire 

par courrier, par des magazines auprès de leur lectorat, via des sites internet. 

. . Cette méthode est à proscrire car elle induit des biais très importants.

STAT0002 - Statistique descriptive Transparents Philippe Lambert ...

Create successful ePaper yourself

Delete template?

Save as template?