STAT0002 - Statistique descriptive Transparents Philippe Lambert ...
STAT0002 - Statistique descriptive Transparents Philippe Lambert ...
STAT0002 - Statistique descriptive Transparents Philippe Lambert ...
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
<strong>STAT0002</strong> - <strong>Statistique</strong> <strong>descriptive</strong><br />
<strong>Transparents</strong><br />
<strong>Philippe</strong> <strong>Lambert</strong><br />
http : //www.statsoc.ulg.ac.be/statdescr.html<br />
Institut des Sciences Humaines et Sociales<br />
Université de Liège
Avertissement - Droits d’auteur<br />
Les supports de cours mis sur Internet ont pour seule<br />
vocation d’être utilisés par les étudiants dans le cadre<br />
de leur cursus au sein de l’Université de Liège. Aucun<br />
autre usage ni diffusion ne sont autorisés, sous peine<br />
de constituer une violation de la Loi du 30 juin 1994<br />
relative aux droits d’auteurs.<br />
Les supports de cours mis sur Internet ne représentent<br />
pas l’entièreté de la matière, mais constituent les<br />
notes de base indispensables et minimales à la bonne<br />
connaissance de celle-ci.<br />
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales
Ch 4: Les sondages (partie 2): les sondages probabilistes<br />
Préambule<br />
• Le fait de disposer d’un base de sondage de qualité permet au sondeur de maîtriser<br />
la probabilité qu’un individu donné soit questionné durant l’enquête.<br />
• Cette maîtrise permet d’élaborer des mesures de précision pour les estimateurs<br />
retenus pour les paramètres de population, et ainsi, en plus d’intervalles de valeurs<br />
plausibles pour ces derniers, de tester des hypothèses concernant cette population.<br />
• Nous limiterons notre intérêt aux paramètres de population suivants:<br />
N∑<br />
i=1<br />
Y i ; Ȳ = N ∑<br />
i=1<br />
1<br />
N Y i ; et plus généralement, θ = N ∑<br />
• Les estimateurs étudiés auront généralement la même forme:<br />
ˆθ(s) = ∑ W i (s)Y i<br />
i∈s<br />
où W i (s) est poids de sondage associé à l’observation i.<br />
i=1<br />
α i Y i .<br />
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 1
Préambule (2)<br />
• Si θ impliquait, par ex, des carrés de Y i , cette propriété serait également retenue<br />
pour l’estimateur correspondant.<br />
• La stratégie de sondage déterminera les poids de sondage W i (s).<br />
Définition<br />
P i : c’est la probabilité que l’individu i fasse partie de l’échantillon.<br />
• De cette définition, on déduit que<br />
P i =<br />
∑<br />
s: i∈s<br />
p(s) ≡ somme des probs. des sondages impliquant l’individu i<br />
• Si l’échantillon est de taille fixe n, alors<br />
N∑<br />
i=1<br />
P i = n<br />
où, pour rappel, n est la taille d’échantillon et N la taille de la population.<br />
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 2
Préambule (3)<br />
Ex Reprenons l’exemple du chapitre précédent avec une population notée symboliquement<br />
par {1, 2, 3, 4}. Les K = 6 échantillons possibles de taille n = 2 sont<br />
s 1 = {1, 2}, s 2 = {1, 3}, s 3 = {1, 4}, s 4 = {2, 3}, s 5 = {2, 4} et s 6 = {3, 4}.<br />
Cas 1 : le sondeur choisit au hasard un des 6 échantillons avec, chacun, la même<br />
probabilité 1/6 d’être sélectionné:<br />
P 1 = p(s 1 ) + p(s 2 ) + p(s 3 ) = 3/6 ; . . . ; P 4 = p(s 3 ) + p(s 5 ) + p(s 6 ) = 3/6<br />
⇒<br />
N ∑<br />
i=1<br />
P i = N × 3 6 = 2 = n<br />
Cas 2 : nous avions imposé p(s 1 ) = p(s 2 ) = p(s 4 ) = 3/15 et p(s 3 ) = p(s 5 ) =<br />
p(s 6 ) = 2/15. Cela implique que<br />
P 1 = p(s 1 ) + p(s 2 ) + p(s 3 ) = 8/15 ; P 2 = p(s 1 ) + p(s 4 ) + p(s 5 ) = 8/15<br />
P 3 = p(s 2 ) + p(s 4 ) + p(s 6 ) = 8/15 ; P 4 = p(s 3 ) + p(s 5 ) + p(s 6 ) = 6/15<br />
⇒<br />
N ∑<br />
i=1<br />
P i = 8 15 + 8 15 + 8 15 + 6 15 = 2 = n<br />
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 3
Sondage aléatoire simple<br />
Définition<br />
• N= taille de la population ; n= taille de l’échantillon.<br />
• Un sondage aléatoire simple est un échantillonnage sans remise où chaque individu<br />
a la même probabilité d’inclusion. Aucune information ”auxiliaire’ n’est<br />
utilisée.<br />
• Donc P 1 = . . . = P N et comme N ∑<br />
i=1<br />
P i = n, on a<br />
P i = n N<br />
= f = taux de sondage<br />
Ex Considérons une population de N = 20 personnes dont les salaires (inconnus<br />
du sondeurs) respectifs sont 1775, 1850, 1801, 1912, 1982, 1917, 2022, 1992,<br />
2127, 1963, 1880, 1976, 2058, 2104, 2078, 1898, 2150, 2040, 1985 et 1819 euros.<br />
Si un échantillon de n = 5 personnes est constitué, alors<br />
P 1 = . . . = P 20 = n N = 0.25 = f<br />
Chaque individu a 1 chance sur 4 d’être questionné.<br />
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 4
Sondage aléatoire simple (2)<br />
Estimation du total<br />
• Estimation sans biais du total T = N ∑<br />
En effet, on peut réécrire ˆT comme<br />
ˆT = ∑ i∈s<br />
Y i<br />
P i<br />
= N ∑<br />
⇒ E( ˆT ) = E<br />
i=1<br />
⎛<br />
N∑<br />
⎝<br />
i=1<br />
i=1<br />
Y i :<br />
ˆT = Y i 1<br />
P i1<br />
+ . . . + Y i n<br />
P in<br />
= ∑ i∈s<br />
Y i<br />
P i<br />
I i (s) avec I i (s) =<br />
Y i<br />
P i<br />
I i (s)<br />
⎞<br />
⎠ = N ∑<br />
i=1<br />
⎧<br />
⎪⎨<br />
⎪⎩<br />
Y i<br />
P i<br />
1 si i ∈ s avec prob. P i<br />
0 sinon avec prob. (1 − P i )<br />
Y i<br />
E(I i (s)) Bernoulli =<br />
P i<br />
N∑<br />
i=1<br />
Y i ∑<br />
P i = N Y i = T<br />
P i i=1<br />
• On voit que le poids de sondage associé à l’individu i dans l’estimation de T est<br />
W i (s) = 1/P i = N/n<br />
Tout fonctionne donc comme si chaque individu représentait N/n personnes de la<br />
population.<br />
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 5
Sondage aléatoire simple (3)<br />
Ex (suite) Intéressons-nous à l’estimation du revenu total (inconnu du sondeur) de<br />
∑<br />
ces 20 personnes, soit T = 20<br />
Y i = 1775 + . . . + 1819 = 39329 euros.<br />
i=1<br />
• Si les n = 5 personnes à questionner sont choisies par sondage aléatoire simple,<br />
alors P 1 = . . . = P 20 = n/N = 0.25 = f.<br />
• Imaginons que les personnes échantillonnées portent les étiquettes s = {6, 13, 5, 2, 19},<br />
càd i 1 = 6, i 2 = 13, i 3 = 5, i 4 = 2 et i 5 = 19. La théorie qui précède nous dit<br />
qu’un estimateur non biaisé de T est donné par<br />
ˆT = Y i 1<br />
+ . . . + Y i n<br />
= 1917<br />
P i1 P in 0.25 + 2058<br />
0.25 + 1982<br />
0.25 + 1850<br />
0.25 + 1985<br />
0.25<br />
• On peut réécrire la formule précédente avec les poids de sondages:<br />
= 39168 euros.<br />
ˆT = W i1 Y i1 +. . .+W in Y in = 4 × 1917+4 × 2058+4 × 1982+4 × 1850+4 × 1985<br />
mettant en évidence que chaque personne sondée est la “porte-parole” de 4 personnes<br />
de la population.<br />
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 6
Sondage aléatoire simple (4)<br />
Estimation de la moyenne<br />
• Comme Ȳ = T , on déduit qu’un estimateur sans biais de la moyenne est donné<br />
N<br />
par<br />
ˆȲ = ȳ<br />
En effet, comme P i = n/N en aléatoire simple,<br />
ˆȲ = ˆT<br />
N = ∑ i∈s<br />
Y i<br />
× 1 P i N = ∑ Y i<br />
i∈s n = ȳ<br />
• Autrement dit, pour estimer (sans bias) la moyenne d’une variable dans une population<br />
à l’aide d’un échantillon aléatoire simple, on prend simplement la moyenne<br />
arithmétique des données recueillies.<br />
Ex (suite) La moyenne inconnue vaut<br />
Ȳ = 1966.45 et est estimée (sans biais) par<br />
ȳ =<br />
1917 + 2058 + 1982 + 1850 + 1985<br />
n<br />
= 9792<br />
5<br />
= 1958.40 = . . . = ˆT<br />
N = 39168<br />
20<br />
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 7
Sondage aléatoire simple (5)<br />
Variance de ȳ<br />
• On peut démontrer que<br />
V(ȳ) = (1 − f) σ2<br />
n<br />
où σ 2 est la variance de Y dans la population.<br />
• Pour améliorer la précision dans l’estimation de<br />
⊲ augmenter la taille d’échantillon n,<br />
⊲ augmenter le taux de sondage f = n N .<br />
Ȳ , on peut donc<br />
• La variance σ 2 est un aspect sur lequel on ne peut pas agir. Plus la population<br />
est homogène en Y , plus l’estimation de Ȳ sera précise.<br />
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 8
Sondage aléatoire simple (6)<br />
Remarques<br />
• Le taux de sondage, f, apparaît dans la formule car on échantillonne sans remise<br />
(puisque qu’une même personne ne peut pas être comptabilisée plus d’une fois!).<br />
• Lorsque n ≪ N, on a f ≈ 0 et donc V(ȳ) ≈ σ 2 /n. La taille de la population n’a<br />
alors plus vraiment d’importance.<br />
• La variance de l’estimateur ˆT du total T est<br />
V( ˆT ) = N 2 (1 − f) σ2<br />
n<br />
• On estime σ 2 par<br />
s 2 = 1<br />
n − 1<br />
Cela permet d’estimer V(ȳ) par<br />
∑<br />
i∈s<br />
(Y i − ȳ) 2<br />
ˆV(ȳ) = (1 − f) s2<br />
n<br />
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 9
Sondage aléatoire simple (7)<br />
Intervalle de confiance pour la moyenne<br />
• Sous certaines conditions (. . . notamment n ≥ 20, N suffisamment grand par<br />
rapport à n. . . ), un intervalle de confiance (approximatif) 95% pour Ȳ est donné<br />
par<br />
IC(Ȳ ) = ȳ ± 2 √ √√√√<br />
(1 − f) s2<br />
n<br />
• Par définition, si on répète la procédure d’échantillonnage un grand nombre de<br />
fois, 95% des intervalles ainsi construits contiendront la valeur inconnue de la<br />
moyenne, Ȳ . Il s’agit donc d’une ensemble de valeurs plausibles pour Ȳ .<br />
Remarque<br />
L’IC(Ȳ ) associé à un sondage donné contient ou ne contient pas Ȳ .<br />
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 10
Sondage aléatoire simple (8)<br />
Ex Le ministère de l’agriculture souhaite estimer la surface totale cultivée par 2100<br />
fermes d’une région rurale. A cette fin, un sondage aléatoire simple est réalisé auprès de<br />
100 fermes pour lesquelles la surface totale cultivée est évaluée. Les résultats obtenus<br />
pour les 100 fermes sont:<br />
– somme des surfaces cultivées: 2907 ha (=hectares).<br />
– somme des carrés des surfaces cultivées: 154593 ha 2 .<br />
Sur base de ces informations,<br />
(a) estimons la surface cultivée en moyenne par une ferme de la région d’intérêt ;<br />
(b) donnons un ensemble de valeurs plausibles pour cette quantité.<br />
Les données sont donc N = 2100, n = 100, ∑ Y i = 2907, ∑<br />
i∈s<br />
i∈s<br />
Y 2<br />
i = 154593.<br />
(a) ˆȲ = ȳ = 1 n<br />
∑<br />
i∈s<br />
Y i = 2907<br />
100<br />
= 29.07 ha.<br />
(b) Ces valeurs sont données par l’intervalle de confiance ȳ ± 2<br />
√<br />
(1 − f) s2<br />
n .<br />
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 11
Sondage aléatoire simple (9)<br />
Or<br />
Donc<br />
ˆσ 2 =<br />
∑<br />
i∈s<br />
Y 2<br />
i<br />
n − ȳ2 = 154593 − 29.07 2 = 700.865<br />
100<br />
s 2 =<br />
n<br />
n − 1 ˆσ2 = 707.945<br />
Comme le taux de sondage vaut<br />
f = n N = 100<br />
2100 = 0.047 ,<br />
l’ensemble des valeurs plausibles demandé est<br />
√<br />
29.07 ± 2 √(1 − 0.047) × 707.945 = (23.9, 34.3)<br />
100<br />
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 12
Sondage aléatoire simple (10)<br />
Intervalle de confiance pour une proportion<br />
• Un cas particulier de la théorie précédente survient lorsque Y i est simplement un<br />
indicateur 0 − 1 pour l’individu i.<br />
Dans ce cas, Ȳ = ∑ N<br />
i=1 Y i<br />
N<br />
est la proportion π d’individus présentant la caractéristique<br />
d’intérêt dans la population cible.<br />
• L’estimateur non-biaisé vaut p = 1 n<br />
• La variance de p vaut<br />
V(p) = (1 − f) σ2<br />
n<br />
∑<br />
i∈s<br />
Bernoulli<br />
= (1 − f)<br />
Y i ≡ proportion de ‘1’ dans l’échantillon.<br />
π(1 − π)<br />
n<br />
≈ (1 − f)<br />
p(1 − p)<br />
n<br />
• Sous certaines conditions (. . . ), un intervalle de confiance 95% pour π est<br />
IC(π) = p ± 2<br />
√<br />
√<br />
(1 − f)<br />
p(1 − p)<br />
n<br />
• La marge d’erreur est la demi largeur de l’intervalle, soit 2<br />
√<br />
(1 − f) p(1−p)<br />
n<br />
.<br />
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 13
Sondage aléatoire simple (11)<br />
Ex Un sondage aléatoire simple est réalisé auprès de 150 étudiants d’une Faculté<br />
qui en compte 1500 pour déterminer s’ils sont satisfaits de l’orientation qu’ils ont<br />
choisie à l’université. Quelles sont les valeurs plausibles pour le taux de satisfaction<br />
sachant que 114 étudiants se sont dits satisfaits par leur choix<br />
• Nous avons n = 150, N = 1500 et ∑ i∈s<br />
Y i = 114.<br />
Le taux de sondage est f = n/N = 150/1500 = 0.1 = P i : chaque étudiant a<br />
donc 1 chance sur 10 d’être interrogé.<br />
• Une estimation (non biaisée) de la proportion π d’étudiants satisfaits de l’orientation<br />
choise parmi les 1500 de la population étudiée est<br />
∑<br />
i∈s Y i<br />
p = = 114 = 0.76 = 76%<br />
n 150<br />
• Un ensemble de valeur plausible pour π est donné par<br />
√<br />
IC(π) = p±2 √<br />
p(1 − p)<br />
(1 − f) = 0.76 ± 2 √<br />
0.76(1 − 0.76)<br />
(1 − 0.1) × = (0.69, 0.83)<br />
n<br />
150<br />
Il est donc raisonnable de penser qu’une majorité est satisfaite de son choix.<br />
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 14<br />
√
Sondage aléatoire simple (12)<br />
Marge d’erreur et taille d’échantillon<br />
• Lorsque le taux de sondage f = n/N est proche de 0, la marge d’erreur vaut<br />
approximativement 2<br />
√<br />
p(1−p)<br />
n<br />
.<br />
• Elle est maximum lorsque p = 0.50, et vaut alors<br />
2<br />
√<br />
0.50 × (1 − 0.50)<br />
n<br />
=<br />
√<br />
√ 1 n<br />
• Par conséquent, si l’on souhaite estimer p par sondage aléatoire simple avec une<br />
marge d’erreur d’au plus 100 × x%, il suffit de prendre<br />
n ≥ 1 x 2<br />
• Voici le résultat de ce calcul pour quelques marges d’erreur:<br />
Marge d’erreur x 1% 2% 3% 4% 5% 10%<br />
Taille d’échantillon n 10000 2500 1112 625 400 100<br />
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 15
Sondage stratifié<br />
Motivation<br />
• Rappel: dans les sondages aléatoires simples, aucune information auxiliaire n’est<br />
utilisée durant le tirage de l’échantillon ou durant l’estimation.<br />
• Si la population d’intérêt est très hétérogène au niveau du Y d’intérêt (σY 2 grand),<br />
alors l’estimation de Ȳ peut être très imprécise.<br />
• Idée fondamentale des sondages stratifiés: effectuer un sondage aléatoire simple<br />
au sein de groupes (a priori) homogènes (en matière de Y ).<br />
Ex Estimation de la durée moyenne de travail domestique hebdomadaire: stratifier<br />
par sexe s’impose a priori.<br />
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 16
Sondage stratifié (2)<br />
Estimation de la moyenne<br />
• Soient:<br />
⊲ H le nombre de groupes (=strates),<br />
⊲ N h le nombre d’individus dans la strate h,<br />
⊲ Ȳh la moyenne de Y dans la strate h.<br />
⊲ n h le nombre d’individus sondés dans la strate h.<br />
Y i<br />
• La moyenne Ȳh = ∑<br />
est estimée sans biais par ȳ h = ∑ Y i<br />
, càd la moyenne<br />
i∈G h<br />
N h i∈s h<br />
n h<br />
des données collectées dans la strate.<br />
• On sait que Ȳ = H ∑<br />
h=1<br />
N h<br />
N<br />
Ȳh<br />
• On en déduit un estimateur sans biais de Ȳ : ∑<br />
ˆȲ st = H N h<br />
h=1 N ȳh .<br />
C’est simplement la moyenne pondérée (par le poids de la strate h dans la population)<br />
des estimations obtenues dans chacune des strates.<br />
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 17
Sondage stratifié (3)<br />
Ex On s’intéresse au nombre moyen d’employés dans 1060 entreprises. A l’aide<br />
de documents fiscaux, on dispose d’une variable auxiliaire donnant un ordre de<br />
grandeur pour ce nombre d’employés dans chacune des entreprises.<br />
Sur cette base les 1060 entreprises ont été classées en 5 groupes: celles avec de<br />
0 à 9 (500 entreprises), 10 à 19 (300), 20 à 49 (150), 50 à 499 (100) ou plus de<br />
500 (10 entreprises) employés.<br />
Un sondage aléatoire simple a été réalisé dans chacun de ces groupes auprès de,<br />
respectivement, 130, 80, 60, 25 et 5 entreprises, soit 300 au total. Dans chacune<br />
des entreprises sondées, les employés ont été comptés. Les moyennes (variances)<br />
suivantes ont alors été calculées dans chaque groupe: 5 (1.5), 12 (4), 30 (8), 150<br />
(100) et 600 (2500) respectivement.<br />
Sur base de ces informations, donnons une estimation sans biais du nombre moyen<br />
d’employés dans les 1060 entreprises.<br />
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 18
Sondage stratifié (4)<br />
Nous pouvons résumer les informations communiquées par<br />
Strate<br />
(# employés) N h n h ȳ h s 2 h<br />
0–9 500 130 5 1.5<br />
10–19 300 80 12 4<br />
20–49 150 60 30 8<br />
50-499 100 25 150 100<br />
> 500 10 5 600 2500<br />
Total 1060 300<br />
ˆȲ st = H ∑<br />
h=1<br />
N h<br />
N ȳh = 500<br />
1060 × 5 + . . . + 10<br />
1060<br />
× 600 = 29.8 employés.<br />
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 19
Sondage stratifié (5)<br />
Variance de la moyenne<br />
V( ˆȲ st ) = V<br />
⎛<br />
⎞<br />
H∑ N<br />
⎝ h<br />
h=1 N ȳh<br />
∑<br />
⎠ = H ⎛<br />
h=1<br />
⎝ N h<br />
N<br />
⎞2<br />
⎠<br />
V(ȳ h ) = H ∑<br />
h=1<br />
⎛<br />
⎝ N h<br />
N<br />
⎞2<br />
⎠<br />
(1 − f h ) σ2 h<br />
n h<br />
où f h = n h /N h est le taux de sondage dans la strate h et σ 2 h la variance de Y<br />
dans cette strate.<br />
• Elle peut être estimée par ˆV( ˆȲ st ) = H ∑<br />
Remarques<br />
h=1<br />
⎛<br />
⎝ N h<br />
N<br />
⎞2<br />
⎠<br />
(1 − f h ) s2 h<br />
n h<br />
• La variance est donc d’autant plus petite que les variances σ 2 h le sont.<br />
• Cela est d’autant plus vrai que la variable auxiliaire utilisée pour construire les<br />
strates est corrélée avec la variable d’intérêt Y .<br />
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 20
Sondage stratifié (6)<br />
Intervalle de confiance pour la moyenne<br />
Sous certaines conditions (. . . ), un intervalle de confiance (approximatif) 95% est<br />
donné par<br />
IC(Ȳ ) = ˆȲ<br />
√<br />
st ± 2 ˆV( ˆȲ st )<br />
Ex (suite) Construisons un ensemble de valeurs plausibles pour le nombre moyen<br />
d’employés dans les 1060 entreprises.<br />
ˆV( ˆȲ st ) =<br />
H ∑<br />
h=1<br />
⎛<br />
N ⎞2<br />
h<br />
⎝ ⎠<br />
N<br />
⎛<br />
=<br />
500<br />
⎞2<br />
⎛<br />
⎝ ⎠ ×<br />
1060<br />
= 0.055 = 0.235 2<br />
(1 − f h ) s2 h<br />
n h<br />
⎞<br />
⎝1 − 130 ⎠ × 1.5<br />
⎛<br />
500 130 + . . . + 10 ⎝<br />
1060<br />
⎞2<br />
⎠<br />
⎛<br />
× ⎝1 − 5 10<br />
⎞<br />
⎠ × 2500<br />
5<br />
L’intervalle recherché est donc<br />
29.8 ± 2 √ 0.235 2 = (29.3, 30.3) employés.<br />
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 21
Sondage stratifié (7)<br />
Choix de n h : l’allocation proportionnelle<br />
• C’est la méthode de détermination de n h la plus fréquemment utilisée car, pour<br />
beaucoup, c’est la plus naturelle et la plus ”facile” à mettre en oeuvre:<br />
n h<br />
n = N h<br />
N<br />
Ex Le pourcentage d’habitants par région en Belgique est 58%(= N 1 /N)<br />
en Flandre, 32%(= N 2 /N) en Wallonie et 10%(= N 3 /N) à Bruxelles.<br />
Si on stratifie par région, n = 500 individus sondés pourraient se répartir<br />
selon la même clé, càd 290, 160 et 50 respectivement (n h = n × N h /N).<br />
• La taille d’échantillon par strate est proport. au poids de la strate dans la population:<br />
l’échantillon est un modèle réduit de la population vis-à-vis de l’auxiliaire.<br />
• Comme le sondage est aléatoire simple dans chaque strate, on déduit que la probabilité<br />
qu’un individu i, appartenant à la strate h, soit choisi vaut<br />
P i = Pr(Etre choisi | strate h) = f h = n h<br />
N h<br />
= n N = f<br />
L’allocation proportionnelle assure donc que tous les individus ont la même probabilité<br />
d’étre sondé: le taux de sondage est le même dans toutes les strates.<br />
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 22
Sondage stratifié (8)<br />
Il existe des alternatives à l’allocation proportionnelle qui intègrent une dimension de<br />
coût dans la procédure d’échantillonnage.<br />
Choix de n h en allocation proportionnelle avec un budget C<br />
• Supposons, par ex, que<br />
⊲ le nombre H de strates soit fixé,<br />
⊲ une allocation proportionnelle soit considérée,<br />
⊲ le budget disponible soit C avec un coût c h par unité dans la strate h.<br />
Combien d’individus va-t-on interroger dans chacune des strates <br />
Ex Enquête réalisée en Wallonnie et à Bruxelles avec un coût moyen HTVA de,<br />
respectivement, 1.10 et de 0.90 euros par personne interrogée:<br />
Combien de personnes va-t-on interroger dans chacune des régions avec un budget<br />
global de 1000 euros <br />
Pour rappel, les wallons représentent ≈ 76% de la population en Wallonie-BXL.<br />
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 23
Sondage stratifié (9)<br />
• Les tailles d’échantillons par strate doivent vérifier l’égalité<br />
C = H ∑<br />
h=1<br />
n h c h<br />
• Comme l’allocation est proportionnelle, nous avons: n h = N h<br />
N<br />
n<br />
• Par conséquent,<br />
C = H ∑<br />
h=1<br />
N h<br />
N n c h ⇔ n =<br />
H∑<br />
h=1<br />
C<br />
N h<br />
N c h<br />
Ex (suite): 1000 = n 1 × 1.10 + n 2 × 0.90 = 0.76n × 1.10 + 0.24n × 0.90<br />
En conclusion,<br />
n ≈<br />
1000<br />
0.76 × 1.10 + 0.24 × 0.90<br />
= 950.57 > 950<br />
⇒ n 1 = 0.76 × 950 = 722 ; n 2 = 0.24 × 950 = 228<br />
avec un coût total de 722 × 1.10 + 228 × 0.90 = 999.40 euros.<br />
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 24
Sondage stratifié (10)<br />
Choix de n h : allocation optimale de Neyman pour un budget C<br />
• Tout en contrôlant le coût total de collecte C, on peut déterminer n h de façon à<br />
minimiser la variance de l’estimateur, V( ˆȲ st ).<br />
• On peut démontrer (multiplicateurs de Lagrange. . . ) que l’allocation optimale est<br />
n h = N h S h<br />
√<br />
ch<br />
∑<br />
l<br />
C<br />
√ ∝ N h S h<br />
√<br />
N l S l cl ch<br />
• Cette allocation de Neyman prévilégie donc les strates<br />
⊲ comprenant un nombre important d’invidus,<br />
⊲ avec une grande variabilité pour la réponse: c’est là qu’il y a le plus<br />
d’information à collecter,<br />
⊲ avec un plus faible coût de collecte par unité.<br />
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 25
Sondage stratifié (11)<br />
Ex (suite) Supposons que la variabilité de Y soit la même en Wallonie qu’à Bruxelles,<br />
càd que S 1 = S 2 = S.<br />
En se rappelant que N 1 = 0.76N et N 2 = 0.24N, et la formule de Neyman,<br />
on a<br />
n h = N h S h<br />
√<br />
ch<br />
∑<br />
l<br />
C<br />
√ ∝ N h S h<br />
√<br />
N l S l cl ch<br />
n 1 = 0.76N × S √<br />
1.10<br />
× 1000<br />
0.76N × S × √ 1.10 + 0.24N × S × √ 0.90<br />
n 2 = 0.24N × S √<br />
0.90<br />
× 1000<br />
0.76N × S × √ 1.10 + 0.24N × S × √ 0.90<br />
= 707.11 > 707<br />
= 246.86 > 246<br />
• On interrogera donc un total de 953 (=707+246 ) personnes pour un coût de<br />
707 × 1.10 + 246 × 0.90 = 999.10 euros<br />
• Une plus grande précision est attendue dans l’estimation de la moyenne qu’avec<br />
l’allocation proportionnelle (à coût identique).<br />
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 26
Sondage stratifié (12)<br />
Ex (suite) Reprenons l’exemple précédent en supposant cette fois que des sondages<br />
antérieurs suggèrent que la variabilité de Y soit 20% supérieure en Wallonie, càd que<br />
S 1 = 1.20S 2 .<br />
La formule de Neyman suggère<br />
n 1 = 0.76N × 1.20S 2<br />
√ × 1.10<br />
= 734.30 > 734<br />
1000<br />
0.76N × 1.20S 2 × √ 1.10 + 0.24N × S 2 × √ 0.90<br />
n 2 = 0.24N × S 2<br />
√ × 0.90<br />
1000<br />
0.76N × 1.20S 2 × √ 1.10 + 0.24N × S 2 × √ 0.90<br />
= 213.63 > 213<br />
• On interrogera donc un total de 947 (=734+213 ) personnes pour un coût total de<br />
734 × 1.10 + 213 × 0.90 = 999.10 euros<br />
• La variabilité de Y étant supérieure en Wallonie, il est suggéré d’y interroger plus<br />
de personnes que dans le cas précédent.<br />
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 27
Sondage stratifié (13)<br />
Remarques<br />
• L’allocation de Neyman requiert une estimation de σ 2 h.<br />
• Une mauvaise estimation de σ 2 h n’induit pas de biais dans l’estimation de Ȳ .<br />
• Si σ 2 h est correctement estimé, on a<br />
V opt ( ˆȲ st ) ≤ V prop ( ˆȲ st ) ≤ V( ˆȲ aleat.simple )<br />
Le gain en précision en passant du proportionnel à l’optimal n’est important que<br />
si les σ 2 h sont très différents.<br />
• La recherche d’optimalité concerne la précision dans l’estimation de Ȳ . Les<br />
moyennes par strate, Ȳ h , pourraient être estimées imprécisément, en particulier<br />
dans les petites strates (puisque n h est proportionnel à N h ).<br />
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 28
Sondage stratifié (14)<br />
Choix des strates<br />
• La stratification se fait à l’aide des variables auxiliaires de la base de sondage les<br />
plus corrélées avec la réponse Y .<br />
• En théorie, le nombre de strates doit être aussi élevé que possible.<br />
• Cependant, au-delà d’un certain nombre,<br />
⊲ le gain en précision escompté devient marginal ;<br />
⊲ les σh 2 deviennent difficiles à estimer dans les strates à faibles effectifs. Ces<br />
estimations peuvent également induire des coûts non négligeables si elles<br />
nécessitent une étude pilote.<br />
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 29
Sondage stratifié (15)<br />
Estimation d’une proportion<br />
• A chaque individu i de la population est associée un variable 0-1 (binaire) Y i , la<br />
valeur 1 indiquant que la caractéristique d’intérêt est présente.<br />
• Dans ce cas particulier, Ȳ = π où π est la proportion (à estimer) d’individus dans<br />
la population avec la caractéristique d’intérêt.<br />
• Le rôle de Ȳh sera joué par π h qui est la proportion précédente au niveau de la<br />
sous-population correspondant à la strate h.<br />
• Le rôle de l’estimateur ȳ h de Ȳh sera joué par p h qui estime π h . Lorsque l’échantillon<br />
dans chaque strate est aléatoire simple, on a simplement f h = n h /N h .<br />
• Sous cette condition, la variance de p h est<br />
V(p h ) = (1 − f h ) π h(1 − π h )<br />
n h<br />
où f h = n h /N h est le taux de sondage dans la strate h.<br />
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 30
Sondage stratifié (16)<br />
• La théorie précédente concernant<br />
Ȳ s’applique sans modification à π.<br />
• Nous avons donc, avec les mêmes notations que précédemment:<br />
Estimation sans biais de π<br />
p st = ˆπ st = H ∑<br />
h=1<br />
N h<br />
N p h<br />
Variance de l’estimateur<br />
V(p st ) = H ∑<br />
Cette variance est estimée par<br />
h=1<br />
ˆV(p st ) = H ∑<br />
h=1<br />
⎛<br />
⎝ N h<br />
N<br />
⎛<br />
⎝ N h<br />
N<br />
⎞2<br />
⎠<br />
⎞2<br />
⎠<br />
(1 − f h ) π h(1 − π h )<br />
n h<br />
(1 − f h ) p h(1 − p h )<br />
n h<br />
Intervalle de confiance 95%<br />
IC(π) = p st ± 2<br />
√ˆV(pst )<br />
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 31
Sondage stratifié (17)<br />
Ex Une enquête menée dans une entreprise employant 7500 personnes a pour objectif<br />
de déterminer la proportion d’employés disposant d’une voiture personnelle.<br />
Une variable auxiliaire suggérée est le revenu de ces personnes: elles sont classées<br />
en 3 groupes: -1- revenus bas (3500 employés) ; -2- revenus moyens (2000 employés)<br />
; -3- revenus élevés (2000 employés). Un sondage aléatoire simple a été<br />
mené dans chacun de ces groupes auprès de, respectivement, 500, 300 et 200 personnes.<br />
Parmi elles, 65, 135 et 100 ont déclaré disposer d’une voiture personnelle.<br />
• Nous avons donc N 1 = 3500, N 2 = 2000 et N 3 = 2000 ; n 1 = 500, n 2 = 300 et<br />
n 3 = 200 ; p 1 = 65<br />
n 1<br />
= 0.13, p 2 = 135<br />
n 2<br />
= 0.45 et p 3 = 100<br />
n 3<br />
= 0.50.<br />
• Estimons la proportion recherchée:<br />
p st = ˆπ st = H ∑<br />
h=1<br />
N h<br />
N p h = 3500<br />
7500<br />
× 0.13 +<br />
2000<br />
7500<br />
× 0.45 +<br />
2000<br />
7500<br />
× 0.50 = 0.314<br />
• Dérivons également un ensemble de valeurs plausibles pour cette proportion:<br />
IC(π) = p st ± 2<br />
√ˆV(pst )<br />
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 32
Sondage stratifié (18)<br />
Or<br />
ˆV(p st ) =<br />
=<br />
+<br />
+<br />
H ∑<br />
⎛<br />
N ⎞2<br />
h<br />
⎝ ⎠<br />
h=1 N<br />
⎛<br />
3500<br />
⎞<br />
⎝ ⎠<br />
7500<br />
⎛<br />
2000<br />
⎞<br />
⎝ ⎠<br />
7500<br />
⎛<br />
2000<br />
⎞<br />
⎝ ⎠<br />
7500<br />
2<br />
2<br />
2<br />
×<br />
×<br />
×<br />
(1 − f h ) p h(1 − p h )<br />
⎛<br />
⎝1 − 500<br />
3500<br />
⎛<br />
⎝1 − 300<br />
2000<br />
⎛<br />
⎝1 − 200<br />
2000<br />
n h<br />
⎞<br />
⎠ ×<br />
⎞<br />
⎠ ×<br />
⎞<br />
⎠ ×<br />
Un ensemble de valeurs plausibles pour π est donc<br />
0.13 × (1 − 0.13)<br />
500<br />
0.45 × (1 − 0.45)<br />
300<br />
0.50 × (1 − 0.50)<br />
200<br />
= 0.013 2<br />
0.314 ± 2 × 0.013 = (0.29, 0.34).<br />
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 33
Sondage à plusieurs degrés<br />
Principes de base<br />
• Parmi les désavantages des sondages aléatoires simple et stratifié, citons:<br />
⊲<br />
⊲<br />
la nécessité de disposer d’une base de sondage complète,<br />
les coûts de déplacement lorsque la présence physique d’un enquêteur auprès<br />
de chaque interviewé est nécessaire.<br />
• Le sondage à plusieurs degrés permet de limiter ces inconvénients.<br />
L’idée est d’effectuer l’échantillonnage en plusieurs phases ou degrés.<br />
• Degré 1: sélection d’unités primaires (UPs)<br />
Les UPs correspondent, la plupart du temps, à des entités (ex: géographiques)<br />
disjointes qui partitionnent le ”territoire” qui doit être sondé (ex: les communes ;<br />
des bureaux de vote ; des caisses de produits manufacturés ; des médecins).<br />
Un échantillon d’UPs est sélectionné à l’aide d’une procédure adéquate (ex: par<br />
sondage aléatoire simple ou à l’aide d’un sondage avec probabilités de sélection<br />
proportionnelles au nombre d’unités dans chaque entité).<br />
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 34
Sondage à plusieurs degrés (2)<br />
• Degré 2: sondage à l’intérieur de chaque UP<br />
Un sondage aléatoire simple ou stratifié pourrait être envisagé.<br />
• Le 1er degré permet de réduire les coûts (ex: par la concentration des interviews<br />
à réaliser sur des poches du territoire ; par des sondages à la sortie des<br />
bureaux de vote sélectionnés ; par l’ouverture des caisses désignées par le 1er<br />
degré du sondage ; par l’examen approfondi des prescriptions faites aux patients<br />
des médecins sélectionnés).<br />
Dans le 1er exemple, il est alors envisageable de former des équipes d’enquêteurs<br />
pour chacune des UPs et de les resolliciter à l’occasion d’autres sondages.<br />
• Il n’est pas nécessaire de disposer d’une base de sondage dans les UPs non retenues<br />
si la sélection des UPs se fait par sondage aléatoire simple.<br />
• Si on souhaite sélectionner les UPs par sondage avec probabilités de sélection proportionnelles<br />
au nombre d’individus dans chaque UP, il faut au minimum connaître<br />
les effectifs dans chacune des UPs.<br />
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 35
Sondage à plusieurs degrés (3)<br />
Estimation du total<br />
• Si on numérote les M unités primaires avec un indice i, alors la probabilité P ij<br />
que le jème individu de l’UP i soit sélectionné vaut<br />
P ij = P(j selectionne|j ∈ UP i ) × P(UP i selectionnee)<br />
• Si m UPs sont sélectionnées parmi les M par sondage aléatoire simple, alors<br />
P(UP i selectionnee) = m M<br />
• Si n i individus sont sélectionnés par sondage aléatoire simple parmi les N i personnes<br />
de la ième UP, alors<br />
P(j selectionne|j ∈ UP i ) = n i<br />
N i<br />
• Par conséquent, avec un sondage aléatoire simple à chaque degré:<br />
P ij = n i<br />
N i<br />
× m M<br />
La probabilité de sélection n’est donc pas nécessairement la même pour tout le<br />
monde!! (sauf si le taux de sondage n i /N i est le même dans chaque UP).<br />
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 36
Sondage à plusieurs degrés (4)<br />
Notations<br />
⊲<br />
⊲<br />
s est l’ensemble des UP sélectionnées.<br />
s i est l’ensemble des individus sélectionnés dans la ième UP.<br />
• La formule générale de l’estimateur sans biais du total T reste d’actualité:<br />
ˆT = ∑<br />
i:i∈s<br />
∑ Y ij<br />
j:j∈s i P ij<br />
• Si les 2 phases du sondages sont aléatoire simples, alors<br />
ˆT = M m<br />
∑<br />
⎧<br />
⎪⎨<br />
⎪⎩<br />
i:i∈s<br />
N i<br />
n i<br />
∑<br />
j:j∈s i<br />
Y ij<br />
⎫<br />
⎪⎬<br />
⎪ ⎭<br />
La connaissance de la taille totale N de la population n’est pas requise!<br />
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 37
Sondage à plusieurs degrés (5)<br />
Variance de ˆT<br />
• On peut calculer (expression non fournie) la variance V( ˆT ) de ˆT . Elle fait intervenir<br />
un terme lié au 1er degré (tirage des UPs) et un terme lié au 2ème degré (tirage<br />
des individus dans chaque UP). Le 1er terme est le plus grand en pratique.<br />
• Afin d’avoir une variance de taille raisonnable, on conseille de prendre des UPs<br />
⊲ de tailles N i sembables,<br />
⊲ de petites tailles,<br />
⊲ avec des comportements moyens Ȳi = T i /N i semblables.<br />
Ex Sondage auprès de n = 1000 ménages. Les 3 stratégies suivantes sont possibles:<br />
-1- 250 UPs avec 4 ménages par UP,<br />
-2- 500 UPs avec 2 ménages par UP,<br />
-3- 1000 UPs avec 1 ménage par UP.<br />
En terme de précision, -1- < -2- < -3-.<br />
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 38
Sondage à plusieurs degrés (6)<br />
Remarques<br />
• Les estimations obtenues avec un sondage à plusieurs degrés sont généralement<br />
moins précises qu’en travaillant avec un seul degré par sondage aléatoire simple.<br />
Il est en effet très fréquent qu’un effet grappe soit présent: les réponses enregistrées<br />
dans une même UP sont plus homogènes que dans la population totale.<br />
L’information accumulée est alors moins importante que dans un seul échantillon<br />
aléatoire simple de même taille.<br />
• Plus le nombre de degrés du sondage est élevé, moins grande est la précision des<br />
estimations.<br />
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 39
Autres sondages probabilistes<br />
• Il existe d’autres sondages probabilistes que ceux exposés jusqu’ici. Leur étude est<br />
post-posée à un cours plus avancé.<br />
• Citons parmi ces sondages:<br />
⊲ les sondages en grappes: c’est un sondage à plusieurs degrés où tous les<br />
individus du dernier degré sont interrogés.<br />
⊲ . . .<br />
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 40
Les sondages empiriques<br />
• Les sondages probabilistes sont de loin les plus recommendables car ils permettent<br />
un contrôle du bais et une évaluation des précisions obtenues.<br />
• Cependant, les sondages empiriques sont fréquemment utilisés en pratique.<br />
C’est notamment le cas lorsqu’on ne dispose pas d’une base de sondage ou<br />
lorsqu’un sondage probaliste est trop coûteux ou trop long à mettre en oeuvre.<br />
• Ce type de sondage est très fréquemment utilisé par les instituts de sondage privés.<br />
• Ce type de sondage doit être évité si cela est possible.<br />
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 41
Les sondages empiriques (2)<br />
La méthode des quotas<br />
• Le but de cette approche est de construire un échantillon dont la structure est la<br />
même que celle de la population.<br />
Ex Même proportion d’hommes dans l’échantillon que dans la population ; même<br />
répartition au niveau des âges. . .<br />
• Pour la qème catégorie, la méthode des quotas impose que n q<br />
n = N q<br />
N<br />
. Un enquêteur<br />
doit alors réunir un quota de n q personnes de la qème catégorie dans l’échantillon<br />
(exemple de feuille de quotas à la page suivante).<br />
• La plupart du temps, pour des raisons pratiques, les quotas imposés sur le terrain<br />
sont marginaux.<br />
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 42
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 43
Les sondages empiriques (3)<br />
Estimation de la moyenne<br />
• Hypothèse de travail: on peut tranposer les conclusions recueillies sur l’échantillon<br />
à la population entière.<br />
• Par définition de la moyenne, on sait que<br />
Ȳ = Q ∑<br />
q=1<br />
N q<br />
N<br />
Ȳq<br />
• Si un quota est imposé sur Q catégories de population, on estime Ȳ par:<br />
ˆȲ = Q ∑<br />
q=1<br />
n q<br />
n ȳq<br />
Remarques<br />
• La variance de ˆȲ ne peut pas être évaluée.<br />
• Le sondage probabiliste le plus sembable est le stratifié à allocation proportionnelle.<br />
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 44
Les sondages empiriques (4)<br />
La méthode des quotas: biais<br />
• La qualité de l’estimation repose sur l’homogénéité des groupes définis par les<br />
quotas. Il est donc souhaitable d’avoir un maximum de variables auxiliaires pour<br />
constituer les groupes.<br />
En pratique, pour les sondages d’opinion, on se limite souvent au sexe, à l’âge et<br />
à la catégorie socio-professionnelle.<br />
• Un biais apparaît s’il existe un lien entre la probabilité de sélection et la variable<br />
réponse Y pour une catégorie q donnée.<br />
• Afin de limiter ce biais, il est conseillé à chaque enquêteur d’étaler ses interviews sur<br />
l’ensemble de la journée, de couvrir l’ensemble du territoire qui lui est attribué. . .<br />
• Un sondage stratifié à allocation proportionnelle est d’autant plus précis que la<br />
taille d’échantillon n est grande: ce n’est pas le cas avec la méthode des quotas!!<br />
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 45
Les sondages empiriques (5)<br />
La méthode des quotas: remarques finales<br />
• Il est fréquent de privilégier la méthode des quotas pour les petits sondages (n ≤<br />
1000).<br />
• Les quotas sont souvent utilisés lors d’enquêtes pilotes (préliminaires à un sondage<br />
probabiliste de taille conséquente).<br />
• La méthode des quotas est souvent combinée avec plusieurs degrés d’échantillonnage.<br />
Ex 1er degré: province ; 2ème degré: communes avec un quota par commune<br />
retenue ; 3ème degré: quartier.<br />
• Le problème de non-réponse existe également avec les quotas: certaines parties de<br />
la population ne sont jamais atteintes.<br />
• Il est pratiquement impossible de vérifier la qualité du travail des enquêteurs (sauf<br />
si les coordonnées complètes des sondés sont disponibles).<br />
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 46
Les sondages empiriques (6)<br />
• Il existe d’autres méthodes empiriques:<br />
⊲<br />
⊲<br />
⊲<br />
la méthode des itinéraires: c’est la méthode des quotas avec un itinéraire<br />
imposé à chaque enquêteur.<br />
la méthode des unités-types: des individus sont pré-désignés pour représenter<br />
des sous-groupes de la population. Ex Calcul de l’audimat.<br />
l’échantillonnage de volontaires: les sondés sont recrutés sur base volontaire<br />
par courrier, par des magazines auprès de leur lectorat, via des sites internet.<br />
. . Cette méthode est à proscrire car elle induit des biais très importants.<br />
P. <strong>Lambert</strong> c○ - Institut des sciences humaines et sociales Les sondages probabilistes - 47