Cours 7
Transformez vos PDF en papier électronique et augmentez vos revenus !
Optimisez vos papiers électroniques pour le SEO, utilisez des backlinks puissants et du contenu multimédia pour maximiser votre visibilité et vos ventes.
COURS NR. 7<br />
Tests statistiques usuels (II):<br />
Chi-carré
Les tests paramétriques et les tests<br />
non paramétriques<br />
• Un test paramétrique est un test qui a des postulats sur la<br />
population (on connaît la moyenne et son écart-type).<br />
• Un test non paramétrique est un test qui n’a pas de<br />
postulats sur la population: peut s’effectuer sur n’importe<br />
quel type de populations.
Tests non paramétriques<br />
• Situation du problème :<br />
• Les tests utilisés précédemment, utilisent des<br />
hypothèses sur les distributions et nécessitent des<br />
calculs qui peuvent être longs.<br />
• On qualifie de non paramétriques les méthodes<br />
statistiques qui sont applicables dans des conditions<br />
générales quant aux distributions des populations<br />
parents : “distribution free”.<br />
• Deux cas sont examinés :<br />
• Application à 2 échantillons indépendants<br />
• Application à 2 échantillons appariés
Tests non-paramétriques<br />
Un analyste peut parfois désirer tester une hypothèse<br />
qui ne concerne ni la moyenne, ni la variance, ni<br />
un autre paramètre d’une distribution de données<br />
Ce type de test d’hypothèse est alors appelé test<br />
« non-paramétrique »<br />
Mentionnons les 3 situations les plus fréquentes où le<br />
recours à des tests non paramétriques sera<br />
nécessaire :<br />
1. Lorsque l’hypothèse que nous posons ne concerne pas un<br />
paramètre<br />
2. Lorsqu’un jeu de données ne satisfait pas une hypothèse de<br />
distribution<br />
3. Lorsque les données sont ordonnées en rangs
Pourquoi et quand utiliser des statistiques<br />
non-paramétriques?<br />
Les tests non paramétriques ne font aucune hypothèse sur la<br />
distribution sous-jacente des données. On les qualifie<br />
souvent de tests distribution free. L’étape préalable<br />
consistant à estimer les paramètres des distributions<br />
(p.e. moyenne et écart type) avant de procéder au test<br />
d’hypothèse proprement dit n’est plus nécessaire.<br />
Quand?:<br />
1. L’échelle des données est ordinale plutôt que sous forme<br />
d’intervalles ou de rapports. Dans ce cas les opérations<br />
arithmétiques n’ont pas de sens!<br />
2. Les mesures sont sur des échelles d’intervalles ou de<br />
rapports mais les distributions de fréquences observées<br />
sont très éloignées de la distribution normale.
Généralités – Conditions d’application
Var. continues (quantitative)<br />
comparaison des moyennes<br />
• Séries non appariées<br />
• grand effectif<br />
• 2 échantillons : Test t (test de Student)<br />
• > 2 échantillons : Anova<br />
• Séries appariées<br />
• grand effectif<br />
• 2 échantillons : Test t de Student pour séries appariées<br />
• > 2 échantillons : Anova pour séries appariées
Var. qualitatives binaires (comparaison des<br />
proportions)<br />
• Séries non appariées<br />
• grand effectif<br />
<br />
2<br />
• Chi 2 ( )<br />
• test non paramétrique (effectifs théorique ≤ 5)<br />
• Test exact de Fisher
χ² - test<br />
Le test du Khi carré est principalement utilisé en finance pour tester<br />
une hypothèse concernant la variance d’une population<br />
Contrairement aux distributions Normale et de Student, la distribution<br />
du Khi carré est asymétrique et bornée négativement par 0<br />
Pour que ce test puisse s’appliquer, il faut que la population soit<br />
normalement (ou quasi-normalement) distribuée et que toutes les<br />
observations soient indépendantes<br />
<br />
2<br />
n1<br />
<br />
( n 1)<br />
s<br />
<br />
2<br />
0<br />
2
χ² - test<br />
• La forme de la distribution du Khi carré dépend de<br />
la valeur de son paramètre (k = nombre de degré<br />
de liberté)
La loi du Khi carré: 2<br />
11
Principe<br />
• L’analyse se fait à l’aide d’un tableau de corrélation<br />
(variables quantitatives regroupées en classes) ou (plus<br />
souvent) de contingence (variables qualitatives).<br />
• Il ne concerne que des données discrètes.<br />
• On calcule les fréquences attendues de chacune des<br />
cases puis les écarts entre celles-ci et les fréquences<br />
observées.<br />
• L'analyse de fréquence pour les variables mesurées sur<br />
une échelle nominale ou ordinale<br />
• Test non paramétrique qui vérifie si la distribution observé<br />
est différent de celui attendu (théorique)<br />
• Les fréquences sont données par le nombre de cas et ne<br />
sont pas des pourcent ou rangs
• Sert à comparer deux distributions, après deux modèles,<br />
qui comprennent:<br />
• comparaison entre une distributions observées (ou empirique) et un<br />
échantillon avec une distribution théorique. On cherche à déterminer<br />
si un échantillon est semblable a un modèle théorique particulier,<br />
• la comparaison des deux distributions observées dans le but de<br />
décider soit l'indépendance des deux critères, soit l’ homogénéité<br />
d'un tableau de contingence
• On peut démontrer que si l'hypothèse de<br />
l'indépendance est satisfaite alors 2 déterminée la<br />
formule par chi 2 déterminé par la formule est<br />
assujettie a une loi de probabilité 2 avec (L-1) (C-1)<br />
degrés de liberté.<br />
• L = lignes<br />
• C- colonnes<br />
• Pour cette loi 2 , peut être déterminée 2 α<br />
correspondent au seuil de signification α et qui vérifie<br />
la condition:<br />
• Avec cette valeur on définit la région critique du test<br />
•
Utilisation du chi-carré<br />
• Un test d’ajustement « goodness-of-fit » : Est-ce que les<br />
données observées s’ajustent bien aux données théoriques ?<br />
• On veut savoir si une nouvelle gomme à mâcher (D) est<br />
préférée aux autres marques concurrentes (A, B, C)<br />
• 32 participants:<br />
A B C D<br />
Observée 4 5 8 15<br />
• Il semble que la nouvelle gomme à mâcher soit la préférée,<br />
mais comment en être certain ?
Utilisation du chi-carré<br />
• Si les participants n’avaient pas une préférence<br />
particulière, chacune des marques aurait autant de<br />
chance d’être choisie.<br />
A B C D<br />
Observée 4 5 8 15<br />
Attendue 8 8 8 8<br />
<br />
2<br />
obs<br />
<br />
k<br />
<br />
i1<br />
o<br />
a 2<br />
i<br />
a<br />
i<br />
i<br />
, k le nombre de catégories<br />
• Si l’hypothèse nulle est vraie (les fréquences observées seront les mêmes que les<br />
fréquences attendues) le numérateur sera petit et le chi-carré sera près de zéro.
Calculs<br />
A B C D<br />
Observée 4 5 8 15<br />
Attendue 8 8 8 8<br />
• Attention: pour effectuer le test du chi-carré il faut au moins 5 fréquences<br />
attendues par cellule.<br />
<br />
<br />
2<br />
obs<br />
2<br />
obs<br />
4 8 5 8 8 8 15 8<br />
2 2 2 2<br />
<br />
8 8 8 8<br />
9.25
Chi-carré critique<br />
dl k<br />
1<br />
dl 4 1 3 0.05
Décision<br />
• Comme le chi-carré observé ( 2 obs = 9.25) est plus grand<br />
que le chi-carré critique ( 2 0.05 (3)= 7.815), on rejette<br />
l’hypothèse nulle et on accepte l’hypothèse alternative.<br />
Les participants préfèrent la nouvelle gomme à mâcher<br />
aux trois autres marques concurrentes.<br />
A B C D<br />
Observée 4 5 8 15<br />
Attendue 8 8 8 8
Chi-carré critique<br />
dl ( L 1)( C 1)<br />
dl (2 1)(4 1) 3<br />
0.01
Test sur une variance ou un écart type d’une<br />
population<br />
On calcule la statistique du Khi-deux<br />
On compare cette statistique à 2 (n-1)d.l. ou 2 1-(n-1)d.l.<br />
Règles de décision<br />
1<br />
2 = ( n <br />
<br />
)s<br />
2<br />
<br />
2<br />
Test unilatéral à droite:<br />
H 0 : 2 = 0<br />
2<br />
ou H 0 : 2 ≤ 0<br />
2<br />
H a : 2 0<br />
2<br />
On rejette H 0 si 2 2 (n-1)<br />
H 0 : 2 = 0<br />
2<br />
ou H 0 : 2 ≥ 0<br />
2<br />
H a : 2 < 0<br />
2<br />
On rejette H 0 si 2 < 2 1-(n-1)
Test sur une variance ou un écart type d’une<br />
population<br />
On calcule la statistique du Khi-deux:<br />
On compare cette statistique à 2 1-/2(n-1) d.l.<br />
et à 2 /2(n-1) d.l.<br />
1<br />
2 = ( n <br />
<br />
)s<br />
2<br />
<br />
2<br />
Règle de décision<br />
Test bilatéral<br />
H 0 : 2 = 0<br />
2<br />
H a : 2 0<br />
2<br />
On rejette H 0 si 2 > 2 /2 ou 2 < 2 1-/2
La loi du Khi carré: 2<br />
23
Conformité. Test du χ 2<br />
Pour calculer la statistique χ 2 , on a besoin des:<br />
- fréquences absolues observées<br />
- fréquences absolues attendues<br />
Remarque importante: les fréquences du tableau sont des fréquences absolues<br />
observées, jamais des fréquences relatives!
Homogénéité. Test du χ 2<br />
Guérit Ne guérit pas Total<br />
Groupe A (serum) 75 25 100<br />
Groupe B (sans sérum) 65 35 100<br />
Total 140 60 200<br />
Fréquences observées<br />
Guérit Ne guérit pas Total<br />
Groupe A (serum) 70 30 100<br />
Groupe B (sans sérum) 70 30 100<br />
Total 140 60 200<br />
Fréquences attendues sous H 0<br />
2<br />
2<br />
2<br />
75<br />
70 65<br />
70 25<br />
30 35<br />
30<br />
2<br />
<br />
70 70<br />
2<br />
( h 1)(<br />
k 1)<br />
1;<br />
<br />
0.95<br />
<br />
3.84<br />
30<br />
<br />
30<br />
2<br />
<br />
2.38<br />
Impossibilité de rejeter H 0