11.07.2015 Views

cours et TD - Enseeiht

cours et TD - Enseeiht

cours et TD - Enseeiht

SHOW MORE
SHOW LESS
  • No tags were found...

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

iiTABLE DES MATIÈRES3.1 Probabilités conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 393.2 Indépendance d’événements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394 Variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 404.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 404.2 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414.3 Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434.4 Fonction d’une variable aléatoire réelle continue . . . . . . . . . . . . . . . . . . . . . . . . . . 464.5 Variables aléatoires vectorielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 474.6 Variables aléatoires indépendantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 495 Espérance mathématique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 505.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 505.2 Espérance d’une somme de variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . 515.3 Variance–Covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 516 Théorèmes limites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 546.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 546.2 Lois des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 544 Théorie de l’échantillonnage 591 Modélisation des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 591.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 591.2 Variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 592 Introduction à la théorie de l’échantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 622.1 Modélisation des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 622.2 Exemple de l’urne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6232.3 Exemple du référendum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65Échantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 673.1 Échantillon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 673.2 Schéma général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 684 Distribution d’échantillonnage de certaines statistiques . . . . . . . . . . . . . . . . . . . . . . . . . . 684.1 Distribution déchantillonnage de la moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . 684.2 Distribution d’échantillonnage de la variance . . . . . . . . . . . . . . . . . . . . . . . . . . . 704.3 Distribution d’échantillonnage de T . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 724.4 Distribution d’échantillonnage du rapport de variance . . . . . . . . . . . . . . . . . . . . . . 724.5 Distribution d’échantillonnage d’une fréquence . . . . . . . . . . . . . . . . . . . . . . . . . . 725 Principales lois de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 736 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 786.1 Exercices avec corrigés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 786.2 Exercices avec indications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 836.3 Exercices sans indications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 845 Tests statistiques : principes généraux 871 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 872 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 872.1 Problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 872.2 Cas simplifié . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 882.3 Cas général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 893 Principes généraux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 913.1 Logique générale d’un test statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 913.2 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 934 Test bilatéral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 944.1 Puissance d’un test bilatéral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 944.2 Puissance <strong>et</strong> paramètres α, σ 2 <strong>et</strong> n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 954.3 Tests multiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 975 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 975.1 Présentation <strong>et</strong> conclusion d’un test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 975.2 Risque de troisième espèce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 976 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 996.1 Exercices avec corrigés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 996.2 Exercices avec indications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1036.3 Exercices sans indications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104


TABLE DES MATIÈRESiii6 Estimation 1091 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1091.1 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1091.2 Position du problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1102 Principes généraux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1102.1 Formalisme mathématique, définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1102.2 Propriétés des estimateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1123 Estimations des principaux paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1153.1 Estimation d’une variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1153.2 Estimation d’une moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1163.3 Estimation d’une proportion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1194 Compléments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1204.1 Lien entre intervalle de confiance <strong>et</strong> test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1204.2 Illustration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1204.3 Estimation robuste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1214.4 Représentation graphique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1215 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1225.1 Exercices avec corrigés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1225.2 Exercices avec indications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1265.3 Exercices sans indications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128


Chapitre 1Introduction1 Image de la statistique– Il existe 3 formes de mensonges : les simples mensonges, les affreux mensonges <strong>et</strong> les statistiques.– Le lit est plus dangereux que l’automobile car il est prouvé statistiquement que l’on meurt plus dans un litque dans une voiture.– Le statisticien est un homme qui prétend qu’avoir la tête dans une fournaise <strong>et</strong> les pieds dans la glace perm<strong>et</strong>de bénéficier d’une température moyenne agréable.2 Exemples de problèmes2.1 Cas à une seule variableExemple 2.1.1. On désire estimer le nombre d’animaux d’une espèce donnée dans une région donnée.Outil statistique : l’estimationExemple 2.1.2. On désire estimer le taux de germination d’une variété donnée.Outil statistique : l’estimationExemple 2.1.3. On désire savoir laquelle de deux variétés (ou plus) a le plus fort rendement.Outils statistiques : le test de Student, l’analyse de la variance.2.2 Cas à deux variablesExemple 2.2.1. Quelle est la relation entre le rendement <strong>et</strong> la pluviométrie à une période donnée ?Exemple 2.2.2. Y-a-til une liaison entre le rendement <strong>et</strong> la teneur du grain en protéinesLa réponse à ces questions repose sur l’étude de modèles mathématiques de nature aléatoire :– la régression linéaire simple– la régression non linéaire– la corrélation2.3 Cas d’un nombre fini de variablesExemple 2.3.1. Quelle est la relation entre le rendement d’une variété donnée <strong>et</strong> un ensemble de variablesmétéorologiques.Outil statistique : la régression linéaire multipleExemple 2.3.2. Quelles sont les relations existant entre p caractères morphologiques, physiologiques <strong>et</strong> agronomiquesd’une plante donnée : hauteur totale, dimension foliaire, ramification, ... ? On s’intéresse alors à la structurede l’ensemble des individus <strong>et</strong>/ou de l’ensemble des caractères.Outil statistique : l’Analyse factorielle en Composantes Principales (ACP) <strong>et</strong> l’Analyse Factorielle des Correspondances(AFC)1


2 CHAPITRE 1. INTRODUCTIONExemple 2.3.3. En taxinomie biologique <strong>et</strong> en écologie on est souvent amené à des problèmes de classifications.Outil statistique : l’Analyse Factorielle Discriminante (AFD), méthodes de classification3 Schéma généralLes statistiquesLa statistique✘✘ ✘✘ ✘ ✘✘ ✘ ✘✘ ✘ ✘✘ ✘ ✘✘✘✾❄La statistique descriptiveLa statistique mathématique✚❩ ✚❩ ✚ ❩❩❩❩❩7 ✚ ❩❩❩❩❩7✚✚✚✚✚✚✚❂✚❂La statistiqueAnalyseInférenceThéoriedescriptiveà 1, 2, 3dimensionsdesdonnéesstatistiquedestests4 Enseignement des mathématiques en tronc commun– Modules Statistique 1 <strong>et</strong> 2 1ère année– Module Algèbre Linéaire 1ère année– Module Optimisation 1ère année– Module Plans d’expérience 2ème année– Module Analyse Multivariable 2ème année5 Modules Statistique 1 <strong>et</strong> 2, première année5.1 ObjectifsObjectifs finaux– Savoir sur un cas concr<strong>et</strong> simple <strong>et</strong> pour une question donnée simple choisir la méthode statistique adaptée<strong>et</strong> savoir appliquer c<strong>et</strong>te méthode– Connaître les limites de chaque méthode <strong>et</strong> interpréter correctement les résultats– Prendre conscience de l’importance d’une bonne collecte des donnéesSous objectifs– Savoir ce qu’est un ”bon” estimateur– Savoir ce qu’est un intervalle de confiance– Savoir ce qu’est un test statistique– Hypothèse nulle <strong>et</strong> alternative– Risque de première espèce, notion de puissance– Connaître la régression linéaire simple.


6. DIFFICULTÉ DE CET ENSEIGNEMENT 35.2 Statistique 1 : Outils <strong>et</strong> conceptsCours<strong>TD</strong>– Statistique descriptive à 1 <strong>et</strong> 2 dimensions– Théorie de l’échantillonnage ; lois du χ 2 , de Student <strong>et</strong> de Fisher– Théorie des tests– Estimation<strong>TD</strong>1 : Statistique descriptive. Décrire les données par des graphiques <strong>et</strong>/ou quelques quantités numériques<strong>TD</strong>2 : Probabilités, théorie de l’estimation<strong>TD</strong>3 : Théorie des tests statistiques<strong>TD</strong>4 : Tests statistiques <strong>et</strong> estimation<strong>TD</strong>5 : Estimation6 Difficulté de c<strong>et</strong> enseignement6.1 P<strong>et</strong>ite approche historique– En 2238 avant J.C. l’empereur chinois Yao organisa un recensement des productions agricoles– Sans le recensement d’Hérode Jésus Christ ne serait pas né dans une étable– Rôle précurseur des marchands de la République de Venise rassemblant au XIII e <strong>et</strong> XIV e siècles des donnéessur le commerce extérieur.– Premiers concepts au XVII e siècle– En Prusse : École descriptive allemande qui créa le mot statistique1 (Statistik)– En Angl<strong>et</strong>erre : École des arithméticiens politiques qui s’est attachée à l’aspect mathématique des assurances– En France : L’état, avec Colbert <strong>et</strong> Vauban exécute de nombreux inventaires <strong>et</strong> recensements– Au XVIII e <strong>et</strong> XIX e siècle on assiste surtout au développement de bureaux de statistiques– Développement des probabilités– Pierre Simon de FERMAT (1601-1665)– Blaise PASCAL (1623-1662)– Jacques BERNOULLI (1654-1705)– Abraham de MOIVRE (1667-1754)– Thomas BAYES (1702-1761)– Pierre Simon de LAPLACE (1749-1827)– Simeon Denis POISSON (1781-1840)– Karl Friedrich GAUSS (1777-1855)– Irénée Jules BIENAYME (1796-1878)– Pafnuti Livovic TCHEBYCHEV (1821-1894)– Adolphe QUETELET (1796-1874) : Lien entre les probabilités <strong>et</strong> les statistiques– Francis GALTON (1822-1911) : Droite de régression– Karl PEARSON (1857-1936) : Khi-2, corrélation, tables statistiques– William Sealy GOSSET (1876-1937) : Pseudonyme de STUDENT– Ronald Aylmer FISHER (1890-1962) : Analyse de la variance, maximum de vraisemblance– Jerzy NEYMAN (1894-1981) : Théorie des tests, intervalle de confiance– Egon PEARSON (1895-1980) : Théorie des tests– ...6.2 Mon sentiment sur c<strong>et</strong> enseignement– Difficulté liée à l’assimilation de concepts <strong>et</strong> à la formalisation mathématique.– Gros problème de terminologie <strong>et</strong> de notations– Lorsque l’on fait des statistiques on est toujours avec du concr<strong>et</strong> <strong>et</strong> de l’abstrait. On travaille avec des données<strong>et</strong> on utilise de la théorie.– Un bon statisticien doit :– Être rigoureux1 Ce mot vient du substantif latin status qui signifie état


4 CHAPITRE 1. INTRODUCTION– Savoir utiliser le formalisme mathématique– Être pragmatique <strong>et</strong> plein de bon sens– La formation en France est encore très déterministe (Descarte, Laplace,...)– On aimerait avoir une réponse par oui ou non ! ! !– La démarche statistique ne s’acquiert pas en 40 heures ! ! !– C’est difficile mais passionnant.7 Contrôle de connaissance– Examen écrit de 2 heures avec une page A4 recto-verso, calculatrice <strong>et</strong> tables statistiques ;– Notations de <strong>TD</strong> ;


Chapitre 2Statistique descriptive1 Introduction2 Types de données traitées2.1 Notion de caractèreDéfinition 2.1.1 (Caractère). On appelle caractère tout critère sur lequel repose une étude statistique.Exemple 2.1.2. La taille d’un individu, le poids d’un obj<strong>et</strong>, la concentration d’une substance.Définition 2.1.3 (Caractère quantitatif, variable statistique). On appelle caractère quantitatif ou variable statistiqu<strong>et</strong>out caractère directement représentable par des nombres.Exemple 2.1.4. La taille, l’âge d’un individu, le nombre de particules.Définition 2.1.5 (Caractère qualitatif). On appelle caractère qualitatif tout caractère non quantitatifExemple 2.1.6. La couleur des yeux, pile ou face.Remarque 2.1.7. On pourrait très bien coder pile ou face par 0 <strong>et</strong> 1, mais nous aurions tout de même un caractèrequalitatif d’où le mot directement dans la définition. On peut aussi dire qu’une variable statistique est un caractèremesurable. Les opérations comme l’addition ont donc un sens sur un caractère quantitatif, ce qui n’est pas le cassur un caractère qualitatif.2.2 Types de caractères qualitatifsOn range les caractères qualitatifs en plusieurs catégories :– Les caractères qualitatifs ordonnés (i.e. que l’on peut les classer) comme le niveau d’un élève (bon, moyen,mauvais).– Les caractères qualitatifs non ordonnés comme la couleur des yeux.– Les caractères dichotomiques (i.e. qui ne peuvent prendre que deux valeurs différentes) comme le sexe, pileou face.2.3 Types de variables statistiquesDéfinition 2.3.1 (Variable discrète). On appelle variable discrète toute variable qui ne peut prendre qu’un nombrefini ou dénombrable de valeurs.Exemple 2.3.2. – Nombre de points sur la face supérieur d’un dé.– Nombre de lancés d’une pièce de monnaie avant d’obtenir face.Définition 2.3.3 (Variable continue). On appelle variable continue toute variable pouvant prendre un nombreinfini non dénombrable de valeurs.Exemple 2.3.4. – Poids d’un individu.– Taille d’un individu.– Concentration d’une substance.5


6 CHAPITRE 2. STATISTIQUE DESCRIPTIVE3 Statistique descriptive à une dimension3.1 IntroductionNous allons nous intéresser dans c<strong>et</strong>te section au cas d’un seul caractère quantitatif. Nous avons donc au départune suite de n nombres :y 1 , y 2 , . . . , y n . Nous pouvons bien évidemment avoir dans c<strong>et</strong>te suite plusieurs fois la mêmevaleur.Définition 3.1.1 (Série statistique). On appelle série statistique la suite y 1 , y 2 , . . . , y n .Exemple 3.1.2. Notes sur 10 de 10 élèves à un devoir de français.10; 05; 01; 09; 02; 05; 01; 09; 09; 013.2 Les distributions de fréquencesLorsque la série est trop grande mais que les valeurs prises par la variable ne sont pas trop nombreuses nouspouvons condenser les résultats sous la forme d’une distribution de fréquences. Notons x i les différentes valeurs ducaractère étudié obtenues i = 1, . . . , p.Définition 3.2.1 (Fréquence absolue ou fréquence). On appelle fréquence absolue le nombre d’occurrences d’unemême valeur observée x i , c’est-à-dire le nombre de fois où la valeur x i est observée. On note n i c<strong>et</strong>te fréquence liéeà la valeur x i .Remarque 3.2.2. On a toujours n = ∑ pi=1 n iNotation 3.2.3. On note aussi n . = nLe point signifie que l’on a fait une sommation sur l’indice i.Définition 3.2.4 (Fréquence relative). On appelle fréquence relative associée à x i la quantité :f i = n inRemarque 3.2.5. On a toujours :p∑f i =i=1p∑i=1n in = 1 np∑n i = 1i=1Définition 3.2.6 (Fréquences cumulées absolues). Les fréquences cumulées absolues sont données par :N 0 = 0N 1 = n 1.N k =k∑n i si k ∈ {1, . . . , p}i=1.N k = n si k > pDéfinition 3.2.7 (Fréquences cumulées relatives). Les fréquences cumulées relatives sont données par :F 0 = 0F 1 = f 1.F k =k∑f i si k ∈ {1, . . . , p}i=1.F k = 1 si k > p


3. STATISTIQUE DESCRIPTIVE À UNE DIMENSION 7Exemple 3.2.8. Nous donnons dans le tableau ci-dessous les valeurs des différentes fréquences définies précédemmentpour l’exemple (3.1.2).Notes Fréquences Fréquences Fréquences cumulées Fréquences cumuléesabsolues relatives absolues relatives0 0 0 0 01 3 0,3 3 0,32 1 0,1 4 0,43 0 0 4 0,44 0 0 4 0,45 2 0,2 6 0,66 0 0 6 0,67 0 0 6 0,68 0 0 6 0,69 3 0,3 9 0,910 1 0,1 10 1Nous avons étudié le cas où la variable ne pouvait prendre que peu de valeurs différentes. Il se pose donc laquestion de savoir ce que l’on fait lorsque l’on a des valeurs observées distinctes en grand nombre (ce qui est le casen particulier lorsque l’on étudie des variables continues). Dans ce cas nous condensons les données en groupantles observations en classes. Le nombre de classes est en général compris entre 10 <strong>et</strong> 20 <strong>et</strong> l’intervalle de classe estconstant (mais ceci n’est pas obligatoire). Une classe est définie par ses limites. La limite supérieure d’une classeétant la limite inférieure de la classe suivante. Quant à la valeur de la classe, on choisit souvent le milieu de laclasse. Une fois que les classes ont été définies nous pouvons comme précédemment calculer les fréquences absolues,relatives, cumulées absolues <strong>et</strong> cumulées relatives.Exemple 3.2.9. Distribution de fréquence des étendues des exploitations agricoles belges (ces donnée proviennentde l’ouvrage de Dagnélie “Théorie <strong>et</strong> méthodes statistiques” volume 1).Etendues des Valeurs des Fréquences Fréquences Fréquences cumuléesexploitations classes absolues relatives relativesde 1 à 3ha 2ha 58122 0,2925 0,2925de 3 à 5ha 4ha 38221 0,1924 0,4849de 5 à 10ha 7,5ha 52684 0,2651 0,75de 10 à 20ha 15ha 35188 0,1771 0,9271de 20 à 30ha 25ha 8344 0,0420 0,9691de 30 à 50ha 40ha 3965 0,0199 0,9890de 50 à 100ha 75ha 1873 0,0094 0,9984plus de 100ha ? 309 0,0016 1,000Remarque 3.2.10. Dans l’exemple ci-dessus la dernière classe n’a pas de limite supérieure. On dit que la classeest ouverte.Nous avons jusqu’à présent travaillé directement avec des nombres, mais un tableau de chiffres (même enquantité restreinte) n’est jamais très lisible aussi nous allons maintenant étudier les représentations graphiques desfréquences. Dans tous les cas nous aurons ici en abscisse les valeurs des variables <strong>et</strong> en ordonnées les fréquences.Considérons tout d’abord le cas des fréquences non cumulées. Deux cas se présentent suivant que les donnéessont groupées (i.e. mises en classes) ou non. Lorsque celles-ci sont non groupées, nous utiliserons des diagrammesen bâtons : Pour chaque valeur de x i , nous traçons un segment de droite de longueur égale à la fréquence (absolueou relative suivant les cas) associée à x i .Exemple 3.2.11. Reprenons les données de l’exemple (3.1.2), la figure (2.1) est le diagramme en bâtons relatifaux fréquences relatives.Lorsque les données sont groupées, nous représentons ces fréquences par des rectangles contigus dont les intervallesde classes sont les bases <strong>et</strong> les hauteurs des quantités telles que l’aire de chaque rectangle soit proportionnelleà la fréquence de la classe correspondante.Remarque 3.2.12. Si les classes sont équidistantes nous pouvons alors prendre comme hauteur les fréquences.Exemple 3.2.13. Représentons les fréquences relatives des étendues des exploitations agricoles belges (exemple(3.2.9))


8 CHAPITRE 2. STATISTIQUE DESCRIPTIVE0.350.30.25Fréquences relatives0.20.150.10.0500 2 4 6 8 10NotesFig. 2.1 – Diagramme en bâtons0.160.140.120.10.080.060.040.02← Aire=0.01771×10=0.17710Surfaces en haFig. 2.2 – HistogrammeDéfinition 3.2.14 (Histogramme). On appelle histogramme un diagramme du type précédent.Remarque 3.2.15. (i) Lorsque nous étudions une variable continue nous avons dans la pratique un grandnombre de mesures, certaines étant très proches les unes des autres, d’autres étant plus éloignées. Si nousreprésentions ces données sous la forme d’un diagramme en bâtons nous aurions un graphique du type suivant :21.81.61.4Fréquences absolues1.210.80.60.40.200 1 2 3 4 5 6 7 8Valeurs de la variableFig. 2.3 – ”Densité”La densité d’une zone indiquerait alors que beaucoup de données seraient dans c<strong>et</strong>te zone. Mais un tel graphiquen’est pas très lisible <strong>et</strong> une idée est donc de représenter c<strong>et</strong>te densité en ordonnées. Celle-ci est obtenueen divisant le nombre de mesures obtenues dans une classe (i.e. la fréquence absolue) par la longueur d’intervallede classe. C’est bien ceci que nous représentons dans un histogramme.(ii) Les fréquences relatives sont en fait dans la pratique des estimations de probabilités. On verra que dans le cascontinu la probabilité qu’une variable aléatoire X appartienne à un intervalle ]x i , x i+1 [ est donnée par l’aireA délimitée par c<strong>et</strong> intervalle <strong>et</strong> la fonction de densité :


3. STATISTIQUE DESCRIPTIVE À UNE DIMENSION 90.40.350.30.25f(x)0.20.15← A0.10.050−1 0 1 2 3 4 5x ix i+1 xFig. 2.4 – Fonction de densitéL’histogramme des fréquences relatives n’est alors qu’une approximation empirique de c<strong>et</strong>te fonction de densité(si le facteur de proportionnalité est 1).(iii) Si l’on veut m<strong>et</strong>tre sur un même graphique une loi théorique de distribution de probabilités, il faut impérativementtravailler avec les fréquences relatives, <strong>et</strong> un facteur de proportionnalité de 1 pour l’histogramme.Remarque 3.2.16. Attention, dans un logiciel comme Excel , le terme histogramme n’a pas le sens ci-dessus.Remarque 3.2.17. La détermination du nombre de classes d’un histogramme ainsi que de leurs amplitudes estdifficile. De plus, représenter une distribution d’une variable continue par une fonction en escalier n’est pas trèslogique. La théorie de l’estimation de densité perm<strong>et</strong> de résoudre ces difficultés. Nous allons ici donner quelqueséléments de la méthode du noyau.Considérons tout d’abord le cas d’histogrammes à classes d’égales amplitudes h. Dans l’histogramme on estimela densité en x par ninhsi x appartient à la classe i. La densité est donc constante sur chaque classe. On peutaméliorer ceci en utilisant la méthode de la ”fenêtre mobile”. On suppose ici que la série statistique est y 1 , . . . , y n .On construit autour de x une classe de longueur h : I x = [x − h/2; x + h/2[ <strong>et</strong> on compte le nombre d’observationsn x qui appartiennent à c<strong>et</strong>te classe. On estime alors la densité en x par nxnh. On peut ainsi construire point parpoint c<strong>et</strong>te fonction de densité estimée ˆf(x). On peut en fait écrire c<strong>et</strong>te dernière de la façon suivante :ˆf(x) = 1 n∑( ) x − yiKnh hi=1où K est la fonction indicatrice de l’intervalle [−1/2; 1/2[, c’est-à-dire la fonction de R dans {0, 1} définie par :{ K(u) = 0 si u ∉ [−1/2; 1/2[Par suiteK(u) = 1 si u ∈ [−1/2; 1/2[( ) x − yiK = 1 ⇐⇒ y i ∈ I xhC<strong>et</strong>te méthode donne encore des résultats trop peu régulier. Pour obtenir une fonction suffisamment ”lisse”, il fautprendre des fonction noyau K plus régulière. En pratique on prend souvent un noyau gaussien :ou parabolique :K(u) = 34 √ 5K(u) = 1 √2πe −u2 /2) (1 − u25pour |u| < 5L’exemple (3.2.18) donne une comparaison entre l’histogramme <strong>et</strong> l’estimation de densité.Exemple 3.2.18. 1 Le tableau (2.1) donne les hauteurs de 50 pièces usinées. On a sur la figure (2.5) l’histogrammede ces données pour un intervalle de classe de 0.03 <strong>et</strong> l’estimation de densité par la méthode du noyau avec le noyaude Lejeune :K(u) = 10564 (1 − u2 ) 2 (1 − 3u 2 ) pour |u| ≤ 1avec une constante h égale à 30% de l’étendue de l’échantillon. L’estimation de densité montre clairement unedistribution bimodale que nous ne voyons pas avec l’histogramme.1 exemple provenant du livre de G. Saporta page 121


10 CHAPITRE 2. STATISTIQUE DESCRIPTIVE21.86 21.90 21.9821.84 21.89 21.9621.88 21.92 21.9821.90 21.91 21.9521.92 21.91 21.9721.87 21.92 21.9421.90 21.91 22.0121.87 21.93 21.9621.90 21.96 21.9521.93 21.91 21.9521.92 21.97 21.9721.90 21.97 21.9621.91 21.97 21.9521.89 21.97 21.9421.91 21.98 21.9721.87 21.95 21.9521.89 21.89Tab. 2.1 – hauteurs de 50 pièces usinées121086420−221.8 21.85 21.9 21.95 22 22.05 22.1 22.15Fig. 2.5 – Histogramme <strong>et</strong> densité estiméeIl nous reste maintenant à étudier le cas des fréquences cumulées. Celles-ci sont représentés par des polygônesde fréquences cumulés, mais nous avons encore ici une distinction suivant que les données soient groupées ou non.Lorsque les données sont non groupées nous obtenons un polygône en escalier : la valeur de la fonction en unpoint x est le nombre d’observations (absolues ou relatives) qui sont inférieures ou égales à x.Exemple 3.2.19. Reprenons encore l’exemple (3.1.2)Quant aux données groupées, on joint par une ligne brisée les points obtenus en portant, pour les limites declasses supérieures des ordonnées égales aux fréquences cumulées.Exemple 3.2.20. Fréquences cumulées relatives des étendues des exploitations agricoles belges (exemple (3.2.9)).Remarque 3.2.21. Les polygônes de fréquences relatives sont une représentation empirique des fonctions derépartitions comme les histogrammes sont une représentation empirique des fonctions de densité.3.3 Réduction des donnéesLe but est ici de caractériser les données à l’aide de quelques paramètres. Il y a deux grands types de paramètres :les paramètres de position ou de tendance centrale que nous étudierons en premier <strong>et</strong> les paramètres de dispersionque nous verrons ensuite.Nous donnerons pour chaque paramètre que nous définirons la valeur numérique correspondant à l’exemplesuivant :


3. STATISTIQUE DESCRIPTIVE À UNE DIMENSION 111.21Fréquences cumulées relatives0.80.60.40.200 2 4 6 8 10 12NotesFig. 2.6 – Fréquences cumulées relatives : données (3.1.2)1.21Fréquences cumulées relatives0.80.60.40.200 20 40 60 80 100 120Surfaces en haFig. 2.7 – Fréquences cumulées relatives : données (3.2.9)Exemple 3.3.1. Nous considérons 11 mesures faites de la hauteur du maître-brin d’une céréale donnée (en cm).Nous avons obtenu la série statistique suivante (mise en ordre croissant) :59; 62; 63; 63; 64; 66; 66; 67; 69; 70; 70.Les paramètres de position que nous allons étudier maintenant perm<strong>et</strong>tent de caractériser l’ordre de grandeurdes observations. Le paramètre le plus utilisé dans la pratique est la moyenne arithmétique ou moyenne.Définition 3.3.2 (Moyenne arithmétique). On appelle moyenne arithmétique oumoyenne la quantité donnée par :– Si les observations sont données par une série statistique¯x = 1 n– Si les observations sont données par leurs fréquences absolues¯x = 1 nn∑i=1x ip∑n i x iExemple 3.3.3. Pour les données de l’exemple (3.3.1), nous avons :i=1¯x = 65, 3636cmRemarque 3.3.4. Lorsque les données sont groupées x i est la valeur de la classe i.Définition 3.3.5 (Médiane). La médiane est la valeur de part <strong>et</strong> d’autre de laquelle se trouve un nombre égald’observations.Remarque 3.3.6. (i) Pour les séries statistiques monotones (c’est-à-dire croissante ou décroissante) :– si le nombre d’observations est pair la médiane est toute quantité comprise entre x n/2 <strong>et</strong> x n/2+1 (en généralon prend ˜x = 1/2(x n/2 + x n/2+1 ))


12 CHAPITRE 2. STATISTIQUE DESCRIPTIVE– si le nombre d’observations est impair la médiane est ˜x = x n/2+1 .(ii) Pour les données groupées la classe médiane est celle qui contient la médiane. En adm<strong>et</strong>tant que les observationsappartenant à c<strong>et</strong>te classe sont réparties uniformément, la médiane aura pour expression :oùi est l’indice de la classe médiane.x ′ i est la limite inférieure de c<strong>et</strong>te classe.∆x i est l’intervalle de la classe i.F i est la fréquence cumulée relative de la classe i.˜x = x ′ i + ∆x i1/2 − F in iExemple 3.3.7. Pour les données de l’exemple (3.3.1), nous avons :˜x = 66Définition 3.3.8 (Quartiles). On définit de façon similaire les quartiles i.e les 3 quantités qui séparent les donnéesen 4 groupes contenant le même nombre de données. On notera Q 1 , Q 2 <strong>et</strong> Q 3 les trois quartiles.Exemple 3.3.9. Considérons les 24 données suivantes :8 13 27 32 25 16 32 27 8 28 79 25 35 25 38 29 80 50 38 30 20 20 49 9Ces données mises en ordre croissant sont :8 8 9 13 16 20 20 25 25 25 27 27 28 29 30 32 32 35 38 38 49 50 79 80Les quartiles sont alors : Q 1 = 20, Q 2 = ˜x = 27, 5 <strong>et</strong> Q 3 = 36, 5.Remarque 3.3.10. Le deuxième quartile est égale à la médiane.Définition 3.3.11 (Mode). On appelle mode d’une distribution non groupée toute valeur rendant maximale lafréquence. On appelle classe modale d’une distribution groupée toute classe rendant maximale le rapport :FréquenceIntervalle de classeExemple 3.3.12. Pour les données de l’exemple (3.3.1), il y a 3 modes : 63,66,70.Remarque 3.3.13.non cumulées.(i) Le mode est une valeur qui rend maximum la représentation graphique des fréquences(ii) Dans le cas d’une distribution théorique d’une variable aléatoire continue le mode est toute valeur qui maximisela fonction de densité. C’est la valeur “la plus probable”.Les paramètres de position sont très insuffisants pour caractériser des données ; aussi nous avons besoin de savoirsi les observations sont concentrées ou non autour d’un paramètre de position. C’est ce critère que l’on qualifie àl’aide des paramètres de dispersion. Le paramètre le plus connu <strong>et</strong> le plus utilisé est la variance d’un échantillon.Définition 3.3.14 (Variance d’un échantillon). On appelle variance de l’échantillon la quantité :– Si les données sont sous la forme d’une série statistiques 2 = 1 nn∑(x i − ¯x) 2– Si les données sont sous la forme d’une distribution de fréquences absoluess 2 = 1 ni=1p∑n i (x i − ¯x) 2i=1Remarque 3.3.15. (i) On note souvent SCE = ∑ ni=1 (x i − ¯x) 2 . SCE est la Somme des Carrés des Écarts,sous entendu à la moyenne.


3. STATISTIQUE DESCRIPTIVE À UNE DIMENSION 130.10.40.080.060.04densitémodemoyennemédiane0.30.2densitémodemoyennemédiane0.020.100 10 20 300−1 0 1 2 3 4 50.40.20.30.2densitémodemoyennemédiane0.150.1densitémodemoyennemédiane0.10.0500 5 10 1500 5 10 15Fig. 2.8 – Différences entre le mode, la moyenne <strong>et</strong> la médiane(ii) On peut aussi écrire :SCE ====n∑(x 2 i − 2x i¯x + ¯x 2 ) (2.1)i=1n∑n∑x 2 i − 2¯x x i +i=1i=1 i=1n∑¯x 2 (2.2)n∑x 2 i − 2n¯x 2 + n¯x 2 (2.3)i=1n∑x 2 i − n¯x 2 (2.4)Lorsque l’on effectue les calculs à la main, c’est la formule (2.4) que l’on utilise.Exemple 3.3.16. Pour les données de l’exemple (3.3.1), nous avons :s 2 = 11, 3223cm 2Remarque 3.3.17. On démontre que l’on a toujours :n∑n∑(x i − a) 2 > (x i − ¯x) 2 = ns 2 si a ≠ ¯xi=1i=1i=1Définition 3.3.18 (Écart type2 ). L’écart type est la racine carré de la variance.Exemple 3.3.19. Pour les données de l’exemple (3.3.1), nous avons : s = √ s 2 = 3, 3649cmRemarque 3.3.20. L’écart type a la même dimension que les données (ce qui n’est pas le cas de la variance).Définition 3.3.21 (Cœfficient de variation). On appelle cœfficient de variation l’indice de dispersion relatif expriméen pourcentage :cv = × 100s¯xOn suppose bien évidemment que ¯x est différent de 0.2 standard deviation en anglais


14 CHAPITRE 2. STATISTIQUE DESCRIPTIVEExemple 3.3.22. Pour les données de l’exemple (3.3.1), nous avons :cv = 5, 148%Définition 3.3.23 (Amplitude). On appelle amplitude l’écart entre les valeurs extrêmes des donnéesExemple 3.3.24. Pour les données de l’exemple (3.3.1), nous avons :w = 11Définition 3.3.25 (Écart interquartile). On appelle écart interquartile la différence entre le troisième <strong>et</strong> le premierquartile : Q 3 − Q 1Exemple 3.3.26. Pour les données de l’exemple (3.3.9), nous avons :Q 3 − Q 1 = 16, 5Définition 3.3.27 (boîte à moustaches 3 ). Le diagramme en boîte à moustaches ou box-plot représente schématiquementles principales caractéristiques d’une variable numérique en utilisant les quartiles. On représente la partie centralede la distribution par une boîte de largeur quelconque <strong>et</strong> de longueur l’intervalle interquartile. On trace à l’intérieurla position de la médiane <strong>et</strong> on complète la boîte par des ”moustaches“ de valeurs :– Pour la ”moustache supérieure“ : la plus grande valeur inférieure à Q 3 + 1, 5(Q 3 − Q 1 ).– Pour la ”moustache inférieure“ : la plus p<strong>et</strong>ite valeur supérieure à Q 1 − 1, 5(Q 3 − Q 1 ).Les valeurs extérieures représentées par des * sont celles qui sortent des ” moustaches“.Exemple 3.3.28. Reprenons l’exemple (3.3.9). Nous avons Q 1 = 20, ˜x = 27, 5 Q 3 = 36, 5 <strong>et</strong> Q 3 − Q 1 = 16, 5.Par suite :– la plus grande des données inférieure à Q 3 + 1, 5(Q 3 − Q 1 ) est 50 ;– la plus p<strong>et</strong>ite des données supérieure à Q 1 − 1, 5(Q 3 − Q 1 ) est 8.D’où le schéma suivant :Column Number110 20 30 40 50 60 70 80ValuesFig. 2.9 – Boîte à moustachesDéfinition 3.3.29 (Moment d’ordre k par rapport à un point c). On appelle moment d’ordre k par rapport à unpoint c la quantité :– Si les données sont sous la forme d’une série statistique1nn∑(x i − c) k– Si les données sont sous la forme d’une distribution de fréquences1ni=1p∑n i (x i − c) ki=1Notation 3.3.30.a k .(i) Lorsque c = 0 le moment d’ordre k s’appelle moment par rapport à l’origine <strong>et</strong> on le note3 boxplot en anglais


3. STATISTIQUE DESCRIPTIVE À UNE DIMENSION 15(ii) Lorsque c = ¯x le moment d’ordre k s’appelle moment centré <strong>et</strong> on le note m k .Remarque 3.3.31. a 1 = ¯x, m 1 = 0 <strong>et</strong> m 2 = s 2 .Remarque 3.3.32. (i) Les moments centrés d’ordre k pairs sont des paramètres de dispersion.(ii) Les moments centrés d’ordre k impairs sont des indices de dissymétrie ou d’obliquité : Ils sont nuls pour lesdistributions symétriques <strong>et</strong> différentes de 0 pour les distributions dissymétriques.Définition 3.3.33 (Cœfficients de Pearson). Les cœfficients de Pearson sont :(i) Le degré de symétrie donné par(ii) Le degré d’aplatissement 4 donné par :b 1 = m2 3m 3 = m2 32 s 6b 2 = m 4m 2 = m 42 s 4Exemple 3.3.34. Pour les données de l’exemple (3.3.1), nous avons :b 1 = 0, 0298 b 2 = 2, 12Définition 3.3.35 (Cœfficient de Fisher). Les cœfficients de Fisher sont :(i) Le degré de symétrie 5 donné par :g 1 = m 3= m 3m 3/2 s 3 = √ b 12(ii) Le degré d’aplatissement donné par :g 2 = m 4m 2 − 3 = m 42 s 4 − 3 = b 2 − 3Exemple 3.3.36. Pour les données de l’exemple (3.3.1), nous avons :g 1 = 0, 1726 g 2 = −0, 88Remarque 3.3.37. Pour la loi normale réduite (cf. chapitre sur les probabilités) on a : g 1 = 0 <strong>et</strong> g 2 = 0.Les figures (2.10,2.11) donnent des exemples de distributions théoriques avec différentes valeurs des cœfficientsde symétrie <strong>et</strong> d’aplatissement.0.5β 1=0β 1=1.75β 1=1.50.40.30.20.100 1 2 3 4 5 6Fig. 2.10 – Différentes fonctions de densité pour différentes valeur du cœfficient de symétrie3.4 ExemplesExemple 3.4.1. Les données de la table (2.2) sont des longueurs de la rectrice centrale de la gélinotte huppéemâle, juvénile. La figure (2.12) donne les différentes représentations graphiques de ces données.Exemple 3.4.2. Les figures (2.13) <strong>et</strong> (2.14) donnent pour les mêmes données respectivement les histogrammes <strong>et</strong>les boîtes à moustaches pour les longueurs d’ailes de mésanges noires selon leur âges <strong>et</strong> leurs sexes.4 kurtosis en anglais, attention le terme kurtosis est parfois aussi utilisé pour désigner le cœfficient g 2 de Fisher ci-après5 skewness en anglais


16 CHAPITRE 2. STATISTIQUE DESCRIPTIVE0.4γ 2=0γ 2=2γ 2=−1.20.30.20.10−3 −2 −1 0 1 2 3Fig. 2.11 – Différentes fonctions de densité pour différentes valeur du cœfficient d’applatissement153 165 160 150 159 151 163160 158 149 154 153 163 140158 150 158 155 163 159 157162 160 152 164 158 153 162166 162 165 157 174 158 171162 155 156 159 162 152 158164 164 162 158 156 171 164158Tab. 2.2 – Longueurs de la rectrice centrale de la gélinotte huppée mâle, juvénile21.5110.50140 150 160 170 180longueur140 150 160 170longueur0.080.060.040.020150 160 170longueurFig. 2.12 – Données, boîte à moustaches <strong>et</strong> histogramme0.60.60.5Mâles adultes0.5Mâles immatures0.40.40.30.30.20.20.10.1058 59 60 61 62 63 64 65 66 67 68longueur d’ailes en mm058 59 60 61 62 63 64 65 66 67 68longueur d’ailes en mm0.60.60.5Femelles adultes0.5Femelles immatures0.40.40.30.30.20.20.10.1058 59 60 61 62 63 64 65 66 67 68longueur d’ailes en mm058 59 60 61 62 63 64 65 66 67 68longueur d’ailes en mmFig. 2.13 – Distributions des longueurs d’ailes de mésanges noires selon leur âge <strong>et</strong> sexe4 Statistique descriptive à 2 dimensions4.1 IntroductionDe même qu’en dimension 1 nous désirons représenter les données sous la forme de tableaux ou de graphiquesou de réduire les données à quelques paramètres. La grande différence avec la section précédente est que nous


4. STATISTIQUE DESCRIPTIVE À 2 DIMENSIONS 1768676665Longueur d’ailes en mm646362616059581 2 3 4Mâles adultes Mâles immatures Femelles adultes Femelles immaturesFig. 2.14 – Distributions des longueurs d’ailes de mésanges noires selon leur âge <strong>et</strong> sexepouvons essayer de m<strong>et</strong>tre en évidence les relations qui peuvent exister entre deux caractères.Comme en dimension 1 nous nous intéressons à des variables quantitatives <strong>et</strong> nous aurons comme donnéesinitiales une suite double :x 1 , x 2 , . . . , x ny 1 , y 2 , . . . , y nLa valeur du caractère 1 pour l’individu i est x i La valeur du caractère 2 pour l’individu i est y iDéfinition 4.1.1 (Série statistique double). On appelle série statistique double la suite de n couples de valeurs(x i , y i ).Exemple 4.1.2. Poids des feuilles <strong>et</strong> poids des racines (en grammes) de 1000 individus de Cichorium intybus (c<strong>et</strong>exemple provient de l’ouvrage de Dagnélie).feuilles : 71 76 106 108 109 111 111 112 . . . 662 673 679 741racines : 56 51 40 174 62 59 84 94 . . . 174 290 290 2304.2 Les distributions en fréquencesComme dans le cas monodimensionnel lorsque le nombre de données est trop important nous condensons desdonnées en une distribution de fréquences. Pour cela nous construisons un tableau à double entrée ; le nombred’individus n ij ayant les occurrences x i <strong>et</strong> y j des caractères x <strong>et</strong> y se trouve à l’intersection de la ligne i <strong>et</strong> de lacolonne j. Dans ce paragraphe les indices i <strong>et</strong> j qualifient les occurrences des caractères pour des variables discrètes<strong>et</strong> les classes pour des variables continues <strong>et</strong> non pas des individus : x i ≠ x i ′ si i ≠ i ′ <strong>et</strong> y j ≠ y j ′ si j ≠ j ′ . L<strong>et</strong>ableau que l’on construit a donc la structure suivante :x : y y 1 y 2 . . . y j . . . y q T otauxx 1 n 11 n 12 . . . n 1j . . . n 1q n 1.. . . . . .x i n i1 n i2 . . . n ij . . . n iq n i.. . . . . .x p n p1 n p2 . . . n pj . . . n pq n p.T otaux n .1 n .2 . . . n .j . . . n .q n ..Définition 4.2.1 (Fréquence marginale). On appelle fréquence marginale les quantités définies par :n i. =n .j =Notation 4.2.2. Nous rappelons que le point en indice signifie que l’on a sommé sur c<strong>et</strong> indice. Avec c<strong>et</strong>te notation,nous avons donc aussi :p∑ q∑ p∑ q∑n .. = n ij = n i. =i=1 j=1q∑j=1p∑i=1i=1n ijn ijj=1n .j


18 CHAPITRE 2. STATISTIQUE DESCRIPTIVERemarque 4.2.3. (i) Nous avons pris ici le cas des fréquences absolues mais nous pouvons bien évidemmentconstruire des tableaux de fréquences relatives :n , ij = n ijn(ii) Nous ne construisons pas en général de tableau de fréquences cumulées.(iii) Nous pouvons bien entendu étudier séparément les caractères x <strong>et</strong> y <strong>et</strong> notamment faire deux statistiquesdescriptives à une dimension. Cela revient alors à travailler avec les fréquences marginales.Définition 4.2.4 (Fréquence conditionnelle relative). On appelle fréquence conditionnelle relative pour que x = x i(respectivement y = y j ) sachant que y = y j (respectivement x = x i ) la quantité :f i/j = n ijn .j(respectivementf j/i = n ijn i.)Définition 4.2.5 (Profils lignes, profils colonnes). On appelle profils lignes (respectivement profils colonnes) l<strong>et</strong>ableau des fréquences conditionnelles relatives f j/i (respectivement f i/j ).Remarque 4.2.6. (i) Le tableau de fréquence relative est une représentation empirique de la fonction de probabilitéd’un couple de variables aléatoires <strong>et</strong> les fréquences conditionnelles relatives représentent des probabilitésconditionnelles.(ii) le tableau des profils lignes est une représentation empirique les lois de distributions conditionnelles.(iii) Si la tableau de contingence comporte en fait en ligne différentes populations <strong>et</strong> en colonne les différentesmodalités d’un caractère qualitatif (c’est-à-dire les valeurs d’une variable aléatoire discrète), alors les profilslignes sont les lois de probabilités sur les différentes populations du caractère étudié.Exemple 4.2.7. Avec les données de l’exemple (4.1.2) nous obtenons :Feuilles :Racines 40 à 80 à 120 à 160 à 200 à 240 à 280 à 320 à Totaux79 119 159 199 239 279 319 2590 à 79 2 280 à 159 49 46 5 2 102160 à 239 86 137 46 11 280240 à 319 27 153 89 25 7 301320 à 399 5 45 91 40 6 187400 à 479 10 33 21 16 1 1 82480 à 559 1 4 11 10 3 29560 à 639 2 1 2 4 1 10640 à 719 1 3 2 6720 à 799 1 1Totaux 169 392 270 112 42 11 3 1 1000Exemple 4.2.8. La table (4.2.8) donne l’évolution de l’âge de la population agricole familiale dans un canton duLoir<strong>et</strong>. La table (2.4) donne quant-à elle les profils lignes.Année :Âge < à 25 ans 25 à 34 ans 35 à 44 ans 45 à 54 ans 55 à 64 ans > à 65 ans Total1970 88 24 27 61 20 25 2451979 63 17 20 39 27 25 1911988 41 15 18 22 31 17 144Total 192 56 65 122 78 67 580Tab. 2.3 – Tableau de contingence, exploitations agricoles dans le Loir<strong>et</strong>


y4. STATISTIQUE DESCRIPTIVE À 2 DIMENSIONS 19Année :Âge < à 25 ans 25 à 34 ans 35 à 44 ans 45 à 54 ans 55 à 64 ans > à 65 ans1970 0.3592 0.0980 0.1102 0.2490 0.0816 0.10201979 0.3298 0.0890 0.1047 0.2042 0.1414 0.13091988 0.2847 0.1042 0.1250 0.1528 0.2153 0.1181Tab. 2.4 – Tableau des profils lignes121086420−2−4−6−3 −2 −1 0 1 2 3 4 5 6 7xFig. 2.15 – Nuage de points4.3 Représentations graphiquesLes séries statistiques doubles peuvent être représentées par un nuage de points (2.15).Quant aux distributions de fréquences elles se représentent dans un espace à trois dimensions par un diagrammeen bâtons si les variables sont discrètes <strong>et</strong> par un stéréogramme si la variable est continue. Un stéréogramme est undiagramme composé de parallélépipèdes rectangles de bases les rectangles correspondant aux cellules du tableaustatistique <strong>et</strong> de hauteur les fréquences divisées par la surface de la base (ceci toujours pour avoir une estimationde la densité de probabilité).Exemple 4.3.1. Avec les données de l’exemple (4.1.2) on obtient la figure (2.16)200Fréquences absolues15010050040120200280360440520600680Feuilles760RacineFig. 2.16 – StéréogrammeExemple 4.3.2. Reprenons l’exemple (4.2.8) de l’évolution de l’âge de la population agricole familiale dans uncanton du Loir<strong>et</strong>. On peut représenter les profils lignes (2.17). ceci nous perm<strong>et</strong> de visualiser les différences derépartition des âges en fonction des année. Ici, nous avons l’ensemble des populations étudiées, les profils lignessont donc exactement les lois de probabilités sur ces 3 populations. Dans le cas où nous n’aurions , pour chaquepopulation que des échantillons, il faudrait effectuer un test statistique (test du χ 2 ici) pour savoir s’il y a réellementune différence dans les lois de distributions. Ceci est hors de notre programme.


20 CHAPITRE 2. STATISTIQUE DESCRIPTIVE0.45Profils lignes0.40.350.30.250.20.150.10.0500 1 2 3 4 5 6 74.4 Réduction des donnéesFig. 2.17 – Profils lignesNous avons ici deux types de paramètres, tout d’abord les paramètres liés à une seule variable qui caractérisentles fréquences marginales <strong>et</strong> conditionnelles. Nous avons dans ce cas les paramètres habituels de la statistiquedescriptive à une dimension qui sont principalement les moyennes marginales ¯x <strong>et</strong> ȳ <strong>et</strong> les variances marginaless 2 x <strong>et</strong> s 2 y, ainsi que les moyennes conditionnelles ¯x j <strong>et</strong> ȳ i <strong>et</strong> les variances conditionnelles s 2 x/j <strong>et</strong> s2 i/y. Ensuite nousavons les paramètres perm<strong>et</strong>tant de décrire des relations existant entre les deux séries d’observations. Ce sont cesparamètres que nous allons étudier maintenant.Définition 4.4.1 (Covariance d’un échantillon). On appelle covariance d’un échantillon la quantité :– Si les données sont sous la forme d’une série statistique doublecov(x, y) = 1 n∑(x i − ¯x)(y i − ȳ)n– Si les données sont sous la forme d’une distribution en fréquenceRemarque 4.4.2.cov(x, y) = 1 np∑i=1i=1 j=1q∑n ij (x i − ¯x)(y j − ȳ)On note souvent SP E = ∑ ni=1 (x i − ¯x)(y i − ȳ). SP E est la Somme des Produits des Écarts, sous entendu auxmoyennes.On peut aussi écrire :SP E ====n∑(x i y i − x i ȳ − y i¯x + ¯xȳ) (2.5)i=1n∑x i y i − ȳi=1n∑n∑x i − ¯x y i +i=1i=1n∑¯xȳ (2.6)i=1n∑x i y i − 2n¯xȳ + n¯xȳ (2.7)i=1n∑x i y i − n¯xȳ (2.8)Lorsque l’on effectue les calculs à la main, c’est la formule (2.8) que l’on utilise.i=1Exemple 4.4.3. On considère la série statistique double suivante :x 165,5 164,0 156,0 174,0 169,0 157,5 159,0 152,0 155,0 159,0y 177,0 172,0 163,0 183,5 171,5 165,0 160,5 154,5 163,0 162,0x (respectivement y) représente la taille (respectivement l’envergure) de 10 adolescents nés en 1947 (mensurationsrelevées en 1962). On a alors :cov(x, y) = 49, 68


4. STATISTIQUE DESCRIPTIVE À 2 DIMENSIONS 21Remarque 4.4.4. (i) La covariance peut-être positive ou négative. Une covariance positive (respectivementnégative) indique une relation entre les données croissantes (respectivement décroissantes), i.e. que les valeursélevées d’une série correspondent, dans l’ensemble, à des valeurs élevées (respectivement faibles) de l’autre.(ii) L’existence de termes positifs <strong>et</strong> négatifs dans le calcul de la covariance justifie pour celle-ci l’absence decorrection analogue aux corrections de Sheppard.Théorème 4.4.5. On a toujours la relation suivante :L’égalité n’a lieu que si les points (x i , y i ) sont alignés.DémonstrationDéveloppons l’expression positive suivante :1n|cov(x, y)| ≤ s x s yn∑(λ(x i − ¯x) − (y i − ȳ)) 2 = λ 2 s 2 x − 2λcov(x, y) + s 2 y ≥ 0i=1On sait qu’une condition nécessaire <strong>et</strong> suffisante pour qu’un trinôme soit toujours de même signe est que sondiscriminant ∆ soit négatif ou nul. Par suite nous avons :∆ = 4cov 2 (x, y) − 4s 2 xs 2 y ≤ 0⇐⇒ cov 2 (x, y) ≤ s 2 xs 2 y⇐⇒ |cov(x, y)| ≤ s x s yDe plus nous avons l’égalité |cov(x, y)| = s x s y si <strong>et</strong> seulement si ∆ = 0 <strong>et</strong> donc s’il existe λ 1 = cov(x, y)/s 2 x tel que✷n∑(λ 1 (x i − ¯x) − (y i − ȳ)) 2 = 0 ⇐⇒ λ 1 (x i − ¯x) = y i − ȳ ∀ii=14.5 Droite de régressionIntroduction⇐⇒ Les points (x i , y i ) i=1,...,n sont alignésExemple 4.5.1. 6 On désire savoir comment le taux de cholestérol sérique dépend de l’âge chez l’homme. Pourcela on a pris 5 échantillons d’hommes adultes d’âges bien déterminés 25, 35, 45, 55 <strong>et</strong> 65 ans. On a obtenu lesdonnées suivantes :Âges 25 25 25 25 25 25 25 35 35 35Taux 1.8 2.3 2 2.4 2 2.5 2.6 2.6 2.9 2.3Âges 35 35 35 35 45 45 45 45 45 45Taux 2.4 2.1 2.5 2.7 2.7 3 3.1 2.3 2.5 3Âges 45 45 55 55 55 55 55 65 65 65Taux 3.3 2.7 3.1 2.9 3.4 2.4 3.4 3.7 2.8 3.3Âges 65 65 65Taux 3.5 3.3 2.6La figure 2.18 donne la représentation graphique de ces données.Que peut-on conclure de ces données ?En pratique nous sommes souvent amenés à rechercher une relation entre deux variables x <strong>et</strong> y. Pour cela, dansun premier temps, nous collectons des données (x 1 , y 1 ), (x 2 , y 2 ), . . . , (x n , y n ). Ensuite nous représentons graphiquementces données. Nous pouvons par exemple avoir les cas suivants :6 Exemple provenant de l’ouvrage de Grémy <strong>et</strong> Salmon, ”Bases statistiques”, page 122.


22 CHAPITRE 2. STATISTIQUE DESCRIPTIVE43.53Taux2.521.5120 25 30 35 40 45 50 55 60 65 70AgesFig. 2.18 – Taux de cholestérol en fonction de l’âge12Cas (a)10Cas (b)1Cas (c)90.91080.8870.760.6y6y5y0.540.4430.3220.210.100 2 4 6x00 2 4 6x00 2 4 6xFig. 2.19 – Différentes formes de graphesSuivant les cas de la figure 2.19, nous pouvons penser aux modèles :Cas (a) y(x) = β 0 + β 1 x ;Cas (b) y(x) = β 0 + β 1 x + β 2 x 2 ;Cas (c) pas de modèle.L’obj<strong>et</strong> de la régression linéaire simple est l’étude du cas (a). L’un des buts de la régression linéaire simple estde prédire la ”meilleure” valeur de y connaissant x (si le modèle linéaire est bien évidemment correct). L’objectifde c<strong>et</strong>te section est uniquement descriptif, aussi nous n’allons étudier que l’estimation ponctuelle des paramètres.Estimation des paramètresUne droite sera d’autant plus proche des points M i (x i , y i ) que les écarts entre ces points <strong>et</strong> la droite serontfaibles. L’un des critères les plus utilisés est le critère des moindres carrés qui est la somme des carrés des écartsr i = y i − ŷ i (cf figure (2.20)).Ici, les points (x i , y i ) i=1,...,n sont connus, la question est de trouver les valeurs des paramètres β 0 <strong>et</strong> β 1 quirendent la valeur du critère la plus faible possible. Nous sommes ainsi ramené au problème d’optimisation suivant :{ ∑ Min f(β) =1 n(P )2 i=1 r2 i = 1 2β ∈ R 2∑ ni=1 (y i − β 0 − β 1 x i ) 2En eff<strong>et</strong>, plus f(β) sera proche de 0, plus les carrés des résidus, donc les résidus r i seront ”proches” de 0.


4. STATISTIQUE DESCRIPTIVE À 2 DIMENSIONS 2325y20151050← r 1← r 2← r 3← r 4 ← r 5← r 6← r 7← r 8← r 9← r 100 2 4 6 8 10xFig. 2.20 – Moindres carrés.Théorème 4.5.2. La solution du problème (P ) est :ˆβ 0 = ȳ − ˆβ 1¯x (2.9)∑ ni=1 ˆβ 1 =i − ȳ)(x i − ¯x)∑ ni=1 (x = SP Ei − ¯x) 2 SCE x(2.10)DémonstrationOn démontre qu’une condition nécessaire <strong>et</strong> suffisante de solution du problème d’optimisation est f ′ (β) = (0, 0).D’où le système linéaire suivant :⎧∑ n n∑nβ ⎪⎨0 + β 1 x i = y ii=1 i=1∑ n n(2.11)∑ n∑⎪⎩ β 0 x i + β 1 x 2 i = x i y i✷i=1i=1i=1⎧⎨ ȳ = β 0 + β 1¯x⇔n∑⎩ nβ 0¯x + β 1 x 2 i = ∑ n x i y ii=1i=1⎧⎨ ȳ = β 0 + β 1¯x⇔n∑⎩ n(ȳ − β 1¯x)¯x + β 1 x 2 i = ∑ n x i y ii=1i=1⎧⎨ ȳ = β 0 + β 1¯x⇔ ∑⎩ β 1 ( n x 2 i − ∑n¯x2 ) = n x i y i − n¯xȳi=1i=1⎧⎨ ȳ = β 0 + β 1¯x⇔⎩ β 1 = SP ESCE xRemarque 4.5.3. On a supposé dans le calcul que SCE x ≠ 0, c’est-à-dire que tous les x i ne sont pas identiques.Nous noterons dans la suite ˆβ 0 <strong>et</strong> ˆβ 1 ces solutions.Exemple 4.5.4. Reprenons l’exemple (4.5.1). Lorsque l’on effectue les calculs à la main il est utile de calculer l<strong>et</strong>ableau préliminaire 2.6.Les estimations ponctuelles sont alors1445 × 90.14103.5 −ˆβ 1 =33 = 158.269625 − 14452 6351.533ˆβ 0 = 2.73 − 0.025 × 43.79 = 1.64= 0.025


24 CHAPITRE 2. STATISTIQUE DESCRIPTIVEy x xy y 2 x 21 y 1 x 1 x 1 y 1 y 2 1 x 2 1. . . . . .i y i x i x i y i yi 2 x 2 i. . . . . .n y n x n x n y n yn 2 x 2 n∑Totaux Y . X . i x iy i∑i y2 iMoyennes ȳ . ¯x .∑i x2 iTab. 2.5 – Calculs préliminairesx y xy x 2 y 21 25 1.8 45.0 625 3.242 25 2.3 57.5 625 5.293 25 2.0 50.0 625 4.004 25 2.4 60.0 625 5.765 25 2.0 50.0 625 4.006 25 2.5 62.5 625 6.257 25 2.6 65.0 625 6.768 35 2.6 91.0 1225 6.769 35 2.9 101.5 1225 8.41. . . . . .33 65 2.6 169.0 4225 6.76Totaux 1445 90.1 4103.5 69625 253.31Moyennes 43.79 2.73Tab. 2.6 – Calculs préliminaires sur l’exempleRemarque 4.5.5. Nous noterons r i le résidu d’indice i :On vérifie alors quer i = y i − ( ˆβ 0 + ˆβ 1 x i ) = y i − ŷ i∑ ni=1 r i = ∑ ni=1 (y i − ( ˆβ 0 + ˆβ 1 x i ))= ∑ ni= y i − ∑ n ˆβ i=1 0 − ∑ n ˆβ i=1 1 x i= nȳ − n ˆβ 0 − n¯x ˆβ 1 = 0De la même façon que nous avons cherché à “exprimer” y en fonction de x, on peut essayer d’“exprimer” x enfonction de y <strong>et</strong> nous obtenons ainsi la droite de régression d’équation :x = β 1xy y + β 0xyLes estimations sont alorsˆβ 1xy = SP Es 2 y<strong>et</strong>ˆβ0xy = ¯x − ˆβ 1xy ȳExemple 4.5.6. Si nous reprenons les données de l’exemple (4.5.1) nous obtenons :ˆβ 1xy = 21.64 ˆβ0xy = −15, 29ˆβ 1yx = 0.025 ˆβ0yx = 1.64Définition 4.5.7 (Cœfficient de corrélation linéaire). On appelle cœfficient de corrélation linéaire le rapport de lacovariance sur les produits des écart-types :cov(x, y)r =s x s y


4. STATISTIQUE DESCRIPTIVE À 2 DIMENSIONS 25On peut aussi écrirer =SP E√SCEx SCE yNotons ⃗x c (respectivement ⃗y c ) le vecteur des données centrées de la variable x (respectivement y). C’est-à-dire que⃗x c = (x 1 − ¯x, . . . , x n − ¯x) T <strong>et</strong> ⃗y c = (y 1 − ȳ, . . . , y n − ȳ) T . Ces vecteurs sont dans R n . Alors SP E est le produitscalaire entre ces deux vecteurs centrées <strong>et</strong> SCE x <strong>et</strong> SCE y sont les normes au carrés de ces vecteurs. Par suite lecœfficient de corrélation linéaire s’interprète comme le cosinus de l’angle de ces deux vecteurs de R n . On en déduitla remarque suivante.Remarque 4.5.8. Le cœfficient de corrélation linéaire a les propriétés suivantes :(i).r ∈ [−1, +1](ii) |r| = 1 si <strong>et</strong> seulement si les points (x i , y i ) sont alignés.On montre que l’on a en fait les différents cas de figures suivants x>s ys x=s ys x


26 CHAPITRE 2. STATISTIQUE DESCRIPTIVERemarque 4.5.9. Nous tenons à bien faire remarquer que le cœfficient de corrélation linéaire ne mesure qu’uneliaison de nature linéaire. Pour les 5 graphiques de la figure (2.22), on a les mêmes valeurs de ¯x, ȳ, s x , s y , r <strong>et</strong> doncla même droite de régression. Il est évident que les phénomènes sont très différents :(i) pour le graphique en haut à gauche, il y a une forte dispersion mais le modèle linéaire semble a prioriapproprié ;(ii) pour le graphique en haut à droite, un modèle parabolique serait sans doute plus adapté ;(iii) pour le graphique au milieu à gauche, il y a sans doute une donnée aberrante qui a un fort résidu ;(iv) pour le graphique au milieu à droite, la dispersion des données semble augmenter quand x augmente ;(v) pour le graphique en bas à gauche, il y a une donnée qui a une forte influence <strong>et</strong> un résidu nul.30302020yy101000 10 20 30x3000 10 20 30x302020yy101000 10 20 30x3000 10 20 30x20y1000 10 20 30xFig. 2.22 – Exemple de données ayant les mêmes valeurs des paramètres ¯x, ȳ, s x , s y <strong>et</strong> r <strong>et</strong> donc la même droite derégression5 Compléments5.1 Changement de variablesNous allons tout d’abord voir que lorsque le modèle n’est pas au départ linéaire, on peut parfois s’y ramenerpar un bon changement de variable. Considérons l’exemple suivant :Exemple 5.1.1. Le carbone radioactif 14 C est produit dans l’atmosphère par l’eff<strong>et</strong> des rayons cosmiques surl’azote atmosphérique. Il est oxydé en 14 CO 2 <strong>et</strong> absorbé sous c<strong>et</strong>te forme par les organismes vivants qui, par suite,contiennent un certain pourcentage de carbone radioactif relativement aux carbones 12 C <strong>et</strong> 13 C qui sont stables. Onsuppose que la production de carbone 14 C atmosphérique est demeurée constante durant les derniers millénaires. Onsuppose d’autre part que, lorsqu’un organisme meurt, ses échanges avec l’atmosphère cessent <strong>et</strong> que la radioactivitédue au carbone 14 C décroit suivant la loi exponentielle suivante :A(t) = A 0 e −λtoù λest une constante positive, t représente le temps en année <strong>et</strong> A(t) est la radioactivité exprimée en nombre dedésintégrations par minute <strong>et</strong> par gramme de carbone. On désire estimer les paramètres A 0 <strong>et</strong> λ par la méthode desmoindres carrés. Pour cela on analyse les troncs (le bois est un tissu mort) de très vieux arbres Sequoia gigantea<strong>et</strong> Pinus aristaca. Par un prélèvement effectué sur le tronc, on peut obtenir :


5.COMPLÉMENTS 27– son âge t en année, en comptant le nombre des anneaux de croissance,– sa radioactivité A en mesurant le nombre de désintégration.t 500 1000 2000 3000 4000 5000 6300A 14.5 13.5 12.0 10.8 9.9 8.9 8.0Posons y(t) = ln A(t), β 0 = ln A 0 , β 1 = −λ <strong>et</strong> y i = ln(A i ). Le modèle s’écrit alorsy(t) = β 0 + β 1Nous sommes donc ramené au cas de la régression linéaire simple.5.2 Cas à plus d’une variable explicativeC<strong>et</strong>te section dépasse le cadre de la statistique descriptive puisque si nous avons par exemple 4 variables, nous nepouvons plus faire de graphique. Mais nous allons voir cependant qu’en ce qui concerne l’estimation des paramètres,cela ne change pas grand chose.Avant de passer au cas à p variables, nous allons réécrire le problème de la régression linéaire simple à 1 variable.Posons⎛ ⎞ ⎛⎛ ⎞y 11 x 1r 1alorsest équivalent ày =⎜⎝.y i.y n⎞. .; X =1 x i; β =⎟ ⎜ ⎟⎠ ⎝ . . ⎠1 x n(β0β 1)<strong>et</strong> r =⎜⎝y i = β 0 + β 1 x i + r i ∀i = 1, . . . , n (2.12)y = Xβ + r (2.13)<strong>et</strong> le problème d’optimisation s’écrit alors{ ∑ Min f(β) =1 n(P )2 i=1 (y i − β 0 − β 1 x i ) 2 = 1 2||Xβ − y||2β ∈ R 2La condition nécessaire de solution du premier ordre nous donne alors (dérivée des fonctions composées) ce quenous appelons l’équation normale∇f(β) = t XX − t Xy = 0 (2.14)La dérivée seconde de f est alors :∇ 2 f(β) = t XXOn démontre en optimisation que dans ce cas si ∇ 2 f(β) est semi-définie positive alors la fonction f est convexe(graphiquement c’est une cuv<strong>et</strong>te pour une fonction de R 2 à valeurs dans R) <strong>et</strong> dans ce cas l’équation (2.14) estune condition nécessaire <strong>et</strong> suffisante de solution de notre problème d’optimisation. Or ici( t XXβ|β) = (Xβ|Xβ) ≥ 0ceci pour tout β, donc ∇ 2 f(β) est bien semi-définie positive.Remarque 5.2.1. Dans le cas de la régression linéaire simple, si on développe l’équation normale (2.14), onr<strong>et</strong>rouve bien le système linéaire (2.11).Nous allons maintenant étudier le cas où l’on a plus d’une variable explicative.Considérons le modèle :y(x) = β 0 + β 1 x 1 + · · · β p x p (2.15)où x = (x 1 , . . . , x p ).On collecte n (p+1)-upl<strong>et</strong>s (y i , x i1 , . . . , x ip ) i=1,...,n . Notre problème d’optimisation pour estimer nos paramètress’écrit alorsavec ici{ ∑ Min f(β) =1 n(P )2 i=1 (y i − β 0 − β 1 x i1 − · · · − β p x ip ) 2 = 1 2||Xβ − y||2β ∈ R 2.r i.r n⎟⎠


28 CHAPITRE 2. STATISTIQUE DESCRIPTIVE⎛y =⎜⎝y 1.y i.y n⎞ ⎛⎞1 x i1 . . . x ip⎛. . .; X =1 x i1 . . . x ip⎜; β = ⎝⎟ ⎜⎟⎠ ⎝.. . ⎠1 x n1 . . . x npβ 0.β p⎞⎟⎠ <strong>et</strong> r =Par suite l’estimation des paramètres est aussi donné par la résolution du système linéaire des équations normalest XXβ = t Xy⎛⎜⎝r 1.r i.r n⎞⎟⎠


6. EXERCICES 296 Exercices6.1 Exercices avec solutionsExercice 6.1.1. On observe les arrivées des clients à un bureau de poste pendant un intervalle de temps donné(10 minutes). En répétant 100 fois c<strong>et</strong>te observation, on obtient les résultats suivants.Nombre d’arrivées 1 2 3 4 5 6 TotalNombre d’observations15 25 26 20 7 7 100(i) Représenter graphiquement ces résultats.(ii) Calculer la valeur de la moyenne arithmétique, de la médiane, de la variance <strong>et</strong> de l’écart type des résultats,du coefficient de variation, de l’amplitude <strong>et</strong> de l’écart moyen des observations.Correction(i) Le diagramme en bâtons des fréquences relatives est le suivant :0.30.250.2Fréquence relative0.150.10.0501 2 3 4 5 6Nombre d’arrivéesDiagramme en bâtonsLe diagramme des fréquences cumulées relatives est le suivant :10.8Fréquence cumulée relative0.60.40.20(ii) La moyenne arithmétique vaut :n∑x = 1 nn i x i = 3. La médiane <strong>et</strong> le mode valent 3.i=10 1 2 3 4 5 6 7 8Nombre d’arrivéesFréquences cumulées relatives


30 CHAPITRE 2. STATISTIQUE DESCRIPTIVELa variance vaut :s 2 = 1 n ( ∑ n n i x 2 i − nx2 ) =1,96 <strong>et</strong> l’écart-type s = 1,4. Le coefficient de variation est égal à cv = 46,7 %.i=1L’amplitude des observations est de 5, l’écart moyen den∑e m = 1 nn i |x i − x| = 1,10.i=1Exercice 6.1.2. On considère les compositions chimiques de 20 eaux minérales suivantes 7 :Origines HCO3 − SO4 − Cl − Ca + Mg + Na +Aix-les-Bains 341 27 3 84 23 2Beckerish 263 23 9 91 5 3Cayranne 287 3 5 44 24 23Chambon 298 9 23 96 6 11Cristal-Roc 200 15 8 70 2 4St Cyr 250 5 20 71 6 11Evian 357 10 2 78 24 5Ferita 311 14 18 73 18 13St Hyppolite 256 6 23 86 3 18Laurier 186 10 16 64 4 9Ogeu 183 16 44 48 11 31Ondine 398 218 15 157 35 8Perrier 348 51 31 140 4 14Ribes 168 24 8 55 5 9Spa 110 65 5 4 1 3Thonon 332 14 8 103 16 5Veri 196 18 6 58 6 13Viladreau 59 7 6 16 2 9Vittel 402 306 15 202 36 3Volvic 64 7 8 10 6 8(i) Calculer les quartiles Q 1 , Q 2 , Q 3 , l’écart interquartile <strong>et</strong> les limites des moustaches pour les variables HCO − 3<strong>et</strong> Ca + .(ii) Représenter les boîtes à moustaches pour les variables HCO − 3 <strong>et</strong> Ca+ .Correction(i)HCO3 − SO4 − Cl − Ca + Mg + Na +Q 1 184.5 8.0 6.0 51.5 4.0 4.5Médianes 259.5 14.5 8.5 72.0 6.0 9.0Q 3 336.5 25.5 19.0 93.5 20.5 13.0Ecarts interquartiles 152.0 17.5 13.0 42.0 16.5 8.5Q 1 − 1, 5(Q 3 − Q 1 ) -43.50 -18.25 -13.50 -11.50 -20.75 -8.25Q 3 + 1, 5(Q 3 − Q 1 ) 564.50 51.75 38.50 156.50 45.25 25.75Moustaches inférieures 59 3 2 4 1 2Moustaches supérieures 402 51 31 140 36 23(ii)7 Les données proviennent de l’ouvrage de R. Tomassone, C. Dervin, J.P. Masson, ” Biométrie, modélisation de phénomènes biologiques”,page114.


6. EXERCICES 31400350300250Values2001501005001 2 3 4 5 6Column NumberBoîtes à moustacheExercice 6.1.3. On a monté une série d’expériences dans une unité pilote en vue d’étudier l’influence de latempérature sur le rendement d’une réaction chimique sous une pression donnée. Les données recueillies sont lessuivantes (x est la température t - 60 ◦ C ; y est le rendement en %) :x 1 2 3 4 5 6 7 8 9 10y 4 6 8 11 12 15 16 18 21 22Étudier la liaison entre y <strong>et</strong> x. On fera le graphique en “ nuage de points ” des valeurs de y en fonction desvaleurs de x. On construira la droite de régression de y en x <strong>et</strong> on donnera la valeur du coefficient de corrélationlinéaire r(X,Y). Pour calculer la valeur des deux coefficients de la droite de régression, on se servira des formulesdans le cas d’une variable explicative <strong>et</strong> des relations matricielles (cas de plus d’une variable explicative).Correction25expérimentalrégression linéaire20y rendement1510500 5 10 15x (t−60) °CDroite de régression


32 CHAPITRE 2. STATISTIQUE DESCRIPTIVE∑n = 10;x i = 55; ∑ x 2 i = 385;∑iiy i = 133; ∑ yi 2 = 2111;∑iix i y i = 899iD’où„ P∑(x i − x) 2 = ∑ x 2 i − iii„ P∑(y i − y) 2 = ∑ yi 2 − iiix i« 2ny i« 2∑(x i − x)(y i − y) = ∑ x i y i −∑ii(x i − x) 2 = 82, 5∑i(y i − y) 2 = 342, 1∑i(x i − x)(y i − y) = 167, 5in„ «„ «P Px i y iiiDonc la droite de régression des moindres carrés de y en x est y = ˆβ 0 + ˆβ 1 xAvecˆβ 0 = 2,1333 ; ˆβ 1 = 2,0303 ; r(x,y) = 0,9970.Si on applique directement les relations matricielles, on obtient :n⎛y = ⎜⎝46.22⎞⎟⎠ ;t XX =( 10 5555 385⎛ ⎞1 1X = 1 2⎜ ⎟⎝ . . ⎠1 10) ( );t 133Xy =899L’équation normale est alors {10β0 + 55β 1 = 13355β 0 + 385β 1 = 899d’où la solution6.2 Exercices avec indicationsExercice 6.2.1. Le tableau suivant donne les revenus imposables des Français en 1970.ClassesFréquences relatives[2500 ;5000[ 0.0067[5000 ;10000[ 0.3018[10000 ;15000[ 0.2750[15000 ;20000[ 0.1709[20000 ;30000[ 0.1445[30000 ;50000[ 0.0701[50000 ;70000[ 0.0166[70000 ;100000[ 0.0081[100000 ;200000[ 0.0051[200000 ;400000[ 0.0010(i) tracer l’histogramme de ces données pour les revenus allant de 0 à 7000.Indications Attention les intervalles de classes ne sont pas constants.Exercice 6.2.2. On désire tester n produits. On fait appel à 2 goûteurs <strong>et</strong> on leur demande de classer ces nproduits. Nous avons donc à notre disposition une série statistique double :x 1 , x 2 , . . . , x ny 1 , y 2 , . . . , y n


6. EXERCICES 33avec :{x 1 , x 2 , . . . , x n } = {y 1 , y 2 , . . . , y n } = {1, 2, . . . , n}On appelle coefficient de Spearman le coefficient de corrélation linéaire :r s =cov(x, y)s x s y(i) Montrer queoù d i = x i − y i .(ii) Que signifie r s = 1, r s = −1, r s = 0 ?r s = 1 − 6 ∑ ni=1 d2 in(n 2 − 1)Indication(i) On rappelle que la somme des n premiers entiers est égale à n(n + 1)/2 <strong>et</strong> que la somme des carrés des npremiers entiers est égale à n(n + 1)(2n + 1)/6.On calculera SCE x en fonction de nExercice 6.2.3. Dans une solution aqueuse contenant un polluant, on plonge un solide absorbant (charbon actifsous forme de tissu) qui “ capture ” une partie des molécules de la substance polluante. Au bout d’un certaintemps, le système est à l’équilibre : Chaque point d’équilibre est caractérisé par la concentration à l’équilibreC e <strong>et</strong> la quantité de polluant absorbé par unité de masse de charbon actif, q e . A une température donnée, onpeut mesurer différents points sur une courbe (C e , q e ) dite isotherme d’adsorption. Le tableau suivant fournitl’isotherme d’adsorption de l’aniline à 25 ◦ C (Faur-Brasqu<strong>et</strong>, 1998).C e(mg/l)q e(mg/g)72 57,7 38,5 21,3 13,1 6,9 3,9 1,2232,5 211 192 163,4 136,7 116,3 96,2 61,9Étudier la liaison entre q e <strong>et</strong> C e en supposant que les incertitudes expérimentales sur C e sont négligeablesdevant celles sur q e . On fera le graphique en “ nuage de points ” des valeurs de q e en fonction des valeurs de C e .On étudiera ensuite les deux modèles suivants :Modèle de Langmuirq e = qmbCe1+bC eModèle de Freundlich q e = KC 1/nePour chacun des deux modèles, on estimera les paramètres du modèle (q m <strong>et</strong> b, K <strong>et</strong> n) par régression linéairesimple sur des variables “ modifiées ”.Conclure sur “ l’adéquation ” des 2 modèles proposés.IndicationsOn prendra pour le modèle de Langmuir les variables x L = 1/C e <strong>et</strong> y L = 1/q e <strong>et</strong> pour le modèle de Freundlichles variables x F = ln C e <strong>et</strong> y F = ln q e . On donne∑i x Li = 1.4151 ∑ i y Li = 0, 0628 ∑ i x2 Li = 0.7904 ∑ i x Liy L i = 0, 0185∑i x F i = 21, 0887 ∑ i y F i = 39, 5204 ∑ i x2 F i = 69, 6526 ∑ i x F iy F i = 108, 59256.3 Exercices sans indicationsExercice 6.3.1. Pour une élection où il y a trois candidats, on désire savoir si les femmes <strong>et</strong> les hommes ont lemême comportement. C’est-à-dire si les populations des hommes <strong>et</strong> des femmes sont homogènes pour ce critère.On réalise pour cela un sondage sur 200 hommes <strong>et</strong> 100 femmes <strong>et</strong> on a obtenu les données de la table 6.3.1(i) Calculer les profils colonnes ;(ii) Réaliser le graphique adapté à ces données.Exercice 6.3.2. Dix répétitions d’une mesure de plomb ont été effectuées par spectrophotométrie d’absorptionatomique sur 10 échantillons indépendants. la table 6.3.2 suivant rassemble les valeurs trouvées.


34 CHAPITRE 2. STATISTIQUE DESCRIPTIVECandidats :Populations Hommes Femmes1 68 222 51 243 81 54Tab. 2.10 – DonnéesMesures x i Mesures x i1 0,975 6 1.2102 1,095 7 1,2323 1,135 8 1,2424 1,165 9 1,3625 1,180 10 2,185Tab. 2.11 – Données(i) Calculer la moyenne <strong>et</strong> la médiane de ces données ;(ii) Calculer l’écart type <strong>et</strong> l’écart interquartile de ces données ;(iii) Représenter graphiquement ces données ;(iv) On supprime la plus grande des données.(a) Calculer la moyenne <strong>et</strong> la médiane de ces données ;(b) Calculer l’écart type <strong>et</strong> l’écart interquartile de ces données ;(v) Commentaires.Exercice 6.3.3. Des mesures ont été réalisées pendant plusieurs journées sur un chauffe-eau solaire. On a mesurél’énergie E accumulée en fin de journée dans le ballon de stockage. On considère c<strong>et</strong>te variable comme la “ réponse ”du système vis à vis de deux autres variables mesurées simultanément : l’irradiation solaire journalière H reçuesur le plan du capteur <strong>et</strong> l’écart moyen de température T entre l’eau froide <strong>et</strong> l’air extérieur. Les performancesénergétiques journalières du chauffe-eau sont fournies dans le tableau suivant (Source :Adnot <strong>et</strong> al., 1988)Date E (MJ) H (MJ/m 22 ) T ( ◦ C)24 mars 19,0 16,8 6,925 mars 13,3 14,0 4,426 mars 7,1 8,2 5,827 mars 0,7 1,6 2,228 mars 0,7 2,3 1,429 mars 13,1 13,1 4,230 mars 29,4 27,9 5,031 mars 23,9 24,1 4,11 avril 12,1 14,2 1,016 septembre 10,9 8,2 10,017 septembre 8,4 6,5 11,318 septembre 16,9 14,6 12,719 septembre 4,0 3,0 8,620 septembre 20,5 18,1 9,721 septembre 26,1 23,9 10,622 septembre 24,8 23,2 9,51 juill<strong>et</strong> 33,2 23,1 16,82 juill<strong>et</strong> 32,0 21,7 17,93 juill<strong>et</strong> 27,4 19,0 16,8Étudier la liaison entre E, H <strong>et</strong> T. On fera le graphique en “ nuage de points ” des valeurs de E en fonctiondes valeurs de H, puis de T. On étudiera ensuite la régression linéaire multiple E = β 0 + β 1 H + β 2 TOn donne∑i E ∑i = 323, 5i H ∑i = 283, 5i T i = 158, 9∑i H2 i = 5420 ∑∑i T i 2 = 1812, 4i E iH i = 6260, 9 ∑ i E iT i = 3300, 4 ∑ i H iT i = 2651


Chapitre 3Probabilités1 IntroductionL’obj<strong>et</strong> de la statistique est souvent d’obtenir des conclusions sur une population à partir de données. Afin ded’obtenir celles-ci nous aurons besoin de connaître les lois de probabilité de certaines variables aléatoires définissur l’espace d’échantillonnage (i.e. sur l’espace de tous les échantillons possibles). Ceci est l’obj<strong>et</strong> du chapitre surla théorie de l’échantillonnage. Pour cela nous avons donc besoin des notions fondamentale de probabilités.Jeu de déProbabilités❄✻StatistiquesRésultat de 100 lancésPopulationProbabilités❄✻Statistiquesn-ÉchantillonA l’origine les probabilités sont liées au jeux de hasard 1 <strong>et</strong> on continue depuis à parler de science du hasard <strong>et</strong>aussi de loi du hasard. Mais comment cela est-il possible puisque par définition même le hasard est imprévisible ?Intuitivement on définit souvent la probabilité d’un événement comme le rapport du nombre de cas favorablessur le nombre de cas total, supposés tous également possibles. Mais que veut dire “également possibles” sinon“également probables” ? Et que signifie “également probables” sinon “de probabilités égales”. La probabilité estainsi définie à partir du terme probabilité ! C<strong>et</strong>te définition peut se comparer à la définition du point comme limited’une sphère dont le rayon tend vers 0 <strong>et</strong> de la sphère comme l’ensemble de points situés à une égale distance d’unpoint fixe. Pourtant tout le monde sait ce qu’est un point <strong>et</strong> ce qu’est une sphère.La théorie des probabilités est en fait une théorie mathématique parfaitement rigoureuse qui perm<strong>et</strong> de modéliser1 Il est à remarquer d’ailleurs que ce terme vient d’un mot arabe qui signifie : jeu de dé. Nous profitons de c<strong>et</strong>te note pour soulignerque le terme aléa provient lui du latin alea qui signifie aussi jeu de dé.35


36 CHAPITRE 3. PROBABILITÉSdes phénomènes où les résultats ne peuvent être connus avec certitude <strong>et</strong> c’est c<strong>et</strong>te théorie que nous allons étudiermaintenant.2 Définition des probabilités2.1 ExemplesExemple 2.1.1 (Cas fini). On considère un caractère dû à un gène ayant deux allèles C <strong>et</strong> c. On sait que dansun croisement chacun des deux parents donne un des deux gènes ; si les parents sont tous les deux hétérozygotes,c’est-à-dire ont tous les deux le génotype Cc, les génotypes des descendants sont de l’un des quatre types suivants(le premier gène indiqué est celui de la mère) :CC, Cc, cC, cc. Nous avons ainsi les quatre événements élémentairesde l’épreuve. Si ces événements sont équiprobables, la probabilité de chacun d’entre eux est p = 1/4. Supposonsmaintenant que ce qui nous intéresse est le phénotype des individus <strong>et</strong> que l’allèle C soit dominant. L’ensemblefondamental devient alors Ω = {[C], [c]} où [C] (respectivement [c]) représente le phénotype C (respectivement c)<strong>et</strong> correspond aux génotypes CC, Cc, cC (respectivement cc). Si les génotypes sont tous équiprobables alors nousavons P ([C]) = 3/4 <strong>et</strong> P ([c]) = 1/4.Exemple 2.1.2 (Cas infini dénombrable). On considère l’expérience aléatoire qui consiste à lancer un dé <strong>et</strong> ànoter le nombre de coups nécessaires pour obtenir 6 pour la première fois. On a donc Ω = {1, 2, 3, 4, . . .} = N ∗ . Laprobabilité de l’événement élémentaire n est :( ) n−1 5 1p n =6 6+∞∑n=1p n =+∞∑n=1( 56) n−116 = 1 6+∞∑n=0( 56) n= 1 6 . 11 − 5 6= 1Exemple 2.1.3 (Cas infini non dénombrable). Un voyageur arrive à la date t = 0 à une station de bus. On saitqu’un bus passe toutes les 5 minutes. Le voyageur étant seul ne peut savoir quand est passé le dernier bus. Quelleprobabilité peut-on définir ?Le voyageur sait qu’il attendra au maximum 5 minutes. Donc ici Ω = [0, 5]. Mais il n’a aucune raison deprivilégier des instants par rapport à d’autres. Aussi il est logique de prendre comme probabilité d’un intervalle[a, b] = A ⊂ Ω le rapport des longueurs des intervalles A <strong>et</strong> Ω :P (A) = b − a5 − 0Plus l’intervalle sera grand plus il aura de “chance” de voir le bus passer. L’ensemble des événements E contiendradonc tout les intervalles du type [a, b] mais aussi :– [0, a[= C Ω [a, 5]– ]b, 5] = C Ω [0, b]– [a, b[= ∪ n∈N[a, b − (1/n)]– ]a, b] = ∪ n∈N[a + (1/n), b]– ]a, b[=]a, (a + b)/2] ∪ [(a + b)/2, b[– ∪ n∈N (a n, b n ) où (a n , b n ) est un intervalle ouvert, fermé ou semi-ouvert– ∩ n∈N (a n, b n ) = C Ω {∪ n∈N C Ω(a n , b n )}– {a} = ∩ n∈N[a − (a/n), a + (1/n)]– <strong>et</strong>c ...E est un ensemble très vaste mais on démontre qu’il est différent de P(Ω). Ayant défini P ([a, b]) par (b − a)/5 =∫ b(1/5)dx on démontre alors que l’on peut construire une probabilité P sur E <strong>et</strong> que l’on a :a∫P (A) = (1/5)dxLa loi de probabilité est alors parfaitement définie par la fonctionf(x) = 1/5 si x ∈ [0, 5].Soit A = [a, b[∪]c, d[ alors, avec a < b < c < dP (A) = ∫ A f(x)dx = ∫ ba f(x)dx + ∫ df(x)dx = A = aire achurée.cA


2.DÉFINITION DES PROBABILITÉS 37f(x)15✻✬A❅ ❅ ❅❅❅❅❅❅✥❅❅ ❅❅ ❅❅❅❅❅ ❅❅❅ ❅❅❅❅❅❅ ❅❅❅❅ ❅❅❅❅ ❅❅ ❅❅❅❅❅❅❅❅❅❅ ❅ ❅ ❅❅❅❅❅❅ ❅❅❅❅❅a b c d✲xRemarque 2.1.4. On a P ({a}) = (a − a)/5 = 0 <strong>et</strong>P ([0, a[∪]a, 5]) = 1 − P ({a}) = 1. L’événement {a} peut se produire, mais a une probabilité nulle <strong>et</strong> l’événement[0, a[∪]a, 5] peut ne pas se produire mais a une probabilité égale à 1. Ce type de résultat étonne toujours l’étudiantau début, mais cela montre un peu la difficulté de travailler sur un ensemble non dénombrable.2.2 DéfinitionsLorsque Ω est un ensemble infini non dénombrable (un intervalle de R par exemple) nous ne pouvons pasdéfinir la probabilité d’un événement de façon constructive. En fait il existe même des sous ensembles de Ω pourlesquels nous ne pouvons pas calculer de probabilités, <strong>et</strong> l’ensemble des événements E est alors un sous ensemblede P(Ω). Les ensembles pour lesquels nous ne pouvons pas calculer la probabilité sont assez pathologiques <strong>et</strong> onne les rencontre jamais dans la pratique ; néanmoins nous devons mathématiquement définir quelles propriétés doitavoir l’ensemble E. La probabilité ne peut alors être définie que de façon axiomatique 2 .Définition 2.2.1 (Tribu ou σ-algèbre de Boole). Soit Ω un ensemble non vide. Un sous ensemble E de P(Ω) estune tribu ou une σ-algèbre de Boole si <strong>et</strong> seulement si elle vérifie les trois propriétés suivantes :(i) ∅ ∈ E <strong>et</strong> Ω ∈ E(ii) Si A ∈ E alors C Ω A ∈ E(iii) Si A i ∈ E ∀i ∈ I avec I fini où dénombrable alors⋃A i ∈ Ei∈IDéfinition 2.2.2 (Espace probabilisé ou mesurable). Tout couple (Ω, E) où E est une tribu est appelé un espaceprobabilisé ou mesurable.Définition 2.2.3 (Probabilité). Soit (Ω, E) un espace probabilisé. Une probabilité P sur E est une application deE dans [0, 1] qui satisfait les trois axiomes suivants :(i) 0 ≤ P (A) ≤ 1 ∀A ∈ E ; P (Ω) = 1(ii) ∀(A, B) ∈ E × E A ∩ B = ∅ =⇒ P (A ∪ B) = P (A) + P (B)(iii) Si (A n ) n∈N A n ∈ E est une suite telle que A n+1 ⊂ A n <strong>et</strong>⋂n∈NA n = ∅ alorslim P (A n) = 0n→+∞2.3 Représentation graphiqueLorsque Ω est fini où dénombrable la probabilité P est parfaitement déterminée par la donnée des p i . Onreprésente alors c<strong>et</strong>te probabilité par un diagramme en bâtons.Exemple 2.3.1. Reprenons l’exemple (2.1.1), alors Ω = {[c], [C]}, p = 3/4 q = 1/42 C<strong>et</strong>te définition axiomatique fut donnée la première fois par le mathématicien soviétique (ou russe ?) A.Kolmogorov en 1933. C<strong>et</strong>teapproche est donc assez récente. Ceci montre bien que c<strong>et</strong>te notion de probabilité n’est pas aussi évidente qu’elle n’y paraît à priori.


38 CHAPITRE 3. PROBABILITÉSp k ✻34[C] [c]14✲kExemple 2.3.2. Reprenons l’exemple(2.1.2) : Ω = N ∗ <strong>et</strong>( ) n−1 5p n = . 1 6 6p k ✻161 2 3 4 5 6 7 8 9 10 11536✲kPar contre lorsque Ω est infini non dénombrable la probabilité est parfaitement déterminée par sa fonction dedensité.Exemple 2.3.3. Loi uniforme sur un intervalle [a, b]. La fonction de densité est :f(x) = 1/(b − a) sur [a, b] <strong>et</strong> 0 ailleurs.✻✬A = 1f(x)1(b−a)❅❅ ❅❅ ❅❅❅ ❅❅❅❅❅❅ ❅❅❅❅❅❅❅ ❅❅❅❅❅❅❅ab✲xExemple 2.3.4. Loi normale réduite. La fonction de densité est :f(x) = 1 √2πe −x2 /2Remarque 2.3.5. On démontre que∫ +∞−∞f(x)dx =∫ BlimA→−∞ B→+∞ Af(x)dx = 1 = P (Ω)


3.PROBABILITÉS CONDITIONNELLES ET INDÉPENDANCE 390.4f(x)0.350.30.250.20.150.10.050−3 −2 −1 0 1 2 3xFig. 3.1 –3 Probabilités conditionnelles <strong>et</strong> indépendance3.1 Probabilités conditionnellesConsidérons pour illustrer notre propos l’expérience aléatoire qui consiste à j<strong>et</strong>er deux dés (l’un rouge <strong>et</strong> l’autrebleu). On suppose que chacun des 36 événements élémentaires sont équiprobables ; ils ont donc pour probabilitép = 1/36. Ω = {(i, j), i ∈ I <strong>et</strong> j ∈ J} où I = J = {1, 2, 3, 4, 5, 6} (i, j) signifie que le dé rouge a donné i <strong>et</strong> le débleu a donné j.Supposons maintenant que l’on sache que le dé rouge a donné 3. Quelle est alors la probabilité que la sommedes deux dés soit 8 ?Pour calculer c<strong>et</strong>te probabilité on peut raisonner de la façon suivante : nous ne pouvons en fait avoir que 6événements dans notre expérience : (3,1), (3,2), (3,3), (3,4), (3,5), (3,6). Aussi, sachant que le dé rouge est un 3,la probabilité (conditionnelle) de chacun des événements (3,1), (3,2), (3,3), (3,4), (3,5), (3,6) est 1/6, alors que laprobabilité (conditionnelle) des 30 autres événements est nulle. Par conséquent la réponse à la question est 1/6.Si nous désignons par A l’événement “la somme des 2 dés est 8” <strong>et</strong> par B l’événement “le dé rouge est 3”, alorsla probabilité calculée précédemment s’appelle la probabilité conditionnelle que A apparaisse sachant que B estréalisée <strong>et</strong> elle est notée P (A/B).Définition 3.1.1 (Probabilité conditionnelle). Soit (Ω, E) un espace probabilisé <strong>et</strong> P une probabilité sur c<strong>et</strong> espace.Soit B un événement de probabilité non nulle. On appelle probabilité conditionnelle de l’événement A sachant queB est réalisée la quantité :P (A ∩ B)P (A/B) =P (B)3.2 Indépendance d’événementsDéfinition 3.2.1 (Indépendance–dépendance de deux événements). Deux événements sont dits indépendants sila réalisation de l’un d’entre eux ne modifie pas la réalisation de l’autre, en d’autres termes, si la réalisation de l’und’entre eux n’apporte aucune information au suj<strong>et</strong> de l’autre. Les événements A <strong>et</strong> B sont dits dépendants dans lecas contraire.Théorème 3.2.2. Deux événements A <strong>et</strong> B sont indépendants si <strong>et</strong> seulement si :P (A ∩ B) = P (A).P (B)DémonstrationSi P (B) = 0 alors P (A ∩ B) = 0 (car 0 ≤ P (A ∩ B) ≤ P (B) = 0) donc P (A ∩ B) = P (A).P (B)Si P (B) ≠ 0 alors P (A ∩ B) = P (B).P (A/B) or A <strong>et</strong> B sont indépendants si <strong>et</strong> seulement si la réalisation de A nedonne pas d’information sur B donc si <strong>et</strong> seulement si P (A/B) = P (A) Par suite P (A ∩ B) = P (A).P (B) ✷Exemple 3.2.3. On j<strong>et</strong>te deux dés. Soit A l’événement “la somme des dés est 6” <strong>et</strong> B l’événement “le premier déest un 4”. Alors P (A ∩ B) = P ({(4, 2)}) = 1/36. MaisP (A) = P ({(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)}) = 5/36<strong>et</strong>P (B) = P ({(4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6)}) = 1/6


40 CHAPITRE 3. PROBABILITÉSdonc P (A).P (B) ≠ P (A ∩ B) <strong>et</strong> les deux événements sont dépendants. Ici P (A/B) = 1/6 <strong>et</strong> P (A/ ¯B) = 4/30 . SoitC l’événement “la somme des dés est 7”. AlorsP (C) = P ({(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1)}) = 1/6 <strong>et</strong> par suiteP (B ∩ C) = 1/36 = P (B).P (C). Ici B <strong>et</strong> C sont indépendants ; le fait de savoir que la somme est 7 ne donneaucun renseignement sur le score du premier dé. Par contre le fait de savoir que la somme est 6 implique que l’onne peut pas avoir un 6 pour le premier dé.Nous allons maintenant généraliser la notion d’indépendance à un nombre quelconque d’événements.Définition 3.2.4 (Indépendance de n événements). Soit (A i ) i=1,...,n n événements d’un espace probabilisé. Cesévénements sont dits indépendants si <strong>et</strong> seulement si pour tout sous-ensembles{A ′ 1, A ′ 2, . . . , A ′ r} de {A 1 , . . . , A n } r ≤ n on a :P (A ′ 1 ∩ A ′ 2 . . . ∩ A ′ r) = P (A ′ 1).P (A ′ 2) . . . P (A ′ r)Remarque 3.2.5. Des événements (A i ) i=1,...,n peuvent être indépendants deux à deux sans être indépendants.Considérons par exemple les 3 événements suivants de l’expérience aléatoire consistant à j<strong>et</strong>er deux pièces demonnaie non truquées :– L’événement A “la première pièce est Pile”– L’événement B “la deuxième pièce est Face”– L’événement C “les deux pièces sont sur le même côté”AlorsP (A ∩ B) = 1/2.1/2 = P (A).P (B)P (A ∩ C) = 1/2.1/2 = P (A).P (C)P (B ∩ C) = 1/2.1/2 = P (B).P (C)Les trois événements sont dont bien indépendants deux à deux. MaisP (A ∩ B ∩ C) = P (∅) = 0 ≠ P (A).P (B).P (C)par suite les trois événements ne sont pas indépendants. Ici le fait de savoir que la première pièce donne Pile <strong>et</strong>que la deuxième pièce donne Face implique que l’événement C ne peut pas être réalisé.4 Variables aléatoires4.1 IntroductionNous serons toujours amenés en pratique à travailler avec des variables aléatoires. Chaque mesure collectée seramise en relation avec une variable aléatoire. Ainsi les grandeurs auxquelles on s’intéressera seront en lien avec desfonctions définies sur un ensemble fondamental, c’est-à-dire avec des variables aléatoires. Ce qui nous intéressera, enpratique, sera la loi de probabilité sur l’espace d’arrivé. Nous donnons ci-après quelques exemples de formalisationpar des variables aléatoires où P désigne la population française :X 1 : P −→ {M, F }ω ↦−→ M si ω est un hommeω ↦−→ F si ω est une femmeX 2 : P −→ Rω ↦−→ Revenu de ωX 3 : P −→ {CSP 1 , CSP 2 , . . . , CSP n }ω ↦−→ la catégorie socioprofessionnelle de ωX 4 : P −→ Rω ↦−→ taille de ωX 5 : P −→ Nω ↦−→ nombre de yaourts mangés par ω pendant un anDans c<strong>et</strong>te section nous étudierons tout d’abord le cas simple où la variable aléatoire ne pourra prendre qu’unnombre fini ou dénombrable de valeur différentes. Ensuite nous étudierons les variables aléatoires réelles continues,puis nous nous intéresserons à la notion de fonction de répartition d’une variable réelle. Le paragraphe suivant seraconsacré à l’étude succincte des fonctions de variables aléatoires réelles. Enfin nous terminerons c<strong>et</strong>te section parune rapide étude des variables aléatoires vectorielles.


4. VARIABLES ALÉATOIRES 414.2 DéfinitionVariables aléatoires discrètesDéfinition 4.2.1 (Variable aléatoire discrète). Soit (Ω, E) un espace probabilisé <strong>et</strong> P une probabilité sur c<strong>et</strong> espace.On appelle variable aléatoire discrète définie sur (Ω, E) à valeur dans E toute application X de Ω dans E telle que :(i) X ne prend qu’un nombre fini ou dénombrable de valeurs dans E.(ii) Pour tout x ∈ X(Ω), le sous ensemble X −1 (x) = {ω ∈ Ω/X(ω) = x} de Ω est un événement (X −1 (x) ∈ E).Théorème 4.2.2. Soit (Ω, E) un espace probabilisé <strong>et</strong> P une probabilité sur c<strong>et</strong> espace. Soit X une variable aléatoirediscrète de Ω dans E, alors l’application P X définie par :P X : P(X(Ω)) −→ [0, 1]est une probabilité sur (X(Ω), P(X(Ω))).DémonstrationÉvidente. ✷A ↦−→ P X (A) = P (X −1 (A)) = P ({ω ∈ Ω/X(ω) ∈ A}Remarque 4.2.3. La terminologie employée ici est assez malheureuse <strong>et</strong> est source de confusion chez l’étudiant.Nous tenons donc à bien faire prendre conscience qu’une variable aléatoire X est une fonction parfaitementdéterminée, cela n’a rien à voir avec une variable mathématique bien qu’on la note X. Quant au terme aléatoire iln’est présent que pour rappeler que l’on travaille sur des espaces probabilisés.Remarque 4.2.4. Une variable aléatoire perm<strong>et</strong> en fait de transporter une probabilité définie sur un espace probabilisédans un autre espace probabilisé.Remarque 4.2.5. En posant p n = P X (x n ) = P (X −1 ({x n })) nous r<strong>et</strong>rouvons la définition d’une probabilité surun ensemble fini ou dénombrable.Définition 4.2.6 (Loi d’une variable aléatoire). La probabilité P X est appelée la loi de la variable aléatoire X.Exemple 4.2.7. On j<strong>et</strong>te trois fois une pièce de monnaie <strong>et</strong> on s’intéresse au nombre de faces obtenu. Ici<strong>et</strong>Ω = {(F, F, F ), (F, F, P ), (F, P, F ), (F, P, P ), (P, F, F ), (P, F, P ), (P, P, F ), (P, P, P )}X : Ω −→ Rω ↦−→ X(ω) = nombre de F dans ωX(Ω) = {0, 1, 2, 3} = Ω ′ , X est une variable aléatoire de (Ω, P(Ω)) dans (Ω ′ , P(Ω ′ ))X −1 ({0}) = {(P, P, P )} <strong>et</strong> P X ({0}) = P ({(P, P, P )}) = 1/8X −1 ({1}) = {(P, P, F ), (P, F, P ), (F, P, P )} <strong>et</strong> P X ({1}) = 3/8X −1 ({2}) = {(P, F, F ), (F, P, F ), (F, F, P )} <strong>et</strong> P X ({2}) = 3/8X −1 ({3}) = {(F, F, F )} <strong>et</strong> P X ({3}) = 1/8Exemple 4.2.8. Reprenons l’exemple (2.2.1.1) <strong>et</strong> posons Ω = {CC, Cc, cC, cc}. Nous pouvons alors définir lephénotype comme la variable aléatoire suivante :Nous avons bien alors :X : Ω −→ {[C], [c]}CC ↦−→ [C]Cc ↦−→ [C]cC ↦−→ [C]cc ↦−→ [c]P X ({[C]}) = P ({CC, Cc, cC}) = 3/4P X ({[c]}) = P ({cc}) = 1/4


42 CHAPITRE 3. PROBABILITÉSDéfinition 4.2.9 (Variable aléatoire discrète réelle). On appelle variable aléatoire discrète réelle (v.a.r.d.) toutevariable aléatoire discrète à valeur dans R.Notation 4.2.10. Lorsque X est une variable aléatoire réelle on note aussi :Par exemple dans l’exemple (4.2.7) on note aussiP X ({x}) = P (X = x) = P (X −1 (x))P X (] − ∞, x]) = P (X ≤ x) = P (X −1 (] − ∞, x]))P X ({1}) = P (X = 1) = 3/8 <strong>et</strong> P X ({0, 1, 2}) = P (X ≤ 2) = 7/8Remarque 4.2.11. On représente la loi de probabilité d’une variable discrète réelle par des diagrammes en bâtons.Variables aléatoires réelles continuesDéfinition 4.2.12 (Variable aléatoire réelle continue). Soit (Ω, E) un espace probabilisé <strong>et</strong> P une probabilité surc<strong>et</strong> espace. On appelle variable aléatoire réelle continue (v.a.r. continue) définie sur (Ω, E) toute application X deΩ dans R ayant les propriétés suivantes :(i) L’ensemble {ω ∈ Ω/X(ω) ∈ [a, b]} est un événement (i.e ; un élément de E) pour tout couple (a, b) de R 2 .(ii) Il existe une fonction f de R dans R telle queP (X ∈ [a, b]) = P (X −1 ([a, b])) = P X ([a, b]) =∫ baf(x)dxDéfinition 4.2.13 (Fonction de densité). On appelle fonction de densité d’une variable aléatoire réelle continueX toute fonction f perm<strong>et</strong>tant de définir la probabilité comme indiqué dans la définition ci-dessus.Remarque 4.2.14. Une fonction f est une fonction de densité si <strong>et</strong> seulement si :(i) f(x) ≥ 0 pour tout x.(ii) f est intégrable.(iii) ∫ +∞−∞ f(x)dx = 1Exemple 4.2.15. La durée de fonctionnement d’un ordinateur avant sa première panne est une variable aléatoirecontinue de densité donnée par :f : R −→ Rx ↦−→ λe −x/100 si x ≥ 0x ↦−→ 0 sinonQuelle est la probabilité que c<strong>et</strong>te durée de fonctionnement soit comprise entre 50 <strong>et</strong> 150 heures ? Quelle est laprobabilité que l’ordinateur fonctionne moins de 100 heures ?∫ +∞−∞f(x)dx =∫ +∞0λe −x/100 dx = 100λDonc f est une fonction de densité si <strong>et</strong> seulement si λ = 1/100. Par suite :ConclusionP (X ∈ [50, 150]) =∫ 15050P (X ≤ 100) =1100 e−x/100 dx = e −1/2 − e −3/2 ≃ 0, 384∫ 1000f(x)dx = 1 − e −1 ≃ 0, 633Nous pouvons donc dire qu’une variable aléatoire c’est une fonction parfaitement connue qui perm<strong>et</strong> d<strong>et</strong>ransposer une probabilité d’un espace probabilisé dans un autre. Une variable aléatoire, c’est comme leSaint Empire Romain : il n’était pas saint, ce n’était pas un empire <strong>et</strong> il n’était pas Romain 3 . Quant-à la loi d’unevariable aléatoire, c’est la probabilité qu’elle définit sur l’espace d’arrivée. C’est c<strong>et</strong>te loi ou des paramêtre de c<strong>et</strong>teloi qui nous intéressera en pratique. Par abus de langage nous dirons que :3 C<strong>et</strong>te analogie vient de Donald E. Catlin ”Estimation, Control, and the Discr<strong>et</strong>e Kalman Filter”, page 5, ed. Springer-Verlag 1989


4. VARIABLES ALÉATOIRES 43(i) X est une v.a.r. de loi F (fonction de répartition) ;(ii) X est une v.a.r. continue de loi f (fonction de densité) ;(iii) X est une v.a.r. discrète de loi P (X = k).Et nous noterons :P (a ≤ X ≤ b) = P (X ∈ [a, b]) = P X ([a, b]) = P (X −1 ([a, b]))4.3 Fonction de répartitionNous n’étudierons dans ce paragraphe que des variables aléatoires réelles.Définition 4.3.1 (Fonction de répartition). On appelle fonction de répartition associée à la variable aléatoireréelle X la fonction F définie par :F : R −→ Rx ↦−→ F (x) = P (X ≤ x) = P X (] − ∞, x])En d’autre termes F (x) est la probabilité que la variable aléatoire X prenne une valeur inférieure ou égale à x.Nous allons maintenant voir les représentations graphiques des c<strong>et</strong>te fonction sur trois exemples, l’un fini, l’autredénombrable <strong>et</strong> le troisième infini non dénombrable.Exemple 4.3.2. Reprenons l’exemple (4.2.7) où la variable aléatoire X est le nombre de faces obtenu lors du j<strong>et</strong>éde trois pièces. Ici la fonction de répartition est :F (x) = 0 si x ∈] − ∞, 0[F (x) = P (X ≤ x) = P (X = 0) = 1 si x ∈ [0, 1[8F (x) = P (X = 0 ou X = 1) = P (X = 0) + P (X = 1) = 1 8 + 3 8 = 1 si x ∈ [1, 2[2F (x) = 7 si x ∈ [2, 3[8F (x) = 1 si x ∈ [3, +∞[Nous avons donc la représentation graphique suivante :F (x) ✻1781218-1 0 1 2 3✲x


44 CHAPITRE 3. PROBABILITÉSExemple 4.3.3. Soit X ne nombre de fois qu’il faut lancer une pièce de monnaie pour obtenir pile. Nous avons :F (x) = 0 si x < 1F (x) = 1 si x ∈ [1, 2[2F (x) = 1 2 + 1 si x ∈ [2, 3[4.F (x) =n∑ 12 n = 1 − 1 si x ∈ [n, n + 1[2n i=1.<strong>et</strong> la représentation graphique donne :F (x)✻783412-1 0 1 2 3✲xExemple 4.3.4. Considérons la loi uniforme sur [−1, +1], c’est-à-dire la loi définie par la fonction de densité fsuivante :f : R −→ Ru ↦−→ f(u) = 1/2 si u ∈ [−1, +1]u ↦−→ f(u) = 0 sinonNous avons alors :Si x ≤ −1 alors F (x) =Si − 1 ≤ x ≤ 1 alors F (x) =Si x ≥ 1 alors F (x) =∫ x−∞∫ x−∞∫ x−∞f(u)du =f(u)du =f(u)du =∫ x−∞∫ x−1∫ 1−10dx = 012 dx = 1 (x + 1)212 dx = 1Nous avons donc la visualisation suivante :


4. VARIABLES ALÉATOIRES 45F (x)✻112 -1 0 1 2 3✲xRemarque 4.3.5. Lorsque l’on parle de variable aléatoire réelle continue c’est la fonction de répartition qui estcontinue <strong>et</strong> non pas la fonction de densité.Théorème 4.3.6. La loi de probabilité d’une variable aléatoire réelle est parfaitement connue à partir de safonction de répartition F . C’est-à-dire que si l’on connaît la fonction de répartition d’une variable aléatoire réelleX alors on peut calculer P (a < X < b) pour tout (a, b) dans R. Nous dirons alors que la loi de X est F .DémonstrationAdmise ✷Remarque 4.3.7. Nous emploierons indifféremment, par abus de langage, pour caractériser une loi les expressions:(i) X est de loi F où F est la fonction de répartition associée à X.(ii) X est de loi f si X est continue <strong>et</strong> f est la fonction de densité associée à X.(iii) X est de loi P (X = k) si X est discrète.Théorème 4.3.8. Soit X une variable aléatoire réelle continue de fonction de densité f alors :(i) Si f est continue en a <strong>et</strong> b alors :(ii) Si f est continue en a alors :P (a ≤ X ≤ b) =DémonstrationCela provient des propriétés de l’intégrale ✷∫ baf(x)dx = P (a ≤ X < b)dFdx (a) = F ′ (a) = f(a)= P (a < X ≤ b)= P (a < X < b)= F (b) − F (a)Corollaire 4.3.9. Soit X une variable aléatoire réelle continue définie par une fonction de densité f continue.Alors si F est la fonction de répartition associée à X on a :<strong>et</strong>F (x) =∫ x−∞f(u)du <strong>et</strong> F ′ (x) = f(x)P (a < X < b) = F (b) − F (a)P (a < X ≤ b) = F (b) − F (a)P (a ≤ X < b) = F (b) − F (a)P (a ≤ X ≤ b) = F (b) − F (a)Remarque 4.3.10. Le corollaire précédent est important dans la pratique car c’est la fonction de répartition Fqui est donnée dans les tables statistiques.


46 CHAPITRE 3. PROBABILITÉS4.4 Fonction d’une variable aléatoire réelle continueIl arrive souvent dans la pratique que l’on connaisse la distribution d’une variable aléatoire X mais que l’ons’intéresse plutôt à celle d’une fonction de c<strong>et</strong>te variable aléatoire. En d’autres termes on connaît X mais on désireconnaître g(X).Exemple 4.4.1. Soit X une variable uniformément distribuée sur [0, 1]. On obtiendra la distribution de Y = X 2de la manière suivante :DoncF Y (y) = P (Y ≤ y) y ≥ 0= P (X 2 ≤ y)= P (X ≤ √ y)= F X ( √ y) = √ y si y ∈ [0, 1]f Y (y) = F ′ Y (y) =f Y (y) = 0 sinon12 √ si y ∈ [0, 1]yThéorème 4.4.2. Soit X une variable aléatoire réelle continue de densité f X <strong>et</strong> soit g une fonction strictementmonotone (croissante ou décroissante) <strong>et</strong> dérivable de R dans R. La densité de probabilité de la variable aléatoireY = g(X) est alors :f Y (y) ={fX (g −1 (y)) ddy g−1 (y) si il existe un x pour lequel y = g(x)0 si g(x) ≠ y pour tout xDémonstrationCela provient du théorème de changement de variable dans une intégrale. ✷Application 4.4.3. Soit X une variable aléatoire réelle de loi normale de paramètre µ <strong>et</strong> σ, c’est-à-dire que X apour fonction de densitéf(u) = √ 1 e −(x−µ)2 /(2σ 2 )2πσ<strong>et</strong> soitalorsPar suiteg(x) = x − µσ<strong>et</strong> Y = g(X)g(x) = y ⇐⇒ y = x − µσ⇐⇒ x = σy + µ = g −1 (y)f Y (y) = f X (σy + µ)σ = 1 √2πe −y2 /2<strong>et</strong> donc Y suit une lois normale réduite (i.e. de paramètres 0 <strong>et</strong> 1). Par conséquent nous avons :F X (a) ==∫ a−∞∫ a−µσ−∞f X (x)dx = P (X ≤ a)= P (σY + µ ≤ a)= F Y ( a − µσ )f Y (y)dy = P (Y ≤ a − µσ )En conclusion si on connaît la fonction de répartition de loi normale réduite on peut calculer la fonction derépartition de toutes les lois normales.


4. VARIABLES ALÉATOIRES 474.5 Variables aléatoires vectoriellesDans les applications pratiques on rencontre souvent des problèmes dans lesquels les résultats des expériencesse trouvent décrits non pas par une variable aléatoire mais par deux ou plusieurs variables aléatoires. Par exemplelorsque l’on j<strong>et</strong>te 3 dés le résultat est donné par 3 nombres, ou lorsque l’on désire étudier simultanément le rendementd’une variété de blé <strong>et</strong> les précipitations de mars à juin.Comme pour les variables aléatoires réelles nous allons tout d’abord étudier les variables aléatoires discrètes,puis les variables aléatoires réelles continues. Nous étudierons tout d’abord le cas de deux variables aléatoires, puisnous généraliserons.Définition 4.5.1 (Vecteur aléatoire). On appelle vecteur aléatoire de dimension n tout n-upl<strong>et</strong>(X 1 , . . . , X n ) de n variables aléatoires définies sur le même espace (Ω, E).Notation 4.5.2. Lorsque n = 2 on parle de couple de variables aléatoires <strong>et</strong> on note (X, Y ).Définition 4.5.3 (Fonction de probabilité jointe). Soient X <strong>et</strong> Y 2 variables aléatoires discrètes à valeur respectivementdans E <strong>et</strong> F . On appelle fonction de probabilité jointe de X <strong>et</strong> de Y la fonction p définissant la loi deprobabilité du couple de variables aléatoires (X, Y ) suivante.p : E × F −→ R(x, y) ↦−→ p(x, y) = P (X = x <strong>et</strong>Y = y)Remarque 4.5.4. Soit p la fonction de probabilité jointe de X <strong>et</strong> de Y alors :(i) p(x, y) ≥ 0 ∀(x, y) ∈ E × F(ii)∑ ∑p(x, y) = 1x∈E y∈YDéfinition 4.5.5 (Loi marginale). Soient X <strong>et</strong> Y 2 variables aléatoires discrètes à valeurs dans E <strong>et</strong> F <strong>et</strong> pla fonction de probabilité jointe de X <strong>et</strong> Y . On appelle loi de probabilité marginale de X (respectivement Y )l’applicationp X : E −→ Rx ↦−→ p X (x) = ∑ y∈Fp(x, y)respectivementp Y : F −→ Ry ↦−→ p Y (y) = ∑ x∈Ep(x, y)Remarque 4.5.6. p X (respectivement p Y ) est la loi de probabilité de la variable aléatoire X (respectivement Y )Remarque 4.5.7. Lorsque E <strong>et</strong> F sont finis, E = {x 1 , . . . , x n } <strong>et</strong> F = {y 1 , . . . , y m } on représente p(x, y) de lafaçon suivante :y 1 y 2 · · · y j · · · y m p Xx 1 p(x 1 , y 1 ) p(x 1 , y 2 ) · · · p(x 1 , y j ) · · · p(x 1 , y m ) p X (x 1 )x 2 p(x 2 , y 1 ) p(x 2 , y 2 ) · · · p(x 2 , y j ) · · · p(x 2 , y m ) p X (x 2 ). . ... .x i p(x i , y 1 ) p(x i , y 2 ) · · · p(x i , y j ) · · · p(x i , y m ) p X (x i ). . ... .x n p(x n , y 1 ) p(x n , y 2 ) · · · p(x n , y j ) · · · p(x n , y m ) p X (x n )p Y p Y (y 1 ) p Y (y 2 ) · · · p Y (y i ) · · · p Y (y m ) 1Exemple 4.5.8. On lance deux dés à jouer <strong>et</strong> on s’intéresse à la somme des résultats obtenus (variable U) <strong>et</strong> aumaximum des résultats des deux dés (variable V ). Nous avons alors :


48 CHAPITRE 3. PROBABILITÉSU : V 1 2 3 4 5 6 p V112360 0 0 0 036223 0360 0 0 0361 234 036 360 0 0362 245 0 036 360 0361 2 256 0 036 36 360362 2 2 67 0 0 036 36 36 361 2 2 58 0 0 036 36 36 362 2 49 0 0 0 036 36 361 2 310 0 0 0 036 36 362 211 0 0 0 0 036 36112 0 0 0 0 0p U136336536736936136 3611361Nous allons maintenant étudier le cas des variables aléatoires réelles continues.Définition 4.5.9 (Fonction de densité d’un couple de v.a. continues).On dit que le couple de variables aléatoires réelles continues a une densité de probabilité f, application de R 2 dansR positive <strong>et</strong> intégrable si <strong>et</strong> seulement si on peut écrire :∫ ∫P (A) = P ((X, Y ) ∈ A) = f(x, y)dxdy ∀A ∈ Eoù E est la tribu de R 2 qui contient les rectangles [a, b] × [c, d]Remarque 4.5.10. Si A est un rectangle [a, b] × [c, d] alors on démontre queP (A) =∫ b ∫ da(cAf(x, y)dy)dxIllustration 4.5.11. Graphiquement z = f(x, y) représente dans R 3 une surface <strong>et</strong> le volume totale délimité parc<strong>et</strong>te surface <strong>et</strong> le plan (O, x, y) est égale à 1 car∫ ∫P (Ω) = P (R 2 ) = f(x, y)dxdy = 1R 2Si A = [a, b] × [c, d] alors P (A) est le volume ombré ci-dessous :Fig. 3.2 – Densité d’un couple de variables aléatoires réellesExemple 4.5.12. (Densité uniforme sur un disque C) Soit C le disque de centre O <strong>et</strong> de rayon a > 0, C ={(x, y) ∈ R 2 tel que x 2 + y 2 ≤ a} {f(x, y) =1πasi (x, y) ∈ C2f(x, y) = 0 sinon


4. VARIABLES ALÉATOIRES 49Ici les variables aléatoires X <strong>et</strong> Y sont les applications composantes.Exemple 4.5.13. (Loi normale réduite à 2 dimensions) La fonction de densité est ici :f(x, y) = 1“ x2 +y22π e− 2Définition 4.5.14 (Loi marginale). Soit X <strong>et</strong> Y un couple de variables aléatoires réelles continues de fonction dedensité f. On appelle loi de probabilité marginale de X (respectivement Y ) l’application :respectivementf X : R −→ Rx ↦−→ f X (x) =f Y : R −→ Ry ↦−→ f Y (y) =∫ +∞y=−∞∫ +∞x=−∞”f(x, y)dyf(x, y)dxRemarque 4.5.15. (i) La loi marginale de X (respectivement de Y ) est en fait la loi de la variable aléatoire X(respectivement Y )(ii) La fonction de répartition de X (respectivement de Y ) est alors :F X (x) =∫ x−∞(respectivement F Y (y) =f X (u)du =∫ y−∞∫ x∫ +∞u=−∞ v=−∞∫ +∞ ∫ yf Y (v)dv =u=−∞f(u, v)dudvv=−∞f(u, v)dudv )Remarque 4.5.16. (i) La généralisation au cas de n variables aléatoires (Y 1 , . . . , Y n ) est immédiate. Lorsquel’on traite des variables discrètes, on a :p(y 1 , y 2 , . . . , y n ) = P (Y 1 = y 1 <strong>et</strong> Y 2 = y 2 . . . <strong>et</strong> Y n = y n )Lorsque l’on traite des variables aléatoires réelles continues, on a :∫ ∫ ∫P (A) = · · · f(y 1 , y 2 , . . . , y n )dy 1 dy 2 . . . dy nA(ii) Rien ne nous empêche de définir aussi des lois jointes de deux variables aléatoires réelles X <strong>et</strong> Y lorsque Xest discrète <strong>et</strong> Y continue. Mais, comme nous ne les utiliserons pas ici, nous ne les étudierons pas.4.6 Variables aléatoires indépendantesNous considérons dans c<strong>et</strong>te section deux variables aléatoires X <strong>et</strong> Y définies sur le même espace Ω.Définition 4.6.1 (Indépendance de 2 v.a.r.). Deux variables aléatoires réelles X <strong>et</strong> Y sont dites indépendantes si<strong>et</strong> seulement si pour tout événement A ⊂ R <strong>et</strong> B ⊂ R, on a :P (X ∈ A <strong>et</strong> Y ∈ B) = P (X ∈ A) × P (Y ∈ B)Remarque 4.6.2. La définition précédente est équivalente à dire que les événements X −1 (A) <strong>et</strong> Y −1 (B) sontindépendants pour tout ensemble A <strong>et</strong> B.Théorème 4.6.3. Soient X <strong>et</strong> Y 2 variables aléatoires discrètes. X <strong>et</strong> Y sont indépendantes si <strong>et</strong> seulement si :p(x, y) = p X (x) × p Y (y) ∀(x, y) ∈ R 2Théorème 4.6.4. Soient X <strong>et</strong> Y deux variables aléatoires réelles continues. X <strong>et</strong> Y sont indépendantes si <strong>et</strong>seulement sif(x, y) = f X (x) × f Y (y) ∀(x, y) ∈ R 2DémonstrationDémonstration admise. ✷Remarque 4.6.5. (i) Pour pouvoir parler d’indépendance ou de dépendance de 2 ou plus variables aléatoires ilfaut que celles-ci soient définies sur le même espace fondamental.(ii) La signification concrète de l’indépendance de 2 variables aléatoires est que la connaissance de la valeurd’une des variables aléatoires sur un individu n’apporte aucune information sur la valeur de l’autre variablealéatoire.


50 CHAPITRE 3. PROBABILITÉS5 Espérance mathématique5.1 DéfinitionsL’espérance mathématique d’une variable aléatoire est l’un des concepts les plus important en théorie desprobabilités.Définition 5.1.1 (Espérance mathématique d’une v.a.r.d.). Soit X une variable aléatoire réelle discrète de loi P .On appelle espérance mathématique la grandeur, si elle existe, suivante.E(X) = ∑ xxP (X = x)Exemple 5.1.2. Soit X de loi de Bernoulli de paramètre p ; c’est-à-dire :P (X = 0) = 1 − p = q <strong>et</strong> P (X = 1) = palorsE(X) = 0 × q + 1 × p = pDéfinition 5.1.3 (Espérance mathématique d’une v.a.r. continue). Soit X une variable aléatoire réelle continuede fonction de densité f. On appelle espérance mathématique de X la quantité si elle existe :E(X) =Exemple 5.1.4. Soit X de loi uniforme sur [a, b] alorsE(X) =∫ +∞−∞∫ +∞−∞xf(x)dxx 1b − a dx = 12(b − a) (b2 − a 2 ) = a + b2Théorème 5.1.5. Soit X une variable aléatoire réelle <strong>et</strong> g une application de R dans R. Soit Y = g(X), alorsl’espérance mathématique de Y est si elle existe :(i) Si X est discrète :E(Y ) = E(g(X)) = ∑ xg(x)P (X = x)(ii) Si X est continue de loi fE(Y ) = E(g(X)) =∫ +∞−∞g(x)f(x)dxRemarque 5.1.6. On devrait en fait écrire Y = g ◦ X au lieu de Y = g(X). En eff<strong>et</strong> il s’agit bien ici de lacomposition de fonction :XY : Ω −→ R −→ Rω ↦−→ X(ω) ↦−→ g ◦ (X(ω))Théorème 5.1.7. Soit a <strong>et</strong> b deux constantes réelles <strong>et</strong> X une variable aléatoire réelle d’espérance mathématiqueE(X), alors nous avonsE(aX + b) = aE(X) + bDémonstrationIl suffit de poser Y = aX + b <strong>et</strong> d’appliquer le théorème précédent. Le résultat s’obtient alors immédiatement enutilisant la propriété de linéarité de la somme ou de l’intégrale. ✷Définition 5.1.8 (Moments par rapport à l’origine). Soit X une variable aléatoire réelle. On appelle n-ièmemoment de X par rapport à l’origine la quantité si elle existe E(X n )(i) Si X est discrèteE(X n ) = ∑ xgx n P (X = x)(ii) Si X est continue de densité fE(X n ) =∫ +∞−∞x n f(x)dx


5.ESPÉRANCE MATHÉMATIQUE 51Remarque 5.1.9. Le n-ième moment de X par rapport à l’origine est l’espérance mathématique de la variablealéatoire Y = X n .Définition 5.1.10 (Moments centrés). Soit X une variable aléatoire réelle. On appelle n-ième moment centré deX la quantité si elle existe E[(X − E(X)) n ](i) Si X est discrèteE[(X − E(X)) n ] = ∑ x(x − E(X)) n P (X = x)(ii) Si X est continue de densité fE[(X − E(X)) n ] =∫ +∞−∞(x − E(X)) n f(x)dxRemarque 5.1.11. Si l’on pose µ = E(X) alors le n-ième moment centré de X est l’espérance mathématique dela variable aléatoire Y = g(X) avecg : R −→ Rx ↦−→ (x − µ) nRemarque 5.1.12. Très souvent pour passer d’une variable discrète à une variable continue il suffit de changerune somme finie ∑ en une “somme infinie” ∫ .5.2 Espérance d’une somme de variables aléatoiresThéorème 5.2.1. Soit (Y 1 , Y 2 , . . . , Y n ) un n-upl<strong>et</strong> de variables aléatoires réelles qui possèdent des espérancesmathématiques alors S = ∑ ni=1 Y i possède une espérance mathématique <strong>et</strong> on a :E(S) =n∑E(Y i )Exemple 5.2.2. Soit (Y 1 , . . . , Y n ) un n-upl<strong>et</strong> de variables de loi de Bernoulli de paramètre p alors :5.3 Variance–CovarianceE(n∑Y i ) =i=1i=1n∑E(Y i ) =i=1n∑p = npDéfinition 5.3.1 (Variance d’une variable aléatoire réelle). Soit X une variable aléatoire réelle. On appelle variancede X la quantité si elle existe :V ar(X) = E[(X − E(X)) 2 ]Remarque 5.3.2. La variance est en fait le moment centré d’ordre deux.Remarque 5.3.3. La variance est une mesure de l’écart moyen entre la variable aléatoire X <strong>et</strong> son espérancemathématique. Nous aurions pu prendre comme mesureE(|X − E(X)|), mais c<strong>et</strong>te quantité est plus difficile à manipuler.La variance a la dimension du carré de la variable aléatoire aussi, pour avoir une grandeur de la dimension dela variable, on définit la quantité suivante.Définition 5.3.4 (Écart type). Soit X une variable aléatoire réelle. On appelle écart type de X la quantité si elleexiste :σ(X) = √ V ar(X)Théorème 5.3.5. La variance d’une variable aléatoire réelle existe si <strong>et</strong> seulement si le moment d’ordre deux deX existe <strong>et</strong> on a la relation suivante :i=1V ar(X) = E(X 2 ) − (E(X)) 2


52 CHAPITRE 3. PROBABILITÉSDémonstrationNous n’allons démontrer que la formule ci-dessus sans démontrer totalement le théorème. Posons µ = E(X)✷Exemple 5.3.6. Soit X <strong>et</strong> Y de loisV ar(X) = E[(X − µ) 2 ] = E[X 2 − 2µX + µ 2 ]= E(X 2 ) − 2µE(X) + µ 2= E(X 2 ) − µ 2P (X = 1) = 1 2P (X = −1) = 1 2P (Y = 100) = 1 2alors E(X) = E(Y ) = 0 <strong>et</strong>P (Y = −100) = 1 2V ar(X) = E(X 2 ) = 1 2 × 1 2 + (−1)2 × 1 2 = 1V ar(Y ) = E(Y 2 ) = 100 2 × 1 2 + (−100)2 × 1 2 = 10000C<strong>et</strong> exemple illustre bien la remarque (5.3.3) ci-dessus : les variables X <strong>et</strong> Y ont la même espérance mathématiquemais la dispersion des valeurs par rapport à c<strong>et</strong>te espérance mathématique est plus grande pour Y que pour X.Théorème 5.3.7. Soit X une variable aléatoire réelle qui possède une variance alors Y = aX + b a une variancepour tout (a, b) ∈ R 2 <strong>et</strong> on a :V ar(Y ) = a 2 V ar(X)Théorème 5.3.8. Soit (X, Y ) un couple de variables aléatoires réelles indépendantes alorsE(XY ) = E(X)E(Y )Remarque 5.3.9. Il faut bien faire attention à la signification de l’égalité ci-dessus. (X, Y ) est un couple devariables aléatoires réelles, c’est-à-dire que(X, Y ) : Ω −→ R 2<strong>et</strong> XY est la variable aléatoire réelle Z = g ◦ (X, Y ) oùω ↦−→ (X(ω), Y (ω))g : R 2 −→ R(x, y) ↦−→ g(x, y) = xyEn d’autre terme Z est la variable aléatoire réelle suivante :E(XY ) n’est alors que E(Z).Z : Ω −→ Rω ↦−→ Z(ω) = X(ω)Y (ω)Remarque 5.3.10. La réciproque du théorème précédent est fausse, on peut avoirE(XY ) = E(X)E(Y ) sans avoir des variables indépendantes.Définition 5.3.11 (Covariance). Soit (X, Y ) un couple de variables aléatoires réelles adm<strong>et</strong>tant des espérancesmathématiques. On appelle covariance de X <strong>et</strong> de Y la quantité, si elle existe définie par :Remarque 5.3.12. On a V ar(X) = Cov(X, X).Cov(X, Y ) = E[(X − E(X))(Y − E(Y ))]


5.ESPÉRANCE MATHÉMATIQUE 53Théorème 5.3.13. Soit (X, Y ) un couple de variables aléatoires réelles adm<strong>et</strong>tant des espérances mathématiques.La covariance de X <strong>et</strong> de Y existe si <strong>et</strong> seulement si E(XY ) existe <strong>et</strong> on a la relation suivante :Cov(X, Y ) = E(XY ) − E(X)E(Y )Corollaire 5.3.14. Soit (X, Y ) un couple de variables aléatoires réelles adm<strong>et</strong>tant des espérances mathématiques.Si X <strong>et</strong> Y sont indépendantes alors :Cov(X, Y ) = 0DémonstrationCela provient de l’application directe des théorèmes (5.3.8) <strong>et</strong> (5.3.13). ✷Théorème 5.3.15. Soit (X, Y ) un couple de variables aléatoires réelles adm<strong>et</strong>tant des espérances mathématiques<strong>et</strong> des variances. Alors la variance de X + Y <strong>et</strong> la covariance de X <strong>et</strong> Y existent <strong>et</strong> on a la relation suivante :DémonstrationV ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X, Y )✷V ar(X + Y ) = E[(X + Y − E(X + Y )) 2 ]= E[((X − E(X)) + (Y − E(Y ))) 2 ]= E[(X − E(X)) 2 ] + E[(Y − E(Y )) 2 ] + E[2(X − E(X))(Y − E(Y ))]= V ar(X) + V ar(Y ) + 2Cov(X, Y )Corollaire 5.3.16. Sous les mêmes hypothèses que précédemment <strong>et</strong> si de plus les variables aléatoires sontindépendantes alors :V ar(X + Y ) = V ar(X) + V ar(Y )DémonstrationImmédiate ✷Remarque 5.3.17. Les résultat précédents se généralisent sans difficultés au cas d’un n-upl<strong>et</strong> de variables aléatoires :(i)V ar(n∑Y i ) =i=1(ii) Si les variables sont indépendantes deux à deuxV ar(n∑i=1V ar(Y i ) + 2 ∑ i


54 CHAPITRE 3. PROBABILITÉS6 Théorèmes limites6.1 IntroductionLes théorèmes limites constituent sans doute les résultats théoriques parmi les plus importants de la théoriedes probabilités. Ces théorèmes sont répartis en deux grandes classes : les lois des grands nombres d’une part,les théorèmes centraux limites d’autre part. Les lois des grands nombres énoncent des conditions sous lesquellesla moyenne d’une suite de variables aléatoires de même loi converge (dans un sens à définir) vers leur espérancemathématique commune, ceci implique notamment la convergence de la fréquence d’apparition d’un événement verssa probabilité. Les théorèmes centraux limites par contre déterminent sous quelles hypothèses la somme de variablesaléatoires converge (ici encore dans un sens à définir) vers la distribution normale ; ceci perm<strong>et</strong> d’approximer lasomme d’un grand nombre de variables aléatoires à une loi normale <strong>et</strong> c’est ce type de théorème qui justifie defaçon théorique l’utilisation (parfois abusive) de la loi normale en statistique.Dans toute c<strong>et</strong>te section nous considérerons des variables aléatoires réelles définies sur un même espace (Ω, E).6.2 Lois des grands nombresThéorème 6.2.1 (Loi faible des grands nombres). Soient Y 1 , Y 2 , . . . une suite de variables aléatoires indépendantes<strong>et</strong> identiquement distribuées, d’espérance mathématique commune finie (E(Y i ) = µ) <strong>et</strong> de variance commune finie(V ar(Y i ) = σ 2 ). Alors pour tout ε > 0 on a :(∣ )∣∣∣ Y 1 + Y 2 + · · · + Y nP− µn∣ > ε −→ 0n −→ +∞DémonstrationNous ne démontrerons le résultat que lorsque la variance (commune) des Y i σ 2 est finie.Commen∑ 1E(n Y i) = 1 n∑E(Y i ) = µn<strong>et</strong>i=1V ar(n∑i=1i=1Y i ) = nσ2n 2= σ2nIl résulte de l’inégalité de Thebychev que(∣ )∣∣∣ Y 1 + Y 2 + · · · + Y n0 ≤ P− µn∣ > εOn en déduit immédiatement le résultat. ✷≤ σ2nε 2Remarque 6.2.2. La loi faible des grands nombres fut établie pour la première fois par Jacques Bernoulli pour lecas particulier où les variables sont de loi de Bernoulli. L’énoncé de ce théorème <strong>et</strong> la démonstration qu’il en donnefigurent dans son ouvrage :”Ars Conjectandi” publié en 1713 par son neveu Nicolas Bernoulli huit ans après samort. Il faut savoir qu’à c<strong>et</strong>te époque on ne connaissait pas l’inégalité de Tchebychev, <strong>et</strong> Bernoulli dut développerune démonstration extrêmement ingénieuse pour établir ce résultat.Théorème 6.2.3 (Loi forte des grands nombres). Soient Y 1 , Y 2 , . . . une suite de variables aléatoires indépendantes<strong>et</strong> identiquement distribuées, d’espérance mathématique commune finie (E(Y i ) = µ) <strong>et</strong> de variance commune finie(V ar(Y i ) = σ 2 ). Alors on aDémonstrationAdmise. ✷((i.e. Plimn→+∞Y 1 + · · · + Y n−→ µnn −→ +∞)= µ = 1)Y 1 + · · · + Y nnRemarque 6.2.4. On a souvent, au début, du mal à saisir la différence entre la loi faible <strong>et</strong> la loi forte des grandsnombres. La loi faible assure que pour toute valeur de n suffisamment grande (Y 1 + · · · + Y n )/n est probablementtrès voisines de µ. Elle n’assure pas cependant que (Y 1 + · · · + Y n )/n devra rester dans un voisinage étroit de µ. Il


6.THÉORÈMES LIMITES 55est donc possible qu’il y ait de larges écarts entre (Y 1 + · · · + Y n )/n <strong>et</strong> µ pour une infinité d’événements, infinitédont la probabilité collective est très faible cependant. La loi forte des grands nombres exclut c<strong>et</strong>te situation. Elleassure en particulier qu’avec une probabilité de 1 <strong>et</strong> pour toute valeur de ε > 0 la valeur de l’expression ci-dessousne sera supérieure à ε qu’un nombre fini de fois.∣ n∑ Y ∣∣∣∣i∣ n − µi=1Exemple 6.2.5. Supposons que l’on réalise une série d’épreuves indépendantes. Soit A un événement donnéerelatif à l’expérience ainsi répétée <strong>et</strong> P (A) sa probabilité, constante au <strong>cours</strong> des épreuve. On pose :{Yi = 1 si A survient au <strong>cours</strong> de l’épreuve numéro iY i = 0 sinonLa loi forte des grands nombres établit qu’avec une probabilité 1 on a :Y 1 + · · · + Y nn−→ E(X) = P (A) quand n −→ +∞ (3.1)Comme Y 1 + · · · + Y n représente le nombre d’occurrences de l’événement A au <strong>cours</strong> des n premières épreuves (3.1)peut donc recevoir l’interprétation suivante : La fréquence relative d’apparition de l’événement A converge, avecune probabilité de 1, vers la probabilité d’apparition de l’événement A P (A).Exemple 6.2.6. Soit X une variable aléatoire réelle continue de loi f. Soit y 1 , y 2 , . . . , y N N réalisations indépendantesde X. On trace alors l’histogramme suivant :0.50.450.40.350.30.250.20.150.10.050−2.7 −2.1 −1.5 −0.9 −0.3 0.3 0.9 1.5 2.1 2.7xLa loi des grands nombres dit que :Fig. 3.3 – Histogramme <strong>et</strong> fonction de densitéA −→ ∫ x i+1x if(x)dxn −→ +∞En d’autres termes l’histogramme ”converge” vers la fonction de densité lorsque n tend vers l’infini<strong>et</strong> l’intervalle de classe ”tend” vers 0.Théorème 6.2.7 (Théorème de limite centrale). Soient Y 1 , Y 2 , . . . une suite de variables aléatoires réelles indépendantes<strong>et</strong> identiquement distribuées, d’espérance mathématique µ <strong>et</strong> de variance σ finies. Alors la distribution deZ n = Y 1 + · · · + Y n − nµσ √ ntend vers la distribution normale réduite quand n tend vers +∞, c’est-à-dire que :DémonstrationAdmise. ✷P (Z n ≤ a) −→ 1 √2π∫ an −→ +∞−∞e − x22 dx = φ(a)


56 CHAPITRE 3. PROBABILITÉS0.250.20.150.10.0500 5 100.250.20.150.10.0500 5 100.250.20.150.10.0500 5 100.250.20.150.10.0500 5 10Fig. 3.4 – 500 données d’une loi uniforme sur [0,12]0.250.20.150.10.0500 5 100.250.20.150.10.0500 5 100.250.20.150.10.0500 5 100.250.20.150.10.0500 5 10Fig. 3.5 – ”Convergence” de l’histogramme vers la fonction de densité (n=100,500,1000,5000)Exemple 6.2.8. Lorsque les Y i sont des variables de Bernouilli de paramètre p, le théorème précédent nous donne :( )Y1 + · · · + Y n − npP √ ≤ β −→ φ(β)npqn −→ +∞Pour n “assez” grand ceci nous perm<strong>et</strong> de calculer :(P α ≤ Y )1 + · · · + Y n − np√ ≤ β ≃ φ(β) − φ(α)npqLa valeur de n à partir de laquelle on peut confondre les deux quantités dépend de la valeur du paramètre p, maissi p est compris entre 0,1 <strong>et</strong> 0,9 alors on peut pratiquement faire l’approximation à partir de n = 30.Exemple 6.2.9. Soit X une variable aléatoire continue uniforme sur [0, 12]. On définit alors :<strong>et</strong>Ȳ n : Ω n −→ Rω = (ω 1 , . . . , ω n ) ↦−→ Ȳn(ω) = 1 n∑Y i (ω) = 1 nni=1n∑X(ω i )i=1Z n = Ȳn − µσ/ √ navec µ = E(X) = 2.5 <strong>et</strong> σ 2 = V ar(X) = 12alorsZ n −→ Z : N (0, 1)n −→ +∞


6.THÉORÈMES LIMITES 570.10.10.050.05090 100 110090 100 1100.10.10.050.05090 100 110090 100 110Fig. 3.6 – 500 données d’une loi N (100, 25)0.10.10.050.05090 100 110090 100 1100.10.10.050.05090 100 110090 100 110Fig. 3.7 – ”Convergence” de l’histogramme vers la fonction de densité (n = 100, 500, 1000, 5000)Ȳ n −→ ¯Z : N (µ, σ2n )n −→ +∞0.150.20.10.0500 5 100.150.10.0500 5 100.30.30.20.20.10.100 5 1000 5 10Fig. 3.8 – Théorème limite centrale dans le cas d’une loi uniforme sur [0, 12] (n = 1, 2, 3, 5).Remarque 6.2.10. Ce théorème, comme nous l’avons déjà dit en introduction de c<strong>et</strong>te section, est la justificationthéorique de l’emploi fréquent de la loi normale.Lorsque l’on étudie par exemple le rendement d’une céréale, ce rendement est en fait une moyenne <strong>et</strong> c<strong>et</strong>temoyenne suit approximativement une loi normale.


58 CHAPITRE 3. PROBABILITÉS10.80.60.40.200 5 1010.80.60.40.200 5 1010.80.60.40.200 5 10Fig. 3.9 – Théorème limite centrale dans le cas d’une loi uniforme sur [0, 12] (n = 10, 20, 50).


Chapitre 4Théorie de l’échantillonnage1 Modélisation des variables1.1 IntroductionL’obj<strong>et</strong> de c<strong>et</strong>te section est la modélisation des données. Il faut ici entendre le terme modélisation dans le sensde la modélisation mathématique ou de la formalisation mathématique 1 . On s’intéresse donc à l’art de représenterà l’aide d’obj<strong>et</strong>s mathématiques des situations concrètes. Nous n’aborderons ici la modélisation mathématique quedans le cadre très restreint de l’estimation <strong>et</strong> de la théorie des tests statistiques 2 . Le premier point à aborderconcerne donc le passage de la question de départ à son écriture mathématique ; par exemple comment écrivonsnous le problème de l’estimation d’un taux de germination <strong>et</strong> par quel obj<strong>et</strong> mathématique représentons nous c<strong>et</strong>aux de germination.1.2 Variable aléatoireExemple 1.2.1. Taux le germinationConsidérons l’exemple d’un taux de germination. Soit donc T une variété fixée de tournesol. Le taux de germinationest le pourcentage de graines qui germent quand on m<strong>et</strong> à germer les graines de c<strong>et</strong>te variété T . Il nous faut pourdéfinir rigoureusement ce taux de germination bien définir la population G sur laquelle nous travaillons. En eff<strong>et</strong>les conditions dans lesquelles on m<strong>et</strong> à germer les graines comme la température, l’éclairage, ... peuvent influencerce taux de germination. Définir G, c’est donc non seulement définir rigoureusement la variété, mais aussi lesconditions expérimentales. C<strong>et</strong>te population est a priori infinie car on peut considérer les graines qui existentaujourd’hui, mais aussi celle à venir dans un an, dans 2 ans, ... Une fois la population G définie, on peut écrire lafonction de G à valeurs dans {0, 1} suivante :X : G −→ {0, 1}g ↦−→ 0 si g ne germe pasg ↦−→ 1 si g germe.C<strong>et</strong>te fonction est une variable aléatoire de loi de Bernoulli de paramètre p = P (X = 1) = E(X) où p exprimé enpourcentage n’est autre que le taux de germination. On peut donc définir le taux de germination, exprimé commeun nombre dans l’intervalle [0, 1], comme étant l’espérance mathématique, c’est-à-dire la valeur moyenne, de lavariable aléatoire X. Estimer un taux de germination, c’est donc trouver une ”valeur approchée” du paramètre pde la loi de Bernoulli de la variable aléatoire X.Exemple 1.2.2. Le 29 mai 2005 les électeurs français seront appelés à se prononcer pour ou contre le proj<strong>et</strong> d<strong>et</strong>raité établissant une constitution pour l’Europe 3 . Si notre objectif est de savoir si la constitution sera acceptée ounon, il faut considérer comme population l’ensemble des bull<strong>et</strong>ins exprimés, c’est-à-dire l’ensemble des bull<strong>et</strong>ins oui1 Le terme de modélisation mathématique est, à notre grand regr<strong>et</strong>, souvent galvaudé. Il signifie souvent l’utilisation de modèlesdéjà établis. Mais l’art de la modélisation, c’est-à-dire l’art de construire des modèles mathématiques, est difficile. Newton a dû, pourtrouver la loi de la gravitation universelle, construire la notion de dérivée !2 La modélisation mathématique intervient aujourd’hui dans tous les domaines scientifiques : l’environnement, la science du climat, labiologie, l’économie, ... Elle utilise des notions mathématiques très variées <strong>et</strong> parfois très complexes : équations différentielles ordinaires<strong>et</strong> stochastiques, équations aux dérivées partielles, chaînes de Markov, ... La modélisation étudiée ici est donc un cas très particulier.3 Nous avons fini de rédiger ce chapitre une semaine avant le référendum59


60 CHAPITRE 4.THÉORIE DE L’ÉCHANTILLONNAGEou non 4 . Soit P c<strong>et</strong>te population, nous pouvons alors définir la variable aléatoire X suivante :X : P −→ {0, 1}b ↦−→ 0 si le bull<strong>et</strong>in b est nonb ↦−→ 1 si le bull<strong>et</strong>in b est oui.X est encore une variable aléatoire de loi de Bernoulli de paramètre p. Ce paramètre représente ici le pourcentagedes électeurs qui ont voté oui dans la population des électeurs qui ont voté oui ou non. Le problème est alors deconnaître la valeur de ce paramètre <strong>et</strong> plus précisemment de savoir si c<strong>et</strong>te valeur est supérieure ou inférieure à1/2.Remarque 1.2.3. Dans l’exemple précédent, nous avons considéré le cas d’un référendum <strong>et</strong> non celui d’unsondage d’opinion. Dans le cas du référendum, les estimations qui seront données le soir du 29 mai seront obtenuesà partir de bull<strong>et</strong>ins dépouillés, donc de données exactes. Le cas des sondages est lui beaucoup plus délicat. En eff<strong>et</strong>,on n’est pas sûr dans un sondage que les personnes interrogées répondent vraiment ce qu’elles pensent <strong>et</strong> on nesait pas si les personnes qui refusent de répondre ont le même comportement que celles qui répondent ; bref, nousn’avons pas les données exactes. La fiabilité des données est bien évidemment une question très importante enpratique qu’il faut toujours garder à l’esprit. Nous n’aborderons pas c<strong>et</strong>te question dans ce <strong>cours</strong>, question qui esttotalement dépendante du domaine d’application. La collecte des données pour un référendum ou celle pour l’étudede la pollution d’une nappe phréatique sont bien évidemment très différentes. Elle doit donc être effectuée par unspécialiste du domaine. Nous supposerons donc toujours ici que les données sont fiables.Exemple 1.2.4. Considérons maintenant un cas d’école qui nous sera très utile pédagogiquement. La populationU étudiée est une urne remplie de boules blanches <strong>et</strong> noires. On définit alors la variable aléatoire suivanteX : U −→ {0, 1}b ↦−→ 0 si b est noireb ↦−→ 1 si b est blanche.X est toujours une variable aléatoire de loi de Bernoulli de paramètre p. Ici ce paramètre est le pourcentage deboules blanches dans l’urne.On voit donc ici qu’estimer un taux de germination, un pourcentage de réponses par oui à un référendum ouun pourcentage de boules blanches dans une urne contenant des boules blanches <strong>et</strong> noires, sont des problèmesidentiques.Exemple 1.2.5. On s’interesse ici à un caractére qualitatif (la couleur des yeux) dans une population déterminéeP, par exemple la population française. On définit alors la variable aléatoireX : P −→ {marron,noir, bleu,vert,autre}1 individu ↦−→ la couleur de ses yeux.Ce qu’on désire connaître c’est la proportion des individus qui ont la couleur des yeux marron, noir, bleu, vert <strong>et</strong>autre, c’est-à-dire la loi de la variable aléatoire X : P (X = marron), P (X = noir), P (X = bleu), P (X = vert), <strong>et</strong>P (X = autre).Exemple 1.2.6. On s’intéresse au rendement exprimé en quintaux à l’hectare d’une variété fixée de tournesol T .Définissons la variable aléatoire suivante :X : P −→ Rune culture ↦−→ le rendement de c<strong>et</strong>te culture.Il faut là encore bien définir la population P. On doit en autre préciser :– la variété T ;– le type de terrain ;4 En France les bull<strong>et</strong>ins blancs sont considérés comme des bull<strong>et</strong>ins nuls <strong>et</strong> ne sont donc pas des suffrages exprimés. Ceci n’est pasle cas dans tous les pays.


1.MODÉLISATION DES VARIABLES 61– la taille des parcelles, leurs expositions, ... ;– les conditions de cultures ;– ...Le rendement est alors définie comme l’espérance mathématique de c<strong>et</strong>te variable : µ = E(X). Estimer un rendement,c’est donc encore trouver une ”valeur approchée” de l’espérance mathématique d’une variable aléatoire.Nous supposerons en pratique pour cela que la loi de c<strong>et</strong>te variable aléatoire (qui est une loi de probabilité sur R)est normale de paramètre µ <strong>et</strong> σ. On écrira que X suit une loi N (µ, σ 2 ) (attention nous m<strong>et</strong>tons la variance σ 2 <strong>et</strong>non l’écart type dans N (µ, σ 2 )). Ceci n’est bien sûr qu’un modèle. En eff<strong>et</strong>, un rendement est toujours positif <strong>et</strong>donc on sait que P (X < 0) = 0. Or, si X suit une loi normale, c<strong>et</strong>te quantité est ègale à∫ 0−∞1√2πσe −(x−µ)2 /(2σ 2) dx,qui est strictement positif. Cependant, c<strong>et</strong>te dernière quantité sera en pratique extrêment faible (voir l’exercice6.1.2). Elle ne rem<strong>et</strong>tra donc pas en cause le modèle choisi.Remarque 1.2.7. Le choix d’une loi de probabilité d’une variable aléatoire comme le rendement n’est pas toujours évident. Il se fait enpratique à partir de la connaissance que l’on peut avoir a priori. La justification théorique de l’emploi de la loi normale vient du théorèmelimite central. On peut en eff<strong>et</strong> penser que le rendement obtenu est le résultat moyen d’un grand nombre de variable indépendantes (devariances majorées). Le théorème limite central nous dit alors que la loi de probabilité qui en résulte est très proche d’une loi normale.Nous m<strong>et</strong>tons cependant en garde le lecteur sur l’utilisation parfois abusive de c<strong>et</strong>te loi normale.Exemple 1.2.8. On désire étudier simultanément sur la population P des étudiants français de l’année 2005 lesvariables suivantes : le sexe, la taille, la couleur des yeux, <strong>et</strong> leurs ressources annuelles. On définit en fait ici levecteur aléatoire de dimension 5 suivant :X : P −→ {M, F } × R × R × {marron,noir,bleu, vert,autre} × Run étudiant ↦−→ (son sexe,sa taille, son poids, la couleur de ses yeux, ses ressources annuelles).Les applications composantes de X définissent cinq variables aléatoires X 1 , X 2 , X 3 , X 4 , X 5 qui sont définies sur lemême espace de départ que X : P <strong>et</strong> qui représentent respectivement les variables sexe, taille, poids, couleur desyeux <strong>et</strong> ressources. La variable couleur des yeux s’écrit par exempleX 4 : P −→ {marron,noir,bleu, vert,autre}un étudiant ↦−→ la couleur de ses yeux.On peut donc parler ici de l’indépendance ou non de ces variables aléatoires (X 1 , X 2 , X 3 , X 4 , X 5 ).Ces exemples montrent clairement que l’on formalise toujours les variables étudiées par des variables aléatoires. Ilfaudra toujours en pratique bien préciser ces variables aléatoires, c’est-à-dire la population de départ <strong>et</strong> l’applicationelle même. En eff<strong>et</strong> les données seront en pratique les valeurs obtenues des variables aléatoires sur un échantillonde la population. Les statistiques ne pourront donner de réponses que sur la population à partir de laquelle ona extrait l’échantillon <strong>et</strong> uniquement celle-ci. Précisons aussi que les termes de population <strong>et</strong> d’individu sont àprendre dans leur sens statistique. Ainsi, dans l’exemple 1.2.6 un individu est en fait une culture sur une parcelle.On parle aussi parfois d’unité expérimentale au lieu d’individu. On emploie aussi le terme de caractère au lieu devariable.En conclusion une variable sera en fait une variable aléatoireX : P −→ Cω ↦−→ X(ω),où– la population P est en terme de probabilité un espace fondamental ;– un individu ω est un élément de la population P ;– C est l’ensemble des valeurs que peut prendre la variable aléaloire.Ce que l’on souhaite connaître en pratique c’est la loi de c<strong>et</strong>te variable aléatoire, ou la valeur de certain de sesparamètres. Nous souhaitons ici souligner que la terminologie de variable aléatoire est très mauvaise. En eff<strong>et</strong>, une variable aléatoire X deP à valeurs dans C est en fait une fonction parfaitement déterninée qui perm<strong>et</strong> de transposer une probabilité d’un espace probabilisé dans unautre. Une variable aléatoire n’est donc pas une variable dans le sens mathématique du terme puisque c’est une fonction ; <strong>et</strong> c<strong>et</strong>te fonction estparfaitement connue. On peut donc dire, comme cela est mentionné dans [2] qu’une variable aléatoire, c’est comme le Saint Empire RomainGermanique : il n’était pas saint, ce n’était pas un empire <strong>et</strong> il n’était pas romain ! ! !


62 CHAPITRE 4.THÉORIE DE L’ÉCHANTILLONNAGE2 Introduction à la théorie de l’échantillonnage2.1 Modélisation des donnéesOn considère les données de la tables 4.1, [5]. Ces données, notées (y 1 , . . . , y n ) sont des longueurs de la rectricecentrale de la gélinotte huppée mâle, juvénile. Ces 50 données sont 50 réalisations ou 50 observations de la variablealéatoireX : P −→ Cune gélinotte ↦−→ la longueur de sa rectrice centrale.où P est la population des gélinottes huppées mâles juveniles. Il s’agit d’un premier point de vue. C’est celui-ci quiest pris en considération lorsque l’on représente graphiquement les données (voir la figure 4.1).153 165 160 150 159 151 163160 158 149 154 153 163 140158 150 158 155 163 159 157162 160 152 164 158 153 162166 162 165 157 174 158 171162 155 156 159 162 152 158164 164 162 158 156 171 164158Tab. 4.1 – Longueurs de la rectrice centrale de la gélinotte huppée mâle, juvénileMais nous pouvons adopter un autre point de vue qui est beaucoup moins intuitif. C’est ce deuxième point devue qui est pris en considération lorsque l’on fait une estimation ou un test statistique <strong>et</strong> que nous allons présentermaintenant. Pour cela, on considère le vecteur aléatoire suivant :Y = (Y 1 , . . . , Y 50 ) : Ω −→ R 50g = (g 1 , . . . , g 50 ) ↦−→ Y (g) = (X(g 1 ), . . . , X(g 50 ),où l’ensemble Ω est l’ensemble de tous les échantillons de taille 50 extraits de la population P, c’est-à-dire queΩ = {g = (g 1 , . . . , g 50 ) ∈ P 50 |g i ≠ g jpour i ≠ j}.Y (g) est donc un vecteur contenant les 50 longeurs de la rectrice centrale des 50 gélinottes de l’échantillon g. Lesdonnées de la table 4.1 sont alors une réalisation (ou une observation) de ce vecteur aléaloire Y .En résumé les deux points de vues modélisant les données sont :– l’échantillon (y 1 , . . . , y n ) représente n observations de la variable aléatoire X ;– l’échantillon (y 1 , . . . , y n ) représente une onservation du vecteur aléatoire Y .Nous allons maintenant voir ce que perm<strong>et</strong> ce deuxième point de vue.2.2 Exemple de l’urneNous commençons par l’étude du cas d’école d’une urne rempli de boules blanches <strong>et</strong> noires. L’intérêt de c<strong>et</strong>exemple, outre sa simplicité, est de bien comprendre la différence entre ce que nous appellerons un échantillonnageavec remise <strong>et</strong> un échantillonnage sans remise.Tirage avec remiseConsidérons l’expérience qui consiste à tirer avec remise n boules d’une urne contenant 5 boules blanches <strong>et</strong> 15boules noires. Nous nous intéressons maintenant à la variable aléatoire suivante :Ȳ : U n −→ {0, 1/n, 2/n, . . . , n/n}b = (b 1 , b 2 , . . . , b n ) ↦−→ (le nombre de boule blanches parmi {b 1 , b 2 , . . . , b n })/n.


2. INTRODUCTION À LA THÉORIE DE L’ÉCHANTILLONNAGE 6321.5110.50140 150 160 170 180longueur140 150 160 170longueur0.080.060.040.020150 160 170longueurFig. 4.1 – Données, boîte à moustaches <strong>et</strong> histogrammeNous allons écrire Ȳ comme la moyenne de n variables aléatoires de loi de Bernoulli indépendantes. Nous endéduirons alors la loi de Ȳ . Pour cela on considère la variable aléatoire X de loi de Bernoulli de paramètrep = 5/20 = 1/4X : U −→ {0, 1}une boule ↦−→ 0 si la boule est noireune boule ↦−→ 1 si la boule est blanche.On construit alors le vecteur aléatoire Y de dimension nY = (Y 1 , . . . , Y n ) : U n −→ {0, 1} nb = (b 1 , . . . , b n ) ↦−→ Y (b) = (Y 1 (b), . . . , Y n (b))= (X(b 1 ), . . . , X(b n )).Ainsi Y est le vecteur aléatoire de dimension n qui associe à chaque tirage le n-uppl<strong>et</strong> de 0 <strong>et</strong> de 1 suivant lacouleur des boules tirées. La i-ème composante de Y , Y i , représente quant à elle, l’application qui a un échantillonassocie 1 si la i-ème boule tirée est blanche <strong>et</strong> 0 si elle est noire. C<strong>et</strong>te variable aléatoire Y i s’écrit alorsY i : U −→ {0, 1} (4.1)b ↦−→ Y i (b) = X(b i ). (4.2)(4.3)


64 CHAPITRE 4.THÉORIE DE L’ÉCHANTILLONNAGEOn considère maintenant la fonction M définie parM : R n −→ {0, 1/n, . . . , n/n}y = (y 1 , . . . , y i ) ↦−→ M(y) = ȳ = 1 n∑y i .nOn peut alors écrire la variable aléatoire Ȳ comme la composée des fonctions M <strong>et</strong> Y : Ȳ = M ◦ Y = M(Y ).Ce qui donne ici :Ȳ = 1 n∑Y inLe tirage étant avec remise, les variables aléatoires (Y i ) ont la même loi que X <strong>et</strong> sont indépendantes. Par suitenȲ = ∑ ni=1 Y i suit une loi binômiale de paramètre n <strong>et</strong> p = 1/4 <strong>et</strong> la loi de Ȳ est donnée par P (Ȳ = k/n) =P (nȲ = k) = Ck n(1/4) k (3/4) n−k .Remarque 2.2.1. (i) Rappelons que dire que les variables aléatoires (Y i ) i <strong>et</strong> X ont la même loi signifie que leslois de probalilités définies par ces variables aléatoires sur leur espace d’arrivée, ici sur {0, 1} sont identiques.Cela ne signifie en aucun cas que ces variables aléatoires sont égales (si tel était le cas elles ne pourraientpas être indépendantes).i=1(ii) Les variables aléatoires Y i <strong>et</strong> Y sont toutes définies sur le même espace de départ. C’est l’espace d’échantillonnage,l’ensemble de tous les tirages avec remise de n boules ici, c’est-à dire U n . L’écriture Ȳ = (1/n) ∑ ni=1 Y i adonc bien un sens ; il s’agit de l’égalité de deux fonctions.Les théorèmes de la théorie des probabilités nous perm<strong>et</strong> alors d’obtenir simplement l’espérance mathématique<strong>et</strong> la variance de Ȳ .i=1E(Ȳ ) = 1 n∑E(Y i ) = 1 n∑p = pnni=1i=1(V ar(Ȳ ) = 1 n)n 2 V ar ∑Y ii=1= 1 ∑ nn 2 V ar(Y i )i=1= 1 n 2 n∑i=1pq = pqncar les (Y i ) i sont indépendantesTirage sans remiseOn considère maintenant le cas où le tirage est sans remise. Le nombre de boules n tirées est alors bienévidemment inférireur au nombre N = 20 de boules totales dans l’urne. Dans ce cas, nous avons les mêmes expressionspour les variables aléatoires Y , (Y i ) i <strong>et</strong> Ȳ excepté que l’espace de départ, c’est-à-dire l’espace déchantillonnage,n’est plus U n mais estΩ = {b = (b 1 , . . . , b n ) ∈ U|b i ≠ b j pour tout i ≠ j}.Les (Y i ) i ont toujours la même loi que X, mais elles ne sont plus indépendantes. En eff<strong>et</strong> la probabilité d’avoirune boule blanche à la deuxième boule diffère suivant le résultat de la première boule. La loi de nȲ est alors la loihypergéométrique de paramètre N = 20, n, p = 1/4. Par suite la loi de Ȳ est donnée parP(Ȳ = k )= Ck n−1Cn n−k2.nNous avons toujours pour l’espérance mathématique E(Ȳ ) = p, mais la variance n’a plus la même valeur. Ondémontre qu’elle est égale à :V ar(Ȳ ) = N − n pqN − 1 n .La figure 4.2 représente les lois de Ȳ pour différentes valeurs de n <strong>et</strong> de p pour les échantillonnage avec remise<strong>et</strong> sans remise.C k N


2. INTRODUCTION À LA THÉORIE DE L’ÉCHANTILLONNAGE 650.50.4avec remisesans remise0.30.20.10−0.2 0 0.2 0.4 0.6 0.8 1 1.2k/n0.50.4avec remisesans remise0.30.20.10−0.2 0 0.2 0.4 0.6 0.8 1 1.2k/nFig. 4.2 – Loi de0.5, N = 16)Ȳ pour l’échantillonnage sans remise <strong>et</strong> avec remise (n = 5, p = 1/3, N = 15 <strong>et</strong> n = 4, p =2.3 Exemple du référendumReprenons l’exemple 1.2.2. Notons N le nombre totale de suffrage exprimés <strong>et</strong> supposons que quelques instantsaprès la ferm<strong>et</strong>ure des bureaux de vote on ait connaissance du résultat sur n bull<strong>et</strong>ins exprimés pris au hasard dansla population P. On s’intéresse alors à la variable aléatoire suivante :Ȳ : Ω −→ {0, 1/n, 2/n, . . . , n/n}b = (b 1 , b 2 , . . . , b n ) ↦−→ (le nombre de bull<strong>et</strong>in oui parmi les bull<strong>et</strong>ins {b 1 , b 2 , . . . , b n })/n,oùΩ = {b = (b 1 , . . . , b n ) ∈ U|b i ≠ b jpour tout i ≠ j}.Nous sommes donc exactement dans le cas d’un échantillonnage sans remises car on a en pratique jamais dansun échantillon deux fois le même bull<strong>et</strong>in de vote. Nous avons donc comme précédemment pour nȲ une loi hypergéométriquesde paramètre N, n <strong>et</strong> p, <strong>et</strong> l’espérance mathématique <strong>et</strong> la variance de Ȳ ont pour valeursE(ȲN − n pq) = p <strong>et</strong> var(Ȳ ) =N − 1 n .Un premier problème est qu’en pratique N est inconnu. Fort heureusement n est très inférieur à N. Ceci a pourconséquence que l’on peut considérer le tirage sans remise comme un tirage avec remise (une règle empirique estn < (N/10)). On peut donc considérer ici que nȲ suit une loi binômiale de paramètres (n, p). On peut de plus icifaire une deuxième approximation. En eff<strong>et</strong>, lorsque p n’est pas trop proche de 0 ou de 1, on peut approximer la loibinômiale par une loi normale. La table 4.2 donne une règle pratique pour que c<strong>et</strong>te approximation soit correcte.


66 CHAPITRE 4.THÉORIE DE L’ÉCHANTILLONNAGEParamètre p Valeur minimale de npour une approximationpar la loi normale0.5 300.4 500.3 800.2 2000.1 6000.05 14000.0 poissonTab. 4.2 – Approximation d’une loi binômiale par une loi normaleDans le cas d’un référendum, nous sommes donc dans le cas favorable où l’on peut considérer que Ȳ suit une loiN (p, pq/n). Or on sait (voir l’exercice 6.1.2) que dans le cas d’une loi normale on aP (µ − 1, 96σ ≤ X ≤ µ + 1, 96σ) = 0.95 (4.4)Supposons maintenant que la proportion dans la population de oui soit exactement de 50%, nous avons alorsp = 0.5, <strong>et</strong> supposons que n = 100000. La formule 4.4 donne alors P (0.497 ≤ Ȳ ≤ 0.503) = 0.95 (µ = p<strong>et</strong> σ = √ pq/n). Ceci signifie concrètement que l’on a 95 chance sur 100 d’avoir une proportion de oui dansl’échantillon de taille n = 100000 compris entre 49.7% <strong>et</strong> 50.3%.Remarque 2.3.1.(i) Le soir du référendum, les estimations sont données dès la ferm<strong>et</strong>ure des bureaux de vote des grandes villes.Celles-ci sont obtenues à partir du dépouillement des résultats dans des communes tests qui ont fermées plus tôt. Nous ne sommesdonc pas en réalité dans le cas exposé ici où l’échantillon est supposé être pris totalement au hasard dans la population. Unedeuxième différence est qu’en pratique c’est le nombre total d’électeurs dans chaque commune test qui est fixé au départ, <strong>et</strong> non pasle nombre totale de suffrages exprimés dans ces communes tests. Les choses sont donc en fait beaucoup plus compliqués. Le lecteurintéressé pourra consulter les ouvrages suivants [1] <strong>et</strong> [6].(ii) Si n = 1000 l’intervalle obtenu exprimé en pourcentage est [46.9%; 53.1%]. Les sondages effectués actuellement portent sur deseffectifs inférieurs à 1000 personnes. Bien que les méthodes utilisées (principalement la méthode des quotas), soient plus fines quel’échantillonnage au hasard considéré ici, la précision obtenue, vue de plus les difficultés concernant la fiabilité des données <strong>et</strong> lenombre d’indécis déjà mentionnées, est plus proche de ±5%, voir plus ! À notre avis, les journalistes <strong>et</strong> commentateurs politiquesferaient mieux d’utiliser les temps d’antenne radio ou de télévision à parler du fond du débat, plutôt que des sondages qui n’apportentque peu d’informations.Les résultats obtenus sur c<strong>et</strong> exemple peuvent être schématisés par le schéma 4.3.X : P :−→ {0, 1} de loi B(p)p = proportion de oui dans la population P❄ÉchantilonnageY = (Y 1 , . . . , Y n ) : P n −→ {0, 1} n❄Statistique MȲ = M(Y ) : P n −→ RȲ : N (p, pq/n)Fig. 4.3 – Échantillonnage de la moyenne pour un référundumL’obj<strong>et</strong> de la théorie de l’échantillonnage est d’étudier ce schéma <strong>et</strong> les propriétés des variables aléatoires M(Y )lorsque M est la moyenne ou une autre fonction.


3. ÉCHANTILLONNAGE 67Remarque 2.3.2. Le soir du référendum, les instituts de sondages ont les résultats sur un échantillon de taille n.Leur objectif est alors d’en déduire de l’information sur le paramètre p. Ce problème d’estimation, qui sera traitéau chapitre sur l’estimation, est le processus ”inverse” de celui de l’échantillonnage vu ici. En eff<strong>et</strong> la théorie del’échantillonnage part de la population pour étudier ce qui se passe sur l’ensemble de tous les échantillons de taillen alors que la théorie de l’estimation part d’un échantillon pour obtenir des informations sur la population.3 Échantillonnage3.1 ÉchantillonD’une façon générale, on considère une variable aléatoire X définie sur une population P à valeurs dans unensemble C qui modélise la variable que l’on désire étudier. On construit ensuite le vecteur aléatoire Y suivant :Y = (Y 1 , . . . , Y n ) : Ω −→ C nω = (ω 1 , . . . , ω n ) ↦−→ Y (ω) = (Y 1 (ω), . . . , Y n (ω)) (4.5)= (X(ω 1 ), . . . , X(ω n )),où Ω est l’espace déchantillonnage. Ω = P n si l’échantillonnage est avec remise <strong>et</strong>si l’échantillonnage est sans remise.Ω = {ω = (ω 1 , . . . , ω n ) ∈ P|ω i ≠ ω j pour tout i ≠ j}, (4.6)Définition 3.1.1 (Échantillon aléatoire). On appelle échantillon aléatoire de taille n ou n-échantillon aléatoire dela variable aléatoire X le vecteur aléatoire Y = (Y 1 , . . . , Y n ).Définition 3.1.2 (échantillon). On appelle échantillon de taile n ou n-échantillon, une réalisation ou une observation(y 1 , . . . , y n ) du n-échantillon aléatoire.Remarque 3.1.3. Un n-échantillon n’est pas autre chose que les données relatif à la variable étudiée.Remarque 3.1.4. (i) Comme nous l’avons déjà mentionné, les variables aléatoire (Y i ) i=1,n sont définies sur lemême espace Ω que le n-échantillon aléatoire Y . Nous pouvons donc parler de l’indépendance ou de la nonindépendance de ces variables aléatoires (Y i ) i .(ii) Les variables aléatoires (Y i ) i sont à valeurs dans le même ensemble que la variable aléatoire X <strong>et</strong> leurs loissont identiques à celle de X.(iii) Nous avons en fait la relation suivanteY i (ω) = X(ω i ), (4.7)où l’indice i est à gauche sur la vecteur aléatoire Y <strong>et</strong> à droite sur l’argument de la variable aléatoire X.Définition 3.1.5 (Échantillon aléatoire simple–Échantillon Bernoullien). On appelle échantillon aléatoire simpleou échantillon Bernoullien tout n-échantillon aléatoire d’une variable aléatoire X où les variables aléatoires (Y i ) isont indépendantes.Lorsque l’échantillonnage est avec remise, Y est donc un échantillon Bernoullien, ce qui n’est plus le cas sil’échantillonnage est sans remise. Cependant si la taille déchantillon n est très p<strong>et</strong>ite devant la taille de la populationN (en pratique si (n/N) < 0.1) alors on peut approximer l’échantillonnage sans remise par un échantillonnage avecremise. Dans ce cas des théorèmes de la théorie des probabilités nous perm<strong>et</strong>, connaissant la loi de X, de déterminerla loi de Y .Théorème 3.1.6. Soit P une population <strong>et</strong> X une variable aléatoire (X : P → C) sur c<strong>et</strong>te population. Soit(Y 1 , . . . , Y n ) un n-échantillon Bernoullien, alors les n variables aléatoires Y 1 , . . . , Y n ont pour loi la loi de X, sontindépendantes <strong>et</strong> Y = (Y 1 , . . . , Y n ) est une variable aléatoire à n dimensions :de loi :(i) Si X est discrète :P C n(Y = (y 1 , . . . , y n )) =Y : Ω −→ C nn∏P C (Y i = y i ) =i=1n∏P C (X = y i ). (4.8)(ii) Si X est continue de fonction de densité f(x), Y a pour densité :n∏g(y) = f(y i ) ; où y = (y 1 , . . . , y n ). (4.9)i=1i=1


68 CHAPITRE 4.THÉORIE DE L’ÉCHANTILLONNAGE3.2 Schéma généralDans toute c<strong>et</strong>te section la variable aléatoire sera réelle.Définition 3.2.1 (Statistique). Soit X une variable aléatoire réelle définie sur une population P. Soit Y =(Y 1 , . . . , Y n ) un n-échantillon aléatoire. On appelle statistique toute variable aléatoire S de R n à valeurs dans R,la loi de probabilité sur R n étant la loi du n-vecteur aléatoire Y .Ω.Si S est une statistique alors S ◦ Y = S(Y ) est une variable aléatoire reélle définie sur l’espace d’échantillonnageExemple 3.2.2. Si nous reprenons l’exemple des tirages d’une urne (voir la sous section 2.2) ou d’un référendum(voir la sous section 2.3), la variable aléatoire M définie sur R n <strong>et</strong> à valeurs dans R est la fonction qui à n nombresréels (y 1 , . . . , y n ) associe leur moyenne M(y) = ȳ = (1/n) ∑ i y i est une statistique <strong>et</strong> M(Y ) = Ȳ .D’une façon générale nous avons donc le schéma 4.4X : P −→ R❄ÉchantilonnageY = (Y 1 , . . . , Y n ) : Ω −→ R nω = (ω 1 , . . . , ω n ) ↦−→ Y (ω) = (Y 1 (ω), . . . , Y n (ω))(X(ω 1 ), . . . , X(ω n ))❄Statistique SS ◦ Y = S(Y ) : Ω −→ Rω ↦−→ S(Y (ω))Fig. 4.4 – Schéma généralDéfinition 3.2.3 (Distribution déchantillonnage). On appelle distribution d’échantillonnage d’une statistique Sla loi de probabilité de la variable aléatoire S.Si on connaît la loi de probabilité du n-échantillon aléatoire Y , on peut espérer en déduire des caractéristiquescomme l’espérance mathématique ou la variance, voire la loi, de la statistique S pour certaines fonction S. Ceci estl’obj<strong>et</strong> des sous-sections suivantes pour des fonctions qui interviennent souvent en statistique.4 Distribution d’échantillonnage de certaines statistiques4.1 Distribution déchantillonnage de la moyenneOn considère dans c<strong>et</strong>te sous section la statistiqueOn a donc<strong>et</strong> la loi de M est celle de Ȳ .M : R n −→ Ry = (y 1 , . . . , y n ) ↦−→ M(y) = ȳ = 1 nn∑y i .i=1M(Y ) = 1 n∑Y i =n Ȳ , (4.10)i=1


4. DISTRIBUTION D’ÉCHANTILLONNAGE DE CERTAINES STATISTIQUES 69Théorème 4.1.1. Supposons que le caractère X adm<strong>et</strong>tent une espérance mathématique µ <strong>et</strong> un écart-type σ finialors :(i) E(Ȳ ) = µ.(ii) Si l’échantillon est Bernoullien alorsV ar(Ȳ ) = σ2n .(iii) Si l’échantillon est sans remise <strong>et</strong> que la taille de la population est N alors :DémonstrationV ar(Ȳ ) = N − n σ 2N − 1 n .(i) La linéarité de l’espérance mathématique implique immédiatement :E(Ȳ ) = E(1n(ii) Les propriétés de la variance impliquent :)n∑Y i = 1 ni=1V ar(Ȳ ) = V ar (1nn∑E(Y i ) = 1 ni=1n∑µ = µ.i=1)n∑Y i = 1 nn 2 V ar( ∑Y i ).i=1De plus les (Y i ) i sont indépendants. Par suite nous avons :i=1V ar(Ȳ ) = 1 n 2n∑i=1V ar(Y i ) = σ2n .✷(iii) admiseThéorème 4.1.2. Si X suit une loi normale N (µ, σ 2 ) <strong>et</strong> si l’échantillon est Bernoullien alorsnormale N (µ, σ 2 /n).Ȳ suit une loiDémonstrationCela provient du théorème précédent <strong>et</strong> du fait qu’une somme de variables aléatoires de lois normales indépendantesest une variable aléatoire de loi normale. ✷Théorème 4.1.3. Soit X une variable aléatoire de moyenne µ <strong>et</strong> de variance σ 2 finie <strong>et</strong> soit (Y 1 , . . . , Y n ) unn-échantillon Bernoullien. Alors Ȳ suit asymptotiquement une loi normale.DémonstrationD’après le théorème centrale limite la loi de la variable aléatoireZ n = Y 1 + · · · + Y n − nµσ √ n= Ȳ − µσ √ nconverge lorsque n tend vers +∞ vers la loi normale réduite. Par suiteȲ = σ √ nZ n + µa asymptotiquement le même comportement qu’une loi N (µ, σ2n ). ✷Remarque 4.1.4. Le théorème précédent signifie concrètement que pour n grand (n ≥ 30 en pratique) on peutσ2approximer la loi de Ȳ par la loi normale N (µ,n ).


70 CHAPITRE 4.THÉORIE DE L’ÉCHANTILLONNAGE4.2 Distribution d’échantillonnage de la varianceOn considère dans c<strong>et</strong>te sous section la statistique que nous appellerons variance déchantillon <strong>et</strong> que nousnoterons S 2 S 2 : R n −→ Ry = (y 1 , . . . , y n ) ↦−→ S 2 (y) = 1 noù ȳ est la moyenne arithmétique des y 1 , . . . , y n . On peut alors voir quen∑(y i − ȳ) 2 ,i=1S 2 (Y (ω)) = 1 ∑(Y i (ω) −nȲ (ω))2 = 1 ∑(X(ω i ) −nȲ (ω))2 . (4.11)iThéorème 4.2.1. Supposons que X adm<strong>et</strong>te des moments centrés jusqu’à l’ordre 4 finis. Alors :(i) Si l’échantillon est Bernoullien :E(S 2 ) = n − 1n σ2 ,V ar(S 2 ) = µ 4 − σ 4− 2(µ 4 − 2σ 4 )n n 2 + µ 4 − 3σ 4n 3 ,Cov(M, S 2 ) = Cov(Ȳ , S2 (Y )) = n − 1n 2 µ 3 .(ii) Si l’échantillon est sans remise <strong>et</strong> que la taille de la population est N alors :E(S 2 ) =N n − 1N − 1 n σ2 .(iii) Si X suit une loi normale N (µ, σ 2 ) <strong>et</strong> si l’échantillon est Bernoullien alors :Ȳ <strong>et</strong> S 2 (Y ) sont indépendantes.V ar(S 2 2(n − 1)) =n 2 σ 4<strong>et</strong> nS 2 /σ 2 suit une loi du χ 2 à n − 1 degrés de liberté.Démonstration(i)On adm<strong>et</strong>tra le resultat pour V ar(S 2 ).Quant à la covariance il suffit d’écrire :E(S 2 (Y )) = E ` P 1 nn i=1 (YiP− µ + µ − Ȳ )2´1= nn i=1 E((Yi − µ)2 ) + 1 P nn i=1 E((Ȳ − µ)2 )2 − n E(P ni=1 (Yi − µ)(Ȳ − µ))= σ 2 σ + 2n2 − n E((Ȳ − µ)(nȲ − nµ))n−1=nσ2Cov(Ȳ , S2 (Y )) = E((Ȳ − µ)(S2 − n − 1n σ2 ))= E((Ȳ − µ)S2 ) − n − 1n σ2 E(Ȳ − µ)!= E((Ȳ − µ) 1nX(Y i − µ) 2 − (Ȳ n− µ)2 i=11=n E( X n nX(Y 2 i − µ) (Y i − µ) 2 ) − 1 n (E( X n (Y 3 i − µ)) 3 )i=1i=1i=1= µ3n − µ3n = n − 12 n µ3, 2car les Y i sont indépendants <strong>et</strong> donc Cov(Y i, Y j) = 0 si i ≠ j.(ii) admise.(iii) On déduit de (i) que si X est normale alors Cov(Ȳ , S2 (Y )) = 0 car le moment centré d’ordre 3 d’une loi normale est nul. Mais ceci nemontre pas que les variables aléatoires Ȳ <strong>et</strong> S2 (Y ) soient indépendantes. Nous adm<strong>et</strong>trons ici ce résultat.Pour démontrer la suite il suffit d’écrire :nS 2 (Y ) 1=σ 2 σ ( X n (Y 2 i − µ) 2 − n(Ȳ − µ)2 )i=1= P „ « !n Yi − µ 2 2Ȳ − µi=1−σσ√ n= S 1 − S 2i


4. DISTRIBUTION D’ÉCHANTILLONNAGE DE CERTAINES STATISTIQUES 71Or si X suit une loi normale de paramètres (µ, σ), (Y i −µ)σ suit une loi normale réduite <strong>et</strong> donc, puisque l’échantillon (Y 1, . . . , Y n) estBernoullien, S 1 suit une loi du χ 2 à n degrés de liberté. De plus S 2 suit aussi une loi du χ 2 à 1 degré de liberté <strong>et</strong> S 2 <strong>et</strong> S 2 sontindépendantes. Une propriété des lois du χ 2 perm<strong>et</strong> alors de conclure. Une conséquence immédiate de ce résultat est alors que<strong>et</strong> donc queV ar( nS2 ) = 2(n − 1)σ2 V ar(S 2 ) =! 2 σ2 2(n − 1).n✷Pour illustrer la loi de nS 2 /σ 2 lorsque l’échantillonnage est Bernoullien à l’aide de la simulation, nous générons5000 échantillons de taille n = 6, y k1 , . . . , y k6 pour k = 1, . . . , 5000, provenant d’une loi normale N (6, 12). Pourchacun de ces 5000 échantillons nous calculons la quantités 2 k = nS2 (y k1 , . . . , y k6 )12∑ 6i=1=(y ki − ȳ k. ) 212Les 5000 valeurs s 2 k sont alors 5000 observations de la variable aléatoire nS2 (Y )/σ 2 . Nous effectuons une deuxièmesimulation de façon identique sauf que la loi de départ est une loi uniforme sur [0, 12]. La figure 4.5 montrent leshistogrammes pour chaque simulation de toutes les données génerées ainsi que des 5000 valeurs (s 2 1, . . . , s 2 5000).Nous avons rajouté sur ces graphiques les lois de départ pour les données <strong>et</strong> la loi du χ 2 à ν = n − 1 = 5 degrés deliberté pour les valeurs simulées. Nous pouvons observer que lorsque la loi de départ est normale, l’histogramme”colle” très bien à la fonction de densité de la loi du χ 2 à 5 ddl, ce qui n’est plus le cas lorsque la loi de départ estune loi uniforme.0.15Données: N(6,12)0.1Données: U([0,12])0.080.10.060.050.040.0200.20 5 10 15SCE/sigma²: Loi du Khi−2 à 5ddl00 5 10SCE/sigma²: Non loi du Khi−2 à 5ddl0.20.150.150.10.10.050.0500 5 1000 5 10Fig. 4.5 – Simulation loi du χ 2 à 5 ddl (5000 échantillons). Statistique : nS 2 /σ 2


72 CHAPITRE 4.THÉORIE DE L’ÉCHANTILLONNAGE4.3 Distribution d’échantillonnage de <strong>TD</strong>ans les théorèmes précédents on a vu que si la variable aléatoire X suit une loi normale <strong>et</strong> si l’échantillon estBernoullien alors la variable aléatoireȲ − µσ √ nsuit une loi normale centrée réduite. L’approximation étant encore valable si X adment une espérance mathématiqueµ <strong>et</strong> une variance σ 2 finies <strong>et</strong> si n est grand (n ≥ 30 en pratique). Mais dans la réalité nous ne connaissons pas σ<strong>et</strong> il est donc logique de ce demander ce qui ce passe si on renplace σ par√nn−1 S2 (Y ). C’est ce que nous allonsétudier maintenant.Théorème 4.3.1. Si (Y 1 , . . . , Y n ) est un échantillon Bernoullien <strong>et</strong> si X suit une loi normale de paramètre (µ, σ),alors la statistique :T = M − µ √S2suit une loi de Student à (n − 1) degrés de liberté.DémonstrationOn a :avecT =n − 1qU ,ZνU = M − µσ√ nde loi N (0, 1),Z = nS2σ 2 de loi χ 2 ν=n−1degrés de liberté,<strong>et</strong> U <strong>et</strong> Z indépendantes. Par suite T suit une loi de Student à n − 1 degrés de liberté.4.4 Distribution d’échantillonnage du rapport de varianceNous allons maintenant nous intéresser à la distribution d’échantillonnage du rapport de variance.Théorème 4.4.1. On considère deux caractères X 1 <strong>et</strong> X 2 de loi normale respectivement N (µ 1 , σ1) 2 <strong>et</strong> N (µ 2 , σ2).2Soient deux échantillons Bernoullien indépendants (Y 11 , . . . , Y 1n1 ) <strong>et</strong> (Y 21 , . . . , Y 2n2 ). Si S1 2 (respectivement S2) 2 estla statistique S1(y) 2 = 1 ∑ n1n 1 i=1 (y 1i − ȳ 1 ) 2 (respectivement S2(y) 2 = 1 ∑ n2n 2 i=1 (y 2i − ȳ 2 ) 2 ) alors la statistique :F =n 1 S 2 1(n 1 − 1)σ 2 1n 2 S 2 2(n 2 − 1)σ 2 2suit une loi de Fischer-Snedecor à n 1 − 1 degrés de liberté au numérateur <strong>et</strong> à n 2 − 1 degrés de liberté audénominateur.DémonstrationD’après le théorème (4.2.1) n 1 S2 1σ12 (respectivement n 2 S2 2σ22 ) suit une loi du χ 2 à n 1 −1 (respectivement n 2 −1) degrés de liberté <strong>et</strong> les hypothèses duthéorème impliquent que ces variables aléatoires sont indépendantes. On en déduit alors immédiatement le résultat en considérant la définitiond’une loi de Fisher-Snedecor. ✷La figure 4.6 donne une illustration, via la simulation d’une loi de Fisher à ν 1 = 5 ddl au nuérateur <strong>et</strong> ν 2 = 3ddl au dénominateur.4.5 Distribution d’échantillonnage d’une fréquenceNous allons terminer c<strong>et</strong>te section en rappelant la distribution d’échantillonnage d’une proportion.Théorème 4.5.1. Soit X une variable aléatoire de Bernoulli de paramètre p <strong>et</strong> soit (Y 1 , . . . , Y n ) un n-échantillonaléatoire. Posons S(y) = ∑ ni=1 y i <strong>et</strong> M(y) = 1 n∑ ni=1 y i, alors :(i) si l’échantillon est avec remise ou si la population est infinieS suit une loi binômiale de paramètre (n, p) <strong>et</strong> :✷E(S) = npV ar(S) = npqE(Ȳ ) = pV ar(Ȳ ) = pqn


5. PRINCIPALES LOIS DE PROBABILITÉ 730.15Données: N(2,9)0.2Données: N(1,4)0.10.150.10.050.050−5 0 5 10F: Loi Fisher à (5,3) ddl0−5 0 50.60.40.200 2 4 6 8Fig. 4.6 – Simulation loi de Fisher à (5,3) ddl (5000 échantillons). Statistique F(ii) si l’échantillon est sans remise <strong>et</strong> si la population est finie (de taille N)S suit une loi hypergéométrique de paramètre (N, n, p). <strong>et</strong>E(S) = npV ar(S) = npq N−nN−1E(Ȳ ) = pV ar(Ȳ ) = pqnN−nN−1DémonstrationCela provient tout simplement des définitions des lois binômiale <strong>et</strong> hypergéométrique. ✷5 Principales lois de probabilitéNous donnons dans les tableaux ci-après les principales lois de probabilités utilisées dans la pratique. Les 5premières lois sont des lois discrètes <strong>et</strong> les suivantes sont continues. Pour chacune d’entres elles nous donneronstout d’abord la définition ou un mécanisme perm<strong>et</strong>tant d’obtenir une variable aléatoire suivant c<strong>et</strong>te loi. Ensuitenous donnerons un exemple d’utilisation de c<strong>et</strong>te loi, puis la forme analytique de c<strong>et</strong>te loi, c’est-à-dire les quantitésP (X = k) pour les lois discrètes <strong>et</strong> la fonction de densité f(x) pour les lois continues. Nous donnerons enfin lesvaleurs de leur principaux paramètres <strong>et</strong> nous visualiserons ces lois.


74 CHAPITRE 4.THÉORIE DE L’ÉCHANTILLONNAGENom <strong>et</strong> notation de la v.a. Définition ou mécanismede constructionLoi de Bernoulli : B(p) C’est la loi d’une variablealéatoire à valeur dans{0, 1}Loi binômiale : B(n, p) Somme de n v.a.r. de loi deBernoulli indépendantes.Loi Hypergéométirque :H(N, n, p)Nombre d’individus possédantune propriété donnéeparmi n prélevés au hasard(sans remise) dans unepopulation générale de Nindividus dont n1 = Npjouissent de la dite propriété.Exemples de v.a. suivant laloi1) Résultat du lancé d’unepièce2) Réponse à une questionpar oui ou nonNombre d’individuspossédant un caractèredonné parmi n prélevés auhasard, avec remise, dansune population générale.nombre d’individus ayantrépondus oui à une questiondans un échantillonde taille n provenant d’unepopulation de taille N dontla proportion de réponses“oui” est p dans toute lapopulation.Définition analytique de laloiValeur des paramètres dela distributionP (X = 1) = pP (X = 0) = qp + q = 1E(X) = pV ar(X) = pqP (X = k) =E(X) = npC n k pk q n−k V ar(X) = npqP (X = k) =C k n1 Cn−k N−n1C Nnavecn1 = pNE(X) = npV ar(X) = n n 1“ N − 1(1 − p) 1 − n ”NReprésentation graphiqueP (X = k)✻qp0 1✲kn = 5p = 0, 25P (X = k)0.40 ✻0 1 2 3 4✲kN = 20n = 5p = 0, 25P (X = k)0.44✻0 1 2 3 4✲k


5. PRINCIPALES LOIS DE PROBABILITÉ 75Nom <strong>et</strong> notation de la v.a. Définition ou mécanismede constructionLoi multinômiale : C’est la loi jointe deM(n, p1, . . . , pl)X(X1, . . . , Xl) où les Xisont des v.a. binômiales deparamètres (n, pi).Loi de poisson : P(λ) C’est la loi du nombred’apparitions pendantune unité de tempsd’un événement dont laréalisation ne dépend pasdu nombre de réalisationspassées <strong>et</strong> n’influe pas surles futures ; les épreuvesse déroulant dans desconditions stationnaires.Exemples de v.a. suivant laloiRépartition d’unéchantillon exhaustifde taille n provenant d’unepopulation constituée de lclasses C1, . . . , Cl1) Nombre de personnesarrivant pendant une unitéde temps à un guich<strong>et</strong>.2) nombre de sinistrespendant une unité d<strong>et</strong>emps dans une populationdonnée.Définition analytique de laloiP (X1 = k1, . . . ,Xl = kl) =n!k1! . . . kl! pk 11 . . . pk llP (X = k) = λkk! e−λk = 0, 1, 2, . . .Valeur des paramètres dela distributionE(Xi) = npiE(X) = t (E(X1),. . . , E(Xl))V ar(Xi) = npiqiCov(Xi, Xj) =−npipj i ≠ jE(X) = λV ar(X) = λReprésentation graphiqueNous ne pouvons pasreprésenter graphiquementc<strong>et</strong>te loi car il faudraitfaire un dessin dans R l+1λ = 0, 5P (X = k)0.61 ✻0.300.08✲0 1 2 3 k


76 CHAPITRE 4.THÉORIE DE L’ÉCHANTILLONNAGENom <strong>et</strong> notation de la v.a. Définition ou mécanismede constructionLoi normale ou de Gauss : Les valeurs de la v.a.N (µ, σ2)résulte de l’influence d’ungrand nombre de facteursindépendants agissant sousforme additive, de façontelle que chaque cause partielleait une variance faiblepar rapport à la variancerésultanteLoi normale de dimensionn : N (µ, Γ)Loi lognormale : LN (µ, σ) Une v.a. suit une loi lognormalesi son logarithmenépérien suit une loi normale.Exemples de v.a. suivant laloi1) taille d’un individu2) RendementDéfinition analytique de laloif(x) =1√ e2πσValeur des paramètres dela distributionReprésentation graphiqueE(X) = µf(x)0.4V ar(X) = σ 2 0.350.30.250.20.150.10.05−3 −2 −1 0 1 2 31) (taille d’un individu,poids d’un individu).2) Erreur de tir. f(x) =1(2π) n p2 d<strong>et</strong>(Γ)t (x − µ)Γ −1 (x − µ)e − 2où µ ∈ R n <strong>et</strong> Γ est unematrice carrée (n, n) réellesymétrique définie positive.E(X) = µΓ = (γij)ijγij = Cov(Xi, Xj)0.060.050.04n = 2, µ =Γ =„ 00„ 2 11 5««0.030.020.01−2−4−6 −5Salaire (ln x − ln µ)2−d’un employéprélevé dans une populationgénérale f(x) = √12πσxe2σ 20 < x < +∞E(X) = µeσ 22V ar(X) =µ 2 e σ2 (e σ2 − 1)0.70.60.50.40.30.20.1f(x)0 1 2 3 4 50004200xx5


5. PRINCIPALES LOIS DE PROBABILITÉ 77Nom <strong>et</strong> notation de la v.a. Définition ou mécanismede constructionLoi du Khi-2 à ν degrés de Une variable aléatoireliberté : χνréelle suit une loi de Khi-2à ν degrés de liberté si elleest la somme de ν carrés devariables aléatoires réellesde loi normale réduite (i.e.N (0, 1)) indépendantes.Loi de Student à ν degrésde liberté : tνLoi de Fisher à (ν1, ν2)degrés de liberté : Fν1,ν2Soient Y une variablealéatoire de loi normaleréduite <strong>et</strong> Z une variablealéatoire de loi du Khi-2à ν degrés de libertéindépendantes. Alors lavariables X = √ Y Z/νsuitune loi de Student à νdegrés de liberté.Soient X1 <strong>et</strong> X2 deux variablesréelles de loi duKhi-2 à respectivement ν1<strong>et</strong> ν2 degrés de libertéindépendantes. Alors X =(X1/ν1)(X2/ν2) suit une loi deFisher à ν1 degrés de libertéau numérateur <strong>et</strong>à ν2 degré de liberté audénominateur.Exemples de v.a. suivant laloi1) Variance empiriqued’un échantillon d<strong>et</strong>aille ν + 1 dont on neconnaît pas la moyenne.2) Mesure de l’écartentre des lois théorique <strong>et</strong>empiriqueMesure normalisée del’écart de deux moyennesempiriques calculéessur deux échantillonsindépendants d’une populationnormale.Rapport de deux variancesempiriques construitessur deux échantillonsindépendants extraitsd’une population normale.Définition analytique de laloiValeur des paramètres dela distributionνf(x) = cx 2 − 1 e − x 20 < x < +∞E(X) = νV ar(X) = 2νf(x) =E(X) = 0c(1 + x2ν )(ν+1)/2 V ar(X) = νν − 2si ν > 2f(x) = xν12 − 1(ν1x + ν2) − (ν 1 + ν2)2E(X) = ν 2ν2 − 2si ν2 > 2V ar(X) =2ν 2 2 (ν 1 + ν2 − 2)ν1(ν2 − 2) 2 (ν2 − 4)Représentation graphiqueν = 40.2f(x)0.150.10.050 2 4 6 8 10 12 14 16ν = 40.4f(x)0.350.30.250.20.150.10.05−5 −4 −3 −2 −1 0 1 2 3 4 5ν1 = 4 <strong>et</strong> ν2 = 60.7f(x)0.60.50.40.30.20.10 1 2 3 4 5000xxx


78 CHAPITRE 4.THÉORIE DE L’ÉCHANTILLONNAGE6 Exercices6.1 Exercices avec corrigésExercice 6.1.1 (Loi normale centrée réduite). L’objectif de c<strong>et</strong> exercice est le calcul de probabilités dans le casd’une variable aléatoire U de loi normale centrée réduite N (0, 1) en utilisant la table de c<strong>et</strong>te loi.(i) Calculer P (1 ≤ U ≤ 2, 5).(ii) On note φ(u) = P (U ≤ u) = ∫ uf(x)dx la fonction de répartition de la loi normale centrée réduite.−∞Démontrer que φ(−u) = 1 − φ(u). On utilisera le fait que la fonction de densité f(x) = (1/ √ 2π)e −x2 estpaire, c’est-à-dire que f(−x) = f(x) pour tout x.(iii) Calculer P (U ≤ −1).(iv) Calculer P (U ∈ [−1, 2[).(v) Encadrer P (U ≥ 6).(vi) On note u p = φ −1 (p) le réel défini par(i)P (U ≤ u p ) = pDonner u 0.999 . On cherchera c<strong>et</strong>te valeur dans la table de la loi normale centrée réduite <strong>et</strong> dans la table deStudent.correction.Voir la figure 4.7P (1 ≤ U ≤ 2.5) =∫ 2.51f(x)dx = φ(2.5) − φ(1)= 0.9938 − 0.8413= 0.1525= A0.40.3f(x)0.20.1← A0−3 0 1 2.5 +3xFig. 4.7 – Visualisation de la probabilité(ii) Graphiquement (voir la figure 4.8) la parité de la fonction de densité f(x) donneA 1 = φ(−u) = P (U ≤ −u) = P (X > u) = A 2= 1 − P (X ≤ u)= 1 − φ(u)Montrons maintenant que A 1 = ∫ −u−∞ f(x)dx = A 2. Pour cela on fait le changement de variable y = −x dansl’intégrale. On obtient alors∫ u∫ +∞A 1 = − f(−y)dy = f(y)dy = A 2+∞u(iii) P (X ≤ −1) = φ(−1) = 1 − φ(1) = 1 − 0.8413 = 0.1587(iv) P (X ∈ [−1, 2[) = φ(2) − φ(−1) = 0.97725 − 0.1587 = 0.81855


6. EXERCICES 790.40.3f(x)0.20.1A 1→ ← A 20−3 −u 0 u +3xFig. 4.8 – Visualisation Φ(−u) = 1 − φ(u)✷(v) P (X ≥ 6) = ∫ +∞6f(x)dx = 1 − φ(6). Or la fonction de répartition φ est strictement croissante de 0 vers 1.Par suite on aφ(3.99) < φ(6) < 1On en déduit1 − 1 < 1 − φ(6) < 1 − φ(3.99)0 < 1 − φ(6) < 1 − 0.99997 = 0.00003(vi) On a u 0.999 = 3.09.Remarque. La table de la loi normale centrée réduite donne la fonction de répartition φ(u p ) = p alors que ladernière ligne de la table de Student (degré de liberté égale à +∞) donne la fonction inverse de la fonctionde répartition φ −1 (p) = u p .Exercice 6.1.2 (Loi normale de paramètre µ <strong>et</strong> σ). L’objectif de c<strong>et</strong> exercice est le calcul de probabilités dans lecas d’une variable aléatoire X de loi normale N (µ, σ 2 ). On utilisera le fait que U = (X − µ)/σ suit alors une loinormale centrée réduite.Soit X la variable aléatoire réelle X représentant le rendement d’une céréale C. On suppose que X suit une loinormale de paramètres µ = 50q/ha <strong>et</strong> σ 2 = 5(q/ha) 2 (voir 1.2.6).(i) Formaliser c<strong>et</strong>te variable aléatoire.(ii) Calculer P (X < 0). Commentaires(iii) Calculer P (48 ≤ X ≤ 50) <strong>et</strong> représenter graphiquement c<strong>et</strong>te probabilité.(iv) Quelle signification a la quantité ci-dessus ?(v) Calculer P (µ − 1, 96σ ≤ X ≤ µ + 1, 96σ).correction.(i) voir l’exemple 1.2.6(ii)(iii)P (X < 0) = P( X − 50√5< 0 − 50 √5)= φ(−22.36) ∼ 0La vraie valeur de c<strong>et</strong>te probabilité est 0 car il est impossible d’avoir un rendement négatif. Le calcul icidonne une valeur strictement positive, mais très faible. Le modèle considéré est donc rigoureusement faux.Cependant, l’erreur faite est tout-à-fait négligeable.( )48 − 50 50 − 50P (48 ≤ X ≤ 50) = P √ ≤ U ≤ √5 5(= φ(0) − φ −√ 2 ) ( ( )) 2= φ(0) − 1 − φ √55Voir la figure 4.9.= φ(0) − (1 − φ(0.89))= 0.5 − 1 + 0.8133= 0.3133


80 CHAPITRE 4.THÉORIE DE L’ÉCHANTILLONNAGE0.180.160.140.12f(x)0.10.08← A0.060.040.02044 46 48 50 52 54 56xFig. 4.9 – P (48 ≤ X ≤ 50) = A = 0.3133(iv) On a environ 31 chances sur 100 lorsque l’on fait une culture dans les conditions expérimentales définies parla population P d’avoir un rendement compris entre 48 <strong>et</strong> 50 q/ha.(v)En résumé on a donc( (µ − 1.96σ) − µP (µ − 1, 96σ ≤ X ≤ µ + 1, 96σ) = P≤ U ≤σCeci est visualisé sur la figure 4.10= P (−1.96 ≤ U ≤ 1.96)= φ(1.96) − φ(−1.96)= 2φ(1.96) − 1= 0.95)(µ + 1.96σ) − µσP (µ − 1, 96σ ≤ X ≤ µ + 1, 96σ) = 0.95 (4.12)0.180.160.140.120.1← A=0.95f(x)0.080.060.040.020mu−1.96sigma mu mu+1.96sigmaxFig. 4.10 – Visualisation de l’équation 4.12✷Exercice 6.1.3. On considère une urne U constituée de n 1 ≥ 2 boules blanches <strong>et</strong> n 2 ≥ 2 boules noires. On noteN = n 1 + n 2 le nombre totale de boules dans l’urne <strong>et</strong> p = n 1 /N. Soit X la variable aléatoireX : U −→ {0, 1}b ↦−→ 0 si b est noireb ↦−→ 1 si b est blanche.On considère Y = (Y 1 , Y 2 ) le 2-échantillon aléatoire de X <strong>et</strong> Ȳ = (1/2)(Y 1 + Y 2 ).(i) On suppose que l’échantillonnage est avec remise(a) Quelles valeurs peut prendre Y .


6. EXERCICES 81(b) Donner la loi de Y .(c) Quelles sont les lois de Y 1 <strong>et</strong> Y 2 .(d) Écrire la variable aléatoire Ȳ .(e) Écrire Ȳ = M(Y ) (on précisera M).(f) Calculer, à partir de la loi de Y la loi de Ȳ .(g) Calculer, à partir de la loi de Ȳ l’espérance mathématique <strong>et</strong> la variance de Ȳ .(ii) On suppose l’échantillonnage sans remise(a) Quelles valeurs peut prendre Y .(b) Donner la loi de Y .(c) Quelles sont les lois de Y 1 <strong>et</strong> Y 2 .(d) Écrire Ȳ = M(Y ) (on précisera M).(e) Calculer, à partir de la loi de Y la loi de Ȳ .(f) Calculer, à partir de la loi de Ȳ l’espérance mathématique <strong>et</strong> la variance de Ȳ .correction.(i)(a) Le 2-échantillon aléatoire est défini parY = (Y 1 , Y 2 ) : U 2 −→ {0, 1} × {0, 1}b = (b 1 , b 2 ) ↦−→ Y (b) = (Y 1 (b), Y 2 (b))= (X(b 1 ), X(b 2 )).(b)Donc les valeurs possibles de Y sont (0, 0), (0, 1), (1, 0) <strong>et</strong> (1, 1).P (Y = (0, 0)) = P (Y 1 = 0 <strong>et</strong> Y 2 = 0)= P (Y 1 = 0)P (Y 2 = 0) = q 2 car Y 1 <strong>et</strong> Y 2 sont indépendantesP (Y = (0, 1)) = pqP (Y = (1, 0)) = qpP (Y = (1, 1)) = p 2(c) Les lois de Y 1 <strong>et</strong> de Y 2 sont identiques à celle de X. Ce sont donc des lois de Bernoulli de paramètres p.(d)Ȳ : U 2 −→ {0, 1/2, 1}b = (b 1 , b 2 ) ↦−→ Ȳ (b) = (1/2)(Y 1(b) + Y 2 (b))On peut écrire Ȳ = (1/2)(Y 1 + Y 2 ) ou encore Ȳ = M(Y ) avecM : R 2 −→ Ry = (y 1 , y 2 ) ↦−→ M(y) = (1/2)(y 1 + y 2 )(e) Remarquons tout d’abord que :– la loi de probabilité de Y est une probabilité sur son espace d’arrivé C Y = {0, 1} 2 ;– la loi de probabilité de Ȳ est une probabilité sur son espace d’arrivé CȲ = {0, 1/2, 1}.P CȲ (Ȳ = 0) = P C Y(Y = (0, 0)) = P CY (Y 1 = 0 <strong>et</strong> Y 2 = 0) = q 2P CȲ (Ȳ = 1/2) = P C Y(Y = (0, 1) ou Y = (1, 0)) = 2pqP CȲ (Ȳ = 1) = P C Y(Y = (1, 1)) = q 2


82 CHAPITRE 4.THÉORIE DE L’ÉCHANTILLONNAGE(f)(ii)E(Ȳ ) = 0q2 + (1/2)2pq + 1p 2 = p(p + q) = pV ar(Ȳ ) = E(Ȳ 2 ) − E(Ȳ )2 = 0 2 q 2 + (1/2) 2 2pq + 1 2 p 2 − p 2 = pq2On r<strong>et</strong>rouve bien pour 2Ȳ la loi binômiale <strong>et</strong> les valeurs de E(Ȳ ) <strong>et</strong> de V ar(Ȳ ) pour un tirage avecremise.(a) idem cas avec remise.(b)P (Y = (0, 0)) = n 2 n 2 − 1N N − 1P (Y = (0, 1)) = n 2 n 1N N − 1P (Y = (1, 0)) = n 1NP (Y = (1, 1)) = n 1Nn 2N − 1n 1 − 1N − 1(c)(d)P (Y 1 = 1) = P (Y = (1, 0) ou Y = (1, 1))= n 1n 2 + n 1 (n 1 − 1)N(N − 1)= n 1N = pP (Y 1 = 0) = 1 − P (Y 1 = 1) = 1 − pDonc Y 1 suit la même loi de Bernoulli que XIdem pour Y 2 .Ȳ : Ω −→ {0, 1/2, 1}= n 1(n 1 + n 2 − 1)N(N − 1)b = (b 1 , b 2 ) ↦−→ Ȳ (b) = (1/2)(Y 1(b) + Y 2 (b))avec Ω = {b = b 1 , b 2 ) ∈ U 2 |b 1 ≠ b 2 }. On peut écrire Ȳ = (1/2)(Y 1 + Y 2 ) ou encore Ȳ = M(Y ) avecM : R 2 −→ Ry = (y 1 , y 2 ) ↦−→ M(y) = (1/2)(y 1 + y 2 )(e)(f)P (Ȳ = 0) = P (Y = (0, 0)) = n 2(n 2 − 1)N(N − 1)P (Ȳ = 1/2) 2n 1 n 2N(N − 1)P (Ȳ = 1) = n 1(n 1 − 1)N(N − 1)E(Ȳ ) = 1 2n 1 n 22 N(N − 1) + 1n 1(n 1 − 1)N(N − 1)= n 1(n 1 + n 2 − 1)= pN(N − 1)


6. EXERCICES 83✷V ar(Ȳ ) = ( 12) 22n 1 n 2N(N − 1) + 12 n 1(n 1 − 1)N(N − 1) − p2= n 1n 2 + 2n 1 (n 1 − 1) − 2p 2 N(N − 1)2N(N − 1)n 1N=(n 2 + 2n 1 − 2 − 2p(N − 1))2(N − 1)= p(n 2 − 2 + 2p)2(N − 1)p(N − 2)q=2(N − 1)(N − n) pq=N − 1 noù n = 2. On r<strong>et</strong>rouve bien les résultats du théorème 4.1.16.2 Exercices avec indicationsExercice 6.2.1 (Taux de germination). On s’intéresse dans c<strong>et</strong> exercice au taux de germination, donc au paramètrep de la loi de Bernoulli de la variable aléatoireX : G −→ {0, 1}g ↦−→ 0 si g ne germe pasg ↦−→ 1 si g germe.(voir l’exemple 1.2.1)On considère un n-échantillon aléatoire Y = (Y 1 , . . . , Y n ) de X. L’échantillonnage est bien sûr sans remise (onne peut pas m<strong>et</strong>tre à germer une graine deux fois !). On définit les statistiques<strong>et</strong> M = (1/n)Y .S : R n −→ {0, 1, . . . , n}n∑y = (y 1 , . . . , y i ) ↦−→ S(y) =(i) Quelles sont les espaces de départ <strong>et</strong> d’arrivée de S(Y ) <strong>et</strong> de M(Y ).(ii) Écrire S(Y ) <strong>et</strong> Ȳ = M(Y ) en fonction des variables aléatoires (Y i) i(iii) On suppose que la taille de la population G est N, quelle est la loi de S(iv) On suppose que N = +∞, quelle est la loi de S.(v) On suppose que N = +∞ <strong>et</strong> qu’on peut approximer la loi de Ȳ par une loi normale N (µȲ , σ 2 Ȳ ).(a) Donner µ Ȳ <strong>et</strong> σ Ȳ en fonction de n <strong>et</strong> p.(b) Déterminer n en fonction de p pour avoiri=1P (µ Ȳ − 0.025 < Ȳ < µȲ + 0.025) = 0.95(c) On prend p = 0.5, calculer n. Que signifie ce résultat ?Indications. Penser à l’urne <strong>et</strong> l’échantillonnage avec <strong>et</strong> sans remise. Pour (vb), utiliser l’équation 4.4 ✷Exercice 6.2.2. Soit X : P −→ {0, 1} une variable aléatoire de loi de Bernoulli de paramètre p <strong>et</strong> Y = (Y 1 , . . . , Y n )un n-échantillon Bernoullien de X On considère la statistique S 2 suivanteS 2 : R n −→ {0, 1, . . . , n}y = (y 1 , . . . , y i ) ↦−→ S 2 (y) = 1 n∑(y i − ȳ) 2ni=1y i


84 CHAPITRE 4.THÉORIE DE L’ÉCHANTILLONNAGE(i) On prend n = 2(a) Quels sont les valeurs que peut prendre la variable aléatoire S 2 (Y ) ?(b) Écrire S(Y ) en fonction de Y 1 <strong>et</strong> de Y 2 .(c) Donner la loi de S 2 (Y ).(d) Calculer l’espérance mathématique <strong>et</strong> la variance de S 2 (Y ).(e) les variables aléatoires Ȳ <strong>et</strong> S2 (Y ) sont-elles indépendantes ?(ii) On prend n = 3(a) Quels sont les valeurs que peut prendre la variable aléatoire S 2 (Y ) ?(b) Donner la loi de S 2 (Y ).(c) Calculer l’espérance mathématique <strong>et</strong> la variance de S 2 (Y ).Indications. Pour les espérances mathématiques <strong>et</strong> variances on doit trouver les mêmes résultats que dans l<strong>et</strong>héorème 4.2.1 ✷Exercice 6.2.3. Soit X : P −→ R une variable aléatoire de loi normale N (µ, σ 2 ) <strong>et</strong> Y = (Y 1 , . . . , Y n ) un n-échantillon Bernoullien de X On considère les statistiques suivantesS : R n −→ Ry = (y 1 , . . . , y i ) ↦−→ S(y) = 1 ∑nσ 2 (y i − µ) 2 ,i=1<strong>et</strong> K = SCE/σ 2 .✷(i) Quelle est la loi de S(Y ) ?(ii) Quelle est la loi de K(Y ) ?SCE : R n −→ Ry = (y 1 , . . . , y i ) ↦−→ SCE(y) = 1 ∑ nσ 2 (y i − ȳ) 2 ,(iii) On prend n = 10 <strong>et</strong> on note χ p l’unique réel vérifiant P (K ≤ χ p ) = p. En vous aidant de la table de la loi duχ 2 donner les valeurs de χ 0.025 <strong>et</strong> de χ 0.975 .(iv) Vérifier que P (χ 0.025 < K < χ 0.0975 ) = 0.95.(v) En déduire la valeur de(vi) Que signifie 4.13Pi=1( [ SCE(Y )σ 2 ∈ ; SCE(Y ) ]). (4.13)χ 0.0975 χ 0.0025Indications. On écrira S(Y ) comme le carré de n variables aléatoires de loi normale centrée réduite indépendantes.6.3 Exercices sans indicationsExercice 6.3.1. Soit X la variable aléatoire définie sur P, à valeurs dans {0, 1, 4} <strong>et</strong> de loiP (X = 0) = 1/4P (X = 1) = 1/2P (X = 4) = 1/4On considère Y = (Y 1 , Y 2 ) un 2-échantillon Bernoullien de X <strong>et</strong> Ȳ = (1/2)(Y 1 + Y 2 ).(i) Quelles sont les valeurs possibles de Ȳ ?(ii) Calculer la loi de Y .(iii) Calculer la loi de Ȳ .Exercice 6.3.2. Soit X la variable aléatoire rendement de loi normale N (50, 5) définie à l’exercice 6.1.2. SoitY = (Y 1 , . . . , Y n ) un n-échantillon Bernoullien de X (On suppose la population infinie <strong>et</strong> on peut donc considérerque l’échantillonnage avec remise se confond avec l’échantillonnage sans remise).


6. EXERCICES 85(i) On définit la statistique U suivanteU : R n −→ Ry = (y 1 , . . . , y n ) ↦−→ U(y) = ȳ √ − 50 ,5/noù ȳ désigne toujours la moyenne arithmétique des (y i ).(a)(b)Écrire U(Y ) (espace de départ, espace d’arrivé <strong>et</strong> fonction).Écrire U(Y ) en fonction de Ȳ . En déduire la loi de U.(c) Calculer<strong>et</strong> donner son interprétation.P (Ȳ ∈ [50 − 1.96(√ 5/n); 50 + 1.96 √ 5/n])(ii) On suppose maintenant que la variance de X est inconnue. La loi de X est donc N (50, σ 2 ). On définit alorsles statistiques suivantes<strong>et</strong>SCE : R n −→ Ry = (y 1 , . . . , y n ) ↦−→ SCE(y) =T : R n −→ Ry = (y 1 , . . . , y n ) ↦−→ T (y) =n∑(y i − ȳ) 2i=1ȳ − 50√SCE(y)/(n(n − 1)).(a)Écrire T (Y ) (espace de départ, espace d’arrivé <strong>et</strong> fonction).(b) Écrire T (Y ) en fonction de Ȳ <strong>et</strong> de S2 . En déduire la loi de T .(c) On suppose que n = 10, donner l’unique réel t 0.975 vérifiant P (T < t 0.975 ) = 0.975 (voir les tablesstatistiques). En déduireP (Ȳ ∈ [50 − t 0.975( √ SCE(Y )/(n(n − 1))); 50 + t 0.975√SCE(Y )/(n(n − 1))])<strong>et</strong> donner son interprétation.


86 CHAPITRE 4. THÉORIE DE L’ÉCHANTILLONNAGE


Chapitre 5Tests statistiques : principes généraux1 IntroductionLe but d’un test statistique est de répondre à une question ”simple”, par exemple savoir laquelle de deux variétésde Tournesol A <strong>et</strong> B donne le meilleur taux d’une protéine fixée. Pour cela, nous collecterons des données pourles deux variétés, puis nous ferons un calcul à partir de ces données <strong>et</strong> en fonction de la valeur du résultat nousvaliderons soit A, soit B. Nous pouvons donc faire en pratique deux erreurs :– choisir A quand c’est B qui est meilleure ;– choisir B quand c’est A qui est meilleure.Par suite un test de statistique ne donnera jamais de réponse complètement déterministe, <strong>et</strong> comme dans toutprocessus de prise de décision, il y aura toujours des risques d’erreur.L’un des gros apports des tests statistiques est la connaissance, en terme de probabilités, des risques pris.L’objectif de ce chapitre est donc de bien comprendre la définition de ces risques <strong>et</strong> d’assimiler toute la démarchelogique d’un test statistique. Ceci est fondamental si l’on désire utiliser c<strong>et</strong> outil correctement.2 Exemple2.1 ProblèmeUn industriel vient de m<strong>et</strong>tre au point un nouveau procédé de fabrication d’ampoules électriques. Il désiresavoir si ce nouveau procédé est meilleur que celui utilisé actuellement dans le sens où les ampoules fabriquéesavec ce nouveau procédé ont une durée de vie plus longue. Des études antérieures ont montré que la durée de vied’une ampoule fabriquée par le procédé classique suit une loi normale de paramètres µ = 1400 heures <strong>et</strong> σ = 120heures. On suppose que le nouveau procédé ne modifie pas la loi, ni la variance. On note A (respectivement A 0 )la population, supposée de taille très grande, des ampoules fabriquées avec le nouveau procédé (respectivementl’ancien procédé). Nous pouvons alors définir les deux variables aléatoires suivantes :X : A −→ R1 ampoule ↦−→ sa durée de vieX 0 : A 0 −→ R1 ampoule ↦−→ sa durée de vieLes informations données nous perm<strong>et</strong>tent alors de dire que la loi de la variable aléatoire X (respectivement X 0 )est une loi normale N (µ, 120 2 ) (respectivement N (1400, 120 2 )). La question est donc de savoir laquelle des deuxhypothèses ci-dessous est la bonne pour le nouveau procédé.– µ ≤ 1400;– µ > 1400.Pour des raisons que nous verrons dans la suite de ce chapitre, nous formulerons les hypothèses de la façon suivante– H 0 : µ = 1400;– H 1 : µ > 1400.Pour effectuer le choix entre ces 2 hypothèses on fait des mesures sur n =100 ampoules fabriquées avec lenouveau procédé. On obtient les données de la table 5.1 dont les représentations graphiques sont données auxfigures 5.1 <strong>et</strong> 5.2.87


88 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GÉNÉRAUXTab. 5.1 – Donnés de l’exemple ampoules en milliers d’heures1.7152 1.6602 1.7944 1.5417 1.5712 2.0019 1.7514 2.0755 1.7308 1.7808. . . . . . . . . .1.6244 1.7249 1.6901 1.6524 1.7898 1.5812 1.7976 1.5170 1.8235 1.80124 x 10−3 durées de vie3.532.521.510.501000 1200 1400 1600 1800 2000 2200Fig. 5.1 – Histogramme des données de l’exemple ampoule.La question est maintenant de choisir, à partir de ces données, entre les deux hypothèses. Si nous appelons ȳ lamoyenne le l’échantillon, il semble logique ici de prendre la règle de décision suivante :– Si ȳ > l alors on rej<strong>et</strong>tera l’hypothèse nulle H 0– Si ȳ < l alors on acceptera l’hypothèse nulle H 0l sera la valeur critique du test.C<strong>et</strong>te règle de décision induira deux types de risques : le risque de décider de rej<strong>et</strong>er l’hypothèse nulle H 0 quandelle est vraie <strong>et</strong> le risque de décider d’accepter l’hypothèse nulle H 0 quand elle est fausse. Nous allons maintenantdans un cas simple calculer ces risques.2.2 Cas simplifiéOn considère, dans une premier temps, le cas simplifié où les seules valeurs que peut prendre la moyenne µsont 1400 <strong>et</strong> 1450. Ce cas n’est pas, bien évidemment, réaliste. Nous le considérons uniquement pour des raisonspédagogiques. Les hypothèses nulles H 0 <strong>et</strong> alternatives H 1 deviennent donc– H 0 : µ = 1400 ;– H 1 : µ = 1450.La population A étant supposé très grande, on peut considérer que les données sont une observation du 100-échantillon aléatoire Bernoullien.(Y 1 , . . . , Y 100 ) : A 100 −→ R 100100 ampoules ↦−→ (durée de vie de l’ampoule 1, . . . , durée de vie de l’ampoule 100)a = (a 1 , . . . , a 100 ) ↦−→ Y (a) = (X(a 1 , . . . , X(a 100 ))Nous pouvons alors définir la statistiqueM : R 100 −→ R(y 1 , . . . , y 100 ) ↦−→ ȳ = 1100∑100y i .i=1Nous avons donc défini la variable aléatoire Ȳ = M(Y ) = (1/n) ∑ i Y i. Le chapitre 4 sur la théorie de l’échantillonnagenous dit alors que– si l’hypothèse nulle H 0 est vraie alors Ȳ suit une loi N (1400, 1202 /100) ;


2. EXEMPLE 8920001900durée de vie18001700160015001échantillonsFig. 5.2 – Boîte à moustaches des données de l’exemple ampoules.– si l’hypothèse H 1 est vraie alors Ȳ suit une loi N (1450, 1202 /100).On suppose enfin que la valeur limite l est fixée à 1430. Ceci nous définit alors deux événements :– accepter H 0 = Ȳ ≤ 1430 ;– accepter H 1 = Ȳ > 1430.Nous pouvons maintenant calculer les deux risques, que nous appellerons risques de première <strong>et</strong> de deuxièmeespèce.α = Probabilité de l’événement rej<strong>et</strong>er H 0 quand H 0 est vraie= P H0 (rej<strong>et</strong>er H 0 )( )= P H0 (Ȳ > 1430) avec Ȳ : N 1400, 1202100= 1 − P H0 (Ȳ < 1430)(Ȳ − 1400= 1 − P H0 1400. Le risque de deuxième espèce sera alors fonction de la valeur de c<strong>et</strong>temoyenne. Une autre différence avec la démarche utilisée en pratique est que l’on se fixe la valeur du risque depremière espèce α. On calculera alors la valeur limite l que l’on appelera valeur critique <strong>et</strong> que l’on notera ici Ȳcrit.


90 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GÉNÉRAUX0.040.0350.030.0250.02← Loi de Msi H 0est vraie← Loi de Msi H 1est vraie0.0150.010.0050β →← α1380 1400 1420l1440 1460 1480Fig. 5.3 – Risque α de première espèce <strong>et</strong> β de deuxième espèce pour l’exemple des ”ampoules”.Fixons le risque de première espèce α = 0.05, cela donnePar suite, nous obtenonsα = P H0 (rej<strong>et</strong>er H 0 )( )0.05 = P H0 (Ȳ > Ȳcrit) avec Ȳ : N 1400, 1202100= 1 − P H0 (Ȳ (Ȳ ≤ Ȳcrit))− 1400= 1 − P H0 ≤ Ȳcrit − 14001212)(Ȳcrit − 1400= 1 − φ.12)(Ȳcrit − 1400φ12= 0.95⇒ Ȳcrit − 1400= 1.64512⇒ Ȳcrit = 1419.74Nous pouvons alors maintenant calculer le risque de deuxième espèce β.β = P H1 (accepter H 0 )( )= P H1 (Ȳ < Ȳcrit) avec Ȳ : N µ, 1202100= P H1 (Ȳ − µ < Ȳcrit − µ)12)12(Ȳcrit − µ= φ12On définit la puissance d’un test comme la probabilité de l’événement accepter H 1 quand H 1 est vraie. Lapuissance est donc égale à 1 − β.1 − β = Probabilité de l’événement accepter H 1 quand H 1 est vraie= P H1 (accepter H 1 )Remarque 2.3.1. La puissance est la probabilité de ”m<strong>et</strong>tre en évidence une différence qui existe”.µ.La table 5.2 donne le risque β <strong>et</strong> la puissance (visualisée par la figure 5.4) pour différentes valeurs de la moyenne


3. PRINCIPES GÉNÉRAUX 91µ 1380 1390 1394 1396 1398 1400 1410 1420 1430 1440 1450 14601419.74 − µ3.31 2.48 2.14 1.98 1.81 1.64 0.81 -0.02 -0.855 -1.69 -2.52 -3.3612β 1.00 0.99 0.98 0.98 0.96 0.95 0.79 0.49 0.20 0.05 0.00 0.001 − β 0.00 0.01 0.02 0.02 0.04 0.05 0.21 0.51 0.80 0.95 1.00 1.00Tab. 5.2 – Risque β <strong>et</strong> puissance en fonction de la moyenne µ10.90.80.70.6Puissance0.50.40.30.20.101380 1390 1400 1410 1420 1430 1440 1450 1460µFig. 5.4 – Fonction puissance pour l’exemple ”ampoules” : 1 − β(µ).Remarque 2.3.2. Pour calculer la valeur critique d’un test, on doit parfaitement connaître la loi de la statistiquede décision quand l’hypothèse nulle H 0 est vraie. Ceci justifie le fait que l’on ait écrit dans c<strong>et</strong> exemple c<strong>et</strong>tehypothèse nulle sous la forme d’une égalité : H 0 : µ = 1400 <strong>et</strong> non pas sous la forme d’une inégalité. La questionde départ étant de savoir si le nouveau procédé était meilleur que l’ancien, on a comme hypothèse alternativeH 1 : µ > 1400. La fonction puissance 5.4 nous montre que la probabilité de l’événement accepter H 1 est prochede 1 pour les valeurs de µ très supérieures à 1 <strong>et</strong> proche de 0 pour les faibles valeurs de µ ; ce qui est bien ce quenous désirions.Remarque 2.3.3. Il ne faut pas confondre les hypothèses nulle H 0 <strong>et</strong> alternative H 1 avec les événements accepterH 0 <strong>et</strong> accepter H 1 . L’événement accepter H 0 est en pratique l’ensemble des valeurs de la statistique de décisionqui conclura à accepter l’hypothèse nulle H 0 . C<strong>et</strong> événement s’écrit dans notre exemple Ȳ ≤ Ȳcrit <strong>et</strong> est égale àl’intervalle ] − ∞, Ȳcrit] sur l’axe des abscisses de la figure 5.33 Principes généraux3.1 Logique générale d’un test statistiqueLe tableau suivant donne le schéma général d’un test statistique


92 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GÉNÉRAUXSituation concrète Formalisation mathématique Exemple ”ampoules”Question de départ H 0 : hypothèse nulle H 0 : µ = 1400H 1 : hypothèse alternative H 1 : µ > 1400Variable étudiéevariable aléatoire X : P −→ RX : A −→ R1 ampoule ↦−→ sa durée de vieConnaissance de départ loi de X X : N (µ, 120 2 )Collecte de données n- échantillon aléatoire Bernoullien(y 1, . . . , y n)(Y 1, . . . , Y n) : P n −→ R n(Y 1, . . . , Y 100) : A 100 −→ R 100ω = (ω 1, . . . , ω n) ↦−→ (Y 1(ω), . . . , Y n(ω))ω = (ω 1, . . . , ω n) ↦−→ (X(ω 1), . . . , X(ω n))100 ampoules ↦−→ (durée de vie del’ampoule 1,..,durée de vie del’ampoule 100)Calcul de S obs =S(y 1, . . . , y n)Statistique de décisionP n (Y 1 ,...,Yn) −→ R n S −→ RȲ : A 100 −→ R100 ampoules ↦−→ moyenne desdurées de viedes 100 ampoules(a 1, . . . , a n) ↦−→ 1 (X(a1) + · · · + X(an))nM : R 100 −→ R(y 1, . . . , y 100) ↦−→ ȳ = 1 X100y i100i=1Règle de décision. Onse donne α le risque depremière espèce. On endéduit la zone de rej<strong>et</strong> del’hypothèse nulleSi H 0 est vraie alors S suit une loi connue. α étant fixé1202on en déduit la zone de rej<strong>et</strong> de l’hypothèse nulle. Si H 0 est vraie alors Ȳ suit une loi N (1400,100 ) αétant fixé, on en déduit Ȳcrit telle que P (Ȳ > Ȳcrit) =α. On en déduit alors la règle de décisionRemarque 3.1.1. Le choix de la statistique S peut paraître parfois mystérieux. Il est, bien évidemment, en liendirect avec le problème. C<strong>et</strong>te statistique est souvent une ”distance” entre les données <strong>et</strong> l’hypothèse nulle. SiS obs = S(y 1 , . . . , y n ) est grand alors il y a peu de chance que les données viennent d’une population où l’hypothèsenulle est vraie, si S obs est faible on ne peut pas rej<strong>et</strong>er l’hypothèse nulle.(i) C’est dans la démonstration du calcul de la loi de la statistique S qu’interviennent les hypothèses sur la loide X <strong>et</strong> le fait que (Y 1 , . . . , Y n ) soit un échantillon Bernoullien. Le terme hypothèse étant déjà utilisé pourles hypothèses nulle H 0 <strong>et</strong> alternative H 1 nous utiliserons ici le terme de postulats 1 .(ii) Lorsque (Y 1 , . . . , Y n ) est un n-échantillon Bernoullien, les (Y i ) i=1,··· ,n sont indépendantes <strong>et</strong> de même loi queX. Ce sont ces dernières propriétés qui interviennent dans la démonstration de la loi de la statistique S <strong>et</strong>nous écrirons souvent dans les postulats : (Y i ) i=1,··· ,n i.i.d. pour indépendantes <strong>et</strong> identiquement distribuées.(iii) Dans la construction d’un test c’est le risque de première espèce α qui joue un rôle particulier. La symétrieentre les deux risques est de fait rompue.(iv) Lorsque nous acceptons l’hypothèse nulle, le risque de faire une erreur est le risque de deuxième espèce. Nousdirons cependant que l’on accepte l’hypothèse nulle au risque α. Ceci est dû au fait que c’est le risque depremière expèce qui perm<strong>et</strong> de construire la règle de décision <strong>et</strong> qu’en pratique le risque de deuxième espècedépend de l’hypothèse alternative qui n’est jamais complètement définie.Nous présenterons un test statistique de la façon suivante.(i) Définition du problème :(a) question de départ ;(b) définition des populations, variables aléatoires ;(c) hypothèses nulle <strong>et</strong> alternative ;(d) description des données.1 Il y a en anglais deux termes pour hypothèse : asumption <strong>et</strong> hypothesis.


3. PRINCIPES GÉNÉRAUX 93(ii) Description du test :(a) postulats ;(b) statistique utilisée (variable de décision).(iii) Mode opératoire.3.2 DéfinitionsDéfinition 3.2.1 (Risques de première <strong>et</strong> de deuxième espèce, puissance). On appelle risque de première espèce<strong>et</strong> on note α la probabilité de l’événement rej<strong>et</strong>er l’hypothèse nulle quand elle est vraie :α = Probabilité de l’événement rej<strong>et</strong>er H 0 quand H 0 est vraie= P H0 (rej<strong>et</strong>er H 0 )On appelle risque de deuxième espèce <strong>et</strong> on note β la probabilité de l’événement accepter l’hypothèse nullequand elle est fausse :β = Probabilité de l’événement accepter H 0 quand H 0 est fausse= P H1 (accepter H 0 )On appelle puissance la probabilité de l’événement accepter l’hypothèse alternative quand elle est vraie :1 − β = Probabilité de lévénement accepter H 1 quand H 1 est vraie= P H1 (accepter H 1 )On peut résumer ces définitions par le tableau suivant :Décision : réalité H 0 H 1H 0 1 − α βH 1 α 1 − βRemarque 3.2.2. (i) Le risque de première espèce est aussi la probabilité de conclure à une différence quin’existe pas en réalité.(ii) Le risque de deuxième espèce est aussi la probabilité de ne pas déceler une différence qui existe.(iii) La puissance du test est la probabilité de déceler une différence qui existe. C’est un critère de précision, dequalité d’un test.Définition 3.2.3 (Test unilatéral, test bilatéral). Un test est dit unilatéral si sa zone de rej<strong>et</strong>, c’est-à-direlévénement accepter H 1 , est continue. Il est dit bilatéral si elle est en deux morceaux.Exemple 3.2.4. Dans l’exemple introductif il n’y avait qu’une seule zone de rej<strong>et</strong> <strong>et</strong> l’hypothèse alternative étaitH 1 : µ > 1400. Nous avions donc un test unilatéral. Si on désirait comparer 2 procédés de fabrication pour savoirlequel des 2 était le meilleur nous aurions écrit l’hypothèse alternative de la façon suivante : H 1 : µ < 1400 ouµ > 1400. Nous aurions alors eu 2 zones de rej<strong>et</strong>. Le test aurait été bilatéral.Définition 3.2.5 (test non paramétrique). On appelle test non paramétrique tout test où dans les postulats iln’est pas fait mention de lois. Le test est dit paramétrique dans le cas contraire.Remarque 3.2.6. Dans un test paramétrique les hypothèses nulles <strong>et</strong> alternative s’expriment par des relations surdes valeurs de paramètres, d’où la terminologie. En anglais on parle de ”distribution free test” ce qui est à notreavis plus clair.Exemple 3.2.7. Dans l’exemple introductif le test est un test paramétrique.Exemple 3.2.8. Si on désire tester l’hypothèse nulle H 0 : le caractère suit une loi de poisson ; le test sera un testnon paramétrique.Définition 3.2.9 (Robustesse). Un test est dit robuste s’il est ”peu” sensibles à la loi de distribution du caractèreétudié.Remarque 3.2.10. Nous aurons parfois le choix entre plusieurs tests pour une question donnée. Nous choisironsen pratique parmi ceux qui vérifient les postulats celui qui aura la puissance la plus forte.


94 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GÉNÉRAUX4 Test bilatéral4.1 Puissance d’un test bilatéralExemple 4.1.1. 2 Un ach<strong>et</strong>eur souhaite acquérir un lot de dindes. Ces dindes doivent avoir un poids moyen de6.5kg <strong>et</strong> l’ach<strong>et</strong>eur désire que le poids moyen ne soit ni trop faible ni trop élevé. Un vendeur est candidat pour cemarché qui doit porter sur 60 000 dindes. Afin de s’assurer que la spécification imposée est bien vérifiée, l’ach<strong>et</strong>eurva prélever un échantillon simple <strong>et</strong> aléatoire de 64 animaux qu’il pèse. Des résultats antérieurs perm<strong>et</strong>tent depenser que le poids suit une loi normale <strong>et</strong> on adm<strong>et</strong>tra que l’écart-type est connu <strong>et</strong> est σ = 2 kg. Nous allons icidonner la règle de décision puis la fonction de puissance de ce test. Formalisons tout d’abord c<strong>et</strong>te expérience. Lecaractère de départ est ici :X : P −→ R1 dinde ↦−→ son poids.A chaque lot de 64 animaux l’ach<strong>et</strong>eur obtiendra 64 poids y 1 , y 2 , . . . y 64 . La taille des échantillons (n = 64) étantfaible par rapport à la taille de la population P (N = 60000), on peut approximer l’échantillonnage sans remisepar un échantillonnage avec remise. On peut donc définir le n-échantillons Bernoullien :Y = (Y 1 , . . . , Y 64 ) : P 64 −→ R 641 lot de 64 dindes ↦−→ (y 1 , y 2 , . . . y 64 )L’énoncé nous dit que nous avons les postulats suivants :– (Y i ) i.i.d.– Y i de loi N (µ, σ 2 ) avec σ 2 = 4Les hypothèses nulle <strong>et</strong> alternative sont :– H 0 : µ = 6.5 ;– H 1 : µ ≠ 6.5 (µ < 6.5 ou µ > 6.5).Il s’agit donc d’un test bilatéral.La statistique utilisée sera : M(Y ) = Ȳ = 1 ∑ 6464 i=1 Y i.Si l’hypothèse nulle est vraie alors Ȳ suit une loi normale N (6.5, 0.0625). Nous rej<strong>et</strong>terons l’hypothèse nullesi la valeur de la variable aléatoire Ȳ sur l’échantillon Ȳobs = M(y 1 , . . . , y n ) est très grande ou très p<strong>et</strong>ite. Nousaurons ici deux zones de rej<strong>et</strong>.Nous avons doncP H0 (m 1 ≤ Ȳ ≤ m 2) = 1 − α.Par suite si nous prenons le même risque à droite <strong>et</strong> à gauche nous aurons :P H0 (m 1 < Ȳ ) = 1 − α/2,P H0 (Ȳ < m 2) = 1 − α/2.Soit si nous prenons α = 0.05P H0⎛⎝ m 1 − 6.50.25< Ȳ √− µσ 2n⎞⎠ = 0.975(P H0 Ȳ < m )2 − 6.5= 0.9750.25D’où⎧⎪⎨⎪⎩m 1 − 6.5= −1.960.25m 2 − 6.5= 1.960.25⇒{m1 = 6.01m 2 = 6.99La règle de décision est donc :– Si Ȳobs = M(y 1 , . . . , y 64 ) ∈ [6.01; 6.99] alors on accepte l’hypothèse nulle d’égalité de la moyenne à 6.5 kg aurisque α de 5%2 Données provenant du <strong>cours</strong> de biométrie de l’INAPG de R. Tomassone, juill<strong>et</strong> 1986, chapitre 5 page 34.


4. TEST BILATÉRAL 95µ 5.25 5.50 5.75 6.00 6.25 6.50 6.75 7.00 7.25 7.50 7.756.01 − µ3.04 2.04 1.04 0.04 -0.96 -1.96 -2.96 -3.96 -4.96 -5.96 -6.960.256.99 − µ6.96 5.96 4.96 3.96 2.96 1.96 0.96 -0.04 -1.04 -2.04 -3.04( 0.25 ) 6.01 − µφ1.00 0.98 0.85 0.52 0.17 0.02 0.00 0.00 0.00 0.00 0.00( 0.25 ) 6.99 − µφ1.00 1.00 1.00 1.00 1.00 0.98 0.83 0.48 0.15 0.02 0.000.25β(µ) 0.00 0.02 0.15 0.48 0.83 0.95 0.83 0.48 0.15 0.02 0.00P uis(µ) 1.00 0.98 0.85 0.52 0.17 0.05 0.17 0.52 0.85 0.98 1.00Tab. 5.3 – Risque β <strong>et</strong> puissance en fonction de la moyenne µ– Si Ȳobs = M(y 1 , . . . , y 64 ) /∈ [6.01; 6.99] alors on rej<strong>et</strong>te l’hypothèse nulle d’égalité de la moyenne à 6.5 kg aurisque α de 5%Calculons maintenant la puissance de ce test en fonction de µ.Si H 1 est vraie alors Ȳ suit une loi normale N (µ, 0.0625)Nous avons donc :P uis(µ) = 1 − β(µ) = ⎛1 − P H1 (m 1 ≤ Ȳ ≤ m 2) ⎞= 1 − P H1⎝ m 1 − µ≤ Ȳ √− µ ≤ m 2 − µ⎠0.25σ 2 0.25( ) n( )m2 − µ m1 − µ= 1 − φ+ φ0.250.25Le tableau 5.3 <strong>et</strong> le graphique 5.5 donnent les résultats pour diférentes valeurs de µ1Exemple de puissance pour un test bilatéral0.90.80.7Puissance0.60.50.40.30.20.105 5.5 6 6.5 7 7.5 8muFig. 5.5 – Puissance d’un test bilatéral : exemple ”dindes” α = 0.05, n = 64.4.2 Puissance <strong>et</strong> paramètres α, σ 2 <strong>et</strong> nComme nous l’avons vu sur les deux exemples traités dans ce chapitre, la puissance dépend de la vraie valeurdu paramètre µ. Mais elle dépend aussi du risque de première espèce, de la variance <strong>et</strong> du nombre de mesures.Nous allons maintenant voir sur le deuxième exemple des ”dindes comment évolue c<strong>et</strong>te puissance en fonction dechacun de ces trois paramètres (les 2 autres restant fixes).Puissance <strong>et</strong> risque de première espèceComme le montre le graphique (5.3) plus le risque de première espèce augmente, plus la zone d’acceptation del’hypothèse nulle diminue <strong>et</strong> donc plus le risque de deuxième espèce diminu. Par suite la puissance augmente. Legraphique (5.6) donne la puissance P uis(µ) pour différente valeur du risque de première espèce.


96 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GÉNÉRAUX10.90.80.7Puissance0.60.50.40.30.20.104.5 5 5.5 6 6.5 7 7.5 8 8.5muFig. 5.6 – Puissance, exemple des ”dindes” pour α = 0.0001, 0.01, 05 <strong>et</strong> 0.1 (σ 2 = 4 <strong>et</strong> n = 64).Puissance <strong>et</strong> variancePlus la variance est faible, plus la puissance est grande. Ce résultat est logique. En eff<strong>et</strong> plus nous auronsune variabilité faible, plus facile sera la mise en évidence d’une différence qui existe. Le graphique (5.7) donne lescourbes de puissance pour différentes valeurs de la variance.10.90.80.7Puissance0.60.50.40.30.20.104.5 5 5.5 6 6.5 7 7.5 8 8.5muFig. 5.7 – Puissance, exemple des ”dindes” pour σ 2 = 2, 4, 6 <strong>et</strong> 8 (α = 0.05 <strong>et</strong> n = 64).Puissance <strong>et</strong> nombre de donnéesLe nombre de données n intervient, pour un risque α fixé, dans le calcul de la valeur critique <strong>et</strong> dans le calculσ2de la puissance. En eff<strong>et</strong> la variance de la statistique Ȳ est égale à . Par suite plus le nombre de données serangrand plus la variance de Ȳ sera faible <strong>et</strong> plus la puissance sera forte. L’influence du nombre de données est inversede celle de la variance des données. Le graphique (5.8) donne les courbes de puissance pour différentes valeurs den.10.90.80.7Puissance0.60.50.40.30.20.104.5 5 5.5 6 6.5 7 7.5 8 8.5muFig. 5.8 – Puissance, exemple des ”dindes” pour n = 50, 100, 150 <strong>et</strong> 200 (α = 0.05 <strong>et</strong> σ 2 = 4).


5. CONCLUSION 974.3 Tests multiplesSur l’exemple précédent des ”dindes” on définit le test T suivant :(i) On réalise le test unilatéral à droite T d avec un risque α suivant :– H 0 : µ = 6.5– H 1 : µ > 6.5On réalise le test unilatéral à gauche T g avec un risque α suivant :– H 0 : µ = 6.5– H 1 : µ < 6.5(ii) On réalise alors le test global suivant :– H 0 : µ = 6.5– H 1 : µ ≠ 6.5où on rej<strong>et</strong>te l’hypothèse nulle si <strong>et</strong> seulement si on a rej<strong>et</strong>té l’hypothèse nulle du test unilatéral à droiteT d ou du test unilatéral à gauche T g .Le test T est alors un test bilatéral mais attention avec un risque de première espèce de 2α. Le fait de réaliserdes tests multiples avec une même finalité sur un même ensemble de données augmente implicitement de risque depremière espèce.5 Conclusion5.1 Présentation <strong>et</strong> conclusion d’un testNous tenons ici à rappeler que la première chose à faire lorsque l’on a des données est de les visualiser à l’aidedes outils de la statistique descriptive. Ceci perm<strong>et</strong>, en particulier de visualiser la variabilité de la variable étudiée.La réalisation pratique d’un test comprendra donc :(i) la définition de la question posée ;(ii) la méthode de collecte des données ;(iii) la visualisation des données ;(iv) le choix du test statistique ;(v) la réalisation des calculs ;(vi) la conclusion.5.2 Risque de troisième espèceNous reprenons ci-dessous le texte de l’introduction du livre ”Techniques statistiques moyens rationnels de choix<strong>et</strong> de décision de Georges Parreins paru aux éditions Dunod en 1974 page v <strong>et</strong> vi de l’introduction”Citons un exemple, paraît-il authentique, mais même s’il n’ l’est pas nous pensons qu’il restera présent à l’espritdes lecteurs <strong>et</strong> nous souhaitons dans tous les cas ne rapeller aucun mauvais souvenir aux lectrices de ce livre. Afinde prouver la nécessité d’avoir un médecin au moment d’un accouchement, on questionna des mamans : pour 50accouchements avec médecin on constata 4 complications, ce nombre était de 3 pour un groupe de même importancequi avait accouché sans le se<strong>cours</strong> d’un praticien.Ce résultat déplut aux organisateurs de l’enquête, ils la soumirent à un statisticien, qui très rapidement déclaraque ces résultats n’étaient pas significatifs <strong>et</strong> que pour une conclusion sérieuse il faudrait opérer sur des effectifsbeaucoup plus importants. On recueillit donc des observations. Sur deux séries de 500 accouchements on trouva 47complications dans le premier groupe – avec médecins – <strong>et</strong> 19 dans l’autre. Le même statisticien déclara que dansce cas les résultats étaient hautement significatifs : on pouvait affirmer avec un risque très faible de se tromper– de l’ordre de 1 sur dix mille – qu’il y avait beaucoup moins de complications en l’absence de médecin. Devantce résultat quelque peu inquiétant, notre statisticien étudia les modalités de l’échantillonnage : l’enquête avait étéfaite à la campagne, on appelait surtout le médecin quand la venue au monde du nouveau bébé se présentait mal. Ilest à peu près évident que si on avait obtenu les résultats inverses, personne ne se serait posé de questions <strong>et</strong> celaaurait constitué une lourde faute. Les expérimentateurs doivent toujours concerver le même esprit critique, devantles résultats quels qu’il soient <strong>et</strong> ne pas se demander comment les observations ont été faites uniquement quand onarrive à un résultat déplaisant.Relisons Claude Bernard ”l’expérimentateur doit toujours douter, fuir les idées fixes <strong>et</strong> garder toujours sa libertéd’esprit”Il faut bien comprendre, qu’il est en général possible de faire dire aux statistiques tout – <strong>et</strong> uniquement – ceque l’on désire, sous réserve d’éviter de dire comment elles ont été établies. C’est par ce biais que s’explique les


98 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GÉNÉRAUXcritiques – très justifiées – souvent adressées à ces techniques. Les échantillons non significatifs, c’est-à-dire malprélévés, sont la cause d’un grand nombre de conclusion erronées.L’erreur qui a été faite dans c<strong>et</strong> exemple concerne la définition des populations. Il s’agit au fond de la mêmeerreur lorsque l’on dit que le lit est plus dangereux que l’automobile car il est prouvé statistiquement que l’onmeurt plus souvent dans un lit que dans une automobile. C<strong>et</strong>te dernière assertion est tout-à-fait exacte, mais laconclusion est bien évidemment fausse. Le ”lit” n’est pas la cause de déces, mais lorsque l’on est gravement malade,on est souvent alité. Il s’agit là de ce que nous appellerons du risque de troisième espèce qui est de nature trèsdifférente des risques de première <strong>et</strong> de deuxième espèce ; mais on aurait tord de penser qu’il est le moins grave.Ce risque sera évité le plus souvent par le bon sens, encore faut-il se poser les bonnes questions.


6. EXERCICES 996 Exercices6.1 Exercices avec corrigésExercice 6.1.1. 3On sait que les conditions habituelles d’élevage de bovins conduisent à un poids moyen à un âge donné de 300kg avec un écart type de 24 kg. On suppose que le poids suit une loi normale. On envisage un nouveau régime <strong>et</strong>on désire savoir si ce régime est meilleur que l’ancien. Pour cela on teste ce régime sur 64 animaux. On supposeque ni la loi de la variable aléatoire, ni sa variance σ 2 ne sont modifiées par le nouveau régime.(i) Définissez les variables aléatoires X 0 ”poids ancien régime” <strong>et</strong> X ”poids nouveau régime”.(ii) On suppose que les populations étudiées sont de très grandes tailles <strong>et</strong> on peut donc considérer le 64-échantillonBernoullienY = (Y 1 , . . . , Y n ) : P 64 −→ R 64b = (b 1 , . . . , b 64 ) ↦−→ Y (b) = (X(b 1 ), . . . , X(b 64 )).On considère la statistique MM : R 64 −→ R(y 1 , . . . , y 64 ) ↦−→ ȳ = 1 64<strong>et</strong> on définit Ȳ = M(Y ). Quelle loi suit la variable aléatoire Ȳ .(iii) Quel test peut-on effectuer ? On précisera :– l’hypothèse nulle H 0 .– s’il s’agit d’un test unilatéral ou bilatéral, on précisera l’hypothèse alternative H 1 .(iv) On prend comme risque de première espèce α = 0, 05.(a) Donner la règle de décision du test.(b) Calculer la puissance de ce test en fonction de la vraie valeur de la moyenne µ pourµ = 280; 290; 295; 297.5; 300; 302.5; 305; 307.5; 310; 320 <strong>et</strong> tracer c<strong>et</strong>te fonction.(c) Quelle information vous donne la puissance si la vraie valeur de µ est 307.5 ?correction.(i) On considère P (respectivement P 0 ) la population des bovins nourris avec le nouveau régime (respectivementavec l’ancien régime). Les variables aléatoires X <strong>et</strong> X 0 sont alorsX : P −→ R64∑i=11 bovin ↦−→ son poidsX 0 : P 0 −→ R1 bovin ↦−→ son poids(ii) Ȳ suit une loi normale N (µ, 242 /64), où µ est l’espérance mathématique de X.(iii) – H 0 : µ = 300 ;– H 1 : µ > 300.Le test est unilatéral à droite car on désire savoir si le nouveau régime est meilleur que l’ancien.(iv) (a)α = P H0 (rej<strong>et</strong>er H 0 )y i .= P H0 (Ȳ (Ȳ > Ȳcrit))− 300= P H0 > Ȳcrit − 30033(Ȳ ) − 300⇒φ= 1 − α = 0.953− 300⇒Ȳcrit = 1.6453⇒Ȳcrit = 304.9353 Données provenant du <strong>cours</strong> de biométrie de l’INAPG de R. Tomassone, juill<strong>et</strong> 1986, chapitre 5 page 36.


100 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GÉNÉRAUX(b) Le risque de deuxième espèce β estβ = P H1 (accepter H 0 )= P H1 (Ȳ (Ȳ < Ȳcrit))− µ= P H1 < Ȳcrit − µ3 3)(Ȳcrit − µ= φ3<strong>et</strong> la puissance est P H1 (accepter H 1 ) = 1 − β(µ). La table 5.4 donne les valeurs numériques du risquede deuxième espèce <strong>et</strong> de la puissance pour les valeurs demandées <strong>et</strong> la figure 5.9 visualise la fonctionpuissance.µ 280.0 290.0 295.0 297.5 300.0304.935−µ38.311 4.978 3.311 2.478 1.645β(µ) 1.000 1.000 0.999 0.993 0.9501 − β(µ) 0.000 0.000 0.001 0.007 0.050µ 302.5 305.0 307.5 310.0 320.0304.935−µ30.811 -0.022 -0.855 -1.689 -5.022β(µ) 0.791 0.491 0.196 0.046 0.0001 − β(µ) 0.209 0.509 0.804 0.954 1.000Tab. 5.4 – Risque de deuxième espèce <strong>et</strong> puissance10.90.80.70.6Puissance0.50.40.30.20.10290 295 300 305 310 315 320mu✷Fig. 5.9 – Fonction puissance(c) Pour µ = 307.5 l’expérience avec 64 bovins conclura que l’hypothèse alternative H 1 est vraie, c’est-à-direque le nouveau régime est meilleur que l’ancien, avec une probabilité de 0.804.Exercice 6.1.2. On désire savoir si un juge reconnaît le différence entre 2 produits A <strong>et</strong> B. Pour cela on luiprésente 3 produits dont 2 sont identiques <strong>et</strong> on lui demander de désigner celui qui est différent. On considère doncla variable aléatoire X suivante :X : Ω −→ {0, 1}1 tripl<strong>et</strong> ↦−→ 1 si le juge reconnaît le produit différent1 tripl<strong>et</strong> ↦−→ 0 si le juge ne reconnaît pas le produit différentoù Ω est l’ensemble des tripl<strong>et</strong>s possibes des deux produits A <strong>et</strong> B, deux produits étant identiques. X est unevariable aléatoire de loi de Bernoulli de paramètre p. On désire savoir si le juge répond totalement au hasard ou s’ilreconnaît le produit différent. Pour cela, on fait n fois l’expérience. On obtient alors un n-échantillon qui est une


6. EXERCICES 101observation du n-échantillon Bernoullien Y = (Y 1 , . . . , Y n ) de la variable aléatoire X. On Définit alors la variablealéatoire suivante :Z : Ω n −→ {0, 1, . . . , n}ω = (ω 1 , . . . , ω n ) ↦−→ nombre de bonnes réponses(i) On considère les hypothèses nulle <strong>et</strong> alternative suivantes :– H 0 : le juge répond totalement au hasard ;– H 1 : le juge ne répond pas totalement au hasard.Écrire les hypothèses nulle <strong>et</strong> alternative du test à l’aide du paramètre p.(ii) écrire Z = S(Y ) (on donnera S), <strong>et</strong> en déduire la loi de Z.(iii) On prend n = 25 <strong>et</strong> α = 0.05 <strong>et</strong> on donne pour p = 1/3<strong>et</strong> pour p = 2/3k 10 11 12 13 14 15 16 17 . . .Cnp k k q n−k 0.126 0.086 0.050 0.025 0.011 0.004 0.001 0.000 . . .(a) Calculer la valeur critique du test.k 13 14 15 16 17 18 19Cnp k k q n−k 0.05 0.086 0.126 0.158 0.167 0.149 0.110k 20 21 22 23 24 25Cnp k k q n−k 0.066 0.031 0.011 0.003 0.000 0.000(b) Calculer le risque de deuxième espèce <strong>et</strong> la puissance pour p = 2/3.(c) Visualiser le risque de deuxième espèce <strong>et</strong> la puissance pour p = 2/3.(d) Calculer le risque de deuxième espèce <strong>et</strong> la puissance pour p = 1/3.(e) Donner la forme de la fonction puissance en fonction de p.correction.(i) Si le juge choisi au hasard p est égal à 1/3. Si le juge ne répond pas au hasard c’est que p > 1/3 (si p < 1/3,c’est que le juge répond de façon pire que s’il répondait totalement au hasard !). Le test est donc un testunilatéral à droite. Par suite les hypothèses nulle <strong>et</strong> alternative sont– H 0 : p = 1/3 ;– H 1 : p > 1/3.(ii) S estS : R n −→ R(y 1 , . . . , y n ) ↦−→ S(y) =Donc Z = S(Y ) = ∑ i Y i. Par suite Z suit une loi binômiale de paramètre (n, p).(iii) Attention, il faut ici lorsqu’on définit les événemants accepter H 0 <strong>et</strong> accepter H 1 , bien préciser si onprend des inégalités large ou strict car la loi de la variable aléatoire de décision est discrète.On aα = P H0 (rej<strong>et</strong>er H 0 )= P H0 (Z ≥ Z crit )n∑i=1= P H0 (Z = Z crit ) + P H0 (Z = Z crit + 1) + · · · + P (Z = n)n∑=k=Z critC k np k q n−ky iLa table ci-après donne pour différentes valeurs de Z crit les valeurs de α obtenus.(a)Z crit 12 13 14 15 16 17 . . .α 0.091 0.041 0.016 0.005 0.001 0.000 . . .On en déduit que pour avoir α le plus proche de 0.05 tout en étant inférieur il faut prendre Z crit = 13.


102 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GÉNÉRAUX(b) Pour p = 2/3β =12∑k=0= 1 −P (Z = k)∑25k=13P (Z = k)= 1 − 0.05 + 0.086 + 0.126 + 0.158 + 0.167 + 0.149 + 0.110 + 0.066 + 0.031 + 0.011 + 0.003= 1 − 0.957 = 0.0430.180.16βpuissance0.140.12Loi de Z0.10.080.060.040.0200 5 10 15 20 25kFig. 5.10 – Risque de deuxième espèce <strong>et</strong> puissance(c)(d) Pour p = 1/3 on aβ = P H1 (accepter H 0 )= 1 − 0.041 = 0.93910.90.80.70.6Puissance0.50.40.30.20.100 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1pFig. 5.11 – Puissance en fonction de p✷(e)


6. EXERCICES 1036.2 Exercices avec indicationsExercice 6.2.1. 4La législation en vigueur impose aux aéroports certaines normes concernant les bruits émis par les avions audécollage <strong>et</strong> à l’atterrissage. Ainsi pour les zones habitées proches d’un aéroport, la limite tolérée se situe à environ80 décibels. Au delà de c<strong>et</strong>te limite, l’aéroport doit indemniser les riverains.Les habitants d’un village proche d’un aéroport assurent que le bruit au dessus du village atteint la valeurlimite de 80 décibels en moyenne, pour un certain type d’avions (les plus bruyants). L’aéroport affirme qu’il n’estque de 78 décibels. Des experts sont convoqués pour trancher entre les deux parties en présence. Ils adm<strong>et</strong>tent quel’intensité du bruit causé par un avion de ce type suit une loi normale d’espérance µ <strong>et</strong> de variance σ 2 = 49. Ilsenregistrent l’intensité du bruit provoqué par le passage de ces avions sur un échantillon de taille n = 100.On définit la variable aléatoire suivantes :Ȳ : P 100 = {échantillons de 100 avions} −→ ROn considère les 2 cas suivants :E 100 = (avion 1 , . . . , avion 100 ) ↦−→ moyenne des bruits des 100 avionsTest 1 les hypothèses nulle <strong>et</strong> alternative sont les suivantes :H 0 : µ = 80H 1 : µ < 80Test 2 les hypothèses nulle <strong>et</strong> alternative sont les suivantes :H 0 : µ = 78H 1 : µ > 78(i) Quelle est la loi de Ȳ ?(ii) On prend comme risque de première espèce α = 0.05. Donner la règle de décision du test 1.(iii) On suppose que µ = 78, Calculer le risque de deuxième espèce β <strong>et</strong> la puissance du test 1.(iv) On prend comme risque de première espèce α = 0.05. Donner la règle de décision du test 2.(v) On suppose que µ = 80, Calculer le risque de deuxième espèce β <strong>et</strong> la puissance du test 2.(vi) Dans le cas du test 1 on veut que le risque de première espèce soit égal au risque de deuxième espèce lorsqueµ = 78. Quelle est la règle de décision <strong>et</strong> la valeur des risques.(vii) Trouver n pour que dans le cas précédent le risque de première espèce soit égal à 0.05.(viii) Conclusion(i)Indications. Attention à la position de l’événement rej<strong>et</strong>er H 0 .(ii) Pour le Test 1 la valeur critique Ȳcrit est 78.8485.(iii) β = 0.113.(iv) Pour le Test 2 la valeur critique est Ȳcrit est 79.155(v) β = 0.113.(vi) Ȳcrit = 79.(vii) n ∼ 133.✷Exercice 6.2.2. 5La quantité d’acide nitrique (en micro-grammes) dans un mélange chimique doit être égale à 10. Cependant,des erreurs de manipulation font en sorte que c<strong>et</strong>te quantité suit une loi normale de moyenne µ <strong>et</strong> de varianceσ 2 = 0.09. On décide de tester les hypothèses H 0 : µ = 10 contre H 1 : µ ≠ 10 à l’aide de résultats d’observationsde 20 mélanges prélevés au hasard <strong>et</strong> de rej<strong>et</strong>er l’hypothèse nulle H 0 si ȳ < 9.80 ou ȳ > 10.20 où ȳ est la quantitémoyenne d’acide nitrique dans les 20 mélanges. On poseȲ : P 20 −→ R20 observations ↦−→ ȳ4 Problème provenant du livre de R. Céhessat ”Exercices commentés de statistique <strong>et</strong> informatique appliquées”. Dunod 1976, page1765 Exemple issu de l’ouvrage ”Statistique concepts <strong>et</strong> méthodes” Sabin Lessard, Monga ; PUM Masson 1993. exercice 8.25 page 311.


104 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GÉNÉRAUX✷(i) Quelle est la loi de Ȳ ;(ii) Le test sera-t-il un test unilatéral ou bilatéral ?(iii) Calculer <strong>et</strong> visualiser l’erreur de première espèce ;(iv) Calculer <strong>et</strong> visualiser l’erreur de deuxième espèce <strong>et</strong> la puissance dans les cas où µ = 9.90 <strong>et</strong> µ = 10.10 ;(v) Tracer la forme générale de la fonction de puissance en fonction de µ ;(vi) Comment évolue c<strong>et</strong>te fonction quand le nombre d’observations n augmente (le risque de première espècerestant le même).(i)(ii)Indications.(iii) α = 0.00288.(iv) β = 0.93 pour les deux valeurs de µ.6.3 Exercices sans indicationsExercice 6.3.1. 6Le poids de paqu<strong>et</strong>s de poudre de lessive, à l’issue de l’empactage, est une variable aléatoire réelle X :X : P −→ Run paqu<strong>et</strong> ↦−→ son poidsOn suppose que X suit une loi normale N (µ, σ 2 ) avec σ = 5g. Le poids marqué sur les paqu<strong>et</strong>s est 700g. Ondésire savoir si la machine de remplissage est bien réglée. Nous allons donc réaliser un test statistique. En pratiqueon prélève 10 paqu<strong>et</strong>s de lessive <strong>et</strong> on mesure le poids moyen de ces 10 paqu<strong>et</strong>s de lessive. On suppose la populationdes paqu<strong>et</strong>s de lessive est très grande, on peut donc définir la variable aléatoire suivante :Ȳ : P 10 −→ R10 paqu<strong>et</strong>s de lessive ↦−→ le poids moyenEnfin on ne veut léser ni le client, ni l’entreprise. On suppose que la variance ne bouge pas.(i) Donner les hypothèses nulles <strong>et</strong> alternatives du test. On précisera si le test est unilatéral ou bilatéral.(ii) Quelle est la loi de Ȳ .(iii) On prend un risque de première espèce de 0, 05. On a obtenu sur un échantillon une valeur du poids moyenȳ = 710, quelle sera la conclusion ?(iv) Visualiser pour µ = 705 le risque de première espèce, de deuxième espèce <strong>et</strong> la puissance du test.(v) Calculer la puissance de ce test quand µ = 690; 695; 700; 705; 710. Tracer la forme de la courbe de puissanceen fonction de µ.(vi) On veut, pour µ = 705 une puissance de 0, 99. Donner l’équation que doit vérifier n : le nombre de paqu<strong>et</strong>sde lessive qu’il faut prendre.Exercice 6.3.2. Le cahier des charge entre un semencier <strong>et</strong> un agriculteur stipule que le taux de contaminationdes semences ne doit pas dépasser 2%. Afin de s’assurer que cela est bien le cas le semencier décide de faire un teststatistique. Pour cela il prélève un lot de n semences provenant de l’agriculteur, effectue les tests biologiques surce lot <strong>et</strong> définit la procédure suivante :– Si dans le lot, il y a plus de 2% de semences contaminées alors on rej<strong>et</strong>te la production ;– Si dans le lot, il y a moins de 2% de semences contaminées alors on accepte la production.6 Exercice construit à partir de l’exercice 10 du chapitre ”théorie des tests” de ”Statistique, exercices corrigés avec rappels de <strong>cours</strong>”,J-P Lecoutre, S. Legait-Maille <strong>et</strong> P. Passi.


6. EXERCICES 105C<strong>et</strong>te expérience se formalise de la façon suivante. On définit la population P des semences produites par l’agriculteur<strong>et</strong> la variable aléatoire X de loi de Bernoulli de paramètre p.X : P −→ {0, 1}1 semence ↦−→ 1 si la semence est contaminée1 semence ↦−→ 0 si la semence n’est pas contaminéeOn suppose que la population P est de très grande taille <strong>et</strong> on définitȲ : P n −→ R1 lot de semences de taille n ↦−→ (le nombre de semences contaminées dans le lot)/n(i) On suppose que l’on peut approximer la loi de Ȳ par une loi normale. Donner les paramètres de c<strong>et</strong>te lois enfonction de p <strong>et</strong> n.(ii) On définit les deux test suivants :Test 1– H 0 : p = 0.02 ;– H 1 : p > 0.02.<strong>et</strong>Test 2– H 0 : p = 0.02 ;– H 1 : p < 0.02.(a) Donner pour ces deux tests le risque de première espèce <strong>et</strong> donner leur signification concrète.(b) On suppose que n = 1000. Calculer pour ces deux tests le risque de deuxième espèce pour p = 0.01; 0.02<strong>et</strong> 0.03.(iii) En fait le semencier veut avoir une forte probabilité de rej<strong>et</strong>er la production si le taux de contamination esteffectivement de 2% <strong>et</strong> l’agriculteur veut lui avoir une forte probabilité que sa production soit acceptée si l<strong>et</strong>aux de contamination est de 1%. On étudie pour cela le test :– H 0 : p = 0.02 ;– H 1 : p = 0.01.(a) Donner la règle de décision pour avoir α = β.(b) Calculer n pour avoir α = β = 0.05.Exercice 6.3.3. Un semencier a mis au point une variété OGM d’une plante résistante à un herbicide. Il désiresavoir si, dans des conditions de culture normales il peut y avoir transfert du gène de résistance aux plantes rudéralesà une distance donnée (1 km par exemple). Il m<strong>et</strong> en place sur le terrain l’expérimentation suivante :


106 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GÉNÉRAUXParcellederudérales✻1 km❄Parcelleém<strong>et</strong>tricede pollenOn prélève dans la parcelle ”rudérales” n graines <strong>et</strong> on réalise un test biologique sur ces graines pour savoir s’ily a eu transfert de gène. On définit la variable aléatoire suivante :X : G −→ {0, 1}1 graine ↦−→ 0 si la graine n’est pas transformée1 graine ↦−→ 1 si la graine est transforméeOn suppose que la population G est très grande <strong>et</strong> on note p la proportion dans G de graines transformées. Ondéfinit Y = (Y 1 , . . . , Y n ) le n-échantillon Bernoullien de X <strong>et</strong> on considère la statistiqueS(Y ) est alors la variable aléatoireS(Y ) : G n −→ RS : R n −→ Ry = (y 1 , y 2 , . . . , y n ) ↦−→ S(y) =g = (g 1 , g 2 , . . . , g n ) ↦−→ le nombre de graines transformées parmi les n graines(i) Quelle est la loi de la variable aléatoire X(ii) Quelle est la loi de la variable aléatoire S(Y )(iii)Écrire la variable S(Y ) comme somme de n variables aléatoires de loi de Bernoulli indépendantes.(iv) On considère le test suivant :– H 0 : il n’y a aucun transfert de gène ;– H 1 : il y a transfert de gène.avec la règle de décision suivante :– Si S(y) = 0 alors on accepte l’hypothèse nulle ;– Si S(y) > 0 alors on rej<strong>et</strong>te l’hypothèse nulle ;(a)Écrire les hypothèses nulle <strong>et</strong> alternative à l’aide du paramètre p du test.(b) Quel est le risque de première espèce α ?(c) Donner la puissance du test en fonction de n <strong>et</strong> p.n∑i=1y i


6. EXERCICES 107(d) Application numérique : n = 1000 <strong>et</strong> p = 0.001; 0.002 <strong>et</strong> 0.01.(e) Visualiser le risque de deuxième espèce <strong>et</strong> la puissance du test lorsque p = 0.002.(f) On veut une puissance de 0.95 pour p = 0.001. Calculer n.(v) En supposant que la loi de S(Y ) puisse être approximée par une loi normale donner les paramètres de c<strong>et</strong>teloi.(vi) On supposera que l’on peut approximer la loi de S(Y ) par une loi normale <strong>et</strong> on prendra n = 1000. On désireréaliser le test statistique suivant :– H 0 : p = 0.1– H 1 : p > 0.1(a) Le test est-il un test unilatéral ou bilatéral ?(b) On prend α = 0.05. Donner la règle de décision.(c) Calculer la puissance du test pour p = 0.05; 0.1; 0.11.(d) Visualiser sur un graphique les risques α, β, <strong>et</strong> la puissance pour p = 0.11.(e) Donner l’allure de la fonction puissance en fonction de p pour n fixé.


108 CHAPITRE 5. TESTS STATISTIQUES : PRINCIPES GÉNÉRAUX


Chapitre 6Estimation1 Introduction1.1 ExemplesExemple 1.1.1. 1 Le merle à plastron (Turdus torquatus) est un oiseau qui en automne erre dans les bois clairs<strong>et</strong> les buissons des montagnes, entre 1500 mètres <strong>et</strong> 2000 mètres d’altitude. En 1968, à la station ornithologiquedu Col de la Golèze située dans les Alpes à 1700 mètres d’altitude, 48 merles à plastron ont été capturés au fil<strong>et</strong>japonais durant 89 jours d’ouverture de la station. Les données de la table (6.1) ont ainsi été obtenues.Jours 1 2 . . . 88 89Nombre de merles capturés 0 2 . . . 0 1Tab. 6.1 – Données initialesLa table (6.2) donne alors la distribution des fréquences absolues des captures obtenues.Nombres de merles capturés 0 1 2 3 4 5 6Nombres de jours 56 22 9 1 0 1 0Tab. 6.2 – Tableau des fréquences absoluesLa représentation graphique du tableau des fréquences relatives associées est donc fournie par le diagramme enbâtons de la figure (6.1)0.70.60.5Fréquences relatives0.40.30.20.100 1 2 3 4 5kFig. 6.1 – Diagramme en bâtonsOn suppose que la répartition dans le temps des captures de merles est aléatoires (i.e. qu’une capture n’influencepas une autre capture). La population des merles est supposée très grande. On peut modéliser c<strong>et</strong>te expérience parla variable aléatoire suivante :1 Exemple provenant de B. Scherrer [5] page 242X : J −→ Nun jour ↦−→ nombre de merles capturés109


110 CHAPITRE 6. ESTIMATIONNous pouvons supposer que c<strong>et</strong>te variable aléatoire suit une loi de Poisson :P (X = k) = λ k! e−λQuestion : Comment à partir des résultats obtenir une estimation de ce paramètre λ ?Nous pouvons penser à différentes solutions :(i) Nous avons P (X = 0) = e −λ , nous pouvons donc penser à la formule :e −ˆλ nombre de jours où il y a eu 0 captures=nombre total de jours( ) 56ˆλ = − ln = 0.46389(ii) Nous avons aussi E(X) = λ <strong>et</strong> nous pouvons donc penser à la formule :ˆλ = ȳ = 22 + 2 × 9 + 3 + 589= 0.551= 5689(iii) Mais nous avons encore V ar(X) = λ <strong>et</strong> nous pouvons donc penser à une troisième formule :ˆλ = s 2 = 1 nn∑(y i − ȳ) 21Exemple 1.1.2. 2 Imaginons une population dans laquelle nous savons que tous les éléments ont été numérotés de 1à N, par exemple lors d’un con<strong>cours</strong>, mais nous ne connaissons pas c<strong>et</strong>te valeur. Nous extrayons de c<strong>et</strong>te populationun échantillon de taille 5 <strong>et</strong> nous relevons les 5 numéros : y 1 = 203; y 2 = 504; y 3 = 366; y 4 = 326; y 5 = 77. Laquestion est comment estimer la valeur de N à partir de ces 5 données. Là encore nous pouvons penser à plusieursformules :(i) max i=1,...,5 (y i ) ;(ii) max i=1,...,5 (y i ) + min i=1,...,5 (y i ) − 1 ;(iii) 2 × ỹ i (2 fois la médiane des données).1.2 Position du problèmeLes deux exemples ci-dessus posent le problème de savoir quelle est la ”meilleure” formule pour uneestimation. Il faut pour cela avoir un/des critères pour pouvoir choisir. Nous allons dans la section qui suit donner ladéfinition d’un problème d’estimation <strong>et</strong> définir les bonnes propriétés que doit avoir un estimateur. Nous donneronsensuite les estimateurs pour les paramètres les plus courants.2 Principes généraux2.1 Formalisme mathématique, définitionsConsidérons le problème de l’estimation d’un taux de germination d’une variété fixée dans des conditionsexpérimentales bien définies. Appelons P la population des graines supposée de taille infinie. Estimer le taux degermination c’est estimer le paramètre p de la loi de Bernoulli de la variable aléatoireX : P −→ {0, 1}une graine ↦−→ 1 si la graine germe <strong>et</strong> 0 sinonPour cela on réalise l’expérience qui consiste à prendre n graines <strong>et</strong> à les m<strong>et</strong>tre à germer. On estimera alors leparamètre p par la fréquence de graines qui auront germé dans l’échantillon. Si nous ”répétons c<strong>et</strong>te expérienceune infinité de fois”, nous définissons ainsi la variable aléatoire suivante :Ȳ : P n −→ Run échantillon de n graines ↦−→le nombre de graines qui germent dans l’échantillonn2 Exemple provenant de Tommassone [7] page 10


2. PRINCIPES GÉNÉRAUX 111C’est la théorie de l’échantillonnage (<strong>et</strong> la théorie des probabilités) qui nous perm<strong>et</strong> d’avoir des résultats sur lavariable Ȳ <strong>et</strong> en particulier sa loi. Schématiquement nous avons :G =ensemble de grainesp =taux de germinationéchantillonnage✲G n =ensemble de tous leséchantillons de taille nLoi de probabilité de ȲInformation sur l<strong>et</strong>aux de germination✛EstimationRésultats surun échantillon de taille nD’une façon générale nous aurons le schéma suivant :X : P → Rloi de X : f(x, θ)échantillonnage✲Y : P n → R nT : R n → RLoi de T (Y 1 , . . . , Y n )Informationsur la valeur de θ✛EstimationRésultats surun échantillon de taille nT (y 1 , . . . , y n )POSTULATS On supposera toujours dans la suite que l’on a un n-échantillon Bernoullien <strong>et</strong> donc que lesvariables aléatoires (Y i ) i=1,...,n sont indépendantes <strong>et</strong> de même loi. Nous écrirons alors (Y i ) i=1,...,n i.i.d 3Définition 2.1.1 (Problème d’estimation). Soit X un caractère sur une population Ω de loi f(x; θ) si X estcontinue <strong>et</strong> p(x; θ) si X est discrète. Estimer θ c’est déterminer à partir d’un échantillon (y 1 , . . . , y n ) une valeurapprochée de θ. θ s’appelle un paramètre <strong>et</strong> on notera (P e ) un problème d’estimation.3 indépendantes <strong>et</strong> identiquement distribuées


112 CHAPITRE 6. ESTIMATIONRemarque 2.1.2. La définition ci-dessus est valable que θ soit un réel ou un vecteur. Si l’on désire par exempleestimer les paramètres µ <strong>et</strong> σ pour une variable aléatoire de loi normale, on aura : θ = (θ 1 , θ 2 ) = (µ, σ) ∈ R 2 .Nous n’étudierons dans c<strong>et</strong>te section que le cas où la variable aléatoire sera à valeurs dans R <strong>et</strong> où le paramètresera un réel.Définition 2.1.3 (Estimateur – Estimation ponctuelle). Soit (P e )un problème d’estimation. On appelle estimateurtoute variable aléatoire T (Y 1 , . . . , Y n ), où (Y 1 , . . . , Y n ) est un n-échantillon aléatoire, ayant pour but d’estimer leparamètre θ. On appelle valeur estimée ou estimation ponctuelle ou estimation par point ou encore estimation laquantité ˆθ = T (y 1 , . . . , y n ) obtenue à partir d’un n-échantillon (y 1 , . . . , y n ).Définition 2.1.4 (Estimation par intervalle – Intervalle de confiance). Soit (P e ) un problème d’estimation où θest réel. On appelle estimation par intervalle ou intervalle de confiance au niveau 1 − α tout intervalle [ˆθ 1 ; ˆθ 2 ] telque la probabilité que c<strong>et</strong>te intervalle contienne la valeur du paramètre θ soit égale à 1 − α.Remarque 2.1.5. (i) L’avantage d’avoir un intervalle de confiance est que l’on a ainsi une idée de la précisionde l’estimation.(ii) Dire que l’intervalle recouvre la valeur du paramètre θ, c’est dire que θ est dans l’intervalle. Nous pouvonsdonc prendre comme définition d’un intervalle de confiance tout intervalle tel que :P (θ ∈ [ˆθ 1 ; ˆθ 2 ]) = 1 − α (6.1)Par abus de langage nous dirons que θ appartient à l’intervalle [ˆθ 1 ; ˆθ 2 ] au niveau 1−α. Il faut bien comprendreen eff<strong>et</strong> que dans l’équation ci-dessus θ est une constante (c’est ce que l’on cherche à estimer). C’est l’intervallequi est ici aléatoire. Si l’on désire par exemple avoir un intervalle de confiance d’un taux de germination, nousréaliserons concrètrement l’expérience consistant à m<strong>et</strong>tre à germer n graines. A partir des résultats de c<strong>et</strong>teexpérience, nous construirons l’intervalle de confiance du taux de germination (voir la sous section (3.3)) .Si nous réalisons une nouvelle fois c<strong>et</strong>te expérience nous obtiendrons un nouvel intervalle de confiance. C’estdonc bien c<strong>et</strong> intervalle qui varie <strong>et</strong> non pas le taux de germination qui est ce qu’il est. Par conséquent écrireθ ∈ [ˆθ 1 ; ˆθ 2 ] au niveau 1−α n’est pas très rigoureux car θ, qui est une constante soit appartient à c<strong>et</strong> intervalle,soit est hors de c<strong>et</strong> intervalle ; il ne peut y être avec une probabilité de 1 − α. La bonne formulation seraitde dire que l’intervalle [ˆθ 1 ; ˆθ 2 ] recouvre la vraie valeur du paramètre θ avec la probabilié de (1 − α). Maisl’habitude veut que l’on emploie la première formulation.Nous allons maintenant voir les propriétés que doit posséder tout ”bon” estimateur.2.2 Propriétés des estimateursLa première chose que l’on demande à un estimateur est de ne pas faire d’erreur systématique, c’est-à-dire quel’estimateur donne ”en moyenne” la bonne valeur du paramètre recherché. C’est la notion d’estimateur sans biais.Définition 2.2.1 (Estimation sans biais). Soit (P e ) un problème d’estimation. Un estimateur T est dit sans biaissi <strong>et</strong> seulement si l’espérance mathématique de T est égale à la valeur du paramètre θ cherchée :E(T ) = θDéfinition 2.2.2 (Estimation asymptotiquement sans biais). Soit (P e ) un problème d’estimation. Un estimateurT n est dit asymptotiquement sans biais si <strong>et</strong> seulement si l’espérance mathématique de T n tend vers la valeur duparamètre θ cherchée quand n tend vers +∞ :E(T n ) −→ θn −→ +∞Exemple 2.2.3. Considérons le problème de l’estimation d’une variance σ 2 dans le cas où la variable aléatoiresuit une loi normale. Soit donc (Y 1 , . . . , Y n ) un n-échantillon aléatoire Bernoullien de la variable aléatoire X donton cherche à estimer la variance. Considérons l’estimateurT (Y 1 , . . . , Y n ) = 1 nNous avons alors vu au théorème (4.4.2.1) que l’on an∑(Y i − Ȳ )2 = S 2 (Y )i=1E(T ) = E(S 2 ) = n − 1nσ2


2. PRINCIPES GÉNÉRAUX 113Par suite S 2 n’est pas un estimateur sans biais de σ 2 . Pour obtenir un estimateur sans biais il faut en fait prendre :T (Y 1 , . . . , Y n ) = 1 n∑(Y i −n − 1 Ȳ )2 = nn − 1 S2 (Y )En eff<strong>et</strong> la propriété de linéarité le l’espérance mathématique donne immédiatement :( ) nEn − 1 S2 = nn − 1 E ( S 2) = σ 2i=1Illustrons ceci par la simulation. Construisons 5000 échantillons de taille 5 de données provenant d’une loi normaleN (100, 25). Pour chacun des 5000 échantillons nous calculons la quantité SCE/n. Nous obtenons ainsi5000 réalisations de la variable aléatoire S 2 . Traçons alors l’histogramme de ces 5000 nombres. Nous obtenons ledeuxième graphique de la figure (6.2). Si maintenant pour les mêmes 5000 échantillons nous calculons les quantitésSCE/(n − 1), nous obtenons 5000 réalisations de la variable aléatoire n/(n − 1)S 2 . L’histogramme de ces 5000valeurs nous donne alors le troisième graphique de la figure (6.2).0.1Données0.05SCE/n0.080.040.060.030.040.020.020.01085 90 95 100 105 110 11500 25 900.05SCE/(n−1)0.040.030.020.0100 25 90Fig. 6.2 – Echantillonnage de S 2 <strong>et</strong> de nS 2 /(n − 1)Nous pouvons observer que la valeur moyenne obtenue pour le troisème graphique est bien la valeur de lavariance σ 2 recherchée alors que sur le deuxième elle est inférieure (la valeur est de 4/5σ 2 )Remarque 2.2.4. Nous tenons a rapeller ici que l’illustration via la simulation informatique n’est qu’une illustration.Il faudrait en fait non pas prendre 5000 échantillons, mais une infinité. Ce sont les théorèmes mathématiquesqui nous perm<strong>et</strong>tent d’affirmer que le résultat est bien exact.n−1nS 2 n’est pas un estimateur de la variance sans biais, mais il est asymptotiquement sans biais puisque E(S 2 ) =σ2 tend vers σ 2 quand n tend vers +∞.Une deuxième propriété, qui est fondamentale, que doit avoir tout ”bon” estimateur est que si l’on a suffisammentde données la valeur de la variable aléatoire soit très proche de la valeur du paramètre recherché. Ceci ce traduit parle fait que l’estimateur soit asymptotiquement sans biais <strong>et</strong> qu’il fluctue peu autour de son espérance mathématiquelorsque n est grand, c’est-à-dire que sa variance soit p<strong>et</strong>ite pour n grand. Nous débouchons ainsi sur la notiond’estimateur convergent.Définition 2.2.5 (Estimateur convergent). Soit (P e ) un problème d’estimation. Un estimateur T n est dit convergentsi <strong>et</strong> seulement si il est asymptotiquement sans biais <strong>et</strong> si sa variance tend vers 0 quand n tend vers +∞ :E(T n ) −→ θ <strong>et</strong> V ar(T n ) −→ 0n −→ +∞ n −→ +∞Exemple 2.2.6. Considérons le problème de l’estimation d’une moyenne µ. Soit donc (Y 1 , . . . , Y n ) un n-échantillonaléatoire Bernoullien de la variable aléatoire X dont on cherche à estimer la moyenne. Considérons l’estimateurT n (Y 1 , . . . , Y n ) = Ȳn = 1 n∑Y inNous savons alors que : E(Ȳn) = µ pour tout n. Par suite c<strong>et</strong> estimateur est sans biais <strong>et</strong> donc asympotiquementsans biais. Quand à la variance de c<strong>et</strong> estimateur elle est :V ar(Ȳn) = σ2nPar suite c<strong>et</strong> estimateur est un estimateur convergent.i=1


114 CHAPITRE 6. ESTIMATIONExemple 2.2.7. Supposons, pour simplifier, que X suive une loi normale. Nous avons déjà vu à l’exemple 2.2.3que n/(n − 1)S 2 est un estimateur sans biais <strong>et</strong> le théorème (4.4.2.1) nous dit que V ar(n/(n − 1)S 2 n) = 2n − 1 σ4qui donc tend vers 0 quand n tend vers +∞. Par suite n/(n − 1)S 2 est un estimateur convergent de la variance.Illustrons le phénomène grâce à la simulation. Construisons 5000 échantillons de taille 5 de données provenantd’une loi normale N (100, 25). Pour chacun des 5000 échantillons nous calculons la quantité SCE/(n − 1). Nousobtenons ainsi 5000 réalisations de la variable aléatoire n/(n − 1)S 2 . Traçons alors l’histogramme de ces 5000nombres. Nous obtenons le premier histogramme de la figure (6.3). Nous avons sur ce même graphique tracé lafonction de densité de la variable aléatoire n/(n − 1)S 2 . Les deuxième <strong>et</strong> troisième graphiques de c<strong>et</strong>te même figuresont obtenus de façon similaire mais avec n = 20 <strong>et</strong> n = 50. Nous avons sur le dernier graphique mis les fonctionsde densité théoriques. Nous observons bien ici le phénomène de convergence : plus n est grand, plus les valeurs dela variable aléatoire se concentrent autour de la vraie valeur de la variance recherchée.0.1n=50.1n=200.080.080.060.060.040.040.020.0200 25 10000 25 1000.1n=500.10.080.080.060.060.040.040.020.0200 25 10000 25 100Fig. 6.3 – Visualisation de la convergence de la statistique nS 2 /(n − 1)Nous pouvons maintenant définir un critère pour choisir entre deux estimateurs sans biais : c’est celui qui auraune dispersion minimale en terme de variance.Définition 2.2.8 (Estimateur efficace). Soit (P e ) un problème d’estimation. Un estimateur sans biais T n est ditefficace si quel que soit l’estimateur sans biais T ′ n, on a :V ar(T n ) ≤ V ar(T ′ n)Exemple 2.2.9. Considérons une variable aléatoire X de loi uniforme sur [0; 12]. La simulation obtenue avec 1000échantillons de taille n montre que la moyenne est plus efficace que la médiane (cf. la figure 6.4).0.1Données0.080.060.040.0200 2 4 6 8 10 120.4Moyennes0.4Médianes0.30.30.20.20.10.100 5 1000 5 10Fig. 6.4 – Efficacité de la moyenne par rapport à la médiane


3. ESTIMATIONS DES PRINCIPAUX PARAMÈTRES 1153 Estimations des principaux paramètres3.1 Estimation d’une varianceThéorème 3.1.1. Soit (P e ) le problème d’estimation de la variance θ = σ 2 où X est une variable aléatoire réellecontinue. Alorsnn − 1 S2 (Y ) : P n −→ Rω = (ω 1 , . . . , ω n )↦−→1n − 1n∑(X(ω i ) − Ȳ (ω))2(i) est un estimateur sans biais de σ 2 . On notera ˆσ 2 l’estimation ponctuelle.(ii) si X suit une loi normale, c’est un estimateur convergent <strong>et</strong> asymptotiquement efficace.DémonstrationLe point (i) a été vu à la section précédente <strong>et</strong> le point (ii) sera admis. ✷Théorème 3.1.2. Soit (P e ) le problème d’estimation de la variance θ = σ 2 où X est une variable aléatoire réellecontinue de loi normale alors l’intervalle de confiance au niveau (1 − α) est donné par :[]σ 2 SCE∈χ 2 ; SCE1−α/2χ 2 au niveau (1 − α)α/2Corollaire 3.1.3. Sous les mêmes hypothèses que le théorème précédent l’estimation ponctuelle de l’écart type σest ˆσ = √ˆσ 2 <strong>et</strong>, si la loi de la variable aléatoire de départ X est normale, l’estimation par intervalle est :[√ √ ]SCE SCEσ ∈χ 2 ;1−α/2χ 2 au niveau (1 − α)α/2DémonstrationCela provient du théorème (4.4.2.1) qui dit entre autre que la variable aléatoire :K(Y ) = nS2 (Y )σ 2 : P n −→ Ri=1ω = (ω 1 , . . . , ω n ) ↦−→ 1 ∑ nσ 2 (X(ω i ) − Ȳ (ω))2suit une loi du Khi-2 à ν = (n−1) degré de liberté si l’échantillon aléatoire est Bernoullien <strong>et</strong> si la variable aléatoireX suit une loi normale. Par suite, si nous définissons les valeurs de χ 2 α/2 <strong>et</strong> χ2 1−α/2 par :P (K(Y ) < χ α/2 ) = α/2 <strong>et</strong> P (K(Y ) < χ 2 1−α/2 ) = 1 − α/2i=1nous avons (cf. figure (6.5))⇔()P χ α/2 < nS2 (Y )σ 2 < χ 2 1−α/2()nS 2 (Y )P < σ 2 < nS2 (Y )χ 1−α/2 χ 2 α/2= 1 − α= 1 − αOr à partir des données nous avons une observation de la variable aléatoire nS 2 qui est donnée par la sommedes carrés des écarts SCE. D’où le résultat. ✷Exemple 3.1.4. Reprenons les données de la table 4.1 où l’on s’intéressait à la longueur de la rectrice centrale dela gélinotte huppée mâle, juvénile. On désire ici avoir une estimation de la variance. La variable aléatoire étudiéeest :X : Ω −→ Rune gélinotte ↦−→ la longueur de sa rectrice


116 CHAPITRE 6. ESTIMATION0.0450.040.0350.030.0250.020.0150.010.005α/2→← α/200 10022χ 0.025χ 0.975Fig. 6.5 – Loi du Khi-2 à ν ddlL’estimation ponctuelle de la variance est alorsˆσ 2 = SCE 1263647 − 50 × 158.862= = 1822n − 1 4949 = 37.18mm2On peut supposer ici que la loi de la variable aléatoire est une loi normale <strong>et</strong> on peut donc calculer l’intervalle deconfiance à 95% de la variance :[]SCEχ 2 ; SCE [ ]18221−α/2χ 2 =α/270.222 ; 1822= [25.95; 57.74]31.555L’intervalle de confiance de l’écart type est alors :[5.1; 7.6] au niveau 0.95Remarque 3.1.5. (i) Si la loi de départ n’est plus une loi normale, la formule n’est plus valable car la variablealéatoire K = nS2σne suit plus une loi du Khi − 2 (cf la figure 4.5).2(ii) L’intervalle de confiance n’est pas symétrique : ˆσ 2 n’est pas le milieu de l’intervalle.(iii) On démontre que l’estimation de l’écart type est biaisée mais qu’elle elle est asymptotiquement sans biais.3.2 Estimation d’une moyenneThéorème 3.2.1. Soit P e un problème d’estimation où X est une variable aléatoire continue <strong>et</strong> θ = E(X) = µ.Alors Ȳ = 1 n∑ ni=1 Y i(i) est un estimateur sans biais <strong>et</strong> convergent de µ ;(ii) est un estimateur efficace si X suit une loi normale.DémonstrationLe (i) est immédiat <strong>et</strong> a déjà été démontré dans le chapitre de la théorie de l’échantillannage. Le (ii) est admis. ✷Théorème 3.2.2 (Intervalle de confiance de la moyenne). Soit P e un problème d’estimation où X est une variablealéatoire de loi normale <strong>et</strong> θ = E(X) = µ alors l’intervalle de confiance est :(i) si la variance σ 2 est connue]σ σµ ∈[ȳ − u 1−α/2 √n ; ȳ + u 1−α/2 √nau niveau (1 − α)(ii) si la variance σ 2 n’est pas connue]ˆσ ˆσµ ∈[ȳ − t 1−α/2 √n ; ȳ + t 1−α/2 √nau niveau (1 − α)Démonstration(i) Si σ est connue alors la théorie de l’échantillonnage nous dit que la variable aléatoire Ȳ suit une loi normaleN (µ, σ2n). Nous avons donc :()σP µ − u 1−α/2 √n ≤ Ȳ ≤ µ + u σ1−α/2 √ = 1 − αn


3. ESTIMATIONS DES PRINCIPAUX PARAMÈTRES 117où u 1−α/2 est défini par P (U < u 1−α/2 ) = 1 − α/2, U étant une variable aléatoire de loi normale centrée réduite.On en déduit alors que : ()σP Ȳ − u 1−α/2 √n ≤ µ ≤ Ȳ + u σ1−α/2 √ = 1 − αnd’où le résultat.(ii) Lorsque X suit une loi normale N (µ, σ 2 ), il est toujours vrai que U = Ȳ − µ√σsuit une loi normale centréenréduite. Le problème est ici que σ est inconnue. L’idée immédiate est de remplacer σ par son estimation ˆσ. Cecinous conduit à construire le variable aléatoire suivante :T (Y ) : P n −→ Rω = (ω 1 , . . . , ω n ) ↦−→ T (ω) =Nous pouvons reécrire c<strong>et</strong>te variable aléatoire de la façon suivanteT (Y ) =Ȳ −µσ/ √ n√nS 2 (Y )σ 2 /(n − 1)Ȳ (ω) − µ√ Pni=1 (X(ωi)−Ȳ (ω))2(n−1)n= U √Z/νoù U est une variable aléatoire de loi normale centrée réduite, Z est une variable aléatoire de loi du Khi-2 àν = n − 1 degré de liberté, <strong>et</strong> ces deux variables aléatoires sont indépendantes. Par suite T suit une loi de Studentà ν = (n − 1) ddl.Par conséquent, si nous définissons t 1−α/2 par :P (T (Y ) < t 1−α/2 ) = 1 − α/2nous avons (cf. figure (6.6)) :P (−t 1−α/2 < T (Y ) < t 1−α/2 ) = 1 − α0.40.350.30.250.20.150.10.05α/2→0−4 4t 0.025t 0.975← α/2Nous en déduisons donc⇔P(P⎛Fig. 6.6 – Loi de Student à ν ddl⎝−t 1−α/2 < Ȳ − µ √S 2 (Y )n−1< t 1−α/2⎞⎠√ √S 2 (Y )S 2Ȳ − t 1−α/2n − 1 < µ < Ȳ + (Y )n − 1)= 1 − α= 1 − αNous avons à partir de nos données une observation deȲ − t 1−α/2√S 2 (Y )n − 1


118 CHAPITRE 6. ESTIMATIONqui estȳ − t 1−α/2√ˆσ2Nous avons le même type de résultat pour la deuxième borne de l’intervalle. D’où le résultat.✷Exemple 3.2.3. Reprenons les données de la table 4.1 où l’on s’intéressait à la longueur de la rectrice centralede la gélinotte huppée mâle, juvénile. Calculons l’intervalle de confiance de la moyenne. Nous supposons toujoursici que la loi de la vaviable aléatoire est normale. Nous avons obtenu à l’exemple 3.1.4 ȳ = 158.86 <strong>et</strong> ˆσ = 6.0979.Le nombre de données est n = 50, <strong>et</strong> donc ν = 49. Par suite nous avons t 0.975,ν=49 = 2.0096. Ce qui nous donnecomme intervalle de confiance à 95% :[µ ∈ 158.86 − 2.0096 × 6.0979 √ ; 158.86 − 2.0096 × 6.0979 ]√ = [157.13; 160.59] au niveau 0.9550 50Le théorème précédent nous donne les résultats théoriques lorsque la loi de la variable aléatoire X est normale,mais on sait, grâce au théorème limite central que Ȳ suit asymptotiquement une loi normale, c’est-à-dire que pourn grand, on peut approximer la loi de Ȳ par une loi normale. Il reste à savoir à partir de quand on est en droitd’utiliser c<strong>et</strong>te approximation pour ensuite obtenir des intervalles de confiance de la moyenne. Plus la loi de départsera disymétrique, plus n devra être grand. La proposition suivante donne une règle couramment utilisée.Proposition 3.2.4. Soit P e un problème d’estimation où X est une variable aléatoire continue <strong>et</strong> θ = E(X) = µalors l’intervalle de confiance est :(i) si la variance σ 2 est connue <strong>et</strong> si n > 5]σ σµ ∈[ȳ − u 1−α/2 √n ; ȳ + u 1−α/2 √nnau niveau (1 − α)(ii) si la variance σ 2 n’est pas connue <strong>et</strong> si n > 30]ˆσ ˆσµ ∈[ȳ − u 1−α/2 √n ; ȳ + u 1−α/2 √nau niveau (1 − α)Définition 3.2.5 (Erreur standard). 4 On appelle erreur standard l’estimation ponctuelle de l’écart type de lamoyenne, c’est-à-dire la quantité :ˆσ/ √ nRemarque 3.2.6. On trouvera aussi comme terminologie erreur standard de la moyenne au lieu d’erreur standard.Nous pouvons utiliser maintenant les résultats précédents pour déterminer le nombre n de mesures nécessairesafin d’obtenir une estimation avec une précision voulue. Considérons par exemple le cas où la variable aléatoire Xsuit une loi normale, alors l’intervalle de confiance au niveau (1 − α) est donné par :]ˆσ ˆσµ ∈[ȳ − t 1−α/2 √n ; ȳ + t 1−α/2 √n au niveau (1 − α)Par suite si nous posonsd = t 1−α/2ˆσ √nnous avons alorsNous en déduisons l’équation suivanteµ ∈ [ȳ − d; ȳ + d] au niveau (1 − α)n −(t1−α/2ˆσd) 2= 0 (6.2)Par suite si nous connaissons la valeur du rapport ˆσ/d, nous pouvons en déduire la valeur de n. Attention n apparaîtdeux fois dans l’équation (6.2), il est en eff<strong>et</strong> présent de façon implicite dans t 1−α/2 qui est en lien avec une loide Student à (n − 1) ddl. En pratique, pour avoir un ordre de grandeur de n on remplacera ce terme t 1−α/2 paru 1−α/2 .4 standard error en anglais


3. ESTIMATIONS DES PRINCIPAUX PARAMÈTRES 119Exemple 3.2.7. On se propose de déterminer la quantité d’olives que l’on doit prendre pour pouvoir estimer àune décimale près la teneur en huile (exprimée en pourcentage du poids frais). Comme nous n’avons au départaucune information, nous prenons, dans un premier temps 100 olives. On suppose que la variable aléatoire ”teneuren huile” suit une loi normale. Après avoir analysé celles-ci, nous avons obtenu : ȳ = 28.5% <strong>et</strong> ˆσ = 5.7%. Nousprenons α = 0.05. L’intervalle de confiance de µ au niveau 0.95 est alors de[]5.75.728.5 − t 1−α/2 √ ; 28.5 + t 1−α/2 √ = [28.5 − 1.12; 28.5 + 1.12]100 100n = 100 est donc trop p<strong>et</strong>it. Déterminons maintenant la taille de l’échantillon nécessaire. Nous conservons l’estimationde σ obtenue lors de notre première expérience <strong>et</strong> nous remplaçons t 1−α/2 par u 1−α/2 dans l’équation (6.2).Nous obtenons ainsi1.96 × 5.7d = = 0.1nsoitn ≃ 13000On vérifie a posteriori que la valeur de n est grande <strong>et</strong> donc que l’approximation de t 1−α/2 par u 1−α/2 est correcte.Si n est faible, il faut itérer pour trouver la solution de l’équation (6.2).3.3 Estimation d’une proportionThéorème 3.3.1. Soit P e un problème d’estimation où X est une variable aléatoire de loi de Bernoulli B(p) alors(i)Ȳ est un estimateur sans biais <strong>et</strong> convergent du paramètre p <strong>et</strong> l’estimation ponctuelle est donc donnée parˆp = k obsn ;(ii) si l’échantillonnage est avec remise l’intervalle de confiance au niveau (1 − α) est donné par p ∈ [p 1 ; p 2 ] oùp 1 <strong>et</strong> p 2 sont déterminés par :<strong>et</strong>P (Ȳ ≥ k obsn ) =n∑i=k obsC i np i 2(1 − p 2 ) n−i = α/2 (6.3)P (Ȳ ≤ k k obsobsn ) = ∑Cnp i i 1(1 − p 1 ) n−i = α/2 (6.4)i=1DémonstrationCela provient tout simplement de la théorie de l’échantillonnage <strong>et</strong> pour (ii) du fait que nȲ suit une loi binômiale.✷Les équations 6.3 <strong>et</strong> 6.4 sont difficiles à résoudre <strong>et</strong> on sait que l’on peut souvent en pratique approximerune loi binômiale ou hypergéométrique par une loi normale d’où la proposition suivante. Nous notons dans c<strong>et</strong>teproposition ˆσ p l’estimation de la variance de ¯X qui est données par :(i) ˆσ p 2 = ˆpˆq si l’échantillonnage est avec remise ;n − 1(ii) ˆσ p 2 = ˆpˆq N − nsi l’échantillonnage est sans remise.n − 1 NProposition 3.3.2. Soit P e un problème d’estimation où X est une variable aléatoire de loi de Bernoulli B(p). Sin est supérieur aux valeurs mentionnées dans la table 6.3 alors l’intervalle de confiance est données par[p ∈ ˆp − u 1−α/2ˆσ p − 12n ; ˆp + u 1−α/2ˆσ p + 1 ]au niveau (1 − α)2nDémonstrationPuisque l’on peut faire l’approximation par une loi normale on obtient l’intervalle en prenant l’intervalle de confianced’une moyenne. Le terme 12nest un terme de correction de non continuité [3] ✷Remarque 3.3.3. (i) Pour les valeurs de n inférieures à 100 <strong>et</strong> pour n/N < 0.1 on a construit des tablesstatistiques qu’il suffit d’aller consulter.(ii) pour les valeurs de p très proche de 0 on peut aussi utiliser l’approximation de la loi binômiale par une loi depoisson.


120 CHAPITRE 6. ESTIMATIONp n0.5 300.4 500.3 800.2 2000.1 6000.05 1400Tab. 6.3 – valeurs minimales de n en fonction de p pour pouvoir utiliser la loi normale dans le calcul de l’intervallede confiance d’une proportion(iii) Quand l’échantillonnage est sans remise, ce qui est toujours le cas en pratique ! ! !, <strong>et</strong> quand n/N > 0.1, nousdevons travailler avec la loi hypergéométrique, ce qui complique les calculs. Il faut pour répondre à la questionalors se tourner vers les logiciels spécifiques.Exemple 3.3.4. 5 A la fin de l’été <strong>et</strong> au <strong>cours</strong> de l’automne 1975, une épidémie virale provoqua la mort d’environ1000 cerfs de Virginie (Odocoileus virginianus) dans le New Jersey ([4]). L’analyse d’un échantillon de 146 victimes,dont le sexe a pu être identifié, révéla que seulement 41 mâles dont 10 faons composaient l’échantillon.Quel est l’intervalle de confiance au niveau 0.95 du pourcentage de mâles morts de c<strong>et</strong>te maladie lors del’épidémie de 1975 ?L’échantillon se compose de 146 animaux <strong>et</strong> l’estimation ponctuelle de la proportion est ˆp = 41146= 0.28 Commec<strong>et</strong>te valeur est proche de 0.3 <strong>et</strong> que l’effectif de l’échantillon n est supérieur à 80, nous pouvons utiliser l’approximationnormale. L’effectif de la population est ici environ N = 1000, doncˆσ p =√0.28 × 0.721451000 − 1461000= 0.0344par suite l’intervalle de confiance est :[p ∈ 0.28 − 1.96 × 0.034 − 1]1; 0.28 + 1.96 × 0.034 + = [0.21; 0.35]292 292au niveau (1 − α)4 Compléments4.1 Lien entre intervalle de confiance <strong>et</strong> testL’intervalle de confiance de la moyenne dans le cas où l’on connaît la variance σ 2 <strong>et</strong> où la variable aléatoire X est normale est donnée par :»–σσȳ − u 1−α/2 √n ; ȳ + u 1−α/2 √nau niveau1 − αConsidérons maintenant, toujours sous les mêmes postulats, le test bilatéral suivant :H 0 : µ = µ 0H 1 : µ ≠ µ 0Nous aurons alors»la règle de décision suivante :–σσ– si ȳ ∈ µ 0 − u 1−α/2 √n ; µ 0 + u 1−α/2 √n alors on accepte l’hypothèse nulle H 0 au risque α ;»–σσ– si ȳ ∉ µ 0 − u 1−α/2 √n ; µ 0 + u 1−α/2 √n alors on accepte l’hypothèse alternative H 1 au risque α.Ce qui est equivalent»à :–σσ– si µ 0 ∈ ȳ − u 1−α/2 √n ; ȳ + u 1−α/2 √n alors on accepte l’hypothèse nulle H 0 au risque α ;»–σσ– si µ 0 ∉ ȳ − u 1−α/2 √n ; ȳ + u 1−α/2 √n alors on accepte l’hypothèse alternative H 1 au risque α.En d’autres termes, on peut considérer l’intervalle de confiance comme l’ensemble des valeurs de la moyenne µ 0 pour lesquelles on accepteraitl’hypothèse nulle dans le test bilatéral.4.2 IllustrationSoit P e un problème d’estimation où la loi de la variable aléatoire X est continue <strong>et</strong> où θ ∈ R. Soit T un estimateur de θ.Fixons θ ′ dans R. Si nous connaissons la loi de T pour ce paramètre θ ′ , nous pouvons déterminer les valeurs h 1(θ ′ ) <strong>et</strong> h 2(θ ′ ) telles que :5 Exemple provenant de B. Scherrer [5] page 351P (T < h 1(θ ′ )) = α/2P (T < h 2(θ ′ )) = 1 − α/2


4.COMPLÉMENTS 121Nous avons ainsi défini deux fonctions h 1 <strong>et</strong> h 2. Nous avons aussiP (h 1(θ ′ ) < T < h 2(θ ′ )) = 1 − αSi maintenant nous calculons à partir d’un n-échantillon l’estimation ponctuelle ˆθ = T (y 1, . . . , y n) nous avons la relation suivante :Par conséquent nous avons bien :ˆθ ∈ [h 1(θ ′ ), h 2(θ ′ )] ⇐⇒ θ ′ ∈ [ˆθ 1; ˆθ 2] = [h −12 (ˆθ); h −11 (ˆθ)]P (θ ∈ [ˆθ 1; ˆθ 2]) = 1 − αNous r<strong>et</strong>rouvons ici la vraie signification de l’intervalle de confiance : la probabilité que l’intervalle [ˆθ 1; ˆθ 2] recouvre la vraie valeur duparamètre θ est 1 − α. C’est l’intervalle qui varie, non le paramètre θ.La figure (6.7) visualise ceciestimationsparamètresFig. 6.7 – Intervalle de confiance4.3 Estimation robustenous avons vu que pour avoir un ”bon” estimateur : estimateur sans biais, convergent <strong>et</strong> si possible efficace, nous avions souvent besoindu postulat de normalité. Or ceci n’est pas toujours le cas en pratique. On peut donc aussi rechercher des estimateurs peu sensibles à la loi deprobabilité. Un estimateur ayant c<strong>et</strong>te propriété sera appelé un estimateur robuste. Par exemple, pour une loi symétrique, la médiane est unestimateur plus robuste de E(X) que la moyenne arithmétique.Il existe un deuxième type de robustesse. Elle concerne l’insensibilité à des valeurs ”aberrantes”. La encore la médiane sera plus robusteque la moyenne arithmétique. Les qualités de robustesse <strong>et</strong> d’efficacité sont très souvent en opposition : on ne peut pas gagner sur tous lestableaux. En pratique, pour estimer une moyenne, on essaiera, à l’aide des graphiques des boîtes à moustache par exemple, de détecter lesvaleurs ”aberrantes”, puis on calculera l’estimation de E(X) par la moyenne arithmétique sur les données restantes.L’étude de la robustesse est hors de propos ici, mais il s’agit d’une propriété en pratique importante.4.4 Représentation graphiqueLa figure (6.8) montre comment nous pouvons visualiser l’intervalle de confiance de la moyenne pour l’exemple(3.2.3). Attention, certains auteurs visualisent l’intervalle [ȳ − es; ȳ + es] où es = √ ˆσnest l’erreur standard ! ! !175données175Box plot170170165165160160155Values1551501501451451401400 0.5 1 1.5 21Column NumberFig. 6.8 – Intervalle de confiance longueur de la rectrice centraleLa figure (6.10) montre quant-à elle les différents intervalles de confiance de la moyenne à 95% pour les donnéesdes longueurs d’ailes de mésanges noires selon leur âge <strong>et</strong> sexe.Remarque 4.4.1. Nous pouvons voir sur les graphiques des boîtes à moustaches qu’il y a peut-être des donnéesaberrantes. Les intervalles de confiances ont ici été calculés sur toutes les données car nous n’avions aucune informationnous perm<strong>et</strong>tant d’exclure une de ces données.


122 CHAPITRE 6. ESTIMATION68676665Longueur d’ailes en mm646362616059581 2 3 4Mâles adultes Mâles immatures Femelles adultes Femelles immaturesFig. 6.9 – Boîtes à moustaches longueurs d’ailes68676665Longueur d’ailes en mm646362616059580.5 1 1.5 2 2.5 3 3.5 4 4.5Mâles adultes Mâles immatures Femelles adultes Femelles immaturesFig. 6.10 – Données <strong>et</strong> intervalle de confiance longueurs d’ailes5 Exercices5.1 Exercices avec corrigésExercice 5.1.1. 6 Une biochimiste étudie un type de moisissure qui attaque les cultures de blé. La toxine contenuedans c<strong>et</strong>te moisissure est obtenue sous la forme d’une solution organique. On mesure la quantité de substance pargramme de solution. Sur 9 extraits on a obtenu les mesures suivantes :1.2 0.8 0.6 1.1 1.2 0.9 1.5 0.9 1.0On suppose que c<strong>et</strong>te quantité de substance suit une loi normale.(i) Calculer les estimations ponctuelles de la moyenne <strong>et</strong> de la variance ;(ii) Calculer l’intervalle de confiance à 90% de la variance ;(iii) Calculer les intervalles de confiance à 90% <strong>et</strong> à 99% de la moyenne.correction.(i) L’estimation ponctuelle de la moyenne estˆµ = ȳ = 1 (1.2 + 0.8 + · · · + 1.0) = 1.0222n(ii).n∑n∑SCE = (y i − ȳ) 2 = yi 2 − nȳ 2i=1i=1= 9.96 − 9(1.0222) 2= 0.55566 Données provenant du livre de Stephan Morgenthaler, ”Introduction à la statistique”, exercice 3 page 146


5. EXERCICES 123L’estimation ponctuelle de la variance est doncˆσ 2 = SCEn − 1 = 0.5556 = 0.06948Et l’estimation ponctuelle de l’écart type est ˆσ = √ σ 2 = 0.2635.Remarque. Suivant la précision avec lesquels on fait les calculs intermédiaires on obtiendra des résultats plusou moins différents de ceux données ici. Nous n’insisterons pas sur ce point dans la mesure ou aujourd’huiles calculs sont fait sur l’ordinateur.(iii) La loi étant supposée normale on a pour intervalle de confiance de la variance[ SCEσ 2 ∈χ 2 ; SCE ]0.95 χ 2 à 90%0.05[ 0.5556σ 2 ∈15.507 ; 0.5556 ]à 90%2.733σ 2 ∈ [0.0358; 0.2033] à 90%(iv) La loi étant supposée normale on a comme intervalle de confiance pour la moyenne]ˆσ ˆσµ ∈[ȳ − t 1−α/2 √n ; ȳ + t 1−α/2 √nau niveau 1 − αIci α = 0.1 <strong>et</strong> ν = n − 1 = 8 donc t 1−α = 1.86 <strong>et</strong>[µ ∈ 1.0222 − 1.86 0.2635 ; 1.0222 + 1.86 0.2635 ]99µ ∈[0.8588; 1.1856] à 90%.à 90%.Pour α = 0.01, on a t 1−α/2 = 3.355 <strong>et</strong> on obtientµ ∈ [0.7275; 1.3169]Remarque.– On peut constater que plus le degré de confiance est grand, plus l’intervalle est grand ; ce qui est logique.✷Exercice 5.1.2. 7 Le ministère de la construction désire connaître le nombre de garages qu’il est souhaitables deconstruire avec une H.L.M., afin que les locataires puissent y ranger leur voiture.(i) Sur 100 ménages on en a trouvé 40 qui possédaient une voiture. Donner l’intervalle de confiance à 95% de laproportion des ménages qui possèdent une voiture. On supposera que l’approximation par la loi normale estcorrecte.(ii) On suppose connu la proportion p des ménages possédant une voiture. Exprimer n le nombre de ménagesen fonction de p <strong>et</strong> de d que l’on interroger pour être sûr à 97% que l’estimation ponctuelle soit dans unintervalle [p − d; p + d]. Pour d fixé quelle est la valeur de p la plus défavorable, c’est-à-dire celle qui donne lavaleur de n la plus grande. Calculer n pour d = 0.01; 0.05 <strong>et</strong> p = 0.04(iii) On interroge 3238 ménages. On trouve parmi eux 971 possesseurs de voitures.(a) Donner l’estimation ponctuelle de la proportion p.(b) Donner l’intervalle de confiance à 99% de la proportion p.Remarque 5.1.1. Nous avons maintes fois fait l’approximation d’une loi binômiale par une loi normale. L’intérêtde c<strong>et</strong>te approximation est de perm<strong>et</strong>tre des calculs plus simple. Pour que c<strong>et</strong>te approximation soit correcte il fautque n soit suffisamment grand <strong>et</strong> que p ne soit pas trop proche de 0 ou de 1. Dans le cas où le paramètre p esttrès proche de 0 la bonne approximation pour la loi binômiale est la loi de Poisson. Le tableau ci-dessous donne leslimites de l’approximation :7 Exercice n ◦ 81 du livre de C. Labrousse ”Statistique exercices corrigés avec rappels de <strong>cours</strong>”


124 CHAPITRE 6. ESTIMATIONParamètre p Valeur minimale de npour une approximationpar la loi normale0.5 300.4 500.3 800.2 2000.1 6000.05 14000.0 poissonIl ne s’agit ici que de résultats empiriques que nous utiliserons très souvent.correction.(i) On a ˆp = 40/100 = 0.4 <strong>et</strong>ˆσ 2 p =Par suite l’intervalle de confiance de p estˆpˆq 0.4 × 0.6= = 2.4210 −3n − 1 99p ∈[ˆp − u 1−α/2ˆσ p − 1/2n; ˆp + u 1−α/2ˆσ p + 1/2n]au niveau 1 − αp ∈[0.4 − 1.96 √ 2.4210 −3 − 1/200; 0.4 + 1.96 √ 2.4210 −3 + 1/200] à 95%p ∈[0.298; 0.5015] à 95%(ii) On est ici dans la théorie de l’ échantillonnage, en eff<strong>et</strong> on suppose que l’on connaît la valeur <strong>et</strong> p <strong>et</strong> on cherchen pour que l’estimation ˆp soit suffisamment proche de p, c’est-à-dire dans un intervalle [p − d; p + d] avec uneprobabilité de 0.97. L’estimateur est ici Ȳ <strong>et</strong> on sait que l’on peut supposer que c<strong>et</strong>te variable aléatoire suitune loi normale N (p, pq/n). Par suite on aP( [ √ √ ])pqpqȲ ∈ p − u 1−α/2n ; p + u 1−α/2 = 1 − αnPar suite pour avoir P (Ȳ∈ [p − d; p + d]) = 0.97, il suffit de prendre α = 0.03 <strong>et</strong>√ pqd = u 1−α/2n( u1−α/2) 2⇔n =p(1 − p)davec ici u 1−α/2 = u 0.985 = 2.17. La fonction n(p) est donc une parabole concave (n ′′ (p) < 0) <strong>et</strong> le maximumsur [0; 1] est en 0.5 (unique point où n ′ (p) = 0). (voir la figure 6.11)12000100008000n60004000200000 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1pFig. 6.11 – n en fonction de pPour p = 0.4 <strong>et</strong> d = 0.01 on trouve n ∼ 11301 <strong>et</strong> pour p = 0.4 <strong>et</strong> d = 0.05 on trouve n ∼ 452.(iii) (a) ˆp = 971/3238 = 0.299.


5. EXERCICES 125(b) u 0.995 = 2.576 donc[√ √ ]0.299 × 0.7010.299 × 0.701p ∈ 0.299 − 2.576; 0.299 + 2.57632373237p ∈[0.28; 0.32] à 99%à 99%✷Exercice 5.1.3. 8Les sondages sont largement utilisés dans le mark<strong>et</strong>ing direct : il arrive souvent, en eff<strong>et</strong>, que l’on estime parsondage le rendement d’un fichier donné, que l’on souhaite comparer les rendements de plusieurs fichiers, ou encoreque, disposant de plusieurs fichiers, l’on souhaite estimer par sondage le rendement global de l’ensemble des fichiers.Dans c<strong>et</strong> exercice, on suppose l’existence d’un fichier de N =200 000 adresses. On note p le rendement inconnu dufichier à une offre d’abonnement à prix réduit avec calcul<strong>et</strong>te offerte en prime ; c’est donc la proportion d’individusqui s’abonneraient si l’offre était faite à tous les individus du fichiers. On prélève au hasard, sans remise, n individus.On note :– P la population des 200 000 individus ;– f = n N ;– σ 2 = pq ;– Ȳ la variable aléatoireȲ : P n −→ Rnombre d’individus qui s’abonnentn individus ↦−→nNous pouvons dans ce cas approximer la loi de la variable Ȳ par une loi normale N (p, (1−f)σ2 ). (L’échantillonnagenest sans remise <strong>et</strong> nous ne pouvons ici l’approximer par un échantillonnage avec remise).(i) On suppose que p = 0.02. Quelle taille d’échantillon doit-on prendre pour estimer p avec une précision absoluede 0.5% <strong>et</strong> un degré de confiance de 95% ;(ii) Même question pour des précisions de 0.3% <strong>et</strong> 0.1% ;(iii) Le test a porté sur 10 000 adresses, <strong>et</strong> on a noté 230 abonnements. Donner l’intervalle de confiance à 95% dep <strong>et</strong> du nombre total d’abonnements si l’offre était faite sur l’ensemble du fichier.correction.Remarque. Dans le <strong>cours</strong>, théorème 4.1.1, on dit quealors qu’ici on aV ar(Ȳ ) = N − n σ 2N − 1 n(1 − f)(1 σ2n = − n ) σ2Nn = N − nNLa bonne formule est bien sûr celle du <strong>cours</strong>, mais ici N est suffisamment grand pour confondre N <strong>et</strong> N − 1.(i) La variable de départ est iciX : P −→ {0, 1}1 individu ↦−→ 1 s’il s’abonneσ 2n1 individu ↦−→ 0 s’il ne s’abonne pasX suit une loi de Bernoulli de paramètre p <strong>et</strong> a donc pour variance pq. On cherche donc a estimer p <strong>et</strong> onnous dit que Ȳ peut être approximée par une loi normale de paramètre N (p, (1 − f)pq/n). Nous pouvonsdonc écrire√P(p − u 1−α/2 (1 − f) pq√n ≤ Ȳ ≤ p + u 1−α/2 (1 − f) pq )= 1 − αnOr ici on veut P (p − d ≤ Ȳ ≤ p + d) = 1 − α avec– p = 0.02 ;– d = 0.005 ;8 Exercice 5 page 8 de l’ouvrage ”Exercices de sondages” A.N. Dussaix <strong>et</strong> J.M. Grosbras, Ed. Economica 1992


126 CHAPITRE 6. ESTIMATION– α = 0.05.Nous pouvons maintenant exprimer n en fonction de d, N, p <strong>et</strong> α. On veut(ii) Application numériqued = u 1−α/2√ (1 − n N) pqn( ) 2 d(⇔= 1 − n ) pqu 1−α/2 N n = pqn − pqN⇔ pq ( ) dn = + pqu 1−α/2 NNpqu2 1−α/2=⇒n =Nd 2 + pqu 2 1−α/2d 0.005 0.003 0.001n 2967 8030 54702(iii) n = 10000 <strong>et</strong> ˆp = 230/10000 = 0.0230. L’intervalle de confiance est√ˆpˆqp ∈[p − u 1−α/2 (1 − f)n − 1 − 1√]2n ; p + u ˆpˆq1−α/2 (1 − f)n − 1 − 12nau niveau 1 − α. Pour le calcul on peut ici négliger le terme en 1/2n√p ∈[p − u 1−α/2 (1 − f) ˆpˆq√ ]n ; p + u 1−α/2 (1 − f) ˆpˆqn✷<strong>et</strong> on obtient comme intervalle de confiance sur le nombre d’abonnés[0.020N; 0.026N] = [4000; 5200] à 95%.5.2 Exercices avec indicationsExercice 5.2.1. 9Intervalle de confiance du coefficient de corrélation linéaireOn rappelle que le coefficient de corrélation linéaire d’un couple de variable aléatoire (X, Y ) est donné par :L’estimation ponctuelle est donnée par :ˆρ =ρ = cov(X, Y )σ(X)σ(Y )cov(x, y) SP E(x, y)= √s x s y SCE(x)SCE(y)Pour avoir un intervalle de confiance de ce coefficient de corrélation linéaire il faut que le couple de variable aléatoire(X, Y ) soit de loi normale de dimension 2. La distribution d’échantillonnage est toutefois complexe. cependant Fishera montré que la variable auxiliaire :Z = 1 ( ) 1 + R2 ln 1 − Robéissait à une loi très proche de d’une loi normale de paramètres :E(Z) = 1 ( ) 1 + ρ2 ln ; V ar(Z) = 11 − ρn − 3Aussi pour avoir un intervalle de confiance de ce coefficient de corrélation linéaire il faut :9 Exemple provenant du livre de Scherrer page 591 <strong>et</strong> suivantes


5. EXERCICES 127(i) calculer(ii) Calculer l’intervalleẑ = f(ˆρ) = 1 ( ) 1 + ˆρ2 ln ;1 − ˆρ√ √11[ẑ − u 1−α/2n − 3 ; ẑ + u 1−α/2n − 3 ](iii) Calculer à l’aide de la transformation de Fisher inverse, c’est-à dire à f −1 , les limites de l’intervalle deconfiance de ρ.ApplicationDans une étude sur la dynamique des populations naturelles de la tenthrède du pin (Diprion frut<strong>et</strong>arum) deOliveira (1972) a observé la capacité de reproduction en fonction de différentes mesures du cocon <strong>et</strong> de l’insecteadulte. La capacité de reproduction a été évaluée par le nombre y d’oocytes (œufs) matures par cocon. Parmi lesmesures prises sur le cocon figure la longueur x en millimètres de ce dernier. Les données relatives à ces observationssont les suivantes :x y x y x y8.5 60 9.5 89 9.4 738.0 27 7.8 37 8.9 689.0 72 8.8 51 7.9 297.7 41 9.5 89 8.2 288.5 66 8.8 42 8.8 478.0 46 9.0 33 8.0 469.1 57 9.4 65 9.0 559.0 99 7.8 42 8.5 479.3 85 8.6 57 8.9 858.4 48 7.8 48 8.7 729.5 86 9.1 85 8.8 678.2 47 9.7 77 8.8 609.5 93 9.0 78 8.6 538.9 45 8.5 66 8.4 608.5 55 9.0 71 9.4 329.1 79 9.2 67 8.8 698.5 61 8.8 85 9.5 988.5 77 7.8 48 9.0 588.5 77 8.7 49 8.0 438.9 43 9.0 39 8.5 648.5 56 9.3 76 8.6 707.4 25 8.5 82 9.1 3310.0 56 9.8 48 8.8 57On donne :∑i x ∑i = 603.5mmi y i = 4139œufs∑i x2 i = ∑i 5299.11mm2 y2 i = ∑271681œufs2 i x iy i = 36576.4(i) Donner l’intervalle de confiance à 99% du coefficient de corrélation linéaire.Indications. On trouve ˆρ = 0.54 <strong>et</strong> l’intervalle de confiance à 99% est [0.28; 0.73]. ✷Exercice 5.2.2. Les montants de timbres ont été relevés sur un échantillon pris au hasard de 400 paqu<strong>et</strong>s traitéspar la poste d’une zone de distribution un jour donné. On suppose que la population des paqu<strong>et</strong>s est grande <strong>et</strong> quela loi de la variable aléatoire modélisant le prix est normale. On donne ȳ = 4.70 euros <strong>et</strong> SCE = 3080(i) Donner une estimation ponctuelle ˆσ de l’écart type de la variable aléatoire prix.(ii) Pouvez-vous donner l’intervalle de confiance à 90% de c<strong>et</strong> écart type. Pour ν > 100 on peut approximer uneloi du Khi-2 par (U+√ 2ν−1) 22où U suit une loi normale centrée réduite.(iii) Donner l’intervalle de confiance à 90 % de la moyenne µ de la variable aléatoire prix.(iv) Calculer l’intervalle [ȳ − ˆσ √ n; ȳ + ˆσ √ n]. Quel niveau de confiance est associé à c<strong>et</strong> intervalle ?


128 CHAPITRE 6. ESTIMATION(v) Si on tirait 100 échantillons de 400 paqu<strong>et</strong>s indépendamment les uns des autres, <strong>et</strong> si on calculait pour chacund’eux l’intervalle de confiance à 90%, quelle proportion de ces 100 intervalles contenant effectivement la valeurinconnue de µ peut-on attendre ?(vi) Sur quelle population c<strong>et</strong>te expérience perm<strong>et</strong>-elle de conclure ?Indications.(i) ˆσ 2 = 7.72.(ii)(iii)σ 2 ∈ [6.9; 8.71] à 90%µ ∈ [4.47; 4.93] à 90%✷(iv) (1 − α) = 0.6826Exercice 5.2.3. Un économiste souhaite connaître la variabilité des revenus des habitants d’une ville donnée. Onsait, par des études antérieures, que l’on peut considérer la loi de la variable aléatoire ”revenus” est une loi lognormale. Il collecte pour son étude 100 données <strong>et</strong> obtient les estimations suivantes à partir de ces données :– ˆµ = 10000 ;– ˆσ 2 = 4000000.✷(i) Donner un intervalle de confiance à 99% de la moyenne.(ii) On désire, toujours avec un degré de confiance de 99%, une précision absolue pour l’intervalle de confianced = 100. Combien faut-il de données ?(iii) Pouvez-vous donner un intervalle de confiance à 90% de la variance ?(iv) Après avoir discuté avec l’économiste, on s’aperçoit que ces données on été obtenues en interrogeant lespersonnes dans la semaine <strong>et</strong> l’après-midi par téléphone. Quels problèmes cela pose-t-il ?Indications.(i) µ ∈ [99484.8; 100515.2] à 99%(ii) n ∼ 2654(iii) Pensez aux hypothèses.5.3 Exercices sans indicationsExercice 5.3.1. Geissler a observé dans 53680 familles ayant 8 enfants, 221023 garçons <strong>et</strong> 208417 filles.(i) Donner l’intervalle de confiance à 95% de la proportion de garçons dans la population.(ii) Commentaire.Exercice 5.3.2. 10 On a mesuré la quantité d’alcool total (mesurée en g/l) contenue dans 10 cidres doux dumarché. On suppose que la quantité d’alcool des cidres suit une loi normale de moyenne µ <strong>et</strong> d’écart-type σ. On aobtenu les valeurs suivantes :5.42, 5.55, 5.61, 5.93, 6.15, 6.20, 6.79, 7.07, 7.37.(i) Déterminer l’intervalle de confiance à 95% de la moyenne :(a) si l’on suppose que σ = 0.6g/l ;(b) si σ est inconnu.(ii) Déterminer un intervalle de confiance de σ 2 à 95%.Exercice 5.3.3. On a pesé 15 poulpes mâles pêchés au large des côtes mauritaniennes. On suppose que pour c<strong>et</strong>teespèce de poulpe, le poids suit une loi normale. On a obtenu les valeurs suivantes (en grammes) :1150, 1500, 1700, 1800, 1800, 1850, 2200, 2700, 2900, 3000, 3100, 3500, 3900, 4000, 5400(i) Donner l’intervalle de confiance de la moyenne à 95%. Donner l’amplitude de c<strong>et</strong> intervalle.10 www.cnam.fr/math/IMG/pdf/Fiche8.pdf


5. EXERCICES 129(ii) Si n désigne la taille d’un échantillon, donner l’amplitude de l’intervalle de confiance en fonction de n.(iii) On souhaite construire un intervalle de confiance de la moyenne à 95% d’une amplitude de 500g. Quelle tailled’échantillon faut-il ?Exercice 5.3.4. C<strong>et</strong> exercice est difficile. 11Un commissaire aux Comptes contrôle un stock composé de N = 2000 références d’une valeur totale V inconnue.Les documents comptables fournissent une ”valeur totale d’inventaire” de 5447560 d’Euros. On définit les deuxvariables aléatoires suivantes :X : S −→ Run article ↦−→ sa valeur comptable d’inventaireY : S −→ Run article ↦−→ sa valeur réelleOn note µ X <strong>et</strong> µ Y les espérances mathématique des variables X <strong>et</strong> Y ; <strong>et</strong> σX 2 <strong>et</strong> σ2 Y les variances des variablesX <strong>et</strong> Y .(i) Les variables aléatoires X <strong>et</strong> Y sont-elles a priori indépendantes ? (On justifiera la réponse).(ii) Le commissaire fait tirer sans remise un échantillon de n = 160 références dans le stock afin d’estimer V<strong>et</strong> ¯V (valeur comptable moyenne par référence). On obtient ȳ = 2705, 64 Euros <strong>et</strong> ˆσ y = 1527, 31 Euros. Onsuppose que l’on peut approximer la loi de Ȳ par une loi normale N (µ, (1 − n N )σ2 Yn ).(a) Donner un intervalle de confiance à 99% de µ Y .(b) Donner l’estimation ponctuelle de V <strong>et</strong> un intervalle de confiance à 99% de V .(c) Conclusion.(d) On veut une précision absolue, c’est-à-dire une demi longueur de l’intervalle de confiance, de 100 pourla moyenne µ Y . Donner le nombre d’articles qu’il faut prendre.(e) Quelle est la valeur de µ X ?(iii) On pose D = Y − X, Y d = µ X + D <strong>et</strong> Ȳd = µ X + ¯D(a) Calculer E(Ȳd) en fonction de µ Y .(b) On démontre que :V ar(Ȳd) =(1 − n ) V ar(Yd )N nOn suppose que Ȳd suit une loi normale. Dans l’échantillon on a trouvé : ¯d = 10.67 Euros <strong>et</strong> ˆσ D = 41.82Euros. Donner l’intervalle de confiance à 99% de µ Y .(c) Commentaires11 Exercice 7 de ”Exercices de sondages” A-M. Dussaix <strong>et</strong> J-M Grosbras


130 CHAPITRE 6. ESTIMATION


Bibliographie[1] Gildas Brossier and Anne-Marie Dussaix. Enquêtes <strong>et</strong> sondages. Méthodes, modèles, applications, nouvellestechnologies. Dunod, 1999. ISBN : 2 10 004023 5.[2] Donald E. Catlin. Estimation, Control, and the Discr<strong>et</strong>e Kaman Filter. Springer, 1989.[3] W.G. Cochran. Sampling Techniques. Wiley, New York, 1977.[4] P. McConnel, R. Lund, and N. Rose. The 1975 outbreak of hemorrhagic desease among white tail deer in northwestern new jersey. Transaction of the Northeast Section of the Wildlife Soc. ; Hershey, Pennsylvania, 1976.[5] Bruno Scherer. Biostatistique. Gaëtan Morin, 1984.[6] Yves Tillé. Théorie des sondages, échantillonnage <strong>et</strong> estimation en population finies. Cours <strong>et</strong> exercices corrigés.Dunod, 2001. ISBN : 2 10 005484 8.[7] R. Tomassone, C. Dervin, and J.P. Masson. BIOMÉTRIE, Modélisation de phénomènes biologiques. Masson,1993.131

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!