10.07.2015 Views

1 Objectifs 2 Introduction `a SPSS - Statistique pour sciences sociales

1 Objectifs 2 Introduction `a SPSS - Statistique pour sciences sociales

1 Objectifs 2 Introduction `a SPSS - Statistique pour sciences sociales

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

1 <strong>Objectifs</strong>Traitement statistique des données d’enquêteavec introduction à <strong>SPSS</strong>Gilbert RitschardDépartement d’économétrie, Université de Genèvegilbert.ritschard@themes.unige.chBamako, 7-11 octobre 20021. Savoir gérer (importer, exporter, recoder, transformer, filtrer) les donnéesavec <strong>SPSS</strong>.2. Analyse statistique descriptive (notion de distribution, graphiques etindicateurs statistiques)(a) analyse univariée(b) analyse bivariée3. Quelques principes de statistique inférentielle(a) Estimation ponctuelle : biais et variance(b) Intervalle de confiance et marge d’erreur(c) Principe du test statistique d’hypothèseTraitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 1Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 3PlanTraitement statistique des données d’enquêteavec introduction à <strong>SPSS</strong>Gilbert RitschardDépartement d’économétrie, Université de Genève2 <strong>Introduction</strong> à <strong>SPSS</strong><strong>SPSS</strong> (Statistical Package for the Social Sciences)Logiciel commercial <strong>pour</strong> le traitement et l’analyse statistique de données.Distribué par <strong>SPSS</strong> Inc. (http://www.spss.com ) sous forme d’un module debase et de plusieurs modules spécialisés (advanced, categories, trend, ...)1 <strong>Objectifs</strong>2 <strong>Introduction</strong> à <strong>SPSS</strong>3 Gestion des données avec <strong>SPSS</strong>4 Analyse statistique descriptive5 Éléments de statistique inférentiellehttp://mephisto.unige.chTraitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 2Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 4


Les trois fenêtresUtilisationLes opérations– saisie ou lecture des données– transformation et construction de variables– analyse statistiquepeuvent se faire– par le menu et les dialogues appropriésavantage : intuitif, rapidement opérationnel– par la syntaxeavantage : peut être mémorisée et donc réutilisée et transférée auxcollègues.Certaines options ne sont accessibles que par la syntaxe.Suggestion : utiliser le menu la première fois et sauver la syntaxe en cliquantsur PasteTraitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 5Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 7L’éditeur de donnéesExemple de dialogues : recodage d’une variable⇒ Paste génère la syntaxe :RECODE ec_txt(’celibataire’=1)(’marie’=2)(’divorce’=3)(’veuf’=4)INTO ec_rec .EXECUTE .Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 6Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 8


Éléments de syntaxeCommande : commence avec le nom de commande (GET, COMPUTE,FREQUENCY, ...), suivie des arguments et se termine par un point “.” .Sous-commandes : précédées d’un “/” (peut être omis s’il suit directement lenom de commande) et séparées des éventuels arguments par “=”.Séparateurs entre arguments : espace ou virgule.Commentaire : entre /* et */ ou ligne commençant avec * → “.” .Exemples :2.1 Trois commandes statistiques fondamentalesCommandes fondamentales <strong>pour</strong> l’exploration initiale des données :FREQUENCIES, DESCRIPTIVES, GRAPHSFREQUENCIES : tableau des fréquences de chaque valeur (+ graphique enbarres)DESCRIPTIVEs : nombre valeurs valides, minimum, maximum, moyenne,écart type, ...GET FILE= ’exemple.sav’. /* lecture du fichier exemple.sav */* ceci est un commentaire.FREQUENCYVARIABLES = ec_rec anaiss /* distribution empirique *//ORDER= ANALYSIS /* des variables ec_rec et anaiss *//BARCHART .Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 9Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 11Cas et variablesDialogue FREQUENCIES et syntaxeDans <strong>SPSS</strong> : données organisées sous forme de tableau– Lignes : Cas– Colonnes : VariablesNoms de variables (entêtes de colonnes) : au plus 8 caractères (pas d’espace)dont le premier doit être une lettre (ou @,# ou $).Les lignes sont numérotées. Il peut être utile de définir une variable (colonne)“identificateur” prenant une valeur différente <strong>pour</strong> chaque cas.Remarque : <strong>SPSS</strong> permet de construire facilement des variables parcombinaison de colonnes (combinaison d’éléments d’une même ligne).Les transformations nécessitant des fonctions d’éléments d’une même colonne(retrancher la moyenne par exemple) requièrent des opérations avancées avecMATRIX que nous ne traitons pas ici.FREQUENCIESVARIABLES=catage/BARCHART FREQ/ORDER= ANALYSIS .Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 10Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 12


FREQUENCIESexempleValid123Totalclasse d'ageCumulativeFrequency Percent Valid Percent Percent32 32.0 32.0 32.033 33.0 33.0 65.035 35.0 35.0 100.0100 100.0 100.0403020classe d'ageGRAPHS : divers graphiques :– Données catégorielles : barres (bars), circulaire (pie)– Données ordinales : lines, surfaces (area), boxplot– Données quantitatives : histogrammes (histogram),dispersion (scatterplot)Frequency100123classe d'ageTraitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 13Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 15DESCRIPTIVES : exempleGRAPHS/BAR : exempleNUMÉROSEXEclasse d'ageINSTRUCTprofession du pèreNUMEROSEXclasse d'ageETUDEprofession du pèreValid N (listwise)Descriptive StatisticsN Minimum Maximum Mean Std. Deviation100 102 1101 160.50 99.205100 1 3 1.58 .516100 1 3 2.03 .822100 1 2 1.38 .488100 1 4 3.02 .864100 101 200 150.50 29.011100 1 2 1.56 .499100 1 3 2.01 .823100 1 2 1.38 .488100 1 4 3.05 .869100CountClasses d'âge35.535.034.534.033.533.032.532.031.5123classe d'age!! Observer l'échelle !!Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 14Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 16


GRAPHS/PIE : exempleAGE3Classes d'âge3.1 Définition des variables et entrées des donnéesÉchelles de mesure des variables– nominale– dichotomique, binaire : Homme/Femme, Oui/Non, ...– polytomique : Activité, Avec qui ?, Où ?, ...AGE1– ordinaleSouhaitiez-vous cette grossesse : a) à ce moment, b) plus tard, c) non– quantitative (métrique) de type intervalleTempérature, A quelle heure de la journée ?, ...– quantitative (métrique) de type ratioÂge, Depuis combien de temps ?, ...AGE2<strong>SPSS</strong> distingue : nominal, ordinal, scale (=métrique)Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 17Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 193 Gestion des données avec <strong>SPSS</strong>1. Définition des variables et entrées des données2. Pré-traitement des données(a) Codage de données(b) Tests de cohérence de données(c) Filtre et sélection de variables(d) Données manquantes3. Exportation et importation de fichiers4. Agrégation et fusion de fichiersDéfinition d’une variable : (éditeur de données, page 6)Nom (Name) obligatoire, 8 caractères au maximumType : numérique (par défaut), date, monétaire, texteWidth : nombre maximal de caractères des valeurs (8 par défaut)Decimals : nombre de décimales (par défaut 2 ou 0 selon type)Label : description longue de la variableValues : description des valeurs (vivement conseillé <strong>pour</strong> variables nominales)Columns : Largeur affichée de la colonne (8 par défaut)Align (Alignement) : Left (à gauche), center (centré), right (à droite)Measure : Nominal, ordinal, scale (par défaut)Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 18Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 20


3.2 Codage de données3.2.1 Codage de données nominalesPrésentation de données nominales :État civiltexte (string) code étiquette (label)célibataire 1 célibatairemarié 2 mariédivorcé 3 divorcéveuf 4 veuf9 NRAttention : variable codée numériquement quantitative.Les logiciels comme <strong>SPSS</strong> requièrent souvent des données codéesnumériquement.Syntaxe de recodagesGET /FILE= ’exemple.sav’.AUTORECODEVARIABLES=ec_txt/PRINT./INTO ec_recoRECODEec_txt(’celibataire’=1) (’marie’=2) (’divorce’=3) (’veuf’=4) INTO ec_rec .VALUE LABEL ec_rec 1 ’celibataire’ 2 ’marie’ 3 ’divorce’ 4 ’veuf’ .VARIABLE LABEL ec_rec ’état-civil (ec_rec)’.FREQUENCIESVARIABLES= anaiss ec_txt ec_reco ec_rec/ORDER= ANALYSIS.Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 21Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 233.2.2 Transformation et création de variables par calculCOMPUTE nllevar = expressionIF (condition) nllevar = expressionexpression :– opération arithmétique entre variables {+, −, ∗, /, ∗∗}exemple : compute duree = fin - debut.– fonction de variables ( ABS(),RND(),SUM(),MEAN(),MAX(),MED(),...)exemple : compute max dur = max(duree1,duree2,duree3).Voir Dialogue « recode» transparent 8Autorecode : recodage automatique (selon ordre alphabétique)Met les anciennes valeurs en étiquettes (value labels).Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 22Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 24


condition : expression logique (var1 OP var2) ={true (vrai)false (faux)Menu : Transform/Compute...relations (true si vérifiée, false sinon)EQ ou =NE ou ~= ou LT ou =négation : NOT ou ~égal àpas égal àplus petit queplus petit ou égal àplus grand queplus grand ou égal àvar = 0 ⇒ if var ⇔ if false ⇒ var > 1 ⇒ NOT(var) = falseExemples :if (agefin < agedeb) erreur = 1 .if missing(annais) age = year - annais.Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 25Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 27Opérateur logique : AND et ORAND ou & (cond1 & cond2) true si cond1 et cond2 sont vraisOR ou | (cond1 | cond2) true si cond1 ou cond2 est vraiAND true false missingtrue true false missingfalse false false falseExemple :compute filter = 0.if ((age>22) and (sexe=1)) filter = 1.OR true false missingtrue true true truefalse true false missing3.3 Tests de cohérence de donnéesIl s’agit de repérer– Les valeurs interdites de variables– variable discrète : si valeur /∈ liste des valeurs autoriséesexemple : sexe (1=homme,2=femme) ⇒ repérer valeurs de sexe autreque 1 ou 2.– variable continue : si valeur < minimum ou > maximumexemple : age ([15; 30]) ⇒ repérer cas avec age30.– Les valeurs d’une variable incompatibles avec valeur prise par une autreexemple : état matrimonial = célibataire et âge du mari = 25.Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 26Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 28


*** charger les données ’demo_amiegal.sav’.get file=’demo_amiegal.sav’ .*** sauvegarder sous autre nom (’demo1.sav’).save outfile=’demo1.sav’ .** vérifier égalité entre .* numéro, sex, profper, etude, age .* numero, sexe, travpere, instruct, catage.value labelsel 0 ’toutes les variables égales’1 ’travpere profper’2 ’sexe sex’3 ’instruct etude’4 ’catage age’9 ’numéro numéro’.frequencies sel.compute sel = 0. /* valeur par défaut */if travpere profper sel = 1.if sexe sex sel = 2.if instruct etude sel = 3.if catage age sel = 4.if numéro numero sel= 9.** filtrer et lister les erreurs.compute filtre_ = 0.if sel > 0 filtre_ = 1.filter by filtre_.list numéro numero travpere profpersexe sex instruct etude catage age.filter off.Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 29Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 313.4 Filtre et sélection de variables3.5 Données manquantesPour travailler sur sous-ensemble des cas, deux possibilités :FILTER BY var rend inactifs les cas non sélectionnés (pur lesquels var=0)sans les supprimer de la base de données courante.Exemple : Distribution des femmes selon état matrimonialcompute filtre = 0.if sexe=2 filtre=1.filter by filtre.frequencies variable=etatmat.filter off.SELECT IF cond supprime de la base courante les cas ne vérifiant pas lacondition.Exemple : définir un fichier avec les femmes seulementselect if sexe=2.save outfile=’fichier_femmes.sav’.– Donnée manquante système (si pas de valeur entrée)– Donnée manquante utilisateur (si = valeur définie par utilisateur)Définir valeurs des données manquantesMISSING VALUES var1 (7,8,9).MISSING VALUES var1 (). /* supprime les valeurs manquantesdéclarées.MISSING VALUES all (999)./* déclare valeur <strong>pour</strong> toutes les variables.Fonctions de valeurs manquantes (utiliser dans expression ou condition)VALUE(var1)SYSMIS(var1)MISSING(var1)ignore le statut “missing”.= 1 si valeur manquante système, 0 sinon= 1 si valeur manquante système ou utilisateur, 0 sinon.Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 30Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 32


Gestion des données manquantes– Supprimer les cas avec données manquantes– listwise : cas avec valeur manquante dans une variable de la liste.– pairwise : lorsque le cas intervient effectivement dans un calcul.– Imputer une valeur de substitution– Imputation fondée sur la seule variable (colonne)exemples : moyenne, moyenne des cas voisins, médiane, (mode), ...RMV /age_1 = smean(age). (voir aussi dialogue)Inconvénient : réduit la dispersion.– Imputation fondée sur valeurs prises par d’autres variables (lignes).(Plus complexe, non décrit ici.).3.6 Exportation et importation de fichiersSauvegardeMenu : File/Save As...SAVE OUTFILE=’demo.sav’/DROP ec_rec.ExportationSAVE TRANSLATEOUTFILE=’demo.dat’/TYPE=TAB/MAP/REPLACE/FIELDNAMES.Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 33Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 35Menu : Transform/Replace Missing Values...Ouverture fichierMenu : File/Open/Data...GET FILE=’demo.sav’.ImportationGET DATASyntaxe lourde.Utiliser de préférence ledialogueFile/Open/Data...Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 34Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 36


Format d’échange de fichierSi l’autre logiciel lit/écrit le format <strong>SPSS</strong> (.sav), utiliser de préférence ceformat (qui optimise la taille et préserve toutes les informations : étiquettes,format des variables, ...)Sinon, les formats les plus courants d’échange sont :– tab-delimited (TAB) : colonnes séparées par des tabulateurs.– champs fixe (ASCII) : valeurs alignées en colonnes.– Excel (XLS) : lit/crée un fichier Excell’option /fieldnames met les noms de variables dans la première ligne.AgrégationMenu : Data/Aggregate...AGGREGATE/OUTFILE=’aggr.sav’/BREAK=sexe age/hcou_moy = MEAN(hcoucher)/N_BREAK=N.get file=’aggr.sav’.list all.! ! ! toutes étiquettes de variable et de valeurs sont perdues ! ! !A la lecture, il faut aussi préciser si le fichier contient les noms de variables enpremière ligne.Le type des variables est déterminé selon la valeur qui est en première ligne.Exemple : 4.5 ⇒ numérique, célibataire ⇒ string.Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 37Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 393.7 Agrégation et fusion de fichiersAgrégation : regrouper les cas selon une ou plusieurs variables (break)Exemple : selon sexe, classe d’âge, quartier.+ calculer <strong>pour</strong> chaque groupe des valeurs synthétiques des variablesretenues : SUM, MEAN, MEDIAN, MIN, MAX, N (nbre cas), ...Fusion : ajouter– les cas (lignes) d’un fichier à un autre (ADD FILES)– les variables (colonnes) d’un fichier à un autre (MATCH FILES)– mixte, mettre à jour un fichier avec données (cas et variables) d’unautre (UPDATE)Les deux derniers requièrent un identificateur (key variables) unique <strong>pour</strong>chaque cas et commun aux deux fichiers.L’exemple précédent à partir d’un fichier de 40 cas produit :SEXE AGE HCOU_MOY N_BREAK1 13 22.00 11 14 24.00 11 15 21.00 21 16 21.33 31 17 19.50 61 18 22.75 41 19 22.33 31 20 18.20 51 21 1.67 31 22 22.50 21 24 24.00 11 25 6.00 11 28 23.50 21 29 8.33 31 30 11.75 4Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 38Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 40


FusionMenu : Data/Merges FilesAdd casesADD FILES /FILE=*/FILE=’exemple2.sav’/IN=file2.VARIABLE LABELS file2’Case de exemple2.sav’.EXECUTE.ID EC_TXTANAISS EC_RECO SEXE FILE21 marie 1978 2 . 02 veuf 1970 3 . 03 celibataire 1980 1 . 04 celibataire 1988 1 . 01 marie 1978 2 1 12 veuf 1970 3 1 13 celibataire 1980 1 2 15 celibataire 1988 1 2 1UPDATE (seulement par syntaxe)UPDATE FILE=’exemple.sav’/IN= updated/FILE= ’exemple2.sav’/BY id .EXECUTE.list all.produit :ID EC_TXTANAISS EC_RECO SEXE UPDATED1 marie 1978 2 1 12 veuf 1970 3 1 13 celibataire 1980 1 2 14 celibataire 1988 1 . 15 celibataire 1988 1 2 0Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 41Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 43FusionMenu : Data/Merges FilesAdd VariablesMATCH FILES /FILE=*/FILE=’exemple2.sav’/RENAME(anaiss ec_reco ec_txt= d0 d1 d2)/IN=file2/BY id/DROP= d0 d1 d2.EXECUTE.ID EC_TXTANAISS EC_RECO SEXE FILE21 marie 1978 2 1 12 veuf 1970 3 1 13 celibataire 1980 1 2 14 celibataire 1988 1 . 05 . . 2 14 Analyse statistique descriptiveDonnées univariées1. Tableau de distribution2. Présentations graphiques3. Indicateurs statistiques– positionnement– dispersion, asymétrie et aplatissementDonnées bivariées1. Tableau croisé et présentation graphique de données bivariées2. Association, Indépendance3. Corrélation et autres mesures d’associationTraitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 42Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 44


4.1 Tableau de distributionVariables discrètes sans trop (< 15) de modalités.⇒ tableau des fréquences généré avec FREQUENCIESget file=’donnéesbama1.sav’.** recherche du min et du max .compute temp=1.AGGREGATE /OUTFILE=’aggr.sav’/BREAK=temp /hcou_max = MAX(hcoucher) /hcou_min = MIN(hcoucher)ValidMissingTotal567891011Totalnon concernéheure pt déjeunerCumulativeFrequency Percent Valid Percent Percent1 2.4 4.3 4.31 2.4 4.3 8.75 12.2 21.7 30.410 24.4 43.5 73.92 4.9 8.7 82.63 7.3 13.0 95.71 2.4 4.3 100.023 56.1 100.018 43.941 100.0** ajouter les min et max à chaque cas du fichier original.MATCH FILES /TABLE=’aggr.sav’/FILE=* /* base de données courante *//BY temp.VARIABLE LABELShcou_min ’min(hcoucher)’ hcou_max ’max(hcoucher)’.** calcul de la classe.compute delta_h = (hcou_max - hcou_min)/6. /* longueur du pas */compute hcou_cls=1. /* initialisation */loop #i = 1 to 5.+ if (hcoucher > hcou_min + #i*delta_h) hcou_cls = (#i+1).end loop.value labels hcou_cls1 ’0-4’ 2 ’5-8’ 3 ’9-12’ 4 ’13-16’ 5 ’17-20’ 6 ’21-24’.frequencies hcou_cls.Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 45Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 47Variables continues ou avec beaucoup de modalités.⇒ regrouper les valeurs en classes de valeurs.QuantilesDécoupage en classes d’égale longueur pas satisfaisant <strong>pour</strong> notre exemple.Exemple : Regrouper les valeurs de « hcoucher» en 6 classes de longueurségales.(voir syntaxe page suivante)Valid0-45-817-2021-24TotalHCOU_CLSCumulativeFrequency Percent Valid Percent Percent9 22.0 22.0 22.01 2.4 2.4 24.41 2.4 2.4 26.830 73.2 73.2 100.041 100.0 100.0Il est préférable de définir les classes en fonctions de quantiles.Exemple :– 6 classes ayant chacune la même proportion de cas.– Groupes 1, 2, 5, 6 : 20% chacun, Groupes 3 et 4 : 10% chacun⇒ quantiles 20%, 40%, 50%, 60%, 80%heure coucherNPercentilesStatisticsValidMissing20405060804102.4021.0022.0022.2023.60heure coucherNPercentilesStatisticsValidMissing16.6666666733.333333335066.6666666783.333333334102.0021.0022.0023.0024.00Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 46Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 48


4.3 Indicateurs statistiquespercentilesFREQUENCIESVARIABLES=hcoucher/FORMAT=notable/PERCENTILES=20 40 50 60 80.ntilesFREQUENCIESVARIABLES=hcoucher/FORMAT=notable/NTILES= 6.n données : x 1 , x 2 , . . . , x n ,exemple : 20, 25, 25, 30, 50Tendance centrale :mode, médiane, moyenneMode : valeur la plus fréquenteExemple : mode = 25Médiane :50% des x i ≤ med et 50% des x i ≥ medExemple : med = 25Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 49Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 514.2 Présentations graphiquesPrincipe : surfaces proportionnelles aux grandeurs illustrées.Barres : hauteurs proportionnelles aux fréquences si bases égales.Histogramme (diagramme en barres <strong>pour</strong> données quantitatives)– Partition des valeurs en classes disjointes⇒ les barres se touchent– Bases des barres représentent amplitude ⇒ si amplitudes pas toutes égales,nkakadapter hauteurs <strong>pour</strong> avoir surfaces proportionnelles.2.01.51.00.50.025 30 35 40 45 50 55Age d’engagement8100 fk6420akclasse d’âge amplitude nombre27.5 – 32.5 5 632.5 – 37.5 5 937.5 – 42.5 5 642.5 – 52.5 10 4Moyenne :¯x = 1 n∑x i = 1 n n (x 1 + x 2 + · · · + x n )i=1Exemple : ¯x = 150/5 = 30Moyenne pondérée :n∑¯x = w i x i avec ∑ w i = 1i=1 iExemple : w 1 = w 5 = 1 8 et w 2 = w 3 = w 4 = 2 8⇒ ¯x = 230/8 = 28, 75Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 50Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 52


Dispersion : variance et écart typeBoxplot1er quartilemédiane3ème quartile-20 -10 0 10 20 -20 -10 0 10 20dispersion plus faibledispersion plus forte29 33 354151Voir procédure EXPLORE (menu/descriptives/explore)Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 53Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 55Variance : moyenne des carrés des écarts à la moyenneAsymétrie et aplatissement (kurtose)var(x) =n∑w i (x i − ¯x) 2i=1Écart type :écart type(x) = s x = √ var(x)−20 0 20asymétrie positiveλ > 0 étalement à droite−20 0 20symétrie−20 0 20asymétrie négativeλ < 0 étalement à gaucheÉcart interquartile : q 3 − q 1q 1 : 1er quartile25% des x i ≤ q 1 et 75% des x i ≥ q 1q 3 : 3ème quartile75% des x i ≤ q 3 et 25% des x i ≥ q 3−20 0 20forme en pickurt grand : pic et grosses queues−20 0 20forme aplatiekurt petit : aplatissementTraitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 54Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 56


4.4 Tableau croisé et présentation graphique de donnéesbivariéesDonnées quantitatives : diagramme de dispersion (scatterplot)menu : Graphs/Scattermenu : Analysis/Descriptives/Crosstabs...INSTRUCTTotalEDU1EDU2INSTRUCT * profession du père CrosstabulationCountExpected Count% within INSTRUCT% within professiondu pèreCountExpected Count% within INSTRUCT% within professiondu pèreCountExpected Count% within INSTRUCT% within professiondu pèreprofession du pèrePPERE1 PPERE2 PPERE3 PPERE4 Total3 19 20 20 622.5 14.9 23.6 21.1 62.04.8% 30.6% 32.3% 32.3% 100.0%75.0% 79.2% 52.6% 58.8% 62.0%1 5 18 14 381.5 9.1 14.4 12.9 38.02.6% 13.2% 47.4% 36.8% 100.0%25.0% 20.8% 47.4% 41.2% 38.0%4 24 38 34 1004.0 24.0 38.0 34.0 100.04.0% 24.0% 38.0% 34.0% 100.0%100.0% 100.0% 100.0% 100.0% 100.0%heure réveil111098765430heure coucher102030Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 57Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 59Graphiques4.5 Association, Indépendancemenu : Graphs/Bars1008060300200IndépendanceSi distributions lignes semblables ↔ Si distributions colonnes semblablesB1 B2 totalA1 10 30 40A2 20 60 80total 30 90 12040profession du père20INSTRUCT100PPERE4PPERE3Association Si distribution ligne dépend de la ligne.Percent0PPERE1 PPERE2profession du pèrePPERE3PPERE4EDU2EDU1Percent0EDU1INSTRUCTEDU2PPERE2PPERE1Association parfaiteSi un seul élément non nul par colonne (ou ligne)B1 B2 totalA1 40 0 40A2 0 80 80total 40 80 120Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 58Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 60


4.6 Corrélation et autres mesures d’associationCoefficient de corrélation linéairer xyMesure la tendance des points à s’aligner le long le d’une droite, c’est-à-direl’allongement du nuage de pointsKhi-2 de Pearson et v de Cramer(Tableau croisé)Khi-2 de Pearson : distance entre distribution conjointe et distributionindépendante.Khi-2 = 0 ⇔ toutes les distributions ligne (colonne) identiques.forteassociationfaibleforteDépend du nombre d’observations et de la dimension du tableauv de Cramer : forme standardisée du Khi-2 de Pearson-1négative0positive1r xyassociationfaibleforte0 1vTraitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 61Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 63Corrélation : exemplesyyr = 1302520151050-5-100 5 10 15 20 25 30xr = -1302520151050-5-100 5 10 15 20 25 30xyyr = 0.95302520151050-5-100 5 10 15 20 25 30302520151050-5r = 0.39-100 5 10 15 20 25 30xxv Cramer : exemplesrevenutaille [20,30[ [30,50[ [50,60] total1 ou 2 0 50 0 503 ou 4 25 0 25 50total 25 50 50 100⇒ corrélation = 0, v-Cramer = 1.Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 62Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 64


BBPearson Chi-SquareLikelihood RatioLinear-by-LinearAssociationChi-Square TestsAsymp. Sig.Value df (2-sided)4.850 a 3 .1835.107 3 .1642.212 1 .137N of Valid Cases100a. 2 cells (25.0%) have expected count less than 5. Theminimum expected count is 1.52.Symmetric Measures<strong>Statistique</strong> inférentielleQuelle information l’observation d’un échantillon donne-t-il sur le tout ?⇒ Evaluation de la confiance, marge d’erreur,...2 F K = J E ? D = J E ? D = J E F Nominal byNominalN of Valid CasesPhiCramer's Va. Not assuming the null hypothesis.Value Approx. Sig..220 .183.220 .183100b. Using the asymptotic standard error assuming the null hypothesis. BTraitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 65Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 675 Éléments de statistique inférentielle1. Estimation ponctuelle: biais, variance, erreur2. Estimation par intervalle: marge d’erreur3. Principe du test statistique d’hypothèseAléa de l’échantillonnageEchantillon aléatoire de taille n : (X 1 , X 2 , . . . , X n )Le résultat x i obtenu au ième tirage diffère d’un échantillon à l’autre.Toute fonction (moyenne, variance, proportion, . . .) de l’échantillon aléatoireest aléatoire.Estimation : quantification, à partir de l’échantillon, de la valeur d’unecaractéristique numérique de la population (moyenne µ, variance σ 2 ,proportion p, corrélation ρ, . . .).Test statistique : validation empirique d’une hypothèse.L’estimation ou la conclusion du test varie d’un échantillon à l’autre.Fiabilité de l’estimation ou du test ?Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 66Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 68


5.1 Estimation ponctuelle : biais, variance, erreurAbsence de biais :espérance de l’estimateur (estimation moyenne)= vraie valeur du paramètre.Efficacité :faible dispersion des valeurs d’un échantillon à l’autreErreur quadratique moyenne : EQM = var +biais 2Exemple : ¯X estimateur de µpetitSi tirage au hasard (même prob <strong>pour</strong> chacun) et indépendantsE( ¯X) = µ et var( ¯X) = σ2nD’autant plus efficace que n est grand.5.2 Estimation par intervalle : marge d’erreurDegré de confiance : probabilité d’obtenir a priori un intervalle qui comprendla vraie valeur.La longueur de l’intervalle croît avec- le degré de confiance- la dispersion de l’estimateur (erreur standard ˆσ ¯X)Exemple : intervalle <strong>pour</strong> la moyenne µµ = ¯x ± z 1−α/2ˆσ ¯Xoù z 1−α/2 est un seuil critique qui augmente avec le degré de confiance 1 − α.Confiance 1 − α = 95% ⇒ z 1−α/2 ≃ 2Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 69Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 71Estimation : analogie avec tir sur une cibleCas d’un intervalle centré sur ˆΘ θf(Θ)Estimation non biaiséeEstimation biaisée 10 intervalles ( 10 échantillons )8 intervalles recouvrent l’estimé θEstimation plus efficaceEstimation par intervalleTraitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 70Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 72


Marge d’erreur– erreur d’échantillonnage– biais– erreur aléatoire– erreur d’observation– erreur d’interprétationEn général, la marge d’erreur concerne l’erreur d’échantillonnage, qui est, si lebiais est nul, l’erreur aléatoire.Marge d’erreur ≃ 2 × erreur standard5.3 Principe du test statistique d’hypothèseOn rejette l’hypothèse s’il est peu vraisemblable d’obtenir l’échantillonobservé par tirage au hasard dans une population vérifiant l’hypothèse.Test de H 0 contre H 1Règle de décision fondée sur une statistique Q quantité (p.ex. Khi-2 <strong>pour</strong> testde l’indépendance) dépendant de l’échantillon.Région critique (rejet de H 0 ) : ensemble des valeurs de Q peu probables (¡5%) lorsque H 0 vrai.Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 73Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 75Pour l’estimation d’une proportion p, c’est approximativementRisque d’erreur2√ˆp(1 − ˆp)nDeux risques d’erreurDécisionPar exemple, si l’on estime qu’une proportion est de 30% avec un échantillonde n = 100 personnes,√0, 3 · 0, 7marge d’erreur ≃ 2100= 2 √ 0, 0021 = 2 · 0, 046= 0, 092⇒ proportion = 30% ± 9, 2%Etat de la nature H 0 H 1H 0H 1On contrôle α : risque de première espèce.β : risque de seconde espèce.1 − β : puissance du test.Plus α est petit, plus β explose.βαTraitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 74Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 76


Degré de signification (p-valeur)Probabilité qu’un échantillon provenant d’une population vérifiant l’hypothèseH 0 (par exemple l’indépendance) donne lieu à une valeur de la statistique detest Q plus extrême que la valeur observée.p(|Q| > |q 0 | | H 0 )q 0 valeur observéeDegré de signification petit ( I A HL @ A C H @ AI EC EBE? = JE Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 77RéférencesDroesbeke, J.-J. (1992). Eléments de statistique (2ème ed.). Bruxelles: Editions Ellipses.Ritschard, G. (1989). <strong>Introduction</strong> à la statistique. Polycopié, Faculté des SES, Genève.Ritschard, G. (2002). <strong>Statistique</strong> <strong>pour</strong> <strong>sciences</strong> <strong>sociales</strong> I, transparents du cours. Polycopié,Faculté des SES, Genève.<strong>SPSS</strong> Inc. (1992). <strong>SPSS</strong> Base System Reference Guide, Release 5.0. Chicago, IL: <strong>SPSS</strong> Inc.Wonacott, T. H. and R. J. Wonacott (1991). <strong>Statistique</strong>. Paris: Economica.Traitement données d’enquête Plan <strong>SPSS</strong> Données Descr Infer ◭ ◮ 3/10/2002gr 78

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!