13.07.2015 Views

R L'essentiel - Pearson

R L'essentiel - Pearson

R L'essentiel - Pearson

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Chapitre 14Analyse des données 295Dans cette formule, n est la longueur des deux variables, nc, le nombre de pairesconcordantes et nd, le nombre de paires discordantes. Pour calculer les corrélationsavec R, vous disposez de la fonction cor, qui permet d’effectuer chacune de cesmesures de corrélation que nous venons d’évoquer :cor(x, y = NULL, use = "everything",method = c("pearson", "kendall", "spearman"))Vous pouvez calculer les corrélations entre deux vecteurs (désignés par x et y),sur un data frame ou sur une matrice ; dans ces deux cas, y=NULL et cor calculerontla corrélation entre chaque paire de variables pour renvoyer une matrice desrésultats.Le paramètre method précise la formule utilisée pour calculer la corrélation et useindique comment traiter les valeurs NA : si vous voulez que la fonction déclencheune erreur en présence de valeurs NA, utilisez use="all.obs" ; si vous voulez qu’ellerenvoie NA si l’un des éléments est NA, choisissez use="everything" ; pour ne pastenir compte des valeurs NA, choisissez use="complete.obs" ; pour ne pas tenircompte des valeurs NA mais renvoyer NA si tous les éléments valent NA, utilisezuse="na.or.complete" ; enfin, pour ne pas tenir compte des paires dont au moinsune des valeurs est NA, choisissez use="pairwise.complete.obs".Examinons les données sur les naissances de 2006 que nous avions déjà utiliséesauparavant. Plus précisément, nous voulons savoir si la prise de poids de la mèrea un lien avec le poids du bébé. Commençons par ne sélectionner que les poids denaissance et les prises de poids corrects. Nous exclurons également les naissancesprématurées (j’ai exclu les termes de moins de 35 semaines bien que, techniquement,ce ne soient pas nécessairement des prématurés). Enfin, nous ne gardons queles naissances d’enfants uniques :> births2006.cln 35,]Examinons d’abord la relation entre ces deux variables. Comme il y a 3 232 884observations, un nuage de points normal serait trop difficile à lire. C’est la raisonpour laquelle nous préférons utiliser smoothScatter :> smoothScatter(births2006.cln$WTGAIN,births2006.cln$DBWT)Le diagramme obtenu est celui de la Figure 14.2. En l’étudiant, nous pouvons nousattendre à constater une légère corrélation (nous n’en attendons pas une très forte àcause de la forte concentration au centre, mais celle-ci est peu inclinée). Calculonsla corrélation de <strong>Pearson</strong> :> cor(births2006.cln$WTGAIN,births2006.cln$DBWT)[1] 0.1750655© 2011 <strong>Pearson</strong> Education France – R, <strong>L'essentiel</strong> – Joseph Adler

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!