08.05.2014 Views

Analyse exploratoire de données - Fabrice Rossi

Analyse exploratoire de données - Fabrice Rossi

Analyse exploratoire de données - Fabrice Rossi

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

<strong>Analyse</strong> <strong>exploratoire</strong> <strong>de</strong> données<br />

<strong>Fabrice</strong> <strong>Rossi</strong><br />

Télécom ParisTech


Plan<br />

Introduction<br />

Exploration<br />

Modélisation<br />

Modèle <strong>de</strong>s données<br />

<strong>Analyse</strong>s univariées<br />

Variables numériques<br />

Histogramme<br />

Boxplot et statistiques<br />

Variables nominales<br />

<strong>Analyse</strong>s multivariées<br />

Diagramme <strong>de</strong> dispersion<br />

Matrice <strong>de</strong> corrélation<br />

Diagramme mosaique<br />

Coordonnées parallèles<br />

Interaction<br />

2 / 41 F. <strong>Rossi</strong>


Plan<br />

Introduction<br />

Exploration<br />

Modélisation<br />

Modèle <strong>de</strong>s données<br />

<strong>Analyse</strong>s univariées<br />

Variables numériques<br />

Histogramme<br />

Boxplot et statistiques<br />

Variables nominales<br />

<strong>Analyse</strong>s multivariées<br />

Diagramme <strong>de</strong> dispersion<br />

Matrice <strong>de</strong> corrélation<br />

Diagramme mosaique<br />

Coordonnées parallèles<br />

Interaction<br />

3 / 41 F. <strong>Rossi</strong> Introduction


Exploiter <strong>de</strong>s données<br />

Que faire d’un paquet <strong>de</strong> données ?<br />

Comment exploiter le contenu d’un entrepôt <strong>de</strong> données ?<br />

4 / 41 F. <strong>Rossi</strong> Introduction


Exploiter <strong>de</strong>s données<br />

Que faire d’un paquet <strong>de</strong> données ?<br />

Comment exploiter le contenu d’un entrepôt <strong>de</strong> données ?<br />

recensement<br />

32561<br />

personnes<br />

15 attributs<br />

par personne<br />

4 / 41 F. <strong>Rossi</strong> Introduction


Exploiter <strong>de</strong>s données<br />

Que faire d’un paquet <strong>de</strong> données ?<br />

Comment exploiter le contenu d’un entrepôt <strong>de</strong> données ?<br />

recensement<br />

32561<br />

personnes<br />

15 attributs<br />

par personne<br />

Volume classique : milliers à millions <strong>de</strong> lignes, dizaine à<br />

centaines <strong>de</strong> colonnes<br />

Exploration systématique impossible (même pour <strong>de</strong> petits<br />

paquets <strong>de</strong> données)<br />

4 / 41 F. <strong>Rossi</strong> Introduction


Outils d’exploitation<br />

Support informatique et mathématique :<br />

• outils d’exploitation <strong>de</strong>s données<br />

• but : diminuer la charge cognitive pour l’analyste<br />

Deux gran<strong>de</strong>s classes d’outils :<br />

1. exploration<br />

2. modélisation<br />

5 / 41 F. <strong>Rossi</strong> Introduction


Outils d’exploitation<br />

Support informatique et mathématique :<br />

• outils d’exploitation <strong>de</strong>s données<br />

• but : diminuer la charge cognitive pour l’analyste<br />

Deux gran<strong>de</strong>s classes d’outils :<br />

1. exploration<br />

• pas d’idée a priori sur les données<br />

• recherche <strong>de</strong> régularité (dépendances, groupes homogènes,<br />

etc.)<br />

2. modélisation<br />

5 / 41 F. <strong>Rossi</strong> Introduction


Outils d’exploitation<br />

Support informatique et mathématique :<br />

• outils d’exploitation <strong>de</strong>s données<br />

• but : diminuer la charge cognitive pour l’analyste<br />

Deux gran<strong>de</strong>s classes d’outils :<br />

1. exploration<br />

• pas d’idée a priori sur les données<br />

• recherche <strong>de</strong> régularité (dépendances, groupes homogènes,<br />

etc.)<br />

2. modélisation<br />

• idée précise sur les données<br />

• construction <strong>de</strong> modèles prédictifs<br />

5 / 41 F. <strong>Rossi</strong> Introduction


Outils d’exploitation<br />

Support informatique et mathématique :<br />

• outils d’exploitation <strong>de</strong>s données<br />

• but : diminuer la charge cognitive pour l’analyste<br />

Deux gran<strong>de</strong>s classes d’outils :<br />

1. exploration<br />

• pas d’idée a priori sur les données<br />

• recherche <strong>de</strong> régularité (dépendances, groupes homogènes,<br />

etc.)<br />

2. modélisation<br />

• idée précise sur les données<br />

• construction <strong>de</strong> modèles prédictifs<br />

outil utilisé : R (http://R-project.org/)<br />

5 / 41 F. <strong>Rossi</strong> Introduction


<strong>Analyse</strong> <strong>exploratoire</strong><br />

Objectifs :<br />

• obtenir une vision globale d’un jeu <strong>de</strong> données<br />

• découvrir <strong>de</strong>s formes <strong>de</strong> régularité<br />

Moyens :<br />

• représentations visuelles (et interactives) <strong>de</strong>s données<br />

• recherche automatique <strong>de</strong> régularités :<br />

• corrélation et dépendance entre variables<br />

• groupes homogènes (classification)<br />

• schémas fréquents<br />

6 / 41 F. <strong>Rossi</strong> Introduction


<strong>Analyse</strong> <strong>exploratoire</strong><br />

Objectifs :<br />

• obtenir une vision globale d’un jeu <strong>de</strong> données<br />

• découvrir <strong>de</strong>s formes <strong>de</strong> régularité<br />

Moyens :<br />

• représentations visuelles (et interactives) <strong>de</strong>s données<br />

• recherche automatique <strong>de</strong> régularités :<br />

• corrélation et dépendance entre variables<br />

• groupes homogènes (classification)<br />

• schémas fréquents<br />

Height<br />

0 20 40 60 80 100<br />

PC2<br />

−2 0 2 4 6<br />

−6 −4 −2 0 2 4<br />

PC1<br />

6 / 41 F. <strong>Rossi</strong> Introduction


Modélisation<br />

Objectifs :<br />

• inférer <strong>de</strong>s informations inconnues<br />

• prédire l’évolution <strong>de</strong>s données<br />

Moyens :<br />

• données d’apprentissage :<br />

• connaître l’évolution d’une gran<strong>de</strong>ur dans le passé pour<br />

prédire son évolution future (données historiques)<br />

• connaître une propriété <strong>de</strong> certains objets (par exemple le<br />

salaire <strong>de</strong> certains clients) pour inférer sa valeur pour les<br />

autres objets<br />

• métho<strong>de</strong>s d’apprentissage : construire un modèle à partir<br />

<strong>de</strong>s données d’apprentissage<br />

7 / 41 F. <strong>Rossi</strong> Introduction


Modélisation<br />

Objectifs :<br />

• inférer <strong>de</strong>s informations inconnues<br />

• prédire l’évolution <strong>de</strong>s données<br />

Moyens :<br />

• données d’apprentissage :<br />

• connaître l’évolution d’une gran<strong>de</strong>ur dans le passé pour<br />

prédire son évolution future (données historiques)<br />

• connaître une propriété <strong>de</strong> certains objets (par exemple le<br />

salaire <strong>de</strong> certains clients) pour inférer sa valeur pour les<br />

autres objets<br />

• métho<strong>de</strong>s d’apprentissage : construire un modèle à partir<br />

<strong>de</strong>s données d’apprentissage<br />

Stratégie :<br />

• analyse <strong>exploratoire</strong><br />

• formulation d’hypothèses<br />

• construction <strong>de</strong> modèles pour vali<strong>de</strong>r les hypothèses<br />

7 / 41 F. <strong>Rossi</strong> Introduction


Modèle mathématique<br />

On a N observations, les z i ∈ Z<br />

Modèle statistique/probabiliste<br />

• il existe une distribution P Z sur Z inconnue<br />

• les z i sont <strong>de</strong>s réalisations <strong>de</strong> variables aléatoires avec<br />

cette distribution<br />

• les variables aléatoires sont indépendantes (en général)<br />

8 / 41 F. <strong>Rossi</strong> Introduction


Modèle mathématique<br />

On a N observations, les z i ∈ Z<br />

Modèle statistique/probabiliste<br />

• il existe une distribution P Z sur Z inconnue<br />

• les z i sont <strong>de</strong>s réalisations <strong>de</strong> variables aléatoires avec<br />

cette distribution<br />

• les variables aléatoires sont indépendantes (en général)<br />

En général<br />

• Z = Π P p=1 Z p : P variables pour décrire chaque objet<br />

• quand Z p ⊂ R : variable numérique (ou ordonnée)<br />

• quand Z p = {a, b, . . .} : variable nominale (un nombre fini<br />

<strong>de</strong> valeurs possibles non ordonnées)<br />

8 / 41 F. <strong>Rossi</strong> Introduction


Plan<br />

Introduction<br />

Exploration<br />

Modélisation<br />

Modèle <strong>de</strong>s données<br />

<strong>Analyse</strong>s univariées<br />

Variables numériques<br />

Histogramme<br />

Boxplot et statistiques<br />

Variables nominales<br />

<strong>Analyse</strong>s multivariées<br />

Diagramme <strong>de</strong> dispersion<br />

Matrice <strong>de</strong> corrélation<br />

Diagramme mosaique<br />

Coordonnées parallèles<br />

Interaction<br />

9 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées


<strong>Analyse</strong>s élémentaires<br />

Première étape d’une analyse <strong>exploratoire</strong><br />

• travailler variable par variable<br />

• numériquement et graphiquement<br />

Variable numérique<br />

• à valeurs dans R<br />

• statistiques classiques : moyenne, variance, médiane, etc.<br />

• représentations associées : histogramme, boxplot<br />

10 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées


<strong>Analyse</strong>s élémentaires<br />

Première étape d’une analyse <strong>exploratoire</strong><br />

• travailler variable par variable<br />

• numériquement et graphiquement<br />

Variable numérique<br />

• à valeurs dans R<br />

• statistiques classiques : moyenne, variance, médiane, etc.<br />

• représentations associées : histogramme, boxplot<br />

Variable âge : numérique<br />

10 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées


<strong>Analyse</strong>s élémentaires<br />

Première étape d’une analyse <strong>exploratoire</strong><br />

• travailler variable par variable<br />

• numériquement et graphiquement<br />

Variable numérique<br />

• à valeurs dans R<br />

• statistiques classiques : moyenne, variance, médiane, etc.<br />

• représentations associées : histogramme, boxplot<br />

Histogram of age<br />

Variable âge : numérique<br />

Density<br />

0.000 0.010 0.020<br />

0 20 40 60 80 100<br />

age<br />

10 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées


Histogramme<br />

Un histogramme représente une estimation <strong>de</strong> la<br />

distribution d’une variable<br />

Principe <strong>de</strong> construction :<br />

• division <strong>de</strong> l’intervalle [min, max] en K sous-intervalles<br />

(diverses règles pour K , par exemple ∼ log N)<br />

• dénombrement <strong>de</strong>s objets pour lesquels la valeur <strong>de</strong> la<br />

variable tombe dans chacun <strong>de</strong>s intervalles<br />

• représentation par <strong>de</strong>s barres <strong>de</strong> surfaces proportionnelles<br />

aux décomptes<br />

11 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées


Histogramme<br />

Un histogramme représente une estimation <strong>de</strong> la<br />

distribution d’une variable<br />

Principe <strong>de</strong> construction :<br />

• division <strong>de</strong> l’intervalle [min, max] en K sous-intervalles<br />

(diverses règles pour K , par exemple ∼ log N)<br />

• dénombrement <strong>de</strong>s objets pour lesquels la valeur <strong>de</strong> la<br />

variable tombe dans chacun <strong>de</strong>s intervalles<br />

• représentation par <strong>de</strong>s barres <strong>de</strong> surfaces proportionnelles<br />

aux décomptes<br />

Attention aux intervalles <strong>de</strong> longueurs différentes<br />

Histogram of dummy.unif<br />

Histogram of dummy.unif<br />

Density<br />

0.0 0.4 0.8<br />

Frequency<br />

0 50 150<br />

0.0 0.2 0.4 0.6 0.8 1.0<br />

dummy.unif<br />

0.0 0.2 0.4 0.6 0.8 1.0<br />

dummy.unif<br />

11 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées


Histogramme<br />

Un histogramme représente une estimation <strong>de</strong> la<br />

distribution d’une variable<br />

Principe <strong>de</strong> construction :<br />

• division <strong>de</strong> l’intervalle [min, max] en K sous-intervalles<br />

(diverses règles pour K , par exemple ∼ log N)<br />

• dénombrement <strong>de</strong>s objets pour lesquels la valeur <strong>de</strong> la<br />

variable tombe dans chacun <strong>de</strong>s intervalles<br />

• représentation par <strong>de</strong>s barres <strong>de</strong> surfaces proportionnelles<br />

aux décomptes<br />

Attention aux intervalles <strong>de</strong> longueurs différentes<br />

Histogram of dummy.unif<br />

Histogram of dummy.unif<br />

Density<br />

0.0 0.4 0.8<br />

Frequency<br />

0 200 600<br />

0.0 0.2 0.4 0.6 0.8 1.0<br />

dummy.unif<br />

0.0 0.2 0.4 0.6 0.8 1.0<br />

dummy.unif<br />

11 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées


Intérêts<br />

Histogram of age<br />

Histogramme <strong>de</strong>s heures travaillées par semaine<br />

Density<br />

0.000 0.010 0.020<br />

Frequency<br />

0 5000 10000 15000<br />

0 20 40 60 80 100<br />

age<br />

Âge<br />

0 20 40 60 80 100<br />

Heures<br />

Temps <strong>de</strong> travail<br />

Histogramme <strong>de</strong>s plus values<br />

Frequency<br />

0 5000 15000 25000<br />

0e+00 2e+04 4e+04 6e+04 8e+04 1e+05<br />

Plus values<br />

Plus values<br />

12 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées


Intérêts<br />

Histogram of age<br />

Histogramme <strong>de</strong>s heures travaillées par semaine<br />

Density<br />

0.000 0.010 0.020<br />

Frequency<br />

0 5000 10000 15000<br />

0 20 40 60 80 100<br />

0 20 40 60 80 100<br />

age<br />

Heures<br />

Âge<br />

Temps <strong>de</strong> travail<br />

Frequency<br />

0 5000 15000 25000<br />

Histogramme <strong>de</strong>s plus values<br />

Idée générale <strong>de</strong> la<br />

distribution<br />

0e+00 2e+04 4e+04 6e+04 8e+04 1e+05<br />

Plus values<br />

Plus values<br />

12 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées


Intérêts<br />

Histogram of age<br />

Histogramme <strong>de</strong>s heures travaillées par semaine<br />

Density<br />

0.000 0.010 0.020<br />

Frequency<br />

0 5000 10000 15000<br />

0 20 40 60 80 100<br />

0 20 40 60 80 100<br />

age<br />

Heures<br />

Âge<br />

Temps <strong>de</strong> travail<br />

Frequency<br />

0 5000 15000 25000<br />

Histogramme <strong>de</strong>s plus values<br />

Idée générale <strong>de</strong> la<br />

distribution<br />

“irrégularités”<br />

0e+00 2e+04 4e+04 6e+04 8e+04 1e+05<br />

Plus values<br />

Plus values<br />

12 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées


Intérêts<br />

Histogram of age<br />

Histogramme <strong>de</strong>s heures travaillées par semaine<br />

Density<br />

0.000 0.010 0.020<br />

Frequency<br />

0 5000 10000 15000<br />

0 20 40 60 80 100<br />

0 20 40 60 80 100<br />

age<br />

Heures<br />

Âge<br />

Temps <strong>de</strong> travail<br />

Frequency<br />

0 5000 15000 25000<br />

Histogramme <strong>de</strong>s plus values<br />

0e+00 2e+04 4e+04 6e+04 8e+04 1e+05<br />

Plus values<br />

Plus values<br />

Idée générale <strong>de</strong> la<br />

distribution<br />

“irrégularités”<br />

distribution complètement<br />

atypique<br />

12 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées


Limitations<br />

Histogramme <strong>de</strong>s plus values<br />

Frequency<br />

0 5000 15000 25000<br />

0e+00 2e+04 4e+04 6e+04 8e+04 1e+05<br />

Plus values<br />

presque aucune information :<br />

• presque toutes les valeurs sont négatives<br />

• quelques valeurs très gran<strong>de</strong>s<br />

13 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées


Limitations<br />

Histogramme <strong>de</strong>s plus values<br />

Frequency<br />

0 5000 15000 25000<br />

0e+00 2e+04 4e+04 6e+04 8e+04 1e+05<br />

Plus values<br />

presque aucune information :<br />

• presque toutes les valeurs sont négatives<br />

• quelques valeurs très gran<strong>de</strong>s<br />

comparaisons difficiles (cf la suite)<br />

13 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées


Boxplot<br />

a.k.a. boîte à moustaches ou boîte à<br />

pattes<br />

Représentation compacte d’une<br />

distribution<br />

• ligne centrale : médiane<br />

• ligne basse : premier quartile<br />

• ligne haute : troisième quartile<br />

• moustaches :<br />

• le max du min et <strong>de</strong> la médiane - 1.5<br />

l’intervalle interquartile<br />

• le min du max et <strong>de</strong> la médiane + 1.5<br />

l’intervalle interquartile<br />

• points atypiques (outliers) : au <strong>de</strong>là<br />

<strong>de</strong>s moustaches<br />

Âge<br />

20 40 60 80<br />

14 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées


Comparaison<br />

Histogram of age<br />

Density<br />

0.000 0.010 0.020<br />

0 20 40 60 80 100<br />

age<br />

Âge<br />

20 40 60 80<br />

15 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées


Comparaison<br />

Histogram of age<br />

Density<br />

0.000 0.010 0.020<br />

0 20 40 60 80 100<br />

age<br />

Âge<br />

20 40 60 80<br />

plus d’information<br />

plus dépouillé<br />

15 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées


Comparaison<br />

Histogram of age<br />

Density<br />

0.000 0.010 0.020<br />

0 20 40 60 80 100<br />

age<br />

Âge<br />

20 40 60 80<br />

plus d’information<br />

inférence moins précise<br />

plus dépouillé<br />

quelques informations<br />

très précises<br />

15 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées


Statistiques<br />

Indicateurs classiques :<br />

• tendance : moyenne et médiane<br />

• dispersion : écart-type, intervalle interquartile<br />

16 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées


Statistiques<br />

Indicateurs classiques :<br />

• tendance : moyenne et médiane<br />

• dispersion : écart-type, intervalle interquartile<br />

Interprétation parfois délicate :<br />

• moyenne = 990<br />

• médiane = 0<br />

• écart-type = 7410<br />

• intervalle interquartile = 0<br />

Frequency<br />

0 5000 15000 25000<br />

Histogramme <strong>de</strong>s plus values<br />

0e+00 2e+04 4e+04 6e+04 8e+04 1e+05<br />

Plus values<br />

16 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées


Statistiques<br />

Indicateurs classiques :<br />

• tendance : moyenne et médiane<br />

• dispersion : écart-type, intervalle interquartile<br />

Histogramme <strong>de</strong>s plus values<br />

Interprétation parfois délicate :<br />

• moyenne = 990<br />

• médiane = 0<br />

• écart-type = 7410<br />

• intervalle interquartile = 0<br />

0e+00 2e+04 4e+04 6e+04 8e+04 1e+05<br />

• meilleurs choix ici :<br />

Plus values<br />

• 87 % <strong>de</strong>s personnes ont une plus value nulle, 8.3 % positive<br />

et 4.7 % négative<br />

• puis statistiques sur les <strong>de</strong>ux groupes (par ex., perte<br />

médiane 1887)<br />

Frequency<br />

0 5000 15000 25000<br />

16 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées


Sens <strong>de</strong>s statistiques<br />

La pertinence <strong>de</strong> la statistique<br />

dépend <strong>de</strong> la distribution<br />

Exemple :<br />

• blogs politiques<br />

• graphe <strong>de</strong>s liens entre les<br />

blogs (blogroll)<br />

• distribution <strong>de</strong>s <strong>de</strong>grés <strong>de</strong>s<br />

noeuds<br />

Frequency<br />

0 200 400 600<br />

0 100<br />

Degree distribution<br />

200 300 400<br />

<strong>de</strong>gree<br />

µ = 27.36, σ = 38.42<br />

m = 13, δ = 33<br />

17 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées


Sens <strong>de</strong>s statistiques<br />

La pertinence <strong>de</strong> la statistique<br />

dépend <strong>de</strong> la distribution<br />

Exemple :<br />

• blogs politiques<br />

• graphe <strong>de</strong>s liens entre les<br />

blogs (blogroll)<br />

• distribution <strong>de</strong>s <strong>de</strong>grés <strong>de</strong>s<br />

noeuds<br />

Frequency<br />

0 200 400 600<br />

0 100<br />

Degree distribution<br />

200 300 400<br />

<strong>de</strong>gree<br />

µ = 27.36, σ = 38.42<br />

probability<br />

0.00 0.02 0.04 0.06 0.08 0.10<br />

m = 13, δ = 33<br />

loi puissance : P(x) ≃ x −α<br />

0 50 100 150 200 250 300 350<br />

<strong>de</strong>gree<br />

17 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées


Sens <strong>de</strong>s statistiques<br />

La pertinence <strong>de</strong> la statistique<br />

dépend <strong>de</strong> la distribution<br />

Exemple :<br />

• blogs politiques<br />

• graphe <strong>de</strong>s liens entre les<br />

blogs (blogroll)<br />

• distribution <strong>de</strong>s <strong>de</strong>grés <strong>de</strong>s<br />

noeuds<br />

Frequency<br />

0 200 400 600<br />

Degree distribution<br />

0 100 200 300 400<br />

<strong>de</strong>gree<br />

µ = 27.36, σ = 38.42<br />

m = 13, δ = 33<br />

probability<br />

0.001 0.005 0.020 0.050<br />

loi puissance : P(x) ≃ x −α<br />

sans échelle : la moyenne<br />

informe peu<br />

1 2 5 10 20 50 100 200<br />

<strong>de</strong>gree<br />

17 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées


Sens <strong>de</strong>s statistiques<br />

La pertinence <strong>de</strong> la statistique<br />

dépend <strong>de</strong> la distribution<br />

Exemple :<br />

• blogs politiques<br />

• graphe <strong>de</strong>s liens entre les<br />

blogs (blogroll)<br />

• distribution <strong>de</strong>s <strong>de</strong>grés <strong>de</strong>s<br />

noeuds<br />

Frequency<br />

0 200 400 600<br />

Degree distribution<br />

0 100 200 300 400<br />

<strong>de</strong>gree<br />

µ = 27.36, σ = 38.42<br />

m = 13, δ = 33<br />

probability<br />

0.001 0.005 0.020 0.050<br />

loi puissance : P(x) ≃ x −α<br />

sans échelle : la moyenne<br />

informe peu<br />

ici α ≃ 1.27<br />

1 2 5 10 20 50 100 200<br />

<strong>de</strong>gree<br />

17 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées


Sens <strong>de</strong>s statistiques<br />

La pertinence <strong>de</strong> la statistique<br />

dépend <strong>de</strong> la distribution<br />

Exemple :<br />

• blogs politiques<br />

• graphe <strong>de</strong>s liens entre les<br />

blogs (blogroll)<br />

• distribution <strong>de</strong>s <strong>de</strong>grés <strong>de</strong>s<br />

noeuds<br />

Frequency<br />

0 200 400 600<br />

Degree distribution<br />

0 100 200 300 400<br />

<strong>de</strong>gree<br />

µ = 27.36, σ = 38.42<br />

m = 13, δ = 33<br />

probability<br />

0.001 0.005 0.020 0.050<br />

1 2 5 10 20 50 100 200<br />

<strong>de</strong>gree<br />

loi puissance : P(x) ≃ x −α<br />

sans échelle : la moyenne<br />

informe peu<br />

ici α ≃ 1.27<br />

Adapter les statistiques<br />

aux données<br />

17 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées


Trois points <strong>de</strong> vue<br />

Histogramme <strong>de</strong>s heures travaillées par semaine<br />

Frequency<br />

0 5000 10000 15000<br />

0 20 40 60 80 100<br />

Heures<br />

Moyenne : 40.44, Écart-type : 12.35<br />

Médiane : 40, Interquartile : 5<br />

18 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées


Trois points <strong>de</strong> vue<br />

Histogramme <strong>de</strong>s heures travaillées par semaine<br />

Frequency<br />

0 5000 10000 15000<br />

0 20 40 60 80 100<br />

Heures<br />

Moyenne : 40.44, Écart-type : 12.35<br />

Médiane : 40, Interquartile : 5<br />

Compléments :<br />

• 47 % = 40 heures<br />

• 29 % > 40 heures<br />

• 24 % < 40 heures<br />

18 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées


Variables nominales<br />

variable nominale (ou qualitative) : variable à valeurs dans<br />

un ensemble fini quelconque (les modalités)<br />

quand les modalités sont ordonnées : variable ordinale<br />

19 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées


Variables nominales<br />

variable nominale (ou qualitative) : variable à valeurs dans<br />

un ensemble fini quelconque (les modalités)<br />

quand les modalités sont ordonnées : variable ordinale<br />

représentation par un diagramme à bâtons :<br />

• un bâton par modalité<br />

• hauteur proportionnelle à la fréquence <strong>de</strong> la modalité<br />

• ordre arbitraire sauf dans la cas ordinal<br />

19 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées


Variables nominales<br />

variable nominale (ou qualitative) : variable à valeurs dans<br />

un ensemble fini quelconque (les modalités)<br />

quand les modalités sont ordonnées : variable ordinale<br />

représentation par un diagramme à bâtons :<br />

• un bâton par modalité<br />

• hauteur proportionnelle à la fréquence <strong>de</strong> la modalité<br />

• ordre arbitraire sauf dans la cas ordinal<br />

0 5000 10000 20000<br />

0 4000 8000 12000<br />

Female<br />

Genre<br />

Male<br />

Divorced Married−civ−spouse Never−married Widowed<br />

Statut marital<br />

19 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées


Lisibilité<br />

Déséquilibre<br />

0 5000 15000 25000<br />

? China Ecuador Germany Honduras Iran Jamaica Nicaragua Poland South Vietnam<br />

20 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées


Lisibilité<br />

Déséquilibre<br />

0 5000 15000 25000<br />

? China Ecuador Germany Honduras Iran Jamaica Nicaragua Poland South Vietnam<br />

Grand nombre <strong>de</strong> modalités<br />

0 100 200 300 400 500 600<br />

? China Ecuador Germany Honduras Iran Jamaica Nicaragua Poland South Vietnam<br />

20 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées


Camembert<br />

Transport−moving<br />

?<br />

Machine−op−inspct<br />

Other−service<br />

Sales<br />

Adm−clerical<br />

Handlers−cleaners<br />

Farming−fishing<br />

Tech−support<br />

Protective−serv<br />

Priv−house−serv<br />

Armed−Forces<br />

Exec−managerial<br />

Prof−specialty<br />

Craft−repair<br />

représentation très classique<br />

versions “créatives” (3D...)<br />

mauvaise solution : lecture<br />

<strong>de</strong>s surfaces et <strong>de</strong>s angles<br />

difficiles<br />

21 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées


Camembert<br />

Transport−moving<br />

?<br />

Machine−op−inspct<br />

Other−service<br />

Sales<br />

Adm−clerical<br />

Handlers−cleaners<br />

Farming−fishing<br />

Tech−support<br />

Protective−serv<br />

Priv−house−serv<br />

Armed−Forces<br />

Exec−managerial<br />

Prof−specialty<br />

Craft−repair<br />

représentation très classique<br />

versions “créatives” (3D...)<br />

mauvaise solution : lecture<br />

<strong>de</strong>s surfaces et <strong>de</strong>s angles<br />

difficiles<br />

0 1000 2000 3000 4000<br />

Armed−Forces<br />

Priv−house−serv<br />

Protective−serv<br />

Tech−support<br />

Farming−fishing<br />

Handlers−cleaners<br />

Transport−moving<br />

?<br />

Machine−op−inspct<br />

Other−service<br />

Sales<br />

Adm−clerical<br />

Exec−managerial<br />

Craft−repair<br />

Prof−specialty<br />

21 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées


Plan<br />

Introduction<br />

Exploration<br />

Modélisation<br />

Modèle <strong>de</strong>s données<br />

<strong>Analyse</strong>s univariées<br />

Variables numériques<br />

Histogramme<br />

Boxplot et statistiques<br />

Variables nominales<br />

<strong>Analyse</strong>s multivariées<br />

Diagramme <strong>de</strong> dispersion<br />

Matrice <strong>de</strong> corrélation<br />

Diagramme mosaique<br />

Coordonnées parallèles<br />

Interaction<br />

22 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées


<strong>Analyse</strong>s conjointes<br />

Relativement peu d’information dans chaque variable<br />

<strong>Analyse</strong> croisée nécessaire<br />

Difficultés :<br />

• vision humaine limitée (2D ou 3D, formes et couleurs)<br />

• beaucoup <strong>de</strong> combinaisons possibles<br />

• variables incompatibles<br />

Solutions :<br />

• outils <strong>de</strong> la visualisation <strong>de</strong> l’information (interaction)<br />

• outils <strong>de</strong> l’apprentissage automatique (automatisation)<br />

23 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées


Diagramme <strong>de</strong> dispersion<br />

Deux variables numériques : l’une en fonction <strong>de</strong> l’autre<br />

scatter plot<br />

Superposition : alpha blending<br />

24 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées


Décoration<br />

Compléments du diagramme :<br />

• couleur en fonction d’une autre variable<br />

• symbole en fonction d’une autre variable<br />

Assez limité<br />

25 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées


Matrice <strong>de</strong> diagrammes<br />

matrice <strong>de</strong><br />

diagrammes <strong>de</strong><br />

dispersion<br />

tous les couples <strong>de</strong><br />

variables numériques<br />

limités à quelques<br />

variables (croissance<br />

quadratique)<br />

décorations possibles<br />

ici : 7 types <strong>de</strong> verre<br />

décrits par 9 variables<br />

26 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées


Corrélations<br />

Recherche <strong>de</strong> corrélations<br />

Représentation graphique <strong>de</strong><br />

la matrice <strong>de</strong> corrélation :<br />

• rouge : forte corrélation<br />

positive<br />

• bleu : forte corrélation<br />

négative<br />

RI<br />

Na<br />

Mg<br />

Al<br />

Si<br />

K<br />

Ca<br />

Ba<br />

Fe<br />

RI Na Mg Al Si K Ca Ba Fe<br />

27 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées


Corrélations<br />

Recherche <strong>de</strong> corrélations<br />

Représentation graphique <strong>de</strong><br />

la matrice <strong>de</strong> corrélation :<br />

• rouge : forte corrélation<br />

positive<br />

• bleu : forte corrélation<br />

négative<br />

Ici :<br />

• RI corrélé avec Ca<br />

• Mg anti-corrélé avec Al<br />

• RI anti-corrélé avec Si<br />

• Aucun lien entre Al et Si<br />

RI<br />

Na<br />

Mg<br />

Al<br />

Si<br />

K<br />

Ca<br />

Ba<br />

Fe<br />

RI Na Mg Al Si K Ca Ba Fe<br />

27 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées


Corrélation RI et Ca<br />

Corrélation = 0.811<br />

Ca<br />

6 8 10 12 14 16<br />

1.515 1.520 1.525 1.530<br />

RI<br />

28 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées


Corrélation RI et Si<br />

Corrélation = −0.539<br />

Si<br />

70 71 72 73 74 75<br />

1.515 1.520 1.525 1.530<br />

RI<br />

29 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées


Corrélation Al et Si<br />

Corrélation = −0.0162<br />

Si<br />

70 71 72 73 74 75<br />

0.5 1.0 1.5 2.0 2.5 3.0 3.5<br />

Al<br />

30 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées


Corrélation Mg et Al<br />

Corrélation = −0.48<br />

Al<br />

0.5 1.0 1.5 2.0 2.5 3.0 3.5<br />

0 1 2 3 4<br />

Mg<br />

31 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées


Mg et Al<br />

Histogramme <strong>de</strong> Mg<br />

Frequency<br />

0 20 40 60 80<br />

0 1 2 3 4<br />

Mg<br />

32 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées


Mg et Al<br />

Histogramme <strong>de</strong> Mg<br />

Histogramme <strong>de</strong> Al<br />

Frequency<br />

0 20 40 60 80<br />

Frequency<br />

0 20 40 60 80 100<br />

0 1 2 3 4<br />

Mg<br />

0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5<br />

Al<br />

32 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées


Mg et Al<br />

Histogramme <strong>de</strong> Mg<br />

Histogramme <strong>de</strong> Al<br />

Frequency<br />

0 20 40 60 80<br />

Frequency<br />

0 20 40 60 80 100<br />

0 1 2 3 4<br />

Mg<br />

0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5<br />

Al<br />

Histogramme <strong>de</strong> Al<br />

Frequency<br />

0 20 40 60 80 100<br />

0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5<br />

Al<br />

32 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées


Mg et Al<br />

Histogramme <strong>de</strong> Mg<br />

Histogramme <strong>de</strong> Al<br />

Frequency<br />

0 20 40 60 80<br />

0 1 2 3 4<br />

Mg<br />

Corrélation = −0.367<br />

Al<br />

0.5 1.0 1.5 2.0 2.5 3.0 3.5<br />

Frequency<br />

0 20 40 60 80 100<br />

0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5<br />

Al<br />

Histogramme <strong>de</strong> Al<br />

Frequency<br />

0 20 40 60 80 100<br />

0 1 2 3 4<br />

0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5<br />

Mg<br />

Al<br />

32 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées


Mg et Al<br />

Histogramme <strong>de</strong> Mg<br />

Histogramme <strong>de</strong> Al<br />

Frequency<br />

0 20 40 60 80<br />

0 1 2 3 4<br />

Mg<br />

Corrélation = −0.48<br />

Al<br />

0.5 1.0 1.5 2.0 2.5 3.0 3.5<br />

Frequency<br />

0 20 40 60 80 100<br />

0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5<br />

Al<br />

Histogramme <strong>de</strong> Al<br />

Frequency<br />

0 20 40 60 80 100<br />

0 1 2 3 4<br />

0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5<br />

Mg<br />

Al<br />

32 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées


Vision globale<br />

33 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées


Vision globale<br />

RI<br />

Na<br />

Mg<br />

Al<br />

Si<br />

K<br />

Ca<br />

Ba<br />

Fe<br />

RI Na Mg Al Si K Ca Ba Fe<br />

34 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées


Mosaic plot<br />

Équivalent du scatter plot pour les variables qualitatives<br />

0 5000 15000 25000<br />

Amer−Indian−Eskimo<br />

Asian−Pac−Islan<strong>de</strong>r<br />

Black<br />

Other<br />

White<br />

découpage récursif<br />

ethnicity<br />

Amer−Indian−Eskimo<br />

Asian−Pac−Islan<strong>de</strong>r<br />

Black<br />

Other<br />

White<br />

Female<br />

adults<br />

Male<br />

surface<br />

proportionnelle à la<br />

fréquence<br />

gen<strong>de</strong>r<br />

0 5000 10000 20000<br />

Female<br />

Male<br />

35 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées


Mosaic plot<br />

Équivalent du scatter plot pour les variables qualitatives<br />

0 5000 15000 25000<br />

Amer−Indian−Eskimo<br />

Asian−Pac−Islan<strong>de</strong>r<br />

Black<br />

Other<br />

White<br />

découpage récursif<br />

surface<br />

proportionnelle à la<br />

fréquence<br />

ethnicity<br />

Amer−Indian−Eskimo<br />

Asian−Pac−Islan<strong>de</strong>r<br />

Black<br />

Other<br />

White<br />

Female<br />

adults<br />

gen<strong>de</strong>r<br />

Male<br />

Standardized<br />

Residuals:<br />

4<br />

significativité<br />

0 5000 10000 20000<br />

Female<br />

Male<br />

35 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées


Mosaic plot<br />

Équivalent du scatter plot pour les variables qualitatives<br />

0 5000 15000 25000<br />

Amer−Indian−Eskimo<br />

Asian−Pac−Islan<strong>de</strong>r<br />

Black<br />

Other<br />

White<br />

découpage récursif<br />

surface<br />

proportionnelle à la<br />

fréquence<br />

significativité<br />

plus <strong>de</strong> 2 variables<br />

ethnicity<br />

Amer−Indian−Eskimo<br />

Asian−Pac−Islan<strong>de</strong>r<br />

Black<br />

Other<br />

White<br />

0 5000 10000 20000<br />

adults<br />

Female<br />

Male<br />

50K 50K<br />

gen<strong>de</strong>r<br />

0 5000 15000<br />

Female<br />

Male<br />

50K<br />

35 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées


Mosaic plot<br />

Équivalent du scatter plot pour les variables qualitatives<br />

0 5000 15000 25000<br />

Amer−Indian−Eskimo<br />

Asian−Pac−Islan<strong>de</strong>r<br />

Black<br />

Other<br />

White<br />

découpage récursif<br />

surface<br />

proportionnelle à la<br />

fréquence<br />

significativité<br />

plus <strong>de</strong> 2 variables<br />

ethnicity<br />

Amer−Indian−Eskimo<br />

Asian−Pac−Islan<strong>de</strong>r<br />

Black<br />

Other<br />

White<br />

0 5000 10000 20000<br />

adults<br />

Female<br />

Male<br />

50K 50K<br />

gen<strong>de</strong>r<br />

0 5000 15000<br />

Standardized<br />

Residuals:<br />

4<br />

Female<br />

Male<br />

50K<br />

35 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées


Coordonnées parallèles<br />

Métho<strong>de</strong> proposée en 1985 par A. Inselberg<br />

un axe vertical par variable<br />

un objet <strong>de</strong>vient une ligne brisée<br />

(x 1 , . . . , x p ) est représenté par la ligne brisée passant par<br />

(1, x 1 ), (2, x 2 ), . . ., (p, x p )<br />

x 5<br />

x 4<br />

x 1<br />

x 2<br />

x 3<br />

x 6<br />

1 2 3 4 5 6<br />

36 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées


Données Iris<br />

An<strong>de</strong>rson's/Fisher's Iris<br />

2.0 2.5 3.0 3.5 4.0<br />

0.5 1.0 1.5 2.0 2.5<br />

Sepal.Length<br />

●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

● ● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

● ●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

● ● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

● ●<br />

●<br />

●<br />

● ●<br />

●<br />

● ● ●<br />

● ●<br />

●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

● ● ●<br />

●<br />

● ●<br />

● ● ●<br />

●<br />

●<br />

●●<br />

●<br />

●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

● ●<br />

●<br />

●<br />

●<br />

● ●<br />

●<br />

● ●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

● ● ● ●<br />

●<br />

●<br />

●<br />

● ● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

● ●<br />

●<br />

●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

● ●<br />

●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●● ●<br />

●<br />

● ●<br />

●<br />

●<br />

● ● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

● ● ● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

● ●<br />

● ● ● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

4.5 5.5 6.5 7.5<br />

2.0 3.0 4.0<br />

●<br />

●<br />

●<br />

●<br />

●<br />

● ●<br />

● ●<br />

●●<br />

● ●<br />

●<br />

●<br />

● ●<br />

● ●<br />

●<br />

● ● ●●<br />

●<br />

● ● ●<br />

●<br />

●<br />

●<br />

● ●<br />

● ●<br />

●<br />

●●<br />

●<br />

●<br />

● ● ●<br />

●<br />

● ●<br />

●●●<br />

● ●●<br />

● ● ●<br />

●<br />

●<br />

●<br />

●●<br />

●●●<br />

● ● ● ●<br />

●<br />

● ● ●<br />

●<br />

●<br />

●<br />

● ●<br />

●●<br />

● ●<br />

●<br />

● ●<br />

●<br />

● ●<br />

●<br />

Sepal.Width<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

● ●<br />

●<br />

●<br />

●●<br />

●<br />

● ● ●<br />

●<br />

●<br />

● ●<br />

●<br />

●<br />

● ●<br />

●<br />

● ● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

● ● ●<br />

● ●<br />

●<br />

● ●<br />

●<br />

●<br />

●● ●<br />

● ●<br />

●<br />

●<br />

● ●●<br />

●<br />

● ● ●<br />

●<br />

●<br />

● ●<br />

● ●<br />

● ●<br />

●<br />

●<br />

●<br />

● ●<br />

●●<br />

●<br />

●<br />

● ● ●<br />

●<br />

●<br />

● ● ●<br />

● ●<br />

●<br />

●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

● ●<br />

●<br />

● ●<br />

●<br />

●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

● ●<br />

● ●<br />

● ●<br />

●<br />

●<br />

● ●<br />

● ●<br />

● ● ● ●<br />

●<br />

●<br />

●<br />

● ●<br />

●<br />

● ● ● ● ● ● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

● ● ● ●<br />

●<br />

●<br />

● ● ●<br />

●<br />

●<br />

●●<br />

●<br />

●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●●<br />

●<br />

● ●<br />

●<br />

● ●●<br />

● ●<br />

●<br />

●<br />

● ● ●● ●<br />

●<br />

● ● ●<br />

●●<br />

●●<br />

●<br />

● ●●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●●●<br />

● ●<br />

●<br />

● ● ●<br />

●<br />

●<br />

● ●<br />

●<br />

●<br />

●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

● ●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

● ●<br />

●<br />

● ●<br />

●<br />

●<br />

●<br />

● ●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

● ●<br />

● ●<br />

●<br />

●<br />

● ● ● ●<br />

● ● ●<br />

● ●<br />

● ●<br />

● ●<br />

● ●<br />

●<br />

●<br />

Petal.Length<br />

●<br />

●<br />

● ● ●<br />

●<br />

●<br />

●<br />

● ● ●<br />

● ● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

● ●<br />

●<br />

●<br />

● ●<br />

●<br />

● ● ●<br />

●<br />

●<br />

● ●<br />

●<br />

● ●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

1 2 3 4 5 6 7<br />

0.5 1.5 2.5<br />

● ●<br />

● ●<br />

●<br />

●●<br />

●<br />

●<br />

●●<br />

●●●<br />

● ●<br />

●●<br />

● ●<br />

● ●<br />

●<br />

●<br />

●●<br />

●●<br />

●●<br />

● ●●<br />

●<br />

●<br />

● ● ●<br />

● ●<br />

●●●<br />

●<br />

●<br />

●<br />

● ● ●<br />

●<br />

●●● ● ●●<br />

●<br />

●<br />

● ●<br />

●<br />

●<br />

●<br />

● ● ●●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●●<br />

●●<br />

●<br />

●<br />

●<br />

●<br />

● ●<br />

● ●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

● ●<br />

●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

● ●● ●●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

●<br />

● ● ● ●<br />

● ● ● ●<br />

●<br />

● ● ●<br />

●●● ●<br />

● ● ● ● ●<br />

●●<br />

● ●<br />

●<br />

● ● ●<br />

● ●<br />

●<br />

●<br />

●<br />

●<br />

● ●<br />

●<br />

●<br />

●●<br />

● ●<br />

●<br />

●<br />

● ●<br />

●<br />

● ● ●<br />

●<br />

●<br />

●<br />

Petal.Width<br />

4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0<br />

1 2 3 4 5 6 7<br />

4+1 variables, 150 objets<br />

37 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées


Données Iris<br />

An<strong>de</strong>rson's/Fisher's Iris<br />

Sepal.Length Sepal.Width Petal.Length Petal.Width<br />

38 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées


Données Iris<br />

An<strong>de</strong>rson's/Fisher's Iris<br />

Sepal.Length Sepal.Width Petal.Length Petal.Width Species<br />

38 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées


Attention à l’ordre<br />

An<strong>de</strong>rson's/Fisher's Iris<br />

Sepal.Length Sepal.Width Petal.Length Petal.Width<br />

Les variables Petal sont elles corrélées ?<br />

39 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées


Attention à l’ordre<br />

An<strong>de</strong>rson's/Fisher's Iris<br />

Petal.Length Sepal.Length Sepal.Width Petal.Width<br />

Les variables Petal sont elles corrélées ?<br />

39 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées


Interaction<br />

problèmes :<br />

• surcharge <strong>de</strong> l’écran<br />

• surcharge cognitive<br />

solution par interaction :<br />

• zoom<br />

• vues multiples<br />

• sélection et lien :<br />

• sélection d’une zone (brushing)<br />

• affichage <strong>de</strong>s résultats sur toutes les vues (linking)<br />

en R<br />

• iplots<br />

• ggobi et rggobi<br />

40 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées


iplots<br />

41 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées


iplots<br />

41 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées


iplots<br />

41 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées


iplots<br />

41 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!