Analyse exploratoire de données - Fabrice Rossi
Analyse exploratoire de données - Fabrice Rossi
Analyse exploratoire de données - Fabrice Rossi
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
<strong>Analyse</strong> <strong>exploratoire</strong> <strong>de</strong> données<br />
<strong>Fabrice</strong> <strong>Rossi</strong><br />
Télécom ParisTech
Plan<br />
Introduction<br />
Exploration<br />
Modélisation<br />
Modèle <strong>de</strong>s données<br />
<strong>Analyse</strong>s univariées<br />
Variables numériques<br />
Histogramme<br />
Boxplot et statistiques<br />
Variables nominales<br />
<strong>Analyse</strong>s multivariées<br />
Diagramme <strong>de</strong> dispersion<br />
Matrice <strong>de</strong> corrélation<br />
Diagramme mosaique<br />
Coordonnées parallèles<br />
Interaction<br />
2 / 41 F. <strong>Rossi</strong>
Plan<br />
Introduction<br />
Exploration<br />
Modélisation<br />
Modèle <strong>de</strong>s données<br />
<strong>Analyse</strong>s univariées<br />
Variables numériques<br />
Histogramme<br />
Boxplot et statistiques<br />
Variables nominales<br />
<strong>Analyse</strong>s multivariées<br />
Diagramme <strong>de</strong> dispersion<br />
Matrice <strong>de</strong> corrélation<br />
Diagramme mosaique<br />
Coordonnées parallèles<br />
Interaction<br />
3 / 41 F. <strong>Rossi</strong> Introduction
Exploiter <strong>de</strong>s données<br />
Que faire d’un paquet <strong>de</strong> données ?<br />
Comment exploiter le contenu d’un entrepôt <strong>de</strong> données ?<br />
4 / 41 F. <strong>Rossi</strong> Introduction
Exploiter <strong>de</strong>s données<br />
Que faire d’un paquet <strong>de</strong> données ?<br />
Comment exploiter le contenu d’un entrepôt <strong>de</strong> données ?<br />
recensement<br />
32561<br />
personnes<br />
15 attributs<br />
par personne<br />
4 / 41 F. <strong>Rossi</strong> Introduction
Exploiter <strong>de</strong>s données<br />
Que faire d’un paquet <strong>de</strong> données ?<br />
Comment exploiter le contenu d’un entrepôt <strong>de</strong> données ?<br />
recensement<br />
32561<br />
personnes<br />
15 attributs<br />
par personne<br />
Volume classique : milliers à millions <strong>de</strong> lignes, dizaine à<br />
centaines <strong>de</strong> colonnes<br />
Exploration systématique impossible (même pour <strong>de</strong> petits<br />
paquets <strong>de</strong> données)<br />
4 / 41 F. <strong>Rossi</strong> Introduction
Outils d’exploitation<br />
Support informatique et mathématique :<br />
• outils d’exploitation <strong>de</strong>s données<br />
• but : diminuer la charge cognitive pour l’analyste<br />
Deux gran<strong>de</strong>s classes d’outils :<br />
1. exploration<br />
2. modélisation<br />
5 / 41 F. <strong>Rossi</strong> Introduction
Outils d’exploitation<br />
Support informatique et mathématique :<br />
• outils d’exploitation <strong>de</strong>s données<br />
• but : diminuer la charge cognitive pour l’analyste<br />
Deux gran<strong>de</strong>s classes d’outils :<br />
1. exploration<br />
• pas d’idée a priori sur les données<br />
• recherche <strong>de</strong> régularité (dépendances, groupes homogènes,<br />
etc.)<br />
2. modélisation<br />
5 / 41 F. <strong>Rossi</strong> Introduction
Outils d’exploitation<br />
Support informatique et mathématique :<br />
• outils d’exploitation <strong>de</strong>s données<br />
• but : diminuer la charge cognitive pour l’analyste<br />
Deux gran<strong>de</strong>s classes d’outils :<br />
1. exploration<br />
• pas d’idée a priori sur les données<br />
• recherche <strong>de</strong> régularité (dépendances, groupes homogènes,<br />
etc.)<br />
2. modélisation<br />
• idée précise sur les données<br />
• construction <strong>de</strong> modèles prédictifs<br />
5 / 41 F. <strong>Rossi</strong> Introduction
Outils d’exploitation<br />
Support informatique et mathématique :<br />
• outils d’exploitation <strong>de</strong>s données<br />
• but : diminuer la charge cognitive pour l’analyste<br />
Deux gran<strong>de</strong>s classes d’outils :<br />
1. exploration<br />
• pas d’idée a priori sur les données<br />
• recherche <strong>de</strong> régularité (dépendances, groupes homogènes,<br />
etc.)<br />
2. modélisation<br />
• idée précise sur les données<br />
• construction <strong>de</strong> modèles prédictifs<br />
outil utilisé : R (http://R-project.org/)<br />
5 / 41 F. <strong>Rossi</strong> Introduction
<strong>Analyse</strong> <strong>exploratoire</strong><br />
Objectifs :<br />
• obtenir une vision globale d’un jeu <strong>de</strong> données<br />
• découvrir <strong>de</strong>s formes <strong>de</strong> régularité<br />
Moyens :<br />
• représentations visuelles (et interactives) <strong>de</strong>s données<br />
• recherche automatique <strong>de</strong> régularités :<br />
• corrélation et dépendance entre variables<br />
• groupes homogènes (classification)<br />
• schémas fréquents<br />
6 / 41 F. <strong>Rossi</strong> Introduction
<strong>Analyse</strong> <strong>exploratoire</strong><br />
Objectifs :<br />
• obtenir une vision globale d’un jeu <strong>de</strong> données<br />
• découvrir <strong>de</strong>s formes <strong>de</strong> régularité<br />
Moyens :<br />
• représentations visuelles (et interactives) <strong>de</strong>s données<br />
• recherche automatique <strong>de</strong> régularités :<br />
• corrélation et dépendance entre variables<br />
• groupes homogènes (classification)<br />
• schémas fréquents<br />
Height<br />
0 20 40 60 80 100<br />
PC2<br />
−2 0 2 4 6<br />
−6 −4 −2 0 2 4<br />
PC1<br />
6 / 41 F. <strong>Rossi</strong> Introduction
Modélisation<br />
Objectifs :<br />
• inférer <strong>de</strong>s informations inconnues<br />
• prédire l’évolution <strong>de</strong>s données<br />
Moyens :<br />
• données d’apprentissage :<br />
• connaître l’évolution d’une gran<strong>de</strong>ur dans le passé pour<br />
prédire son évolution future (données historiques)<br />
• connaître une propriété <strong>de</strong> certains objets (par exemple le<br />
salaire <strong>de</strong> certains clients) pour inférer sa valeur pour les<br />
autres objets<br />
• métho<strong>de</strong>s d’apprentissage : construire un modèle à partir<br />
<strong>de</strong>s données d’apprentissage<br />
7 / 41 F. <strong>Rossi</strong> Introduction
Modélisation<br />
Objectifs :<br />
• inférer <strong>de</strong>s informations inconnues<br />
• prédire l’évolution <strong>de</strong>s données<br />
Moyens :<br />
• données d’apprentissage :<br />
• connaître l’évolution d’une gran<strong>de</strong>ur dans le passé pour<br />
prédire son évolution future (données historiques)<br />
• connaître une propriété <strong>de</strong> certains objets (par exemple le<br />
salaire <strong>de</strong> certains clients) pour inférer sa valeur pour les<br />
autres objets<br />
• métho<strong>de</strong>s d’apprentissage : construire un modèle à partir<br />
<strong>de</strong>s données d’apprentissage<br />
Stratégie :<br />
• analyse <strong>exploratoire</strong><br />
• formulation d’hypothèses<br />
• construction <strong>de</strong> modèles pour vali<strong>de</strong>r les hypothèses<br />
7 / 41 F. <strong>Rossi</strong> Introduction
Modèle mathématique<br />
On a N observations, les z i ∈ Z<br />
Modèle statistique/probabiliste<br />
• il existe une distribution P Z sur Z inconnue<br />
• les z i sont <strong>de</strong>s réalisations <strong>de</strong> variables aléatoires avec<br />
cette distribution<br />
• les variables aléatoires sont indépendantes (en général)<br />
8 / 41 F. <strong>Rossi</strong> Introduction
Modèle mathématique<br />
On a N observations, les z i ∈ Z<br />
Modèle statistique/probabiliste<br />
• il existe une distribution P Z sur Z inconnue<br />
• les z i sont <strong>de</strong>s réalisations <strong>de</strong> variables aléatoires avec<br />
cette distribution<br />
• les variables aléatoires sont indépendantes (en général)<br />
En général<br />
• Z = Π P p=1 Z p : P variables pour décrire chaque objet<br />
• quand Z p ⊂ R : variable numérique (ou ordonnée)<br />
• quand Z p = {a, b, . . .} : variable nominale (un nombre fini<br />
<strong>de</strong> valeurs possibles non ordonnées)<br />
8 / 41 F. <strong>Rossi</strong> Introduction
Plan<br />
Introduction<br />
Exploration<br />
Modélisation<br />
Modèle <strong>de</strong>s données<br />
<strong>Analyse</strong>s univariées<br />
Variables numériques<br />
Histogramme<br />
Boxplot et statistiques<br />
Variables nominales<br />
<strong>Analyse</strong>s multivariées<br />
Diagramme <strong>de</strong> dispersion<br />
Matrice <strong>de</strong> corrélation<br />
Diagramme mosaique<br />
Coordonnées parallèles<br />
Interaction<br />
9 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées
<strong>Analyse</strong>s élémentaires<br />
Première étape d’une analyse <strong>exploratoire</strong><br />
• travailler variable par variable<br />
• numériquement et graphiquement<br />
Variable numérique<br />
• à valeurs dans R<br />
• statistiques classiques : moyenne, variance, médiane, etc.<br />
• représentations associées : histogramme, boxplot<br />
10 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées
<strong>Analyse</strong>s élémentaires<br />
Première étape d’une analyse <strong>exploratoire</strong><br />
• travailler variable par variable<br />
• numériquement et graphiquement<br />
Variable numérique<br />
• à valeurs dans R<br />
• statistiques classiques : moyenne, variance, médiane, etc.<br />
• représentations associées : histogramme, boxplot<br />
Variable âge : numérique<br />
10 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées
<strong>Analyse</strong>s élémentaires<br />
Première étape d’une analyse <strong>exploratoire</strong><br />
• travailler variable par variable<br />
• numériquement et graphiquement<br />
Variable numérique<br />
• à valeurs dans R<br />
• statistiques classiques : moyenne, variance, médiane, etc.<br />
• représentations associées : histogramme, boxplot<br />
Histogram of age<br />
Variable âge : numérique<br />
Density<br />
0.000 0.010 0.020<br />
0 20 40 60 80 100<br />
age<br />
10 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées
Histogramme<br />
Un histogramme représente une estimation <strong>de</strong> la<br />
distribution d’une variable<br />
Principe <strong>de</strong> construction :<br />
• division <strong>de</strong> l’intervalle [min, max] en K sous-intervalles<br />
(diverses règles pour K , par exemple ∼ log N)<br />
• dénombrement <strong>de</strong>s objets pour lesquels la valeur <strong>de</strong> la<br />
variable tombe dans chacun <strong>de</strong>s intervalles<br />
• représentation par <strong>de</strong>s barres <strong>de</strong> surfaces proportionnelles<br />
aux décomptes<br />
11 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées
Histogramme<br />
Un histogramme représente une estimation <strong>de</strong> la<br />
distribution d’une variable<br />
Principe <strong>de</strong> construction :<br />
• division <strong>de</strong> l’intervalle [min, max] en K sous-intervalles<br />
(diverses règles pour K , par exemple ∼ log N)<br />
• dénombrement <strong>de</strong>s objets pour lesquels la valeur <strong>de</strong> la<br />
variable tombe dans chacun <strong>de</strong>s intervalles<br />
• représentation par <strong>de</strong>s barres <strong>de</strong> surfaces proportionnelles<br />
aux décomptes<br />
Attention aux intervalles <strong>de</strong> longueurs différentes<br />
Histogram of dummy.unif<br />
Histogram of dummy.unif<br />
Density<br />
0.0 0.4 0.8<br />
Frequency<br />
0 50 150<br />
0.0 0.2 0.4 0.6 0.8 1.0<br />
dummy.unif<br />
0.0 0.2 0.4 0.6 0.8 1.0<br />
dummy.unif<br />
11 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées
Histogramme<br />
Un histogramme représente une estimation <strong>de</strong> la<br />
distribution d’une variable<br />
Principe <strong>de</strong> construction :<br />
• division <strong>de</strong> l’intervalle [min, max] en K sous-intervalles<br />
(diverses règles pour K , par exemple ∼ log N)<br />
• dénombrement <strong>de</strong>s objets pour lesquels la valeur <strong>de</strong> la<br />
variable tombe dans chacun <strong>de</strong>s intervalles<br />
• représentation par <strong>de</strong>s barres <strong>de</strong> surfaces proportionnelles<br />
aux décomptes<br />
Attention aux intervalles <strong>de</strong> longueurs différentes<br />
Histogram of dummy.unif<br />
Histogram of dummy.unif<br />
Density<br />
0.0 0.4 0.8<br />
Frequency<br />
0 200 600<br />
0.0 0.2 0.4 0.6 0.8 1.0<br />
dummy.unif<br />
0.0 0.2 0.4 0.6 0.8 1.0<br />
dummy.unif<br />
11 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées
Intérêts<br />
Histogram of age<br />
Histogramme <strong>de</strong>s heures travaillées par semaine<br />
Density<br />
0.000 0.010 0.020<br />
Frequency<br />
0 5000 10000 15000<br />
0 20 40 60 80 100<br />
age<br />
Âge<br />
0 20 40 60 80 100<br />
Heures<br />
Temps <strong>de</strong> travail<br />
Histogramme <strong>de</strong>s plus values<br />
Frequency<br />
0 5000 15000 25000<br />
0e+00 2e+04 4e+04 6e+04 8e+04 1e+05<br />
Plus values<br />
Plus values<br />
12 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées
Intérêts<br />
Histogram of age<br />
Histogramme <strong>de</strong>s heures travaillées par semaine<br />
Density<br />
0.000 0.010 0.020<br />
Frequency<br />
0 5000 10000 15000<br />
0 20 40 60 80 100<br />
0 20 40 60 80 100<br />
age<br />
Heures<br />
Âge<br />
Temps <strong>de</strong> travail<br />
Frequency<br />
0 5000 15000 25000<br />
Histogramme <strong>de</strong>s plus values<br />
Idée générale <strong>de</strong> la<br />
distribution<br />
0e+00 2e+04 4e+04 6e+04 8e+04 1e+05<br />
Plus values<br />
Plus values<br />
12 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées
Intérêts<br />
Histogram of age<br />
Histogramme <strong>de</strong>s heures travaillées par semaine<br />
Density<br />
0.000 0.010 0.020<br />
Frequency<br />
0 5000 10000 15000<br />
0 20 40 60 80 100<br />
0 20 40 60 80 100<br />
age<br />
Heures<br />
Âge<br />
Temps <strong>de</strong> travail<br />
Frequency<br />
0 5000 15000 25000<br />
Histogramme <strong>de</strong>s plus values<br />
Idée générale <strong>de</strong> la<br />
distribution<br />
“irrégularités”<br />
0e+00 2e+04 4e+04 6e+04 8e+04 1e+05<br />
Plus values<br />
Plus values<br />
12 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées
Intérêts<br />
Histogram of age<br />
Histogramme <strong>de</strong>s heures travaillées par semaine<br />
Density<br />
0.000 0.010 0.020<br />
Frequency<br />
0 5000 10000 15000<br />
0 20 40 60 80 100<br />
0 20 40 60 80 100<br />
age<br />
Heures<br />
Âge<br />
Temps <strong>de</strong> travail<br />
Frequency<br />
0 5000 15000 25000<br />
Histogramme <strong>de</strong>s plus values<br />
0e+00 2e+04 4e+04 6e+04 8e+04 1e+05<br />
Plus values<br />
Plus values<br />
Idée générale <strong>de</strong> la<br />
distribution<br />
“irrégularités”<br />
distribution complètement<br />
atypique<br />
12 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées
Limitations<br />
Histogramme <strong>de</strong>s plus values<br />
Frequency<br />
0 5000 15000 25000<br />
0e+00 2e+04 4e+04 6e+04 8e+04 1e+05<br />
Plus values<br />
presque aucune information :<br />
• presque toutes les valeurs sont négatives<br />
• quelques valeurs très gran<strong>de</strong>s<br />
13 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées
Limitations<br />
Histogramme <strong>de</strong>s plus values<br />
Frequency<br />
0 5000 15000 25000<br />
0e+00 2e+04 4e+04 6e+04 8e+04 1e+05<br />
Plus values<br />
presque aucune information :<br />
• presque toutes les valeurs sont négatives<br />
• quelques valeurs très gran<strong>de</strong>s<br />
comparaisons difficiles (cf la suite)<br />
13 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées
Boxplot<br />
a.k.a. boîte à moustaches ou boîte à<br />
pattes<br />
Représentation compacte d’une<br />
distribution<br />
• ligne centrale : médiane<br />
• ligne basse : premier quartile<br />
• ligne haute : troisième quartile<br />
• moustaches :<br />
• le max du min et <strong>de</strong> la médiane - 1.5<br />
l’intervalle interquartile<br />
• le min du max et <strong>de</strong> la médiane + 1.5<br />
l’intervalle interquartile<br />
• points atypiques (outliers) : au <strong>de</strong>là<br />
<strong>de</strong>s moustaches<br />
Âge<br />
20 40 60 80<br />
14 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées
Comparaison<br />
Histogram of age<br />
Density<br />
0.000 0.010 0.020<br />
0 20 40 60 80 100<br />
age<br />
Âge<br />
20 40 60 80<br />
15 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées
Comparaison<br />
Histogram of age<br />
Density<br />
0.000 0.010 0.020<br />
0 20 40 60 80 100<br />
age<br />
Âge<br />
20 40 60 80<br />
plus d’information<br />
plus dépouillé<br />
15 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées
Comparaison<br />
Histogram of age<br />
Density<br />
0.000 0.010 0.020<br />
0 20 40 60 80 100<br />
age<br />
Âge<br />
20 40 60 80<br />
plus d’information<br />
inférence moins précise<br />
plus dépouillé<br />
quelques informations<br />
très précises<br />
15 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées
Statistiques<br />
Indicateurs classiques :<br />
• tendance : moyenne et médiane<br />
• dispersion : écart-type, intervalle interquartile<br />
16 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées
Statistiques<br />
Indicateurs classiques :<br />
• tendance : moyenne et médiane<br />
• dispersion : écart-type, intervalle interquartile<br />
Interprétation parfois délicate :<br />
• moyenne = 990<br />
• médiane = 0<br />
• écart-type = 7410<br />
• intervalle interquartile = 0<br />
Frequency<br />
0 5000 15000 25000<br />
Histogramme <strong>de</strong>s plus values<br />
0e+00 2e+04 4e+04 6e+04 8e+04 1e+05<br />
Plus values<br />
16 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées
Statistiques<br />
Indicateurs classiques :<br />
• tendance : moyenne et médiane<br />
• dispersion : écart-type, intervalle interquartile<br />
Histogramme <strong>de</strong>s plus values<br />
Interprétation parfois délicate :<br />
• moyenne = 990<br />
• médiane = 0<br />
• écart-type = 7410<br />
• intervalle interquartile = 0<br />
0e+00 2e+04 4e+04 6e+04 8e+04 1e+05<br />
• meilleurs choix ici :<br />
Plus values<br />
• 87 % <strong>de</strong>s personnes ont une plus value nulle, 8.3 % positive<br />
et 4.7 % négative<br />
• puis statistiques sur les <strong>de</strong>ux groupes (par ex., perte<br />
médiane 1887)<br />
Frequency<br />
0 5000 15000 25000<br />
16 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées
Sens <strong>de</strong>s statistiques<br />
La pertinence <strong>de</strong> la statistique<br />
dépend <strong>de</strong> la distribution<br />
Exemple :<br />
• blogs politiques<br />
• graphe <strong>de</strong>s liens entre les<br />
blogs (blogroll)<br />
• distribution <strong>de</strong>s <strong>de</strong>grés <strong>de</strong>s<br />
noeuds<br />
Frequency<br />
0 200 400 600<br />
0 100<br />
Degree distribution<br />
200 300 400<br />
<strong>de</strong>gree<br />
µ = 27.36, σ = 38.42<br />
m = 13, δ = 33<br />
17 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées
Sens <strong>de</strong>s statistiques<br />
La pertinence <strong>de</strong> la statistique<br />
dépend <strong>de</strong> la distribution<br />
Exemple :<br />
• blogs politiques<br />
• graphe <strong>de</strong>s liens entre les<br />
blogs (blogroll)<br />
• distribution <strong>de</strong>s <strong>de</strong>grés <strong>de</strong>s<br />
noeuds<br />
Frequency<br />
0 200 400 600<br />
0 100<br />
Degree distribution<br />
200 300 400<br />
<strong>de</strong>gree<br />
µ = 27.36, σ = 38.42<br />
probability<br />
0.00 0.02 0.04 0.06 0.08 0.10<br />
m = 13, δ = 33<br />
loi puissance : P(x) ≃ x −α<br />
0 50 100 150 200 250 300 350<br />
<strong>de</strong>gree<br />
17 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées
Sens <strong>de</strong>s statistiques<br />
La pertinence <strong>de</strong> la statistique<br />
dépend <strong>de</strong> la distribution<br />
Exemple :<br />
• blogs politiques<br />
• graphe <strong>de</strong>s liens entre les<br />
blogs (blogroll)<br />
• distribution <strong>de</strong>s <strong>de</strong>grés <strong>de</strong>s<br />
noeuds<br />
Frequency<br />
0 200 400 600<br />
Degree distribution<br />
0 100 200 300 400<br />
<strong>de</strong>gree<br />
µ = 27.36, σ = 38.42<br />
m = 13, δ = 33<br />
probability<br />
0.001 0.005 0.020 0.050<br />
loi puissance : P(x) ≃ x −α<br />
sans échelle : la moyenne<br />
informe peu<br />
1 2 5 10 20 50 100 200<br />
<strong>de</strong>gree<br />
17 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées
Sens <strong>de</strong>s statistiques<br />
La pertinence <strong>de</strong> la statistique<br />
dépend <strong>de</strong> la distribution<br />
Exemple :<br />
• blogs politiques<br />
• graphe <strong>de</strong>s liens entre les<br />
blogs (blogroll)<br />
• distribution <strong>de</strong>s <strong>de</strong>grés <strong>de</strong>s<br />
noeuds<br />
Frequency<br />
0 200 400 600<br />
Degree distribution<br />
0 100 200 300 400<br />
<strong>de</strong>gree<br />
µ = 27.36, σ = 38.42<br />
m = 13, δ = 33<br />
probability<br />
0.001 0.005 0.020 0.050<br />
loi puissance : P(x) ≃ x −α<br />
sans échelle : la moyenne<br />
informe peu<br />
ici α ≃ 1.27<br />
1 2 5 10 20 50 100 200<br />
<strong>de</strong>gree<br />
17 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées
Sens <strong>de</strong>s statistiques<br />
La pertinence <strong>de</strong> la statistique<br />
dépend <strong>de</strong> la distribution<br />
Exemple :<br />
• blogs politiques<br />
• graphe <strong>de</strong>s liens entre les<br />
blogs (blogroll)<br />
• distribution <strong>de</strong>s <strong>de</strong>grés <strong>de</strong>s<br />
noeuds<br />
Frequency<br />
0 200 400 600<br />
Degree distribution<br />
0 100 200 300 400<br />
<strong>de</strong>gree<br />
µ = 27.36, σ = 38.42<br />
m = 13, δ = 33<br />
probability<br />
0.001 0.005 0.020 0.050<br />
1 2 5 10 20 50 100 200<br />
<strong>de</strong>gree<br />
loi puissance : P(x) ≃ x −α<br />
sans échelle : la moyenne<br />
informe peu<br />
ici α ≃ 1.27<br />
Adapter les statistiques<br />
aux données<br />
17 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées
Trois points <strong>de</strong> vue<br />
Histogramme <strong>de</strong>s heures travaillées par semaine<br />
Frequency<br />
0 5000 10000 15000<br />
0 20 40 60 80 100<br />
Heures<br />
Moyenne : 40.44, Écart-type : 12.35<br />
Médiane : 40, Interquartile : 5<br />
18 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées
Trois points <strong>de</strong> vue<br />
Histogramme <strong>de</strong>s heures travaillées par semaine<br />
Frequency<br />
0 5000 10000 15000<br />
0 20 40 60 80 100<br />
Heures<br />
Moyenne : 40.44, Écart-type : 12.35<br />
Médiane : 40, Interquartile : 5<br />
Compléments :<br />
• 47 % = 40 heures<br />
• 29 % > 40 heures<br />
• 24 % < 40 heures<br />
18 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées
Variables nominales<br />
variable nominale (ou qualitative) : variable à valeurs dans<br />
un ensemble fini quelconque (les modalités)<br />
quand les modalités sont ordonnées : variable ordinale<br />
19 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées
Variables nominales<br />
variable nominale (ou qualitative) : variable à valeurs dans<br />
un ensemble fini quelconque (les modalités)<br />
quand les modalités sont ordonnées : variable ordinale<br />
représentation par un diagramme à bâtons :<br />
• un bâton par modalité<br />
• hauteur proportionnelle à la fréquence <strong>de</strong> la modalité<br />
• ordre arbitraire sauf dans la cas ordinal<br />
19 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées
Variables nominales<br />
variable nominale (ou qualitative) : variable à valeurs dans<br />
un ensemble fini quelconque (les modalités)<br />
quand les modalités sont ordonnées : variable ordinale<br />
représentation par un diagramme à bâtons :<br />
• un bâton par modalité<br />
• hauteur proportionnelle à la fréquence <strong>de</strong> la modalité<br />
• ordre arbitraire sauf dans la cas ordinal<br />
0 5000 10000 20000<br />
0 4000 8000 12000<br />
Female<br />
Genre<br />
Male<br />
Divorced Married−civ−spouse Never−married Widowed<br />
Statut marital<br />
19 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées
Lisibilité<br />
Déséquilibre<br />
0 5000 15000 25000<br />
? China Ecuador Germany Honduras Iran Jamaica Nicaragua Poland South Vietnam<br />
20 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées
Lisibilité<br />
Déséquilibre<br />
0 5000 15000 25000<br />
? China Ecuador Germany Honduras Iran Jamaica Nicaragua Poland South Vietnam<br />
Grand nombre <strong>de</strong> modalités<br />
0 100 200 300 400 500 600<br />
? China Ecuador Germany Honduras Iran Jamaica Nicaragua Poland South Vietnam<br />
20 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées
Camembert<br />
Transport−moving<br />
?<br />
Machine−op−inspct<br />
Other−service<br />
Sales<br />
Adm−clerical<br />
Handlers−cleaners<br />
Farming−fishing<br />
Tech−support<br />
Protective−serv<br />
Priv−house−serv<br />
Armed−Forces<br />
Exec−managerial<br />
Prof−specialty<br />
Craft−repair<br />
représentation très classique<br />
versions “créatives” (3D...)<br />
mauvaise solution : lecture<br />
<strong>de</strong>s surfaces et <strong>de</strong>s angles<br />
difficiles<br />
21 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées
Camembert<br />
Transport−moving<br />
?<br />
Machine−op−inspct<br />
Other−service<br />
Sales<br />
Adm−clerical<br />
Handlers−cleaners<br />
Farming−fishing<br />
Tech−support<br />
Protective−serv<br />
Priv−house−serv<br />
Armed−Forces<br />
Exec−managerial<br />
Prof−specialty<br />
Craft−repair<br />
représentation très classique<br />
versions “créatives” (3D...)<br />
mauvaise solution : lecture<br />
<strong>de</strong>s surfaces et <strong>de</strong>s angles<br />
difficiles<br />
0 1000 2000 3000 4000<br />
Armed−Forces<br />
Priv−house−serv<br />
Protective−serv<br />
Tech−support<br />
Farming−fishing<br />
Handlers−cleaners<br />
Transport−moving<br />
?<br />
Machine−op−inspct<br />
Other−service<br />
Sales<br />
Adm−clerical<br />
Exec−managerial<br />
Craft−repair<br />
Prof−specialty<br />
21 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s univariées
Plan<br />
Introduction<br />
Exploration<br />
Modélisation<br />
Modèle <strong>de</strong>s données<br />
<strong>Analyse</strong>s univariées<br />
Variables numériques<br />
Histogramme<br />
Boxplot et statistiques<br />
Variables nominales<br />
<strong>Analyse</strong>s multivariées<br />
Diagramme <strong>de</strong> dispersion<br />
Matrice <strong>de</strong> corrélation<br />
Diagramme mosaique<br />
Coordonnées parallèles<br />
Interaction<br />
22 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées
<strong>Analyse</strong>s conjointes<br />
Relativement peu d’information dans chaque variable<br />
<strong>Analyse</strong> croisée nécessaire<br />
Difficultés :<br />
• vision humaine limitée (2D ou 3D, formes et couleurs)<br />
• beaucoup <strong>de</strong> combinaisons possibles<br />
• variables incompatibles<br />
Solutions :<br />
• outils <strong>de</strong> la visualisation <strong>de</strong> l’information (interaction)<br />
• outils <strong>de</strong> l’apprentissage automatique (automatisation)<br />
23 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées
Diagramme <strong>de</strong> dispersion<br />
Deux variables numériques : l’une en fonction <strong>de</strong> l’autre<br />
scatter plot<br />
Superposition : alpha blending<br />
24 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées
Décoration<br />
Compléments du diagramme :<br />
• couleur en fonction d’une autre variable<br />
• symbole en fonction d’une autre variable<br />
Assez limité<br />
25 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées
Matrice <strong>de</strong> diagrammes<br />
matrice <strong>de</strong><br />
diagrammes <strong>de</strong><br />
dispersion<br />
tous les couples <strong>de</strong><br />
variables numériques<br />
limités à quelques<br />
variables (croissance<br />
quadratique)<br />
décorations possibles<br />
ici : 7 types <strong>de</strong> verre<br />
décrits par 9 variables<br />
26 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées
Corrélations<br />
Recherche <strong>de</strong> corrélations<br />
Représentation graphique <strong>de</strong><br />
la matrice <strong>de</strong> corrélation :<br />
• rouge : forte corrélation<br />
positive<br />
• bleu : forte corrélation<br />
négative<br />
RI<br />
Na<br />
Mg<br />
Al<br />
Si<br />
K<br />
Ca<br />
Ba<br />
Fe<br />
RI Na Mg Al Si K Ca Ba Fe<br />
27 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées
Corrélations<br />
Recherche <strong>de</strong> corrélations<br />
Représentation graphique <strong>de</strong><br />
la matrice <strong>de</strong> corrélation :<br />
• rouge : forte corrélation<br />
positive<br />
• bleu : forte corrélation<br />
négative<br />
Ici :<br />
• RI corrélé avec Ca<br />
• Mg anti-corrélé avec Al<br />
• RI anti-corrélé avec Si<br />
• Aucun lien entre Al et Si<br />
RI<br />
Na<br />
Mg<br />
Al<br />
Si<br />
K<br />
Ca<br />
Ba<br />
Fe<br />
RI Na Mg Al Si K Ca Ba Fe<br />
27 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées
Corrélation RI et Ca<br />
Corrélation = 0.811<br />
Ca<br />
6 8 10 12 14 16<br />
1.515 1.520 1.525 1.530<br />
RI<br />
28 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées
Corrélation RI et Si<br />
Corrélation = −0.539<br />
Si<br />
70 71 72 73 74 75<br />
1.515 1.520 1.525 1.530<br />
RI<br />
29 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées
Corrélation Al et Si<br />
Corrélation = −0.0162<br />
Si<br />
70 71 72 73 74 75<br />
0.5 1.0 1.5 2.0 2.5 3.0 3.5<br />
Al<br />
30 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées
Corrélation Mg et Al<br />
Corrélation = −0.48<br />
Al<br />
0.5 1.0 1.5 2.0 2.5 3.0 3.5<br />
0 1 2 3 4<br />
Mg<br />
31 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées
Mg et Al<br />
Histogramme <strong>de</strong> Mg<br />
Frequency<br />
0 20 40 60 80<br />
0 1 2 3 4<br />
Mg<br />
32 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées
Mg et Al<br />
Histogramme <strong>de</strong> Mg<br />
Histogramme <strong>de</strong> Al<br />
Frequency<br />
0 20 40 60 80<br />
Frequency<br />
0 20 40 60 80 100<br />
0 1 2 3 4<br />
Mg<br />
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5<br />
Al<br />
32 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées
Mg et Al<br />
Histogramme <strong>de</strong> Mg<br />
Histogramme <strong>de</strong> Al<br />
Frequency<br />
0 20 40 60 80<br />
Frequency<br />
0 20 40 60 80 100<br />
0 1 2 3 4<br />
Mg<br />
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5<br />
Al<br />
Histogramme <strong>de</strong> Al<br />
Frequency<br />
0 20 40 60 80 100<br />
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5<br />
Al<br />
32 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées
Mg et Al<br />
Histogramme <strong>de</strong> Mg<br />
Histogramme <strong>de</strong> Al<br />
Frequency<br />
0 20 40 60 80<br />
0 1 2 3 4<br />
Mg<br />
Corrélation = −0.367<br />
Al<br />
0.5 1.0 1.5 2.0 2.5 3.0 3.5<br />
Frequency<br />
0 20 40 60 80 100<br />
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5<br />
Al<br />
Histogramme <strong>de</strong> Al<br />
Frequency<br />
0 20 40 60 80 100<br />
0 1 2 3 4<br />
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5<br />
Mg<br />
Al<br />
32 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées
Mg et Al<br />
Histogramme <strong>de</strong> Mg<br />
Histogramme <strong>de</strong> Al<br />
Frequency<br />
0 20 40 60 80<br />
0 1 2 3 4<br />
Mg<br />
Corrélation = −0.48<br />
Al<br />
0.5 1.0 1.5 2.0 2.5 3.0 3.5<br />
Frequency<br />
0 20 40 60 80 100<br />
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5<br />
Al<br />
Histogramme <strong>de</strong> Al<br />
Frequency<br />
0 20 40 60 80 100<br />
0 1 2 3 4<br />
0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5<br />
Mg<br />
Al<br />
32 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées
Vision globale<br />
33 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées
Vision globale<br />
RI<br />
Na<br />
Mg<br />
Al<br />
Si<br />
K<br />
Ca<br />
Ba<br />
Fe<br />
RI Na Mg Al Si K Ca Ba Fe<br />
34 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées
Mosaic plot<br />
Équivalent du scatter plot pour les variables qualitatives<br />
0 5000 15000 25000<br />
Amer−Indian−Eskimo<br />
Asian−Pac−Islan<strong>de</strong>r<br />
Black<br />
Other<br />
White<br />
découpage récursif<br />
ethnicity<br />
Amer−Indian−Eskimo<br />
Asian−Pac−Islan<strong>de</strong>r<br />
Black<br />
Other<br />
White<br />
Female<br />
adults<br />
Male<br />
surface<br />
proportionnelle à la<br />
fréquence<br />
gen<strong>de</strong>r<br />
0 5000 10000 20000<br />
Female<br />
Male<br />
35 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées
Mosaic plot<br />
Équivalent du scatter plot pour les variables qualitatives<br />
0 5000 15000 25000<br />
Amer−Indian−Eskimo<br />
Asian−Pac−Islan<strong>de</strong>r<br />
Black<br />
Other<br />
White<br />
découpage récursif<br />
surface<br />
proportionnelle à la<br />
fréquence<br />
ethnicity<br />
Amer−Indian−Eskimo<br />
Asian−Pac−Islan<strong>de</strong>r<br />
Black<br />
Other<br />
White<br />
Female<br />
adults<br />
gen<strong>de</strong>r<br />
Male<br />
Standardized<br />
Residuals:<br />
4<br />
significativité<br />
0 5000 10000 20000<br />
Female<br />
Male<br />
35 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées
Mosaic plot<br />
Équivalent du scatter plot pour les variables qualitatives<br />
0 5000 15000 25000<br />
Amer−Indian−Eskimo<br />
Asian−Pac−Islan<strong>de</strong>r<br />
Black<br />
Other<br />
White<br />
découpage récursif<br />
surface<br />
proportionnelle à la<br />
fréquence<br />
significativité<br />
plus <strong>de</strong> 2 variables<br />
ethnicity<br />
Amer−Indian−Eskimo<br />
Asian−Pac−Islan<strong>de</strong>r<br />
Black<br />
Other<br />
White<br />
0 5000 10000 20000<br />
adults<br />
Female<br />
Male<br />
50K 50K<br />
gen<strong>de</strong>r<br />
0 5000 15000<br />
Female<br />
Male<br />
50K<br />
35 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées
Mosaic plot<br />
Équivalent du scatter plot pour les variables qualitatives<br />
0 5000 15000 25000<br />
Amer−Indian−Eskimo<br />
Asian−Pac−Islan<strong>de</strong>r<br />
Black<br />
Other<br />
White<br />
découpage récursif<br />
surface<br />
proportionnelle à la<br />
fréquence<br />
significativité<br />
plus <strong>de</strong> 2 variables<br />
ethnicity<br />
Amer−Indian−Eskimo<br />
Asian−Pac−Islan<strong>de</strong>r<br />
Black<br />
Other<br />
White<br />
0 5000 10000 20000<br />
adults<br />
Female<br />
Male<br />
50K 50K<br />
gen<strong>de</strong>r<br />
0 5000 15000<br />
Standardized<br />
Residuals:<br />
4<br />
Female<br />
Male<br />
50K<br />
35 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées
Coordonnées parallèles<br />
Métho<strong>de</strong> proposée en 1985 par A. Inselberg<br />
un axe vertical par variable<br />
un objet <strong>de</strong>vient une ligne brisée<br />
(x 1 , . . . , x p ) est représenté par la ligne brisée passant par<br />
(1, x 1 ), (2, x 2 ), . . ., (p, x p )<br />
x 5<br />
x 4<br />
x 1<br />
x 2<br />
x 3<br />
x 6<br />
1 2 3 4 5 6<br />
36 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées
Données Iris<br />
An<strong>de</strong>rson's/Fisher's Iris<br />
2.0 2.5 3.0 3.5 4.0<br />
0.5 1.0 1.5 2.0 2.5<br />
Sepal.Length<br />
●<br />
● ●<br />
●<br />
●<br />
●<br />
●<br />
● ● ●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
● ●<br />
● ●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
● ●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
● ● ●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
● ●<br />
●<br />
●<br />
● ●<br />
●<br />
● ● ●<br />
● ●<br />
●<br />
● ●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
● ● ●<br />
●<br />
● ●<br />
● ● ●<br />
●<br />
●<br />
●●<br />
●<br />
●<br />
● ●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
● ●<br />
●<br />
●<br />
●<br />
● ●<br />
●<br />
● ●<br />
● ●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
● ● ● ●<br />
●<br />
●<br />
●<br />
● ● ●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
● ●<br />
●<br />
●<br />
● ●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
● ●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
● ●<br />
●<br />
● ●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●● ●<br />
●<br />
● ●<br />
●<br />
●<br />
● ● ●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
● ● ● ●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
● ●<br />
● ● ● ●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
4.5 5.5 6.5 7.5<br />
2.0 3.0 4.0<br />
●<br />
●<br />
●<br />
●<br />
●<br />
● ●<br />
● ●<br />
●●<br />
● ●<br />
●<br />
●<br />
● ●<br />
● ●<br />
●<br />
● ● ●●<br />
●<br />
● ● ●<br />
●<br />
●<br />
●<br />
● ●<br />
● ●<br />
●<br />
●●<br />
●<br />
●<br />
● ● ●<br />
●<br />
● ●<br />
●●●<br />
● ●●<br />
● ● ●<br />
●<br />
●<br />
●<br />
●●<br />
●●●<br />
● ● ● ●<br />
●<br />
● ● ●<br />
●<br />
●<br />
●<br />
● ●<br />
●●<br />
● ●<br />
●<br />
● ●<br />
●<br />
● ●<br />
●<br />
Sepal.Width<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
● ●<br />
●<br />
●<br />
●●<br />
●<br />
● ● ●<br />
●<br />
●<br />
● ●<br />
●<br />
●<br />
● ●<br />
●<br />
● ● ●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
● ● ●<br />
● ●<br />
●<br />
● ●<br />
●<br />
●<br />
●● ●<br />
● ●<br />
●<br />
●<br />
● ●●<br />
●<br />
● ● ●<br />
●<br />
●<br />
● ●<br />
● ●<br />
● ●<br />
●<br />
●<br />
●<br />
● ●<br />
●●<br />
●<br />
●<br />
● ● ●<br />
●<br />
●<br />
● ● ●<br />
● ●<br />
●<br />
●<br />
● ●<br />
●<br />
●<br />
●<br />
●<br />
● ●<br />
●<br />
● ●<br />
●<br />
●<br />
● ●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
● ●<br />
● ●<br />
● ●<br />
●<br />
●<br />
● ●<br />
● ●<br />
● ● ● ●<br />
●<br />
●<br />
●<br />
● ●<br />
●<br />
● ● ● ● ● ● ●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
● ● ● ●<br />
●<br />
●<br />
● ● ●<br />
●<br />
●<br />
●●<br />
●<br />
●<br />
● ●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●●<br />
●<br />
● ●<br />
●<br />
● ●●<br />
● ●<br />
●<br />
●<br />
● ● ●● ●<br />
●<br />
● ● ●<br />
●●<br />
●●<br />
●<br />
● ●●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●●●<br />
● ●<br />
●<br />
● ● ●<br />
●<br />
●<br />
● ●<br />
●<br />
●<br />
●<br />
● ●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
● ●<br />
● ●<br />
●<br />
●<br />
●<br />
●<br />
● ●<br />
●<br />
●<br />
●<br />
●<br />
● ●<br />
●<br />
● ●<br />
●<br />
●<br />
●<br />
● ●<br />
● ●<br />
●<br />
●<br />
●<br />
●<br />
● ●<br />
● ●<br />
●<br />
●<br />
● ● ● ●<br />
● ● ●<br />
● ●<br />
● ●<br />
● ●<br />
● ●<br />
●<br />
●<br />
Petal.Length<br />
●<br />
●<br />
● ● ●<br />
●<br />
●<br />
●<br />
● ● ●<br />
● ● ●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
● ●<br />
●<br />
●<br />
● ●<br />
●<br />
● ● ●<br />
●<br />
●<br />
● ●<br />
●<br />
● ●<br />
● ●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
1 2 3 4 5 6 7<br />
0.5 1.5 2.5<br />
● ●<br />
● ●<br />
●<br />
●●<br />
●<br />
●<br />
●●<br />
●●●<br />
● ●<br />
●●<br />
● ●<br />
● ●<br />
●<br />
●<br />
●●<br />
●●<br />
●●<br />
● ●●<br />
●<br />
●<br />
● ● ●<br />
● ●<br />
●●●<br />
●<br />
●<br />
●<br />
● ● ●<br />
●<br />
●●● ● ●●<br />
●<br />
●<br />
● ●<br />
●<br />
●<br />
●<br />
● ● ●●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●●<br />
●●<br />
●<br />
●<br />
●<br />
●<br />
● ●<br />
● ●<br />
● ●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
● ●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
● ●<br />
●<br />
● ●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
● ●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
● ●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
● ●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
● ●● ●●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
●<br />
● ● ● ●<br />
● ● ● ●<br />
●<br />
● ● ●<br />
●●● ●<br />
● ● ● ● ●<br />
●●<br />
● ●<br />
●<br />
● ● ●<br />
● ●<br />
●<br />
●<br />
●<br />
●<br />
● ●<br />
●<br />
●<br />
●●<br />
● ●<br />
●<br />
●<br />
● ●<br />
●<br />
● ● ●<br />
●<br />
●<br />
●<br />
Petal.Width<br />
4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0<br />
1 2 3 4 5 6 7<br />
4+1 variables, 150 objets<br />
37 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées
Données Iris<br />
An<strong>de</strong>rson's/Fisher's Iris<br />
Sepal.Length Sepal.Width Petal.Length Petal.Width<br />
38 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées
Données Iris<br />
An<strong>de</strong>rson's/Fisher's Iris<br />
Sepal.Length Sepal.Width Petal.Length Petal.Width Species<br />
38 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées
Attention à l’ordre<br />
An<strong>de</strong>rson's/Fisher's Iris<br />
Sepal.Length Sepal.Width Petal.Length Petal.Width<br />
Les variables Petal sont elles corrélées ?<br />
39 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées
Attention à l’ordre<br />
An<strong>de</strong>rson's/Fisher's Iris<br />
Petal.Length Sepal.Length Sepal.Width Petal.Width<br />
Les variables Petal sont elles corrélées ?<br />
39 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées
Interaction<br />
problèmes :<br />
• surcharge <strong>de</strong> l’écran<br />
• surcharge cognitive<br />
solution par interaction :<br />
• zoom<br />
• vues multiples<br />
• sélection et lien :<br />
• sélection d’une zone (brushing)<br />
• affichage <strong>de</strong>s résultats sur toutes les vues (linking)<br />
en R<br />
• iplots<br />
• ggobi et rggobi<br />
40 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées
iplots<br />
41 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées
iplots<br />
41 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées
iplots<br />
41 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées
iplots<br />
41 / 41 F. <strong>Rossi</strong> <strong>Analyse</strong>s multivariées