Analyse en composantes principales

Recommendations

Info

cidre odeur sucre acide amer astringence suffocante piquante alcool parfum fruitée 1 2,14 1,86 3,29 2,29 2 0,14 2,29 1,86 1,29 1,29 2 2,43 0,79 2,71 2,57 2 0,43 2,57 2,86 0,43 0,14 3 2,71 3,14 2,57 2,57 1,43 0,14 2,14 0,86 2,29 1,71 4 3 3,71 2,14 2,07 1,57 0 1,29 1 3,14 3,14 5 3,43 1,29 2,86 3,14 2,17 1 1,86 2,86 1,14 0,29 6 3,14 0,86 2,86 3,79 2,57 0,14 1,71 3,29 0,14 0 7 3,14 1,14 2,86 2,86 2 0,43 1,71 1,86 0,14 0 8 2,43 3,71 3,21 1,57 1,71 0 1 0,57 2,57 2,86 9 5,1 2,86 2,86 3,07 1,79 1,71 0,43 1,43 0,57 2,71 10 3,07 3,14 2,57 3 2 0 0,43 1,29 2,57 3,07 TAB. 1 – Notes obtenues par 10 marques de cidres sur 10 critères lors d’un concours agricole. suivante : Y = X −1g t où 1 est le vecteur de R n dont toutes les composantes valent 1. Le terme centré signifie que les moyennes des variables y j sont nulles. 35 1.2 Matrice de variance On note s 2 j = ∑ 1 n ∑ n i=1 (xj i − ¯xj ) 2 la variance de la variable j, sa racine carré s j est l’écart-type et v kl = 1 n n i=1 (xk i − ¯x k )(x l i − ¯x l ) est la covariance des variables k et l. On appelle matrice de variance la matrice symétrique V contenant les variances s 2 j sur la diagonale et les covariances v kl en dehors de la diagonale (ligne k colonne l pour v kl ). Cette matrice s’écrit : V = 1 n Xt X − gg t = 1 n Y t Y. (2) 40 45 50 De même, on définit le coefficient de corrélation linéaire entre les variables k et l par r kl = v kl Ce coefficient exprime le niveau de corrélation (linéaire) entre les variables k et l : plus il est proche de 1, plus les variables sont corrélées positivement, plus il est proche de -1, plus elles sont corrélées négativement. Un coefficient de corrélation nul indique l’absence de corrélation linéaire. En divisant chaque colonne j du tableau centré Y par l’écart-type s j de la variable j, on construit le tableau Z des données centrées réduites : z j i = (xj i − ¯xj )/s j . La matrice Z s’exprime en fonction de X par Z = (X − 1g t )D 1/s où D 1/s est la matrice diagonale contenant 1 s 1 , . . ., 1 s p sur sa diagonale. Le terme réduit signifie que les variances des variables z j sont égales à 1. La matrice R = D 1/s V D 1/s est dite de corrélation. Regroupant les coefficients de corrélation linéaire entre les p variables prises deux à deux, elle résume la structure des dépendances linéaires entre les p variables. Elle est symétrique et sa diagonale est composée de 1. s k s l . La matrice de corrélation pour l’exemple des cidres est la suivante (Table 2, les corrélations importantes apparaissent en gras). 2
odeur sucre acide amer astringence suffocante piquante alcool parfum fruitée odeur 1,00 0,08 -0,16 0,49 0,04 0,84 -0,61 0,03 -0,29 0,18 sucre 0,08 1,00 -0,29 -0,60 -0,77 -0,19 -0,61 -0,92 0,87 0,95 acide -0,16 -0,29 1,00 -0,08 0,34 0,14 0,14 0,15 -0,40 -0,27 amer 0,49 -0,60 -0,08 1,00 0,71 0,38 -0,03 0,70 -0,63 -0,50 astringence 0,04 -0,77 0,34 0,71 1,00 0,07 0,14 0,86 -0,66 -0,64 suffocante 0,84 -0,19 0,14 0,38 0,07 1,00 -0,23 0,22 -0,50 -0,10 piquante -0,61 -0,61 0,14 -0,03 0,14 -0,23 1,00 0,48 -0,33 -0,73 alcool 0,03 -0,92 0,15 0,70 0,86 0,22 0,48 1,00 -0,76 -0,83 parfum -0,29 0,87 -0,40 -0,63 -0,66 -0,50 -0,33 -0,76 1,00 0,80 fruitée 0,18 0,95 -0,27 -0,50 -0,64 -0,10 -0,73 -0,83 0,80 1,00 TAB. 2 – Matrice de corrélation des critères notés sur les cidres. 2 Les espaces des individus et des variables 55 60 2.1 L’espace des individus 2.1.1 La métrique Dans l’espace des individus, que nous supposerons ici être R p , chaque individu est représenté par un point, formant ainsi un nuage de points. L’objectif de l’ACP est de visualiser ce nuage de point dans un espace de faible dimension le plus fidèlement possible. L’analyse repose donc sur les distances entre individus dans R p , et le choix de la métrique aura donc une influence sur le résultat de l’ACP. La distance d(i, j) entre deux individus i et j peut s’écrire de façon générale : d 2 (i, j) = d 2 (x i , x j ) = ||x i − x j || 2 M =< x i − x j , x i − x j > M = (x i − x j ) t M(x i − x j ). (3) 65 où M est une matrice symétrique définie positive de taille p spécifiant la distance choisie, < , > M et || || M étant le produit scalaire et la norme associés à la métrique M. Lorsque toutes les variables sont exprimées dans la même unité (ce qui est le cas dans l’exemple des cidres) et que les variances ne sont pas trop différentes (de sorte que chaque variable ait la même importance dans le calcul des distances entre points), la distance euclidienne convient. La métrique est alors la matrice identité M = I et la distance euclidienne s’écrit classiquement : d(i, j) = ( p∑ k=1(x k i − xk j )2 )1 2 . (4) 70 75 Dans le cas contraire, la métrique la plus couramment utilisée est la métrique des inverses des variances 1 M = D 1/s 2, où D 1/s 2 est la matrice diagonale contenant , . . ., 1 sur sa diagonale. Cette métrique s 2 1 s 2 p permet à la fois de s’affranchir de l’unité de mesure et de donner à chaque variable la même importance dans le calcul de la distance. C’est cette métrique que nous utiliserons dans ce document. Remarque 2.1. La matrice de la métrique des inverses des variances peut s’écrire M = D 1/s 2 = D 1/s D 1/s . Ainsi, la distance entre deux individus i et j est d 2 (i, j) = (x i − x j ) t D 1/s D 1/s (x i − x j ) = (D 1/s x i − D 1/s x j ) t (D 1/s x i − D 1/s x j ). (5) 3
Page 1: Analyse en composantes principales
Page 5 and 6: h F ⊥ i F ⊥ x i F g h Fi FIG. 1
Page 7 and 8: Théorème 3.1. Soit F k un sous-es
Page 9 and 10: 220 225 230 235 240 où v j k est l
Page 11 and 12: FIG. 4 - Projections des individus

Analyse en composantes principales

Create successful ePaper yourself

Delete template?

Save as template?