Analyse en composantes principales

Recommendations

Info

185 190 Le vecteur u maximisant cette quantité n’est autre que v 2 , le vecteur propre associé à la seconde plus grande valeur propre λ 2 de R, pour lequel on a donc I ∆ ⊥ v2 = λ 2 . Et ainsi de suite. On en déduit ainsi le théorème suivant. Théorème 3.2. Le sous-espace F K de dimension K portant l’inertie maximale est engendré par les K vecteurs propres associés aux K plus grandes valeurs propres de la matrice de corrélation R du nuage des individus. 3.3 Notations – Les axes ∆ vk sont appelés axes factoriels ou axes principaux. – L’inertie expliquée par l’axe ∆ vk est la valeur propre λ k – L’inertie expliquée par le sous-espace factoriel F K engendré par les axes factoriels est I F ⊥ K = λ 1 + . . . + λ K , (25) et le pourcentage d’inertie expliqué par ce sous-espace est donc λ 1+...+λ K p . – On appelle k-ième composante principale les coordonnées c k ∈ R n des n individus sur l’axe factoriel ∆ vk , qui sont les projections des individus sur ces axes : c k = Zv k . (26) Les composantes principales peuvent être vue comme les nouvelles variables dans le sousespace factoriel. 4 Interprétation des résultats d’une ACP 200 205 210 215 4.1 Qualité de représentation sur les axes factoriels Un des points les plus délicats de l’ACP est d’apprécier la perte d’information engendrée par la réduction de la dimension. On a vu précédemment que la qualité de représentation du nuage dans le sous-espace factoriel est exprimée par le pourcentage d’inertie expliquée λ 1+...+λ K . p Cette mesure globale doit être complétée par d’autres considérations comme la représentation des individus et des variables dans ce sous-espace factoriel. Il peut en effet arriver que les axes retenus, bien que représentant une part importante de l’inertie globale du nuage, ne suffisent pas à expliquer correctement certains individus ou variables : deux individus peuvent être proches en projection sur les axes factoriels retenus tout en étant très éloignés en réalité, si leurs représentations sur ces axes ne sont pas de bonne qualité. La qualité de représentation d’un individu i sur un axe factoriel est mesuré par le cosinus carré de l’angle entre l’axe factoriel et le vecteur z i . Plus le cosinus est grand, plus z i sera proche de l’axe factoriel et donc sera bien représenté sur cet axe. La qualité de représentation d’une variable j sur le k-ème axe factoriel est exprimée par le coefficient de corrélation linéaire r(c k , z j ) entre la variable initiale z j et la nouvelle variable, composante principale, c k . La valeur de cette corrélation sera également très importante pour interpréter les nouveaux axes factoriels en fonction des variables initiales. Le calcul de cette corrélation, non développé dans ce document, montre que r(c k , z j ) = √ λ k v j k , (27) 8
220 225 230 235 240 où v j k est la j-ème coordonnée du vecteur v k. Ainsi, bien qu’ayant retenu un sous-espace factoriel expliquant une part importante de l’inertie totale, il est possible que certaines variables ou individus d’intérêt soient mal représentés dans ce sous-espace. Il sera alors intéressant de compléter le sous-espace factoriel en ajoutant des axes factoriels supplémentaires de sorte que ces variables ou individus d’intérêt soient bien représentés. 4.2 Sélection du nombre k d’axes factoriels à retenir La sélection du nombre d’axes à retenir, abordée précédemment, est une étape importante d’une ACP. Les critères utilisés sont en général empiriques : la méthode du coude qui consiste à détecter un coude sur le diagramme des valeurs propres, ou le critère de Kaiser. Ce dernier consiste à ne retenir que les valeurs propres supérieures à la moyenne : puisqu’on est en ACP normée la somme des valeurs propres est égale au nombre p de ces valeurs propres, et la moyenne des valeurs propres est donc égale à 1. On ne retiendra donc par le critère de Kaiser que les valeurs propres supérieures à 1. 4.3 Interprétation La méthode la plus naturelle pour interpréter les composantes principales (ou les axes factoriels) est de les relier aux variables initiales, en utilisant les corrélations précédemment introduites. Généralement, pour un couple de composantes principales c 1 et c 2 , on représente les corrélations dans une figure appelée cercle de corrélation (Figure 3), où chaque variable z j est représentée par un point de coordonnées (r(c 1 , z j ), r(c 2 , z j )). Une fois les composantes principales interprétées, on représente les individus dans les plans factoriels formés en croisant deux à deux les axes factoriels retenus (Figure 4). Chaque représentation est interprétée en essayant de repérer des groupes d’individus et en donnant à ces groupes une signification en fonction de leur place dans les plans factoriels. 5 Application à l’exemple des cidres Une ACP normée a été réalisée sur les données de cidres précédemment introduites, et nous présentons une analyse synthétique des résultats dans cette section. La première étape consiste à sélectionner le nombre d’axes factoriels que l’on souhaite conserver. En utilisant le critère de Kaiser, nous sélectionnons les 3 premières valeurs propres (Tableau 3), qui expliquent ensemble plus de 87% de l’inertie totale du nuage de points. Néanmoins, comme le troisième λ 1 λ 2 λ 3 λ 4 λ 5 λ 6 λ 7 λ 8 λ 9 λ 10 valeur propre 5,154 2,502 1,097 0,834 0,194 0,14 0,049 0,024 0,006 0 inertie expliquée (%) 51,54 25,02 10,97 8,34 1,94 1,40 0,49 0,24 0,06 0 inertie expl. cumulée (%) 51,54 76,56 87,53 95,87 97,81 99,21 99,70 99,94 100 100 TAB. 3 – Tableau des valeurs propres. 245 axe n’est corrélé significativement qu’avec une seule variable, la variable acidité, nous ne le considérons pas dans l’interprétation synthétique présentée dans ce document. Le cercle des corrélations pour le plan formé des deux premiers axes factoriels est représenté Figure 3. Exceptée la variable acidité, qui est fortement corrélée avec le troisième axe factoriel, toutes les 9
Page 1 and 2: Analyse en composantes principales
Page 3 and 4: odeur sucre acide amer astringence
Page 5 and 6: h F ⊥ i F ⊥ x i F g h Fi FIG. 1
Page 7: Théorème 3.1. Soit F k un sous-es
Page 11 and 12: FIG. 4 - Projections des individus

Analyse en composantes principales

Create successful ePaper yourself

Delete template?

Save as template?