Analyse en composantes principales
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
185<br />
190<br />
Le vecteur u maximisant cette quantité n’est autre que v 2 , le vecteur propre associé à la seconde plus<br />
grande valeur propre λ 2 de R, pour lequel on a donc I ∆ ⊥ v2<br />
= λ 2 .<br />
Et ainsi de suite. On <strong>en</strong> déduit ainsi le théorème suivant.<br />
Théorème 3.2. Le sous-espace F K de dim<strong>en</strong>sion K portant l’inertie maximale est <strong>en</strong>g<strong>en</strong>dré par les<br />
K vecteurs propres associés aux K plus grandes valeurs propres de la matrice de corrélation R du<br />
nuage des individus.<br />
3.3 Notations<br />
– Les axes ∆ vk sont appelés axes factoriels ou axes principaux.<br />
– L’inertie expliquée par l’axe ∆ vk est la valeur propre λ k<br />
– L’inertie expliquée par le sous-espace factoriel F K <strong>en</strong>g<strong>en</strong>dré par les axes factoriels est<br />
I F ⊥<br />
K<br />
= λ 1 + . . . + λ K , (25)<br />
et le pourc<strong>en</strong>tage d’inertie expliqué par ce sous-espace est donc λ 1+...+λ K<br />
p<br />
.<br />
– On appelle k-ième composante principale les coordonnées c k ∈ R n des n individus sur l’axe<br />
factoriel ∆ vk , qui sont les projections des individus sur ces axes :<br />
c k = Zv k . (26)<br />
Les <strong>composantes</strong> <strong>principales</strong> peuv<strong>en</strong>t être vue comme les nouvelles variables dans le sousespace<br />
factoriel.<br />
4 Interprétation des résultats d’une ACP<br />
200<br />
205<br />
210<br />
215<br />
4.1 Qualité de représ<strong>en</strong>tation sur les axes factoriels<br />
Un des points les plus délicats de l’ACP est d’apprécier la perte d’information <strong>en</strong>g<strong>en</strong>drée par la<br />
réduction de la dim<strong>en</strong>sion. On a vu précédemm<strong>en</strong>t que la qualité de représ<strong>en</strong>tation du nuage dans le<br />
sous-espace factoriel est exprimée par le pourc<strong>en</strong>tage d’inertie expliquée λ 1+...+λ K<br />
.<br />
p<br />
Cette mesure globale doit être complétée par d’autres considérations comme la représ<strong>en</strong>tation des individus<br />
et des variables dans ce sous-espace factoriel. Il peut <strong>en</strong> effet arriver que les axes ret<strong>en</strong>us, bi<strong>en</strong><br />
que représ<strong>en</strong>tant une part importante de l’inertie globale du nuage, ne suffis<strong>en</strong>t pas à expliquer correctem<strong>en</strong>t<br />
certains individus ou variables : deux individus peuv<strong>en</strong>t être proches <strong>en</strong> projection sur les axes<br />
factoriels ret<strong>en</strong>us tout <strong>en</strong> étant très éloignés <strong>en</strong> réalité, si leurs représ<strong>en</strong>tations sur ces axes ne sont pas<br />
de bonne qualité.<br />
La qualité de représ<strong>en</strong>tation d’un individu i sur un axe factoriel est mesuré par le cosinus carré<br />
de l’angle <strong>en</strong>tre l’axe factoriel et le vecteur z i . Plus le cosinus est grand, plus z i sera proche de l’axe<br />
factoriel et donc sera bi<strong>en</strong> représ<strong>en</strong>té sur cet axe.<br />
La qualité de représ<strong>en</strong>tation d’une variable j sur le k-ème axe factoriel est exprimée par le coeffici<strong>en</strong>t<br />
de corrélation linéaire r(c k , z j ) <strong>en</strong>tre la variable initiale z j et la nouvelle variable, composante<br />
principale, c k . La valeur de cette corrélation sera égalem<strong>en</strong>t très importante pour interpréter les nouveaux<br />
axes factoriels <strong>en</strong> fonction des variables initiales. Le calcul de cette corrélation, non développé<br />
dans ce docum<strong>en</strong>t, montre que<br />
r(c k , z j ) = √ λ k v j k , (27)<br />
8