-
Introduction
L’Analyse en Composantes Principales appelée plus communément ACP constitue l’une des plus anciennes méthodes factorielles dont le principe remonte à Hotelling (1933). Cette technique permet d’analyser des tableaux de type individus-variables lorsque ces dernières sont quantitatives. La méthode la plus fréquemment utilisée est l’ACP sur données centrées réduites ou ACP normée.
Le nuage individus-variables formé par les données contient toute l’information, mais celle-ci n’est pas interprétable à l’oeil nu. En effet il est impossible pour l’esprit humain de se représenter un espace à plus de 3 dimensions. Alors que faire quand on dispose de n individus ayant chacun des valeurs sur plus de trois variables? On souhaite alors projeter le nuage sur un nombre restreint d’axes! Mais on “écrase” ce nuage et on perd donc de l’information! Mais quelle horreur, pauvre nuage?! Heureusement des petits malins et surtout de grands scientifiques ont eu l’idée géniale de développer des méthodes d’analyse multidimensionnelle… Le critère retenu pour l’ACP est la maximisation de l’inertie. Celle-ci est définie comme la somme des distances à l’origine pour tous les individus, pondérée par leur masse. Il s’agit en fait de la forme globale du nuage (taille, étendue…). Ainsi on peut conserver toute l’information utile même en ”écrasant” le nuage, c’est à dire, en garantissant une perte minimale de l’information…
Il s’agit de construire un nouveau repère avec de nouveaux axes, qui seront des combinaisons linéaires des variables de départ. Techniquement pour les plus mathématiciens, pour le premier axe, on souhaite maximiser l’inertie du nuage projeté (nécessairement inférieure à l’inertie totale), c’est à dire déformer le moins possible le nuage des données. Le deuxième axe sera tel que l’inertie projetée sera maximale (mais inférieure à celle sur le premier axe) et cet axe sera orthogonal au premier. La méthode utilisée est celle des multiplicateurs de Lagrange (maximisation sous contrainte).
En résumé technique très rapide, une ACP est une diagonalisation d’une matrice définie positive puis un classement par ordre décroissant des valeurs propres, les vecteurs propres associés déterminant les axes du nouveau repère. Ouf! On ne le fait pas à la main… Il existe des macros sous Excel (Tanagra) et SAS (développées par l’INSEE!!!)
-
Nombre d’axes à interpréter
On peut utiliser plusieurs critères. Le permier consiste à repérer un coude sur l’histogramme des valeurs-propres. Le deuxième est de calculer les différences secondes entre les valeurs propres et de choisir le nombre d’axe qui correspond à un changement de signe de cette différence. Enfin certains préféreront peut-être la comparaison à l’inertie moyenne, qui correspond en gros à choisir les axes qui ont une valeur propre supérieure à 1 (inertie moyenne que l’on obtiendrait si tous les axes portaient la même quantité d’inertie), ou encore se fixer un seuil en terme d’inertie cumulée. En réalité il faut interpréter les axes jusqu’à ce qu’ils ne soient plus interprétables…
-
Interprétation
Pour chaque individu et variable, on dispose de la nouvelle coordonnée dans le nouvel espace et de sa masse. Deux éléments sont essentiels dans l’interprétation d’un axe factoriel : la contribution et la qualité de représentation.
- la contribution indique la participation d’un élément à la formation de l’axe, à son orientation.
- la qualité de représentation, indicateur de la distance entre le point d’origine, dans l’espace des variables et sa projection sur le nouvel axe.
Résultats pour les variables
=> Les coordonnées les plus fortes correspondent aux variables les plus contributives et les mieux représentées.
Il faut sélectionner les variables les plus contributives en se fixant comme limite la contribution moyenne (si toutes les variables contribuaient de la même façon à la formation de l’axe : 1/”nombre de variables actives”).
Résultats pour les individus
Dans le nuage des individus, la coordonnée n’implique pas automatiquement la contribution (la masse éventuellement inégale des individus intervient), ni la qualité qui fait intervenir la norme des individus.
- on peut donc trouver des individus contributifs mal représentés. Ces individus contribueront certainement à un autre axe (ils étaient assez éloignés de cet axe, tout en ayant une influence sur son orientation, du fait de leur forte particularité)
- peu contributifs mais bien représentés, ceci signifie qu’ils sont bien illustrés par l’axe, sans avoir réellement participé à son orientation
- fortement contributifs et bien représentés sur un axe, ils ne participeront vraisemblablement pas à la formation des autres axes.
=> Les individus qui se projettent d’un même côté de l’axe auront des caractéristiques proches du point de vue des variables les plus contributives à cet axe.
ça aussi c’est de l’article culturel!
bonjour, je suis coincé avec l’ACP. Je ne parviens pas à trouver les valeurs et vecteurs propres. Je travaille sur excel et j’ai pu centré, reduire et transposé mais pour la suite c’est le blackout. Pouvez-vous me venir en aide en tenant compte que je travaille sur excel ?
Merci d’avance.
Bonjour, peut-être devriez vous regarder là s’il s’agit d’interprétation. Pour le calcul, il faudrait m’en dire plus sur vos variables, leurs types, les corrélations entre elles par exemple… Vous pouvez aussi regardez ça si vous utilisez xlstat… Sans vouloir faire de la publicité, vous pouvez également télécharger le logiciel R gratuit avec lequel vous pourriez réaliser votre ACP moyennant quelques lignes de code. Ce logiciel est très intéressant si vous faites un peu de stat. Tenez moi au courant, je serai ravie de vous aider.