La Classification Ascendante Hiérarchique (CAH) permet de séparer des individus en groupes homogènes (les individus appartenant à une même classe ont des caractéristiques proches) et distincts les uns des autres (les groupes formés ne sont pas identiques). Cette méthode produit des partitions emboîtées d’hétérogénéité croissante. Plus simplement, la première partition produite est celle qui contient autant de classes que d’objets à classer. La dernière est celle qui comporte tous les objets à classer. Evidemment, la partition à choisir n’est ni la première, ni la dernière. En fonction de certains critères, le statisticien est capable de choisir le nombre qu’il lui faut !
-
Quand utiliser une CAH ?
Dès que l’on dispose d’une notion de distance, et que l’on souhaite regrouper des individus semblables !
-
Comment ?
Par des macros SAS développées par l’INSEE, ou grâce à SPAD et d’autres logiciels d’analyse de données (plus ou moins presse-boutons)… Le logiciel R, extrêmement performant et gratuit, en est aussi capable !
-
Algorithme ?
Point de départ : aucune observation regroupée
1. Pour chaque unité, on calcule les distances qui les séparent.
2. On regroupe les 2 individus les plus proches en terme de distance. Les individus rassemblés forment une seule et même unité (classe).
Point final : quand toutes les observations de départ sont dans la même classe.
-
Le nombre de classes ?
Il faut regarder le dendrogramme ! Celui ci est issu du best seller de Tufféry (http://data.mining.free.fr/)
La hauteur de deux branches jointes représente la perte d’inertie interclasse (entre les classes). Il faut alors « couper les branches avant qu’elles ne soient trop longues » comme dirait Michel Volle ! En réalité il faut que la perte d’inertie interclasse soit la plus faible possible, il faut donc couper où la hauteur des branches est élevée.
On remarque que selon la hauteur de la coupe on n’obtient pas le même nombre de classes, mais il faut garder en tête l’optimisation des critères de qualité statistique (inertie interclasse).
-
Interprétation ?
Une fois, votre arbre coupé, vous disposez du nombre de classes. Tous les logiciels, vous donneront quelques élèments d’interprétation par classe. Pour chaque classe, il est intéressant d’observer :
-
Inertie intra (indicateur d’homogénéité de la classe)
-
Distance au centre de gravité (indicateur d’excentricité de la classe): tous les chiffres sont en millièmes, exceptés l’effectif absolu et le RHO2
Les variables les plus caractéristiques sont généralement les variables actives de l’ACP réalisée auparavant*, en particulier celles qui étaient les plus contributives aux axes de l’ACP.
-
Caractérisation des classes par les variables ?
Le but est d’identifier les variables pour lesquelles chaque classe se distingue le plus de la moyenne. Ainsi, pour chaque classe, on compare les valeurs moyennes prises par les variables continues dans la classe avec leur moyenne dans l’échantillon total. Une fois écartée les statistiques non significatives (probabilité supérieure au seuil que l’on s’est fixé, souvent 5%), une valeur-test positive signifie que la moyenne dans la classe est supérieure à la moyenne générale et reciproquement.
*En effet on peut utiliser les coordonnées sur les premiers axes du nouvel espace (qui contient une part importante de l’information initiale, si l’ACP est bonne) qui peuvent être prises en compte pour une CAH. Souvent, une CAH sur les valeurs initiales des variables ne convient pas à une classification en peu de classes (effectifs écrasant de certaines classes par rapport aux autres). Une ACP préalable a l’avantage d’étudier et de prendre en compte les relations entre les variables.
