Méthodos
20 décembre 2024
Blog
#Typologie
#Classification Hiérarchique Ascendante
#Analyse textuelle
Comme l’analyse hiérarchique descendante, l’analyse CHA (Classification Hiérarchique Ascendante) est une méthode d’analyse statistique utilisées afin de regrouper des objets ou des individus similaires en fonction de différentes caractéristiques.
Cette analyse permet d’identifier et de créer, à partir de variables choisies, des groupes d’individus, de façon à faire ressortir à l’intérieur d’une même famille ou d’un même groupe, des caractéristiques communes.
Effectuer une classification permet ainsi d’établir des typologies, pour, par exemple, déterminer des profils clients ayant des comportements qui leur sont propres.
Dans notre série de trois articles dédiés aux analyses typologiques, nous vous présentons dans cet article la classification hiérarchique ascendante.
I – Qu’est-ce que la classification hiérarchique ascendante ?
La classification hiérarchique ascendante, ou CHA, est une méthode de clustering qui regroupe progressivement les individus ou les observations par similitudes. Contrairement à la méthode K-means, la CHA n’exige pas de spécifier à l’avance le nombre de clusters (=groupes) que l’on souhaite obtenir. Au contraire, cette approche permet de créer une structure arborescente hiérarchique qui illustre comment les observations peuvent être regroupées entre elles.
La CHA commence par considérer chaque individu comme une classe séparée, puis fusionne progressivement les classes les plus similaires jusqu’à ce qu’il ne reste qu’une seule classe englobant l’ensemble des données. Cette structuration hiérarchique des données est représentée graphiquement sous la forme d’un dendrogramme, qui montre les regroupements successifs et leur degré de similarité.
Le processus de regroupement des unités se fait progressivement, étape par étape, en priorisant à chaque phase les unités présentant la plus grande similarité. Ce regroupement s’opère en fonction de la distance mesurée soit entre deux individus (notamment au début), soit entre deux groupes d’individus, soit entre un groupe et un individu isolé.
Le processus s’arrête lorsqu’ajouter un nouveau regroupement ne permet plus d’améliorer la capacité discriminatoire de l’analyse. Cela permet ainsi de définir la meilleure hiérarchie finale, ainsi que les typologies qui en découlent, en identifiant les catégories ou groupes les plus pertinents.
II – À quoi sert la CHA ?
La CHA est ainsi particulièrement utile pour visualiser les relations entre les groupes et identifier des clusters naturels dans des données complexes. Elle est couramment utilisée dans des secteurs où l’analyse exploratoire approfondie est importante, comme le marketing, où elle permet de découvrir des segments de clients.
III – Interprétation des résultats
Pour interpréter les résultats d’une CHA, plusieurs éléments sont à analyser.
- Dendrogramme : Plus les branches reliant deux groupes sont longues, moins ils sont similaires. Les observations fusionnées en début de dendrogramme (c’est-à-dire, à gauche du graphique) sont plus proches, tandis que celles regroupées plus haut (c’est-à-dire, à droite du graphique) sont plus différentes.
- Segments : Une fois le dendrogramme coupé, on peut analyser les caractéristiques des segments formés. Dans l’exemple ci-dessous, on retiendra donc 3 classes (A, B et C).
Finalement, la CHA est ainsi idéale pour les analyses exploratoires où l’on cherche à visualiser les regroupements naturels. Cette méthode d’analyse est recommandée lorsque le nombre de clusters est inconnu ou pour des petits ensembles de données dans la mesure où elle est limitée sur le nombre d’observations traitées. Elle se distingue par son approche hiérarchique, offrant une flexibilité pour analyser différents niveaux de regroupement mais peuvent perdre en efficacité sur des grands ensemble de données.
Nos experts sont à votre disposition pour vous aider la construction d’une typologie, contactez-nous !
Rédigé par :
À lire aussi
Les typologies des répondants - Partie 3 : la classification k-means
L'analyse K-means est une méthode d’analyse statistique utilisée afin de regrouper des objets ou des individus similaires en fonction de différentes caractéristiques. Découvrez le guide complet.
Les typologies des répondants - Partie 2 : la classification hiérarchique descendante (CHD)
La Classification Hiérarchique Descendante (CHD) est une méthode d’analyse statistique utilisées afin de regrouper des objets ou des individus similaires en fonction de différentes caractéristiques.
Analyse statistique : les enjeux et objectifs d’une typologie
Une typologie, ou classification, est un traitement de données qui vise à regrouper les individus étudiés en fonction de leur proximité sur un ensemble de variables. Découvrez ses enjeux et ses objectifs.