L’arbre de composition : un outil efficace pour segmenter et caractériser vos clients

Que ce soit pour segmenter une population, pour déterminer les comportements caractéristiques d’une cible, pour qualifier les opinions et les attitudes des consommateurs vis-à-vis d’un produit ou d’un service, l’arbre de composition révèle son utilité. Outil de datamining, il est utilisé pour explorer les données issues des enquêtes marketing, du système d’information (identité des clients, équipement, historique des échanges…) ou des deux.

L’arbre de composition consiste à mettre en relation une variable Y (ex : consommation, satisfaction) avec une multitude de variables X (ex : classe d’âge, genre, CSP, contexte ou motifs de consommation)  afin de mettre en évidence leurs principales associations et faire ressortir les modalités correspondant au mieux à la cible que l’on souhaite caractériser. Ainsi, la population est découpée en groupes aussi homogènes que possible vis-à-vis de la variable Y.

Visuellement, l’arbre de composition se présente sous forme d’un organigramme hiérarchique composé de plusieurs niveaux allant de la population globale (sommet) aux groupes identifiés (base) comme le montre le schéma suivant.

 Figure 1 : Arbre de composition

Exemple : l’arbre de composition pour segmenter les consommateurs de vin

Pour illustrer la lecture de l’arbre de composition, nous prendrons l’exemple ci-dessous, tiré de l’étude Européenne sur les rapports entre consommation et culture menée en 2010 dans le cadre du projet COBEREN (Consumer Behavior European NetWork)[1].

Les répondants devaient indiquer les motifs de consommation de leur boisson préférée en se positionnant sur une échelle de quatre niveaux allant de « Je suis totalement en désaccord » à « Je suis totalement d’accord » ; ils pouvaient également choisir l’option « Je ne sais pas » s’ils n’avaient pas d’avis arrêté sur la proposition.

Figure 2 : Propositions sur les motifs de consommation des boissons alcoolisées

L’objectif à travers la mise en place d’un arbre de composition dans ce contexte est double : segmenter les consommateurs selon leurs boissons préférées et leurs motifs de consommation, identifier les motifs associés à chaque type de boisson (le vin et la bière sont arrivées en tête des boissons préférées mais nous avons limité l’exploration aux vins pour des raisons pédagogiques).

Il est possible de constater, grâce au graphique, que la consommation de la bière et du vin ne remplissent pas les mêmes fonctions : la première est d’ordre instrumental (je consomme la bière pour étancher sa soif), la seconde est d’ordre social (je consomme le vin pour faire comme ses amis). Par ailleurs, les consommateurs de vins sont segmentés en groupes distincts selon les critères « obtenir quelque chose de bien pour soi » et « se maintenir en bonne santé » ; le critère « obtenir quelque chose de bien pour soi » étant le plus important.

 Figure 3 : Arbre de composition centré sur les consommateurs de vins

Comment construit-on un arbre de composition ?

Le processus qui mène à la définition de l’arbre de composition se déroule, selon la méthode CHAID (CHi-squared Automatic Interaction Detector), en trois temps : la fusion, la division, l’arrêt. Ces trois phases sont appliquées d’une manière répétitive sur chaque segment, en commençant par la population globale.

  • La fusion : cette étape consiste à regrouper les modalités d’une variable X selon leur similarité. Pour cela, plusieurs tableaux croisés entre la variable Y et les couples des modalités de la variable X sont construits et les liaisons associées à ces tableaux sont calculées. Sont considérées comme proches, les modalités correspondant au tableau croisé ayant obtenu la plus forte mesure de liaison, celle-ci est notée p-value.
    Comme pour tous les tests statistiques, cette p-value est comparée à un seuil de  référence fixé par l’utilisateur et si elle le dépasse, les modalités sont considérées comme similaires.
    De nouvelles variables, ayant comme modalités les combinaisons retenues, sont ainsi obtenues. A l’issue de cette opération, une p-value ajustée est calculée sur le tableau croisant la variable Y à la nouvelle variable X formée des modalités composites.
    Dans l’exemple précédent, la variable Y représente la boisson préférée, les variables X renvoient aux motifs de consommation. Les calculs effectués sur ces derniers lors de la phase de fusion ont abouti au regroupement des modalités « Je suis totalement d’accord / Plutôt d’accord » et « Je suis totalement en désaccord / Plutôt pas d’accord » pour les quatre variables X et ce, en raison de leur similarité ; Il est à préciser que la modalité « Je ne sais pas » a été écartée volontairement.
  • La division : elle consiste à sélectionner la variable X qui divisera au mieux la population. Pour cela les p-value ajustées correspondant au croisement entre la variable Y et les différentes variables X, calculées à l’étape précédente, sont comparées. La meilleure variable de division est celle qui obtient la plus petite p-value ajustée ; si cette p-value ajustée est inférieure à un seuil fixé par l’utilisateur, la division est effectuée, sinon le segment est considéré comme terminal.
    Dans l’exemple plus haut, la première variable de division est « étancher ma soif », la seconde est « faire comme mes amis », « obtenir quelque chose de bien pour moi » arrive en 3ème position et « pour être en bonne santé » occupe le dernier niveau.
  • L’arrêt : à chaque création d’un nouveau segment, les conditions d’arrêt suivantes sont vérifiées : constance des variables étudiées sur les différents segments, profondeur de l’arbre et taille du segment ; ces deux dernières conditions restent à l’appréciation de l’utilisateur.
    Cinq groupes homogènes sont identifiés dans l’exemple précédent : ceux qui consomment la bière pour étancher leur soif (814 personnes), ceux qui consomment le vin pour faire comme les amis (157 personnes), ceux pour qui la consommation du vin n’est pas synonyme « d’obtenir quelque chose de bien pour soi » (399 personnes), ceux qui consomment le vin pour obtenir quelque chose de bien pour soi et pour ses bienfaits sur la santé (360 personnes), ceux qui ne consomment pas le vin pour des raisons de santé mais qui cherchent tout de même à obtenir quelque chose de bien pour soi (238 personnes).
    Il est à préciser que le découpage en quatre niveaux a été choisi par l’utilisateur.

 Les logiciels d’analyse de données, notamment Sphinx iQ, permettent d’automatiser le processus de construction de l’arbre de composition dans sa totalité. L’utilisateur se contente de choisir les variables X et Y et d’indiquer la profondeur de l’arbre ; l’outil identifie les variables de segmentation et découpe la population en groupes homogènes.

Pour conclure

L’arbre de composition est un outil d’exploration des données pratique et efficace dans la mesure où il permet de segmenter rapidement et automatiquement un ensemble d’individus selon leurs caractéristiques.

Contrairement aux méthodes factorielles ou de classification courantes (AFCM, classification hiérarchique) qui dressent le profil général des répondants et les regroupe de façon synthétique, l’arbre de composition fournit d’une manière exacte le profil des groupes identifiés ; la lecture hiérarchique de l’arbre aidant en cela. Il demeure toutefois intéressant de trianguler les méthodes pour une meilleure validation des résultats.


[1] Pour en savoir plus sur ce projet, voir Ganassali &  Rodriguez-Santos (2013), Research Intentions are Nothing without Technology : Mixed-Method Web Surveys and the Coberen Wall of Pictures Protocol, in In Sappleton, N. (ed.): Advancing Research Methods with New Technologies. IGI Global., pp. 138-156

>>> Plus d'informations sur www.lesphinx.eu

Share and Enjoy:
  • Print
  • Digg
  • StumbleUpon
  • del.icio.us
  • Facebook
  • Yahoo! Buzz
  • Twitter
  • Google Bookmarks

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>