Quand l’image supporte les études sur la consommation et les consommateurs

Les méthodes d’enquête se renouvellent constamment avec le développement continu des technologies de l’information et de la communication : depuis l’émergence des enquêtes en ligne dans les années 90, les techniques de recherche, tant quantitatives que qualitatives, s’adaptent et tirent profit des nouvelles opportunités de collecte d’information offertes par le web :

  • utilisation de l’interactivité possible grâce au web pour simuler les échanges interpersonnels entre l’enquêteur et le répondant et ainsi obtenir des contenus textuels plus riches ;
  • mise en place d’entretiens individuels et de focus group en ligne, économisant le temps nécessaire à la retranscription et au formatage des données collectées ;
  • intégration des techniques projectives telles que les tests d’association de mots ou d’images ;
  • immersion dans l’univers du répondant à travers la collecte de corpus multimédia de type image ou vidéo permettant de mieux appréhender les expériences vécues par le répondant,
  • etc

Nous pouvons conduire des analyses différentes et parfois complémentaires sur les données collectées afin d’en extraire les informations clés. Les méthodes utilisées pour ce faire sont variées. Ainsi, à titre d’exemple, les données textuelles peuvent être appréhendées grâce à une analyse lexicale, complétée d’une analyse des sentiments, le tout représenté sur des cartes factorielles ; les données multimédia, quant à elles, peuvent être décodées par le biais d’une analyse de contenu ou d’une analyse sémiotique doublées d’une synthèse factorielle… Ce ne sont là que des pistes d’analyse, il est à retenir qu’à chaque type de données et à chaque problématique correspond un ensemble de traitements possibles.

En s’appuyant sur une recherche académique intitulée « Une nouvelle méthode de groupe pour interpréter le sens d’une expérience de consommation : l’Album On-Line (AOL) », menée par Vernette en 2007, l’article suivant, illustre la mise en place d’un protocole de collecte et d’analyse d’un corpus d’images provenant d’Internet (nous précisons que cette recherche n’utilise pas les logiciels d’enquêtes Sphinx, ceux-ci pourraient faciliter les échanges entre chercheurs et répondants et fluidifier le processus d’étude).

La collecte d’images en ligne représentant des expériences de consommation

Les répondants sont invités à explorer le Web à la recherche d’images correspondant à une expérience affective ou cognitive liée à l’achat ou à la consommation du parfum. Ces images doivent être commentées (justification des choix, précisions des associations mentales et des émotions qu’elles provoquent) pour une meilleure compréhension de l’expérience vécue.

Figure 1 : Exemple d’images collectées  et commentées par les répondants (Vernette, 2007)

La méthode de l’Album-On-Line, qui consiste à exploiter des images disponibles en ligne, prévoit des allers retours entre le chercheur et les répondants consistant à partager les images postées par chacun à l’ensemble des enquêtés pour qu’ils retiennent et commentent les plus pertinentes à leur sens.

Cette étape de collecte d’images peut être supportée par les fonctions de conception de questionnaire disponibles dans Sphinx iQ : préparation d’un formulaire intégrant les questions ouvertes prévues et les scripts permettant d’ajouter les images (voir copies d’écran ci-dessous).

Figure 2 : Script – Paramétrage des questions

Figure 3  Script – édition du formulaire

Figure 4 : Extrait du formulaire en ligne

Les images collectées sont enregistrées dans une base de données et restituées aux répondants ou au chargé d’étude via un formulaire intégrant le script suivant :

 

Selon l’objectif de la recherche, ces images peuvent faire l’objet d’une analyse de contenu ou d’une analyse sémiotique. Les résultats obtenus sont enrichis par les textes postés pour commenter ou justifier les choix.

L’utilisation des objets multimédia et de l’image en particulier est pertinente dans un contexte d’études sur la consommation des produits et services (marchands ou publics). Elle permet d’accéder à des informations qui ne sont pas communiquées d’une manière explicites par le répondant mais déduites à travers ses choix. Son intérêt réside donc dans la possibilité de reconstituer les significations et les ressentis non exprimés d’une expérience de consommation vécue.

>>> Plus d'informations sur www.lesphinx.eu

Ontologies et thésaurus pour modéliser un corpus textuel

Aujourd’hui, les technologies de l’information disponibles sur le marché affranchissent le chargé d’étude des contraintes liées à la collecte des données sur Internet. En revanche, celui-ci se trouve confronté à la difficulté d’analyser les masses abondantes des éléments collectés -souvent d’une manière récurrente-, notamment ceux de nature textuelle. Le bon sens impose l’optimisation des ressources allouées aux traitements et par conséquent l’usage de méthodes automatiques permettant d’obtenir un maximum d’informations pertinentes en un temps minime.

Une façon de faire consiste à mobiliser ce qui est communément connu en informatique sous le nom d’ontologie et en linguistique sous le nom de thésaurus. L’ontologie et le thésaurus désignent une conceptualisation consensuelle du monde que l’on souhaite représenter ou du phénomène que l’on souhaite étudier. Ils regroupent un ensemble de concepts[1] organisés de manière hiérarchique et reliés entre eux dans une logique descriptive (voir figure ci-dessous).

L’utilisation des ontologies permet d’analyser les mots dans leurs contextes d’utilisation et évitent des interprétations erronées liées au caractère polysémique du langage.

Figure 1 : Extrait d’ontologie à 4 niveaux tirée du logiciel Sphinx Quali

Les logiciels d’analyse de données textuelles intègrent des ontologies généralistes s’appliquant à des domaines variés et proposant une vision globale du texte soumis à l’analyse. Les utilisateurs traitant de sujets spécifiques peuvent mettre en place leurs propres thésaurus qui répondent mieux à leurs besoins et vision du monde. Ces thésaurus ad ’hoc supportent en effet une recherche ciblée pouvant être décrite par des listes de mots appelées dictionnaires comme nous le verrons ci-dessous.

Application

Dans l’enquête de consommation menée en 1992 par le CREDOC[2], la question « Si vous gagniez le gros lot au Loto, que feriez-vous ? » est posée. L’objectif de cette étude est d’identifier le comportement du consommateur une fois affranchi des contraintes financières grâce à ses gains au loto. 990 réponses sont collectées.

La lecture du texte à la lumière de l’ontologie généraliste du logiciel Sphinx Quali permet d’identifier 28 thèmes généraux, 83 idées principales et 100 concepts détaillés ou très détaillés. Il apparaît au travers de ces différents niveaux de concepts que les répondants évoquent entre autres des activités économiques (économie, finance, industrie, commerce…), leur quotidien et vie collective (habitat, famille, vêtements et parures…) et les actions qu’ils entreprendraient en cas de gain (achat de biens, voyages, dons…).

Figure 2 : Les 4 niveaux de concepts décrivant le corpus de l’enquête Loto

Lorsque l’on double cette lecture d’une exploration des mots utilisés par les répondants, il apparaît que ceux-ci souhaiteraient :

  • Faire fructifier l’argent gagné au moyen d’opérations financières ou d’investissements immobiliers (bourse, épargne, affaire, immobilier…).
  • Améliorer leurs conditions de vie et se faire plaisir (vacances, voyage, achats divers…)
  • Participer à la vie collective en partageant le gain avec la famille ou les associations humanitaires (cadeau, famille, enfant, œuvres…).

Si l’on concentre l’analyse exclusivement sur trois les thématiques « investir », « se faire plaisir » et « donner », la mise en place d’un thésaurus ad ‘hoc s’avère utile. Celui préparé contient 3 niveaux comme le montre la figure ci-dessous.

 Figure 3 : Les 3 niveaux du thésaurus ad ‘hoc décrivant le corpus de l’enquête Loto

Le dernier niveau est détaillé grâce aux dictionnaires « Investissement, achats divers, voyages et loisirs, don, bénéficiaire » qui reprennent les mots utilisés par les répondants pour décrire leurs intentions. Les dictionnaires devraient être exhaustifs.

 Figure 4 : Extrait des intentions en cas de gain au Loto

Il est à noter que l’utilisation des ontologies ou thésaurus pour approcher des données textuelles est une méthode pertinente sur des corpus répétitifs et de taille importante. Elle permet en effet d’identifier facilement et automatiquement les thématiques présentes dans le texte.

Par ailleurs, l’usage des ontologies générales est utile lors d’une recherche exploratoire. Les thésaurus ad’ hoc, quant à eux, sont adaptés à une logique confirmatoire dans laquelle les résultats attendus peuvent être décrits par des listes de mots.



[1] Un concept est une « idée générale et abstraite que se fait l'esprit humain d'un objet de pensée concret ou abstrait, et qui lui permet de rattacher à ce même objet les diverses perceptions qu'il en a, et d'en organiser les connaissances. » (www.larousse.fr , 06/2014)

[2] Lahlou, Collerie, Beaudouin (1993) Où en est la consommation aujourd'hui, Cahier de recherches n° 46, CREDOC

>>> Plus d'informations sur www.lesphinx.eu

La rotation Varimax pour une meilleure lecture de la carte ACP

Pour synthétiser les réponses données à un ensemble de questions numériques, identifier les variables appartenant au même univers et en définir les dimensions structurantes, l’utilisation des Analyses en Composantes Principales est une nécessité. La carte qui en résulte est affinée grâce à l’application de la rotation Varimax, dont nous exposons l’intérêt plus loin.

Rappels méthodologiques sur les ACP

Les ACP (Analyses en Composantes Principales) appartiennent à la famille des analyses factorielles qui consistent à synthétiser les données issues d’un croisement entre plusieurs variables numériques. Ces données sont contenues dans un fichier de grande dimension, ayant en ligne des individus et en colonne des caractéristiques quantitatives.

Les variables étudiées sont projetées sur un ensemble d’axes indépendants. Chaque axe permet de prendre connaissance d’une partie plus ou moins importante de l’information contenue dans le tableau initial ; la globalité des axes permet d’appréhender l’information entière. Il est à noter que les 1er et 2ème axes sont ceux qui restituent le maximum d’information, ils sont identifiés automatiquement par les logiciels d’analyse de données.

Prenons un exemple pour illustrer ces propos.

Dans l’étude européenne sur les rapports entre consommation et culture menée en 2010 (projet COBEREN), il a été demandé aux répondants d’indiquer les raisons pour lesquelles ils consommaient leur boisson préférée. Une série d’items lui ont été proposés et ils devaient s’y positionner via une échelle de 4 niveaux avec une mention supplémentaire « je ne sais pas ».

Les questions se présentaient comme suit :

 Figure 1 : Items proposés

L’Analyse en Composantes Principales réalisée montre l’existence de deux groupes de variables :

  • Le 1er comporte les items Absence de risque, Bonne santé, Rapport qualité prix, S’hydrater.
  • Le 2ème comprend les items Etre différent, Etre à la mode, Faire comme les amis, Exprimer ses valeurs, Etre de bonne humeur, …

Figure 2 : Carte ACP sans rotation Varimax

Pour mieux identifier la structure reliant les deux groupes (variables opposées ou appartenant à des dimensions différentes), la rotation Varimax montre son utilité.

Qu’est-ce que la rotation Varimax ?

Les axes de projection sont des combinaisons linéaires[1] des variables étudiées. Ces dernières contribuent avec des poids différents à la formation des axes. Par exemple si la contribution des variables X1, X3, X5 est élevée sur l’axe 1, elle peut être faible sur l‘axe 2. Ce dernier peut être expliqué plus principalement par la variable X6.

La rotation Varimax consiste à associer chacune des variables à un nombre réduit de facteurs et à représenter chaque facteur par un nombre limité de variables. Visuellement les variables sont rapprochées des axes auxquels elles contribuent de manière à en faciliter l’interprétation.

 

Dans l’exemple précédent, la carte obtenue après application de la rotation Varimax montre que les groupes de variables constituent deux dimensions à part entière puisque le 1er groupe est proche de l’axe 1 (horizontal) et le 2ème groupe de l’axe 2 (vertical).

Figure 3 : Carte ACP avec rotation Varimax

Il est donc possible de conclure que les mobiles qui incitent les gens à choisir telle ou telle boisson appartiennent à deux ordres différents : la dimension fonctionnelle résumant l’effet de la boisson sur le bien-être de la personne et la dimension sociale marquant l’appartenance de l’individu à un groupe social qui partage les mêmes préférences et les mêmes valeurs.

Apport de la rotation Varimax

Comme nous pouvons le constater, l’application de la rotation Varimax aide à identifier la contribution des variables à la formation des axes factoriels. Ceci permet de tirer, d’une manière rapide et synthétique, des conclusions sur les dimensionnalités des variables, évitant tout biais lié à la qualité de la projection et à la synthèse des données.


[1] De type Y = aX1 + bX2 + cX3 + dX4 + eX5 + fX6 + constante.

>>> Plus d'informations sur www.lesphinx.eu

Les Chi² partiels : un indicateur utile pour explorer l’association entre deux variables nominales

Le test du Chi² pour vérifier l’existence d’une association entre deux variables nominales

Appartenant aux méthodes explicatives, le test Chi² est utilisé dans les analyses bi-variées ayant comme objectif d’identifier s’il existe ou non une association entre deux variables nominales (appelées également qualitatives ou fermées), autrement dit si l’appartenance à certaines modalités de la première variable influence ou non l’appartenance à d’autres modalités de la deuxième variable.

Si l’on prend l’exemple ci-dessous de la consommation du fromage, il serait intéressant de connaître les préférences en matière de fromage par origine géographique et de vérifier s’il existe, sur le plan statistique, une association entre les deux variables.

 

 Figure 1 : Tris à plats des variables à étudier

Le test du Chi² se base sur une comparaison d’effectifs et  s’applique sur des tableaux croisés, appelés tableaux de contingence, contenant en ligne les modalités de la première variable et en colonne les modalités de la seconde.