Méthodos

24 mars 2020

Blog

#Études qualitatives

#méthodes qualitatives

#Analyse textuelle

#Quanti-Quali

Les méthodes qualitatives servent à analyser les réponses aux questions ouvertes, le contenu des entretiens et focus groupe et de plus en plus tout ce qu’on trouve sur le web, forum avis consommateurs…. Ces sources fournissent des informations riches mais difficiles à analyser car dans la complexité des informations recueillies, peuvent se cacher l’expression de faits ou d’opinions minoritaires ou ambiguës, révélateurs de nouveautés, d’évolutions, d’opportunités ou de menaces. Elles permettent de dépasser les limites des enquêtes par questionnaire ou des bases de données purement quantitatives et sont de plus en plus utilisées.

 

I – Enjeux de l’étude de données qualitatives

Pour cela, chercheurs et chargés d’étude doivent recueillir des textes ou corpus et en prendre connaissance : de quoi est-il question, qui dit quoi, et quels sentiments se trouvent exprimés (positifs négatifs, satisfaction critique…) ?

Au-delà de la découverte il peut aussi s’agir de vérifier, confirmer et illustrer ce qu’on pense à priori ou d’aller plus loin en approfondissant et en interprétant. C’est tout l’avantage des méthodes qualitatives.

Ce travail requiert un savoir-faire particulier hérité de la tradition très ancienne du commentaire littéraire. Il a beaucoup évolué au cours du XXème siècle avec les méthodes systématiques d’analyse de contenu et d’analyse statistique des données textuelles. Elles se trouvent enfin considérablement renouvelées au début de ce siècle par l’ingénierie linguistique et sa mise en œuvre dans les services web.

Ainsi, le chercheur ou le chargé d’études peut désormais s’affranchir du passage obligé par la lecture exhaustive ou le codage manuel, pour relever le challenge des données massives.

En outre, le caractère explicitable des algorithmes statistiques et/ou sémantiques, et la stabilité de leur mise en œuvre produisent des résultats objectifs et reproductibles que l’analyste peut interpréter et partager avec son lecteur. En effet, l’interactivité du web par le retour au texte et les simulations qu’il autorise donne la possibilité au lecteur de contrôler les interprétations de l’analyste ou d’en découvrir de nouvelles selon sa propre curiosité.

 

II – Outils d’analyse de données qualitatives

Ainsi, les technologies offrent-elles aux chercheurs et chargés d’étude l’opportunité d’échapper aux limitations imposées par le volume des données ainsi qu’à la suspicion du manque de transparence des méthodes traditionnelles ? Encore faut-il pouvoir se familiariser avec l’usage d’outils et de méthodes de plus en plus utilisés pour la productivité et la légitimité scientifique qu’ils apportent.

Les dernières versions de Sphinx et notamment le logiciel SaaS DATAVIV’ sont un exemple de cette nouvelle donne. Elles marquent l’aboutissement d’une évolution d’une trentaine d’année. Dès le début, le traitement des questions ouvertes dans les enquêtes a été proposé avec les fonctions d’analyse de contenu et d’analyse lexicale pour repérer mots clés et spécificité selon les contextes. La lemmatisation puis le repérage statistique de catégories de contenu ont ensuite ouvert la voie à l’analyse de corpus d’entretiens ou de documents plus volumineux. L’analyse de données textuelle augmente ainsi les capacités de synthèse et de discernement enrichies par l’intégration dans les logiciels des moteurs sémantiques (thésaurus et analyse de sentiments) de dernière génération. Enfin l’infographie, la datavisualisation et le partage sur le web donnent au lecteur la possibilité de prendre connaissance du corpus et des analyses de manière active en faisant ainsi sa propre expérience des données.

Au terme de cette déjà longue histoire, Le Sphinx offre des solutions à chacun, quelle que soit sa familiarité avec les logiciels, ses compétences statistiques ou ses connaissances de l’analyse lexicale ou sémantique.

Il peut selon le cas

  • se contenter de sélectionner du verbatim en l’organisant selon les thèmes qu’il identifie progressivement ou coder des réponses ou documents, comme il le ferait avec N’Vivo ou Atlas TI
  • établir les listes de mots les plus fréquents et les regrouper en dictionnaires thématiques comme il le ferait avec Lexico ou Wordstat
  • identifier des catégories thématiques à partir d’une classification hiérarchique descendante comme il le ferait dans Alceste ou Iramuteq
  • repérer les concepts et sentiments présents dans son corpus comme il le ferait dans Troppes ou QD Miner
  • faire de la data visualisation et produire des nuages de mots comme dans Wordle ou Opentext Analytics

Toutes ces fonctions et ces possibilités sont disponibles avec Sphinx qui les intègre toutes. Selon son corpus, et ses objectifs l’utilisateur peut en choisir une ou les combiner entre elles.

 

Envie d’en savoir plus sur l’analyse de vos données textuelles ? Découvrez notre série de de Tutos Flash !

 

Glossaire

Corpus : ensemble de données contenant le texte de documents écrits, les transcriptions de paroles ou le contenu de sources web relatifs à un sujet.

Analyse lexicale : Procédé consistant à remplacer la lecture d’un corpus par l’examen des mots et expressions les plus fréquents qu’il contient.

Lemmatisation : Technique consistant à remplacer les mots tels qu’ils apparaissent dans le texte par leur forme première : Infinitif des verbes, masculin singulier des noms et adjectifs.

Analyse morpho syntaxique : Exploitation des propriétés de la langue pour repérer les nom, adjectifs verbe et expressions et ainsi préciser la signification de l’analyse lexicale.

Analyse de données textuelles : Application des méthodes statistiques d’analyse multidimensionnelle pour catégoriser le contenu des corpus selon la manière dont les mots se trouvent associés entre eux.

Classification hiérarchique descendante : Technique de construction de typologie reposant sur une séquence d’analyse factorielle appliquée au corpus. La visualisation des mots caractérisant les classes met en évidence les thématiques.

Analyse de contenu : Méthode traditionnelle de lecture des corpus en vue de définir leur contenu par les thèmes définis à priori ou apparaissant à la lecture.

Codification : Affectation manuelle ou automatique d’une catégorie thématique aux éléments composant le corpus : réponses, phrase, ou autre unité de signification.

Thésaurus : Organisation arborescente d’idées ou de thèmes définies par des listes de mots clé (dictionnaires)

Analyse sémantique : Procédé consistant à remplacer la lecture d’un corpus par l’examen des significations, idées, concepts qu’il contient. Ce sens est déterminé automatiquement par la mise en œuvre de méthodes linguistiques et statistique et ou d’un thésaurus.

Analyse de sentiments : Procédé consistant à repérer les opinions et évaluations présentes dans le corpus.

Spécificités lexicales et sémantiques : Recherche de l’influence du contexte sur les contenus par la mise en évidence des mots, expressions, idées ou sentiments qui distinguent ceux qui s’expriment.

Triangulation : Méthode consistant à confronter les résultats de différentes approches pour en vérifier la convergence. Par exemple en confrontant analyse lexicale, sémantique et de contenu.

 

Exemples d’études et de méthodes qualitatives

Pour illustrer ces propos considérons 5 cas correspondant à des genres de recherche différents et mobilisant tout le spectre des méthodes qualitatives

Enquête de satisfaction – Hotline

Cette enquête de satisfaction menée auprès des clients d’un éditeur de logiciel bien connu complète les mesures de la qualité du service par des questions sur les problèmes rencontrés et la justification des évaluations faites. Mots clé et expressions récurrentes confirment le bon niveau des évaluations et pointent sur les motifs d’insatisfaction exprimés dans le langage même des utilisateurs. Un simple clic permet de les retrouver, de plus un système d’alerte en temps réel fait remonter les verbatims les plus critiques…

Voir l’exemple

Avis en ligne – Expérience touristique

Cette recherche examine la perception des séjours touristiques. 600 avis postés sur Trip Advisor sont recueillis selon un plan d’expérience construit sur 2 destinations (Maroc, Tunisie) et 2 modes d’hébergements (Hôtel club et Gîtes, B&B). Une première exploration permet met en évidence que le mode d’hébergement a plus d’influence sur les contenus que la destination. Les avis sont ensuite automatiquement codés sur la base d’un thésaurus construit pour les besoins de cette recherche. On met ainsi en évidence que l’expérience de l’accueil prime sur les autres composantes du séjour.

Voir l’exemple

Entretiens non directifs – Leadership

Dans cette thèse, les entretiens approfondis effectués auprès de 14 dirigeants sont analysés de manière exploratoire par une classification automatique. Elle met en évidences 4 grands thèmes affinés en considération de la littérature sur les conditions d’exercice du leadership. L’intégralité des entretiens est alors lue et codée selon cette grille. La fréquence avec laquelle les éléments du code book se trouvent évoqués dans les 297 tours de paroles permet de préciser l’importance des dimensions du leadership et leur dépendance par rapport à l’expérience et la culture des dirigeants. Enfin une triangulation permet de confirmer la robustesse des résultats.

Voir l’exemple

Données massives – Transition écologique

Le corpus des contributions au grand débat, 35 000 contributions, plus de 10 millions de mots, dresse un panorama des préoccupations des français. Les mots expressions et idées clés mis en évidence par l’analyse lexicale et sémantiques confirment ce qu’on savait déjà en précisant les hiérarchies et l’influence des situations locales. Mais surtout la data visualisation et l’interactivité conduisent à des interprétations originales argumentée par du verbatim qu’il aurait autrement été impossible de découvrir dans la masse de ces informations. Enfin les commentaires très minoritaires en pourcentage se trouvent ici documentés par des centaines de personnes ce qui autorise d’en approfondir l’analyse et les logiques.

Voir l’exemple

Base bibliographique – La relation marque-consommateur

Cet exemple montre comment une revue de littérature peut être communiquée en présentant des synthèses lexicales et statistiques de l’ensemble des articles analysés. Les grands thèmes ainsi dégagés sont ensuite affinés par une recherche ciblée correspondants aux concepts plus spécifiquement étudiés (thésaurus) : les relations marques/consommateurs et les émotions mises en jeu.
Les résultats portent sur la cohérence des axes de recherches identifiés dans l’ensemble des 287 articles et sur leur évolution au cours des 4 périodes considérées.

Cet exemple montre comment l’analyse d’un corpus de documents peut conduire à des interprétations fondées sur des données objectives et contrôlables par le lecteur. La data visualisation permet en effet d’acquérir très rapidement une expérience du corpus étudié et de discuter les interprétations proposées par l’auteur.

Voir l’exemple

Mur d’images en ligne – Coberen

Cet exemple porte sur la première partie d’une grande enquête en ligne portant sur la consommation de boissons en Europe. Il s’agissait de faire choisir 3 images évoquant le fait de boire. Le mur d’image proposé était composé de 25 images variant les boissons, les situations, les motivations… Les répondants étaient alors invités à expliquer leur choix. Ainsi est recueilli un corpus multilingue de plus de 15000 commentaires.
L’examen des mots et expression clé dans la langue de chaque pays permet de se faire une première idée des réponses fournies.

Pour produire une synthèse, et mettre en évidence les différences régionales ou par pays, un extrait calibré le la base intégrale et codé en ligne par les chercheurs de chaque pays participant. On peut ainsi établir que la génération et le genre ont plus d’influence que le pays lui-même, tout en illustrant ces conclusions par du verbatim dans la langue d’origine.

Voir l’exemple

 

Complementarité du Quali-Quanti

Ces exemples mettent en évidence différents aspects des méthodes qualitatives. Ils n’auraient pas pu être développés sans les opportunités de collectes et d’analyse offerts par les dernières évolutions des technologies du web et de l’analyse de données. La mise en ligne des corpus permet d’en partager le contenu avec le lecteur qui peut ainsi en prendre connaissance grâce aux raccourcis offerts par la data visualisation. Il peut ainsi contrôler les interprétations proposées par l’auteur en revenant au corpus pour vérifier ou satisfaire sa propre curiosité. Mais l’analyse de données textuelle et l’analyse sémantique donnent aussi la possibilité d’être beaucoup plus efficace dans la découverte de résultats inattendus ou dans la confirmation d’idées ou d’impressions qu’on cherche à vérifier. Du qualitatif au quantitatif, de l’exploration à la confirmation, ces méthodes font disparaître les clivages traditionnels et expliquent le rapide développement des méthodologies mixtes que permettent les dernières générations de logiciels.
DATAVIV’ en est un brillant exemple.

 

Auteur : Jean Moscarola

Haut de la page