Importation des entretiens dans Sphinx Quali

Le développement des technologies de l’information a modifié la pratique des études qualitatives. De nouvelles techniques de collecte de données ont vu le jour avec l’utilisation croissante des blogs, des forums de discussion et des réseaux sociaux sans pour autant affecter le recours aux entretiens en face-à-face. Ceux-ci sont toujours mobilisés dans le domaine des études qualitatives. Les logiciels d’analyse des données textuelles disponibles sur le marché facilitent le traitement des données recueillies en proposant des méthodes variées allant de l’analyse de contenu à l’analyse sémantique en passant par l’analyse lexicale ou statistique (voir les différents articles du blogs consacrés aux méthodes d’analyse textuelle).

Cet article fait le point sur une étape préalable à l’analyse : celle de l’intégration des données recueillies au logiciel Sphinx Quali.

La préparation des données

La retranscription des entretiens se fait selon des modèles prédéfinis permettant d’identifier les interventions de l’enquêteur, de l’enquêté, dans le cas d’entretiens individuels, et des membres du groupe, dans le cas d’un entretien collectif. Les figures 1, 2 et 3 présentent des extraits d’entretiens prêts à l’importation.

Figure 1 : Modèle de retranscription de l’entretien individuel non directif

Figure 2 : Modèle de retranscription de l’entretien individuel directif ou semi-directif

Figure 3 : Modèle de retranscription de l’entretien collectif (focus group)

Les extraits d’entretien montrent que chaque information est précédée d’une balise : « E : » pour l’entretien, « Q : » pour la question, « R : » pour la réponse, ...

A noter qu’il est possible d’ajouter des variables signalétiques (balisées comme précédemment) permettant de situer les propos recueillis, des annotations (entre crochet) pour consigner les remarques de l’enquêteur ou des titres de parties (précédés du symbole supérieur : >titre) pour structurer l’entretien.

L’importation des données

L’importation des entretiens génère deux enquêtes différentes selon l’unité statistique retenue : l’entretien ou le couple question-réponse. Les données sont visualisées à l’aide d’un tableur. Ainsi, pour 2 entretiens menés à l’aide d’un guide comprenant 3 questions, le tableur obtenu comptera 2 lignes si l’unité statistique retenue est « l’entretien », il comptera 6 lignes si l’unité statistique retenue est « le couple question-réponse ».

Ci-dessous des exemples de tableurs issus d’entretiens non directifs menés auprès de deux personnes.

Figure 4 : Tableur correspondant à l’unité statistique « entretien »

Figure 5 : Tableur correspondant à l’unité statistique « couple question-réponse »

L’utilisateur choisira de travailler sur la 1ère, la 2ème enquête ou les deux selon sa problématique et les résultats qu’il souhaite obtenir.

>>> Plus d'informations sur www.lesphinx.eu

L’extension de codification des données textuelles avec Sphinx Quali

L’analyse de contenu est l’une des méthodes les plus couramment utilisées dans le traitement des données textuelles. Elle consiste à prélever des informations à partir d’un texte, d’une manière systématique et à l’aide d’une grille de lecture appelée codebook avec l’objectif d’en décrire les éléments évoqués.

Son avantage réside dans sa précision dans la mesure où toutes les thématiques rencontrées sont identifiées, organisées et décomptées. Son inconvénient provient de cette même démarche rigoureuse, qui peut être longue et fastidieuse.

Le développement des technologies mises en œuvre dans le domaine de l’analyse des données textuelles permet de contourner cette difficulté en offrant à l’utilisateur la possibilité d’initier manuellement l’analyse de contenu sur un échantillon représentatif du texte  et de l’automatiser sur le corpus restant. Cette opération fait référence à l’extension de codification proposée dans Sphinx Quali.

Plutôt que de coder manuellement un corpus de grande taille, le rôle de l’utilisateur se résume à la définition du codebook à travers l’identification des thèmes évoqués dans le texte, à la codification manuelle de l’échantillon et au contrôle de la codification réalisée par le logiciel. Cette dernière se basant sur des calculs de similarité entre les textes des différentes observations (réponse donnée par une personne dans un questionnaire par exemple).

Il est à noter que pour augmenter l’efficacité de cette méthode, les textes doivent subir un traitement préalable qui consiste à les épurer (correction orthographique) et à les découper en unités statistiques courtes de type paragraphe, si l’on suppose qu’un paragraphe correspond à une idée et par conséquent à un thème ou phrase lorsque le paragraphe multiplie les thèmes traités.

Application sur l’enquête LOTO

Une étude plutôt qualitative ayant comme objectif de connaître les valeurs des français et leur rapport à l’argent a été adressée à un échantillon de 973 répondants. Cette enquête comprenait une question clé « Si vous gagniez le gros lot au Loto, que feriez-vous ? ».

L’analyse de contenu réalisée d’une manière fine et systématique a permis d’identifier les thèmes ci-dessous, évoqués par les répondants.

 

Figure 1 : Codebook de la question « Si vous gagniez le gros lot au Loto, que feriez-vous ? »

Après un codage assisté d’un échantillon de 302 réponses (sélectionnées aléatoirement par le logiciel), il a été possible d’étendre la codification à 330 réponses supplémentaires, ce qui représente un tiers du corpus global. Les réponses restantes n’ont pas été codées car elles étaient ambiguës (plusieurs idées par phrase) ou contenait des termes non identifiés précédemment.

Figure 2 : Rapport de l’extension de codification

Les textes codés automatiquement pouvaient être identifiés pour vérification et correction. Ceux n’ayant pas bénéficié de traitement automatique pouvaient être analysés manuellement.

Conclusion

L’extension de codification représente un intérêt certain sur des échantillons de très grande taille dans la mesure où elle se base sur une codification manuelle d’un échantillon représentatif des réponses ; en effet coder automatiquement 400, 1000 ou 3000 réponses ne demande pas de travail supplémentaire de la part du chargé d’études, si ce n’est d’activer l’option correspondante dans le logiciel de traitement des données textuelles.

>>> Plus d'informations sur www.lesphinx.eu

L’étude des spécificités ou l’analyse textuelle par contexte

Dans une analyse des données textuelles, la méthode de l’analyse lexicale constitue une étape indispensable pour la compréhension du contenu du texte analysé. Elle est souvent appuyée par une analyse par contexte connue sous le nom « étude des spécificités ». Celle-ci consiste à comparer le contenu du corpus selon les modalités d’une variable fermée (variable d’identification comme la profession par exemple).

Le principe de cette étude part de l’hypothèse d’une répartition « au hasard » des mots sur l’ensemble des catégories de la variable fermée. Son objectif est d’identifier les mots qui sont distribués au hasard et ceux qui ne le sont pas, c’est-à-dire ceux dont la présence est significativement plus forte dans une catégorie donnée.

Les algorithmes de spécificité sont fondés sur des tests statistiques de rapports ou de comparaison de fréquences et opèrent selon les calculs suivants :

Figure 1 : Illustration des calculs de spécificité

Sont considérés comme spécifiques les mots dont le rapport de fréquence dépasse un seuil fixé par le chargé d’études.

Application

Dans l’enquête de consommation menée en 1992 par le CREDOC[1], la question « Si vous gagniez le gros lot au Loto, que feriez-vous ? » est posée. L’objectif de cette étude est d’identifier le comportement du consommateur une fois affranchi des contraintes financières grâce à ses gains au loto. 990 réponses sont collectées.

Une analyse des mots spécifiques par contexte a été effectuée à partir de la variable « situation matrimoniale ». Celle-ci révèle que l’importance des intentions diffère selon que l’on est célibataire, en couple ou séparé (voir figure ci-dessous) :

  • Les célibataires utilisent d’une façon remarquable les mots cadeau, appartement, banque, immobilier, placement et voiture.
  • Les personnes en couple pensent principalement aux vacances.
  • Les personnes séparées ont des priorités différentes si l’on considère les termes surutilisés chez eux : œuvre, pauvre, enfant, cancer, don, gens et pays.

Il faut noter que ces mots précédents ne sont pas exclusifs d’une catégorie, mais ils sont présents d’une manière importante pour en être représentatifs.