L’extension de codification des données textuelles avec Sphinx Quali

L’analyse de contenu est l’une des méthodes les plus couramment utilisées dans le traitement des données textuelles. Elle consiste à prélever des informations à partir d’un texte, d’une manière systématique et à l’aide d’une grille de lecture appelée codebook avec l’objectif d’en décrire les éléments évoqués.

Son avantage réside dans sa précision dans la mesure où toutes les thématiques rencontrées sont identifiées, organisées et décomptées. Son inconvénient provient de cette même démarche rigoureuse, qui peut être longue et fastidieuse.

Le développement des technologies mises en œuvre dans le domaine de l’analyse des données textuelles permet de contourner cette difficulté en offrant à l’utilisateur la possibilité d’initier manuellement l’analyse de contenu sur un échantillon représentatif du texte  et de l’automatiser sur le corpus restant. Cette opération fait référence à l’extension de codification proposée dans Sphinx Quali.

Plutôt que de coder manuellement un corpus de grande taille, le rôle de l’utilisateur se résume à la définition du codebook à travers l’identification des thèmes évoqués dans le texte, à la codification manuelle de l’échantillon et au contrôle de la codification réalisée par le logiciel. Cette dernière se basant sur des calculs de similarité entre les textes des différentes observations (réponse donnée par une personne dans un questionnaire par exemple).

Il est à noter que pour augmenter l’efficacité de cette méthode, les textes doivent subir un traitement préalable qui consiste à les épurer (correction orthographique) et à les découper en unités statistiques courtes de type paragraphe, si l’on suppose qu’un paragraphe correspond à une idée et par conséquent à un thème ou phrase lorsque le paragraphe multiplie les thèmes traités.

Application sur l’enquête LOTO

Une étude plutôt qualitative ayant comme objectif de connaître les valeurs des français et leur rapport à l’argent a été adressée à un échantillon de 973 répondants. Cette enquête comprenait une question clé « Si vous gagniez le gros lot au Loto, que feriez-vous ? ».

L’analyse de contenu réalisée d’une manière fine et systématique a permis d’identifier les thèmes ci-dessous, évoqués par les répondants.

 

Figure 1 : Codebook de la question « Si vous gagniez le gros lot au Loto, que feriez-vous ? »

Après un codage assisté d’un échantillon de 302 réponses (sélectionnées aléatoirement par le logiciel), il a été possible d’étendre la codification à 330 réponses supplémentaires, ce qui représente un tiers du corpus global. Les réponses restantes n’ont pas été codées car elles étaient ambiguës (plusieurs idées par phrase) ou contenait des termes non identifiés précédemment.

Figure 2 : Rapport de l’extension de codification

Les textes codés automatiquement pouvaient être identifiés pour vérification et correction. Ceux n’ayant pas bénéficié de traitement automatique pouvaient être analysés manuellement.

Conclusion

L’extension de codification représente un intérêt certain sur des échantillons de très grande taille dans la mesure où elle se base sur une codification manuelle d’un échantillon représentatif des réponses ; en effet coder automatiquement 400, 1000 ou 3000 réponses ne demande pas de travail supplémentaire de la part du chargé d’études, si ce n’est d’activer l’option correspondante dans le logiciel de traitement des données textuelles.

>>> Plus d'informations sur www.lesphinx.eu

Share and Enjoy:
  • Print
  • Digg
  • StumbleUpon
  • del.icio.us
  • Facebook
  • Yahoo! Buzz
  • Twitter
  • Google Bookmarks

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>