L’étude des spécificités ou l’analyse textuelle par contexte

Dans une analyse des données textuelles, la méthode de l’analyse lexicale constitue une étape indispensable pour la compréhension du contenu du texte analysé. Elle est souvent appuyée par une analyse par contexte connue sous le nom « étude des spécificités ». Celle-ci consiste à comparer le contenu du corpus selon les modalités d’une variable fermée (variable d’identification comme la profession par exemple).

Le principe de cette étude part de l’hypothèse d’une répartition « au hasard » des mots sur l’ensemble des catégories de la variable fermée. Son objectif est d’identifier les mots qui sont distribués au hasard et ceux qui ne le sont pas, c’est-à-dire ceux dont la présence est significativement plus forte dans une catégorie donnée.

Les algorithmes de spécificité sont fondés sur des tests statistiques de rapports ou de comparaison de fréquences et opèrent selon les calculs suivants :

Figure 1 : Illustration des calculs de spécificité

Sont considérés comme spécifiques les mots dont le rapport de fréquence dépasse un seuil fixé par le chargé d’études.

Application

Dans l’enquête de consommation menée en 1992 par le CREDOC[1], la question « Si vous gagniez le gros lot au Loto, que feriez-vous ? » est posée. L’objectif de cette étude est d’identifier le comportement du consommateur une fois affranchi des contraintes financières grâce à ses gains au loto. 990 réponses sont collectées.

Une analyse des mots spécifiques par contexte a été effectuée à partir de la variable « situation matrimoniale ». Celle-ci révèle que l’importance des intentions diffère selon que l’on est célibataire, en couple ou séparé (voir figure ci-dessous) :

  • Les célibataires utilisent d’une façon remarquable les mots cadeau, appartement, banque, immobilier, placement et voiture.
  • Les personnes en couple pensent principalement aux vacances.
  • Les personnes séparées ont des priorités différentes si l’on considère les termes surutilisés chez eux : œuvre, pauvre, enfant, cancer, don, gens et pays.

Il faut noter que ces mots précédents ne sont pas exclusifs d’une catégorie, mais ils sont présents d’une manière importante pour en être représentatifs.

Figure 2 : Calcul des spécificités pour l'enquête de consommation

L’étude des spécificités permet d’identifier à partir du lexique, les différences entre les catégories comparées, ce qui en facilite la qualification et l’illustration via des verbatim différenciés.

Il est à noter que cette étude des spécificités peut s’effectuer également à partir d’une analyse sémantique. L’objectif dans ce cas est de représenter le corpus par un ensemble de concepts et d’en identifier les plus représentatifs par catégorie (voir l’article Ontologies et thésaurus pour modéliser un corpus textuel pour plus d’information sur la notion de concepts).


[1] Lahlou, Collerie, Beaudouin (1993) Où en est la consommation aujourd'hui, Cahier de recherches n° 46, CREDOC

>>> Plus d'informations sur www.lesphinx.eu

Share and Enjoy:
  • Print
  • Digg
  • StumbleUpon
  • del.icio.us
  • Facebook
  • Yahoo! Buzz
  • Twitter
  • Google Bookmarks

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>