La classification des données textuelles selon la méthode Alceste

ALCESTE (Analyse des Lexèmes Cooccurrents dans un Ensemble de Segments de Textes) est une méthode d’analyse des données textuelles développée par le chercheur Reinert dans les années 60, en application des travaux de Benzécri. Son informatisation a donné lieu à un logiciel portant le même nom, ainsi qu’à des modules d’analyse intégrés à des solutions de traitement des données qualitatives comme Sphinx Quali.

Dans cet article, ne seront traités que les aspects méthodologiques liés à ALCESTE.

Principe et déroulement de la méthode

La méthode ALCESTE part du principe que d’une part le contenu d’un texte peut être appréhendé grâce à sa structure, et d’autre part que sa signification peut être saisie grâce à la répétition et à la succession de ses mots.

En effet, pour Reinert (1993), « l’étude des répétitions dans un discours ouvre à la possibilité de se représenter les courants idéologiques, les zones de conflits, de ruptures, à partir de recouvrements, d’enveloppements ou d’oppositions entre ce que nous appelons des mondes lexicaux ».

Toutefois, cette répétition ne suffit pas à déduire le sens du texte, l’organisation des mots y contribue nécessairement comme le note l’auteur « les mots pleins n'ont de sens que par leur apparition simultanée dans une même unité de contexte » (Reinert, 2000).

Concrètement, la méthode consiste à effectuer les opérations suivantes :

  • découper le texte en segments (observation entière, paragraphe ou phrase),
  • observer la distribution des mots pleins[1] dans chaque segment, et ce, après lemmatisation[2],
  • classer les segments découpés dans des catégories différentes selon les mots pleins qui les composent ; l’ordre dans lequel se présentent les mots et les segments est sans importance.

La classification mise en place dans la méthode Alceste est une classification de type « hiérarchique descendante ». Elle procède par itérations successives à partir d’une analyse factorielle des correspondances multiples.

La table des données analysées comporte en ligne les segments et en colonne les mots pleins lemmatisés[3] (voir figure ci-dessous).

 

Figure 1 : Table des données

 La première itération conduit à une partition selon le premier plan factoriel. La classe la plus nombreuse fait l’objet d’une nouvelle partition. Les itérations se poursuivent par partition de la classe de plus grand effectif, tant que celle-ci  est supérieure à un pourcentage de la population totale fixé comme critère d’arrêt.

Figure 2 : Processus de la classification hiérarchique descendante de la méthode ALCESTE

Les classes obtenues renvoient ainsi à des catégories éloignées voire opposées de par les mots qu’elles contiennent et surtout les mondes lexicaux qu’elles évoquent (un mot pouvant ressortir dans plusieurs classes).

Application

Dans une enquête de consommation menée en 1992 par le CREDOC[4], La question « Si vous gagniez le gros lot au Loto, que feriez-vous ? » est posée. L’objectif de cette étude est d’identifier le comportement du consommateur une fois affranchi des contraintes financières grâce à ses gains au loto. 990 réponses de 8 mots pleins en moyenne sont collectées.

L’analyse de ce corpus en application de la méthode ALCESTE disponible dans Sphinx Quali a permis de distinguer 4 groupes (voir figure ci-dessous) :

  • Le premier est orienté vers le don et le partage avec la famille et les nécessiteux, les associations humanitaires et celles qui œuvrent dans le domaine de la santé (302 répondants).
  • Le second a des préoccupations économiques, de type achat de bien immobilier, investissement, placement et épargne (114 répondants).
  • Le troisième fait référence à l’amélioration des conditions de vie, principalement le logement et les moyens de transport (340 répondants).
  • Le dernier évoque le plaisir à travers l’organisation de voyages, la dépense de l’argent gagné dans des loisirs variés (153 répondants).

Figure 3 : Classification des réponses LOTO avec la méthode ALCESTE

Le rapprochement entre les classes obtenues et les caractéristiques individuelles des répondants montre que les hommes se situent davantage du côté du voyage et de l’épargne/investissement contrairement aux femmes qui investissent majoritairement le champ du logement et du partage. A noter que les femmes âgées de 50 ans et plus sont plus sensible à ce dernier point.

 

Figure 4 : Croisement par KeyView (Sphinx iQ) des classes et du profil des répondants

Comme précisé plus haut, les résultats obtenus par la méthode Alceste sont basés sur un procédé automatique qui déstructure le texte initial et le réorganise grâce à la répétition et à la succession de ses mots. L’analyste peut toutefois interférer avec le logiciel en indiquant à titre d’exemple la catégorie grammaticale des mots retenus dans la classification (verbes, adjectifs, noms) ou le nombre de classes souhaités. C’est à l’analyste qu’incombe en fin de processus la qualification des classes et l’interprétation des résultats.

Il est à noter que cette méthode peut être utilisée en compléments d’autres techniques d’analyse de données textuelles telles que les analyses factorielles par exemple.



[1] Mots ayant des significations propres par opposition aux mots outils.

[2] Procédé consistant à ramener les mots à leur forme canonique ou à leur racine selon la règle suivante : les verbes sont conjugués à l’infinitif, les noms sont ramenés au singulier, les adjectifs sont ramenés au singulier masculin.

[3] Le Sphinx Quali permet de prendre en compte les concepts auxquels revoient les mots (pris dans leur contexte) dans la classification.

[4] Lahlou, Collerie, Beaudouin (1993) Où en est la consommation aujourd'hui, Cahier de recherches n° 46, CREDOC

>>> Plus d'informations sur www.lesphinx.eu