L’analyse de contenu avec Sphinx Quali

L’analyse de contenu est l’une des méthodes les plus classiques d’analyse des données qualitatives. Elle consiste à prendre connaissance d’un corpus textuel et à le qualifier sur la base d’une grille de codification élaborée en amont ou au fur et à mesure de la lecture du texte.

Sphinx iQ option Quali propose un environnement d’aide à l’analyse de contenu accessible depuis le panneau d’accueil. Il s’agit du stade « Analyse textuelle et sémantique », option « Codification » puis « Construction d’un codebook » (voir figure ci-dessous).

Figure 1 : Chemin d’accès à l’environnement d’analyse de contenu sur Sphinx iQ option Quali

L’utilisateur est libre de définir sa grille de lecture en indiquant les thématiques à prendre en compte et de procéder ensuite à la codification systématique de la totalité du corpus. Le gain de temps est ainsi considérable.

Ci-dessous le dialogue de définition des thématiques et l’environnement d’analyse de contenu de Sphinx iQ option Quali.

Figure 2 : Environnement d’analyse de contenu sur Sphinx iQ option Quali

A l’issue de la codification, le logiciel produit une synthèse qui hiérarchise les thématiques structurant le texte et les illustre avec les verbatim correspondants. Ces illustrations sont très utiles pour argumenter les tendances étudiées.

Figure 3 : Synthèse de l’analyse de contenu avec Sphinx iQ option Quali

La variable de codification générée par le logiciel permet d’aller plus loin dans l’analyse et d’exploiter au maximum les liens entre les thématiques et les autres variables de l’enquête.

D’autres procédures d’analyse de contenu sont disponibles dans le logiciel Sphinx. Pour en savoir plus, consultez les articles du blog portant sur l’extension de codification et l’utilisation des ontologies et thésaurus.

>>> Plus d'informations sur www.lesphinx.eu

La classification des données textuelles selon la méthode Alceste

ALCESTE (Analyse des Lexèmes Cooccurrents dans un Ensemble de Segments de Textes) est une méthode d’analyse des données textuelles développée par le chercheur Reinert dans les années 60, en application des travaux de Benzécri. Son informatisation a donné lieu à un logiciel portant le même nom, ainsi qu’à des modules d’analyse intégrés à des solutions de traitement des données qualitatives comme Sphinx Quali.

Dans cet article, ne seront traités que les aspects méthodologiques liés à ALCESTE.

Principe et déroulement de la méthode

La méthode ALCESTE part du principe que d’une part le contenu d’un texte peut être appréhendé grâce à sa structure, et d’autre part que sa signification peut être saisie grâce à la répétition et à la succession de ses mots.

En effet, pour Reinert (1993), « l’étude des répétitions dans un discours ouvre à la possibilité de se représenter les courants idéologiques, les zones de conflits, de ruptures, à partir de recouvrements, d’enveloppements ou d’oppositions entre ce que nous appelons des mondes lexicaux ».

Toutefois, cette répétition ne suffit pas à déduire le sens du texte, l’organisation des mots y contribue nécessairement comme le note l’auteur « les mots pleins n'ont de sens que par leur apparition simultanée dans une même unité de contexte » (Reinert, 2000).

Concrètement, la méthode consiste à effectuer les opérations suivantes :

  • découper le texte en segments (observation entière, paragraphe ou phrase),
  • observer la distribution des mots pleins[1] dans chaque segment, et ce, après lemmatisation[2],
  • classer les segments découpés dans des catégories différentes selon les mots pleins qui les composent ; l’ordre dans lequel se présentent les mots et les segments est sans importance.

La classification mise en place dans la méthode Alceste est une classification de type « hiérarchique descendante ». Elle procède par itérations successives à partir d’une analyse factorielle des correspondances multiples.

La table des données analysées comporte en ligne les segments et en colonne les mots pleins lemmatisés[3] (voir figure ci-dessous).

 

Figure 1 : Table des données

 La première itération conduit à une partition selon le premier plan factoriel. La classe la plus nombreuse fait l’objet d’une nouvelle partition. Les itérations se poursuivent par partition de la classe de plus grand effectif, tant que celle-ci  est supérieure à un pourcentage de la population totale fixé comme critère d’arrêt.

Figure 2 : Processus de la classification hiérarchique descendante de la méthode ALCESTE

Les classes obtenues renvoient ainsi à des catégories éloignées voire opposées de par les mots qu’elles contiennent et surtout les mondes lexicaux qu’elles évoquent (un mot pouvant ressortir dans plusieurs classes).

Application

Dans une enquête de consommation menée en 1992 par le CREDOC[4], La question « Si vous gagniez le gros lot au Loto, que feriez-vous ? » est posée. L’objectif de cette étude est d’identifier le comportement du consommateur une fois affranchi des contraintes financières grâce à ses gains au loto. 990 réponses de 8 mots pleins en moyenne sont collectées.

L’analyse de ce corpus en application de la méthode ALCESTE disponible dans Sphinx Quali a permis de distinguer 4 groupes (voir figure ci-dessous) :

  • Le premier est orienté vers le don et le partage avec la famille et les nécessiteux, les associations humanitaires et celles qui œuvrent dans le domaine de la santé (302 répondants).
  • Le second a des préoccupations économiques, de type achat de bien immobilier, investissement, placement et épargne (114 répondants).
  • Le troisième fait référence à l’amélioration des conditions de vie, principalement le logement et les moyens de transport (340 répondants).
  • Le dernier évoque le plaisir à travers l’organisation de voyages, la dépense de l’argent gagné dans des loisirs variés (153 répondants).

Figure 3 : Classification des réponses LOTO avec la méthode ALCESTE

Le rapprochement entre les classes obtenues et les caractéristiques individuelles des répondants montre que les hommes se situent davantage du côté du voyage et de l’épargne/investissement contrairement aux femmes qui investissent majoritairement le champ du logement et du partage. A noter que les femmes âgées de 50 ans et plus sont plus sensible à ce dernier point.

 

Figure 4 : Croisement par KeyView (Sphinx iQ) des classes et du profil des répondants

Comme précisé plus haut, les résultats obtenus par la méthode Alceste sont basés sur un procédé automatique qui déstructure le texte initial et le réorganise grâce à la répétition et à la succession de ses mots. L’analyste peut toutefois interférer avec le logiciel en indiquant à titre d’exemple la catégorie grammaticale des mots retenus dans la classification (verbes, adjectifs, noms) ou le nombre de classes souhaités. C’est à l’analyste qu’incombe en fin de processus la qualification des classes et l’interprétation des résultats.

Il est à noter que cette méthode peut être utilisée en compléments d’autres techniques d’analyse de données textuelles telles que les analyses factorielles par exemple.



[1] Mots ayant des significations propres par opposition aux mots outils.

[2] Procédé consistant à ramener les mots à leur forme canonique ou à leur racine selon la règle suivante : les verbes sont conjugués à l’infinitif, les noms sont ramenés au singulier, les adjectifs sont ramenés au singulier masculin.

[3] Le Sphinx Quali permet de prendre en compte les concepts auxquels revoient les mots (pris dans leur contexte) dans la classification.

[4] Lahlou, Collerie, Beaudouin (1993) Où en est la consommation aujourd'hui, Cahier de recherches n° 46, CREDOC

>>> Plus d'informations sur www.lesphinx.eu

Comment analyser rapidement les sentiments dans un texte ? Rien de plus simple avec Sphinx Quali !

L’analyse des sentiments regroupe un ensemble de techniques qui permettent d’identifier la tonalité d’un texte constitué de réponses à une question ouverte dans une enquête, de commentaires collectés depuis un blog ou des réseaux sociaux, de contenus d’entretiens… Elle se base sur l’étude de l’orientation des mots du texte (positive ou négative) et de la façon dont ceux-ci sont organisés (notamment la gestion de la négation).

Sphinx Quali propose une analyse synthétique qui donne l’orientation globale du texte et souligne les mots clés et les verbatims spécifiques à chaque orientation.

La figure suivante montre un extrait de l’analyse des sentiments effectuée sur un corpus d’évaluation d’établissements hôteliers vénitiens (données collectées depuis le site TripAdvisor). Il devient très facile d’identifier l’objet des opinions positives (petit déjeuner par exemple) et celui des opinions exprimées sur un ton négatif (chambre et lit entre autres).

Figure 1 : analyse des sentiments effectuée avec Sphinx iQ

L’accès à cette analyse se fait depuis le panneau d’accueil, stade « Analyse textuelle et sémantique », option « Synthèse » puis « Orientation des sentiments » (voir figure ci-dessous).

Figure 2 : Chemin d’accès à l’analyse sémantique sur Sphinx iQ

L’analyse des sentiments s’effectue sur la base d’un découpage du texte en unités significatives et d’une évaluation de la tonalité de chaque unité par un moteur sémantique intégré au logiciel (voir figure 3). Chaque unité est évaluée sur une échelle de 7 niveaux allant du très positif au très négatif. Une observation est jugée positive si elle contient plus d’unités positivement que négativement orientées. La synthèse de toutes les observations confère sa tonalité générale à un texte.

Figure 3 : Extrait de la base de données d’évaluation de la tonalité du texte

L’utilisateur peut consulter la base de données relative à l’analyse des sentiments et la modifier si besoin (atténuer le niveau d’évaluation d’une unité par exemple). Pour y accéder, choisir l’onglet « Données » et l’option « Analyse des sentiments » comme le montre la figure ci-dessous.

Figure 4 : Chemin d’accès à la base de données de l’analyse sémantique

La variable générée par le logiciel suite à cette analyse des sentiments permet d’aller loin dans l’exploration des résultats de l’étude, grâce notamment aux croisements avec d’autres variables. Sur la carte suivante, il est par exemple aisé de constater que les opinions négatives sont liées à la proximité de la gare, au prix, à l’état des lits, des salles de bains, du restaurant et de la réception. Les opinions positives sont, quant à elles, en relation avec la qualité du service et du petit déjeuner, ainsi qu’avec la situation géographique de l’hôtel (place, vaporetto).

Figure 5 : Carte factorielle pour qualifier les opinions positives et négatives

 

>>> Plus d'informations sur www.lesphinx.eu

Un avenir assuré pour l'élite des étudiant(e)s français(es) ?

Préoccupation nationale, l’emploi est un indicateur important et qui en dit long sur les perspectives d’un pays. Quoi de plus important que de suivre le devenir des étudiants qui seront les professionnels de demain et qui dynamiseront l’activité économique ?

C’est ce à quoi s’attache la Conférence des Grandes Ecoles qui publie chaque année les résultats concernant l’insertion professionnelle des jeunes diplômés français et étrangers issus d’établissements d’enseignement supérieur et de recherche. Ceci également afin de mesurer l’efficacité et l’attractivité de ces formations vis-à-vis des entreprises qui recrutent.

Comment fournir des informations factuelles sur l’avenir de l’élite française ?

Des outils performants

Pour rendre possible un recueil d’information d’une telle envergure, la CGE a évolué vers la mise à disposition d’une plateforme en ligne pour administrer l’enquête et récupérer les données de chaque école membre (près de 45 000 questionnaires traités).

Cette mise à disposition permet d’inciter les répondants et de maximiser le taux de retour par rapport aux premières versions de l’enquête, réalisée sous format papier. Grâce à la constitution de cette base de données unique et de tableaux de bord pré-paramétrés, la CGE dispose de données exploitables immédiatement et qui évoluent en temps réel.

L’effet barométrique

L’enquête d’insertion permet de faire un état sur le devenir des 2 dernières promotions sur une année n : taux d’emploi, type de contrat, rémunération, durée de la recherche d’emploi… En plus de cet état, la force de cette enquête réside dans l’administration du questionnaire qui se renouvèle depuis plus de vingt ans. Cela permet de bénéficier de comparaisons d’une année sur l’autre de manière globale ou sur des critères plus précis (ex : filière, sexe…). Le baromètre permet de suivre dans le temps l’évolution d’un phénomène et donc de comprendre les facteurs qui ont une influence. Cette mise en perspective oblige à administrer un questionnaire au contenu identique d’année en année et à une périodicité identique.

Les résultats

Le champ de l’enquête couvre l’ensemble des diplômés non-fonctionnaires des deux dernières promotions de niveau master (bac +5) des grandes écoles de France métropolitaine membres de la CGE.

Cette vingt-deuxième enquête a été réalisée au cours du premier trimestre 2014. Chaque école participante a assuré la collecte des données pour son établissement.

Nous allons présenter les principaux indicateurs de cette étude en se focalisant plus précisément sur les différences qui peuvent exister en fonction du sexe.

Globalement, les indicateurs d’insertion des femmes sont invariablement inférieurs à ceux des hommes et présentent des écarts qui sont comparables à ceux observés lors des précédentes années. Cette enquête permet de souligner qu’il n’y a pas d’évolution notable à observer sur ce point en ce qui concerne les diplômés des grandes écoles.

Il est toutefois intéressant de noter que ces écarts s’amenuisent avec l’ancienneté sur le marché du travail même si les différences salariales persistent.