Ontologies et thésaurus pour modéliser un corpus textuel

Aujourd’hui, les technologies de l’information disponibles sur le marché affranchissent le chargé d’étude des contraintes liées à la collecte des données sur Internet. En revanche, celui-ci se trouve confronté à la difficulté d’analyser les masses abondantes des éléments collectés -souvent d’une manière récurrente-, notamment ceux de nature textuelle. Le bon sens impose l’optimisation des ressources allouées aux traitements et par conséquent l’usage de méthodes automatiques permettant d’obtenir un maximum d’informations pertinentes en un temps minime.

Une façon de faire consiste à mobiliser ce qui est communément connu en informatique sous le nom d’ontologie et en linguistique sous le nom de thésaurus. L’ontologie et le thésaurus désignent une conceptualisation consensuelle du monde que l’on souhaite représenter ou du phénomène que l’on souhaite étudier. Ils regroupent un ensemble de concepts[1] organisés de manière hiérarchique et reliés entre eux dans une logique descriptive (voir figure ci-dessous).

L’utilisation des ontologies permet d’analyser les mots dans leurs contextes d’utilisation et évitent des interprétations erronées liées au caractère polysémique du langage.

Figure 1 : Extrait d’ontologie à 4 niveaux tirée du logiciel Sphinx Quali

Les logiciels d’analyse de données textuelles intègrent des ontologies généralistes s’appliquant à des domaines variés et proposant une vision globale du texte soumis à l’analyse. Les utilisateurs traitant de sujets spécifiques peuvent mettre en place leurs propres thésaurus qui répondent mieux à leurs besoins et vision du monde. Ces thésaurus ad ’hoc supportent en effet une recherche ciblée pouvant être décrite par des listes de mots appelées dictionnaires comme nous le verrons ci-dessous.

Application

Dans l’enquête de consommation menée en 1992 par le CREDOC[2], la question « Si vous gagniez le gros lot au Loto, que feriez-vous ? » est posée. L’objectif de cette étude est d’identifier le comportement du consommateur une fois affranchi des contraintes financières grâce à ses gains au loto. 990 réponses sont collectées.

La lecture du texte à la lumière de l’ontologie généraliste du logiciel Sphinx Quali permet d’identifier 28 thèmes généraux, 83 idées principales et 100 concepts détaillés ou très détaillés. Il apparaît au travers de ces différents niveaux de concepts que les répondants évoquent entre autres des activités économiques (économie, finance, industrie, commerce…), leur quotidien et vie collective (habitat, famille, vêtements et parures…) et les actions qu’ils entreprendraient en cas de gain (achat de biens, voyages, dons…).

Figure 2 : Les 4 niveaux de concepts décrivant le corpus de l’enquête Loto

Lorsque l’on double cette lecture d’une exploration des mots utilisés par les répondants, il apparaît que ceux-ci souhaiteraient :

  • Faire fructifier l’argent gagné au moyen d’opérations financières ou d’investissements immobiliers (bourse, épargne, affaire, immobilier…).
  • Améliorer leurs conditions de vie et se faire plaisir (vacances, voyage, achats divers…)
  • Participer à la vie collective en partageant le gain avec la famille ou les associations humanitaires (cadeau, famille, enfant, œuvres…).

Si l’on concentre l’analyse exclusivement sur trois les thématiques « investir », « se faire plaisir » et « donner », la mise en place d’un thésaurus ad ‘hoc s’avère utile. Celui préparé contient 3 niveaux comme le montre la figure ci-dessous.

 Figure 3 : Les 3 niveaux du thésaurus ad ‘hoc décrivant le corpus de l’enquête Loto

Le dernier niveau est détaillé grâce aux dictionnaires « Investissement, achats divers, voyages et loisirs, don, bénéficiaire » qui reprennent les mots utilisés par les répondants pour décrire leurs intentions. Les dictionnaires devraient être exhaustifs.

 Figure 4 : Extrait des intentions en cas de gain au Loto

Il est à noter que l’utilisation des ontologies ou thésaurus pour approcher des données textuelles est une méthode pertinente sur des corpus répétitifs et de taille importante. Elle permet en effet d’identifier facilement et automatiquement les thématiques présentes dans le texte.

Par ailleurs, l’usage des ontologies générales est utile lors d’une recherche exploratoire. Les thésaurus ad’ hoc, quant à eux, sont adaptés à une logique confirmatoire dans laquelle les résultats attendus peuvent être décrits par des listes de mots.



[1] Un concept est une « idée générale et abstraite que se fait l'esprit humain d'un objet de pensée concret ou abstrait, et qui lui permet de rattacher à ce même objet les diverses perceptions qu'il en a, et d'en organiser les connaissances. » (www.larousse.fr , 06/2014)

[2] Lahlou, Collerie, Beaudouin (1993) Où en est la consommation aujourd'hui, Cahier de recherches n° 46, CREDOC

>>> Plus d'informations sur www.lesphinx.eu

La rotation Varimax pour une meilleure lecture de la carte ACP

Pour synthétiser les réponses données à un ensemble de questions numériques, identifier les variables appartenant au même univers et en définir les dimensions structurantes, l’utilisation des Analyses en Composantes Principales est une nécessité. La carte qui en résulte est affinée grâce à l’application de la rotation Varimax, dont nous exposons l’intérêt plus loin.

Rappels méthodologiques sur les ACP

Les ACP (Analyses en Composantes Principales) appartiennent à la famille des analyses factorielles qui consistent à synthétiser les données issues d’un croisement entre plusieurs variables numériques. Ces données sont contenues dans un fichier de grande dimension, ayant en ligne des individus et en colonne des caractéristiques quantitatives.

Les variables étudiées sont projetées sur un ensemble d’axes indépendants. Chaque axe permet de prendre connaissance d’une partie plus ou moins importante de l’information contenue dans le tableau initial ; la globalité des axes permet d’appréhender l’information entière. Il est à noter que les 1er et 2ème axes sont ceux qui restituent le maximum d’information, ils sont identifiés automatiquement par les logiciels d’analyse de données.

Prenons un exemple pour illustrer ces propos.

Dans l’étude européenne sur les rapports entre consommation et culture menée en 2010 (projet COBEREN), il a été demandé aux répondants d’indiquer les raisons pour lesquelles ils consommaient leur boisson préférée. Une série d’items lui ont été proposés et ils devaient s’y positionner via une échelle de 4 niveaux avec une mention supplémentaire « je ne sais pas ».

Les questions se présentaient comme suit :

 Figure 1 : Items proposés

L’Analyse en Composantes Principales réalisée montre l’existence de deux groupes de variables :

  • Le 1er comporte les items Absence de risque, Bonne santé, Rapport qualité prix, S’hydrater.
  • Le 2ème comprend les items Etre différent, Etre à la mode, Faire comme les amis, Exprimer ses valeurs, Etre de bonne humeur, …

Figure 2 : Carte ACP sans rotation Varimax

Pour mieux identifier la structure reliant les deux groupes (variables opposées ou appartenant à des dimensions différentes), la rotation Varimax montre son utilité.

Qu’est-ce que la rotation Varimax ?

Les axes de projection sont des combinaisons linéaires[1] des variables étudiées. Ces dernières contribuent avec des poids différents à la formation des axes. Par exemple si la contribution des variables X1, X3, X5 est élevée sur l’axe 1, elle peut être faible sur l‘axe 2. Ce dernier peut être expliqué plus principalement par la variable X6.

La rotation Varimax consiste à associer chacune des variables à un nombre réduit de facteurs et à représenter chaque facteur par un nombre limité de variables. Visuellement les variables sont rapprochées des axes auxquels elles contribuent de manière à en faciliter l’interprétation.

 

Dans l’exemple précédent, la carte obtenue après application de la rotation Varimax montre que les groupes de variables constituent deux dimensions à part entière puisque le 1er groupe est proche de l’axe 1 (horizontal) et le 2ème groupe de l’axe 2 (vertical).

Figure 3 : Carte ACP avec rotation Varimax

Il est donc possible de conclure que les mobiles qui incitent les gens à choisir telle ou telle boisson appartiennent à deux ordres différents : la dimension fonctionnelle résumant l’effet de la boisson sur le bien-être de la personne et la dimension sociale marquant l’appartenance de l’individu à un groupe social qui partage les mêmes préférences et les mêmes valeurs.

Apport de la rotation Varimax

Comme nous pouvons le constater, l’application de la rotation Varimax aide à identifier la contribution des variables à la formation des axes factoriels. Ceci permet de tirer, d’une manière rapide et synthétique, des conclusions sur les dimensionnalités des variables, évitant tout biais lié à la qualité de la projection et à la synthèse des données.


[1] De type Y = aX1 + bX2 + cX3 + dX4 + eX5 + fX6 + constante.

>>> Plus d'informations sur www.lesphinx.eu

Les Chi² partiels : un indicateur utile pour explorer l’association entre deux variables nominales

Le test du Chi² pour vérifier l’existence d’une association entre deux variables nominales

Appartenant aux méthodes explicatives, le test Chi² est utilisé dans les analyses bi-variées ayant comme objectif d’identifier s’il existe ou non une association entre deux variables nominales (appelées également qualitatives ou fermées), autrement dit si l’appartenance à certaines modalités de la première variable influence ou non l’appartenance à d’autres modalités de la deuxième variable.

Si l’on prend l’exemple ci-dessous de la consommation du fromage, il serait intéressant de connaître les préférences en matière de fromage par origine géographique et de vérifier s’il existe, sur le plan statistique, une association entre les deux variables.

 

 Figure 1 : Tris à plats des variables à étudier

Le test du Chi² se base sur une comparaison d’effectifs et  s’applique sur des tableaux croisés, appelés tableaux de contingence, contenant en ligne les modalités de la première variable et en colonne les modalités de la seconde.

Figure 2 : Tri croisé des variables à étudier

Après une phase de calcul de la valeur du Chi² et de comparaison de cette valeur à un seuil théorique (les logiciels d’analyse de données effectuent ces opérations sur simple activation du test statistique), il est possible de tirer une conclusion générale sur l’association entre les variables étudiées.

Dans l’exemple précédent, l’application du test statistique génère le résultat suivant, qui conclue à l’existence d’une association très significative entre l’origine géographique et le type de fromage préféré.

p = <0,01 ; Khi2 = 60,36 ; ddl = 3 (TS)

La relation est très significative.

Toutefois,  cette conclusion ne précise pas les couples de modalités responsables de cette association. Pour répondre à la question « quels types de fromages préfèrent les Français et les Savoyards ? », c’est la notion de Chi² partiel qui peut apporter ce complément d’information.

Les Chi² partiels pour identifier les couples de modalités associées

Les Chi² partiels explorent le tableau de contingence à la recherche de cellules qui représentent des écarts par rapport aux effectifs théoriques obtenus en cas d’indépendance entre les variables étudiées.

En réalité, toutes les cellules du tableau présentent des écarts, ceux-ci sont plus ou moins élevés. Certaines cellules correspondent à des écarts faibles et sont par conséquent ignorées dans l’explication de l’association entre les variables étudiées.

D’autres correspondent à des écarts élevés pouvant être positifs ou négatifs ; les écarts positifs indiquent l’existence d’une sur-représentation et les négatifs renvoient à une sous-représentation des catégories qualifiées par les différents couples de modalités. Ces cellules expliquent l’association entre les variables étudiées.

Figure 3 : Tableau des effectifs réels et théoriques

Les Chi² partiels permettent de hiérarchiser ces écarts selon leur importance et d’indiquer leur poids dans l’explication de l’association. Les cellules correspondantes sont alors mises en évidence.

Figure 4 : Tableau des significativités

Il est à noter que le logiciel Sphinx iQ attribue les notations suivantes pour qualifier les cellules : TS indique que le couple de modalités contribue d’une manière très significative à l’explication de l’association, S indique que la contribution est significative et PS indique une contribution peu significative. Ces notations sont positives ou négatives selon que les effectifs des cellules sont sur ou sous représentés.

Pour revenir à l’exemple précédent, les Chi² partiels indiquent que les fromages à pâtes pressées cuites ne sont pas responsables de l’association entre les deux variables que sont les types de fromage préféré et l’origine géographique (aucun symbole associé), que les Savoyards ont une préférence très nette pour les fromages à pâtes pressées non cuites (+TS), que les Français préfèrent d’abord les fromages à pâtes molles (+TS) et ensuite les persillés (+S).

Pour conclure

L’analyse des Chi² partiels apporte un complément d’information utile à la compréhension de différents aspects de l’association entre deux variables (les couples de modalités responsables de l’association et intensité des liens) permettant ainsi la mise en place de plans d’actions pertinents.

Ces informations sur les Chi² partiels peuvent être utilisées dans le cadre d’analyses plus globales se rapportant à la fouille des données. Ceci est rendu possible grâce aux technologies utilisées par les logiciels d’analyse de données (voir un exemple d’application avec les Key-view).

>>> Plus d'informations sur www.lesphinx.eu

Schématiser un corpus de données textuelles avec Sphinx Quali

Combien de fois a-t-on entendu dire que les réponses aux questions ouvertes ne sont malheureusement pas analysées par manque temps ou par surcharge de travail ? Avec les outils technologiques disponibles actuellement sur le marché, rien de plus aisé !

Même si l’analyse automatique des textes ne donne pas des résultats aussi approfondis qu’une lecture minutieuse des réponses, elle permet de dresser un premier tableau significatif du contenu et d’accélérer ainsi l’exploitation des données.

Trois catégories d’informations sont livrées automatiquement par Sphinx Quali : Synthèse globale, analyse des sentiments et analyse par contexte. Elles font ressortir les tendances à retenir et les points nécessitant des approfondissements.

Dans cet article, ne seront présentées que la synthèse globale et l’analyse par contexte ; l’analyse des sentiments fait l’objet d’autres articles disponibles sur ce blog.

Synthèse globale

La fonction de synthèse globale propose sous forme de nuage de mots les termes les plus souvent utilisés, avec une taille proportionnelle à l’occurrence.

Voici un exemple de synthèse réalisée sur un corpus de commentaires d’hôtels vénitiens collectés depuis le site TripAdvisor.

 

Figure 1 : Nuage de mots

D’après ce nuage de mots, les commentaires portent principalement sur la chambre, le personnel et le petit déjeuner.

En plus de ce nuage de mots global, il est possible de produire des sous nuages résultant de la classification des observations (réponses) selon les mots employés et leur contexte d’utilisation. Chaque sous-nuage correspond à un monde lexical spécifique.

La figure ci-dessous donne un exemple de sous-nuages produits à partir des commentaires évoqués plus haut. On y trouve trois grandes thématiques que sont la chambre, la ville et le personnel, avec chacune, les termes qui la qualifient. La thématique de la chambre concerne 289 personnes, celle de la ville regroupe 427 personnes et celle du personnel est présente chez 370 personnes.

 Figure 2 : Sous nuage de mots

 Il est très utile d’illustrer ces nuages de mots et les classes correspondantes par une liste de verbatims représentatifs sélectionnés au hasard dans l’ensemble des réponses (voir figure ci-dssous). Le Sphinx Quali les délivre automatiquement pour faciliter l’analyse.

Figure 3 : Extraits de verbatims

Les options de paramétrage disponibles dans le logiciel permettent d’adapter ces résultats selon le souhait de l’utilisateur. Celui-ci peut éliminer les mots ou les catégories de mots qui n’apportent pas de valeur ajoutée à la lecture (hôtel, matin ou noms propres dans l’exemple précédent), fixer le nombre de classes et par conséquent de sous-nuages souhaités, enrichir la liste des verbatims…

La synthèse globale donne donc une première analyse des thématiques abordées dans un texte.

Analyse par contexte

Le contexte fait référence à une variable susceptible de segmenter le texte et d’en expliquer les variations. Dans l’exemple précédent, le nombre d’étoiles ou la situation géographique de l’hôtel pourraient être retenus comme variable de contexte. Cela veut dire que l’on s’attend à des différences significatives dans les commentaires selon la catégorie ou l’emplacement de l’hôtel.

Cette analyse consiste à identifier les mots les plus fréquents par segment et à les présenter sous forme de sous-nuages. Une sélection des mots les plus communs est également proposée permettant ainsi de mieux définir les intersections et les différences entre les contextes.

Figure 4 : Nuages de mots par contexte

Le calcul des mots spécifiques permet d’aller plus loin en proposant de manière précise une liste exhaustive des mots surutilisés dans chaque contexte avec indication de leur niveau de spécificité.

Figure 5 : Mots spécifiques par contexte

Il est également possible de paramétrer ce résultat en faisant varier le seuil de surutilisation et par conséquent de spécificité accepté.

Pour conclure

Les outils de synthèse proposés dans Sphinx Quali permettent une lecture optimisée d’un corpus textuel plus ou moins volumineux. Le nuage de mots global donne une vision synthétique du contenu du texte et la définition des sous-nuages faire ressortir des sous-groupes homogènes naturellement. L’analyse par contexte quant à elle, met en évidence les différences entre des groupes à priori différents par leurs attributs. Les deux approches donnent une complémentarité de lecture pertinente à une première exploration du texte.

>>> Plus d'informations sur www.lesphinx.eu

L’analyse de contenu avec Sphinx Quali

L’analyse de contenu est l’une des méthodes les plus classiques d’analyse des données qualitatives. Elle consiste à prendre connaissance d’un corpus textuel et à le qualifier sur la base d’une grille de codification élaborée en amont ou au fur et à mesure de la lecture du texte.

Sphinx iQ option Quali propose un environnement d’aide à l’analyse de contenu accessible depuis le panneau d’accueil. Il s’agit du stade « Analyse textuelle et sémantique », option « Codification » puis « Construction d’un codebook » (voir figure ci-dessous).

Figure 1 : Chemin d’accès à l’environnement d’analyse de contenu sur Sphinx iQ option Quali

L’utilisateur est libre de définir sa grille de lecture en indiquant les thématiques à prendre en compte et de procéder ensuite à la codification systématique de la totalité du corpus. Le gain de temps est ainsi considérable.

Ci-dessous le dialogue de définition des thématiques et l’environnement d’analyse de contenu de Sphinx iQ option Quali.

Figure 2 : Environnement d’analyse de contenu sur Sphinx iQ option Quali

A l’issue de la codification, le logiciel produit une synthèse qui hiérarchise les thématiques structurant le texte et les illustre avec les verbatim correspondants. Ces illustrations sont très utiles pour argumenter les tendances étudiées.