Ontologies et thésaurus pour modéliser un corpus textuel

Aujourd’hui, les technologies de l’information disponibles sur le marché affranchissent le chargé d’étude des contraintes liées à la collecte des données sur Internet. En revanche, celui-ci se trouve confronté à la difficulté d’analyser les masses abondantes des éléments collectés -souvent d’une manière récurrente-, notamment ceux de nature textuelle. Le bon sens impose l’optimisation des ressources allouées aux traitements et par conséquent l’usage de méthodes automatiques permettant d’obtenir un maximum d’informations pertinentes en un temps minime.

Une façon de faire consiste à mobiliser ce qui est communément connu en informatique sous le nom d’ontologie et en linguistique sous le nom de thésaurus. L’ontologie et le thésaurus désignent une conceptualisation consensuelle du monde que l’on souhaite représenter ou du phénomène que l’on souhaite étudier. Ils regroupent un ensemble de concepts[1] organisés de manière hiérarchique et reliés entre eux dans une logique descriptive (voir figure ci-dessous).

L’utilisation des ontologies permet d’analyser les mots dans leurs contextes d’utilisation et évitent des interprétations erronées liées au caractère polysémique du langage.

Figure 1 : Extrait d’ontologie à 4 niveaux tirée du logiciel Sphinx Quali

Les logiciels d’analyse de données textuelles intègrent des ontologies généralistes s’appliquant à des domaines variés et proposant une vision globale du texte soumis à l’analyse. Les utilisateurs traitant de sujets spécifiques peuvent mettre en place leurs propres thésaurus qui répondent mieux à leurs besoins et vision du monde. Ces thésaurus ad ’hoc supportent en effet une recherche ciblée pouvant être décrite par des listes de mots appelées dictionnaires comme nous le verrons ci-dessous.

Application

Dans l’enquête de consommation menée en 1992 par le CREDOC[2], la question « Si vous gagniez le gros lot au Loto, que feriez-vous ? » est posée. L’objectif de cette étude est d’identifier le comportement du consommateur une fois affranchi des contraintes financières grâce à ses gains au loto. 990 réponses sont collectées.

La lecture du texte à la lumière de l’ontologie généraliste du logiciel Sphinx Quali permet d’identifier 28 thèmes généraux, 83 idées principales et 100 concepts détaillés ou très détaillés. Il apparaît au travers de ces différents niveaux de concepts que les répondants évoquent entre autres des activités économiques (économie, finance, industrie, commerce…), leur quotidien et vie collective (habitat, famille, vêtements et parures…) et les actions qu’ils entreprendraient en cas de gain (achat de biens, voyages, dons…).

Figure 2 : Les 4 niveaux de concepts décrivant le corpus de l’enquête Loto

Lorsque l’on double cette lecture d’une exploration des mots utilisés par les répondants, il apparaît que ceux-ci souhaiteraient :

  • Faire fructifier l’argent gagné au moyen d’opérations financières ou d’investissements immobiliers (bourse, épargne, affaire, immobilier…).
  • Améliorer leurs conditions de vie et se faire plaisir (vacances, voyage, achats divers…)
  • Participer à la vie collective en partageant le gain avec la famille ou les associations humanitaires (cadeau, famille, enfant, œuvres…).

Si l’on concentre l’analyse exclusivement sur trois les thématiques « investir », « se faire plaisir » et « donner », la mise en place d’un thésaurus ad ‘hoc s’avère utile. Celui préparé contient 3 niveaux comme le montre la figure ci-dessous.

 Figure 3 : Les 3 niveaux du thésaurus ad ‘hoc décrivant le corpus de l’enquête Loto

Le dernier niveau est détaillé grâce aux dictionnaires « Investissement, achats divers, voyages et loisirs, don, bénéficiaire » qui reprennent les mots utilisés par les répondants pour décrire leurs intentions. Les dictionnaires devraient être exhaustifs.

 Figure 4 : Extrait des intentions en cas de gain au Loto

Il est à noter que l’utilisation des ontologies ou thésaurus pour approcher des données textuelles est une méthode pertinente sur des corpus répétitifs et de taille importante. Elle permet en effet d’identifier facilement et automatiquement les thématiques présentes dans le texte.

Par ailleurs, l’usage des ontologies générales est utile lors d’une recherche exploratoire. Les thésaurus ad’ hoc, quant à eux, sont adaptés à une logique confirmatoire dans laquelle les résultats attendus peuvent être décrits par des listes de mots.



[1] Un concept est une « idée générale et abstraite que se fait l'esprit humain d'un objet de pensée concret ou abstrait, et qui lui permet de rattacher à ce même objet les diverses perceptions qu'il en a, et d'en organiser les connaissances. » (www.larousse.fr , 06/2014)

[2] Lahlou, Collerie, Beaudouin (1993) Où en est la consommation aujourd'hui, Cahier de recherches n° 46, CREDOC

>>> Plus d'informations sur www.lesphinx.eu