Schématiser un corpus de données textuelles avec Sphinx Quali

Combien de fois a-t-on entendu dire que les réponses aux questions ouvertes ne sont malheureusement pas analysées par manque temps ou par surcharge de travail ? Avec les outils technologiques disponibles actuellement sur le marché, rien de plus aisé !

Même si l’analyse automatique des textes ne donne pas des résultats aussi approfondis qu’une lecture minutieuse des réponses, elle permet de dresser un premier tableau significatif du contenu et d’accélérer ainsi l’exploitation des données.

Trois catégories d’informations sont livrées automatiquement par Sphinx Quali : Synthèse globale, analyse des sentiments et analyse par contexte. Elles font ressortir les tendances à retenir et les points nécessitant des approfondissements.

Dans cet article, ne seront présentées que la synthèse globale et l’analyse par contexte ; l’analyse des sentiments fait l’objet d’autres articles disponibles sur ce blog.

Synthèse globale

La fonction de synthèse globale propose sous forme de nuage de mots les termes les plus souvent utilisés, avec une taille proportionnelle à l’occurrence.

Voici un exemple de synthèse réalisée sur un corpus de commentaires d’hôtels vénitiens collectés depuis le site TripAdvisor.

 

Figure 1 : Nuage de mots

D’après ce nuage de mots, les commentaires portent principalement sur la chambre, le personnel et le petit déjeuner.

En plus de ce nuage de mots global, il est possible de produire des sous nuages résultant de la classification des observations (réponses) selon les mots employés et leur contexte d’utilisation. Chaque sous-nuage correspond à un monde lexical spécifique.

La figure ci-dessous donne un exemple de sous-nuages produits à partir des commentaires évoqués plus haut. On y trouve trois grandes thématiques que sont la chambre, la ville et le personnel, avec chacune, les termes qui la qualifient. La thématique de la chambre concerne 289 personnes, celle de la ville regroupe 427 personnes et celle du personnel est présente chez 370 personnes.

 Figure 2 : Sous nuage de mots

 Il est très utile d’illustrer ces nuages de mots et les classes correspondantes par une liste de verbatims représentatifs sélectionnés au hasard dans l’ensemble des réponses (voir figure ci-dssous). Le Sphinx Quali les délivre automatiquement pour faciliter l’analyse.

Figure 3 : Extraits de verbatims

Les options de paramétrage disponibles dans le logiciel permettent d’adapter ces résultats selon le souhait de l’utilisateur. Celui-ci peut éliminer les mots ou les catégories de mots qui n’apportent pas de valeur ajoutée à la lecture (hôtel, matin ou noms propres dans l’exemple précédent), fixer le nombre de classes et par conséquent de sous-nuages souhaités, enrichir la liste des verbatims…

La synthèse globale donne donc une première analyse des thématiques abordées dans un texte.

Analyse par contexte

Le contexte fait référence à une variable susceptible de segmenter le texte et d’en expliquer les variations. Dans l’exemple précédent, le nombre d’étoiles ou la situation géographique de l’hôtel pourraient être retenus comme variable de contexte. Cela veut dire que l’on s’attend à des différences significatives dans les commentaires selon la catégorie ou l’emplacement de l’hôtel.

Cette analyse consiste à identifier les mots les plus fréquents par segment et à les présenter sous forme de sous-nuages. Une sélection des mots les plus communs est également proposée permettant ainsi de mieux définir les intersections et les différences entre les contextes.

Figure 4 : Nuages de mots par contexte

Le calcul des mots spécifiques permet d’aller plus loin en proposant de manière précise une liste exhaustive des mots surutilisés dans chaque contexte avec indication de leur niveau de spécificité.

Figure 5 : Mots spécifiques par contexte

Il est également possible de paramétrer ce résultat en faisant varier le seuil de surutilisation et par conséquent de spécificité accepté.

Pour conclure

Les outils de synthèse proposés dans Sphinx Quali permettent une lecture optimisée d’un corpus textuel plus ou moins volumineux. Le nuage de mots global donne une vision synthétique du contenu du texte et la définition des sous-nuages faire ressortir des sous-groupes homogènes naturellement. L’analyse par contexte quant à elle, met en évidence les différences entre des groupes à priori différents par leurs attributs. Les deux approches donnent une complémentarité de lecture pertinente à une première exploration du texte.

>>> Plus d'informations sur www.lesphinx.eu

Share and Enjoy:
  • Print
  • Digg
  • StumbleUpon
  • del.icio.us
  • Facebook
  • Yahoo! Buzz
  • Twitter
  • Google Bookmarks

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>