Détecter la tonalité sur Twitter : un sujet de recherche des plus sérieux

Depuis l’émergence des techniques d’analyse automatique des sentiments, les offres se sont multipliées, décuplant les attentes des clients potentiels et élargissant les domaines d’application. L’une des disciplines en expansion est la détection des tonalités des messages émis sur les microblogs. En effet, les plateformes de microblogging, particulièrement Twitter, limitent la longueur des publications à un certain nombre de caractères, augmentant la quantité de celles-ci. N’étant plus soumises à un style formel, ces publications expriment généralement une seule idée en 140 caractères, de manière explicite et donc facilement exploitable par l’analyse des sentiments. Ces analyses peuvent par la suite servir d’outil aux entreprises qui veulent connaître l’image de leur marque, ou de leurs produits.

Un ouvrage récent, intitulé « Opinion mining et Sentiment analysis – méthodes et outils », rédigé par Dominique Boullier et Audrey Lohard, présente dans un chapitre dédié quelques services destinés à analyser la tonalité des tweets, résultant de la recherche de certains laboratoires académiques.

Différentes techniques d’analyse

Parmi eux figure un outil qui s’appelait à l’origine Twitter Sentiment, rebaptisé ensuite Sentiment140. Il s’agir d’un service en ligne gratuit, créé par trois étudiants en Computer Sciences de l’Université de Stanford (Alec Go, Richa Bhayani et Lei Huang), qui permet, en tapant un mot-clé (produit, marque…), d’effectuer la recherche de l’opinion générale exprimée via Twitter sur le sujet.

En prenant l’exemple du mot-clé « McDonald », le moteur affiche les derniers Tweets postés (en anglais ou espagnol uniquement) en mesurant la part de positif et de négatif, le tout agrémenté de diagrammes et graphiques.

Les auteurs relèvent que cet outil, contrairement à la plupart des autres, n’utilise pas de listes de mots positifs ou négatifs mais est fondé sur une approche par apprentissage. Cette procédure consiste à faire travailler la machine sur un corpus test pour « s’entraîner » à détecter des expressions subjectives, des modèles ou des motifs dans le corpus. Elle doit être capable de retrouver ensuite ces modèles dans le corpus lui-même, voire d’en détecter de nouveaux, proches de ceux qu’elle connaît déjà.

Cette technique s’oppose, selon Boullier et Lohard, aux approches lexicales, qui utilisent des dictionnaires de mots subjectifs faisant office de référence universelle. Ces dictionnaires, tels que General Inquirer ou Opinion Finder, associent une polarité à chacun des mots, qui restera la même quelque soit le contexte. Le document analysé se voit alors attribuer un score d’opinion défini selon la présence de ces mots. Cette méthode est principalement utilisée pour classifier des textes sélectionnés, qui parlent de l’entité que l’ont veut analyser (exemple : critique d’un film). Elle consiste à détecter le terme (adjectif ou l’expression qualifiante) qui est en co-occurrence avec le sujet donné, souvent au sein de la même phrase. Bien que plus standardisée, cette approche est utilisée par de nombreux outils, tels que Twendz pro, également mentionné dans l’ouvrage.

Twendz Pro, dans sa version payante, se définit comme un outil marketing qui permet d’identifier les thèmes de conversation et d’en analyser les sentiments. Les auteurs précisent qu’il est possible également d’obtenir des informations sur les utilisateurs influents, de suivre les tendances en direct et de répondre aux Tweets en engageant la conversation.

Cependant, Boullier et Lauhard précisent que ce service propose une analyse du Tweet dans sa globalité et manque donc de précision relative.

Un enrichissement des ressources lexicales grâce à la sémantique

Malgré la brièveté du message, l’analyse d’un Tweet peut se révéler délicate, apparaissant parfois comme un message codé rempli de hashtags, émoticônes, abréviations, et anglicismes. Ces facteurs, ainsi que l’interactivité qu’implique le réseau social (réponse à un Tweet précédent, citation…), ne sont pas à négliger lors de l’analyse. Dominique Boullier et Audrey Lohard démontrent que l’utilisation des lexiques présente alors certaines limites :

  • Les dictionnaires affectent une tonalité positive ou négative à un mot, sans tenir compte du contexte, c’est-à-dire du texte environnant.
  • Le traitement des expressions ambiguës  demande de faire appel à d’autres techniques.
  • La négation n’est parfois pas prise en compte, ce qui fausse le score de polarité.
  • Il n’est pas possible de traiter des figures de rhétorique telles que le sarcasme ou l’ironie.

Pour corriger certains de ces défauts, les auteurs proposent de faire appel à des méthodes qui abordent la sémantique. En effet, les techniques mobilisant un moteur sémantique enrichissent considérablement les ressources lexicales, dans la mesure où l’on est capable, grâce aux algorithmes d’analyse, de prendre en compte des expressions entières et de reconstituer leur sens malgré des périphrases, des négations, ou des métaphores.

Un logiciel dédié à l’analyse sémantique

Cette méthode d’analyse, utilisée dans la solution Sphinx Quali, définit les conditions nécessaires pour passer du simple lexique au véritable sens du corpus. Elle exploite les notions de thésaurus (ensemble d’idées et de significations), et de réseau sémantique (relations entre éléments signifiants), qui permettent alors d’explorer un texte en identifiant les principaux concepts et en tenant compte du contexte auquel ils sont reliés. L’analyse des sentiments se trouve alors plus précise, tant dans l’orientation positive/négative et la nature du sentiment, que dans l’intensité dans laquelle il est exprimé.

Malgré ces avancées, quelques figures de rhétorique restent difficilement exploitables par  l’analyse automatique (telles que l’ironie évoquée plus haut), prouvant que les compétences d’un chargé d’études qualifié représentent un atout essentiel pour mener des études qualitatives pertinentes et des résultats communicables.

Sources :

>>> Plus d'informations sur www.lesphinx.eu

Share and Enjoy:
  • Print
  • Digg
  • StumbleUpon
  • del.icio.us
  • Facebook
  • Yahoo! Buzz
  • Twitter
  • Google Bookmarks

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>