Méthodos

6 mars 2019

Blog

#Analyse textuelle

#Analyse sémantique

#Data visualisation

#Data storytelling

#Classification

Comment faire parler des données non structurées ?

Les commentaires libres, articles de presse, tweets et autres discours, sont riches d’une matière qu’il est difficile à appréhender autrement que par la lecture et la compréhension du sujet. Les marques et les organisations sont pourtant amenées, avec l’explosion du web social notamment, à s’y intéresser pour parvenir à maîtriser les sujets abordés et idées émises au sein de ces contenus, afin de tenter à terme de les réguler, voire de les orienter.

Comment alors passer d’une matière riche et déstructurée, sujet à interprétation et à polémique à des indicateurs clairs et lisibles, capables de rationnaliser la lecture, sans pour autant perdre l’expérience de l’immersion au sein de matière brute, c’est-à-dire le texte d’origine ?

Pour répondre à cette problématique, nous avons développé des méthodes et des logiciels permettant de marier l’analyse textuelle et sémantique, qui permet de comprendre le sens du texte et de réduire le volume d’information, à la  datavisualisation et au datastorytelling pour restituer et interagir avec les données et engager le lecteur dans un processus immersif.

 

L’analyse sémantique, pour catégoriser les contenus

Grâce à l’utilisation de thésaurus (arbre de connaissance regroupant les contenus selon leur champ lexicaux), nous sommes capables d’identifier automatiquement les thématiques abordées dans les commentaires des individus et de les regrouper dans des concepts. Cette première approche offre l’avantage de limiter les a priori liés à l’expérience et la sensibilité du lecteur, en se basant sur une approche rationnelle pilotée par les univers lexicaux.

Ainsi dans une étude sur les posts émis par les étudiants de Science Po sur les réseaux sociaux (lien vers la visualisation ci-dessous), nous pouvons remarquer que la grande majorité des éléments sont communiqués via des photos, portent sur l’intimité (corps nu et vie de couple) et la vie festive étudiante (soirées, amis, drogues, …).

 

La classification pour définir des typologies de discours

En mobilisant les méthodes de classification, nous cherchons à regrouper les individus les plus proches, selon les proximités lexicales de leurs contenus. Cela nous permet de réduire fortement le volume d’informations et d’identifier des personae, représentatifs de comportements types. Ainsi, dans l’étude portant sur les motivations des Gilets jaunes à soutenir leur mouvement (article paru dans Le Monde, édition du 27 janvier 2019), 4 classes émergent, portées par les éléments liés à la Crise du politique, le Pouvoir vivre (dignement), la Soif de justice et Le mouvement populaire. Cette réduction à 4 classes pourra être ensuite associée à des éléments de contexte (situation géographique, catégorie socio-professionnelle, revenus, …) pour mieux les expliquer et les illustrer.

 

Les nuages d’expressions pour s’immerger dans les contenus

La classification ou l’analyse sémantique a le mérite de réduire le niveau d’information pour gagner en lisibilité, mais elle peut être parfois trop éloignée du mode d’expression pour permettre de s’imprégner pleinement de « l’ambiance » et du climat des commentaires. Les regroupements lexicaux, lorsqu’ils sont effectués au niveau des expressions (suite de mots consécutifs) offrent  un concentré du mode de communication des individus s’exprimant, tout en donnant un premier niveau de synthèse. Représentés sous forme de nuages de mots interactifs, ces verbatim « réduits » se présentent alors comme un moyen de voyager et de s’immerger dans les commentaires en offrant une alternative efficace à la lecture exhaustive des verbatim. Dans l’analyse des commentaires des Gilets Jaunes, on pourra ainsi retrouver « Le pouvoir au peuple », « l’augmentation des salaires » ou encore « le ras le bol général », qui sonnent comme des echos de la révolte et donnent un peu plus le ton donné à ce mouvement.

 

De la datavisualisation au datastorytelling

La multiplication des indicateurs et représentations graphiques est très tentante dès lors que les contenus textuels ont été structurés. L’usage de l’interactivité permet de vivre une véritable expérience de lecture et de navigation. Cliquer, filtrer, illustrer, qu’il est bon de jouer avec les données ! Toutefois, sans histoire, la visualisation peut-être perçue comme une base de données pleine de bulles vides. Difficile dès lors de s’accrocher à un scénario pour garder le fil de l’histoire. Voilà pourquoi nous évoluons naturellement de la data visualisation vers le data storytelling : construire des scénarios de lecture avec une intrigue, des acteurs et des décors.

L’analyse des 32 000 tweets de Trump, par sa variété et son abondance nous a poussé à cet exercice : mobiliser texte, image et scénarisation pour raconter au lecteur l’histoire des 140 caractères du petit oiseau.

 

Un monde des possibles pour qui le veut

Des données non-structurées et illisibles, à une histoire intrigante dont le lecteur peut être le héros, il n’y a donc qu’un pas. Le plus dur sera sans doute d’avoir l’imagination de l’auteur et la rigueur du scientifique, mais pour le reste,  c’est-à-dire les algorithmes et l’intelligence logicielle pour traiter les données, la technologie nous les offre et elle s’appelle DATAVIV’ by Sphinx.

 

>>> Découvrez quelques exemples réalisés avec DATAVIV’ by Sphinx :

 

Auteur : Boris Moscarola

Haut de la page