Des données dont rêve tout veilleur-analyste3 min read
Quand l’éditeur d’un outil de fouille de texte (text-mining) vous dit que les données conversationnelles* ne se prêtent pas à l’emploi de sa solution, vous êtes soudainement renvoyé au principe de base de l’analyse des données : garbage in, garbage out.
Éternellement frustré par les fonctionnalités de segmentation de l’ensemble des outils de veille et toujours en quête de nouvelles solutions, je suis reparti à la recherche d’un outil de codification. Assistant à une démonstration de Codeit, j’ai été frappé par la précision avec laquelle l’outil repère les marqueurs de l’opinion dans le verbatim des clients.
Certes, c’était une « démo », mais la facilité avec laquelle le corpus est codifié, dans une boucle fluide entre machine et humain, m’a fait à nouveau rêver. Repérer l’opinion dans les méandres du web et en découvrir les mécanismes, n’était-ce la raison de m’être lancé dans ce domaine il y a 15 ans ?
Dépasser la sérendipité et sa meilleure amie, l’intuition, en menant des études solides qui s’appuient sur un corpus de qualité et une méthode éprouvée. Écouter les avis des gens qui ne passeront ni à la radio ni à la télévision et qui ne publieront jamais d’article ni même d’avis client sur Google Maps. Repérer les sujets et préoccupations des citoyens et consommateurs avant qu’ils ne soient éditorialisés.
Tel était le cap. Il reste le mien aujourd’hui, comme celui de tant d’autres professionnels se revendiquant du métier de la veille et de l’analyse au service du marketing et de la communication. Néanmoins, je crains que l’hyperprésence des marques et d’autres acteurs de la communication sur les réseaux sociaux et même des réseaux sociaux (Trump, Elon,…) cachent une certaine misère informationnelle.
On part encore du principe qu’on trouvera suffisamment de mentions de telle ou telle marque pour produire une analyse concurrentielle alors que le corpus est infesté de spams, d’homonymes ou encore de simples messages promotionnels.
Avant refiltrage et malgré la précision des requêtes de collecte, je retrouve des taux de déchet dépassant aisément les 50% dans certains cas. Qui n’a pas trouvé le nom d’un athlète ou d’un club de sport (football, basketball, baseball, etc.) dans son corpus en effectuant un contrôle de qualité avant de procéder à l’analyse ? Qui ose le dire et qui est là pour l’entendre ?
Ne croyons pas que l’apprentissage automatique et l’intelligence artificielle régleront ce problème de fond. Au contraire, cette situation rend l’exploitation de ces nouvelles technologies impossible. L’expérience (avortée) de cette démonstration de produit en apporte la preuve.
Je rêve toujours d’un outil de codification comme Codeit intégrée dans une solution de veille. Je rêve tout autant de ces données de qualité, que je retrouve ici et là, jamais fatigué de les rechercher activement.
PS : Codeit a été conçu pour codifier des données d’enquête (sondages) et d’avis consommateurs. Vous pouvez le tester en ligne. Cette solution m’aurait été fort utile, il y a quelque temps, dans l’analyse des sondages internes (communication interne, conduite de changement, etc.). Et non, je ne suis pas payé pour écrire cet article.
*publications issues des forums, réseaux sociaux et services de messagerie.
Photo by Greg Rakozy on Unsplash
Warning: Array to string conversion in /home/clients/76869b8997566a53c9ca7baa6485bb9f/sites/avhmag.com/wp-content/plugins/neori-social-share-buttons/neori-social-share-buttons.php on line 37
Array