Chapitre 1. Historique et état du marché - Sciences Po Spire
Chapitre 1. Historique et état du marché - Sciences Po Spire
Chapitre 1. Historique et état du marché - Sciences Po Spire
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
OpenEdition Press<br />
................................................................................................................................................................................................................................................................................................<br />
<strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong><br />
<strong>marché</strong><br />
................................................................................................................................................................................................................................................................................................<br />
Avertissement<br />
Le contenu de ce site relève de la législation française sur la propriété intellectuelle <strong>et</strong> est la propriété exclusive de<br />
l'éditeur.<br />
Les œuvres figurant sur ce site peuvent être consultées <strong>et</strong> repro<strong>du</strong>ites sur un support papier ou numérique sous<br />
réserve qu'elles soient strictement réservées à un usage soit personnel, soit scientifique ou pédagogique excluant<br />
toute exploitation commerciale. La repro<strong>du</strong>ction devra obligatoirement mentionner l'éditeur, le nom de la revue,<br />
l'auteur <strong>et</strong> la référence <strong>du</strong> document.<br />
Toute autre repro<strong>du</strong>ction est interdite sauf accord préalable de l'éditeur, en dehors des cas prévus par la législation<br />
en vigueur en France.<br />
Revues.org est un portail de revues en sciences humaines <strong>et</strong> sociales développé par le Cléo, Centre pour l'édition<br />
électronique ouverte (CNRS, EHESS, UP, UAPV).<br />
................................................................................................................................................................................................................................................................................................<br />
Référence électronique<br />
Dominique Boullier <strong>et</strong> Audrey Lohard, « <strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong> », in Opinion mining <strong>et</strong> Sentiment<br />
analysis (« Collection « <strong>Sciences</strong> <strong>Po</strong> │ médialab » », n o 1) , 2012 [En ligne], mis en ligne le 19 mars 2012, consulté le<br />
22 mars 2012. URL : http://press.openedition.org/204<br />
Éditeur : Cléo/OpenEdition<br />
http://press.openedition.org<br />
http://www.revues.org<br />
Document accessible en ligne sur :<br />
http://press.openedition.org/204<br />
Document généré automatiquement le 22 mars 2012.<br />
Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 3.0 France
<strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong><br />
OpenEdition Press<br />
<strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong> 2<br />
1 Depuis l’arrivée <strong>du</strong> web 2.0, l’intérêt va croissant pour connaître les opinions des internautes<br />
qui s’y expriment spontanément <strong>et</strong> en temps réel. C<strong>et</strong>te masse de données d’opinions est<br />
accessible avec des outils de fouille <strong>du</strong> web, avec une collection d’informations constamment<br />
renouvelée. Des sites se sont spécialisés dans le recueil de ces opinions dans certains domaines<br />
(critiques de cinéma par exemple) <strong>et</strong> les internautes ont pris l’habitude de consulter les avis <strong>et</strong><br />
notes déposés par les autres dès qu’ils doivent prendre une décision d’achat pour un pro<strong>du</strong>it<br />
technique, ou encore pour une réservation d’hôtel. Les avis, les opinons intéressent donc les<br />
internautes <strong>et</strong> ont suscité des applications <strong>et</strong> services multiples, ce qui provoque un cercle<br />
vertueux d’encouragement à donner son avis <strong>et</strong> même à se faire reconnaître comme donnant<br />
des avis pertinents <strong>et</strong> suivis par les autres. Mais ces données intéressent également des marques<br />
<strong>et</strong> des cabin<strong>et</strong>s d’études qui tentent de connaître ce « sentiment agrégé des foules ». Souvent<br />
sensibles au fantasme « votre réputation peut être détruite à cause d’un commentaire de blog »,<br />
les marques se soucient de leur identité en ligne mais cherchent également à mieux connaître<br />
les attentes <strong>et</strong> critiques que les internautes leur adressent. D’où le développement croissant<br />
des techniques pour capter ces évaluations des internautes, allant <strong>du</strong> simple dénombrement de<br />
commentaires positifs ou négatifs à l’analyse plus fine des contenus de ces commentaires.<br />
Ce que change le web 2.0<br />
2 Il n’a pas fallu attendre l’arrivée d’intern<strong>et</strong> <strong>et</strong> plus particulièrement celle <strong>du</strong> web 2.0 pour<br />
pratiquer l’analyse de sentiment. Ce que pensent <strong>et</strong> disent les gens est un suj<strong>et</strong> d’intérêt<br />
scientifique depuis au moins un siècle, politique depuis plus de cinquante ans <strong>et</strong>, depuis peu,<br />
un suj<strong>et</strong> d’intérêt commercial.<br />
3 Scientifique d’abord, puisque dès le début <strong>du</strong> XX e siècle, William Stern 1 , puis Gordon Allport<br />
<strong>et</strong> Leo <strong>Po</strong>stman 2 s’intéressent au phénomène de la rumeur <strong>et</strong> tentent de la définir <strong>et</strong> d’en<br />
établir les mécanismes fondamentaux. Via le « bouche à oreille », les messages peuvent être<br />
ré<strong>du</strong>its, simplifiés, transformés. Certains détails peuvent être valorisés au détriment d’autres<br />
en fonction de la sensibilité ou <strong>du</strong> contexte social de celui qui transm<strong>et</strong> le message. Quand<br />
ce dernier ne relève pas tout simplement d’une pure invention, mais s’impose en raison de<br />
l’ampleur que lui confère sa transmission à grande échelle (<strong>et</strong> l’on pense au phénomène<br />
actuel des hoax qui envahissent régulièrement le web) ! La rumeur devient un phénomène<br />
identifiable, analysable <strong>et</strong> mesurable. Après la psychologie sociale, la psychanalyse <strong>et</strong> la<br />
sociologie s’emparent de l’obj<strong>et</strong> « rumeur » 3 . On débat sur son caractère fondé (réelle<br />
information) ou non (simple projection de fantasme), <strong>et</strong> elle est entrée désormais dans le champ<br />
des études médiatiques <strong>et</strong> <strong>du</strong> management des marques 4 .<br />
4 Les sondages quant à eux se sont développés depuis la fin de la seconde guerre mondiale.<br />
Partant <strong>du</strong> principe qu’il existe une opinion publique, comme le disait Tarde des publics des<br />
journaux en distinguant c<strong>et</strong>te opinion de la foule, les sondages consistent à créer des méthodes<br />
<strong>et</strong> des indicateurs pour la mesurer <strong>et</strong> ce faisant pour la faire exister vraiment. La dimension<br />
performative des sondages a souvent été mentionnée, parfois pour critiquer leurs justifications<br />
mêmes, plus souvent pour proposer des règles de contrôle de leur méthodologie qui éviterait<br />
de mesurer un pur artefact provoqué par le dispositif. En eff<strong>et</strong>, les sondages obligent de fait les<br />
personnes interrogées à se poser des questions qu’elles n’ont peut-être jamais eu l’occasion de<br />
se poser ou à avoir une opinion sur un suj<strong>et</strong> qu’elles ignorent complètement (ce que Converse<br />
ou Bourdieu ont utilisé pour en faire la critique). D’autres ont pu critiquer leurs méthodes<br />
<strong>et</strong> notamment la prétention de représentativité, réalisée en France sous forme de quotas <strong>et</strong><br />
à l’étranger sous forme d’échantillons aléatoires, ce qui vaut là encore des critiques aux<br />
méthodes françaises, dépendantes <strong>du</strong> fait que l’INSEE ne traite pas de questions politiques<br />
ou religieuses, ce qui rend l’accès à des échantillons aléatoires sur la population complète<br />
impossibles. Mais par leur répétition, dès lors qu’ils utilisent les mêmes principes, on peut<br />
considérer que les sondages détectent quelque chose des « mouvements d’opinion » (mais ici<br />
ce sont bien les mouvements qui sont importants, avec maintien de la même méthode) <strong>et</strong> que
OpenEdition Press<br />
<strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong> 3<br />
dans le même temps ils ont fini par faire exister l’opinion comme entité supposée indépendante<br />
des méthodes pour y accéder.<br />
5 C’est pourquoi les études d’opinion mining reprennent les mêmes principes sans trop<br />
s’interroger sur le statut de c<strong>et</strong>te opinion, considérant que, à force de sondages, elle a fini par<br />
exister. Or, ce que vont mesurer les dispositifs d’opinion mining relève de conversations plus<br />
que d’opinions constituées par les méthodes qui leur donnent le statut d’opinion. C<strong>et</strong> écart<br />
est malgré tout sous-estimé délibérément dans les offres commerciales. Cependant, nombreux<br />
sont ceux qui parleront plutôt d’e-réputation, ce qui est sans doute plus correct, puisque c’est<br />
bien la notoriété médiatique que l’on mesurera sur les médias.<br />
6 Ces approches sont donc bien éloignées d’un souci de représentativité de la population,<br />
établie en fonction de critères sociodémographiques, tels que l’INSEE les définit. Les études<br />
d’opinion se prévalent toujours de leur capacité à corréler tous les attributs <strong>et</strong> opinions<br />
des personnes sondées à leurs propriétés socio-démographiques. Ce lien personnel perm<strong>et</strong><br />
ensuite des agrégats qui prétendront à la validité statistique par rapport à une population<br />
de référence. Cependant, il sera tenu compte des intervalles de confiance, selon la taille de<br />
l’échantillon rapportée à celle de la population, qui devraient relativiser les résultats mais qui<br />
sont très souvent oubliés dans les publications des médias, ce qui entraîne des confusions, des<br />
critiques <strong>et</strong> une controverse permanente. En réalité, bien d’autres opérations sont nécessaires<br />
pour maintenir c<strong>et</strong> « eff<strong>et</strong> de représentativité » face à tous les problèmes de constitution de<br />
l’échantillon ou de récupération/exploitation des données : mais tous les redressements qui<br />
font la cuisine ou l’art des sondeurs professionnels sont rarement explicités car la demande<br />
sociale/médiatique n’attend pas c<strong>et</strong>te garantie scientifique mais seulement son approximation.<br />
C’est la même posture qui justifiera les approximations innombrables de la plupart des offres<br />
en opinion mining <strong>et</strong> sentiment analysis.<br />
7 Avec l’émergence <strong>du</strong> mark<strong>et</strong>ing relationnel dans les années 1990, apparaissent les outils de<br />
CRM (Consumer Relationship Management ou en français GRC, Gestion de Relation Client).<br />
Le souci de pro<strong>du</strong>ire <strong>du</strong> reporting sur toutes les activités les plus fines de l’entreprise fait<br />
partie de l’évolution contemporaine des entreprises dominées par les impératifs de la finance,<br />
au point de pro<strong>du</strong>ire des reports trimestriels rarement fondés mais utiles pour l’orientation<br />
des <strong>marché</strong>s financiers. Les outils de e-réputation n’échappent pas à ce même impératif,<br />
notons-le en passant, <strong>et</strong> leur destinataire est avant tout l’actionnaire bien plus que les stratèges<br />
de l’entreprise eux-mêmes, puisqu’une réputation mise à mal sur le web peut se tra<strong>du</strong>ire<br />
en un instant par un décrochage boursier. Par ailleurs, la féroce compétition entre marques<br />
pour conserver des clients dont la solvabilité est de plus en plus problématique, con<strong>du</strong>it à<br />
privilégier des outils de suivi qui peuvent alerter sur tout changement de comportement, sur<br />
toute insatisfaction <strong>et</strong> qui peuvent servir de base de lancement à des propositions commerciales<br />
nouvelles, personnalisées <strong>et</strong> monétisant tout ce qui peut l’être dans c<strong>et</strong>te relation.<br />
8 Le suivi des consommateurs <strong>et</strong> l’exploitation des r<strong>et</strong>ours clients ont reposé sur le<br />
développement, depuis les années 2000, d’un appareillage de traçabilité <strong>et</strong> d’agrégation<br />
particulièrement sophistiqué, dont une bonne partie est désormais automatisée. De nombreuses<br />
données de consommation pour un client abonné ou fidélisé par une carte (dont il<br />
laisse l’exploitation des données à l’enseigne par exemple) peuvent être exploitées<br />
directement, puisqu’il s’agit de traces d’actes d’achat ou de commandes ou de demandes<br />
d’interventions, <strong>et</strong>c. Elles n’ont donc pas de rapports avec les données d’opinion. Cependant,<br />
les marques ont su désormais exploiter tous les outils de traçabilité des avis plus ou moins<br />
informels émis en direct sur leurs sites ou sur des sites de consommation. Dans ce dernier<br />
cas, les marques perdent souvent la connexion avec l’identité des clients <strong>et</strong> les croisements<br />
sont moins directs mais le travail de corrélation se fait au niveau d’agrégats géographiques, de<br />
segments de <strong>marché</strong>, <strong>et</strong>c. Par ailleurs, de nombreuses méthodes de mark<strong>et</strong>ing déjà anciennes<br />
sont toujours exploitées pour générer <strong>du</strong> r<strong>et</strong>our client ou au contraire des attentes de client (lors<br />
de phases d’innovations). Les entr<strong>et</strong>iens téléphoniques <strong>et</strong> les focus groups sont massivement<br />
utilisés pour faire exister ce client évanescent ou supposé, tout autant fantomatique que<br />
l’opinion que nous évoquions en intro<strong>du</strong>ction. Nous avons proposé de regrouper toutes ces<br />
méthodes sous le terme de dispositifs de pro<strong>du</strong>ction « d’êtres intermédiaires », c’est-à-dire
OpenEdition Press<br />
<strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong> 4<br />
de tenants lieux des utilisateurs/clients réels souvent difficiles à atteindre. Le statut virtuel<br />
de ces êtres intermédiaires ne les empêche pas d’avoir un rôle décisif dans la suite de la<br />
conception ou dans le traitement des r<strong>et</strong>ours clients 5 . Nous avions pris notamment l’exemple<br />
de la mère Denis utilisée comme « être totem » pour servir d’argument imparable lorsque<br />
l’on veut valider ou invalider un pro<strong>du</strong>it à destination d’un grand public non instruit. Toutes<br />
les typologies, sociostyles <strong>et</strong> autres tendances qui perm<strong>et</strong>tent de pro<strong>du</strong>ire des regroupements<br />
synthétiques de la description des comportements ne font pas autre chose que pro<strong>du</strong>ire ces<br />
êtres intermédiaires. Cela n’invalide en rien ces travaux, car, <strong>et</strong> il faut y insister, seraient-ils<br />
absents, qu’une marque trouverait toujours un moyen d’imaginer ses clients ou qu’un parti ne<br />
pourrait s’empêcher de se représenter ses électeurs. Ce souci d’information plus argumentée<br />
est avant tout stratégique <strong>et</strong> ne cherche donc pas de validation scientifique ultime. Cependant,<br />
il en empruntera les protocoles <strong>et</strong> les arguments, lorsque c’est nécessaire. Les chercheurs en<br />
sciences sociales doivent de leur côté s’imposer des contraintes plus importantes mais ils sont<br />
de fait dans la même situation. Comme le font les botanistes <strong>et</strong> les pédologues de la forêt<br />
amazonienne de Boa Vista dans c<strong>et</strong> article fameux de Bruno Latour 6 , les chercheurs en sciences<br />
sociales travaillent constamment à aligner des tra<strong>du</strong>ctions successives <strong>du</strong> monde, à s’assurer<br />
que les transformations qu’ils leur font subir sont acceptables (mais il s’agit pourtant de<br />
transformations) <strong>et</strong> de ce fait à manipuler aussi des êtres intermédiaires que sont des catégories,<br />
des typologies, voire des idéaux-types qui valent pour l’infinie diversité des indivi<strong>du</strong>s <strong>et</strong> des<br />
opinions recueillies.<br />
9 L’adoption massive des outils <strong>du</strong> web 2.0 par le public a renforcé l’intérêt pour le sentiment<br />
analysis, qui vise directement l’analyse de la tonalité, positive ou négative, des opinions<br />
recueillies. Les canaux d’expression spontanée des internautes se sont démultipliés (blogs,<br />
réseaux sociaux, systèmes de microblogging) <strong>et</strong> regorgent d’avis sur des pro<strong>du</strong>its, marques,<br />
personnalités, politiques publiques, <strong>et</strong>c. Il est même possible de considérer les conversations<br />
web (qui sont devenues en tant que telles un obj<strong>et</strong> d’analyse <strong>et</strong> de suivi notamment dans<br />
les relations avec les marques, voir « les marques en conversation ») comme une entreprise<br />
collective d’évaluation permanente de tout : articles de presse (à travers des commentaires),<br />
blogs anonymes (à travers des commentaires, des liens, des flux RSS, des twe<strong>et</strong>s pour les<br />
signaler), pages web pour des pro<strong>du</strong>its, des événements, des personnes (que l’on attache<br />
directement sur son mur Facebook), <strong>et</strong>c.<br />
Les propriétés discursives des données recueillies<br />
10 C<strong>et</strong>te prolifération n’est en rien ré<strong>du</strong>ite par les analyses d’opinion mining ou de sentiment<br />
analysis. Au contraire, on peut même dire que, commercialement, tout pousse actuellement<br />
à rester dans l’indifférenciation des matériaux linguistiques recueillis, quitte à trouver le<br />
moyen de les calculer différemment selon les plates-formes par exemple mais jamais selon<br />
leur statut énonciatif. <strong>Po</strong>urtant, le terme opinion puis celui de sentiment sont particulièrement<br />
polysémiques. Tentons de dissiper certaines ambiguïtés au contraire pour éviter les fausses<br />
promesses.<br />
11 Le matériau linguistique recueilli sur le web lors d’un crawl (moisonnage) à visée d’opinion<br />
mining qui sera analysé ensuite, relève de plusieurs types d’énoncés :<br />
• un jugement ;<br />
• une évaluation ;<br />
• une opinion ;<br />
• un avis ;<br />
• un sentiment ;<br />
• un goût ;<br />
• un récit d’expérience ;<br />
• un récit de pratique ;<br />
12 Tous ces types d’énoncés possèdent des statuts différents mais se r<strong>et</strong>rouvent mêlés dans toute<br />
collecte. C’est souvent le cas dans les enquêtes qualitatives classiques aussi, mais l’analyse<br />
peut par la suite faire la différence, alors que, pour tout questionnaire fermé, il est nécessaire<br />
de bien différencier le statut de ces énoncés par avance puisque de la clarté de c<strong>et</strong>te distinction
OpenEdition Press<br />
<strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong> 5<br />
dépendra la possibilité ou non d’un traitement quantitatif correct. Entre toutes ces expressions<br />
(<strong>et</strong> nous éliminons ici les questions d’intensité ou de registre de langues qui complexifient<br />
l’affaire), plusieurs dimensions sont en jeu. Les uns n’ont d’existence que verbalisés, d’autres<br />
peuvent garder un statut tacite ou non verbal tels le goût, l’expérience ou les pratiques. Dans<br />
tous les cas, nous avons affaire à ce que les <strong>et</strong>hnométhodologues appellent des « comptes<br />
ren<strong>du</strong>s », des « accounts » 7 . Ce qui veut dire qu’il ne s’agit en aucun cas de traces de<br />
consommations ou de pratiques effectives, enregistrées automatiquement par des capteurs de<br />
divers types, mais bien de comptes ren<strong>du</strong>s de ces pratiques, soumis de ce fait à toute la variété<br />
des modalisations, des connotations <strong>et</strong> des associations présentes dans tout discours.<br />
13 Nous reprendrons c<strong>et</strong>te discussion plus précisément dans le cadre de nos analyses pour les<br />
sciences humaines <strong>et</strong> sociales (voir le chapitre 6, « Sentiment analysis <strong>et</strong> SHS »), car elles<br />
ne sont guère considérées comme pertinentes pour l’instant dans les offres présentes sur le<br />
<strong>marché</strong>.<br />
14 Textuels ou iconographiques (emoticons, étoiles – système de vote sur Amazon , RT sur<br />
Twitter, <strong>et</strong>c.), les marqueurs de tonalité <strong>et</strong> les recommandations irriguent la toile <strong>et</strong> sont autant<br />
d’indices de nos ressentis que certaines agences ou laboratoires s’empressent de répertorier <strong>et</strong><br />
d’analyser. L’importance de ces saillances perceptives est très bien analysée par les sciences<br />
cognitives, à l’aide d’outils comme l’eye tracking qui perm<strong>et</strong> de suivre à la trace les points<br />
de fixation <strong>et</strong> leur <strong>du</strong>rée sur un écran. La constitution de certains de ces marqueurs en routines<br />
perceptives (comme les étoiles sur Amazon ou sur des sites d’évaluation de films) constitue<br />
un vocabulaire qui fait convention <strong>et</strong> qui a tout autant de poids sinon plus que les expressions<br />
les plus élaborées. En eff<strong>et</strong>, le temps extrêmement limité de la perception de ces saillances<br />
perm<strong>et</strong> d’effectuer une première sélection quitte à affiner les critères ensuite.<br />
15 Dans une économie de l’attention 8 , recommandations, avis <strong>et</strong> votes en tous genres sont des<br />
indices précieux d’évaluation de la popularité en ligne, souvent qualifiée de manière abusive<br />
<strong>et</strong> « fourre-tout » d’e-réputation. Mais ces classements de fait sont aussi des indices pour<br />
s’orienter dans une offre pléthorique. Mieux encore, les qualités des biens qui sont essentielles<br />
à la décision d’achat, ne sont pas accessibles sans en avoir fait l’expérience. Ces biens<br />
d’expérience 9 exigent <strong>du</strong> temps <strong>et</strong> un risque pour les évaluer par l’expérience elle-même. Si les<br />
critiques de cinéma font l’obj<strong>et</strong> d’une telle exploitation par les outils d’opinion mining, c’est<br />
qu’elles constituent une expérience par procuration pour un bien d’expérience de longue <strong>du</strong>rée<br />
(plus qu’une chanson qu’on peut écouter) au sein d’une offre abondante. Les avis exprimés<br />
aident ainsi à s’orienter dans le choix, comme le faisaient les critiques auparavant combinées<br />
aux conversations amicales : désormais, toutes ces sources sont disponibles <strong>et</strong> traçables sur<br />
le réseau.<br />
16 Plus important encore pour les marques (mais aussi pour les politiques ou les administrations),<br />
le suivi de ces traces de conversation sur le web perm<strong>et</strong> d’effectuer de la veille de façon<br />
n<strong>et</strong>tement plus réactive qu’auparavant. Certes, les données sont très hétérogènes <strong>et</strong> pas aussi<br />
fiables qu’un travail d’enquête mais le veilleur y gagne un changement d’échelle de sa<br />
surveillance, changement d’échelle dans l’espace, dans la capacité de traitement automatisée,<br />
<strong>et</strong> partant, dans les délais de réactivité. Car il ne s’agit pas de veille stratégique dans ce cas,<br />
qui doit aller chercher d’autres types de documents <strong>et</strong> de sources, mais bien de veille de<br />
réputation. Les incidences d’une vague d’opinions défavorables générées à partir d’un bruit,<br />
d’une rumeur, d’une information confidentielle postée publiquement, que ces informations<br />
ou rumeurs soient fondées ou non par ailleurs, sont telles sur la réputation <strong>et</strong> partant sur<br />
les cours des actions, que les marques ont l’obligation de surveiller, voire même de piloter<br />
leur réputation à partir des conversations web. Le domaine <strong>du</strong> social media monitoring s’est<br />
développé pour répondre à ces véritables angoisses parfois <strong>et</strong> doit être distingué <strong>du</strong> community<br />
management qui cherche, lui, à créer des liens effectifs avec des clients <strong>et</strong> à faire vivre une<br />
communauté attachée à la marque. Le social média monitoring adopte une focale beaucoup<br />
plus ouverte <strong>et</strong> propose des outils pour non seulement identifier ces marqueurs d’opinion en<br />
ligne, mais aussi intervenir directement pour gérer les eff<strong>et</strong>s de réputation qui s’ensuivent.
Ce que changent les techniques <strong>du</strong> datamining<br />
La collecte de données en masse<br />
OpenEdition Press<br />
<strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong> 6<br />
17 Ces données (qui sont des opinions, des avis, des commentaires) sont pro<strong>du</strong>ites en masse,<br />
alors que les contributions <strong>du</strong> public étaient jusqu’ici limitées au courrier des lecteurs ou aux<br />
sondages <strong>et</strong> enquêtes fort longs <strong>et</strong> coûteux. Dès lors, ce changement d’échelle est comme<br />
toujours une amplification 10 potentielle tout à la fois :<br />
• des tendances participatives de la démocratie ;<br />
• de la visibilité d’opinions jusqu’ici marginales ;<br />
• de la puissance d’influence sur les esprits de tous les médias relayés par le public luimême<br />
;<br />
• de la focalisation collective immédiate sur des thèmes qui sont répliqués à grande<br />
vitesse ;<br />
• de la réflexivité d’une société sur son propre climat, son humeur (mood), ce qui n’était<br />
pas encore arrivé ;<br />
• d’une possibilité de traiter statistiquement des informations subjectives même non<br />
catégorisées ou indexées ;<br />
• des outils de monitoring qui sont autant de tableaux de bord permanents de l’opinion ;<br />
• des comparaisons entre types de données, ém<strong>et</strong>teurs, propriétés des réseaux, des flux, <strong>et</strong>c.<br />
qui ouvrent des pistes infinies, d’autant plus qu’on ne sait pas vraiment ce qu’on pourrait<br />
y chercher !<br />
L’automatisation de la collecte des corpus puis <strong>du</strong> traitement…<br />
<strong>et</strong> de l’analyse ?<br />
18 La masse des données étant quasi infinie, une tendance à automatiser au maximum les<br />
procé<strong>du</strong>res de collecte, d’archivage, de constitution des bases de données, s’est manifestée qui<br />
ne fait que renforcer la fascination pour les masses de données disponibles. Puis le traitement<br />
linguistique lui-même a dû être automatisé, même si certaines approches sont encore très<br />
rustiques <strong>et</strong> approximatives. Mais la tendance serait aussi à rechercher l’automatisation de<br />
l’analyse elle-même, soit pour laisser la main à la société prestataire de service soit pour fournir<br />
des outils de pilotage direct par les clients qui demandent de l’opinion mining. Nous verrons<br />
cependant qu’il ne saurait en aucun cas être question de se passer d’une activité d’interpr<strong>état</strong>ion<br />
propre à des experts, spécialisés par domaines qui plus est.<br />
L’accessibilité via les API à des sources spécifiques<br />
19 La tendance aux développements de service reposant non plus sur les protocoles <strong>du</strong> Web mais<br />
sur des protocoles propriétaires est importante <strong>et</strong> la diffusion des « apps » pour les mobiles<br />
ne fait qu’encourager c<strong>et</strong>te tendance. On aurait pu craindre dès lors une ferm<strong>et</strong>ure de l’accès<br />
à ces données pour des robots indépendants de l’entreprise qui gère le service. Or, avec le<br />
principe des API (Application Programming Interfaces) <strong>et</strong> leur mise à disposition fréquente<br />
par les services en question, une partie des données (voire toutes pour Twitter, si on dispose<br />
de la puissance de calcul nécessaire) peut être réexploitée par des développeurs qui créent les<br />
applications qui utilisent les API <strong>et</strong> peuvent moissonner les données de ces services. Cela étant,<br />
rien ne perm<strong>et</strong> de garantir dans la <strong>du</strong>rée une telle politique <strong>et</strong>, pour Facebook par exemple,<br />
la partie la plus importante des données personnelles ou d’activité est réservée à l’usage de<br />
Facebook voire de ses partenaires dûment référencés <strong>et</strong> payeurs pour un tel accès. La donnée<br />
personnelle en général est devenue un « ass<strong>et</strong> » qui fait l’obj<strong>et</strong> de beaucoup de convoitises.<br />
Quelques limites des données recueillies sur le web 2.0<br />
à ne pas oublier<br />
20 Malgré toutes les promesses faites par les services à vocation commerciale, il est nécessaire<br />
de pointer certaines limites de ces prestations qui sont liées à la nature informelle des données<br />
recueillies <strong>et</strong> à leurs enjeux commerciaux ou stratégiques. Nous en présentons seulement deux<br />
ici pour l’instant car ce sont des prérequis, les limites proprement linguistiques seront traitées<br />
dans les parties plus techniques.
OpenEdition Press<br />
<strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong> 7<br />
Les opinions recueillies sont-elles sincères ?<br />
21 Nous avons évoqué rapidement l’intérêt stratégique de la veille informationnelle <strong>et</strong> l’enjeu<br />
représenté par le social media monitoring. Dès lors, il était fatal que les avis qui se propagent<br />
sur le n<strong>et</strong> fassent l’obj<strong>et</strong> de tentatives de manipulation en tous genres, comme l’est déjà le<br />
ranking de Google, avec l’apport des services de SEO, Search Engine Optimizers, pour faire<br />
monter un site dans les résultats sur une requête donnée (que Google s’échine à contrer <strong>et</strong> à<br />
désorienter lorsque leurs manœuvres sont grossières). Des sociétés sont désormais rémunérées<br />
pour rédiger des faux avis. Ce travail de pro<strong>du</strong>ction de faux avis fait l’obj<strong>et</strong> parfois d’une<br />
chasse par les internautes eux-mêmes qui savent p<strong>et</strong>it à p<strong>et</strong>it débusquer les trolls dans un débat<br />
ou encore les commentaires délibérément orientés par la marque, le vendeur <strong>du</strong> pro<strong>du</strong>it, le<br />
parti ou l’ém<strong>et</strong>teur <strong>du</strong> message d’origine. Des techniques d’ingénierie linguistique peuvent<br />
même prétendre désormais en débusquer la plupart dès lors que leurs formes d’expression sont<br />
un peu trop stéréotypées 11 . Les opinions émises sur le web ont donc à la fois le défaut d’être<br />
spontanées <strong>et</strong> de ne pas être spontanées, d’être instrumentalisées par les marques par exemple.<br />
Certains critiques déplorent le caractère trop spontané de ces réactions, beaucoup trop brutes<br />
<strong>et</strong> sans argumentation, mais il n’est pas rare que les mêmes critiques enchaînent aussitôt pour<br />
critiquer le caractère manipulatoire des opinions affichées, sous-entendant qu’elles n’ont rien<br />
d’authentiques. Argument quelque peu contradictoire car on peut alors y déceler une intention<br />
délibérée, une volonté d’influencer qui fera appel à tous les ressorts de l’argumentation que<br />
l’on requalifiera ou disqualifiera alors en propagande. Mais il est nécessaire d’être averti de<br />
ce caractère artificiel de certains eff<strong>et</strong>s d’opinion, puisque ces médias, comme les autres, sont<br />
l’obj<strong>et</strong> de stratégies délibérées pour exercer une influence 12 .<br />
Sait-on vraiment qui parle ?<br />
22 L’émergence des outils de publication de masse sur le web s’est accompagnée d’une<br />
disparition de l’auteur certifié <strong>et</strong> identifié comme tel <strong>et</strong> cela perturbe tous les repères. En eff<strong>et</strong>,<br />
il reste impossible de savoir vraiment qui se cache derrière le pseudonyme d’un commentaire,<br />
l’auteur d’un blog ou même un compte Facebook. Facebook a réussi cependant à instituer<br />
une convention de présentation de soi qui tend à rester très rattachée à son identité légale,<br />
celle fournie par l’<strong>état</strong>-civil. Mais il n’existe aucune garantie sur ce plan <strong>et</strong> nombreux sont<br />
les profils « fake », créés délibérément pour une opération particulière ou pour éviter d’être<br />
reconnu, sans parler des pages <strong>et</strong> des groupes qui peuvent être l’obj<strong>et</strong> d’échanges très actifs. Or,<br />
c<strong>et</strong>te absence de garantie sur l’identité des auteurs des opinions recueillies semblerait parfois<br />
invalider toute possibilité d’exploitation de leur contenu. Il faut en fait reconnaître ces limites<br />
même si elles vont à l’encontre des habitudes <strong>et</strong> des façons de faire des sociétés de sondage<br />
ou des sociologues traditionnels. Dans c<strong>et</strong>te tradition, les expressions recueillies sont aussitôt<br />
agrégées <strong>et</strong> corrélées à des propriétés sociales considérées a priori comme explicatives des<br />
comportements. On ne s’inquiète pas tant alors de l’authenticité des identités sur le web que<br />
de l’absence de propriétés sociales attachées, telles que l’âge, le genre, la CSP, le niveau de<br />
diplôme, la préférence partisane, <strong>et</strong>c. En eff<strong>et</strong>, ce sont ces agrégations d’opinions particulières,<br />
fondées sur ces attributs, qui sont intéressantes pour les sondages de façon à expliquer des<br />
régularités de comportements. Sur ce plan, il est vrai qu’il faut abandonner tout espoir de<br />
récupérer ce type d’informations à propos de la masse d’opinions qui circulent sur le web,<br />
quand bien même on parviendrait à identifier certaines de ces expressions en suivant à la trace<br />
des pseudonymes pour les « démasquer » ou en les reliant à des profils Facebook supposés<br />
authentiques (c’est-à-dire correspondant à la fiction administrative qu’est l’identité) ou encore<br />
en normalisant les accès aux forums par des identifiants certifiés. C’est en fait un autre statut<br />
de l’expression qui circule qu’il faut prendre en compte, beaucoup plus situé « en surface »<br />
<strong>et</strong> sans espoir d’explications par des « causes sociales » fondées sur des agrégats d’attributs.<br />
Les « conversations », elles, peuvent être suivies à la trace, mais avec certaines limites : tout<br />
se passe comme si on les écoutait de l’autre côté de la porte, à travers un filtre <strong>et</strong> un masque,<br />
tout en étant capable de très bien entendre les propos tenus <strong>et</strong> de les exploiter numériquement<br />
mais sans jamais voir les interlocuteurs. Car le grand avantage de c<strong>et</strong>te absence de référence<br />
à certaines propriétés sociales des indivi<strong>du</strong>s qui s’expriment, tient à l’absence de ré<strong>du</strong>ction
OpenEdition Press<br />
<strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong> 8<br />
des propos a priori par l’observateur (les fameuses grilles d’entr<strong>et</strong>ien) <strong>et</strong> à la possibilité,<br />
une fois ces données agrégées <strong>et</strong> calculées de revenir si nécessaire <strong>et</strong> cela sans effort, au<br />
verbatim lui-même. Chose qui devenait impossible avec les questionnaires ou même avec<br />
les entr<strong>et</strong>iens qualitatifs qui restaient dans les limbes de l’enquête, dans l’arrière-cuisine que<br />
personne ne devait aller observer s’il n’avait les titres requis (<strong>et</strong> même avec !). Sur le web 2.0,<br />
toutes ces expressions peuvent certes être calculées <strong>et</strong> agrégées à partir de leur expression<br />
brute <strong>et</strong> spontanée, mais en plus il est possible d’y r<strong>et</strong>ourner à tout moment, pour vérifier<br />
les expressions exactes. C<strong>et</strong> eff<strong>et</strong> de transparence de la méthode peut parfois constituer un<br />
artifice <strong>et</strong> prétendre à l’évidence. Mais il correspond aux exigences des clients, des lecteurs, qui<br />
sont désormais souvent aussi instruits que les experts qui livraient les interpr<strong>état</strong>ions fermées<br />
comme autant d’oracles à prendre au pied de la l<strong>et</strong>tre. Rien ne pourra cependant garantir que<br />
les faux avis, désormais automatisables, ne deviennent aussi une ressource pour les stratèges<br />
de l’opinion sur intern<strong>et</strong> 13 .<br />
Les domaines d’application<br />
23 Comme le rappellent Pang <strong>et</strong> Lee dans « Opinion Mining and Sentiment Analysis » 14 , « ce que<br />
les autres pensent » est régulièrement convoqué dans tout processus décisionnel, que ce soit en<br />
vue de l’achat d’un bien, dans le contexte d’une élection, ou encore pour évaluer la réputation<br />
de son entreprise. Et ce phénomène n’est pas né avec le web.<br />
Les avis ordinaires ont une influence<br />
24 Il est en eff<strong>et</strong> aisé d’observer comment les réseaux relationnels jouent un rôle tout aussi<br />
important que les avis d’experts <strong>du</strong> domaine. Les autorités avaient certes plus de poids<br />
médiatique jusqu’ici <strong>et</strong> finissaient par être considérées comme les seules sources fiables.<br />
Mais avec le web 2.0 en particulier, le « bruit » des non-experts menace clairement leur<br />
monopole médiatique. Cependant, bien avant, l’orientation <strong>et</strong> les choix se faisaient aussi par<br />
des canaux d’influence qui jouaient plutôt sur la proximité sociale <strong>et</strong> culturelle. Ainsi, pour un<br />
avis médical, je peux tenter d’obtenir le diagnostic <strong>du</strong> meilleur médecin <strong>du</strong> domaine dans ma<br />
ville, dans mon pays voire au-delà, pour avoir des garanties. Mais dans le même temps, l’avis<br />
de ma belle-sœur qui a eu le même problème que moi ou celui de mon copain d’enfance qui<br />
a fait des études d’infirmier peuvent m’être tout aussi précieux, car ils vont avoir l’immense<br />
avantage de me parler dans ma langue, de prendre en compte ma situation <strong>et</strong> mon expérience<br />
car ils la partagent. Dans un ouvrage qui date de la préhistoire <strong>du</strong> numérique 15 , nous avions<br />
proposé c<strong>et</strong>te distinction entre frapper à la porte exacte (le scientifique, l’expert, l’autorité <strong>du</strong><br />
domaine) <strong>et</strong> frapper à la bonne porte (le bon tuyau, le coup de main, le bouche à oreille). L’un<br />
n’exclut pas l’autre. Michel de Certeau <strong>et</strong> Luce Giard en avaient déjà fait une description dans<br />
L’Ordinaire de la communication 16 . Mais avec le web, ces avis ordinaires sont disponibles<br />
en abondance, sur des sites médicaux comme Doctissimo, <strong>et</strong> grâce à c<strong>et</strong>te prolifération des<br />
avis, l’un d’entre eux finit par parler dans notre langue de situations voisines <strong>et</strong> peut dès<br />
lors prendre une grande valeur. Ces avis peuvent donc constituer une ressource personnelle<br />
importante <strong>et</strong> c’est pour c<strong>et</strong>te raison qu’ils attirent le public en masse (selon Médiamétrie/<br />
N<strong>et</strong>Ratings, le site Doctissimo faisait partie en juin 2011 <strong>du</strong> top 30 des sites les plus visités<br />
en France, avec 7 944 000 visiteurs uniques par mois <strong>et</strong> 564 000 visiteurs uniques par jour 17 .)<br />
Leur agrégation dans des moyennes ou des classements peut atténuer leur portée de proximité<br />
culturelle mais pour une première approche, ces avis, même agrégés, peuvent donner une<br />
orientation sommaire. Et ce processus est opératoire non plus seulement pour les indivi<strong>du</strong>s<br />
lambda mais aussi pour les marques, pour les politiques, qui veulent avoir accès à ces avis<br />
ordinaires, qui reconstituent l’équivalent d’un réseau d’influence personnel.<br />
Les entreprises<br />
25 Car à côté de la consultation des avis en ligne pour un usage personnel dans la vie courante,<br />
la collecte <strong>et</strong> l’analyse des opinions des indivi<strong>du</strong>s sont devenues des sources d’informations<br />
précieuses pour les entreprises. Alors que le recueil des opinions des consommateurs a eu<br />
pendant longtemps un caractère fastidieux, sans garantir que les avis recueillis soient spontanés
OpenEdition Press<br />
<strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong> 9<br />
(organisation de focus groups, recours à des consultants, enquêtes <strong>et</strong> questionnaires, <strong>et</strong>c.),<br />
l’accessibilité de ces informations, dès lors qu’elles se r<strong>et</strong>rouvent postées en ligne par les<br />
consommateurs eux-mêmes, autorise des analyses à grande échelle (opinions en provenance<br />
<strong>du</strong> monde entier).<br />
26 Le mark<strong>et</strong>ing a rapidement compris l’intérêt <strong>du</strong> sentiment analysis. Des agences vendent aux<br />
entreprises la traque des moindres mots sur leur image, sur leurs pro<strong>du</strong>its.<br />
27 Dans le domaine <strong>du</strong> pro<strong>du</strong>ct review mining : notamment à partir des sites d’avis de<br />
consommateurs. Les consommateurs viennent y échanger des avis <strong>et</strong> trouver des conseils pour<br />
leurs décisions d’achat (pro<strong>du</strong>its technologiques, voitures, voyage <strong>et</strong> hôtels, <strong>et</strong>c.). Selon le 7 e<br />
baromètre sur les comportements d’achat des internautes de Médiamétrie <strong>et</strong> de la FEVAD 18 .<br />
« Ce sont désormais près de 9 internautes sur 10 (86 %) qui déclarent avoir consulté<br />
un site intern<strong>et</strong> avant d’ach<strong>et</strong>er un pro<strong>du</strong>it, qu’ils aient finalement effectué c<strong>et</strong> achat<br />
sur intern<strong>et</strong> ou bien en magasin. […] Les deux tiers d’entre eux consultent les<br />
portails <strong>et</strong> moteurs de recherche ou les sites marchands pour consulter les fiches<br />
pro<strong>du</strong>its. 6 sur 10 arpentent les sites marchands pour lire les avis des internautes.<br />
Et enfin près de la moitié d’entre eux (49 %) recherche de l’information sur les<br />
comparateurs de prix ».<br />
28 Le sentiment analysis perm<strong>et</strong> non seulement de catégoriser les avis au suj<strong>et</strong> d’un pro<strong>du</strong>it (cf. le<br />
système de review classification, comme dans le cas des critiques de cinéma), d’en proposer<br />
des résumés, mais aussi de détailler à un niveau fin ces avis (quelle dimension <strong>du</strong> pro<strong>du</strong>it<br />
est appréciée, quelle autre dimension ne l’est pas – on parle alors de « features »). Il peut<br />
également aider à lutter contre le spam en contribuant à détecter les faux avis postés par des<br />
agences (cf. note 11). Le site d’enchères en ligne eBay utilise également des outils de sentiment<br />
analysis pour repérer les meilleures critiques <strong>et</strong> les rendre accessibles plus facilement parmi<br />
toutes les revues de pro<strong>du</strong>its (<strong>et</strong> les spams commerciaux) que présente le site. L’équipe des<br />
eBay Research Labs a en eff<strong>et</strong> défini des indicateurs de qualité d’un avis sur un pro<strong>du</strong>it parmi<br />
lesquels la réputation de l’auteur de l’avis au sein de la communauté des utilisateurs d’eBay,<br />
son « seller degree » qui reflète le cas échéant quel type de vendeur ou d’ach<strong>et</strong>eur il est, <strong>et</strong><br />
enfin un « expertise degree » qui reflète la connaissance que l’auteur peut avoir sur un type<br />
de pro<strong>du</strong>its 19 .<br />
29 Dans le domaine <strong>du</strong> e-commerce <strong>et</strong> <strong>du</strong> CRM (ou GRC en français) : acquérir des<br />
connaissances sur ses consommateurs ou anticiper leurs attentes est possible à partir de la<br />
collecte des avis de consommateurs sur un pro<strong>du</strong>it, un service, une marque. Le contrôle<br />
qualité des pro<strong>du</strong>its peut s’en servir comme d’une veille. Il est aussi possible d’améliorer la<br />
relation client/fournisseur en récupérant les critiques ou avis favorables. Les évolutions à venir<br />
des <strong>marché</strong>s de consommation courante peuvent être anticipées par des signes précurseurs<br />
dans les tonalités des conversations dès lors qu’on dispose d’un étalon en temps normal<br />
ou favorable pour percevoir ces changements rapides 20 . Une autre application <strong>du</strong> sentiment<br />
analysis proposée par eBay perm<strong>et</strong> de rechercher la présence de mots-clés sur Twitter pour<br />
détecter les pannes <strong>du</strong> service signalées par les utilisateurs, avant même que l’alerte ne soit<br />
donnée par le système d’enchères lui-même.<br />
30 Mais le sentiment analysis a également trouvé d’autres applications.<br />
31 Dans le domaine financier (prédiction de tendances de <strong>marché</strong> par exemple). Ainsi dans<br />
leur article « Predicting Movie Sales from Blogger Sentiment » 21 , Gilad Mishne <strong>et</strong> Natalie<br />
Glance utilisent des techniques de sentiment analysis pour améliorer la prédiction <strong>du</strong> succès<br />
commercial d’un film à partir des blogs. Ils montrent que le constat selon lequel le volume<br />
de citations d’un pro<strong>du</strong>it dans les blogs est corrélé avec la réussite financière <strong>du</strong> pro<strong>du</strong>it,<br />
peut être amélioré, au moins dans le domaine <strong>du</strong> cinéma, en analysant le sentiment positif<br />
exprimé dans les blogs au suj<strong>et</strong> d’un film, avant sa sortie en salle, <strong>et</strong> en le comparant avec<br />
son score au box office. L’utilisation des techniques de sentiment analysis contribuerait ainsi à<br />
construire de meilleures prédictions que la mesure <strong>du</strong> simple buzz, surtout si elle était associée<br />
à d’autres types de données comme le genre <strong>du</strong> film <strong>et</strong> le moment de sa sortie. Une autre<br />
utilisation <strong>du</strong> sentiment analysis dans le domaine financier est la classification des dépêches
OpenEdition Press<br />
<strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong> 10<br />
financières afin d’observer l’impact éventuel de ces dernières sur le prix des actions cotées<br />
en Bourse. C’est ce type d’application que présentent Michel Généreux, Thierry <strong>Po</strong>ibeau <strong>et</strong><br />
Moshe Kopple dans leur article « Sentiment analysis using automatically labelled financial<br />
news items » 22 en faisant l’hypothèse que « la réaction <strong>du</strong> <strong>marché</strong> suite à la publication d’une<br />
dépêche reliée à une action particulière est un bon indicateur de la polarité de la nouvelle <strong>et</strong><br />
qu’un algorithme d’apprentissage à partir de ces dépêches perm<strong>et</strong> de construire un système<br />
qui donne à l’investisseur une source d’information supplémentaire qui peut être exploitée de<br />
façon avantageuse dans une stratégie d’investissement » 23 .<br />
32 Dans le domaine de la veille. Les techniques de sentiment analysis, parce qu’elles perm<strong>et</strong>tent<br />
de classer de grandes quantités de textes, rapports, conversations informelles sur des pro<strong>du</strong>its<br />
ou des dirigeants d’entreprises, <strong>et</strong>c., peuvent être utilisées dans le domaine de la veille, qu’elle<br />
soit économique, technologique, stratégique ou institutionnelle. Ainsi espère-t-on par exemple<br />
m<strong>et</strong>tre en place des systèmes d’évaluation de la réputation des entreprises en rassemblant dans<br />
des bases de données des faits <strong>et</strong> opinions trouvés sur le web <strong>et</strong> perm<strong>et</strong>tant de tracer le profil<br />
de telle ou telle entreprise 24 .<br />
33 Dans le domaine politique. La publication croissante sur intern<strong>et</strong> de textes à teneur politique<br />
(lois, rapports, bill<strong>et</strong>s de blogs politiques, <strong>et</strong>c.) <strong>et</strong> le constat que la politique ne se fait<br />
plus seulement dans les hémicycles mais aussi dans les débats en ligne, a con<strong>du</strong>it certains<br />
chercheurs à utiliser les techniques de sentiment analysis pour déterminer l’accord ou le<br />
désaccord des commentateurs avec telle ou telle proposition de loi. Dans leur article « G<strong>et</strong> out<br />
the vote : D<strong>et</strong>ermining support or opposition from Congressional floor-debate transcripts 25 »,<br />
Matt Thomas, Bo Pang <strong>et</strong> Lillian Lee espèrent faciliter la reconnaissance <strong>du</strong> positionnement<br />
d’un orateur dans un débat politique grâce au sentiment analysis. D’autres recherches tentent<br />
par exemple d’analyser en masse les commentaires <strong>et</strong> opinions des citoyens américains lors de<br />
l’élaboration des réglementations proposées par les agences indépendantes <strong>du</strong> gouvernement 26 .<br />
34 Dans le domaine de la publicité en ligne. Si la publicité en ligne, ciblée <strong>et</strong> contextuelle, s’est<br />
considérablement développée ces dernières années, elle pourrait bénéficier des recherches en<br />
sentiment analysis. Car si une annonce publicitaire est d’autant plus efficace qu’elle apparaît<br />
au bon endroit au bon moment, elle pourrait l’être encore plus si elle s’adaptait au ressenti des<br />
consommateurs vis-à-vis d’un pro<strong>du</strong>it ou d’un service. C’est ce que propose par exemple la<br />
stratégie DASA (Dissatisfaction-oriented Advertising based on Sentiment Analysis) 27 , qui a<br />
pour but de détecter <strong>et</strong> de prendre en compte les points d’insatisfaction des consommateurs<br />
afin d’adapter encore mieux les annonces publicitaires à leurs cibles.<br />
35 L’infographie ci-dessous, <strong>du</strong> cabin<strong>et</strong> indien Beacon 28 , présente quelques domaines<br />
d’application <strong>du</strong> sentiment analysis.
Domaines d’application <strong>du</strong> sentiment analysis selon le cabin<strong>et</strong> Beacon<br />
Source : http://www.thebeaconservices.com/sentiment_analysis.php<br />
Les questions à se poser<br />
OpenEdition Press<br />
<strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong> 11<br />
Connaître le type d’informations ou de phénomènes que l’on recherche<br />
36 L’un des prérequis essentiels avant tout lancement d’une étude de sentiment analysis est de<br />
savoir le type d’information ou de phénomènes que l’on recherche. Il est vain d’espérer<br />
que les résultats de la machine s’imposent d’eux-mêmes, sans avoir besoin d’être interprétés.<br />
À quel objectif répond la recherche d’opinions ? Selon les visées, les méthodes seront<br />
différentes :<br />
• Suivre l’évolution des opinions sur un domaine, sur une question, sur un pro<strong>du</strong>it/service,<br />
sur une marque, sur une personnalité. Parmi tous ces obj<strong>et</strong>s qui peuvent être suivis,<br />
l’échelle ou la complexité <strong>du</strong> domaine peut varier mais l’élément clé restera la notion<br />
d’évolution. Il sera donc nécessaire de m<strong>et</strong>tre en place des outils de veille sur des<br />
bouqu<strong>et</strong>s de source définis a priori <strong>et</strong> suivis à intervalles réguliers, pour récupérer leurs<br />
données. Dans ce cas, malgré les biais inévitables dans la constitution des sources ou<br />
des mots clés, l’évolution émergera à partir de la ligne de temps.<br />
• Veiller à des alertes ponctuelles pour détecter des événements. La méthode peut être<br />
proche de la précédente mais il s’agit plutôt de construire les indices d’alerte qui vont<br />
perm<strong>et</strong>tre une réaction. Ce sont les éléments déclencheurs qui sont recherchés, soit pour<br />
être analysés soit pour être neutralisés. Mais dans ce cas, l’aspect agrégat <strong>et</strong> mesure<br />
globale n’est pas tant important que l’identification d’une source <strong>et</strong> d’un canal de<br />
propagation.<br />
• Explorer les réseaux de composition de l’opinion (à l’aide ou en vue de management<br />
de communautés) : dans ce cas, les verbatims sont moins importants que les canaux par<br />
lesquels ils circulent. Les approches de topologie <strong>du</strong> web perm<strong>et</strong>tent de cartographier<br />
les liens entre les sites ou blogs <strong>et</strong> les thématiques qui circulent entre ces sites ou blogs<br />
sont alors analysables en fonction de ces relations <strong>et</strong> non plus pour elles-mêmes.<br />
37 Ces trois points de vue perm<strong>et</strong>tent de distinguer sommairement les trois grandes visées de<br />
toute veille en opinion mining <strong>et</strong> sentiment analysis. Elle peut être centrée sur :<br />
• un agrégat d’opinions <strong>et</strong> son évolution sur un grand nombre de sources ;<br />
• un énoncé qui fait événement <strong>et</strong> dont on peut suivre la trace 29 ;<br />
• un milieu que l’on étudie en tant que tel <strong>et</strong> qui échange sur des thèmes qui lui sont en<br />
partie propres.
38 <strong>Po</strong>ur chacune de ces approches, les outils à m<strong>et</strong>tre en place seront différents.<br />
Définir la visée de sa recherche<br />
OpenEdition Press<br />
<strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong> 12<br />
39 Un autre prérequis pour se lancer dans une analyse de la tonalité sur le web est de savoir<br />
pourquoi on cherche. On distingue au moins deux postures : observer pour comprendre ou<br />
observer pour agir. De plus en plus de prestataires en social media monitoring proposent des<br />
solutions « complètes » qui vont jusqu’à perm<strong>et</strong>tre aux clients de répondre en quasi-temps réel<br />
à un twe<strong>et</strong> qui ne leur conviendrait pas. Beaucoup de fonctionnalités mises en avant dans ces<br />
offres supposent que le client a pour but d’« engager la conversation » avec ses consommateurs<br />
ou de réagir aux attaques à sa réputation.<br />
40 Mais l’observation à visée de compréhension peut être un premier objectif <strong>et</strong> un objectif<br />
suffisant. On se r<strong>et</strong>iendra alors de préqualifier les expressions recueillies (<strong>et</strong> le sentiment<br />
analysis pousse à les qualifier immédiatement) pour comprendre par exemple les règles<br />
d’expression propres à un domaine, propres aussi à un site ou à un média social. Une fois<br />
c<strong>et</strong>te compréhension profonde acquise à partir d’études sur des échantillons restreints, il<br />
devient possible de m<strong>et</strong>tre en place des indicateurs plus précis <strong>et</strong> automatisables en partie,<br />
mais pas avant. Intro<strong>du</strong>ire une visée opérationnelle dès le début <strong>du</strong> travail d’opinion mining<br />
modifie nécessairement les méthodes utilisées, les saillances r<strong>et</strong>enues, les modes d’alerte,<br />
<strong>et</strong> donc le poids relatif des expressions relevées. Cela ne l’invalide pas mais cela oblige à<br />
distinguer une telle posture de connaissance stratégique par rapport à une observation à visée<br />
compréhensive. C’est pourquoi les outils à destination des chercheurs seront souvent différents<br />
de ceux proposés par les sociétés qui proposent des services opérationnels.<br />
Décider de la composition des ressources mobilisables :<br />
humains (lesquels ?) <strong>et</strong> machines (pour faire quelle tâche ?)<br />
41 Nous l’avons dit, on ne peut s’en rem<strong>et</strong>tre entièrement à la machine, ce qui se tra<strong>du</strong>it par<br />
l’exigence d’avoir des analystes experts <strong>du</strong> domaine <strong>et</strong> ne pas s’en rem<strong>et</strong>tre au logiciel<br />
censé s’occuper de tout. Il est donc nécessaire de réaliser une étude de faisabilité <strong>et</strong> d’évaluer<br />
les moyens financiers nécessaires en tenant compte de c<strong>et</strong>te contrainte. Si le client a besoin<br />
d’examiner un très grand nombre de données <strong>et</strong> qu’il estime devoir impérativement passer par<br />
un prestataire, il doit prévoir des analystes qui sauront interpréter les résultats. L’évaluation<br />
des prestations proposées devrait passer plus souvent par l’examen des qualifications des<br />
personnels qui réalisent le travail. Il est trompeur de prétendre qu’aucune interpr<strong>état</strong>ion n’est<br />
nécessaire ou qu’on peut la laisser au client final. Car toute la chaîne de pro<strong>du</strong>ction de<br />
données, même la plus automatisée, même celle qui pro<strong>du</strong>it les résultats les plus bruts ou<br />
les plus synthétisés, repose sur une succession d’interpr<strong>état</strong>ions, qui ne sont jamais des choix<br />
« purement techniques » ou d’optimisation (pour des raisons de coûts ou de délais) : chacune<br />
présuppose une certaine analyse implicite <strong>du</strong> domaine, de la question posée, <strong>du</strong> statut <strong>du</strong><br />
matériau recueilli, <strong>et</strong>c.<br />
Qui pratique l’analyse de sentiment ?<br />
42 Parce qu’il existe beaucoup de domaines d’application <strong>du</strong> sentiment analysis, on trouve<br />
également beaucoup d’acteurs, <strong>et</strong> très variés, s’inscrivant dans ce secteur. Nous ne pouvons<br />
ici rendre compte de l’ensemble des acteurs <strong>du</strong> sentiment analysis. De nouveaux entrants<br />
apparaissent régulièrement dans ce domaine, leurs positionnements ne sont pas toujours<br />
identiques, <strong>et</strong> leur nombre évolue tous les jours. Certains acteurs disparaissent, d’autres<br />
ressurgissent sous de nouveaux noms, notamment après un rachat, comme ce fut le cas pour<br />
l’ex-Scoutlabs, rach<strong>et</strong>é en 2010 par la société Lithium Technologies.<br />
43 Voyons plutôt quels types d’acteurs pratiquent l’analyse de sentiment.<br />
Les services internes des entreprises <strong>et</strong> des organismes<br />
44 La collecte <strong>et</strong> l’analyse des avis des consommateurs ne sont pas nouvelles <strong>et</strong> des services<br />
internes dans les entreprises <strong>et</strong> organismes publics s’occupaient déjà de sonder les opinions<br />
des consommateurs <strong>et</strong> citoyens, à l’aide des outils de CRM. Cependant, l’analyse <strong>du</strong> sentiment<br />
se fait encore de manière relativement artisanale chez ces acteurs : « à la main », avec outils de
OpenEdition Press<br />
<strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong> 13<br />
bureautique classique. Un suivi de blogs connus par l’entreprise ou l’organisme peut également<br />
être mis en place. Les outils d’assistance à l’analyse (CAQDAS) sont rarement utilisés <strong>et</strong><br />
encore plus rarement les solutions d’analyse automatique (outils de text mining spécialement<br />
configurés, solutions sur étagère). Ces services <strong>et</strong> ces entreprises ont souvent recours à un<br />
prestataire pour toute analyse plus ambitieuse.<br />
Les prestataires de services<br />
45 Les prestataires de services sont les cabin<strong>et</strong>s de veille, les web agencies, les agences d’eréputation<br />
<strong>et</strong> de social media monitoring. Ces acteurs se sont multipliés au point de provoquer<br />
une véritable explosion de l’offre <strong>du</strong>rant les années 2009-2010. Au 25 mai 2011, Camille<br />
Alloing recensait, sur le site caddE-réputation, 163 agences 30 dans le domaine de l’e-réputation<br />
au sens large. De son côté, l’agence Blueboat proposait à la même époque une carte des agences<br />
d’e-réputation en France 31 – justement réalisée à partir de la liste de Camille Alloing <strong>et</strong> revisitée<br />
en fonction de ses critères propres.<br />
Carte des agences d’e-réputation en France, par l’agence Blueboat<br />
Source : Carte tirée d’un bill<strong>et</strong> de Justin Timmel pour le blog Blueboat : http://www.blueboat.fr/agences-e-reputationfrance<br />
46 123 agences prestataires en e-réputation étaient ainsi représentées <strong>et</strong> réparties en 9 catégories :<br />
• protection de la réputation/juridique ;<br />
• web agency ;<br />
• conseil, communication, influence, stratégie ;<br />
• relations publiques/presse ;<br />
• prestataires outils, solutions logicielles ;<br />
• pure players ;<br />
• SEO/SEM ;<br />
• veille, audit, analyse ;<br />
• mark<strong>et</strong>ing digital/communautaire, webmark<strong>et</strong>ing.<br />
47 Outre leur nombre, c’est la diversité de ces acteurs qui frappe. Les différentes modalités<br />
de l’étude de la conversation en ligne (que nous allons détailler plus bas) sont prises en<br />
charge par des consultants indépendants, souvent spécialistes en intelligence économique,<br />
veille sectorielle ou en stratégie de communication, mais aussi par des agences web dont les<br />
métiers de départ peuvent être la création de site web, le référencement naturel ou le mark<strong>et</strong>ing<br />
digital.
OpenEdition Press<br />
<strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong> 14<br />
48 D’autres agences se sont créées autour de la seule notion de réputation en ligne, l’e-réputation.<br />
Elles sont, en quelque sorte, les pure players <strong>du</strong> secteur.<br />
49 Enfin, on trouve également parmi ces acteurs les grandes agences historiques de publicité <strong>et</strong> de<br />
communication comme Publicis ou Havas, qui ont développé des branches de leurs activités<br />
spécialement dédiées à la dimension numérique.<br />
50 La diversité des secteurs d’origine de ces prestataires nous perm<strong>et</strong> déjà d’imaginer que les<br />
offres de ces agences seront très différentes les unes des autres <strong>et</strong> qu’elles ne vont pas se ré<strong>du</strong>ire<br />
à <strong>du</strong> sentiment analysis. Cependant, ce dernier apparaît comme une brique nécessaire à une<br />
analyse fine des conversations sur le web pour tout suivi de réputation ou toute entreprise de<br />
social media monitoring.<br />
Les éditeurs d’outils logiciels ou de solutions en ligne<br />
pour l’analyse automatique<br />
51 Les éditeurs d’outils logiciels ou de solutions en ligne pour l’analyse automatique conçoivent<br />
<strong>et</strong> commercialisent des solutions capables de traiter de très gros volumes de données<br />
(catégorisation automatique, volumétrie, analyse de la tonalité, <strong>et</strong>c.). Leurs pro<strong>du</strong>its sont<br />
très souvent « prêts à l’emploi » <strong>et</strong> sont censés pouvoir s’adapter indistinctement à tous les<br />
types de contenus <strong>et</strong> de secteurs. Dans les faits, ils présentent des faiblesses <strong>du</strong> point de<br />
vue de leur adaptation à la spécificité des secteurs d’activité (d’où émane la demande). De<br />
manière générale, les éditeurs survalorisent les performances de leurs pro<strong>du</strong>its. Et les clients<br />
se sont souvent ren<strong>du</strong> compte au moment <strong>du</strong> bilan que les promesses ven<strong>du</strong>es ne s’étaient<br />
pas réalisées. Enfin, les logiciels <strong>et</strong> solutions en ligne pour l’analyse automatique ne sont<br />
pas infaillibles. Dans certains cas, le défaut de robustesse est partiellement compensé par le<br />
recours à des stratégies de « r<strong>et</strong>our de pertinence » (relevance feedback), qui bénéficient, à<br />
l’aide de systèmes apprenants, des corrections apportées par les experts <strong>du</strong> domaine. Seuls<br />
quelques prestataires sont en mesure de fournir les efforts financiers pour satisfaire aux<br />
coûts des investissements <strong>et</strong> aux exigences élevées en matière de stockage des données, de<br />
maintenance, de constitution des dictionnaires, de traitement des données <strong>et</strong> de constitution<br />
d’équipes d’experts qui viennent compléter le travail effectué par les machines.<br />
Certains laboratoires de recherche<br />
52 Ces laboratoires de recherche (universitaires ou autres) peuvent être rattachés à plusieurs<br />
disciplines mais le plus souvent en TAL (Traitement Automatique <strong>du</strong> Langage), c’est-à-dire<br />
au croisement de l’ingénierie informatique <strong>et</strong> des sciences <strong>du</strong> langage.<br />
53 Ces laboratoires cherchent à améliorer leurs méthodes <strong>et</strong> algorithmes qu’ils testent, notamment<br />
dans le cadre de « défis ». Ces défis sont en fait de grandes campagnes d’évaluation qui<br />
perm<strong>et</strong>tent aux laboratoires de confronter leurs résultats. À c<strong>et</strong>te occasion, ces laboratoires<br />
se r<strong>et</strong>rouvent souvent en concurrence ou en partenariat avec les éditeurs de solutions <strong>et</strong>/<br />
ou prestataires mentionnés plus haut. C’est ainsi que la société Celi-France, spécialisée<br />
en extraction d’information <strong>et</strong> traitement automatique <strong>du</strong> langage a participé en 2007 à la<br />
campagne d’évaluation DEFT en présentant un travail sur la classification d’opinions par<br />
méthodes symbolique, statistique <strong>et</strong> hybride 32 .<br />
Encadré 1 : campagnes d’évaluation<br />
Il existe plusieurs campagnes d’évaluation dans le domaine de la fouille de textes. Ainsi<br />
de l’atelier d’évaluation DEFT 33 (DÉfi Fouille de Textes), actuellement organisé par le<br />
Laboratoire Informatique pour la Mécanique <strong>et</strong> les <strong>Sciences</strong> de l’Ingénieur (LIMSI) 34 , qui<br />
perm<strong>et</strong> à différentes équipes de confronter leurs méthodes sur un même corpus pendant des<br />
conférences scientifiques telles que TALN 35 (Traitement Automatique des Langages Naturels),<br />
événement annuel organisé par l’ATALA - Association pour le Traitement Automatique des<br />
Langues. Si DEFT concerne le domaine général de la fouille de textes, les éditions de 2007<br />
<strong>et</strong> 2009 étaient plus particulièrement consacrées à des problématiques de sentiment analysis<br />
(classification de textes d’opinion 36 <strong>et</strong> analyse multilingue d’opinion 37 ).
OpenEdition Press<br />
<strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong> 15<br />
À l’étranger, autre campagne d’évaluation dans le domaine de la recherche d’information<br />
(Information R<strong>et</strong>rieval), TREC 38 (Text REtrieval Conference), soutenue par le National<br />
Institute of Standards and Technology <strong>et</strong> l’Advanced Research and Development Activity<br />
Center <strong>du</strong> Département de la Défense des États-Unis, a proposé en 2006 Blog Track 39 , avec<br />
pour objectif l’étude des textes d’opinion dans un corpus issu de la blogosphère.<br />
54 De manière générale, les laboratoires de recherche travaillent sur des corpus fermés <strong>et</strong> dédiés<br />
à un suj<strong>et</strong> (<strong>et</strong> non sur des flux comme c’est le cas pour l’analyse des opinions sur le web).<br />
Les papiers pro<strong>du</strong>its présentent en général des propositions d’amélioration de features pour<br />
l’apprentissage machine.<br />
Le <strong>marché</strong> actuel<br />
Une offre foisonnante<br />
55 Depuis quelques années, on assiste à une augmentation <strong>du</strong> nombre d’acteurs sur ce <strong>marché</strong>.<br />
Comme nous l’avons indiqué précédemment, les cabin<strong>et</strong>s <strong>et</strong> agences de veille, de management<br />
de la réputation en ligne <strong>et</strong> de social media monitoring, mais aussi les éditeurs de logiciels<br />
ou les outils en ligne se sont multipliés au point de provoquer une sur-offre sur un secteur<br />
dont les frontières se brouillent toujours un peu plus. Le domaine de l’analyse d’opinion,<br />
plus couramment appelée dans ces offres « l’écoute de la conversation des internautes »,<br />
se caractérise donc par des frontières floues, allant <strong>du</strong> présumé service compl<strong>et</strong> de social<br />
media monitoring à « l’analyse de sentiment » sur un seul réseau social, en passant par<br />
le « management de l’e-réputation » d’une marque ou d’une personne (personal branding).<br />
Inévitablement, une certaine confusion règne dans un domaine au vocabulaire non stabilisé.<br />
Veille, analyse d’opinion, e-réputation, dans tous les cas il s’agit de détecter <strong>et</strong> d’analyser les<br />
opinions présentes sur les réseaux sociaux <strong>et</strong> le web, en utilisant des techniques d’extraction<br />
d’information <strong>et</strong> en essayant de fournir aux clients des indicateurs de leur présence, de leur<br />
image, de celle de leurs concurrents, pour éventuellement proposer des stratégies de contreattaque.<br />
56 Quelles prestations les acteurs <strong>du</strong> secteur proposent-ils en eff<strong>et</strong> ? Passons en revue les<br />
termes employés pour décrire leurs offres sur leurs sites web : e-réputation, veille mark<strong>et</strong>ing,<br />
veille digitale, référencement, community management, communication interactive, veille<br />
en intelligence économique, buzz tracking, brand monitoring, mark<strong>et</strong>ing communautaire,<br />
web mark<strong>et</strong>ing, mark<strong>et</strong>ing digital, sentiment analysis, social analytics, relation blogueurs,<br />
e-influence, sentiment monitoring, veille image, engagement dans la conversation web,<br />
réputation digitale, online sentiment, mesure de la visibilité, RP 2.0, suivi de notoriété, buzz<br />
monitoring, identité numérique, <strong>et</strong>c. La liste est longue <strong>et</strong> il n’est pas toujours facile de voir<br />
où commence <strong>et</strong> où finit l’offre : simple mesure de la visibilité, décompte des citations d’un<br />
nom de marque sur les blogs, analyse des opinions exprimées au sein d’un bouqu<strong>et</strong> de sites<br />
sur une thématique donnée, possibilité de réagir en quasi-temps réel à un commentaire de<br />
consommateur ?<br />
57 Sous l’eff<strong>et</strong> de la concurrence, les offres semblent tendre peu à peu à se ressembler <strong>et</strong><br />
à se rapprocher vers une sorte de modèle « 360 » allant parfois de la création d’un site<br />
pour une marque, à la campagne de communication, en passant par son référencement <strong>et</strong><br />
en terminant par l’évaluation de son image. Les acteurs proposant des plateformes ou suites<br />
logicielles semblent intégrer au fur <strong>et</strong> à mesure toujours plus de fonctionnalités autour de leur<br />
noyau de savoir-faire premier, parfois en s’alliant avec d’autres. En témoignent par exemple<br />
l’alliance entre Lexis Nexis (fourniture d’informations à usage professionnel <strong>et</strong> solutions<br />
de veille <strong>et</strong> d’analyse des médias) <strong>et</strong> Augure (entreprise de réputation en management), le<br />
rachat de Scoutlabs, éditeur de logiciel en social media monitoring, par Lithium Technologies,<br />
spécialiste en applications en gestion de la relation client 40 , ou encore celui de Backtype<br />
(suivi <strong>et</strong> analyse des conversations sociales) par le service de micro-blogging Twitter 41 . Et ces<br />
rapprochements ne sont pas des cas isolés sur le <strong>marché</strong> de l’e-réputation !
OpenEdition Press<br />
<strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong> 16<br />
58 Enfin, la tarification des offres disponibles sur le <strong>marché</strong> va de la gratuité au service payant.<br />
À côté des solutions gratuites qui perm<strong>et</strong>tent de suivre un aspect particulier de la conversation<br />
web comme par exemple :<br />
• Samepoint (reputation management search engine) ;<br />
• SocialMention (real-time social media search & analysis) ;<br />
• BoardTracker (forum discussion search) ;<br />
• Twilert (Twitter alerts) ;<br />
• Comment (suivi de commentaires), <strong>et</strong>c.<br />
59 Les solutions payantes proposent très souvent des offres intégrées <strong>et</strong> packagées (comprenant<br />
ou non <strong>du</strong> sentiment analysis). Elles sont en général proposées par abonnement. Dans ce<br />
cas, le prix peut varier en fonction <strong>du</strong> nombre d’utilisateurs futurs de la solution, <strong>du</strong> nombre<br />
de requêtes autorisées, <strong>du</strong> type de fonctionnalités auxquelles on souscrit, <strong>et</strong>c. <strong>Po</strong>ur aider les<br />
clients potentiels à s’y r<strong>et</strong>rouver, <strong>et</strong> à ne pas choisir une formule sous- ou surdimensionnée,<br />
les prestataires précisent souvent à titre indicatif à qui s’adresse telle ou telle formule.<br />
Tarification Radian 6 (pour l’Amérique <strong>du</strong> Nord) – janvier 2012<br />
Source : http://www.radian6.com/what-we-sell/radian6-pricing/
Tarification Ubervu – août 2011<br />
Source : http://www.ubervu.com/pricing<br />
OpenEdition Press<br />
<strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong> 17
Tarification Ubervu – janvier 2012<br />
OpenEdition Press<br />
<strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong> 18<br />
Source : https://www.ubervu.com/pricing. Le <strong>marché</strong> <strong>du</strong> social media monitoring évoluant très rapidement, les offres<br />
<strong>et</strong> tarifs évoluent également très vite.<br />
60 Le <strong>marché</strong> regroupant les offres en e-réputation, en social media monitoring, en veille, <strong>et</strong> en<br />
sentiment analysis est donc composé d’acteurs très différents, qui définissent leur métier de<br />
manières très diverses, en proposant des gammes de prix très éten<strong>du</strong>es <strong>et</strong> en s’adressant à<br />
des cibles très diverses elles aussi. Dans le cas des marques <strong>et</strong> grosses entreprises qui se<br />
soucient de leur image en ligne, les offres peuvent même être taillées sur mesure pour les<br />
différentes directions de ces sociétés. Certains prestataires <strong>et</strong> agences construisent leur discours<br />
commercial en expliquant que telle ou telle de leurs solutions sera particulièrement utile à la<br />
direction mark<strong>et</strong>ing <strong>et</strong> stratégique, ou bien à la direction de la communication, ou encore à<br />
la direction des études mark<strong>et</strong>ing, sans oublier la direction des achats, le service client ou la<br />
direction générale elle-même 42 .<br />
61 D’autres offres visent les TPE <strong>et</strong> les PME exclusivement.<br />
62 D’autres offres encore sont adressées à des secteurs particuliers comme les professionnels<br />
<strong>du</strong> tourisme ou les secteurs sensibles que sont par exemple le secteur pharmaceutique ou celui<br />
de l’énergie.<br />
Les fonctionnalités proposées<br />
63 <strong>Po</strong>ur comprendre les offres disponibles, il faut donc les décrypter, entrer dans le détail<br />
des fonctionnalités proposées, voire les tester quand cela est possible, des versions de<br />
démonstration étant souvent disponibles en ligne. Dans certains cas comme les services<br />
gratuits en ligne, le test peut être immédiat (voir plus bas les outils dédiés au sentiment analysis<br />
sur Twitter).<br />
64 <strong>Po</strong>ur les autres, il faut donc s’attarder sur les présentations vidéo, documents <strong>et</strong> indications<br />
disponibles sur les sites web <strong>et</strong>, le cas échéant, demander un test gratuit. De manière générale,<br />
les offres packagées payantes <strong>et</strong> s’adressant aux marques <strong>et</strong> grandes entreprises – qu’il s’agisse<br />
de logiciels ou de plateformes clé en main – comprennent :<br />
• le sourcing (sur le web, le « web profond », les sites d’actualités, ou sur des bases de<br />
données fermées comme les bases de brev<strong>et</strong>s) ;<br />
• la collecte (automatisée) des entités mises sous surveillance ;
OpenEdition Press<br />
<strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong> 19<br />
• l’archivage des données ;<br />
• leur traitement ;<br />
• l’analyse des données ;<br />
• la livraison des résultats sous des formats différents (tableau de bord partageable,<br />
newsl<strong>et</strong>ters, reporting, <strong>et</strong>c.).<br />
65 De gros moyens financiers sont nécessaires pour les investissements de développement, de<br />
stockage <strong>et</strong> de maintenance. Certains prestataires proposent même des offres particulières à des<br />
secteurs à partir de bases de données spécialisées par domaine, d’outils dédiés (dictionnaires<br />
métiers, <strong>et</strong>c.). Seuls certains d’entre eux sont capables de fournir un tel service en raison<br />
<strong>du</strong> temps de travail très important nécessaire pour constituer ces bases ou ces dictionnaires<br />
spécialisés.<br />
66 Entrons plus avant dans le détail des fonctionnalités de ces offres packagées.<br />
67 On peut débuter un sourcing de plusieurs manières (voir le chapitre 3, « Le sourcing »). Celuici<br />
peut faire suite à une analyse de la demande faite directement via un échange avec le client.<br />
Il peut également être réalisé via un formulaire à remplir pour définir le besoin. Un corpus-test<br />
peut être mis en place pour tester sa pertinence. La rédaction d’une liste de mots clés à m<strong>et</strong>tre<br />
a priori sous surveillance, <strong>et</strong> qui sera complétée au fur <strong>et</strong> à mesure, est également un moyen<br />
assez répan<strong>du</strong> de débuter un sourcing. Quoi qu’il en soit, une fois la demande circonscrite, il<br />
faut identifier les sources. Là encore, plusieurs méthodes peuvent être proposées. Les sources<br />
peuvent être identifiées via des moteurs, méta-moteurs, annuaires <strong>et</strong> portails. Très souvent,<br />
les principaux réseaux sociaux <strong>et</strong> sites <strong>du</strong> web social (bookmarking, micro-blogging, <strong>et</strong>c.)<br />
font d’emblée partie des sources mises sous surveillance, parfois au détriment de sources <strong>du</strong><br />
web « <strong>1.</strong>0 » pourtant tout aussi pertinentes. La programmation d’alertes en cas d’apparition<br />
de nouvelles sources sur un thème donné est une fonctionnalité parfois proposée. Et il est en<br />
général toujours possible de déclarer des mots clés supplémentaires à surveiller. Un travail<br />
d’élimination <strong>du</strong> bruit (désambiguïsation) <strong>et</strong> d’élimination <strong>du</strong> silence (synonymes, fautes<br />
d’orthographe courantes) peut venir compléter de manière plus ou moins efficace le sourcing,<br />
en fonction des moyens alloués à c<strong>et</strong>te tâche par le prestataire. Enfin, une fois le périmètre <strong>du</strong><br />
sourcing défini, tout un travail de qualification (avec parfois attribution d’un indice de fiabilité<br />
ou de pertinence des sources), de catégorisation, voire de cartographie des sources, est mis<br />
en œuvre.<br />
68 La collecte (voir le chapitre 4, « Constituer <strong>et</strong> traiter les corpus de travail avant l’analyse<br />
de tonalité »), en raison de la masse de données à crawler (moissonner), est une opération<br />
automatisée qu’il faut néanmoins paramétrer. Quels types de paramètres peuvent donc être<br />
pris en compte ?<br />
• Le choix <strong>du</strong> ou des bouqu<strong>et</strong>s de sources à crawler dans le cas où de tels bouqu<strong>et</strong>s ont été<br />
définis. Le client peut par exemple demander une mise sous surveillance de sites qu’il<br />
a l’habitude de consulter.<br />
• Le choix <strong>du</strong> type de sources à crawler : réseaux sociaux, blogs, sites de presse, <strong>et</strong>c.<br />
• La granularité <strong>et</strong> la régularité <strong>du</strong> crawl (qui peut aller jusqu’à une collecte en quasitemps<br />
réel).<br />
• Des requêtes peuvent également être construites à partir de mots-clés ou de groupes de<br />
mots-clés à surveiller.<br />
69 L’archivage <strong>et</strong> le traitement des données récupérées via le crawl (voir les chapitres 4, <strong>et</strong> 5,<br />
« Détecter les tonalités ») sont souvent des opérations sur lesquelles le client n’a pas la main.<br />
<strong>Po</strong>ur le prestataire, il s’agit essentiellement de construire des bases de données d’archivage<br />
où classer des documents n<strong>et</strong>toyés (suppression des bandeaux publicitaires, reformatage, <strong>et</strong>c.)<br />
<strong>et</strong> étiqu<strong>et</strong>és, afin de pouvoir les r<strong>et</strong>rouver facilement dans la base en fonction de catégories.<br />
La catégorisation peut se faire automatiquement, ou au moins semi-automatiquement – une<br />
rectification manuelle pouvant être nécessaire car les techniques de classement automatisées<br />
ne sont pas infaillibles.<br />
70 Concernant l’analyse des données, de nombreuses features sont proposées aux clients. En voici<br />
quelques exemples :
OpenEdition Press<br />
<strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong> 20<br />
• volumétrie : nombre d’occurrences d’un mot-clé, nombre de citations sur les réseaux<br />
sociaux <strong>et</strong> les blogs, nombre d’« amis » sur les réseaux sociaux, nombre de « Like »<br />
Facebook, <strong>et</strong>c. ;<br />
• mots fréquents (i.e. les plus souvent associés à un mot-clé ou à une thématique) ;<br />
• analyse de la tonalité (sentiment analysis) ;<br />
• suivi dans le temps de la volumétrie, des mots fréquents, de l’analyse de la tonalité ;<br />
• distribution des résultats en fonction des différents types de sources, pour chacune des<br />
sources, en fonction de leurs catégories thématiques, en fonction de la langue ;<br />
• évolution comparée des résultats suivant le type de sources, suivant la requête, suivant<br />
la catégorie thématique des sources,<br />
• entités nommées <strong>et</strong> expressions significatives associées ;<br />
• co-occurrences de termes (clusterisation) ;<br />
• mise en évidence de corrélations.<br />
71 La livraison des résultats peut s’effectuer de différentes manières. L’analyse des données en<br />
provenance des médias sociaux est souvent ren<strong>du</strong>e accessible via des tableaux de bord en ligne.<br />
Le client peut même souvent accéder directement aux verbatims par un simple clic, répondre<br />
en quasi-temps réel à des commentaires de clients, <strong>et</strong>c. C<strong>et</strong>te dernière feature est devenue<br />
très en vogue avec l’impératif de l’« engagement dans la conversation » avec les internautes<br />
prôné par plusieurs prestataires <strong>et</strong> gourous <strong>du</strong> e-mark<strong>et</strong>ing. Plus traditionnels, des rapports de<br />
veille personnalisés <strong>et</strong> rédigés par des experts, souvent spécialisés par secteur, ainsi que des<br />
newsl<strong>et</strong>ters <strong>et</strong> alertes, font partie des options de diffusion des résultats.<br />
72 <strong>Po</strong>ur chacune de ces fonctionnalités, l’utilisateur peut avoir plus ou moins la main sur<br />
le logiciel/la plate-forme <strong>et</strong> son paramétrage. Il peut, selon les cas, affiner ses requêtes,<br />
ajouter une source à m<strong>et</strong>tre sous surveillance, <strong>et</strong>c. Concernant la feature particulière que<br />
représente le sentiment analysis, la plupart des prestataires se targuent de fournir des services<br />
de recueil <strong>et</strong> d’analyse automatiques des opinions sur le web. Mais la grande majorité des<br />
solutions proposées se limitent en fait, en termes de sentiment analysis, à un classement qui<br />
répartit les opinions en trois grandes catégories : positif, négatif <strong>et</strong> neutre. C<strong>et</strong>te dernière<br />
catégorie tend à regrouper tous les verbatims dont la polarité est soit effectivement neutre,<br />
soit, <strong>et</strong> surtout, trop difficile à classer (alors que ce sont deux choses très différentes 43 !).<br />
Ces difficultés tiennent largement au fait que la polarité est encore trop souvent jugée à<br />
l’aune de listes de termes identifiés a priori comme laudatifs ou péjoratifs, liste composée à<br />
partir de dictionnaires internationaux (General Inquirer, SentiWordN<strong>et</strong>). Nous y reviendrons<br />
plus tard, mais rappelons pour l’instant que la polarité d’une opinion est une affaire plus<br />
complexe que la simple identification de la polarité d’un terme présent dans une expression.<br />
Le contexte d’énonciation, l’origine <strong>du</strong> locuteur ou encore l’inscription dans un dispositif<br />
communicationnel particulier sont autant de critères d’évaluation de l’opinion qui doivent être<br />
pris en compte. Si la plupart des prestataires disent fournir des solutions automatisées, il reste<br />
que la grande majorité des prestations pointues d’analyse <strong>du</strong> sentiment restent supervisées par<br />
des cellules d’experts (justement en raison des difficultés citées plus haut qui réclament une<br />
expertise humaine). Le « tout automatique » constitue plus un argument mark<strong>et</strong>ing qu’une<br />
réalité <strong>et</strong> l’on peut parler à plus juste titre « d’analyse <strong>du</strong> sentiment assistée par ordinateur »,<br />
comme on le fait pour la tra<strong>du</strong>ction lorsqu’on adm<strong>et</strong> les limites de la supposée tra<strong>du</strong>ction<br />
automatique.<br />
Notes<br />
1 W. Stern, 1902, « Zur Psychologie der Aussage. Experimentelle Untersuchungen über<br />
Erinnerungstreue », Zeitschrift für die gesamte Strafrechtswissenschaft, vol. XXII.<br />
2 G.-W. Allport <strong>et</strong> L. J. <strong>Po</strong>stman, 1945, « The Basic Psychology of Rumor », in Transactions of the New<br />
York Academy of <strong>Sciences</strong>, série II, vol. 8.<br />
3 E. Morin, La Rumeur d’Orléans, Seuil, 1969.<br />
4 J.-N. Kapferer, Rumeur, le plus vieux média <strong>du</strong> monde, Seuil, 1987.<br />
5 D. Boullier, 2010, La Ville-événement. Foules <strong>et</strong> publics urbains, Paris, PUF.
OpenEdition Press<br />
<strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong> 21<br />
6 B. Latour, 1993, « Le “topofil” de Boa Vista ou la référence scientifique », La clef de Berlin <strong>et</strong> autres<br />
leçons d’un amateur de science, Paris, La Découverte.<br />
7 H. Garfinkel, 1967, Studies in Ethnom<strong>et</strong>hodology, Englewood Cliffs, Prentice Hall.<br />
8 Cf. M. H. Goldhaber, 1992, « The Attention Soci<strong>et</strong>y », Release <strong>1.</strong>0, n° 3, p. 1-20 <strong>et</strong> D. Boullier, 2009,<br />
« Les in<strong>du</strong>stries de l’attention : fidélisation, alerte ou immersion », Réseaux, n o 154, p. 231-246.<br />
9 G. A. Akerlof, 1970, « The Mark<strong>et</strong> for “Lemons”: Quality Uncertainty and the Mark<strong>et</strong> Mechanism »,<br />
The Quarterly Journal of Economics, MIT Press, vol. 84, n° 3, p. 488-500, [en ligne]<br />
[URL : http://www.jstor.org/stable/1879431].<br />
10 E. L. Eisenstein, 1991, La Révolution de l’imprimé dans l’Europe des premiers temps modernes, Paris,<br />
La Découverte.<br />
11 Voir c<strong>et</strong>te étude récente menée à Cornell University : M. Ott <strong>et</strong> al., 2011, « Finding Deceptive<br />
Opinion Spam by any Str<strong>et</strong>ch of the Imagination », Proceedings of the 49 th Annual Me<strong>et</strong>ing of the<br />
Association for Computational Linguistics, <strong>Po</strong>rtland, Oregon, 19-24 juin 2011, [en ligne] [URL : http://<br />
www.cs.cornell.e<strong>du</strong>/~myleott/op_spamACL201<strong>1.</strong>pdf].<br />
12 <strong>Po</strong>ur une bonne illustration de ce point, lire l’article « Fake Twitter accounts used to promote tar<br />
sands pipeline », [en ligne] [URL : http://www.guardian.co.uk/environment/2011/aug/05/fake-twittertar-sands-pipeline].<br />
13 http://proxem.wordpress.com/2011/10/07/la-soci<strong>et</strong>e-generale-obj<strong>et</strong>-d%e2%80%99unemanipulation-sur-twitter/<br />
14 B. Pang, L. Lee, 2008, « Opinion Mining and Sentiment Analysis », Foundations and Trends in<br />
Information R<strong>et</strong>rieval, vol. 2, n o 1-2, p. 1-135, [en ligne] [URL : http://www.cs.cornell.e<strong>du</strong>/home/llee/<br />
omsa/omsa-published.pdf]. DOI : 10.1561/150000000<strong>1.</strong><br />
15 D. Boullier, 1984, « Autres outils, autres communications. À propos de Telem - Nantes », Télématique<br />
- Promenade dans les usages, M. Marchand <strong>et</strong> C. Ancelin éd., Paris, La Documentation Française,<br />
p. 71-93.<br />
16 Michel de Certeau, Luce Giard, 1983, « L’ordinaire de la communication », Réseaux,<br />
vol. 1, n o 3, p. 3-26, [en ligne] [URL : http://www.persee.fr/web/revues/home/prescript/article/<br />
reso_0751-7971_1983_num_1_3_1092].<br />
17 Cf. le communiqué de presse de Médiamétrie/N<strong>et</strong>Ratings, L’Audience de l’Intern<strong>et</strong> en France, juin<br />
201<strong>1.</strong><br />
18 http://www.fevad.com/espace-presse/7eme-barom<strong>et</strong>re-sur-les-comportements-d-achats-desinternautes<br />
19 S. Huang <strong>et</strong> al., 2010, « Promote Pro<strong>du</strong>ct Reviews of High Quality on E-commerce Sites », Pacific<br />
Asia Journal of the Association for Information Systems, vol. 2, n° 3, art. 5, [en ligne] [http://<br />
aisel.aisn<strong>et</strong>.org/pajais/vol2/iss3/5].<br />
20 <strong>Po</strong>ur une illustration de la « Voix <strong>du</strong> Client chez<br />
Auchan », cf. http://proxem.wordpress.com/2012/01/11/interview-de-jerome-desreumaux-directeur-dela-relation-clients-auchan/<br />
21 G. Mishne., N. Glance., 2006, « Predicting Movie Sales from Blogger Sentiment », proceedings of<br />
AAAI-CAAW-06, the Spring Symposium on Computational Approaches to Analyzing Weblogs, [en ligne]<br />
[URL : http://www.aaai.org/Papers/Symposia/Spring/2006/SS-06-03/SS06-03-030.pdf].<br />
22 M. Généreux, T. <strong>Po</strong>ibeau, K. Moshe, 2011, « Sentiment Analysis Using Automatically Labelled<br />
Financial News Items », Affective Computing and Sentiment Analysis: M<strong>et</strong>aphor, Ontology, Affect<br />
and Terminology, K. Ahmad éd., chap. 9, p. 111–126, [en ligne] [URL : http://www.clul.ul.pt/files/<br />
michel_genereux/EMOTI.pdf].<br />
23 M. Généreux, « Système d’analyse de la polarité de dépêches financières », TALN 2011,<br />
Montpellier, 27 juin – 1 er juill<strong>et</strong> 2011, [en ligne] [URL : http://www.lirmm.fr/~lopez/RECITAL/DEMOS/<br />
DEMO_Genereux_UnivLisboa.pdf].<br />
24 H. Saggion, A. Funk, 2009, « Extracting Opinions and Facts for Business Intelligence », Revue des<br />
Nouvelles Technologies de l’Information (RNTI), n o E-17, p. 119-146, [en ligne] [URL : http://gate.ac.uk/<br />
sale/rnti-09/final-version/Saggion-Funks-OM-09.pdf].<br />
25 M. Thomas, B. Pang, L. Lee, 2006, « G<strong>et</strong> out the Vote: D<strong>et</strong>ermining Support or Opposition from<br />
Congressional Floor-Debate Transcripts », Proceedings of EMNLP 2006, p. 327–335, [en ligne] [URL :<br />
http://www.cs.cornell.e<strong>du</strong>/people/pabo/papers/emnlp06_convote.pdf].<br />
26 N. Kwon, S. W. Shulman., E. Hovy, 2006, « Multidimensional Text Analysis for eRulemaking »,<br />
Proceedings of the 2006 International Conference on Digital Government Research, p. 157-166, [en<br />
ligne] [URL : http://www.isi.e<strong>du</strong>/natural-language/people/hovy/papers/06dgo-eRule-textanalysis.pdf].<br />
DOI : 10.1145/1146598.1146649.
OpenEdition Press<br />
<strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong> 22<br />
27 K. Liu <strong>et</strong> al., 2008, « Incorporate Sentiment Analysis in Contextual Advertising », TROA2008-<br />
WWW2008, p. 1-8, [en ligne] [URL : http://research.yahoo.com/workshops/troa-2008/papers/<br />
submission_4.pdf].<br />
28 http://www.thebeaconservices.com/<br />
29 http://mem<strong>et</strong>racker.org/<br />
30 http://caddereputation.over-blog.com/article-26988418.html<br />
31 http://www.blueboat.fr/agences-e-reputation-france<br />
32 S. Maurel, P. Curtoni <strong>et</strong> L. Dini, « Classification d’opinions par méthodes symbolique, statistique<br />
<strong>et</strong> hybride », Actes de DEFT 2007, p. 111-117, [en ligne] [URL : http://www.celi-france.com/IMG/pdf/<br />
celi-france_deft07-2.pdf].<br />
33 http://deft.limsi.fr/<br />
34 http://www.limsi.fr/<br />
35 http://www.atala.org/-Conference-TALN-RECITAL-<br />
36 http://deft07.limsi.fr/<br />
37 http://deft09.limsi.fr/<br />
38 http://trec.nist.gov/<br />
39 I. Ounis <strong>et</strong> al., 2006, « Overview Of The Trec-2006 Blog Track », The Fifteenth Text REtrieval<br />
Conference (TREC 2006) Proceedings, p. 17-31, [en ligne] [URL : http://trec.nist.gov/pubs/trec15/<br />
papers/BLOG06.OVERVIEW.pdf].<br />
40 http://techcrunch.com/2010/05/06/lithium-technologies-picks-up-scout-labs-for-20-million/<br />
41 http://blog.backtype.com/2011/07/backtype-has-been-acquired-by-twitter/<br />
42 Voir par exemple la plaqu<strong>et</strong>te de présentation des Solutions de veille <strong>et</strong> d’analyse de l’information<br />
de LexisNexis Analytics : http://www.lexisnexis.fr/pdf/pdf_brochures/Plaqu<strong>et</strong>te_LN_Analytics-<br />
_11VM032.pdf.<br />
43 Ce qui revient au traitement analogue des refus de répondre, des « ne sait pas » dans les sondages.<br />
<strong>Po</strong>ur citer c<strong>et</strong> article<br />
Référence électronique<br />
Dominique Boullier <strong>et</strong> Audrey Lohard, « <strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong> », in Opinion mining<br />
<strong>et</strong> Sentiment analysis (« Collection « <strong>Sciences</strong> <strong>Po</strong> │ médialab » », n o 1) , 2012 [En ligne], mis en ligne<br />
le 19 mars 2012, consulté le 22 mars 2012. URL : http://press.openedition.org/204<br />
Droit d’auteur<br />
Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification<br />
3.0 France