28.06.2013 Views

Chapitre 1. Historique et état du marché - Sciences Po Spire

Chapitre 1. Historique et état du marché - Sciences Po Spire

Chapitre 1. Historique et état du marché - Sciences Po Spire

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

OpenEdition Press<br />

................................................................................................................................................................................................................................................................................................<br />

<strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong><br />

<strong>marché</strong><br />

................................................................................................................................................................................................................................................................................................<br />

Avertissement<br />

Le contenu de ce site relève de la législation française sur la propriété intellectuelle <strong>et</strong> est la propriété exclusive de<br />

l'éditeur.<br />

Les œuvres figurant sur ce site peuvent être consultées <strong>et</strong> repro<strong>du</strong>ites sur un support papier ou numérique sous<br />

réserve qu'elles soient strictement réservées à un usage soit personnel, soit scientifique ou pédagogique excluant<br />

toute exploitation commerciale. La repro<strong>du</strong>ction devra obligatoirement mentionner l'éditeur, le nom de la revue,<br />

l'auteur <strong>et</strong> la référence <strong>du</strong> document.<br />

Toute autre repro<strong>du</strong>ction est interdite sauf accord préalable de l'éditeur, en dehors des cas prévus par la législation<br />

en vigueur en France.<br />

Revues.org est un portail de revues en sciences humaines <strong>et</strong> sociales développé par le Cléo, Centre pour l'édition<br />

électronique ouverte (CNRS, EHESS, UP, UAPV).<br />

................................................................................................................................................................................................................................................................................................<br />

Référence électronique<br />

Dominique Boullier <strong>et</strong> Audrey Lohard, « <strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong> », in Opinion mining <strong>et</strong> ‎Sentiment<br />

analysis (« Collection « <strong>Sciences</strong> <strong>Po</strong> │ médialab » », n o 1) , 2012 [En ligne], mis en ligne le 19 mars 2012, consulté le<br />

22 mars 2012. URL : http://press.openedition.org/204<br />

Éditeur : Cléo/OpenEdition<br />

http://press.openedition.org<br />

http://www.revues.org<br />

Document accessible en ligne sur :<br />

http://press.openedition.org/204<br />

Document généré automatiquement le 22 mars 2012.<br />

Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification 3.0 France


<strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong><br />

OpenEdition Press<br />

<strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong> 2<br />

1 Depuis l’arrivée <strong>du</strong> web 2.0, l’intérêt va croissant pour connaître les opinions des internautes<br />

qui s’y expriment spontanément <strong>et</strong> en temps réel. C<strong>et</strong>te masse de données d’opinions est<br />

accessible avec des outils de fouille <strong>du</strong> web, avec une collection d’informations constamment<br />

renouvelée. Des sites se sont spécialisés dans le recueil de ces opinions dans certains domaines<br />

(critiques de cinéma par exemple) <strong>et</strong> les internautes ont pris l’habitude de consulter les avis <strong>et</strong><br />

notes déposés par les autres dès qu’ils doivent prendre une décision d’achat pour un pro<strong>du</strong>it<br />

technique, ou encore pour une réservation d’hôtel. Les avis, les opinons intéressent donc les<br />

internautes <strong>et</strong> ont suscité des applications <strong>et</strong> services multiples, ce qui provoque un cercle<br />

vertueux d’encouragement à donner son avis <strong>et</strong> même à se faire reconnaître comme donnant<br />

des avis pertinents <strong>et</strong> suivis par les autres. Mais ces données intéressent également des marques<br />

<strong>et</strong> des cabin<strong>et</strong>s d’études qui tentent de connaître ce « sentiment agrégé des foules ». Souvent<br />

sensibles au fantasme « votre réputation peut être détruite à cause d’un commentaire de blog »,<br />

les marques se soucient de leur identité en ligne mais cherchent également à mieux connaître<br />

les attentes <strong>et</strong> critiques que les internautes leur adressent. D’où le développement croissant<br />

des techniques pour capter ces évaluations des internautes, allant <strong>du</strong> simple dénombrement de<br />

commentaires positifs ou négatifs à l’analyse plus fine des contenus de ces commentaires.<br />

Ce que change le web 2.0<br />

2 Il n’a pas fallu attendre l’arrivée d’intern<strong>et</strong> <strong>et</strong> plus particulièrement celle <strong>du</strong> web 2.0 pour<br />

pratiquer l’analyse de sentiment. Ce que pensent <strong>et</strong> disent les gens est un suj<strong>et</strong> d’intérêt<br />

scientifique depuis au moins un siècle, politique depuis plus de cinquante ans <strong>et</strong>, depuis peu,<br />

un suj<strong>et</strong> d’intérêt commercial.<br />

3 Scientifique d’abord, puisque dès le début <strong>du</strong> XX e siècle, William Stern 1 , puis Gordon Allport<br />

<strong>et</strong> Leo <strong>Po</strong>stman 2 s’intéressent au phénomène de la rumeur <strong>et</strong> tentent de la définir <strong>et</strong> d’en<br />

établir les mécanismes fondamentaux. Via le « bouche à oreille », les messages peuvent être<br />

ré<strong>du</strong>its, simplifiés, transformés. Certains détails peuvent être valorisés au détriment d’autres<br />

en fonction de la sensibilité ou <strong>du</strong> contexte social de celui qui transm<strong>et</strong> le message. Quand<br />

ce dernier ne relève pas tout simplement d’une pure invention, mais s’impose en raison de<br />

l’ampleur que lui confère sa transmission à grande échelle (<strong>et</strong> l’on pense au phénomène<br />

actuel des hoax qui envahissent régulièrement le web) ! La rumeur devient un phénomène<br />

identifiable, analysable <strong>et</strong> mesurable. Après la psychologie sociale, la psychanalyse <strong>et</strong> la<br />

sociologie s’emparent de l’obj<strong>et</strong> « rumeur » 3 . On débat sur son caractère fondé (réelle<br />

information) ou non (simple projection de fantasme), <strong>et</strong> elle est entrée désormais dans le champ<br />

des études médiatiques <strong>et</strong> <strong>du</strong> management des marques 4 .<br />

4 Les sondages quant à eux se sont développés depuis la fin de la seconde guerre mondiale.<br />

Partant <strong>du</strong> principe qu’il existe une opinion publique, comme le disait Tarde des publics des<br />

journaux en distinguant c<strong>et</strong>te opinion de la foule, les sondages consistent à créer des méthodes<br />

<strong>et</strong> des indicateurs pour la mesurer <strong>et</strong> ce faisant pour la faire exister vraiment. La dimension<br />

performative des sondages a souvent été mentionnée, parfois pour critiquer leurs justifications<br />

mêmes, plus souvent pour proposer des règles de contrôle de leur méthodologie qui éviterait<br />

de mesurer un pur artefact provoqué par le dispositif. En eff<strong>et</strong>, les sondages obligent de fait les<br />

personnes interrogées à se poser des questions qu’elles n’ont peut-être jamais eu l’occasion de<br />

se poser ou à avoir une opinion sur un suj<strong>et</strong> qu’elles ignorent complètement (ce que Converse<br />

ou Bourdieu ont utilisé pour en faire la critique). D’autres ont pu critiquer leurs méthodes<br />

<strong>et</strong> notamment la prétention de représentativité, réalisée en France sous forme de quotas <strong>et</strong><br />

à l’étranger sous forme d’échantillons aléatoires, ce qui vaut là encore des critiques aux<br />

méthodes françaises, dépendantes <strong>du</strong> fait que l’INSEE ne traite pas de questions politiques<br />

ou religieuses, ce qui rend l’accès à des échantillons aléatoires sur la population complète<br />

impossibles. Mais par leur répétition, dès lors qu’ils utilisent les mêmes principes, on peut<br />

considérer que les sondages détectent quelque chose des « mouvements d’opinion » (mais ici<br />

ce sont bien les mouvements qui sont importants, avec maintien de la même méthode) <strong>et</strong> que


OpenEdition Press<br />

<strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong> 3<br />

dans le même temps ils ont fini par faire exister l’opinion comme entité supposée indépendante<br />

des méthodes pour y accéder.<br />

5 C’est pourquoi les études d’opinion mining reprennent les mêmes principes sans trop<br />

s’interroger sur le statut de c<strong>et</strong>te opinion, considérant que, à force de sondages, elle a fini par<br />

exister. Or, ce que vont mesurer les dispositifs d’opinion mining relève de conversations plus<br />

que d’opinions constituées par les méthodes qui leur donnent le statut d’opinion. C<strong>et</strong> écart<br />

est malgré tout sous-estimé délibérément dans les offres commerciales. Cependant, nombreux<br />

sont ceux qui parleront plutôt d’e-réputation, ce qui est sans doute plus correct, puisque c’est<br />

bien la notoriété médiatique que l’on mesurera sur les médias.<br />

6 Ces approches sont donc bien éloignées d’un souci de représentativité de la population,<br />

établie en fonction de critères sociodémographiques, tels que l’INSEE les définit. Les études<br />

d’opinion se prévalent toujours de leur capacité à corréler tous les attributs <strong>et</strong> opinions<br />

des personnes sondées à leurs propriétés socio-démographiques. Ce lien personnel perm<strong>et</strong><br />

ensuite des agrégats qui prétendront à la validité statistique par rapport à une population<br />

de référence. Cependant, il sera tenu compte des intervalles de confiance, selon la taille de<br />

l’échantillon rapportée à celle de la population, qui devraient relativiser les résultats mais qui<br />

sont très souvent oubliés dans les publications des médias, ce qui entraîne des confusions, des<br />

critiques <strong>et</strong> une controverse permanente. En réalité, bien d’autres opérations sont nécessaires<br />

pour maintenir c<strong>et</strong> « eff<strong>et</strong> de représentativité » face à tous les problèmes de constitution de<br />

l’échantillon ou de récupération/exploitation des données : mais tous les redressements qui<br />

font la cuisine ou l’art des sondeurs professionnels sont rarement explicités car la demande<br />

sociale/médiatique n’attend pas c<strong>et</strong>te garantie scientifique mais seulement son approximation.<br />

C’est la même posture qui justifiera les approximations innombrables de la plupart des offres<br />

en opinion mining <strong>et</strong> sentiment analysis.<br />

7 Avec l’émergence <strong>du</strong> mark<strong>et</strong>ing relationnel dans les années 1990, apparaissent les outils de<br />

CRM (Consumer Relationship Management ou en français GRC, Gestion de Relation Client).<br />

Le souci de pro<strong>du</strong>ire <strong>du</strong> reporting sur toutes les activités les plus fines de l’entreprise fait<br />

partie de l’évolution contemporaine des entreprises dominées par les impératifs de la finance,<br />

au point de pro<strong>du</strong>ire des reports trimestriels rarement fondés mais utiles pour l’orientation<br />

des <strong>marché</strong>s financiers. Les outils de e-réputation n’échappent pas à ce même impératif,<br />

notons-le en passant, <strong>et</strong> leur destinataire est avant tout l’actionnaire bien plus que les stratèges<br />

de l’entreprise eux-mêmes, puisqu’une réputation mise à mal sur le web peut se tra<strong>du</strong>ire<br />

en un instant par un décrochage boursier. Par ailleurs, la féroce compétition entre marques<br />

pour conserver des clients dont la solvabilité est de plus en plus problématique, con<strong>du</strong>it à<br />

privilégier des outils de suivi qui peuvent alerter sur tout changement de comportement, sur<br />

toute insatisfaction <strong>et</strong> qui peuvent servir de base de lancement à des propositions commerciales<br />

nouvelles, personnalisées <strong>et</strong> monétisant tout ce qui peut l’être dans c<strong>et</strong>te relation.<br />

8 Le suivi des consommateurs <strong>et</strong> l’exploitation des r<strong>et</strong>ours clients ont reposé sur le<br />

développement, depuis les années 2000, d’un appareillage de traçabilité <strong>et</strong> d’agrégation<br />

particulièrement sophistiqué, dont une bonne partie est désormais automatisée. De nombreuses<br />

données de consommation pour un client abonné ou fidélisé par une carte (dont il<br />

laisse l’exploitation des données à l’enseigne par exemple) peuvent être exploitées<br />

directement, puisqu’il s’agit de traces d’actes d’achat ou de commandes ou de demandes<br />

d’interventions, <strong>et</strong>c. Elles n’ont donc pas de rapports avec les données d’opinion. Cependant,<br />

les marques ont su désormais exploiter tous les outils de traçabilité des avis plus ou moins<br />

informels émis en direct sur leurs sites ou sur des sites de consommation. Dans ce dernier<br />

cas, les marques perdent souvent la connexion avec l’identité des clients <strong>et</strong> les croisements<br />

sont moins directs mais le travail de corrélation se fait au niveau d’agrégats géographiques, de<br />

segments de <strong>marché</strong>, <strong>et</strong>c. Par ailleurs, de nombreuses méthodes de mark<strong>et</strong>ing déjà anciennes<br />

sont toujours exploitées pour générer <strong>du</strong> r<strong>et</strong>our client ou au contraire des attentes de client (lors<br />

de phases d’innovations). Les entr<strong>et</strong>iens téléphoniques <strong>et</strong> les focus groups sont massivement<br />

utilisés pour faire exister ce client évanescent ou supposé, tout autant fantomatique que<br />

l’opinion que nous évoquions en intro<strong>du</strong>ction. Nous avons proposé de regrouper toutes ces<br />

méthodes sous le terme de dispositifs de pro<strong>du</strong>ction « d’êtres intermédiaires », c’est-à-dire


OpenEdition Press<br />

<strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong> 4<br />

de tenants lieux des utilisateurs/clients réels souvent difficiles à atteindre. Le statut virtuel<br />

de ces êtres intermédiaires ne les empêche pas d’avoir un rôle décisif dans la suite de la<br />

conception ou dans le traitement des r<strong>et</strong>ours clients 5 . Nous avions pris notamment l’exemple<br />

de la mère Denis utilisée comme « être totem » pour servir d’argument imparable lorsque<br />

l’on veut valider ou invalider un pro<strong>du</strong>it à destination d’un grand public non instruit. Toutes<br />

les typologies, sociostyles <strong>et</strong> autres tendances qui perm<strong>et</strong>tent de pro<strong>du</strong>ire des regroupements<br />

synthétiques de la description des comportements ne font pas autre chose que pro<strong>du</strong>ire ces<br />

êtres intermédiaires. Cela n’invalide en rien ces travaux, car, <strong>et</strong> il faut y insister, seraient-ils<br />

absents, qu’une marque trouverait toujours un moyen d’imaginer ses clients ou qu’un parti ne<br />

pourrait s’empêcher de se représenter ses électeurs. Ce souci d’information plus argumentée<br />

est avant tout stratégique <strong>et</strong> ne cherche donc pas de validation scientifique ultime. Cependant,<br />

il en empruntera les protocoles <strong>et</strong> les arguments, lorsque c’est nécessaire. Les chercheurs en<br />

sciences sociales doivent de leur côté s’imposer des contraintes plus importantes mais ils sont<br />

de fait dans la même situation. Comme le font les botanistes <strong>et</strong> les pédologues de la forêt<br />

amazonienne de Boa Vista dans c<strong>et</strong> article fameux de Bruno Latour 6 , les chercheurs en sciences<br />

sociales travaillent constamment à aligner des tra<strong>du</strong>ctions successives <strong>du</strong> monde, à s’assurer<br />

que les transformations qu’ils leur font subir sont acceptables (mais il s’agit pourtant de<br />

transformations) <strong>et</strong> de ce fait à manipuler aussi des êtres intermédiaires que sont des catégories,<br />

des typologies, voire des idéaux-types qui valent pour l’infinie diversité des indivi<strong>du</strong>s <strong>et</strong> des<br />

opinions recueillies.<br />

9 L’adoption massive des outils <strong>du</strong> web 2.0 par le public a renforcé l’intérêt pour le sentiment<br />

analysis, qui vise directement l’analyse de la tonalité, positive ou négative, des opinions<br />

recueillies. Les canaux d’expression spontanée des internautes se sont démultipliés (blogs,<br />

réseaux sociaux, systèmes de microblogging) <strong>et</strong> regorgent d’avis sur des pro<strong>du</strong>its, marques,<br />

personnalités, politiques publiques, <strong>et</strong>c. Il est même possible de considérer les conversations<br />

web (qui sont devenues en tant que telles un obj<strong>et</strong> d’analyse <strong>et</strong> de suivi notamment dans<br />

les relations avec les marques, voir « les marques en conversation ») comme une entreprise<br />

collective d’évaluation permanente de tout : articles de presse (à travers des commentaires),<br />

blogs anonymes (à travers des commentaires, des liens, des flux RSS, des twe<strong>et</strong>s pour les<br />

signaler), pages web pour des pro<strong>du</strong>its, des événements, des personnes (que l’on attache<br />

directement sur son mur Facebook), <strong>et</strong>c.<br />

Les propriétés discursives des données recueillies<br />

10 C<strong>et</strong>te prolifération n’est en rien ré<strong>du</strong>ite par les analyses d’opinion mining ou de sentiment<br />

analysis. Au contraire, on peut même dire que, commercialement, tout pousse actuellement<br />

à rester dans l’indifférenciation des matériaux linguistiques recueillis, quitte à trouver le<br />

moyen de les calculer différemment selon les plates-formes par exemple mais jamais selon<br />

leur statut énonciatif. <strong>Po</strong>urtant, le terme opinion puis celui de sentiment sont particulièrement<br />

polysémiques. Tentons de dissiper certaines ambiguïtés au contraire pour éviter les fausses<br />

promesses.<br />

11 Le matériau linguistique recueilli sur le web lors d’un crawl (moisonnage) à visée d’opinion<br />

mining qui sera analysé ensuite, relève de plusieurs types d’énoncés :<br />

• un jugement ;<br />

• une évaluation ;<br />

• une opinion ;<br />

• un avis ;<br />

• un sentiment ;<br />

• un goût ;<br />

• un récit d’expérience ;<br />

• un récit de pratique ;<br />

12 Tous ces types d’énoncés possèdent des statuts différents mais se r<strong>et</strong>rouvent mêlés dans toute<br />

collecte. C’est souvent le cas dans les enquêtes qualitatives classiques aussi, mais l’analyse<br />

peut par la suite faire la différence, alors que, pour tout questionnaire fermé, il est nécessaire<br />

de bien différencier le statut de ces énoncés par avance puisque de la clarté de c<strong>et</strong>te distinction


OpenEdition Press<br />

<strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong> 5<br />

dépendra la possibilité ou non d’un traitement quantitatif correct. Entre toutes ces expressions<br />

(<strong>et</strong> nous éliminons ici les questions d’intensité ou de registre de langues qui complexifient<br />

l’affaire), plusieurs dimensions sont en jeu. Les uns n’ont d’existence que verbalisés, d’autres<br />

peuvent garder un statut tacite ou non verbal tels le goût, l’expérience ou les pratiques. Dans<br />

tous les cas, nous avons affaire à ce que les <strong>et</strong>hnométhodologues appellent des « comptes<br />

ren<strong>du</strong>s », des « accounts » 7 . Ce qui veut dire qu’il ne s’agit en aucun cas de traces de<br />

consommations ou de pratiques effectives, enregistrées automatiquement par des capteurs de<br />

divers types, mais bien de comptes ren<strong>du</strong>s de ces pratiques, soumis de ce fait à toute la variété<br />

des modalisations, des connotations <strong>et</strong> des associations présentes dans tout discours.<br />

13 Nous reprendrons c<strong>et</strong>te discussion plus précisément dans le cadre de nos analyses pour les<br />

sciences humaines <strong>et</strong> sociales (voir le chapitre 6, « Sentiment analysis <strong>et</strong> SHS »), car elles<br />

ne sont guère considérées comme pertinentes pour l’instant dans les offres présentes sur le<br />

<strong>marché</strong>.<br />

14 Textuels ou iconographiques (emoticons, étoiles – système de vote sur Amazon , RT sur<br />

Twitter, <strong>et</strong>c.), les marqueurs de tonalité <strong>et</strong> les recommandations irriguent la toile <strong>et</strong> sont autant<br />

d’indices de nos ressentis que certaines agences ou laboratoires s’empressent de répertorier <strong>et</strong><br />

d’analyser. L’importance de ces saillances perceptives est très bien analysée par les sciences<br />

cognitives, à l’aide d’outils comme l’eye tracking qui perm<strong>et</strong> de suivre à la trace les points<br />

de fixation <strong>et</strong> leur <strong>du</strong>rée sur un écran. La constitution de certains de ces marqueurs en routines<br />

perceptives (comme les étoiles sur Amazon ou sur des sites d’évaluation de films) constitue<br />

un vocabulaire qui fait convention <strong>et</strong> qui a tout autant de poids sinon plus que les expressions<br />

les plus élaborées. En eff<strong>et</strong>, le temps extrêmement limité de la perception de ces saillances<br />

perm<strong>et</strong> d’effectuer une première sélection quitte à affiner les critères ensuite.<br />

15 Dans une économie de l’attention 8 , recommandations, avis <strong>et</strong> votes en tous genres sont des<br />

indices précieux d’évaluation de la popularité en ligne, souvent qualifiée de manière abusive<br />

<strong>et</strong> « fourre-tout » d’e-réputation. Mais ces classements de fait sont aussi des indices pour<br />

s’orienter dans une offre pléthorique. Mieux encore, les qualités des biens qui sont essentielles<br />

à la décision d’achat, ne sont pas accessibles sans en avoir fait l’expérience. Ces biens<br />

d’expérience 9 exigent <strong>du</strong> temps <strong>et</strong> un risque pour les évaluer par l’expérience elle-même. Si les<br />

critiques de cinéma font l’obj<strong>et</strong> d’une telle exploitation par les outils d’opinion mining, c’est<br />

qu’elles constituent une expérience par procuration pour un bien d’expérience de longue <strong>du</strong>rée<br />

(plus qu’une chanson qu’on peut écouter) au sein d’une offre abondante. Les avis exprimés<br />

aident ainsi à s’orienter dans le choix, comme le faisaient les critiques auparavant combinées<br />

aux conversations amicales : désormais, toutes ces sources sont disponibles <strong>et</strong> traçables sur<br />

le réseau.<br />

16 Plus important encore pour les marques (mais aussi pour les politiques ou les administrations),<br />

le suivi de ces traces de conversation sur le web perm<strong>et</strong> d’effectuer de la veille de façon<br />

n<strong>et</strong>tement plus réactive qu’auparavant. Certes, les données sont très hétérogènes <strong>et</strong> pas aussi<br />

fiables qu’un travail d’enquête mais le veilleur y gagne un changement d’échelle de sa<br />

surveillance, changement d’échelle dans l’espace, dans la capacité de traitement automatisée,<br />

<strong>et</strong> partant, dans les délais de réactivité. Car il ne s’agit pas de veille stratégique dans ce cas,<br />

qui doit aller chercher d’autres types de documents <strong>et</strong> de sources, mais bien de veille de<br />

réputation. Les incidences d’une vague d’opinions défavorables générées à partir d’un bruit,<br />

d’une rumeur, d’une information confidentielle postée publiquement, que ces informations<br />

ou rumeurs soient fondées ou non par ailleurs, sont telles sur la réputation <strong>et</strong> partant sur<br />

les cours des actions, que les marques ont l’obligation de surveiller, voire même de piloter<br />

leur réputation à partir des conversations web. Le domaine <strong>du</strong> social media monitoring s’est<br />

développé pour répondre à ces véritables angoisses parfois <strong>et</strong> doit être distingué <strong>du</strong> community<br />

management qui cherche, lui, à créer des liens effectifs avec des clients <strong>et</strong> à faire vivre une<br />

communauté attachée à la marque. Le social média monitoring adopte une focale beaucoup<br />

plus ouverte <strong>et</strong> propose des outils pour non seulement identifier ces marqueurs d’opinion en<br />

ligne, mais aussi intervenir directement pour gérer les eff<strong>et</strong>s de réputation qui s’ensuivent.


Ce que changent les techniques <strong>du</strong> datamining<br />

La collecte de données en masse<br />

OpenEdition Press<br />

<strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong> 6<br />

17 Ces données (qui sont des opinions, des avis, des commentaires) sont pro<strong>du</strong>ites en masse,<br />

alors que les contributions <strong>du</strong> public étaient jusqu’ici limitées au courrier des lecteurs ou aux<br />

sondages <strong>et</strong> enquêtes fort longs <strong>et</strong> coûteux. Dès lors, ce changement d’échelle est comme<br />

toujours une amplification 10 potentielle tout à la fois :<br />

• des tendances participatives de la démocratie ;<br />

• de la visibilité d’opinions jusqu’ici marginales ;<br />

• de la puissance d’influence sur les esprits de tous les médias relayés par le public luimême<br />

;<br />

• de la focalisation collective immédiate sur des thèmes qui sont répliqués à grande<br />

vitesse ;<br />

• de la réflexivité d’une société sur son propre climat, son humeur (mood), ce qui n’était<br />

pas encore arrivé ;<br />

• d’une possibilité de traiter statistiquement des informations subjectives même non<br />

catégorisées ou indexées ;<br />

• des outils de monitoring qui sont autant de tableaux de bord permanents de l’opinion ;<br />

• des comparaisons entre types de données, ém<strong>et</strong>teurs, propriétés des réseaux, des flux, <strong>et</strong>c.<br />

qui ouvrent des pistes infinies, d’autant plus qu’on ne sait pas vraiment ce qu’on pourrait<br />

y chercher !<br />

L’automatisation de la collecte des corpus puis <strong>du</strong> traitement…<br />

<strong>et</strong> de l’analyse ?<br />

18 La masse des données étant quasi infinie, une tendance à automatiser au maximum les<br />

procé<strong>du</strong>res de collecte, d’archivage, de constitution des bases de données, s’est manifestée qui<br />

ne fait que renforcer la fascination pour les masses de données disponibles. Puis le traitement<br />

linguistique lui-même a dû être automatisé, même si certaines approches sont encore très<br />

rustiques <strong>et</strong> approximatives. Mais la tendance serait aussi à rechercher l’automatisation de<br />

l’analyse elle-même, soit pour laisser la main à la société prestataire de service soit pour fournir<br />

des outils de pilotage direct par les clients qui demandent de l’opinion mining. Nous verrons<br />

cependant qu’il ne saurait en aucun cas être question de se passer d’une activité d’interpr<strong>état</strong>ion<br />

propre à des experts, spécialisés par domaines qui plus est.<br />

L’accessibilité via les API à des sources spécifiques<br />

19 La tendance aux développements de service reposant non plus sur les protocoles <strong>du</strong> Web mais<br />

sur des protocoles propriétaires est importante <strong>et</strong> la diffusion des « apps » pour les mobiles<br />

ne fait qu’encourager c<strong>et</strong>te tendance. On aurait pu craindre dès lors une ferm<strong>et</strong>ure de l’accès<br />

à ces données pour des robots indépendants de l’entreprise qui gère le service. Or, avec le<br />

principe des API (Application Programming Interfaces) <strong>et</strong> leur mise à disposition fréquente<br />

par les services en question, une partie des données (voire toutes pour Twitter, si on dispose<br />

de la puissance de calcul nécessaire) peut être réexploitée par des développeurs qui créent les<br />

applications qui utilisent les API <strong>et</strong> peuvent moissonner les données de ces services. Cela étant,<br />

rien ne perm<strong>et</strong> de garantir dans la <strong>du</strong>rée une telle politique <strong>et</strong>, pour Facebook par exemple,<br />

la partie la plus importante des données personnelles ou d’activité est réservée à l’usage de<br />

Facebook voire de ses partenaires dûment référencés <strong>et</strong> payeurs pour un tel accès. La donnée<br />

personnelle en général est devenue un « ass<strong>et</strong> » qui fait l’obj<strong>et</strong> de beaucoup de convoitises.<br />

Quelques limites des données recueillies sur le web 2.0<br />

à ne pas oublier<br />

20 Malgré toutes les promesses faites par les services à vocation commerciale, il est nécessaire<br />

de pointer certaines limites de ces prestations qui sont liées à la nature informelle des données<br />

recueillies <strong>et</strong> à leurs enjeux commerciaux ou stratégiques. Nous en présentons seulement deux<br />

ici pour l’instant car ce sont des prérequis, les limites proprement linguistiques seront traitées<br />

dans les parties plus techniques.


OpenEdition Press<br />

<strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong> 7<br />

Les opinions recueillies sont-elles sincères ?<br />

21 Nous avons évoqué rapidement l’intérêt stratégique de la veille informationnelle <strong>et</strong> l’enjeu<br />

représenté par le social media monitoring. Dès lors, il était fatal que les avis qui se propagent<br />

sur le n<strong>et</strong> fassent l’obj<strong>et</strong> de tentatives de manipulation en tous genres, comme l’est déjà le<br />

ranking de Google, avec l’apport des services de SEO, Search Engine Optimizers, pour faire<br />

monter un site dans les résultats sur une requête donnée (que Google s’échine à contrer <strong>et</strong> à<br />

désorienter lorsque leurs manœuvres sont grossières). Des sociétés sont désormais rémunérées<br />

pour rédiger des faux avis. Ce travail de pro<strong>du</strong>ction de faux avis fait l’obj<strong>et</strong> parfois d’une<br />

chasse par les internautes eux-mêmes qui savent p<strong>et</strong>it à p<strong>et</strong>it débusquer les trolls dans un débat<br />

ou encore les commentaires délibérément orientés par la marque, le vendeur <strong>du</strong> pro<strong>du</strong>it, le<br />

parti ou l’ém<strong>et</strong>teur <strong>du</strong> message d’origine. Des techniques d’ingénierie linguistique peuvent<br />

même prétendre désormais en débusquer la plupart dès lors que leurs formes d’expression sont<br />

un peu trop stéréotypées 11 . Les opinions émises sur le web ont donc à la fois le défaut d’être<br />

spontanées <strong>et</strong> de ne pas être spontanées, d’être instrumentalisées par les marques par exemple.<br />

Certains critiques déplorent le caractère trop spontané de ces réactions, beaucoup trop brutes<br />

<strong>et</strong> sans argumentation, mais il n’est pas rare que les mêmes critiques enchaînent aussitôt pour<br />

critiquer le caractère manipulatoire des opinions affichées, sous-entendant qu’elles n’ont rien<br />

d’authentiques. Argument quelque peu contradictoire car on peut alors y déceler une intention<br />

délibérée, une volonté d’influencer qui fera appel à tous les ressorts de l’argumentation que<br />

l’on requalifiera ou disqualifiera alors en propagande. Mais il est nécessaire d’être averti de<br />

ce caractère artificiel de certains eff<strong>et</strong>s d’opinion, puisque ces médias, comme les autres, sont<br />

l’obj<strong>et</strong> de stratégies délibérées pour exercer une influence 12 .<br />

Sait-on vraiment qui parle ?<br />

22 L’émergence des outils de publication de masse sur le web s’est accompagnée d’une<br />

disparition de l’auteur certifié <strong>et</strong> identifié comme tel <strong>et</strong> cela perturbe tous les repères. En eff<strong>et</strong>,<br />

il reste impossible de savoir vraiment qui se cache derrière le pseudonyme d’un commentaire,<br />

l’auteur d’un blog ou même un compte Facebook. Facebook a réussi cependant à instituer<br />

une convention de présentation de soi qui tend à rester très rattachée à son identité légale,<br />

celle fournie par l’<strong>état</strong>-civil. Mais il n’existe aucune garantie sur ce plan <strong>et</strong> nombreux sont<br />

les profils « fake », créés délibérément pour une opération particulière ou pour éviter d’être<br />

reconnu, sans parler des pages <strong>et</strong> des groupes qui peuvent être l’obj<strong>et</strong> d’échanges très actifs. Or,<br />

c<strong>et</strong>te absence de garantie sur l’identité des auteurs des opinions recueillies semblerait parfois<br />

invalider toute possibilité d’exploitation de leur contenu. Il faut en fait reconnaître ces limites<br />

même si elles vont à l’encontre des habitudes <strong>et</strong> des façons de faire des sociétés de sondage<br />

ou des sociologues traditionnels. Dans c<strong>et</strong>te tradition, les expressions recueillies sont aussitôt<br />

agrégées <strong>et</strong> corrélées à des propriétés sociales considérées a priori comme explicatives des<br />

comportements. On ne s’inquiète pas tant alors de l’authenticité des identités sur le web que<br />

de l’absence de propriétés sociales attachées, telles que l’âge, le genre, la CSP, le niveau de<br />

diplôme, la préférence partisane, <strong>et</strong>c. En eff<strong>et</strong>, ce sont ces agrégations d’opinions particulières,<br />

fondées sur ces attributs, qui sont intéressantes pour les sondages de façon à expliquer des<br />

régularités de comportements. Sur ce plan, il est vrai qu’il faut abandonner tout espoir de<br />

récupérer ce type d’informations à propos de la masse d’opinions qui circulent sur le web,<br />

quand bien même on parviendrait à identifier certaines de ces expressions en suivant à la trace<br />

des pseudonymes pour les « démasquer » ou en les reliant à des profils Facebook supposés<br />

authentiques (c’est-à-dire correspondant à la fiction administrative qu’est l’identité) ou encore<br />

en normalisant les accès aux forums par des identifiants certifiés. C’est en fait un autre statut<br />

de l’expression qui circule qu’il faut prendre en compte, beaucoup plus situé « en surface »<br />

<strong>et</strong> sans espoir d’explications par des « causes sociales » fondées sur des agrégats d’attributs.<br />

Les « conversations », elles, peuvent être suivies à la trace, mais avec certaines limites : tout<br />

se passe comme si on les écoutait de l’autre côté de la porte, à travers un filtre <strong>et</strong> un masque,<br />

tout en étant capable de très bien entendre les propos tenus <strong>et</strong> de les exploiter numériquement<br />

mais sans jamais voir les interlocuteurs. Car le grand avantage de c<strong>et</strong>te absence de référence<br />

à certaines propriétés sociales des indivi<strong>du</strong>s qui s’expriment, tient à l’absence de ré<strong>du</strong>ction


OpenEdition Press<br />

<strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong> 8<br />

des propos a priori par l’observateur (les fameuses grilles d’entr<strong>et</strong>ien) <strong>et</strong> à la possibilité,<br />

une fois ces données agrégées <strong>et</strong> calculées de revenir si nécessaire <strong>et</strong> cela sans effort, au<br />

verbatim lui-même. Chose qui devenait impossible avec les questionnaires ou même avec<br />

les entr<strong>et</strong>iens qualitatifs qui restaient dans les limbes de l’enquête, dans l’arrière-cuisine que<br />

personne ne devait aller observer s’il n’avait les titres requis (<strong>et</strong> même avec !). Sur le web 2.0,<br />

toutes ces expressions peuvent certes être calculées <strong>et</strong> agrégées à partir de leur expression<br />

brute <strong>et</strong> spontanée, mais en plus il est possible d’y r<strong>et</strong>ourner à tout moment, pour vérifier<br />

les expressions exactes. C<strong>et</strong> eff<strong>et</strong> de transparence de la méthode peut parfois constituer un<br />

artifice <strong>et</strong> prétendre à l’évidence. Mais il correspond aux exigences des clients, des lecteurs, qui<br />

sont désormais souvent aussi instruits que les experts qui livraient les interpr<strong>état</strong>ions fermées<br />

comme autant d’oracles à prendre au pied de la l<strong>et</strong>tre. Rien ne pourra cependant garantir que<br />

les faux avis, désormais automatisables, ne deviennent aussi une ressource pour les stratèges<br />

de l’opinion sur intern<strong>et</strong> 13 .<br />

Les domaines d’application<br />

23 Comme le rappellent Pang <strong>et</strong> Lee dans « Opinion Mining and Sentiment Analysis » 14 , « ce que<br />

les autres pensent » est régulièrement convoqué dans tout processus décisionnel, que ce soit en<br />

vue de l’achat d’un bien, dans le contexte d’une élection, ou encore pour évaluer la réputation<br />

de son entreprise. Et ce phénomène n’est pas né avec le web.<br />

Les avis ordinaires ont une influence<br />

24 Il est en eff<strong>et</strong> aisé d’observer comment les réseaux relationnels jouent un rôle tout aussi<br />

important que les avis d’experts <strong>du</strong> domaine. Les autorités avaient certes plus de poids<br />

médiatique jusqu’ici <strong>et</strong> finissaient par être considérées comme les seules sources fiables.<br />

Mais avec le web 2.0 en particulier, le « bruit » des non-experts menace clairement leur<br />

monopole médiatique. Cependant, bien avant, l’orientation <strong>et</strong> les choix se faisaient aussi par<br />

des canaux d’influence qui jouaient plutôt sur la proximité sociale <strong>et</strong> culturelle. Ainsi, pour un<br />

avis médical, je peux tenter d’obtenir le diagnostic <strong>du</strong> meilleur médecin <strong>du</strong> domaine dans ma<br />

ville, dans mon pays voire au-delà, pour avoir des garanties. Mais dans le même temps, l’avis<br />

de ma belle-sœur qui a eu le même problème que moi ou celui de mon copain d’enfance qui<br />

a fait des études d’infirmier peuvent m’être tout aussi précieux, car ils vont avoir l’immense<br />

avantage de me parler dans ma langue, de prendre en compte ma situation <strong>et</strong> mon expérience<br />

car ils la partagent. Dans un ouvrage qui date de la préhistoire <strong>du</strong> numérique 15 , nous avions<br />

proposé c<strong>et</strong>te distinction entre frapper à la porte exacte (le scientifique, l’expert, l’autorité <strong>du</strong><br />

domaine) <strong>et</strong> frapper à la bonne porte (le bon tuyau, le coup de main, le bouche à oreille). L’un<br />

n’exclut pas l’autre. Michel de Certeau <strong>et</strong> Luce Giard en avaient déjà fait une description dans<br />

L’Ordinaire de la communication 16 . Mais avec le web, ces avis ordinaires sont disponibles<br />

en abondance, sur des sites médicaux comme Doctissimo, <strong>et</strong> grâce à c<strong>et</strong>te prolifération des<br />

avis, l’un d’entre eux finit par parler dans notre langue de situations voisines <strong>et</strong> peut dès<br />

lors prendre une grande valeur. Ces avis peuvent donc constituer une ressource personnelle<br />

importante <strong>et</strong> c’est pour c<strong>et</strong>te raison qu’ils attirent le public en masse (selon Médiamétrie/<br />

N<strong>et</strong>Ratings, le site Doctissimo faisait partie en juin 2011 <strong>du</strong> top 30 des sites les plus visités<br />

en France, avec 7 944 000 visiteurs uniques par mois <strong>et</strong> 564 000 visiteurs uniques par jour 17 .)<br />

Leur agrégation dans des moyennes ou des classements peut atténuer leur portée de proximité<br />

culturelle mais pour une première approche, ces avis, même agrégés, peuvent donner une<br />

orientation sommaire. Et ce processus est opératoire non plus seulement pour les indivi<strong>du</strong>s<br />

lambda mais aussi pour les marques, pour les politiques, qui veulent avoir accès à ces avis<br />

ordinaires, qui reconstituent l’équivalent d’un réseau d’influence personnel.<br />

Les entreprises<br />

25 Car à côté de la consultation des avis en ligne pour un usage personnel dans la vie courante,<br />

la collecte <strong>et</strong> l’analyse des opinions des indivi<strong>du</strong>s sont devenues des sources d’informations<br />

précieuses pour les entreprises. Alors que le recueil des opinions des consommateurs a eu<br />

pendant longtemps un caractère fastidieux, sans garantir que les avis recueillis soient spontanés


OpenEdition Press<br />

<strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong> 9<br />

(organisation de focus groups, recours à des consultants, enquêtes <strong>et</strong> questionnaires, <strong>et</strong>c.),<br />

l’accessibilité de ces informations, dès lors qu’elles se r<strong>et</strong>rouvent postées en ligne par les<br />

consommateurs eux-mêmes, autorise des analyses à grande échelle (opinions en provenance<br />

<strong>du</strong> monde entier).<br />

26 Le mark<strong>et</strong>ing a rapidement compris l’intérêt <strong>du</strong> sentiment analysis. Des agences vendent aux<br />

entreprises la traque des moindres mots sur leur image, sur leurs pro<strong>du</strong>its.<br />

27 Dans le domaine <strong>du</strong> pro<strong>du</strong>ct review mining : notamment à partir des sites d’avis de<br />

consommateurs. Les consommateurs viennent y échanger des avis <strong>et</strong> trouver des conseils pour<br />

leurs décisions d’achat (pro<strong>du</strong>its technologiques, voitures, voyage <strong>et</strong> hôtels, <strong>et</strong>c.). Selon le 7 e<br />

baromètre sur les comportements d’achat des internautes de Médiamétrie <strong>et</strong> de la FEVAD 18 .<br />

« Ce sont désormais près de 9 internautes sur 10 (86 %) qui déclarent avoir consulté<br />

un site intern<strong>et</strong> avant d’ach<strong>et</strong>er un pro<strong>du</strong>it, qu’ils aient finalement effectué c<strong>et</strong> achat<br />

sur intern<strong>et</strong> ou bien en magasin. […] Les deux tiers d’entre eux consultent les<br />

portails <strong>et</strong> moteurs de recherche ou les sites marchands pour consulter les fiches<br />

pro<strong>du</strong>its. 6 sur 10 arpentent les sites marchands pour lire les avis des internautes.<br />

Et enfin près de la moitié d’entre eux (49 %) recherche de l’information sur les<br />

comparateurs de prix ».<br />

28 Le sentiment analysis perm<strong>et</strong> non seulement de catégoriser les avis au suj<strong>et</strong> d’un pro<strong>du</strong>it (cf. le<br />

système de review classification, comme dans le cas des critiques de cinéma), d’en proposer<br />

des résumés, mais aussi de détailler à un niveau fin ces avis (quelle dimension <strong>du</strong> pro<strong>du</strong>it<br />

est appréciée, quelle autre dimension ne l’est pas – on parle alors de « features »). Il peut<br />

également aider à lutter contre le spam en contribuant à détecter les faux avis postés par des<br />

agences (cf. note 11). Le site d’enchères en ligne eBay utilise également des outils de sentiment<br />

analysis pour repérer les meilleures critiques <strong>et</strong> les rendre accessibles plus facilement parmi<br />

toutes les revues de pro<strong>du</strong>its (<strong>et</strong> les spams commerciaux) que présente le site. L’équipe des<br />

eBay Research Labs a en eff<strong>et</strong> défini des indicateurs de qualité d’un avis sur un pro<strong>du</strong>it parmi<br />

lesquels la réputation de l’auteur de l’avis au sein de la communauté des utilisateurs d’eBay,<br />

son « seller degree » qui reflète le cas échéant quel type de vendeur ou d’ach<strong>et</strong>eur il est, <strong>et</strong><br />

enfin un « expertise degree » qui reflète la connaissance que l’auteur peut avoir sur un type<br />

de pro<strong>du</strong>its 19 .<br />

29 Dans le domaine <strong>du</strong> e-commerce <strong>et</strong> <strong>du</strong> CRM (ou GRC en français) : acquérir des<br />

connaissances sur ses consommateurs ou anticiper leurs attentes est possible à partir de la<br />

collecte des avis de consommateurs sur un pro<strong>du</strong>it, un service, une marque. Le contrôle<br />

qualité des pro<strong>du</strong>its peut s’en servir comme d’une veille. Il est aussi possible d’améliorer la<br />

relation client/fournisseur en récupérant les critiques ou avis favorables. Les évolutions à venir<br />

des <strong>marché</strong>s de consommation courante peuvent être anticipées par des signes précurseurs<br />

dans les tonalités des conversations dès lors qu’on dispose d’un étalon en temps normal<br />

ou favorable pour percevoir ces changements rapides 20 . Une autre application <strong>du</strong> sentiment<br />

analysis proposée par eBay perm<strong>et</strong> de rechercher la présence de mots-clés sur Twitter pour<br />

détecter les pannes <strong>du</strong> service signalées par les utilisateurs, avant même que l’alerte ne soit<br />

donnée par le système d’enchères lui-même.<br />

30 Mais le sentiment analysis a également trouvé d’autres applications.<br />

31 Dans le domaine financier (prédiction de tendances de <strong>marché</strong> par exemple). Ainsi dans<br />

leur article « Predicting Movie Sales from Blogger Sentiment » 21 , Gilad Mishne <strong>et</strong> Natalie<br />

Glance utilisent des techniques de sentiment analysis pour améliorer la prédiction <strong>du</strong> succès<br />

commercial d’un film à partir des blogs. Ils montrent que le constat selon lequel le volume<br />

de citations d’un pro<strong>du</strong>it dans les blogs est corrélé avec la réussite financière <strong>du</strong> pro<strong>du</strong>it,<br />

peut être amélioré, au moins dans le domaine <strong>du</strong> cinéma, en analysant le sentiment positif<br />

exprimé dans les blogs au suj<strong>et</strong> d’un film, avant sa sortie en salle, <strong>et</strong> en le comparant avec<br />

son score au box office. L’utilisation des techniques de sentiment analysis contribuerait ainsi à<br />

construire de meilleures prédictions que la mesure <strong>du</strong> simple buzz, surtout si elle était associée<br />

à d’autres types de données comme le genre <strong>du</strong> film <strong>et</strong> le moment de sa sortie. Une autre<br />

utilisation <strong>du</strong> sentiment analysis dans le domaine financier est la classification des dépêches


OpenEdition Press<br />

<strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong> 10<br />

financières afin d’observer l’impact éventuel de ces dernières sur le prix des actions cotées<br />

en Bourse. C’est ce type d’application que présentent Michel Généreux, Thierry <strong>Po</strong>ibeau <strong>et</strong><br />

Moshe Kopple dans leur article « Sentiment analysis using automatically labelled financial<br />

news items » 22 en faisant l’hypothèse que « la réaction <strong>du</strong> <strong>marché</strong> suite à la publication d’une<br />

dépêche reliée à une action particulière est un bon indicateur de la polarité de la nouvelle <strong>et</strong><br />

qu’un algorithme d’apprentissage à partir de ces dépêches perm<strong>et</strong> de construire un système<br />

qui donne à l’investisseur une source d’information supplémentaire qui peut être exploitée de<br />

façon avantageuse dans une stratégie d’investissement » 23 .<br />

32 Dans le domaine de la veille. Les techniques de sentiment analysis, parce qu’elles perm<strong>et</strong>tent<br />

de classer de grandes quantités de textes, rapports, conversations informelles sur des pro<strong>du</strong>its<br />

ou des dirigeants d’entreprises, <strong>et</strong>c., peuvent être utilisées dans le domaine de la veille, qu’elle<br />

soit économique, technologique, stratégique ou institutionnelle. Ainsi espère-t-on par exemple<br />

m<strong>et</strong>tre en place des systèmes d’évaluation de la réputation des entreprises en rassemblant dans<br />

des bases de données des faits <strong>et</strong> opinions trouvés sur le web <strong>et</strong> perm<strong>et</strong>tant de tracer le profil<br />

de telle ou telle entreprise 24 .<br />

33 Dans le domaine politique. La publication croissante sur intern<strong>et</strong> de textes à teneur politique<br />

(lois, rapports, bill<strong>et</strong>s de blogs politiques, <strong>et</strong>c.) <strong>et</strong> le constat que la politique ne se fait<br />

plus seulement dans les hémicycles mais aussi dans les débats en ligne, a con<strong>du</strong>it certains<br />

chercheurs à utiliser les techniques de sentiment analysis pour déterminer l’accord ou le<br />

désaccord des commentateurs avec telle ou telle proposition de loi. Dans leur article « G<strong>et</strong> out<br />

the vote : D<strong>et</strong>ermining support or opposition from Congressional floor-debate transcripts 25 »,<br />

Matt Thomas, Bo Pang <strong>et</strong> Lillian Lee espèrent faciliter la reconnaissance <strong>du</strong> positionnement<br />

d’un orateur dans un débat politique grâce au sentiment analysis. D’autres recherches tentent<br />

par exemple d’analyser en masse les commentaires <strong>et</strong> opinions des citoyens américains lors de<br />

l’élaboration des réglementations proposées par les agences indépendantes <strong>du</strong> gouvernement 26 .<br />

34 Dans le domaine de la publicité en ligne. Si la publicité en ligne, ciblée <strong>et</strong> contextuelle, s’est<br />

considérablement développée ces dernières années, elle pourrait bénéficier des recherches en<br />

sentiment analysis. Car si une annonce publicitaire est d’autant plus efficace qu’elle apparaît<br />

au bon endroit au bon moment, elle pourrait l’être encore plus si elle s’adaptait au ressenti des<br />

consommateurs vis-à-vis d’un pro<strong>du</strong>it ou d’un service. C’est ce que propose par exemple la<br />

stratégie DASA (Dissatisfaction-oriented Advertising based on Sentiment Analysis) 27 , qui a<br />

pour but de détecter <strong>et</strong> de prendre en compte les points d’insatisfaction des consommateurs<br />

afin d’adapter encore mieux les annonces publicitaires à leurs cibles.<br />

35 L’infographie ci-dessous, <strong>du</strong> cabin<strong>et</strong> indien Beacon 28 , présente quelques domaines<br />

d’application <strong>du</strong> sentiment analysis.


Domaines d’application <strong>du</strong> sentiment analysis selon le cabin<strong>et</strong> Beacon<br />

Source : http://www.thebeaconservices.com/sentiment_analysis.php<br />

Les questions à se poser<br />

OpenEdition Press<br />

<strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong> 11<br />

Connaître le type d’informations ou de phénomènes que l’on recherche<br />

36 L’un des prérequis essentiels avant tout lancement d’une étude de sentiment analysis est de<br />

savoir le type d’information ou de phénomènes que l’on recherche. Il est vain d’espérer<br />

que les résultats de la machine s’imposent d’eux-mêmes, sans avoir besoin d’être interprétés.<br />

À quel objectif répond la recherche d’opinions ? Selon les visées, les méthodes seront<br />

différentes :<br />

• Suivre l’évolution des opinions sur un domaine, sur une question, sur un pro<strong>du</strong>it/service,<br />

sur une marque, sur une personnalité. Parmi tous ces obj<strong>et</strong>s qui peuvent être suivis,<br />

l’échelle ou la complexité <strong>du</strong> domaine peut varier mais l’élément clé restera la notion<br />

d’évolution. Il sera donc nécessaire de m<strong>et</strong>tre en place des outils de veille sur des<br />

bouqu<strong>et</strong>s de source définis a priori <strong>et</strong> suivis à intervalles réguliers, pour récupérer leurs<br />

données. Dans ce cas, malgré les biais inévitables dans la constitution des sources ou<br />

des mots clés, l’évolution émergera à partir de la ligne de temps.<br />

• Veiller à des alertes ponctuelles pour détecter des événements. La méthode peut être<br />

proche de la précédente mais il s’agit plutôt de construire les indices d’alerte qui vont<br />

perm<strong>et</strong>tre une réaction. Ce sont les éléments déclencheurs qui sont recherchés, soit pour<br />

être analysés soit pour être neutralisés. Mais dans ce cas, l’aspect agrégat <strong>et</strong> mesure<br />

globale n’est pas tant important que l’identification d’une source <strong>et</strong> d’un canal de<br />

propagation.<br />

• Explorer les réseaux de composition de l’opinion (à l’aide ou en vue de management<br />

de communautés) : dans ce cas, les verbatims sont moins importants que les canaux par<br />

lesquels ils circulent. Les approches de topologie <strong>du</strong> web perm<strong>et</strong>tent de cartographier<br />

les liens entre les sites ou blogs <strong>et</strong> les thématiques qui circulent entre ces sites ou blogs<br />

sont alors analysables en fonction de ces relations <strong>et</strong> non plus pour elles-mêmes.<br />

37 Ces trois points de vue perm<strong>et</strong>tent de distinguer sommairement les trois grandes visées de<br />

toute veille en opinion mining <strong>et</strong> sentiment analysis. Elle peut être centrée sur :<br />

• un agrégat d’opinions <strong>et</strong> son évolution sur un grand nombre de sources ;<br />

• un énoncé qui fait événement <strong>et</strong> dont on peut suivre la trace 29 ;<br />

• un milieu que l’on étudie en tant que tel <strong>et</strong> qui échange sur des thèmes qui lui sont en<br />

partie propres.


38 <strong>Po</strong>ur chacune de ces approches, les outils à m<strong>et</strong>tre en place seront différents.<br />

Définir la visée de sa recherche<br />

OpenEdition Press<br />

<strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong> 12<br />

39 Un autre prérequis pour se lancer dans une analyse de la tonalité sur le web est de savoir<br />

pourquoi on cherche. On distingue au moins deux postures : observer pour comprendre ou<br />

observer pour agir. De plus en plus de prestataires en social media monitoring proposent des<br />

solutions « complètes » qui vont jusqu’à perm<strong>et</strong>tre aux clients de répondre en quasi-temps réel<br />

à un twe<strong>et</strong> qui ne leur conviendrait pas. Beaucoup de fonctionnalités mises en avant dans ces<br />

offres supposent que le client a pour but d’« engager la conversation » avec ses consommateurs<br />

ou de réagir aux attaques à sa réputation.<br />

40 Mais l’observation à visée de compréhension peut être un premier objectif <strong>et</strong> un objectif<br />

suffisant. On se r<strong>et</strong>iendra alors de préqualifier les expressions recueillies (<strong>et</strong> le sentiment<br />

analysis pousse à les qualifier immédiatement) pour comprendre par exemple les règles<br />

d’expression propres à un domaine, propres aussi à un site ou à un média social. Une fois<br />

c<strong>et</strong>te compréhension profonde acquise à partir d’études sur des échantillons restreints, il<br />

devient possible de m<strong>et</strong>tre en place des indicateurs plus précis <strong>et</strong> automatisables en partie,<br />

mais pas avant. Intro<strong>du</strong>ire une visée opérationnelle dès le début <strong>du</strong> travail d’opinion mining<br />

modifie nécessairement les méthodes utilisées, les saillances r<strong>et</strong>enues, les modes d’alerte,<br />

<strong>et</strong> donc le poids relatif des expressions relevées. Cela ne l’invalide pas mais cela oblige à<br />

distinguer une telle posture de connaissance stratégique par rapport à une observation à visée<br />

compréhensive. C’est pourquoi les outils à destination des chercheurs seront souvent différents<br />

de ceux proposés par les sociétés qui proposent des services opérationnels.<br />

Décider de la composition des ressources mobilisables :<br />

humains (lesquels ?) <strong>et</strong> machines (pour faire quelle tâche ?)<br />

41 Nous l’avons dit, on ne peut s’en rem<strong>et</strong>tre entièrement à la machine, ce qui se tra<strong>du</strong>it par<br />

l’exigence d’avoir des analystes experts <strong>du</strong> domaine <strong>et</strong> ne pas s’en rem<strong>et</strong>tre au logiciel<br />

censé s’occuper de tout. Il est donc nécessaire de réaliser une étude de faisabilité <strong>et</strong> d’évaluer<br />

les moyens financiers nécessaires en tenant compte de c<strong>et</strong>te contrainte. Si le client a besoin<br />

d’examiner un très grand nombre de données <strong>et</strong> qu’il estime devoir impérativement passer par<br />

un prestataire, il doit prévoir des analystes qui sauront interpréter les résultats. L’évaluation<br />

des prestations proposées devrait passer plus souvent par l’examen des qualifications des<br />

personnels qui réalisent le travail. Il est trompeur de prétendre qu’aucune interpr<strong>état</strong>ion n’est<br />

nécessaire ou qu’on peut la laisser au client final. Car toute la chaîne de pro<strong>du</strong>ction de<br />

données, même la plus automatisée, même celle qui pro<strong>du</strong>it les résultats les plus bruts ou<br />

les plus synthétisés, repose sur une succession d’interpr<strong>état</strong>ions, qui ne sont jamais des choix<br />

« purement techniques » ou d’optimisation (pour des raisons de coûts ou de délais) : chacune<br />

présuppose une certaine analyse implicite <strong>du</strong> domaine, de la question posée, <strong>du</strong> statut <strong>du</strong><br />

matériau recueilli, <strong>et</strong>c.<br />

Qui pratique l’analyse de sentiment ?<br />

42 Parce qu’il existe beaucoup de domaines d’application <strong>du</strong> sentiment analysis, on trouve<br />

également beaucoup d’acteurs, <strong>et</strong> très variés, s’inscrivant dans ce secteur. Nous ne pouvons<br />

ici rendre compte de l’ensemble des acteurs <strong>du</strong> sentiment analysis. De nouveaux entrants<br />

apparaissent régulièrement dans ce domaine, leurs positionnements ne sont pas toujours<br />

identiques, <strong>et</strong> leur nombre évolue tous les jours. Certains acteurs disparaissent, d’autres<br />

ressurgissent sous de nouveaux noms, notamment après un rachat, comme ce fut le cas pour<br />

l’ex-Scoutlabs, rach<strong>et</strong>é en 2010 par la société Lithium Technologies.<br />

43 Voyons plutôt quels types d’acteurs pratiquent l’analyse de sentiment.<br />

Les services internes des entreprises <strong>et</strong> des organismes<br />

44 La collecte <strong>et</strong> l’analyse des avis des consommateurs ne sont pas nouvelles <strong>et</strong> des services<br />

internes dans les entreprises <strong>et</strong> organismes publics s’occupaient déjà de sonder les opinions<br />

des consommateurs <strong>et</strong> citoyens, à l’aide des outils de CRM. Cependant, l’analyse <strong>du</strong> sentiment<br />

se fait encore de manière relativement artisanale chez ces acteurs : « à la main », avec outils de


OpenEdition Press<br />

<strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong> 13<br />

bureautique classique. Un suivi de blogs connus par l’entreprise ou l’organisme peut également<br />

être mis en place. Les outils d’assistance à l’analyse (CAQDAS) sont rarement utilisés <strong>et</strong><br />

encore plus rarement les solutions d’analyse automatique (outils de text mining spécialement<br />

configurés, solutions sur étagère). Ces services <strong>et</strong> ces entreprises ont souvent recours à un<br />

prestataire pour toute analyse plus ambitieuse.<br />

Les prestataires de services<br />

45 Les prestataires de services sont les cabin<strong>et</strong>s de veille, les web agencies, les agences d’eréputation<br />

<strong>et</strong> de social media monitoring. Ces acteurs se sont multipliés au point de provoquer<br />

une véritable explosion de l’offre <strong>du</strong>rant les années 2009-2010. Au 25 mai 2011, Camille<br />

Alloing recensait, sur le site caddE-réputation, 163 agences 30 dans le domaine de l’e-réputation<br />

au sens large. De son côté, l’agence Blueboat proposait à la même époque une carte des agences<br />

d’e-réputation en France 31 – justement réalisée à partir de la liste de Camille Alloing <strong>et</strong> revisitée<br />

en fonction de ses critères propres.<br />

Carte des agences d’e-réputation en France, par l’agence Blueboat<br />

Source : Carte tirée d’un bill<strong>et</strong> de Justin Timmel pour le blog Blueboat : http://www.blueboat.fr/agences-e-reputationfrance<br />

46 123 agences prestataires en e-réputation étaient ainsi représentées <strong>et</strong> réparties en 9 catégories :<br />

• protection de la réputation/juridique ;<br />

• web agency ;<br />

• conseil, communication, influence, stratégie ;<br />

• relations publiques/presse ;<br />

• prestataires outils, solutions logicielles ;<br />

• pure players ;<br />

• SEO/SEM ;<br />

• veille, audit, analyse ;<br />

• mark<strong>et</strong>ing digital/communautaire, webmark<strong>et</strong>ing.<br />

47 Outre leur nombre, c’est la diversité de ces acteurs qui frappe. Les différentes modalités<br />

de l’étude de la conversation en ligne (que nous allons détailler plus bas) sont prises en<br />

charge par des consultants indépendants, souvent spécialistes en intelligence économique,<br />

veille sectorielle ou en stratégie de communication, mais aussi par des agences web dont les<br />

métiers de départ peuvent être la création de site web, le référencement naturel ou le mark<strong>et</strong>ing<br />

digital.


OpenEdition Press<br />

<strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong> 14<br />

48 D’autres agences se sont créées autour de la seule notion de réputation en ligne, l’e-réputation.<br />

Elles sont, en quelque sorte, les pure players <strong>du</strong> secteur.<br />

49 Enfin, on trouve également parmi ces acteurs les grandes agences historiques de publicité <strong>et</strong> de<br />

communication comme Publicis ou Havas, qui ont développé des branches de leurs activités<br />

spécialement dédiées à la dimension numérique.<br />

50 La diversité des secteurs d’origine de ces prestataires nous perm<strong>et</strong> déjà d’imaginer que les<br />

offres de ces agences seront très différentes les unes des autres <strong>et</strong> qu’elles ne vont pas se ré<strong>du</strong>ire<br />

à <strong>du</strong> sentiment analysis. Cependant, ce dernier apparaît comme une brique nécessaire à une<br />

analyse fine des conversations sur le web pour tout suivi de réputation ou toute entreprise de<br />

social media monitoring.<br />

Les éditeurs d’outils logiciels ou de solutions en ligne<br />

pour l’analyse automatique<br />

51 Les éditeurs d’outils logiciels ou de solutions en ligne pour l’analyse automatique conçoivent<br />

<strong>et</strong> commercialisent des solutions capables de traiter de très gros volumes de données<br />

(catégorisation automatique, volumétrie, analyse de la tonalité, <strong>et</strong>c.). Leurs pro<strong>du</strong>its sont<br />

très souvent « prêts à l’emploi » <strong>et</strong> sont censés pouvoir s’adapter indistinctement à tous les<br />

types de contenus <strong>et</strong> de secteurs. Dans les faits, ils présentent des faiblesses <strong>du</strong> point de<br />

vue de leur adaptation à la spécificité des secteurs d’activité (d’où émane la demande). De<br />

manière générale, les éditeurs survalorisent les performances de leurs pro<strong>du</strong>its. Et les clients<br />

se sont souvent ren<strong>du</strong> compte au moment <strong>du</strong> bilan que les promesses ven<strong>du</strong>es ne s’étaient<br />

pas réalisées. Enfin, les logiciels <strong>et</strong> solutions en ligne pour l’analyse automatique ne sont<br />

pas infaillibles. Dans certains cas, le défaut de robustesse est partiellement compensé par le<br />

recours à des stratégies de « r<strong>et</strong>our de pertinence » (relevance feedback), qui bénéficient, à<br />

l’aide de systèmes apprenants, des corrections apportées par les experts <strong>du</strong> domaine. Seuls<br />

quelques prestataires sont en mesure de fournir les efforts financiers pour satisfaire aux<br />

coûts des investissements <strong>et</strong> aux exigences élevées en matière de stockage des données, de<br />

maintenance, de constitution des dictionnaires, de traitement des données <strong>et</strong> de constitution<br />

d’équipes d’experts qui viennent compléter le travail effectué par les machines.<br />

Certains laboratoires de recherche<br />

52 Ces laboratoires de recherche (universitaires ou autres) peuvent être rattachés à plusieurs<br />

disciplines mais le plus souvent en TAL (Traitement Automatique <strong>du</strong> Langage), c’est-à-dire<br />

au croisement de l’ingénierie informatique <strong>et</strong> des sciences <strong>du</strong> langage.<br />

53 Ces laboratoires cherchent à améliorer leurs méthodes <strong>et</strong> algorithmes qu’ils testent, notamment<br />

dans le cadre de « défis ». Ces défis sont en fait de grandes campagnes d’évaluation qui<br />

perm<strong>et</strong>tent aux laboratoires de confronter leurs résultats. À c<strong>et</strong>te occasion, ces laboratoires<br />

se r<strong>et</strong>rouvent souvent en concurrence ou en partenariat avec les éditeurs de solutions <strong>et</strong>/<br />

ou prestataires mentionnés plus haut. C’est ainsi que la société Celi-France, spécialisée<br />

en extraction d’information <strong>et</strong> traitement automatique <strong>du</strong> langage a participé en 2007 à la<br />

campagne d’évaluation DEFT en présentant un travail sur la classification d’opinions par<br />

méthodes symbolique, statistique <strong>et</strong> hybride 32 .<br />

Encadré 1 : campagnes d’évaluation<br />

Il existe plusieurs campagnes d’évaluation dans le domaine de la fouille de textes. Ainsi<br />

de l’atelier d’évaluation DEFT 33 (DÉfi Fouille de Textes), actuellement organisé par le<br />

Laboratoire Informatique pour la Mécanique <strong>et</strong> les <strong>Sciences</strong> de l’Ingénieur (LIMSI) 34 , qui<br />

perm<strong>et</strong> à différentes équipes de confronter leurs méthodes sur un même corpus pendant des<br />

conférences scientifiques telles que TALN 35 (Traitement Automatique des Langages Naturels),<br />

événement annuel organisé par l’ATALA - Association pour le Traitement Automatique des<br />

Langues. Si DEFT concerne le domaine général de la fouille de textes, les éditions de 2007<br />

<strong>et</strong> 2009 étaient plus particulièrement consacrées à des problématiques de sentiment analysis<br />

(classification de textes d’opinion 36 <strong>et</strong> analyse multilingue d’opinion 37 ).


OpenEdition Press<br />

<strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong> 15<br />

À l’étranger, autre campagne d’évaluation dans le domaine de la recherche d’information<br />

(Information R<strong>et</strong>rieval), TREC 38 (Text REtrieval Conference), soutenue par le National<br />

Institute of Standards and Technology <strong>et</strong> l’Advanced Research and Development Activity<br />

Center <strong>du</strong> Département de la Défense des États-Unis, a proposé en 2006 Blog Track 39 , avec<br />

pour objectif l’étude des textes d’opinion dans un corpus issu de la blogosphère.<br />

54 De manière générale, les laboratoires de recherche travaillent sur des corpus fermés <strong>et</strong> dédiés<br />

à un suj<strong>et</strong> (<strong>et</strong> non sur des flux comme c’est le cas pour l’analyse des opinions sur le web).<br />

Les papiers pro<strong>du</strong>its présentent en général des propositions d’amélioration de features pour<br />

l’apprentissage machine.<br />

Le <strong>marché</strong> actuel<br />

Une offre foisonnante<br />

55 Depuis quelques années, on assiste à une augmentation <strong>du</strong> nombre d’acteurs sur ce <strong>marché</strong>.<br />

Comme nous l’avons indiqué précédemment, les cabin<strong>et</strong>s <strong>et</strong> agences de veille, de management<br />

de la réputation en ligne <strong>et</strong> de social media monitoring, mais aussi les éditeurs de logiciels<br />

ou les outils en ligne se sont multipliés au point de provoquer une sur-offre sur un secteur<br />

dont les frontières se brouillent toujours un peu plus. Le domaine de l’analyse d’opinion,<br />

plus couramment appelée dans ces offres « l’écoute de la conversation des internautes »,<br />

se caractérise donc par des frontières floues, allant <strong>du</strong> présumé service compl<strong>et</strong> de social<br />

media monitoring à « l’analyse de sentiment » sur un seul réseau social, en passant par<br />

le « management de l’e-réputation » d’une marque ou d’une personne (personal branding).<br />

Inévitablement, une certaine confusion règne dans un domaine au vocabulaire non stabilisé.<br />

Veille, analyse d’opinion, e-réputation, dans tous les cas il s’agit de détecter <strong>et</strong> d’analyser les<br />

opinions présentes sur les réseaux sociaux <strong>et</strong> le web, en utilisant des techniques d’extraction<br />

d’information <strong>et</strong> en essayant de fournir aux clients des indicateurs de leur présence, de leur<br />

image, de celle de leurs concurrents, pour éventuellement proposer des stratégies de contreattaque.<br />

56 Quelles prestations les acteurs <strong>du</strong> secteur proposent-ils en eff<strong>et</strong> ? Passons en revue les<br />

termes employés pour décrire leurs offres sur leurs sites web : e-réputation, veille mark<strong>et</strong>ing,<br />

veille digitale, référencement, community management, communication interactive, veille<br />

en intelligence économique, buzz tracking, brand monitoring, mark<strong>et</strong>ing communautaire,<br />

web mark<strong>et</strong>ing, mark<strong>et</strong>ing digital, sentiment analysis, social analytics, relation blogueurs,<br />

e-influence, sentiment monitoring, veille image, engagement dans la conversation web,<br />

réputation digitale, online sentiment, mesure de la visibilité, RP 2.0, suivi de notoriété, buzz<br />

monitoring, identité numérique, <strong>et</strong>c. La liste est longue <strong>et</strong> il n’est pas toujours facile de voir<br />

où commence <strong>et</strong> où finit l’offre : simple mesure de la visibilité, décompte des citations d’un<br />

nom de marque sur les blogs, analyse des opinions exprimées au sein d’un bouqu<strong>et</strong> de sites<br />

sur une thématique donnée, possibilité de réagir en quasi-temps réel à un commentaire de<br />

consommateur ?<br />

57 Sous l’eff<strong>et</strong> de la concurrence, les offres semblent tendre peu à peu à se ressembler <strong>et</strong><br />

à se rapprocher vers une sorte de modèle « 360 » allant parfois de la création d’un site<br />

pour une marque, à la campagne de communication, en passant par son référencement <strong>et</strong><br />

en terminant par l’évaluation de son image. Les acteurs proposant des plateformes ou suites<br />

logicielles semblent intégrer au fur <strong>et</strong> à mesure toujours plus de fonctionnalités autour de leur<br />

noyau de savoir-faire premier, parfois en s’alliant avec d’autres. En témoignent par exemple<br />

l’alliance entre Lexis Nexis (fourniture d’informations à usage professionnel <strong>et</strong> solutions<br />

de veille <strong>et</strong> d’analyse des médias) <strong>et</strong> Augure (entreprise de réputation en management), le<br />

rachat de Scoutlabs, éditeur de logiciel en social media monitoring, par Lithium Technologies,<br />

spécialiste en applications en gestion de la relation client 40 , ou encore celui de Backtype<br />

(suivi <strong>et</strong> analyse des conversations sociales) par le service de micro-blogging Twitter 41 . Et ces<br />

rapprochements ne sont pas des cas isolés sur le <strong>marché</strong> de l’e-réputation !


OpenEdition Press<br />

<strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong> 16<br />

58 Enfin, la tarification des offres disponibles sur le <strong>marché</strong> va de la gratuité au service payant.<br />

À côté des solutions gratuites qui perm<strong>et</strong>tent de suivre un aspect particulier de la conversation<br />

web comme par exemple :<br />

• Samepoint (reputation management search engine) ;<br />

• SocialMention (real-time social media search & analysis) ;<br />

• BoardTracker (forum discussion search) ;<br />

• Twilert (Twitter alerts) ;<br />

• Comment (suivi de commentaires), <strong>et</strong>c.<br />

59 Les solutions payantes proposent très souvent des offres intégrées <strong>et</strong> packagées (comprenant<br />

ou non <strong>du</strong> sentiment analysis). Elles sont en général proposées par abonnement. Dans ce<br />

cas, le prix peut varier en fonction <strong>du</strong> nombre d’utilisateurs futurs de la solution, <strong>du</strong> nombre<br />

de requêtes autorisées, <strong>du</strong> type de fonctionnalités auxquelles on souscrit, <strong>et</strong>c. <strong>Po</strong>ur aider les<br />

clients potentiels à s’y r<strong>et</strong>rouver, <strong>et</strong> à ne pas choisir une formule sous- ou surdimensionnée,<br />

les prestataires précisent souvent à titre indicatif à qui s’adresse telle ou telle formule.<br />

Tarification Radian 6 (pour l’Amérique <strong>du</strong> Nord) – janvier 2012<br />

Source : http://www.radian6.com/what-we-sell/radian6-pricing/


Tarification Ubervu – août 2011<br />

Source : http://www.ubervu.com/pricing<br />

OpenEdition Press<br />

<strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong> 17


Tarification Ubervu – janvier 2012<br />

OpenEdition Press<br />

<strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong> 18<br />

Source : https://www.ubervu.com/pricing. Le <strong>marché</strong> <strong>du</strong> social media monitoring évoluant très rapidement, les offres<br />

<strong>et</strong> tarifs évoluent également très vite.<br />

60 Le <strong>marché</strong> regroupant les offres en e-réputation, en social media monitoring, en veille, <strong>et</strong> en<br />

sentiment analysis est donc composé d’acteurs très différents, qui définissent leur métier de<br />

manières très diverses, en proposant des gammes de prix très éten<strong>du</strong>es <strong>et</strong> en s’adressant à<br />

des cibles très diverses elles aussi. Dans le cas des marques <strong>et</strong> grosses entreprises qui se<br />

soucient de leur image en ligne, les offres peuvent même être taillées sur mesure pour les<br />

différentes directions de ces sociétés. Certains prestataires <strong>et</strong> agences construisent leur discours<br />

commercial en expliquant que telle ou telle de leurs solutions sera particulièrement utile à la<br />

direction mark<strong>et</strong>ing <strong>et</strong> stratégique, ou bien à la direction de la communication, ou encore à<br />

la direction des études mark<strong>et</strong>ing, sans oublier la direction des achats, le service client ou la<br />

direction générale elle-même 42 .<br />

61 D’autres offres visent les TPE <strong>et</strong> les PME exclusivement.<br />

62 D’autres offres encore sont adressées à des secteurs particuliers comme les professionnels<br />

<strong>du</strong> tourisme ou les secteurs sensibles que sont par exemple le secteur pharmaceutique ou celui<br />

de l’énergie.<br />

Les fonctionnalités proposées<br />

63 <strong>Po</strong>ur comprendre les offres disponibles, il faut donc les décrypter, entrer dans le détail<br />

des fonctionnalités proposées, voire les tester quand cela est possible, des versions de<br />

démonstration étant souvent disponibles en ligne. Dans certains cas comme les services<br />

gratuits en ligne, le test peut être immédiat (voir plus bas les outils dédiés au sentiment analysis<br />

sur Twitter).<br />

64 <strong>Po</strong>ur les autres, il faut donc s’attarder sur les présentations vidéo, documents <strong>et</strong> indications<br />

disponibles sur les sites web <strong>et</strong>, le cas échéant, demander un test gratuit. De manière générale,<br />

les offres packagées payantes <strong>et</strong> s’adressant aux marques <strong>et</strong> grandes entreprises – qu’il s’agisse<br />

de logiciels ou de plateformes clé en main – comprennent :<br />

• le sourcing (sur le web, le « web profond », les sites d’actualités, ou sur des bases de<br />

données fermées comme les bases de brev<strong>et</strong>s) ;<br />

• la collecte (automatisée) des entités mises sous surveillance ;


OpenEdition Press<br />

<strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong> 19<br />

• l’archivage des données ;<br />

• leur traitement ;<br />

• l’analyse des données ;<br />

• la livraison des résultats sous des formats différents (tableau de bord partageable,<br />

newsl<strong>et</strong>ters, reporting, <strong>et</strong>c.).<br />

65 De gros moyens financiers sont nécessaires pour les investissements de développement, de<br />

stockage <strong>et</strong> de maintenance. Certains prestataires proposent même des offres particulières à des<br />

secteurs à partir de bases de données spécialisées par domaine, d’outils dédiés (dictionnaires<br />

métiers, <strong>et</strong>c.). Seuls certains d’entre eux sont capables de fournir un tel service en raison<br />

<strong>du</strong> temps de travail très important nécessaire pour constituer ces bases ou ces dictionnaires<br />

spécialisés.<br />

66 Entrons plus avant dans le détail des fonctionnalités de ces offres packagées.<br />

67 On peut débuter un sourcing de plusieurs manières (voir le chapitre 3, « Le sourcing »). Celuici<br />

peut faire suite à une analyse de la demande faite directement via un échange avec le client.<br />

Il peut également être réalisé via un formulaire à remplir pour définir le besoin. Un corpus-test<br />

peut être mis en place pour tester sa pertinence. La rédaction d’une liste de mots clés à m<strong>et</strong>tre<br />

a priori sous surveillance, <strong>et</strong> qui sera complétée au fur <strong>et</strong> à mesure, est également un moyen<br />

assez répan<strong>du</strong> de débuter un sourcing. Quoi qu’il en soit, une fois la demande circonscrite, il<br />

faut identifier les sources. Là encore, plusieurs méthodes peuvent être proposées. Les sources<br />

peuvent être identifiées via des moteurs, méta-moteurs, annuaires <strong>et</strong> portails. Très souvent,<br />

les principaux réseaux sociaux <strong>et</strong> sites <strong>du</strong> web social (bookmarking, micro-blogging, <strong>et</strong>c.)<br />

font d’emblée partie des sources mises sous surveillance, parfois au détriment de sources <strong>du</strong><br />

web « <strong>1.</strong>0 » pourtant tout aussi pertinentes. La programmation d’alertes en cas d’apparition<br />

de nouvelles sources sur un thème donné est une fonctionnalité parfois proposée. Et il est en<br />

général toujours possible de déclarer des mots clés supplémentaires à surveiller. Un travail<br />

d’élimination <strong>du</strong> bruit (désambiguïsation) <strong>et</strong> d’élimination <strong>du</strong> silence (synonymes, fautes<br />

d’orthographe courantes) peut venir compléter de manière plus ou moins efficace le sourcing,<br />

en fonction des moyens alloués à c<strong>et</strong>te tâche par le prestataire. Enfin, une fois le périmètre <strong>du</strong><br />

sourcing défini, tout un travail de qualification (avec parfois attribution d’un indice de fiabilité<br />

ou de pertinence des sources), de catégorisation, voire de cartographie des sources, est mis<br />

en œuvre.<br />

68 La collecte (voir le chapitre 4, « Constituer <strong>et</strong> traiter les corpus de travail avant l’analyse<br />

de tonalité »), en raison de la masse de données à crawler (moissonner), est une opération<br />

automatisée qu’il faut néanmoins paramétrer. Quels types de paramètres peuvent donc être<br />

pris en compte ?<br />

• Le choix <strong>du</strong> ou des bouqu<strong>et</strong>s de sources à crawler dans le cas où de tels bouqu<strong>et</strong>s ont été<br />

définis. Le client peut par exemple demander une mise sous surveillance de sites qu’il<br />

a l’habitude de consulter.<br />

• Le choix <strong>du</strong> type de sources à crawler : réseaux sociaux, blogs, sites de presse, <strong>et</strong>c.<br />

• La granularité <strong>et</strong> la régularité <strong>du</strong> crawl (qui peut aller jusqu’à une collecte en quasitemps<br />

réel).<br />

• Des requêtes peuvent également être construites à partir de mots-clés ou de groupes de<br />

mots-clés à surveiller.<br />

69 L’archivage <strong>et</strong> le traitement des données récupérées via le crawl (voir les chapitres 4, <strong>et</strong> 5,<br />

« Détecter les tonalités ») sont souvent des opérations sur lesquelles le client n’a pas la main.<br />

<strong>Po</strong>ur le prestataire, il s’agit essentiellement de construire des bases de données d’archivage<br />

où classer des documents n<strong>et</strong>toyés (suppression des bandeaux publicitaires, reformatage, <strong>et</strong>c.)<br />

<strong>et</strong> étiqu<strong>et</strong>és, afin de pouvoir les r<strong>et</strong>rouver facilement dans la base en fonction de catégories.<br />

La catégorisation peut se faire automatiquement, ou au moins semi-automatiquement – une<br />

rectification manuelle pouvant être nécessaire car les techniques de classement automatisées<br />

ne sont pas infaillibles.<br />

70 Concernant l’analyse des données, de nombreuses features sont proposées aux clients. En voici<br />

quelques exemples :


OpenEdition Press<br />

<strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong> 20<br />

• volumétrie : nombre d’occurrences d’un mot-clé, nombre de citations sur les réseaux<br />

sociaux <strong>et</strong> les blogs, nombre d’« amis » sur les réseaux sociaux, nombre de « Like »<br />

Facebook, <strong>et</strong>c. ;<br />

• mots fréquents (i.e. les plus souvent associés à un mot-clé ou à une thématique) ;<br />

• analyse de la tonalité (sentiment analysis) ;<br />

• suivi dans le temps de la volumétrie, des mots fréquents, de l’analyse de la tonalité ;<br />

• distribution des résultats en fonction des différents types de sources, pour chacune des<br />

sources, en fonction de leurs catégories thématiques, en fonction de la langue ;<br />

• évolution comparée des résultats suivant le type de sources, suivant la requête, suivant<br />

la catégorie thématique des sources,<br />

• entités nommées <strong>et</strong> expressions significatives associées ;<br />

• co-occurrences de termes (clusterisation) ;<br />

• mise en évidence de corrélations.<br />

71 La livraison des résultats peut s’effectuer de différentes manières. L’analyse des données en<br />

provenance des médias sociaux est souvent ren<strong>du</strong>e accessible via des tableaux de bord en ligne.<br />

Le client peut même souvent accéder directement aux verbatims par un simple clic, répondre<br />

en quasi-temps réel à des commentaires de clients, <strong>et</strong>c. C<strong>et</strong>te dernière feature est devenue<br />

très en vogue avec l’impératif de l’« engagement dans la conversation » avec les internautes<br />

prôné par plusieurs prestataires <strong>et</strong> gourous <strong>du</strong> e-mark<strong>et</strong>ing. Plus traditionnels, des rapports de<br />

veille personnalisés <strong>et</strong> rédigés par des experts, souvent spécialisés par secteur, ainsi que des<br />

newsl<strong>et</strong>ters <strong>et</strong> alertes, font partie des options de diffusion des résultats.<br />

72 <strong>Po</strong>ur chacune de ces fonctionnalités, l’utilisateur peut avoir plus ou moins la main sur<br />

le logiciel/la plate-forme <strong>et</strong> son paramétrage. Il peut, selon les cas, affiner ses requêtes,<br />

ajouter une source à m<strong>et</strong>tre sous surveillance, <strong>et</strong>c. Concernant la feature particulière que<br />

représente le sentiment analysis, la plupart des prestataires se targuent de fournir des services<br />

de recueil <strong>et</strong> d’analyse automatiques des opinions sur le web. Mais la grande majorité des<br />

solutions proposées se limitent en fait, en termes de sentiment analysis, à un classement qui<br />

répartit les opinions en trois grandes catégories : positif, négatif <strong>et</strong> neutre. C<strong>et</strong>te dernière<br />

catégorie tend à regrouper tous les verbatims dont la polarité est soit effectivement neutre,<br />

soit, <strong>et</strong> surtout, trop difficile à classer (alors que ce sont deux choses très différentes 43 !).<br />

Ces difficultés tiennent largement au fait que la polarité est encore trop souvent jugée à<br />

l’aune de listes de termes identifiés a priori comme laudatifs ou péjoratifs, liste composée à<br />

partir de dictionnaires internationaux (General Inquirer, SentiWordN<strong>et</strong>). Nous y reviendrons<br />

plus tard, mais rappelons pour l’instant que la polarité d’une opinion est une affaire plus<br />

complexe que la simple identification de la polarité d’un terme présent dans une expression.<br />

Le contexte d’énonciation, l’origine <strong>du</strong> locuteur ou encore l’inscription dans un dispositif<br />

communicationnel particulier sont autant de critères d’évaluation de l’opinion qui doivent être<br />

pris en compte. Si la plupart des prestataires disent fournir des solutions automatisées, il reste<br />

que la grande majorité des prestations pointues d’analyse <strong>du</strong> sentiment restent supervisées par<br />

des cellules d’experts (justement en raison des difficultés citées plus haut qui réclament une<br />

expertise humaine). Le « tout automatique » constitue plus un argument mark<strong>et</strong>ing qu’une<br />

réalité <strong>et</strong> l’on peut parler à plus juste titre « d’analyse <strong>du</strong> sentiment assistée par ordinateur »,<br />

comme on le fait pour la tra<strong>du</strong>ction lorsqu’on adm<strong>et</strong> les limites de la supposée tra<strong>du</strong>ction<br />

automatique.<br />

Notes<br />

1 W. Stern, 1902, « Zur Psychologie der Aussage. Experimentelle Untersuchungen über<br />

Erinnerungstreue », Zeitschrift für die gesamte Strafrechtswissenschaft, vol. XXII.<br />

2 G.-W. Allport <strong>et</strong> L. J. <strong>Po</strong>stman, 1945, « The Basic Psychology of Rumor », in Transactions of the New<br />

York Academy of <strong>Sciences</strong>, série II, vol. 8.<br />

3 E. Morin, La Rumeur d’Orléans, Seuil, 1969.<br />

4 J.-N. Kapferer, Rumeur, le plus vieux média <strong>du</strong> monde, Seuil, 1987.<br />

5 D. Boullier, 2010, La Ville-événement. Foules <strong>et</strong> publics urbains, Paris, PUF.


OpenEdition Press<br />

<strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong> 21<br />

6 B. Latour, 1993, « Le “topofil” de Boa Vista ou la référence scientifique », La clef de Berlin <strong>et</strong> autres<br />

leçons d’un amateur de science, Paris, La Découverte.<br />

7 H. Garfinkel, 1967, Studies in Ethnom<strong>et</strong>hodology, Englewood Cliffs, Prentice Hall.<br />

8 Cf. M. H. Goldhaber, 1992, « The Attention Soci<strong>et</strong>y », Release <strong>1.</strong>0, n° 3, p. 1-20 <strong>et</strong> D. Boullier, 2009,<br />

« Les in<strong>du</strong>stries de l’attention : fidélisation, alerte ou immersion », Réseaux, n o 154, p. 231-246.<br />

9 G. A. Akerlof, 1970, « The Mark<strong>et</strong> for “Lemons”: Quality Uncertainty and the Mark<strong>et</strong> Mechanism »,<br />

The Quarterly Journal of Economics, MIT Press, vol. 84, n° 3, p. 488-500, [en ligne]<br />

[URL : http://www.jstor.org/stable/1879431].<br />

10 E. L. Eisenstein, 1991, La Révolution de l’imprimé dans l’Europe des premiers temps modernes, Paris,<br />

La Découverte.<br />

11 Voir c<strong>et</strong>te étude récente menée à Cornell University : M. Ott <strong>et</strong> al., 2011, « Finding Deceptive<br />

Opinion Spam by any Str<strong>et</strong>ch of the Imagination », Proceedings of the 49 th Annual Me<strong>et</strong>ing of the<br />

Association for Computational Linguistics, <strong>Po</strong>rtland, Oregon, 19-24 juin 2011, [en ligne] [URL : http://<br />

www.cs.cornell.e<strong>du</strong>/~myleott/op_spamACL201<strong>1.</strong>pdf].<br />

12 <strong>Po</strong>ur une bonne illustration de ce point, lire l’article « Fake Twitter accounts used to promote tar<br />

sands pipeline », [en ligne] [URL : http://www.guardian.co.uk/environment/2011/aug/05/fake-twittertar-sands-pipeline].<br />

13 http://proxem.wordpress.com/2011/10/07/la-soci<strong>et</strong>e-generale-obj<strong>et</strong>-d%e2%80%99unemanipulation-sur-twitter/<br />

14 B. Pang, L. Lee, 2008, « Opinion Mining and Sentiment Analysis », Foundations and Trends in<br />

Information R<strong>et</strong>rieval, vol. 2, n o 1-2, p. 1-135, [en ligne] [URL : http://www.cs.cornell.e<strong>du</strong>/home/llee/<br />

omsa/omsa-published.pdf]. DOI : 10.1561/150000000<strong>1.</strong><br />

15 D. Boullier, 1984, « Autres outils, autres communications. À propos de Telem - Nantes », Télématique<br />

- Promenade dans les usages, M. Marchand <strong>et</strong> C. Ancelin éd., Paris, La Documentation Française,<br />

p. 71-93.<br />

16 Michel de Certeau, Luce Giard, 1983, « L’ordinaire de la communication », Réseaux,<br />

vol. 1, n o 3, p. 3-26, [en ligne] [URL : http://www.persee.fr/web/revues/home/prescript/article/<br />

reso_0751-7971_1983_num_1_3_1092].<br />

17 Cf. le communiqué de presse de Médiamétrie/N<strong>et</strong>Ratings, L’Audience de l’Intern<strong>et</strong> en France, juin<br />

201<strong>1.</strong><br />

18 http://www.fevad.com/espace-presse/7eme-barom<strong>et</strong>re-sur-les-comportements-d-achats-desinternautes<br />

19 S. Huang <strong>et</strong> al., 2010, « Promote Pro<strong>du</strong>ct Reviews of High Quality on E-commerce Sites », Pacific<br />

Asia Journal of the Association for Information Systems, vol. 2, n° 3, art. 5, [en ligne] [http://<br />

aisel.aisn<strong>et</strong>.org/pajais/vol2/iss3/5].<br />

20 <strong>Po</strong>ur une illustration de la « Voix <strong>du</strong> Client chez<br />

Auchan », cf. http://proxem.wordpress.com/2012/01/11/interview-de-jerome-desreumaux-directeur-dela-relation-clients-auchan/<br />

21 G. Mishne., N. Glance., 2006, « Predicting Movie Sales from Blogger Sentiment », proceedings of<br />

AAAI-CAAW-06, the Spring Symposium on Computational Approaches to Analyzing Weblogs, [en ligne]<br />

[URL : http://www.aaai.org/Papers/Symposia/Spring/2006/SS-06-03/SS06-03-030.pdf].<br />

22 M. Généreux, T. <strong>Po</strong>ibeau, K. Moshe, 2011, « Sentiment Analysis Using Automatically Labelled<br />

Financial News Items », Affective Computing and Sentiment Analysis: M<strong>et</strong>aphor, Ontology, Affect<br />

and Terminology, K. Ahmad éd., chap. 9, p. 111–126, [en ligne] [URL : http://www.clul.ul.pt/files/<br />

michel_genereux/EMOTI.pdf].<br />

23 M. Généreux, « Système d’analyse de la polarité de dépêches financières », TALN 2011,<br />

Montpellier, 27 juin – 1 er juill<strong>et</strong> 2011, [en ligne] [URL : http://www.lirmm.fr/~lopez/RECITAL/DEMOS/<br />

DEMO_Genereux_UnivLisboa.pdf].<br />

24 H. Saggion, A. Funk, 2009, « Extracting Opinions and Facts for Business Intelligence », Revue des<br />

Nouvelles Technologies de l’Information (RNTI), n o E-17, p. 119-146, [en ligne] [URL : http://gate.ac.uk/<br />

sale/rnti-09/final-version/Saggion-Funks-OM-09.pdf].<br />

25 M. Thomas, B. Pang, L. Lee, 2006, « G<strong>et</strong> out the Vote: D<strong>et</strong>ermining Support or Opposition from<br />

Congressional Floor-Debate Transcripts », Proceedings of EMNLP 2006, p. 327–335, [en ligne] [URL :<br />

http://www.cs.cornell.e<strong>du</strong>/people/pabo/papers/emnlp06_convote.pdf].<br />

26 N. Kwon, S. W. Shulman., E. Hovy, 2006, « Multidimensional Text Analysis for eRulemaking »,<br />

Proceedings of the 2006 International Conference on Digital Government Research, p. 157-166, [en<br />

ligne] [URL : http://www.isi.e<strong>du</strong>/natural-language/people/hovy/papers/06dgo-eRule-textanalysis.pdf].<br />

DOI : 10.1145/1146598.1146649.


OpenEdition Press<br />

<strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong> 22<br />

27 K. Liu <strong>et</strong> al., 2008, « Incorporate Sentiment Analysis in Contextual Advertising », TROA2008-<br />

WWW2008, p. 1-8, [en ligne] [URL : http://research.yahoo.com/workshops/troa-2008/papers/<br />

submission_4.pdf].<br />

28 http://www.thebeaconservices.com/<br />

29 http://mem<strong>et</strong>racker.org/<br />

30 http://caddereputation.over-blog.com/article-26988418.html<br />

31 http://www.blueboat.fr/agences-e-reputation-france<br />

32 S. Maurel, P. Curtoni <strong>et</strong> L. Dini, « Classification d’opinions par méthodes symbolique, statistique<br />

<strong>et</strong> hybride », Actes de DEFT 2007, p. 111-117, [en ligne] [URL : http://www.celi-france.com/IMG/pdf/<br />

celi-france_deft07-2.pdf].<br />

33 http://deft.limsi.fr/<br />

34 http://www.limsi.fr/<br />

35 http://www.atala.org/-Conference-TALN-RECITAL-<br />

36 http://deft07.limsi.fr/<br />

37 http://deft09.limsi.fr/<br />

38 http://trec.nist.gov/<br />

39 I. Ounis <strong>et</strong> al., 2006, « Overview Of The Trec-2006 Blog Track », The Fifteenth Text REtrieval<br />

Conference (TREC 2006) Proceedings, p. 17-31, [en ligne] [URL : http://trec.nist.gov/pubs/trec15/<br />

papers/BLOG06.OVERVIEW.pdf].<br />

40 http://techcrunch.com/2010/05/06/lithium-technologies-picks-up-scout-labs-for-20-million/<br />

41 http://blog.backtype.com/2011/07/backtype-has-been-acquired-by-twitter/<br />

42 Voir par exemple la plaqu<strong>et</strong>te de présentation des Solutions de veille <strong>et</strong> d’analyse de l’information<br />

de LexisNexis Analytics : http://www.lexisnexis.fr/pdf/pdf_brochures/Plaqu<strong>et</strong>te_LN_Analytics-<br />

_11VM032.pdf.<br />

43 Ce qui revient au traitement analogue des refus de répondre, des « ne sait pas » dans les sondages.<br />

<strong>Po</strong>ur citer c<strong>et</strong> article<br />

Référence électronique<br />

Dominique Boullier <strong>et</strong> Audrey Lohard, « <strong>Chapitre</strong> <strong>1.</strong> <strong>Historique</strong> <strong>et</strong> <strong>état</strong> <strong>du</strong> <strong>marché</strong> », in Opinion mining<br />

<strong>et</strong> ‎Sentiment analysis (« Collection « <strong>Sciences</strong> <strong>Po</strong> │ médialab » », n o 1) , 2012 [En ligne], mis en ligne<br />

le 19 mars 2012, consulté le 22 mars 2012. URL : http://press.openedition.org/204<br />

Droit d’auteur<br />

Licence Creative Commons Attribution - Pas d’Utilisation Commerciale - Pas de Modification<br />

3.0 France

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!