REX
BD16_REX
BD16_REX
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
<strong>REX</strong><br />
Retours d’expériences Big Data en entreprise<br />
www.bigdataparis.com by
Retours d’expériences Big Data en entreprise<br />
SOMMAIRE<br />
ACCENTURE - E-COMMERCE. ............ 3<br />
ACCENTURE - MEDIA. ................... 3<br />
ACCENTURE - COMMERCIAL PROPERTY. ... 5<br />
ACCESS INSIGHT - RENAULT ............. 7<br />
ATOS - MÉTÉO-FRANCE. ................. 9<br />
ATOS - ORANGE BUSINESS SERVICES .... 10<br />
ATOS - STADE TOULOUSAIN. ............ 10<br />
BAKAMAP - CCI. ....................... 12<br />
BIME - WEEKENDESK. . . . . . . . . . . . . . . . . . . 13<br />
CAPGEMINI - CLOUDERA. ............... 14<br />
COMPLEX SYSTEMS - TELE SHOPPING. ... 16<br />
COUCHBASE - AMADEUS. ............... 19<br />
CRAY - INSTITUTE FOR SYSTEMS<br />
BIOLOGY. ............................ 20<br />
CSC - HGST. . . . . . . . . . . . . . . . . . . . . . . . . . . 22<br />
CSC - ASSURANCES AUTO .............. 23<br />
CSC - VOYAGISTE ONLINE .............. 24<br />
DATA PUBLICA - CEGID . ................ 26<br />
DATA PUBLICA - CCI PARIS. ............. 26<br />
DATA PUBLICA - B-POST ................ 27<br />
DATAIKU - BLABLACAR ................. 28<br />
DATAIKU - CHRONOPOST ............... 29<br />
DATAIKU - CITYVOX. ................... 30<br />
DATAIKU - PAGESJAUNES. .............. 31<br />
DATAIKU - PARKEON ................... 32<br />
DELL - DANSKE BANK .................. 33<br />
DELTAMU - SANOFI-PASTEUR. ........... 35<br />
DELTAMU - TRAITEMENT THERMIQUE. .... 35<br />
HP - AT&T ............................ 36<br />
HP - BLABLACAR ...................... 38<br />
HP - METROPOLITAN POLICE<br />
DE LONDRES ......................... 39<br />
INFORMATICA - WESTERN UNION. . . . . . . . . 41<br />
MAPR - ANCESTRY.COM ................ 43<br />
MAPR - COMSCORE. ................... 44<br />
MARKLOGIC - DE GRUYTER. ............ 45<br />
MARKLOGIC - ELSEVIER. ............... 46<br />
MARKLOGIC - HEALTHCARE.GOV. ........ 49<br />
MARKLOGIC - OXFORD UNIVERSITY<br />
PRESS. .............................. 50<br />
MARKLOGIC - PRESS ASSOCIATION. ...... 56<br />
MARKLOGIC - REED BUSINESS<br />
INFORMATION - 4D CONCEPT. ........... 57<br />
MARKLOGIC - RSC. .................... 59<br />
MICROPOLE - L’OBS. ................... 62<br />
MICROSOFT - PIER IMPORT ............. 63<br />
MICROSOFT - THYSSENKRUPP. .......... 63<br />
MICROSOFT - CARNEGIE. ............... 64<br />
MONGO DB - BOSCH . .................. 67<br />
MONGO DB - METLIFE. ................. 68<br />
MONGO DB - OTTO. .................... 70<br />
MONGO DB - WEATHER CHANNEL. ....... 72<br />
NEO4J - EBAY. ........................ 74<br />
NEO4J - GAMESYS. .................... 75<br />
NEO4J - GLASSDOOR .................. 76<br />
NEO4J - SNAP INTERACTIVE. ............ 77<br />
NEO4J - TELENOR. .................... 78<br />
NEO4J - WALMART. .................... 79<br />
SAP - MOBILINK. ...................... 80<br />
SAP - COX. ........................... 80<br />
SAP - BELGACOM. ..................... 81<br />
SAP - BANGLALINK DIGITAL<br />
COMMUNICATIONS. . . . . . . . . . . . . . . . . . . . . 82<br />
SAP - VODAFONE. ..................... 82<br />
SAP - XL ............................. 83<br />
SAP - AVIVA. .......................... 83<br />
SAP - ELDORADO. ..................... 84<br />
SAP - SAMSE ......................... 85<br />
SAP - HSE24. ......................... 86<br />
SAP - MONEXT . ....................... 86<br />
SAP - AMERICAN AUTOMOBILE<br />
ASSOCIATION. ........................ 87<br />
SAP - SKYROCK . ...................... 87<br />
SAP - COOPERATIVA ITALIANA DI<br />
RISTORAZIONE. ....................... 88<br />
SAP - TIPP24.COM. .................... 89<br />
SAP - KAESER KOMPRESSOREN. ........ 89<br />
SAP - EBAY . .......................... 90<br />
SAS - SANTIANE. ...................... 92<br />
SAS - ELFE/INED ...................... 93<br />
SAS - UTAC-OTC. ...................... 95<br />
SAS - BANK OF AMERICA. ............... 96<br />
SAS - FRAPORT. ...................... 98<br />
SAS - MACY’S. ........................ 99<br />
SAS - NESTLÉ. ........................100<br />
SAS - RABOBANK. .....................102<br />
SAS - TELECOM ITALIA. .................103<br />
SENTELIS - ASSURANCE MUTUELLE. .....105<br />
SENTELIS - CRÉDIT À LA<br />
CONSOMMATION. .....................106<br />
SENTELIS - MUTUELLE D’ASSURANCE ....107<br />
SENTELIS - ÉNERGIE. ..................108<br />
SENTELIS - JEUX EN LIGNE. . . . . . . . . . . . . 110<br />
SENTELIS - EDITEUR SOFTWARE. ........110<br />
SOFT COMPUTING. ....................113<br />
SYNCSORT - SFR. .....................115<br />
SYNCSORT - PAGESJAUNES. ............115<br />
SYNCSORT - TÉLÉCOMS, MÉDIAS,<br />
ENTERTAINMENT. .....................116<br />
TABLEAU SOFTWARE - BNP PARIBAS. .....118<br />
TABLEAU SOFTWARE - CROIX ROUGE. ....119<br />
TABLEAU SOFTWARE - ISCOOL ..........120<br />
TABLEAU SOFTWARE - NOKIA. ...........122<br />
TABLEAU SOFTWARE - PHARMASECURE .. 123<br />
TABLEAU SOFTWARE - SKYROCK. . . . . . . . 124<br />
TALEND - LENOVO. ....................126<br />
TALEND - BUFFALO ....................126<br />
VELVET - PAIEMENT. ...................129<br />
VELVET - TELECOM. ...................129<br />
YSANCE - ARKENA. ....................130<br />
YSANCE - ANOVO. .....................131<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
2
Retours d’expériences Big Data en entreprise<br />
ACCENTURE - E-COMMERCE<br />
ACCENTURE’S IMPLEMENTS PATENTED DIGITAL OPTIMIZATION (ADO)<br />
& ACCENTURE RECOMMENDATION ENGINE (ARE) SOLUTIONS HELP<br />
SUSTAIN HIGH GROWTH AND MAXIMIZE SHAREHOLDER VALUE<br />
CLIENT PROFILE<br />
A leader China’s B2C e-commerce portals with 35% market share, and growing at 200% annually. The Company<br />
was exploring alternative growth areas, beyond category expansion.<br />
BUSINESS CHALLENGE<br />
The currently recommended system’s was below industry benchmarks. Especially in contribution to sales.<br />
Over a given week, many changes were applied to the website, but there was no good way to measure its ROI.<br />
Each web-page change was slow and not many were tested each time.<br />
The client had over 2 million unique SKUs, 20 million registered users, 1 million transactions per day and up to 3<br />
billion page views per month. For this reason, it needs to optimize its data management, processes and system.<br />
HOW ACCENTURE HELPED<br />
Derived insight from the data and identified links between data that drive conversion from recommendations.<br />
Identified key data drivers including transactional data (product, customer and purchase history) as well as behavioral<br />
data (browser behavior, search data, page views), in order to increase the richness of data analysis.<br />
Accenture’s patented Recommendation Engine (ARE) was implemented. This combine multiple machine learning<br />
techniques (basket analysis, collaborative filtering, nearest neighbour) for different scenarios to optimize recommendation<br />
efficiency. The Patented Digital Optimization (ADO) solution was implemented in order to maximize<br />
webpage presentation and online marketing at scale. This industrialized multi-variable testing solution allowed<br />
thousands of design variations to be tested.<br />
HIGH PERFORMANCE DELIVERED<br />
Machine learning algorithms improved using ARE.<br />
Number of users given irrelevant product recommendations minimized<br />
Conversion rates increased.<br />
This recommendation outperformed the clients internally recommended engine by up to an estimated 30%, which<br />
translated into increased revenue initially estimated to be up to $100 million per year and expected to grow over<br />
time. The solution also enabled segment-based testing, which increased efficiency of testing at such a large volume<br />
of traffic. This optimization experience delivered a substantial CVR uplift and estimated revenue uplift of about<br />
$200 million per year.<br />
ACCENTURE - MEDIA<br />
HIGH-PERFORMANCE CUSTOMER ANALYTICS WITH A MAJOR PLAYER<br />
IN EUROPE: INSIGHT CREATES COMPETITIVE ADVANTAGE<br />
FOR TV OPERATOR<br />
CLIENT PROFILE<br />
This media client is a leading pay television service operator in Europe transmitting live programs and video-ondemand<br />
via cable, satellite, digital terrestrial television and broadband.<br />
The company has 6 million customers, representing nearly 12 million contracts, including more than 4 million customers<br />
receiving hundreds of channels.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
3
Retours d’expériences Big Data en entreprise<br />
BUSINESS CHALLENGE<br />
Customer churn was rising, partly due to the global economic slump, a corresponding reduction in consumer discretionary<br />
income and diminished usage of its pay channels. Free-of-charge TV channels increased their market<br />
share, and Internet service providers launched competing video-on-demand services.<br />
Limited knowledge of customers inhibited long-term growth in the digital era. Customer surveys failed to dig far<br />
beyond generalities such as household size, preferred program type and equipment. As a result, customer campaigns<br />
tended to be broad in scope and relatively expensive to implement.<br />
Digitalization and a widening array of viewing devices - including tablets, mobile phones and Web TV -offered huge<br />
opportunities to collect data on usage by household. Web-based giants such as Amazon, Facebook and others<br />
understood this trend and built up customer loyalty by offering tailored suggestions based on analyses of online<br />
interactions. Using customer analytics, virtually every interaction with media player services can be added to a<br />
continually updated log and analyzed for insight.<br />
To compete more effectively, our media customer launched a large-scale program on usage and services statistical<br />
analysis. Extensive sources of data knowledge could be gathered to develop insights for improved services. Their<br />
executives turned to us for assistance with customer and marketing analytics, all aligned with high performance.<br />
HOW ACCENTURE HELPED<br />
Accenture helped its client to define the project, outline the multi-year plan in successive phases, shape the technology<br />
solutions, build prototypes, promote these within the organization and monitor the gains.<br />
The project was launched through a proof-of-concept phase, based on a sample of 100,000 customers. Accenture<br />
Interactive organized a pilot for each initiative to gauge potential return on investment.<br />
The project leverages TV digitalization and the ability to gather data per household on television activity, such as<br />
switching channels, use of services, multi-screen usage and so on. One hundred million logs are collected daily,<br />
providing a strong foundation to:<br />
Build new insights: who watches Cable News Network, or do CNN viewers also watch other information channels?<br />
Optimize marketing campaign efficiency: a complete set of usage indicators, calculated at the subscriber level, is<br />
used to refine targets.<br />
Viewing Recommendations, an innovative recommendation engine, integrates statistical analysis of usage and<br />
services data with internal and external evaluations of programs and movies. Accenture developed a unique algorithm<br />
to identify “best for you” programs by combining viewer habits and discovery. Each new recommendation<br />
engine release is validated by prototypes, is beta-tested and verified on customer samples. Using business rules<br />
- such as a customer’s preferred themes, or the likelihood of discovering something new he or she would like – the<br />
engine offers a tailored selection of TV programs every evening for each household.<br />
The recommendation engine is embedded within applications, including the electronic TV program guide, customer<br />
Website, newsletters, and call-center scripts.<br />
HIGH PERFORMANCE DELIVERED<br />
In an increasingly competitive media market, Accenture has worked closely with its client over four years, contributing<br />
to reduced churn, increased customer satisfaction and restoration of the company’s reputation for innovation.<br />
Robust capabilities translate customer preferences into strategies to reduce churn (churn is two percent less<br />
among recommendation engine users), improve service and boost revenue.<br />
Today, the statistical analysis of usage and services project is:<br />
More than 200 key usage indicators per customer, which are used to personalize 40% of marketing campaigns<br />
and newsletters<br />
25 million personal recommendations calculated daily<br />
Helping boost TV consumption among recommendation engine users, which is up more than 20%<br />
More than 2.5 million of our client’s households are expected to enjoy the capabilities of personalized viewing<br />
recommendations in 2013, with a forecast of 3 million by the end of 2014.<br />
“Our recommendation engine goes a step beyond Google” in the words of the media client’s Chief Executive Officer.<br />
“Our customers don’t have to seek because our tool anticipates their needs and suggests appealing programs”.<br />
Customer analytics capabilities continue to be refined throughout the media client’s organization, with additional<br />
features offered to millions of subscribers. In addition, the growing base of detailed information about viewing preferences<br />
has become an asset in itself that can be monetized and sold to other businesses.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
4
Retours d’expériences Big Data en entreprise<br />
ACCENTURE - COMMERCIAL PROPERTY<br />
HIGH-PERFORMANCE BIG DATA ANALYTICS IN SHOPPING MALLS:<br />
BIG DATA IMPROVES KEY BUSINESS DECISIONS FOR COMMERCIAL<br />
PROPERTY COMPANY<br />
CLIENT PROFILE<br />
The client is one of the leading commercial property companies in the world.<br />
BUSINESS CHALLENGE<br />
In a shopping mall, the last touch points with customers are stores. Due to its central position in the customer<br />
journey, the shopping mall can only manage to improve the journey from the entrance of the mall to the entrance of<br />
the shops. Therefore, the choice of stores and their location inside the shopping mall are key business decisions.<br />
Previously, the Client made rent calculations and decisions for store renewals based on financial performance.<br />
Operational performance measures data, such as customer traffic, were used as well but lacked precision and<br />
insights. As a result, a large portion of the operational value of the shopping mall was misunderstood.<br />
Wi-Fi data was a great opportunity for shopping malls. By tracking customer devices, one million logs per day and<br />
day per mall could be used to follow traffic more precisely. Coupled efficiently with stores’ financial performance,<br />
this massive amount of data gives a better picture of their true performance. This commercial property company<br />
asked Accenture to process all Wi-Fi tracking data to follow traffic in the shopping mall and link it with all existing<br />
data in order to better assess the true value of its stores and make the right business decisions.<br />
HOW ACCENTURE HELPED<br />
Accenture helped the commercial property company by launching Wi-Fi traffic tracking and creating value from this<br />
Big Data. Insightful key performance indicators were developed in two malls through a pilot phase.<br />
By combining new and existing data, the shopping malls were able to:<br />
Make better store renewal decisions: by understanding which stores create/consume traffic for/from other stores<br />
and identifying the best performers (in terms of sales and traffic) to decide which stores will stay or be relocated<br />
Identify new potential tenants: by knowing the customers and their journey in the shopping malls and using traffic<br />
synergies between stores. Estimate the rental value of stores more accurately: by putting stores’ financial results<br />
into perspective with their operational performance to improve area pricing Make better marketing investments: by<br />
evaluating the return on investment of different marketing events.<br />
HIGH PERFORMANCE DELIVERED<br />
Accenture worked closely with the commercial property company during the one-year pilot phase to leverage the<br />
maximum value from the Data:<br />
10 sources of data were combined<br />
180 million logs were analyzed<br />
6 data quality algorithms were implemented<br />
… through a Big Data environment:<br />
Cloud-based Hadoop platform<br />
Tableau, html and iPad reports<br />
R, Python, Quantum JS<br />
The project has already improved the key business decisions of the shopping malls: for instance, two undefined<br />
renewal decisions were resolved much faster and the variety of the stores was maintained because of the new<br />
insights. New pricing estimates could improve the rental value of the two pilot shopping malls by several million<br />
euros. Big Data Analytics was quickly integrated in the two pilot shopping malls with noticeable results and would<br />
be improved by extending the analysis to new shopping malls with new data and insights for consistently faster<br />
and better business decisions.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
5
Retours d’expériences Big Data en entreprise<br />
CONTACT<br />
Jean-David Benassouli : Managing Director Digital & Analytics<br />
j-david.benassouli@accenture.com<br />
Clara Landry : Digital Marketing Associate Manager<br />
c.landry@accenture.com<br />
ABOUT ACCENTURE<br />
Accenture is a global management consulting, technology services and outsourcing company, with approximately<br />
319,000 people serving clients in more than 120 countries. Combining unparalleled experience, comprehensive<br />
capabilities across all industries and business functions, and extensive research on the world’s most successful<br />
companies, Accenture collaborates with clients to help them become high-performance businesses and governments.<br />
The company generated net revenues of US$30.0 billion for the fiscal year ended Aug. 31, 2014. Its home<br />
page is www.accenture.com.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
6
Retours d’expériences Big Data en entreprise<br />
ACCESS INSIGHT - RENAULT<br />
CASE STUDY RENAULT : CONSTRUCTEUR AUTOMOBILE DE RÉFÉRENCE<br />
Constructeur automobile Français de référence, Renault a vendu plus de 2,6 millions de véhicules en 2013, un<br />
chiffre en hausse de 3,1% comparativement à 2012. Très présent sur le marché des particuliers, le constructeur<br />
répond également avec brio aux besoins actuels des entreprises (moteurs compétitifs en terme de consommation<br />
et de fiscalité, pertinence des offres utilitaires) ce qui lui a valu d’être classé numéro un des ventes sur ce secteur.<br />
«En un instant, nous avons rendu la démarche de prospection de nos vendeurs interactive»<br />
Jean-Louis Wiedemann : Chef de service Marketing Ventes - Flottes et Véhicules Utilitaires<br />
LE CHALLENGE<br />
Le service Marketing Flotte Entreprise acquiert régulièrement des données publiques stratégiques concernant le<br />
marché automobile Français. Compilées à d’autres sources de données possédées par Renault sur son marché<br />
cible, ces informations regorgent d’opportunités à identifier et à exploiter.<br />
Mais un problème se pose : comment croiser et retranscrire ces données de façon simple et interactive à leurs<br />
équipes opérationnelles ? Renault se met donc à la recherche d’un outil qui permettrait à ses équipes commerciales<br />
et marketing non seulement de pouvoir accéder à ces informations de façon instantanée et en toute<br />
autonomie mais aussi de pouvoir interagir avec les données.<br />
L’accès aux données aura deux buts principaux :<br />
1) Permettre aux vendeurs du réseau de concessionnaires et managers grands comptes d’avoir une vision précise<br />
de la part de marché de Renault sur leur secteur et de la façon de l’accroitre. Ces informations permettront<br />
d’optimiser l’effort commercial et de préparer un argumentaire sur mesure.<br />
Pour se faire, l’outil devra permettre de pouvoir « zoomer » en profondeur sur chaque secteur et entreprise pour<br />
révéler toutes les informations au moment voulu.<br />
2) Permettre aux services marketing nationaux ou régionaux d’accéder à une vue globale du marché et des<br />
performances de Renault (part de marché par secteur, taux facilement des campagnes ciblées qui répondent aux<br />
attentes des performances commerciales. La solution devra être interactive et permettre de donner non seulement<br />
une vision globale de la situation du marché mais également une vision précise par secteur et même par commune<br />
pour chaque manager. «La démonstration de l’outil en interne a eu un réel succès. D’autres services ont<br />
immédiatement imaginé se servir d’Access Insight pour leurs projets »<br />
Jean-Louis Wiedemann : Chef de service Marketing Ventes Flottes et Véhicules Utilitaires<br />
LE CHOIX<br />
Renault était déjà équipé de nombreuses solutions de Business Intelligence. Cependant, Access Insight s’est<br />
présenté comme le choix le plus judicieux pour ce type de projet de tableaux de bord accessibles en réseau par<br />
un grand nombre d’utilisateurs.<br />
L’outil s’est également distingué des autres car il permettait une mise en place rapide avec un démarrage en<br />
mode SaaS, ne nécessitant pas d’interventions majeures de la part du service IT.<br />
LA SOLUTION<br />
Pour répondre aux besoins de Renault, Access France a présenté au service marketing sa solution de tableaux<br />
de bord interactifs et collaboratifs, Access Insight. Afin de permettre une mise en place rapide de la solution,<br />
Renault a choisi d’utiliser la solution dans le « Cloud »<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
7
Retours d’expériences Big Data en entreprise<br />
IMPLÉMENTATION<br />
« En deux semaines nous avons délivré une première version opérationnelle, en intégrant les données<br />
d’immatriculation achetées par Renault et en réalisant les premiers tableaux de bord pour que l’équipe marketing<br />
France de Renault puisse les tester » Matthieu Chabeaud, Directeur Commercial Access France<br />
LES RÉSULTATS<br />
Une détection immédiate des opportunités pour les vendeurs du réseau L’accès à des informations précises<br />
sur les entreprises de leur secteur permet aux vendeurs d’identifier en un instant lesquelles sont susceptibles de<br />
renouveler leur flotte ou peuvent être intéressées par de nouveaux véhicules. Bien informés, les commerciaux se<br />
concentrent ainsi sur l’essentiel.<br />
Un argumentaire ciblé : les commerciaux savent exactement quels arguments adopter face à leurs prospects. Les<br />
tableaux de bord leur permettent de pouvoir se préparer en conséquence et d’identifier les opportunités en filtrant<br />
et creusant dans les données.<br />
Un accès instantané à des analyses du marché pour le marketing : Alors que l’accès à des analyses poussées du<br />
marché prenait un temps non acceptable avant le début du projet, le service marketing accède maintenant aux<br />
informations clés sur l’ensemble de ses cibles en un instant et peut planifier plus.<br />
Fort du succès rencontré par l’outil au sein des différents services, Renault prévoit d’étendre cette utilisation.<br />
POST-IMPLEMENTATION<br />
Plus de 600 chefs des ventes et managers grands comptes utilisent à ce jour la solution Access Insight.<br />
de pénétration par rapport aux concurrents, caractéristiques de la flotte des entreprises…). Toutes ces informations<br />
permettront une connaissance optimale des entreprises et un ciblage précis. Un message adapté répondant<br />
presque à coup sûr aux besoins de chaque segment pourra facilement être établi.<br />
RÉSUMÉ<br />
Access Insight permet au service marketing et commercial de Renault entreprise une vue instantanée sur ses<br />
performances, sur le marché et sur ses cibles. L’outil permet non seulement une vision globale mais également<br />
une vision par secteur et par prospect ou client pour une préparation optimale des argumentaires commerciaux.<br />
Un avantage concurrentiel non négligeable pour Renault.<br />
Avant la mise en place d’Access Insight, les vendeurs avaient accès à des listings de prospections basiques crées<br />
à la demande par le service marketing. Aujourd’hui grâce à Access Insight, ils ont directement accès à des informations<br />
précises sur les entreprises les plus pertinentes, susceptibles d’acquérir des véhicules ou de renouveler<br />
leur flotte.<br />
A PROPOS D’ACCESS INSIGHT<br />
La solution de business intelligence nouvelle génération d’Access permet aux décisionnaires d’analyser rapidement<br />
les performances de leur activité, d’identifier les problèmes et de déceler les opportunités en temps réel. Son<br />
coté “user-friendly”, son interface mobile, ses fonctions collaboratives et ses performances font de la solution un<br />
outil adapté aux besoins actuels des utilisateurs.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
8
Retours d’expériences Big Data en entreprise<br />
ATOS - MÉTÉO-FRANCE<br />
MÉTÉO-FRANCE CHOISIT LA NOUVELLE GÉNÉRATION<br />
DE SUPERCALCULATEURS BULL, MARQUE TECHNOLOGIQUE<br />
DU GROUPE ATOS, D’UNE PUISSANCE CRÊTE TOTALE DE PLUS<br />
DE 5 PÉTAFLOPS À L’HORIZON 2016<br />
Météo-France développe et utilise un système de collectes de données météorologiques temps réel, mises à jour<br />
toutes les heures pour alimenter ses systèmes de modélisation et ainsi piloter et suivre les évolutions climatiques<br />
et les risques liés à la météo en vue d’informer et de protéger les citoyens, les industriels, les agriculteurs…<br />
Ce système a une double mission : les prévisions météorologiques quotidiennes et la recherche sur le climat.<br />
LES OBJECTIFS DE MÉTÉO FRANCE<br />
• Améliorer et rendre plus précises les prévisions et la localisation des phénomènes météorologiques pour une<br />
prévention des risques plus efficace et de meilleure qualité, pour plus de sécurité au quotidien.<br />
• Diversifier l’offre de services de Météo France : prévisions court terme, définition de nouveaux marchés et de<br />
nouveaux supports de diffusion de l’information météo.<br />
LA SOLUTION D’ATOS :<br />
• Système 12 fois plus puissant que le système précédent<br />
• Architecture évolutive : la puissance système peut être multipliée par 3<br />
• Supercalculateur conçu pour une efficacité énergétique optimale: consommation électrique optimisée, empreinte<br />
carbone réduite grâce à une technologie de refroidissement innovante.<br />
LE PROJET<br />
Les supercalculateurs sont installés à Toulouse. Dotés d’un système de refroidissement innovant ultra performant,<br />
équipés des processeurs Intel® Xeon® de dernière génération, les supercalculateurs bullx livrent actuellement<br />
une puissance de calcul d’environ 1 Petaflops, puis à l’horizon 2016, une performance totale dépassant 5 Petaflops.<br />
Cette augmentation des moyens de calcul de Météo-France se double d’une évolution technologique importante<br />
: le passage de la technologie vectorielle à la technologie scalaire qui repose sur les standards du marché et<br />
permet de fournir une puissance de calcul parallèle nettement supérieure, pour un TCO moindre.<br />
POURQUOI ATOS ET LES TECHNOLOGIES BULL ?<br />
Le choix de Météo-France souligne le savoir-faire développé par Atos en matière de parallélisation des codes applicatifs<br />
utilisés dans les domaines de la météorologie et des sciences du climat. Une plus grande parallélisation<br />
est essentielle pour l’utilisation optimale des nouvelles machines scalaires. Elle exige une évolution indispensable<br />
des codes de calcul qui représente en elle-même un grand challenge, auquel sont confrontés tous les instituts<br />
météorologiques dans le monde.<br />
« Atos est fier du choix de Météo-France pour nos plus récents et nos plus puissants supercalculateurs bullx. » déclare<br />
Philippe Vannier, Vice-Président Exécutif d’Atos, Big Data & Security. « Le choix de Météo-France confirme<br />
la capacité d’Atos, appuyé par ses technologies Bull, à aider les grandes organisations dans la modernisation de<br />
leurs infrastructures de calcul, dans les domaines vitaux pour la société et stratégiques pour les États que sont<br />
aujourd’hui la prévision météorologique et l’étude du climat » conclut Philippe Vannier.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
9
Retours d’expériences Big Data en entreprise<br />
ATOS - ORANGE BUSINESS SERVICES<br />
UNE SOLUTION DE SUPERVISION RÉSEAU QUI FOURNIT DES<br />
RÉFÉRENTIELS ET PERMET LA PRODUCTION D’INDICATEURS, POUR<br />
GARANTIR UN SERVICE DE HAUTE QUALITÉ<br />
Le projet OpenStat assure en temps réel la collecte d’informations sur les équipements du réseau ou sur les systèmes<br />
de médiation, la consolidation des indicateurs et la production d’un reporting interactif pour plus de 15 000<br />
clients entreprise en « near real-time » consultable en IHM, aux formats papier et M2M.<br />
LES OBJECTIFS D’ORANGE BUSINESS SERVICES<br />
• Faire évoluer un système obsolète datant de 15 ans pour assurer le reporting d’usage et de performance des<br />
offres entreprises<br />
• Réduire les coûts de maintenance, d’exploitation et d’évolution<br />
• Accroître l’agilité<br />
- collecter les données et éditer un reporting sans pâtir des évolutions systèmes permanentes et des contraintes<br />
d’un SI hétérogène<br />
- revoir la définition et la liste des indicateurs<br />
LA SOLUTION D’ATOS<br />
• Une solution basée sur l’OpenSource, tirant parti des avancées des solutions NoSQL<br />
• Une base NoSQL de type Graphe (OrientDB) pour le référentiel, apportant une grande souplesse dans la modélisation<br />
du réseau et de la performance dans son utilisation<br />
• Une Base NoSQL de type Clé/Valeur (Cassandra) permettant d’absorber le flux continu et important de données,<br />
tout en les parcourant en temps réel pour produire les indicateurs<br />
• Une architecture SOA et 100% évolutive basée sur JEE 7<br />
• La description en XML de la présentation, de la navigation dans l’IHM du calcul du reporting à destination de<br />
l’application en « map reduce » de production des indicateurs<br />
LE PROJET<br />
La solution d’Atos mise en œuvre permet, en toute fiabilité, la captation et le stockage de 10 millions d’indicateurs<br />
bruts toutes les cinq minutes. Sur la base de cette énorme masse de données, des centaines d’indicateurs sont<br />
construits par OBS à destination de 15 000 de ses clients entreprises. Ces tableaux de bord sont consultables en<br />
temps réel sur différents types de supports. Ce projet permet de réduire de manière drastique la production de<br />
nouvelles offres – divisée par environ trois - et rend possible le prototypage en agilité.<br />
ATOS - STADE TOULOUSAIN<br />
LE STADE TOULOUSAIN PREND LE POULS DE SES SUPPORTERS,<br />
FAVORISE LA COMMUNICATION PROACTIVE ET DÉVELOPPE UNE<br />
RELATION SOLIDE AVEC SES PARTENAIRES ET CLIENTS.<br />
Le Stade Toulousain a choisi une solution permettant l’analyse des informations circulant sur les réseaux sociaux,<br />
et en particulier Twitter. Il convient, dans cette énorme volumétrie de données, de trouver l’information utile et utilisable.<br />
Ce qui se dit sur le Stade Toulousain et ce qu’expriment les fans est collecté et analysé, des rapports sont<br />
ensuite construits. Cet outil permet d’adapter l’offre aux tendances et aux souhaits des supporters et de développer<br />
ainsi de nouveaux business.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
10
Retours d’expériences Big Data en entreprise<br />
LES OBJECTIFS DU STADE TOULOUSAIN<br />
• Développer une vision client 360°<br />
• Mieux connaître les fans, identifier influenceurs et ambassadeurs pour adapter les offres<br />
• Mettre en place un marketing ciblé<br />
• Fidéliser les supporters et en attirer de nouveaux.<br />
• Augmenter les ventes de produits dérivés et remplir les stades à plus de 90%<br />
LA SOLUTION FASTCONNECT D’ATOS<br />
La solution s’articule autour de quatre composants majeurs<br />
• Une solution Tibco pour la collecte des données.<br />
• Une plateforme Hadoop et des composants de son écosystème<br />
• Un socle BI temps réel<br />
• Spotfire de Tibco pour le reporting et la construction de tableaux de bord « Social Network Analytics ».<br />
Quelques détails de la solution : FLUME collecte les différents tweets alors que des données sont collectées via<br />
les outils Tibco et déposées au sein de la plateforme Hadoop. La plateforme Hadoop permet le stockage, le tri et<br />
le calcul statistique. De plus des composants de l’écosystème Hahoop sont utilisés : OOZIE orchestre les traitements,<br />
HIVE/IMPALA observe les données et les résultats, OPENNLP gère l’analyse sémantique. A cet ensemble<br />
est associé un Datawarehouse pour la consolidation d’information structurée. Enfin la Solution Spotfire de Tibco<br />
prépare et présente le reporting ainsi que les tableaux de bord.<br />
POURQUOI ATOS ?<br />
Ce projet est à l’initiative de FastConnect, société du Groupe Atos, partenaire du Stade Toulousain depuis de nombreuses<br />
années : il a été proposé et présenté au Stade Toulousain, la démarche très innovante a séduit, la solution<br />
est en production. La proposition d’Atos représente le compromis gagnant entre un prix compétitif, un savoir-faire<br />
fonctionnel et technique. Le Stade Toulousain a fait le choix de la solution FastConnect, société du Groupe Atos,<br />
pour son expertise dans le Big Data et le support qu’il apporte à une équipe SI client restreinte.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
11
Retours d’expériences Big Data en entreprise<br />
BAKAMAP - CCI<br />
LA CCI DE RÉGION NORD DE FRANCE ET BAKAMAP<br />
Le service Innovation de la CCI de Région Nord de France réalise des prestations dans le domaine de la veille,<br />
pour les PME-PMI, pôles d’excellence et de compétitivité de la région. Afin d’améliorer la qualité de son offre de<br />
services, CCI Innovation s’est dotée en 2011 d’une plateforme de visualisation cartographique de l’information.<br />
Depuis le lancement du projet, CCI Innovation confie le développement de son outil et ses évolutions à l’agence<br />
Bakasable. Quatre années de travail qui ont déjà aboutit à une véritable «Formule 1» dans le domaine de la<br />
datavisualisation. De nouvelles fonctionnalités seront implémentées d’ici juin 2015 pour améliorer d’avantage la<br />
performance de l’outil existant.<br />
EXPLORER DES DONNÉES TEXTUELLES PAR LA CARTOGRAPHIE<br />
Basée sur l’analyse de l’information (corpus de textes) et la cartographie temporelle, la solution Bakamap, développée<br />
pour la CCI de Région Nord de France, est un véritable outil d’aide à la décision stratégique. Ainsi, elle<br />
permet :<br />
- d’accéder facilement et intuitivement aux informations associées à une thématique (acteur, technologie, etc);<br />
- de naviguer dans un grand volume de données sans se perdre : plus de 20 000 articles, issus de 60 sources web<br />
sont rapidement accessibles grâce la visualisation;<br />
- de filtrer ou de cumuler les thématiques, afin d’affiner la recherche et se focaliser sur une partie du corpus;<br />
- de percevoir les évolutions des thématiques dans le temps - à l’aide d’une timeline et d’un système de régression<br />
linéaire - et de détecter les technologies émergentes;<br />
- de découvrir les interactions entre les acteurs, les technologies, les zones géographiques (navigation<br />
de proche en proche),<br />
- d’exporter en vectoriel le résultat de la recherche.<br />
Aujourd’hui, Jean Dufour, conseiller veille au sein de la CCI de Région Nord de France, utilise la cartographie pour<br />
aider les entreprises à identifier des marchés, des acteurs, des technologies en pointe sur un secteur d’activité,<br />
mais aussi à se positionner dans l’écosystème de sa région.<br />
NOUVEAU : BRING YOUR OWN DATA !<br />
QUAND LA DATAVISUALISATION S’OUVRE AU GRAND PUBLIC !<br />
La visualisation de l’information, c’est beau (souvent), utile (parfois)…mais au fond qu’est ce que c’est ? Pour<br />
répondre à cette question, l’agence Bakasable propose aujourd’hui un système de datavisualisation et de cartographie<br />
de l’information accessible et compréhensible à tous !<br />
Disponible sur http://www.bakamap.fr/byod/, cet outil gratuit permet non seulement de cartographier en ligne ses<br />
propres bases de données (Excel, Access), mais aussi de comprendre les enjeux de la datavisualisation avec un<br />
exemple concret et personnel.<br />
Les multiples interactions existantes, peu évidentes sur un tableau classique, sont visibles immédiatement grâce à<br />
une représentation claire et graphique. L’utilisateur peut donc visualiser n’importe quel jeu de données, découvrir<br />
les interactions qui les lient entre elles (quels sont les noeuds ? où sont les liens ?), et naviguer facilement à travers<br />
son patrimoine informationnel !<br />
Un tableau de bord permet d’accompagner l’utilisateur dans la configuration de sa carte. Il aura ainsi le choix<br />
d’afficher entre 2 à 5 catégories pour découvrir les interactions entre toutes ses données, mais aussi d’exporter au<br />
format PNG le résultat obtenu.<br />
Ce service gratuit est actuellement en version Bêta. Il s’accompagnera d’une offre payante, d’ici l’été 2015, donnant<br />
accès à d’autres fonctionnalités pour aller encore plus loin dans l’exploitation de ses données.<br />
CONTACT<br />
Heidi GHERNATI : 1 rue Suffren - 44000 NANTES<br />
06 03 55 16 78 - ghernati.h@bakasable.fr<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
12
Retours d’expériences Big Data en entreprise<br />
BIME - WEEKENDESK<br />
BIGDATA & CLOUD : WEEKENDESK.COM, BUSINESS ANALYTICS 100% EN LIGNE<br />
1. OBJECTIFS<br />
Weekendesk est une agence de voyage 100% en ligne, leader de la vente de courts séjours en Europe. Le site<br />
génère plus de 46M€ de Volume d’Affaires sur les 3 pays que sont la France, la Belgique et l’Espagne. Porté par<br />
le département Finance & Business Analytics, leur projet BigData s’articulait d’abord sur une logique de sortie du<br />
Reporting en silo, dû à l’hétérogénéité de leurs sources de données. Il s’agissait en priorité d’agréger des données<br />
financières et de les mixer avec celles du trafic de leurs sites web et du comportement de leurs consommateurs.<br />
2. PRÉSENTATION<br />
a. Nature des données traitées<br />
Weekendesk est un site web marchand dont les 25 000 commandes par mois génèrent un important volume de<br />
données transactionnelles entre les clients et les hôtels. Weekendesk analyse aussi constamment l’évolution de<br />
son trafic et son taux de conversion clients en rapport avec son offre produit et/ou service de son catalogue. Avec<br />
plus de 2 millions de visites par mois en moyenne, Weekendesk utilise Google Analytics. Les données transactionnelles<br />
de réservation sont stockées dans des bases de données SQL et un ERP propriétaire en ligne. D’autres<br />
données sont disponibles dans le Google Drive de l’entreprise.<br />
b. Ressources et méthodologie (compétences humaines, outils techniques, fonctionnement du traitement de la donnée)<br />
Le Reporting était précédemment produit via Excel avec une multitude de tableaux croisés dynamiques associés<br />
et d’onglets, pour couvrir tous les indicateurs clés des différents départements métiers. Ce Reporting a rapidement<br />
atteint les limites techniques d’Excel (volumétrie croissante et problème de disparité des données), devenant difficilement<br />
exploitable. En sélectionnant BIME, Weekendesk peut désormais reproduire son schéma de Reporting<br />
initial avec comme amélioration majeure la fluidité de se connecter nativement à toutes les sources de données<br />
(SQL, Google Analytics et Drive) depuis un seul et même endroit, puis d’agréger les informations en quelques<br />
clics, pour enfin construire et partager des tableaux de bord de pilotage en ligne avec le top management et les<br />
différents départements.<br />
c. Calendrier de déploiement<br />
Le projet a démarré en avril 2014. La Direction analyse les tableaux de bord depuis août 2014.<br />
Weekendesk a fait appel à un intégrateur pour travailler en amont les connexions on premise aux bases de données SQL.<br />
3. ASPECT NOVATEUR<br />
Weekendesk est une société 100% web, orientée cloud et mobilité. Chaque employé doit impérativement accéder<br />
à ses données métiers depuis n’importe où. La solution de Business Intelligence de BIME, 100% web correspond<br />
parfaitement à cet ADN. Grâce à la gestion des profils et droits utilisateurs, chaque Business Analyst rentabilise<br />
son temps de production des analyses. Un même tableau de bord, agrégeant plusieurs sources de données, peut<br />
en effet être partagé avec le Comité de Direction et les départements métiers. Le Comité accède aux informations<br />
globales de l’entreprise tandis que les métiers (vente, marketing) ne voient qu’un périmètre autorisé.<br />
4. VALORISATION OBSERVÉE DE LA DONNÉE<br />
Exploitation de la richesse du croisement des informations multi-sources dans les tableaux de bord, à la volée,<br />
au même endroit et en ligne. Production simplifiée de graphiques visuels permettant une compréhension rapide<br />
des performances des canaux d’acquisition. Visibilité accrue des résultats des ventes web par région, par canal<br />
de vente (force de vente interne, service client, pur web), par source (ordinateur, tablette, smartphone), dans un<br />
contexte croissant de volume de données. Actualisation real time des indices de compétitivité des offres, disponibles<br />
en ligne pour les métiers, chacun étant capable d’exécuter des requêtes adhoc pour répondre à leur question.<br />
5. ETAPES À VENIR ET DÉMARCHE BIG DATA DANS L’ENTREPRISE<br />
Optimisation, augmentation et mix des collectes de données de ventes et de réservations pour renforcer la granularité<br />
de l’analyse au client près. Objectif : migrer les données CRM (dont Salesforce) & Marketing (dont les données<br />
d’Attribution comme C3 Metrics) dans Google BigQuery pour produire des tableaux de bord des profils clients<br />
et de leurs comportements d’achats, le plus rapidement possible. Bénéficier des technologies Cloud pour rester<br />
fidèle à l’ADN Web de Weekendesk et disposer d’une plateforme d’analyse puissante connectée en direct à toutes<br />
les sources de l’entreprise, pouvant grandir à l’infini.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
13
Retours d’expériences Big Data en entreprise<br />
CAPGEMINI - CLOUDERA<br />
ONE OF THE WORLD’S LARGEST HR FIRMS IS USING CLOUDERA<br />
ENTERPRISE TO MATCH JOB SEEKERS WITH OPENINGS AND BUILD NEW<br />
SERVICES FOR ITS CLIENTS<br />
Capgemini and Cloudera Big Data Solution Helps Global Employment Agency Improve Insight into Localized Job Markets<br />
THE SITUATION<br />
The client is one of the world’s largest HR service providers, operating in approximately 40 countries. It faced a<br />
challenge around the sheer volume of information that is increasingly becoming available in job markets today.<br />
Sources include everything from job boards, institutions, LinkedIn, and other social media, to videos and company<br />
reports. Even sources such as weather forecasts can be relevant in relation to seasonal and tourism industry job<br />
opportunities.<br />
The HR service provider wanted to develop a platform to consolidate all available jobs in a particular geography.<br />
They asked Capgemini to demonstrate how an enterprise data hub, based on Cloudera Enterprise, could deliver a<br />
Big Data solution that would help them gain faster access to higher quality information.<br />
The initial objective was to find ways to tackle volumes of information for its own business, with the secondary aim<br />
of developing entirely new HR services for governments and companies. This would include becoming far more<br />
proactive in job markets, anticipating requirements and opportunities, and acting to fulfill recruitment requirements.<br />
THE SOLUTION<br />
A Big Data solution was needed to manage and deliver rapid insight into the sheer volumes of data involved.<br />
Capgemini and Cloudera experts worked closely with the client’s team to list and prioritize the use-cases relevant<br />
for their initial business goals. This led to a proof of concept (POC) project to match job demand and supply in a<br />
specific geography - in this case, France.<br />
Capgemini’s solution involved implementing four major elements not present in the existing system:<br />
• Cloudera Enterprise to store all data and run the data modeling engine<br />
• An analytical SQL database running in conjunction with Cloudera Enterprise<br />
• A data visualization product<br />
• A solution to geo-code the geographical data<br />
As part of the solution, a learning algorithm processes the text within CVs and job openings to identify and flag<br />
similarities. The solution also delivers data from the visualization product to the existing reporting tools which are<br />
already familiar to business users.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
14
Retours d’expériences Big Data en entreprise<br />
THE RESULT<br />
The initial project has successfully demonstrated the viability of the Big Data solution to deliver improved insight<br />
into job markets in a specific geography. This enables users to more proactively match job seekers with relevant<br />
openings.<br />
The system automated the matching of offers and CVs. For instance it was able to analyze 200,000 documents<br />
(including offers and CVs) in only two hours using a handful of computers. The client has verified the results of the<br />
analysis, with the feedback that “users have been amazed” by the accuracy of the system.<br />
After a successful and low-cost POC, the project is now being expanded to explore around 15 additional business<br />
use-cases. These include features such as the ability to have the amount of employment contracts signed per<br />
month, per activity, and per work area or the ability to analyze the travel time between the job seeker and the job<br />
offer.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
15
Retours d’expériences Big Data en entreprise<br />
COMPLEX SYSTEMS - TELE SHOPPING<br />
KNOWLBOX : PLATE-FORME DE DATA MARKETING UNIQUE, LE PLUS<br />
COURT CHEMIN VERS UNE STRATÉGIE MARKETING OPTIMISÉE<br />
LE BESOIN<br />
Les big data ont envahi l’espace médiatique depuis quelques années. Si nombre d’articles détaillent les bénéfices<br />
qu’elles procurent, tant en termes de connaissance client, d’optimisation de processus ou d’amélioration des<br />
capacités de prévision des entreprises, peu s’attardent sur les méthodes qui permettent de les matérialiser. C’est<br />
certainement la raison pour laquelle seulement 25% des entreprises déclarent avoir déjà mis en place un marketing<br />
personnalisé, alors qu’elles sont 80% à souhaiter exploiter davantage leurs données pour optimiser les actions<br />
marketing.<br />
LA SOLUTION:<br />
KNOWLBOX, plate-forme de data marketing unique vous aide à utiliser de manière optimale toutes vos données.<br />
KNOWLBOX propose directement une palette de modules d’analyse métier. Toute l’expertise nécessaire est dans<br />
l’outil. Les résultats présentés sont validés par des tests de significativité statistique. Le déploiement des modèles<br />
sur l’univers de production est réalisé dans le même flux que l’analyse, donc sans risque d’erreur, très simplement<br />
et extrêmement rapidement. Connecté en permanence avec la base de données, les modèles sont mis à jour en<br />
temps réel.<br />
LES AVANTAGES:<br />
Simplicité, rapidité, flexibilité, rentabilité. Quel que soit le type de votre entreprise, KNOWLBOX vous assure de<br />
tirer des conclusions justes pour prendre les décisions en toute sérénité. Vous améliorez ainsi le retour sur investissement<br />
de votre stratégie omnicanale, personnaliser vos offres pour fidéliser vos clients, et faire croitre votre<br />
entreprise grâce aux data.<br />
LA DÉMONSTRATION AVEC TELESHOPPING:<br />
Filiale à 100% de TF1, et première société française de téléachat, TELESHOPPING s’appuie sur 4 canaux de<br />
diffusion produits. La télé (1), avec 18 000 heures de programmes par an, qui permet de découvrir près de 300<br />
nouveaux produits par an, les magasins (2), les sites internet (3) et enfin, le catalogue papier (4), avec 6 millions<br />
d’envois annuels. Le catalogue, qui présente une offre produits beaucoup plus étendue que la télé, est un élément<br />
central de la stratégie de fidélisation aux côtés de des cartes de fidélité et des leviers digitaux.<br />
Mais pour Olivier Dubois, responsable du Département Fidélisation e-CRM et Marketing Digital, la question était :<br />
Le catalogue papier est il encore rentablement efficace?<br />
«Nous devions mesurer, dans des temps très courts, l’impact du catalogue sur les ventes, notamment au regard<br />
de l’impact du web et des émissions.<br />
Ceci impliquait d’arrêter de raisonner en silo, et reconstituer une vision business globale. Compte tenu des<br />
volumétries en jeu et du fait qu’il était nécessaire de reconstituer différentes cohortes de clients sur plusieurs années,<br />
c’était un vrai projet big data.»<br />
«KNOWLBOX est conçue pour répondre directement à toutes sortes de problématiques marketing, de connaissance<br />
client et d’analyse prédictive… La solution répondait tout à fait à nos besoins : quelques jours ont suffi pour<br />
son déploiement, à la fois pour intégrer nos données – 1.2 millions de clients, et l’intégralité de leur historique de<br />
comportement - et pour la paramétrer. Et ceci sans aucun impact sur notre SI.<br />
A partir de là, l’analyse détaillée de l’impact du catalogue sur nos ventes a été menée, conformément à la promesse<br />
de l’outil, en quelques clics !<br />
Nous avons mesuré avec KNOWLBOX une augmentation du nombre de commandes de 50% due au catalogue,<br />
et démontré que la réception du catalogue augmente les ventes de l’émission télé de 20%. Au final, c’est la durée<br />
de vie du client même qui est impactée.<br />
Cette étude nous a aussi permis de découvrir la puissance, alliée à une grande simplicité, de la plateforme analytique<br />
KNOWLBOX, avec laquelle des scores d’appétence catalogue ont aussi été développés et déployés.<br />
A TELESHOPPING, nous n’avons plus aucun doute sur la place du catalogue papier dans une stratégie de fidélisation<br />
client.»<br />
C’est ainsi qu’à contre-courant d’une bonne partie des VADistes, TELESHOPPING démontre que son catalogue<br />
papier est un facteur de développement des ventes.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
16
Retours d’expériences Big Data en entreprise<br />
AVEC SA NOUVELLE PLATE-FORME BIG DATA ANALYTIQUE KNOWLBOX, COMPLEX<br />
SYSTEMS PERMET À TOUTES LES ENTREPRISES DE PRENDRE LES DÉCISIONS BA-<br />
SÉES SUR LEURS DATA.<br />
A la fois éditeur de solutions data analytiques pour le marketing et bureau d’études depuis près<br />
de 20 ans, COMPLEX SYSTEMS innove avec la plate-forme KNOWLBOX qui permet à toutes<br />
les entreprises, quelles que soient leurs contraintes budgétaires, techniques ou humaines, de<br />
pouvoir enfin prendre des décisions reposant sur leurs données.<br />
LA PUISSANCE DE L’ANALYTIQUE À LA PORTÉE DE TOUTES LES ENTREPRISES<br />
La plate-forme KNOWLBOX permet à toutes les entreprises qui ont des données de pouvoir enfin les utiliser pour<br />
optimiser leurs décisions marketing.<br />
Elle supprime les freins à la mise en place d’une démarche data driven - manque d’expertise, coût des logiciels et<br />
temps - et permet une montée en compétence interne progressive et adaptée sur les sujets data. La tarification<br />
sous forme d’abonnement fonction de l’utilisation garantit un budget maitrisé.<br />
Avec KNOWLBOX, COMPLEX SYSTEMS donne à toutes les entreprises le moyen de s’engager simplement,<br />
selon leurs besoins et en toute sécurité dans une démarche marketing data driven gagnante.<br />
KNOWLBOX PLATE-FORME BIG DATA MARKETING FLEXIBLE ET SANS ENGAGEMENT<br />
KNOWLBOX est une plate-forme big data marketing, déployée et paramétrée en 2 jours sur tout type de base -<br />
ORACLE, MySQL, SQLServer, cloud Amazon Web Services... Sans programmation ni traitements de données,<br />
encapsulant une véritable intelligence datamining et dédiée aux problématiques marketing, KNOWLBOX simplifie<br />
drastiquement l’expérience utilisateur. La plate-forme, conçue pour répondre directement aux questions des<br />
directions marketing telles que valeur client, appétence produit, parcours client, cycle de vie, repose sur des<br />
algorithmes éprouvés, et apporte aux dataminers et experts métier des résultats performants immédiatement exploitables.<br />
Offre unique sur le marché, elle est utilisable selon les besoins selon 3 modes :<br />
• En mode autonome, la plate-forme logicielle est livrée clé en main, avec un accompagnement sur 2 mois qui<br />
garantit le succès de son implantation.<br />
• En mode collaboratif, à mi-chemin entre logiciel et outsourcing, l’utilisateur bénéficie de l’expertise et du support<br />
des dataminers du bureau d’études de COMPLEX SYSTEMS, et externalise certaines études.<br />
• En outsourcing l’entreprise dispose d’une plate-forme analytique externalisée et du bureau d’études prêt à répondre<br />
à toutes les demandes de la direction marketing<br />
Proposée sous la forme d’un abonnement mensuel, sans engagement, KNOWLBOX s’adapte à chaque instant<br />
exactement aux besoins de l’entreprise ; son utilisation peut passer d’un mode à un autre sans contrainte.<br />
L’INNOVATION TECHNOLOGIQUE<br />
KNOWLBOX est la seule plate-forme big data analytique, dotée de fonctionnalités clés en main à la fois prédictives<br />
et exploratoires, spécifiquement dédiée aux problématiques marketing. Véritable innovation de rupture,<br />
KNOWLBOX analyse directement les données stockées dans une base de données relationnelle, sans extraction,<br />
sans traitement, sans constitution de fichier d’analyse. Le processus analytique est direct, simple, rapide. En<br />
supprimant l’étape de constitution d’un fichier, jusqu’ici incontournable dès qu’on sort du cadre des problématiques<br />
BI, KNOWLBOX raccourcit considérablement le temps de réalisation des modèles prédictifs, apporte une souplesse<br />
inégalée, et met enfin l’analytique à la portée de profils métier. C’est une avancée majeure qui permet à un<br />
grand nombre de profils métiers d’utiliser les données.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
17
Retours d’expériences Big Data en entreprise<br />
A PROPOS DE COMPLEX SYSTEMS<br />
COMPLEX SYSTEMS a été créé en 1996 à l’époque de l’émergence du datamining par deux passionnés de<br />
data. Avec 20% de son activité consacrée à la R&D data, et près de 20 ans d’expertise datamining, COMPLEX<br />
SYSTEMS, qui a gardé son esprit de start-up, est un éditeur innovant de solutions analytiques de connaissance<br />
client pour le marketing.<br />
COMPLEX SYSTEMS aide les entreprises à exploiter leur capital data, acquérir la connaissance client, développez<br />
et déployer les modèles prédictifs dont elles ont besoin.<br />
CONTACT<br />
Hélène Ivanoff - 01 42 21 48 86 - hivanoff@complex-systems.fr<br />
www.complex-systems.fr<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
18
Retours d’expériences Big Data en entreprise<br />
COUCHBASE - AMADEUS<br />
COUCHBASE HELPS AMADEUS POWER THE TRAVEL INDUSTRY<br />
Today’s travel industry is seeing rapid growth, high customer expectations, fierce competition and pressure on<br />
margins. It’s a market driven by new technologies, new entrants and new business models. Amadeus, the leading<br />
Global Distribution System (GDS) and the biggest processor of travel bookings in the world, looks to NoSQL and<br />
Couchbase to meet stringent data management needs within a demanding industry.<br />
THE NEEDS<br />
The mission of Amadeus is to be the leading provider of IT solutions that enable success in the travel and tourism<br />
industry. The company is a Global Distribution System (GDS), meaning they take travel and tourism data from<br />
airlines, car companies, hotel chains, cruise lines, etc., and distribute it to travel agencies, corporations, travel<br />
websites, airports, and other distributors. As the world’s leading GDS, Amadeus must manage a huge workload<br />
daily, with absolutely no room for service outages, supporting:<br />
• 3.7 Million Bookings per Day<br />
• 1.6 Billion Transactions per Day<br />
• 45 Billion Database Accesses per Day<br />
• 13 Petabytes of Storage<br />
• Response Time of Less than 0.5 Seconds<br />
• Thousands of Developers Pushing New Features (100+ Changes per Day)<br />
Amadeus became interested in NoSQL technology and Couchbase because they needed greater scalabilty and<br />
flexibility for the service-oriented architecture (SOA) on which the business runs. Specifically they needed a lowlatency<br />
key-value store to achieve the required service levels for their architecture, including:<br />
• Consistent high performance (submillisecond latency)<br />
• Elasticity to support frequent capacity expansions of their server farms, needed to handle traffic growth<br />
• Seamless topology changes<br />
Data persistence to support a very write-heavy environment<br />
COUCHBASE AT WORK<br />
To get started with Couchbase, Amadeus implemented Couchbase Server for two applications. The first, the Amadeus<br />
Selling Platform Connect, is the website professional travel agents rely on for doing business. The Platform<br />
supports 500,000 terminals and 150,000 simultaneous users. All web sessions are long-lived, usually lasting the<br />
entire business day, and the amount of session data that needs to be stored is about a half a terabyte. Amadeus<br />
wanted to offload the user sessions, which were stored in JVMs, and move them to a distributed, scalable robust<br />
system, enabling them to reduce TCO and increase scalability. With Couchbase they can achieve this goal, and<br />
maintain a responsive experience for the end users.<br />
The second application, the Availability Processing Engine, is the engine behind many popular travel sites. If you<br />
have ever booked travel online, you have encountered this engine. which displays travel information such as<br />
prices, flights, and dates. This is a critical application for Amadeus, and the one with the most pressing need for<br />
the performance improvements that key-value technology offers. The original system had 28 relational databases<br />
and over 20 terabytes of data. Peak traffic is two million reads of objects per second, and 400K writes per second.<br />
The average object size is about 1 KB.<br />
Amadeus is a leading provider of advanced technology solutions for the global travel industry. Customers include<br />
travel providers (airlines, hotels, rail and ferry operators, etc.), travel sellers (travel agencies and websites), and<br />
travel buyers (corporations and travel management companies).<br />
The Amadeus group employs around 10,000 people worldwide, serving 195 countries. For the year ended December<br />
31, 2012 the company reported revenues of 910.3 million and EBITDA of 1,107.7 million. Amadeus is listed on<br />
the Spanish Stock Exchange under the symbol “AMS.MC” and is a component of the IBEX 35 index.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
19
Retours d’expériences Big Data en entreprise<br />
CRAY - INSTITUTE FOR SYSTEMS BIOLOGY<br />
CRAY SOLUTION BRIEF | CANCER RESEARCH USING<br />
A BIG DATA APPROACH<br />
THE CHALLENGE<br />
Cancer researchers have a wealth of data available to them regarding the molecular and clinical characteristics of<br />
the many forms of cancers and the use of therapeutic drugs to treat disease. This data includes both proprietary<br />
research from their own labs as well as publicly available data such as The Cancer Genome Atlas and other collaborative<br />
scientific and public sources.<br />
The hypothesis is that big data could be used to identify potential new drug treatments from data already available<br />
through analysis of gene-drug relationships without performing “wet” lab work first.<br />
However, traditional analytics tools and techniques to test these hypotheses often take several weeks to months<br />
to execute. They are time consuming because data scientists must assemble all of the necessary data into a new<br />
data model to determine whether the researcher’s hypothesis is accurate. Because of the extensive amount of time<br />
between question and answer, the results of the experiment may be irrelevant by the time they are finally delivered.<br />
The researchers at the Institute for Systems Biology (ISB) wanted to determine whether they could significantly<br />
compress this wait time. They wanted a way to get to “yes” or “no” quickly in order to prioritize drug repurposing<br />
opportunities; this would then accelerate the discovery of new cancer treatments that could be moved through the<br />
drug development and approval process quickly, thus making a major difference to cancer patients.<br />
THE URIKA-GD PLATFORM ADVANTAGE:<br />
To rapidly validate scientific hypotheses in real time and discover new connections within their<br />
existing data, the ISB team needed a powerful solution that enabled data discovery at scale.<br />
THE SOLUTION<br />
The ISB team worked with Cray to develop an innovative, real-time approach to cancer research discovery using<br />
the Urika-GD graph analytics appliance. Using the Urika-GD system, the team was able to assemble all of its<br />
data into a single graph in the appliance’s vast shared memory — eliminating the need to partition the data or create<br />
time-consuming and complex data models prior to posing a hypothesis. This solution is scalable, which allows<br />
the data set to expand over time without losing performance or data integrity.<br />
The ISB team identified new cancer therapy candidates by exploring correlations between frequently mutated<br />
genes from tumor samples to identify existing gene-drug associations that could be possible drug candidates. In<br />
addition to discovering promising new therapies, they also sought to rapidly eliminate from consideration those<br />
drugs that would not deliver the desired result..<br />
To deliver results quickly, the researchers needed a way to discover unknown relationships within the data that the<br />
current data management strategy couldn’t deliver. The Urika-GD system enabled ISB’s researchers to look at the<br />
data in a different way than what they’d be limited to with query-based relational database systems, where the data<br />
determines what questions can be asked. This resulted in a clear visualization of the connections and associations<br />
within the data to help identify promising candidates for new therapies.<br />
The graph analytics approach enabled the research team to identify thousands of drug repurposing opportunities<br />
that warranted further investigation. For example, this methodology revealed that nelfinavir, which is used to treat<br />
HIV, showed selectivity in a separate research study for HER2-breast cancer. The ISB team came to the same<br />
conclusion about nelfinavir in a fraction of the time, with no need for hands-on “wet lab” work to test the hypothesis<br />
- validating the accuracy and efficacy of the big data approach for identifying drug treatment solutions.<br />
THE URIKA-GD PLATFORM ADVANTAGE<br />
The Urika-GD system, with its large global shared memory, RDF/SPARQL interface and proprietary Threadstorm<br />
multithreaded graph processors, allowed the team to rapidly integrate ISB’s proprietary data with publicly available<br />
data, enabling the researchers to identify new relationships in the data without any upfront modeling. No advance<br />
knowledge of the relationships within the data is required to identify non-obvious patterns, facilitating true data<br />
discovery.<br />
Using the Urika-GD platform instead of traditional database strategies and investigative laboratory experiments,<br />
the ISB researchers significantly reduced the time to discovery, saving months or years of research with a higher<br />
probability of success.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
20
Retours d’expériences Big Data en entreprise<br />
SOLUTION BRIEF | CANCER RESEARCH<br />
The impact of using a more powerful analytics solution was immediate-and dramatic: In the amount of time it previously<br />
took to validate a single hypothesis, the team could now validate 1,000.<br />
About Urika-GD The Urika-GD big data appliance for graph analytics helps enterprises gain key insights by discovering<br />
relationships in big data. Its highly scalable, real-time graph analytics warehouse supports ad hoc queries,<br />
pattern-based searches, inferencing and deduction. The Urika-GD appliance complements an existing data warehouse<br />
or Hadoop® cluster by offloading graph workloads and interoperating within the existing analytics workflow.<br />
ABOUT CRAY GLOBAL SUPERCOMPUTING LEADER<br />
Cray Inc. provides innovative systems and solutions enabling scientists and engineers in industry, academia and<br />
government to meet existing and future simulation and analytics challenges. Leveraging more than 40 years of<br />
experience in developing and servicing the world’s most advanced supercomputers, Cray offers a comprehensive<br />
portfolio of supercomputers and big data storage and analytics solutions delivering unrivaled performance, efficiency<br />
and scalability. Go to www.cray.com for more information.<br />
©2014 Cray Inc. All rights reserved. Specifications subject to change without notice. Cray is a registered trademark<br />
and Urika-GD is a trademark of Cray Inc. All other trademarks mentioned herein are the properties of their respective<br />
owners. 20140915<br />
www.cray.com<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
21
Retours d’expériences Big Data en entreprise<br />
CSC - HGST<br />
AMÉLIORER LA SATISFACTION CLIENT ET LA QUALITÉ DES PRODUITS<br />
AVEC UNE PLATEFORME BIG DATA AS A SERVICE<br />
Western Digital, l’un des leaders mondiaux de la conception et de la fabrication de disques durs s’est attaqué<br />
au défi d’accroître la qualité de ses disques durs, d’améliorer l’efficacité opérationnelle de sa fabrication et de<br />
permettre aux personnes de toute l’entreprise de profiter de nouvelles données. Le problème auquel l’entreprise<br />
devait faire face était des ensembles de données qui devenaient si vastes et complexes qu’il devenait compliqué<br />
de travailler avec ces données en utilisant les outils et techniques habituels. En utilisant la solution CSC Big Data<br />
Platform as a Service pour relever ces défis, la totalité des sources de données disparates de HGST a pu être mise<br />
en pratique professionnelle en fournissant des outils permettant d’afficher l’ensemble de « l’ADN » de l’entreprise<br />
— du développement à la fabrication, en passant par les tests de fiabilité et le marketing et les ventes - pour que<br />
tout soit accessible à tout moment et en quelques secondes. Une fois en production, la plateforme de big data CSC<br />
leur a permis d’accroître les normes de qualité, d’améliorer la qualité du produit fini et d’augmenter les niveaux de<br />
satisfaction des clients. Le retour sur investissement du projet a été immense grâce à des économies tirées des<br />
cas d’utilisation initiaux qui ont payé pour l’intégralité de cet effort en trois mois.<br />
ENJEU<br />
L’unité des disques durs (DD) de Western Digital devait relever plusieurs défis, comme des échéances de projet<br />
très courtes, l’intégration de sources de données disparates, une expertise interne réduite et des volumes de données<br />
gigantesques. Lorsqu’une intégration client échoue lors d’un test, le client de Western Digital demande à<br />
voir les données de fiabilité pour tous ses disques durs, afin d’établir une comparaison. Avant, ce processus aurait<br />
pris des semaines d’effort manuel, notamment si les données devaient être extraites de différents silos et bandes<br />
d’archive.<br />
SOLUTION<br />
Infochimps, une société de CSC, a aidé Western Digital en déployant son Big Data Cloud grâce à un moteur<br />
d’analyse de données machine sophistiqué. Nous avons également proposé une infrastructure très évolutive offrant<br />
des interfaces simples pour ajouter de nouveaux éléments de données et déployer de nouvelles analyses de<br />
données s’appuyant sur des solutions open source de sociétés leader du Web comme Google, Yahoo !, Facebook.<br />
RÉSULTATS<br />
Grâce à l’analyse des big data, l’intégralité de l’ADN d’un disque - du développement à la fabrication et au test de<br />
fiabilité - est accessible à tout moment. La nouvelle infrastructure implique une charge opérationnelle minimale (en<br />
tant que service entièrement géré), une échéance de développement réduite et une infrastructure souple et agile<br />
pour convertir efficacement les données en recettes.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
22
Retours d’expériences Big Data en entreprise<br />
CSC - ASSURANCES AUTO<br />
COMPAGNIE D’ASSURANCE AUTOMOBILE LEADER DU MARCHÉ<br />
AMÉRICAIN : FOURNIR UNE PLATEFORME BIG DATA ÉCONOMIQUE POUR<br />
TRAITER UN VOLUME IMPORTANT DE DONNÉES TÉLÉMATIQUES<br />
RÉSUMÉ<br />
Une compagnie d’assurance automobile leader du marché qui compte plus de 18 000 agents au service de 81<br />
millions de clients aux États-Unis et au Canada souhaitait lancer un programme fondé sur la télématique qui permettrait<br />
à ses conducteurs de personnaliser leur prime automobile en fonction de leur conduite. CSC a proposé<br />
une plateforme de big data économique conçue et gérée pour mettre en pratique les exigences de niveau de service<br />
à une vitesse sans précédent afin de traiter des volumes élevés de données télématiques par le biais d’une<br />
plateforme à forte disponibilité. La solution a accéléré le délai de mise sur le marché et a permis de respecter les<br />
délais commerciaux essentiels.<br />
ENJEU<br />
Cette initiative particulièrement visible au niveau du Conseil d’Administration visait à rattraper le retard sur d’autres<br />
opérateurs qui offrent déjà des produits sur le marché. Elle nécessitait une plateforme prenant en charge une application<br />
analytique fondée sur un haut volume de données télématiques.<br />
Les challenges à relever étant :<br />
- La capacité à répondre aux exigences de mise sur le marché de l’entreprise<br />
- Le fossé de compétences technologiques internes<br />
- les plateformes technologiques actuelles n’étaient pas capables de réaliser ce traitement et n’étaient pas<br />
économiques<br />
SOLUTION<br />
Une plateforme solide, intégrée et sécurisée pour permettre à une application de télématique de tirer le meilleur<br />
parti des technologies d’infrastructure et de sécurité informatiques pour les analyses et la collecte de données.<br />
Un moteur d’ingestion de big data hébergé avec un réseau hautement sécurisé<br />
Conçu pour des volumes élevés de données télémétriques (6 millions de clients)<br />
Haute disponibilité fournie par 2 centres de données pour la continuité de l’activité<br />
Solutions de surveillance et de sécurité de classe mondiale avec assistance 24h sur 24, 7j sur 7<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
23
Retours d’expériences Big Data en entreprise<br />
RÉSULTATS<br />
La solution a permis la mise en place d‘un programme de discount sur les polices d’assurance lié à la qualité de<br />
conduite. Ce programme s’appuie sur l’analyse des habitudes de conduite en traitant des quantités massives de<br />
données venant de capteurs et en développant des modèles dynamique d’analyse de risques<br />
Les autres bénéfices pour le client furent :<br />
- des dépenses initiales limitées pour un lancement rapide<br />
- une plateforme hautement disponible : conçue et gérée pour mettre en pratique les exigences de niveau de service<br />
- une rapidité de mise sur le marché : la plateforme CSC a permis au client d’accélérer le temps de mise sur le<br />
marché et de respecter ses échéances commerciales essentielles.<br />
- une expansion et une évolution rapide au fur et à mesure que le programme est déployé et adopté au sein des<br />
52 états à couvrir.<br />
CSC - VOYAGISTE ONLINE<br />
COMPAGNIE LEADER DU MARCHÉ WEB EUROPÉEN DES VOYAGES<br />
RÉSUMÉ<br />
Avec l’aide de CSC, ce client leader du marché web européen des offres de voyages et de loisirs a augmenté<br />
significativement son chiffre d’affaire en segmentant sa base clients et en lançant une campagne marketing ciblée.<br />
En utilisant le modèle RFM (Recency, Frequency and Monetary Value), CSC a fusionné et nettoyé 7 sources de<br />
données et réalisé de l’analytique sur sa base clients. Des données ouvertes (open data) – provenant de l’INSEE<br />
– y ont été insérées afin d’améliorer l’algorithme d’évaluation en s’appuyant sur :<br />
- les données géographiques avec coordonnées GPS pour calculer les distances de voyage<br />
- les revenus moyens par zone d’habitation<br />
- l’âge moyen par prénom pour chaque client potentiel<br />
ENJEU<br />
La fusion de ce client avec un de ces compétiteurs engendra le besoin de réaliser des synergies entre les deux<br />
sociétés, la priorité étant de fusionner et moderniser leur Connaissance Client et de construire un nouvel outil commun<br />
de gestion de campagne marketing<br />
SOLUTION<br />
L’approche de CSC consista à développer une nouvelle base de Connaissance Client en :<br />
- définir les besoins clients avec des analystes marketing<br />
- dédupliquer et nettoyer les données client<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
24
Retours d’expériences Big Data en entreprise<br />
- ingérer des données ouvertes pour améliorer l’algorithme d’évaluation<br />
- construire une solution avec les meilleures technologies du marché<br />
CSC a recommandé la segmentation de la base clients en utilisant le modèle RFM (Recency, Frequency and<br />
Monetary Value) et a affiné les évaluations afin d’améliorer le retour sur investissement des campagnes marketing.<br />
RÉSULTATS<br />
CSC a délivré un “Datamart” clients pour faciliter le reporting, l’analyse et la segmentation de la clientèle.<br />
Grace à ce Datamart le client a augmenté :<br />
- sa rétention client de 5%<br />
- ses revenus de 6% en recommandant des stratégies d’upsell<br />
- ses revenus de 10% en recommandant des stratégies de cross sell<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
25
Retours d’expériences Big Data en entreprise<br />
DATA PUBLICA - CEGID<br />
ALIMENTER LES ÉQUIPES DE TÉLÉPROSPECTION EN NOUVEAUX<br />
PROSPECTS GRÂCE AU BIGDATA<br />
CEGID, PREMIER ÉDITEUR FRANÇAIS DE SOLUTION DE GESTION A FAIT APPEL AU<br />
SERVICE DE C-RADAR L’OUTIL DÉVELOPPÉ PAR DATA PUBLICA START UP SPÉCIALI-<br />
SÉE DANS LA COLLECTE DE DONNÉES B2B.<br />
Frédéric Bornuat, responsable du pôle connaissance client et CRM, direction marketing du Groupe Cegid, avait<br />
besoin de mieux identifier ses cibles de prospection afin d’alimenter les équipes de télémarketing avec des fichiers<br />
neufs. Il cherchait notamment à identifier des cibles très précises à savoir les entreprises sous-traitantes dans les<br />
secteurs de l’automobile et de l’aéronautique. Or il n’existe pas de code NAF qui permet d’identifier les entreprises<br />
de ces secteurs d’activité. Cegid a donc fait appel aux technologies du produit C-Radar pour les aider dans cette<br />
démarche de segmentation.<br />
Grâce à la base de données B2B alimentée par les données du web, ce travail de ciblage a été particulièrement<br />
rapide et efficace. Plusieurs centaines d’entreprises correspondant exactement à la cible désignée ont été identifiées<br />
: les équipes de télémarketing du Groupe Cegid ont été alimentées en fichiers de prospection contenant de<br />
nouveaux contacts, jamais identifiés.<br />
“Grâce à la solution C-Radar, nous avons pu traiter rapidement une base de données entreprises de plusieurs<br />
dizaines de milliers d’entités pour en extraire les quelques centaines de contacts très ciblés que nous voulions<br />
prospecter.”<br />
Frédéric Bornuat, responsable du pôle connaissance client et CRM, direction marketing du Groupe Cegid<br />
DATA PUBLICA - CCI PARIS<br />
CLASSER LES ENTREPRISES DANS UNE DIZAINE DE FILIÈRES MÉTIERS<br />
ET SEGMENTER CHAQUE FILIÈRE EN S’AFFRANCHISSANT DES LIMITES<br />
DES CODES NAF GRÂCE AU BIGDATA.<br />
La Chambre de Commerce et d’Industrie Paris Ile-de-France est un interlocuteur privilégié des entreprises de sa<br />
région. En effet la CCI Paris Ile-de-France collabore avec plusieurs centaines de milliers d’entreprises locales qui<br />
représentent près de 30% des entreprises françaises. Elle les accompagne de la création à la transmission en<br />
passant par toutes les étapes de leur développement. Pour être à même de répondre aux besoins des entreprises<br />
et d’apporter une réponse cibléee, la CCI Paris Ile de France met en place une approche par filière pour laquelle<br />
elle avait besoin d’être accompagnée techniquement par des experts du traitement des données B2B.<br />
Catherine Demongeot, directrice du marketing et de la relation clients déclare notamment “Data Publica grâce à<br />
son outil C-Radar nous permet de réaliser une segmentation plus fine que celle réalisée à partir de codes NAF<br />
par exemple. La solution C-Radar de Data Publica est une interface performante qui fournit aux conseillers, au<br />
quotidien, les informations par filières ainsi qu’une fiche de synthèse par entreprises. Sans la technologie de Data<br />
Publica ce classement aurait été moins pertinent. Nous avons apprécié la capacité de DP à mener à bien le projet,<br />
en respectant les délais et le budget.”<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
26
Retours d’expériences Big Data en entreprise<br />
DATA PUBLICA - B-POST<br />
ANALYSE ET SEGMENTATION PLUS FINE D’UN MARCHÉ. MISE EN PLACE<br />
D’UN NOUVEL OUTIL DE CIBLAGE POUR LA PROSPECTION DE<br />
L’ACTIVITÉ COLIS.<br />
Bpost (la poste belge) a lancé en 2014 un ambitieux projet pour exploiter les promesses du big data dans le domaine<br />
de la prospection commerciale afin de démarcher de façon plus efficace et notamment mieux segmenter<br />
le marché.<br />
Sébastien Dreossi, senior expert au service customer intelligence and business analytics et chef du projet déclare:<br />
“ Après avoir consulté 4 sociétés, Bpost a retenu Data Publica du fait de son approche basée sur un produit existant<br />
en constante évolution (C-Radar), sa capacité à s’adapter à la spécificité linguistique de la Belgique, et du<br />
fait de son engagement à co-créer une solution adaptée aux besoins et à la taille de bpost.”<br />
Les premiers résultats du projet sont conformes à nos attentes, nous avons apprécié tout particulièrement<br />
l’implication totale des équipes de DP, leur écoute et leur capacité à faire évoluer la solution en fonction de nos<br />
attentes».<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
27
Retours d’expériences Big Data en entreprise<br />
DATAIKU - BLABLACAR<br />
BLABLACAR FAIT CONFIANCE À DATAIKU<br />
LA CONNAISSANCE DU CLIENT, UN ENJEU DATA<br />
Au cœur de sa stratégie Big Data, BlaBlaCar cherche à améliorer sa connaissance client. Cette connaissance<br />
permet d’entreprendre une communication ciblée pour ses différents profils d’utilisateurs. Grâce à la collecte et à<br />
l’analyse approfondie des données, BlaBlaCar calcule des indicateurs de performance afin d’optimiser le taux de<br />
conversion et d’améliorer la rétention.<br />
DES DONNÉES ACCESSIBLES AUX ÉQUIPES MÉTIERS<br />
Avec le Data Science Studio de Dataiku, les équipes métiers, Marketing et BI ont la main sur les données. Elles<br />
peuvent ainsi acquérir des données externes, les centraliser et les formater afin de générer des rapports BI. Elles<br />
n’ont plus besoin de faire des demandes d’extractions de bases SQL auprès des équipes techniques.<br />
Avec le logiciel Data Science Studio, l’équipe en charge du projet data chez BlaBlaCar peut construire un flux qui<br />
récupère des données depuis diverses sources (bases SQL, données partenaires ou externes…), de les agréger<br />
et de les stocker dans une base Vertica optimisée pour les calculs analytiques en contexte Big Data. Par la suite,<br />
les équipes métiers, marketing et BI peuvent construire et consulter des rapports à loisir sans régénérer des<br />
requêtes complexes et couteuses sur les bases SQL de production. Une fois les rapports générés, Tableau est<br />
branché à la base Vertica et permet de créer des visualisations sur les données.<br />
LES BÉNÉFICES DE DATA SCIENCE STUDIO POUR BLABLACAR :<br />
« DSS est prévu pour tous les « corps de métiers » de la Data Team - du data engineer au data analyst. Avec<br />
l’aide de DSS, nous avons créé une structure qui nous permet de rendre autonomes les équipes d’analystes.<br />
Les itérations ne sont pas dépendantes des techniciens, ce qui était un de nos objectifs premiers. »<br />
Gaëlle Périat - BI Manager, BlaBlaCar<br />
A PROPOS DE BLABLACAR<br />
BlaBlaCar a lancé en 2011 le 1er service de réservation en ligne au monde dans le secteur du covoiturage, faisant<br />
de cette nouvelle pratique un véritable moyen de transport. BlaBlaCar compte aujourd’hui plus de 10 millions de<br />
membres dans 13 pays et connaît une croissance de 200% par an.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
28
Retours d’expériences Big Data en entreprise<br />
DATAIKU - CHRONOPOST<br />
CHRONOPOST FAIT CONFIANCE À DATAIKU<br />
LE BIG DATA OUVRE DE NOUVELLES PERSPECTIVES<br />
Le logiciel de Dataiku, Data Science Studio, ouvre à Chronopost de nouvelles perspectives d’analyses de données<br />
pour mieux servir la stratégie de l’entreprise. L’historique des livraisons de Chronopost, qui contient notamment<br />
des données horaires et géographiques sur plusieurs années, est pleinement exploité afin de créer de la valeur.<br />
Les applications issues de ces données peuvent être d’ordre technique, commercial (nouvelles offres) ou opérationnel<br />
(optimisation de l’organisation, des processus de distribution, etc).<br />
OPTIMISATION DU DERNIER KILOMÈTRE AVEC DSS<br />
Chronopost utilise DSS pour analyser et identifier, à l’échelle de la France, les moyens opérationnels engagés chaque<br />
jour pour couvrir l’ensemble du territoire. Grâce à des analyses approfondies de leurs bases de données, Chronopost<br />
assure une qualité constante de ses différentes offres (livraison avant 13h, avant 8h…) au meilleur coût de production.<br />
Un score est ainsi calculé pour chaque adresse afin d’indiquer la facilité de livraison à un moment donné.<br />
A terme, l’objectif est d’affiner les moyens routiers nécessaires pour optimiser le dernier kilomètre quelque soit le<br />
moment de l’année, notamment les périodes critiques comme Noël, la fête des mères, etc.<br />
Le projet est mené en interne par le pôle d’assistance à maîtrise d’ouvrage de Chronopost.<br />
LES BÉNÉFICES DE DATA SCIENCE STUDIO POUR CHRONOPOST :<br />
« DSS nous permet un accès souple et direct à nos données de masse. Nous pouvons plus facilement nous en<br />
faire une vision globale, puis affiner notre recherche rapidement dans une architecture alliant Big Data et architecture<br />
standard. »<br />
Régine Buys - Responsable de Domaine BI<br />
A PROPOS DE CHRONOPOST<br />
Chronopost est l’un des acteurs majeurs de la livraison express de colis. En 2013, Chronopost a transporté 102,2<br />
millions de colis dans plus de 230 pays en Europe et dans le monde.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
29
Retours d’expériences Big Data en entreprise<br />
DATAIKU - CITYVOX<br />
CITYVOX FAIT CONFIANCE À DATAIKU<br />
CONSOLIDATION DES DONNÉES : UN ENJEU BIG DATA<br />
Afin de mieux comprendre ses utilisateurs et leurs attentes en terme de sorties, loisirs et événements, Cityvox a<br />
décidé de regrouper dans un même environnement l’ensemble de ses données. Par exemple, cela comprend les<br />
données des utilisateurs, les historiques d’utilisation du site internet et des applications mobiles, les notations des<br />
utilisateurs, les renseignements sur les restaurants, etc.<br />
En utilisant le Data Science Studio de Dataiku, Cityvox a été en mesure de regrouper simplement ces données,<br />
pourtant hétérogènes, dans le but d’en tirer de la valeur. L’interface graphique et les processeurs intégrés<br />
ont permis de nettoyer, harmoniser, enrichir les données puis de les croiser (par lieu, événement, utilisateur…).<br />
Aujourd’hui, une base Vertica stocke l’ensemble des données consolidées de Cityvox.<br />
UN MODÈLE PRÉDICTIF POUR OPTIMISER LES PAGES RESTAURANTS<br />
Une fois les données centralisées et nettoyées, les équipes de Cityvox ont pu en extraire des informations et obtenir<br />
des pistes d’améliorations pour leur business. Par exemple, des optimisations ont été réalisées sur les fiches<br />
restaurants afin d’augmenter les visites sur le site. Pour ce faire, Cityvox a construit avec DSS des modèles prédictifs<br />
afin de déterminer les facteurs qui influent sur la satisfaction utilisateur. Une autre valorisation des données<br />
a été réalisée avec la génération de graphiques pour différents reportings internes.<br />
LES BÉNÉFICES DE DATA SCIENCE STUDIO POUR CITYVOX :<br />
« DSS est l’outil qui nous permet d’automatiser le nettoyage et la centralisation de toutes nos données au même<br />
endroit. Grâce à l’outil, nous maitrisons entièrement le processus d’entrée et de sortie de nos nombreux flux de<br />
données pour pouvoir en faire bon usage. » Raphaël Guillet - Directeur Technique de Cityvox<br />
A PROPOS DE CITYVOX<br />
Cityvox, entreprise née à Marseille en 1999, est un portail dédié aux loisirs et aux sorties en ville. Avec plus d’un<br />
million de membres et plus de deux millions de visiteurs uniques par mois, Cityvox est le site référent de l’actualité<br />
des sorties en France.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
30
Retours d’expériences Big Data en entreprise<br />
DATAIKU - PAGESJAUNES<br />
PAGESJAUNES FAIT CONFIANCE À DATAIKU<br />
LE BIG DATA POUR DE MEILLEURES RÉPONSES<br />
Huit Français sur dix font appel au site PagesJaunes.fr pour se renseigner ou pour faire la promotion de leur<br />
activité, ce qui génère plusieurs centaines de millions de requêtes chaque année. La qualité et la pertinence des<br />
résultats de ces requêtes est donc un enjeu majeur pour PagesJaunes. L’objectif du projet était pour PagesJaunes<br />
d’améliorer la qualité de ses réponses, en automatisant la détection et la correction des requêtes problématiques.<br />
DATA SCIENCE STUDIO EN ACTION<br />
PagesJaunes a choisi l’expertise de Dataiku et son Data Science Studio qui combine des outils de gestion de données,<br />
de statistiques, de visualisation et d’analyse prédictive en contexte Big Data.<br />
Le projet tire massivement parti de la richesse de l’écosystème Open Source intégré à Data Science Studio :<br />
Python, scikit-learn, Pig, Hive, ElasticSearch, etc. Des données issues de l’utilisation du moteur de recherche<br />
(listes des requêtes, logs de navigation et clics, ordre des visites des pages, etc.) sont assemblées et exploitées<br />
afin d’isoler les recherches infructueuses. Un score est ainsi calculé pour chaque requête afin de prédire celles<br />
qui donnent des réponses non-satisfaisantes aux utilisateurs. Ceci permet de cibler les failles du moteur et par<br />
conséquent d’améliorer l’expérience utilisateur.<br />
Depuis le début du projet, une dizaine de collaborateurs PagesJaunes ont été formés à l’usage d’Hadoop,<br />
des statistiques et du « Machine Learning » via le Data Science Studio. Ce projet a servi de pilote et a permis<br />
l’émergence chez Pages Jaunes de plusieurs autres initiatives d’innovation par la donnée.<br />
LES BÉNÉFICES DE DATA SCIENCE STUDIO POUR PAGESJAUNES :<br />
« La technologie de Dataiku nous a permis de rationaliser notre approche, en utilisant des statistiques basées<br />
sur des millions de requêtes, le procédé est carré et nous travaillons en conscience ! »<br />
Erwan Pigneul, Responsable Projet PagesJaunes<br />
A PROPOS DE PAGESJAUNES<br />
PagesJaunes.fr est le leader français de la publicité et de l’information locale sur Internet, mobile et papier.<br />
Il est un client historique de Data Science Studio, la solution de Dataiku.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
31
Retours d’expériences Big Data en entreprise<br />
DATAIKU - PARKEON<br />
PARKEON FAIT CONFIANCE À DATAIKU<br />
BIG DATA, TROUVE-MOI UNE PLACE DE PARKING<br />
Parkeon a créé « Find Me A Space », une application mobile unique permettant aux conducteurs de trouver une<br />
place de stationnement disponible.<br />
Sous son apparente simplicité se cachent des algorithmes prédictifs de dernière génération, valorisant des millions<br />
de transactions de parcmètres chaque jour, croisées avec des données géographiques « crowdsourcées »<br />
d’OpenStreetMap (points d’intérêt tels que les restaurants et commerces) afin de prédire la pression de stationnement<br />
de manière individualisée dans chaque rue. Cette application, simple et intuitive, est un exemple typique<br />
de « Data-Product » moderne : exploitation et enrichissement de données machines, algorithmes prédictifs en<br />
environnement Big Data et packaging grand public (application iOS).<br />
DATA SCIENCE STUDIO EN ACTION<br />
Pour développer le back-office prédictif de l’application, Parkeon a choisi d’utiliser le Data Science Studio (DSS) de<br />
Dataiku, qui a permis l’intégration des données parcmètres, l’enrichissement avec des données géographiques, le<br />
développement des modèles prédictifs de stationnement et leur industrialisation à grande échelle.<br />
LES BÉNÉFICES DE DATA SCIENCE STUDIO POUR PARKEON :<br />
« Nous avons été séduits par la capacité de DSS à fonctionner sur des volumétries importantes de<br />
données ainsi que par son côté ouvert et transparent quant au fonctionnement des algorithmes. »<br />
Yves-Marie Pondaven, CTO de Parkeon<br />
A PROPOS DE PARKEON<br />
Parkeon, leader international dans le secteur de la mobilité urbaine, propose des équipements et des services<br />
permettant de maîtriser tous les aspects de la gestion d’une infrastructure de stationnement (notamment des parcmètres,<br />
plus de 50% de parts de marché mondiale).<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
32
Retours d’expériences Big Data en entreprise<br />
DELL - DANSKE BANK<br />
DANSKE BANK, PREMIÈRE BANQUE DANOISE, CHOISIT DELL STATISTICA<br />
POUR OPTIMISER SES PERFORMANCES ET RÉDUIRE SES RISQUES OPÉ-<br />
RATIONNELS<br />
DANSKE BANK, PREMIÈRE BANQUE DANOISE ET L’UNE DES PLUS IMPORTANTES<br />
INSTITUTIONS FINANCIÈRES D’EUROPE DU NORD, ADOPTE LA SOLUTION D’ANALYSE<br />
DE DONNÉES ET DE MODÉLISATION PRÉDICTIVE, DELL STATISTICA, POUR LA GES-<br />
TION DU RISQUE ET SES OPÉRATIONS DE SCORING.<br />
Danske Bank a déployé la Plate-Forme Décisionnelle Dell Statistica pour la modélisation, le reporting et la gestion<br />
du risque. La solution fournit une aide à la décision en temps réel pour des besoins métiers variés et de très<br />
nombreux sites en Europe.<br />
Le logiciel Dell Statistica permet d’accélérer la création, le test et le déploiement des modèles de risque, et permet<br />
à Danske Bank d’offrir à ses clients des services sur-mesure à plus forte valeur ajoutée, dans tous les pays et pour<br />
tous les marchés.<br />
« Travailler avec les experts de la Danske Bank a été réellement passionnant. Nous avons réussi à créer ensemble<br />
un système de scoring en temps-réel très performant. Ce système permet une recalibration aisée des<br />
modèles, une grande précision dans la prédiction du risque, et offre d’excellents temps de réponse sur de grosses<br />
volumétries de données en temps-réel et dans un environnement exigeant » confie George Butler, Vice-Président<br />
en charge du Développement chez Dell Statistica. « La solution mise en place est un véritable état de l’art technologique,<br />
déployé dans environnement informatique de pointe »<br />
Lorsque Danske Bank a décidé de mettre à jour son système informatisé de gestion du risque et de scoring,<br />
l’opportunité s’est présentée de faire évoluer l’ancienne plate-forme analytique vers une plate-forme plus performante,<br />
pouvant facilement répondre aux différents besoins métiers en termes d’ETL, de scoring, de reporting et<br />
d’aide à la décision en temps réel.<br />
Danske Bank a réalisé pendant près de deux ans une étude approfondie et un comparatif minutieux des solutions<br />
et des plates-formes analytiques disponibles sur le marché, qui ont finalement abouti au choix de la Plate-Forme<br />
Décisionnelle de Dell Statistica. Danske Bank a eu recours à Dell Statistica pour la mise en oeuvre de la solution,<br />
la formation des utilisateurs ainsi que d’autres services en vue d’assurer une transition en douceur et dans les<br />
délais impartis pour ce projet.<br />
La solution Dell Statistica est aujourd’hui en production afin de répondre aux besoins de la Danske Bank dans ses<br />
applications métier courantes et ses opérations en temps-réel. Danske Bank a été particulièrement impressionnée<br />
par la flexibilité et la convivialité des solutions de Dell Statistica, ainsi que par l’étendue et la puissance des<br />
fonctionnalités offertes.<br />
« Nous sommes très heureux des efforts déployés par Dell Statistica pour comprendre les besoins de Danske<br />
Bank et fournir une solution répondant à ces besoins » déclare Jens Chr. Ipsen, Premier Vice-Président et Directeur<br />
du Développement des Systèmes de Gestion du Risque. « La solution proposée a été facile à intégrer, et a<br />
été déployée dans le respect des délais et des coûts impartis. Dell Statistica a été très réactif aux demandes de<br />
modifications fonctionnelles, et les équipes de Dell Statistica sont à la fois professionnelles et sympathiques. La<br />
solution proposée est désormais totalement opérationnelle et fonctionne parfaitement. »<br />
« Dans un environnement de plus en plus complexe pour les modèles de risque, la solution mise en oeuvre par<br />
Dell Statistica constitue un socle solide pour assurer le suivi du contenu, des performances et des versions des<br />
différents modèles » conclut Monsieur Ipsen.<br />
« Cette intégration de la Plate-Forme Décisionnelle de Dell Statistica avec les systèmes de Danske Bank démontre<br />
l’importance pour un logiciel d’adhérer aux conventions et aux normes d’intégration actuelles, pour la mise<br />
en oeuvre réussie et rapide d’une solution analytique de pointe dans un environnement informatique mature et<br />
complexe, et qui doit répondre à des besoins multiples comme c’est le cas pour Danske Bank. » souligne George<br />
Butler. « Le fait que Dell Statistica soit en mesure de fournir une plate-forme logicielle moderne, non seulement<br />
très performante mais également capable de coexister en parfaite harmonie avec les systèmes informatiques<br />
existants, est essentielle pour générer de la valeur immédiatement et sur le long terme. »<br />
Les composantes de la plate-forme Dell Statistica déployée chez Danske Bank comprennent Dell Statistica Enterprise<br />
Server, Dell Statistica Data Miner avec Optimisation de Processus, le Système Expert de Suivi et d’Alertes<br />
de Dell Statistica, Dell Statistica Live Score ainsi que la Plate-Forme Décisionnelle de Dell Statistica. Le système<br />
est utilisé en particulier pour le développement des modèles analytiques et le scoring du risque crédit, qui sont des<br />
applications essentielles dans toutes les banques du Groupe Danske Bank.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
33
Retours d’expériences Big Data en entreprise<br />
AUTRES CAS D’USAGES AVEC LA SOLUTION DELL STATISTICA<br />
Continental Automotive a sélectionné la solution Statistica afin de classer des images transformées numériquement<br />
pour prévoir et contrôler la qualité de sa production.<br />
http://www.statsoft.com/Portals/0/Customers/Success_Stories/2013-Continental-Automotive-Success-Story.pdf<br />
EOS KSI a sélectionné Statistica pour optimiser ses processus de recouvrement de la dette http://www.statsoft.<br />
com/Portals/0/Customers/Success_Stories/2013-eosKSI.pdf<br />
Unipetrol RPA utilise Statistica Réseaux de Neurones pour analyser ses processus de production https://www.<br />
statsoft.com/Portals/0/Customers/Success_Stories/StatSoft-Unipetrol-SuccessStory.pdf<br />
A PROPOS DE DELL STATISTICA<br />
Dell Statistica est l’un des principaux éditeurs de logiciels analytiques avec 30 centres de compétences dans le<br />
monde et plus d’1 million d’utilisateurs. Dell Statistica est un système intégrable à l’échelle de l’entreprise qui est<br />
utilisé dans de nombreuses applications critiques, partout où la modélisation prédictive permet d’améliorer la productivité<br />
et la rentabilité. Dell Statistica est en outre fier de contribuer à l’amélioration de la santé, au renforcement<br />
de la sécurité et à la préservation de l’environnement.<br />
Plus ergonomique et offrant un meilleur rapport qualité-prix par rapport à ses concurrents,<br />
Dell Statistica est sans conteste l’un des logiciels analytiques les plus performants et les plus évolués à ce jour<br />
; les utilisateurs apprécient particulièrement la qualité et le soin apportés à son développement, garants depuis<br />
toujours de son succès.<br />
INFORMATIONS COMPLÉMENTAIRES :<br />
Pour obtenir plus d’informations visitez notre site Internet : www.statsoft.com<br />
Pour télécharger une version d’évaluation : http://software.dell.com/products/statistica/<br />
Pour obtenir notre livre blanc, la Révolution du Big Data… Comment extraire de la valeur à partir des Big Data :<br />
http://www.statsoft.fr/pdf/la_revolution_du_big_data.pdf<br />
Pour visualiser les vidéos « Le Data Mining en 35 leçons » : https://www.youtube.com/playlist?list=PL0C134C89<br />
8122050E<br />
Pour avoir plus d’informations contactez-nous : info.statistica@software.dell.com<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
34
Retours d’expériences Big Data en entreprise<br />
DELTAMU - SANOFI-PASTEUR<br />
SANOFI-PASTEUR – N°1 MONDIAL DU VACCIN<br />
Dans le cadre de la qualité de ses productions de vaccins, Sanofi Pasteur utilise de nombreuses micropipettes.<br />
Compte tenu de l’exigence Qualité autour de ses vaccins, l’entreprise vérifie périodiquement ses micropipettes.<br />
Ces vérifications consistent en la réalisation de mesures de la masse de volumes d’eau pipetés. Ces masses,<br />
converties en volume à partir de la masse volumique de l’eau (et des conditions environnementales, température,<br />
pression et hygrométrie, de cette mesure), permettent de s’assurer que le volume prélevé est bien le volume souhaité.<br />
L’analyse des écarts entre « volume mesuré » et « volume prélevé » permet d’écarter les micropipettes qui<br />
n’ont pas la performance attendue.<br />
L’étude conduite par Delta Mu a permis de montrer que, contrairement aux idées initiales, les écarts observés<br />
étaient dus en grande majorité à la variation de pipetage des techniciens chargés de l’opération plutôt qu’aux<br />
micropipettes. Impossible, dans de telles conditions, de tirer des conclusions pertinentes quant à un phénomène<br />
si la mesure (Dans cet exemple, et finalement, le technicien) n’est pas représentative de la grandeur qu’on croit<br />
mesurer (la micropipette) !<br />
Lire http://www.deltamu.fr/Publications/TelechargerArticlePublication/57<br />
DELTAMU - TRAITEMENT THERMIQUE<br />
PME DANS LE DOMAINE DU TRAITEMENT THERMIQUE<br />
Spécialisée depuis plus de 20 ans dans le traitement thermique de pièces métalliques, la société mesure par<br />
échantillonnage la qualité de sa production. Les mesures sont réalisées sur les pièces, après traitement. Il s’agit<br />
de quantifier la dureté obtenue une fois réalisé le process de trempe. Ses principaux clients lui demandent de<br />
s’assurer de la capabilité de ses processus de mesure, cette exigence étant notamment inscrite au rang des exigences<br />
de la norme Qualité qui lui est imposée (FD ISO/TS 16949).<br />
Accompagnée par Delta Mu dans l’analyse des résultats obtenus, l’entreprise se rend (enfin) compte que ses<br />
mesures (qu’elle croyait fiables) dispersent 3 fois plus que le process qu’elle contrôle avec ! Ses mesures ne lui<br />
permettent finalement pas de voir réellement sa production …<br />
Note : L’étude de capabilité consiste à s’assurer, via un plan d’expérience spécifique, que l’incertitude de mesure<br />
(fiabilité) est compatible avec la dispersion du process à analyser.<br />
DELTA MU DANS LE BIG DATA<br />
Forte d’une compétence reconnue dans le domaine de l’évaluation de la qualité des mesures (fiabilité), Delta Mu<br />
intervient à différents niveaux :<br />
• Evaluation de la qualité des mesures, c’est à dire leur capacité à représenter le plus fidèlement possible la grandeur<br />
recherchée ;<br />
• Préconisations en vue de l’amélioration de la qualité des mesures (si nécessaire) ;<br />
• Préconisations quant au maintien de la qualité des mesures dans le temps ;<br />
• Préconisations quant à la robustesse des mesures en cas de changement de capteurs.<br />
Note : La robustesse se définit comme étant l’insensibilité d’une mesure à une cause d’incertitude.<br />
La prestation prend plusieurs formes : Diagnostic/expertise sur site, Rapport de préconisations, développement<br />
de briques « logiciel » spécifiques, formation, …<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
35
Retours d’expériences Big Data en entreprise<br />
HP - AT&T<br />
AT&T LEVERAGES HP VERTICA ANALYTICS PLATFORM TO CHANGE<br />
THE ECONOMICS OF PROVIDING ACTIONABLE INSIGHTS TO<br />
DECISION MAKERS<br />
OVERVIEW<br />
AT&T has made Big Data analytics a core component of the business decision-making process to drive its growth<br />
and maximize customer satisfaction. In May 2013, the telecommunications company augmented its Enterprise<br />
Consolidated Data Warehouse with the HP Vertica Analytics Platform (HP Vertica) to improve the performance of<br />
critical analytics workloads. HP Vertica, a core engine of the HP HAVEn Big Data Platform, has surpassed AT&T’s<br />
expectations and is providing company decision makers with actionable insights into areas such as customer and<br />
network use patterns.<br />
John Yovanovich, Director of Data Strategy, Delivery, and Support at AT&T, explained that his company chose the<br />
HP Vertica Analytics Platform after concluding that “we needed a platform that supported the columnar database<br />
technology required by critical workloads.” This conclusion reflected the increasingly<br />
prominent position of Big Data analytics at AT&T and the potential value the company sees in it.<br />
Yovanovich credits HP Vertica with changing how analytics are consumed and used by AT&T’s lines of business<br />
(LOBs). Above all, his internal LOB clients demand a robust analytics platform that can<br />
run required queries quickly and efficiently. Before deploying HP Vertica, AT&T could not fully exploit the potential<br />
of Big Data analytics because of the cost and time associated with running certain queries on its legacy platform.<br />
With HP Vertica, Yovanovich’s team provides superior outputs at a much lower cost, so business teams are bringing<br />
many more projects to his team.<br />
Yovanovich cited a number of ways in which HP Vertica drives value for AT&T. From the onset, the move avoided<br />
investment costs of $11 million in pending capacity expansion. Business decision makers get query results in less<br />
time and can run more complex queries and analyses. As such, they have more actionable information in their hands<br />
sooner, which helps them craft improved business strategies and make better decisions. This results in improved<br />
services for AT&T’s customers, improved customer relationships, and operational efficiencies.<br />
Meanwhile, Yovanovich’s team has benefited from the speed with which HP Vertica runs queries and its ease of use;<br />
he estimates that teams responsible for preparing and carrying out data queries have become roughly 20% more productive<br />
since deploying HP Vertica. Finally, AT&T is paying much less to run analytics workloads on HP Vertica than it<br />
was paying to run analytics workloads on its legacy platform. This allows business units to migrate certain workloads<br />
to HP Vertica and pay much less even as the quality and speed of the outputs improve substantially.<br />
Based on discussions with Yovanovich, IDC calculates that AT&T is achieving discounted benefits of<br />
$63.38 million over five years with its to-date deployment of 570TB of data on HP Vertica, including cost savings<br />
on analytical queries compared with its legacy row-based analytics platform, costs avoided for increasing its legacy<br />
platform’s capabilities, more efficient retention of data, and improved productivity for its data analytics team. Over a<br />
projected five-year period, this results in a return on investment (ROI) of 657% and a payback period of 4.0 months.<br />
IMPLEMENTATION<br />
AT&T’s Big Data strategy is centered on leveraging the voluminous customer use data that feeds into the company’s<br />
Enterprise Consolidated Data Warehouse to create actionable insights and ultimately business advantages.<br />
As of October 2014, the warehouse employs 3.2PB of storage in total and supports all of AT&T’s home and business<br />
solutions product and service lines. The foundation of AT&T’s Big Data strategy is to feed this huge amount<br />
of information — more than 100 million files an hour flow from AT&T cellular towers alone — into shared relational<br />
databases and then move this data into the data warehouse via the Hadoop open source software framework for<br />
analysis driven by analytics platforms.<br />
Two years ago, AT&T began evaluating columnar-based analytics engines after concluding that performance limitations<br />
with its legacy row-based analytics solution would prevent it from fully leveraging data to drive its business.<br />
It had discovered that it could not economically run many of the complex data queries and analyses requested by<br />
its LOBs on its legacy row-based analytics platform. As a result, AT&T sought a more robust, query-oriented analytics<br />
platform with columnar-based analytics technology to enable it to handle more complex queries and handle<br />
queries more efficiently.<br />
AT&T carried out a proof of concept with several Big Data analytics engines and found that HP Vertica came out<br />
on top in both performance and cost. “No one came close to HP Vertica on price,” Yovanovich said. “We also liked<br />
the fact that they are a market leader in columnar database technology with a proven track record among largevolume<br />
customers like us.”<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
36
Retours d’expériences Big Data en entreprise<br />
AT&T initially deployed HP Vertica in May 2013 over four days with four employees in support. Onsite training was<br />
initially provided for 15 employees and has since continued. “HP Vertica performed well out of the box,” Yovanovich<br />
said. “It has exceeded my expectations. It’s quicker, so we spend less time on design. Also, we’re able to spend<br />
more time on development to make sure we put out the best-performing product possible.”<br />
In the first year, AT&T deployed 70TB of new data that had never been sourced to another data analytics platform<br />
to HP Vertica. It also migrated about 160TB off of its legacy analytics platform to HP Vertica, which opened up<br />
space on that platform and improved its throughput. Yovanovich expects HP Vertica to support a growing percentage<br />
of AT&T’s data warehousing operations over the next four years, fueled by new projects, mergers and acquisitions,<br />
and organic growth.<br />
BENEFITS<br />
HP Vertica has changed the economics of using Big Data analytics for AT&T’s LOBs while minimizing the likelihood<br />
that performance bottlenecks will prevent business teams from realizing the full potential of Big Data analytics. As<br />
a result, AT&T’s data analytics team can now provide more actionable data, and Big Data analytics has become<br />
an important component of the company’s growth plans. Yovanovich described a number of ways in which AT&T’s<br />
strategic decision makers are leveraging queries and analyses made possible by HP Vertica. He explained: “We’re<br />
enabling our marketing team to create significant customer insights with HP Vertica based on data records that<br />
they never could before.” This results in personalized customer marketing efforts because “we can determine<br />
which messages and ads to present to a customer based on the customer’s profile and use history.” Strategic<br />
business decision makers at AT&T are also increasingly leveraging analytics delivered by HP Vertica to make important<br />
decisions. Yovanovich explained that AT&T uses call detail analyses to understand how its customers use<br />
its network of cellular towers and then applies this understanding to its strategy for investing in and expanding its<br />
cellular network infrastructure. This analysis, which took 17 hours to complete on AT&T’s legacy analytics engine,<br />
takes just more than 30 minutes to complete with HP Vertica. This means that AT&T can now run these analyses<br />
more often and provide its strategic decision makers with actionable data and insights into how its network is being<br />
used on a more regular, timely basis.<br />
The speed with which HP Vertica can run queries and analyses means that users get results faster and can better<br />
integrate them into their decision-making processes. AT&T is also leveraging HP Vertica’s improved compression<br />
capabilities — 6:1 rather than 2.5:1 with the legacy system — to double the retention time of data for analytics use<br />
from three months to six months. Yovanovich said that this improves the quality of queries and analyses by providing<br />
more complete insights based on a longer history. He said, “My goal is to retain 13 months of data, and I expect<br />
to do this within a year or so, which would give us full seasonality.”<br />
In addition to having a positive impact on AT&T’s lines of business, HP Vertica has altered the economics of Big<br />
Data analytics. HP Vertica costs only a fraction per terabyte (TB) of what AT&T’s legacy analytics platform costs.<br />
This means that Yovanovich’s team can offer the win-win proposition of improved analytics outputs at a much<br />
lower price thanks to the savings it is achieving with HP Vertica. As a result, business teams can afford to support<br />
more projects with analytical queries and data. For Yovanovich, the result is straightforward: “We save our lines of<br />
business so much money on capital with HP Vertica that they give us more projects.” AT&T’s data analytics team<br />
handles this increased project workload in part because of efficiencies it gains by using HP Vertica. Yovanovich<br />
cited the ease of using HP Vertica and its ELT approach (Extract, Load, Transform): “Take the source data, load it<br />
onto the platform, and then transform it on Vertica. This allows you to go directly to provisioning the data because<br />
you don’t need to get it ready to put on the platform.” This allows his team to more accurately track any errant code<br />
and ultimately close tickets faster. Yovanovich estimated that his team is about 20% more efficient with HP Vertica<br />
because “we spend less time with system requirements and development to transform data into an appropriate<br />
model that our internal end users want to see.” HP Vertica has also helped AT&T achieve other cost savings related<br />
to its use of Big Data analytics engines. By migrating projects from its legacy analytics platform onto HP Vertica,<br />
AT&T lengthened the life span of its existing system by about 16 months, which is allowing it to avoid significant<br />
expenses associated with buying more space on the system.<br />
QUANTIFYING THE BENEFITS<br />
Based on interviews with Yovanovich about AT&T’s use of the HP Vertica Analytics Platform, IDC has quantified the<br />
benefits the company is realizing from its to-date deployment of 570TB. When projected<br />
over five years, the benefits from improved data analytical operations, cost reductions, and increased data warehousing<br />
team productivity averaged $17.81 million per year.<br />
BUSINESS PRODUCTIVITY BENEFITS/IT INFRASTRUCTURE COST REDUCTIONS<br />
The HP Vertica Analytics Platform has allowed AT&T’s lines of business to make analytics a more central part of<br />
their operations and planning. For the purposes of this study, IDC has quantified the benefits to these business<br />
teams as the difference in cost for the use of the 160TB of capacity on HP Vertica that was transitioned from the<br />
legacy row-based analytics solution while also taking into account employee time costs associated with making<br />
this transition. IDC calculates the value to AT&T’s business teams at an average of $16.53 million per year over<br />
five years.<br />
In addition to these cost efficiencies, AT&T business teams benefit from HP Vertica by being able to afford to run<br />
more queries and analysis and being able to run more robust queries. This translates into productivity gains for<br />
business team end users as well as higher revenue for AT&T through the development of more powerful applications<br />
and enhanced strategic decision making, although these benefits have not been quantified separately for the<br />
purposes of this study.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
37
Retours d’expériences Big Data en entreprise<br />
IT STAFF PRODUCTIVITY BENEFITS<br />
AT&T’s team dedicated to supporting data analytical operations has also become more efficient and productive<br />
since deploying HP Vertica. In particular, HP Vertica makes the data ingestion process faster and less labor intensive.<br />
This means that AT&T has been able to evolve its ELT approach so that staff spend less time on system<br />
requirements and development to transform data into deliverables that serve end users. In addition to benefiting<br />
end users by shortening the overall query process, it also means that the data analysis support team spends less<br />
time on each query or request. As a result, the teams supporting AT&T’s data analysis efforts have been able to<br />
cope with higher demand for their services based on the lower price point for queries run with HP Vertica without<br />
a commensurate increase in staff size. This is a significant benefit for AT&T given that it has several hundred employees<br />
supporting its data analytics efforts. IDC calculates that this benefit has a value of $1.28 million per year<br />
over five years in increased efficiency and higher productivity for these team members.<br />
RETURN ON INVESTMENT<br />
IDC projects that over five years, AT&T will achieve total discounted benefits of $63.38 million by using<br />
the HP Vertica Analytics Platform versus a discounted investment of $8.37 million. This results in a five-year ROI<br />
of 657%, with breakeven on its investment in HP Vertica occurring in 4.0 months.<br />
IDC conducted several interviews with AT&T to quantify the benefits and investment associated with its use of the<br />
HP Vertica Analytics Platform and created an ROI analysis from the results.<br />
IDC calculates the ROI and payback period in a three-step process:<br />
1. Measure the benefits from increased IT staff and user productivity and other cost savings since deployment.<br />
2. Ascertain the total investment.<br />
3. Project the investment and benefit over five years and calculate the ROI and payback period. The ROI is the<br />
five-year net present value of the benefit divided by the discounted investment. To account for the time value of<br />
money, IDC bases the ROI and payback period calculations on a 12% discounted cash flow.<br />
IDC ExpertROI® SPOTLIGHT - Sponsored by: HP - Matthew Marden - November 2014<br />
HP - BLABLACAR<br />
HP AIDE BLABLACAR À AMÉLIORER SON EXPÉRIENCE CLIENT<br />
La plateforme communautaire renforce l’efficacité de ses campagnes marketing en exploitant la puissance des<br />
analyses de données Big Data avec HP Vertica<br />
BlaBlaCar, la place de marché communautaire en ligne qui met en relation des conducteurs disposant de places<br />
dans leur véhicule avec des passagers à la recherche d’un trajet en voiture a amélioré la fidélisation de ses clients<br />
et l’efficacité de ses campagnes marketing en réalisant des analyses Big Data avec HP Vertica.<br />
BlaBlaCar, la startup innovante et performante dont le siège est situé à Paris, et dont les équipes sont réparties à<br />
Madrid, Milan, Varsovie, Hambourg, Londres et Moscou, a créé un modèle de réseau social de transport entièrement<br />
nouveau. Avec son site web et sa plateforme mobile sophistiqués, un centre de service client dédié et une<br />
communauté d’utilisateurs en forte croissance, BlaBlaCar rend le voyage en voiture moins coûteux, plus convivial<br />
et plus pratique pour plus de 10 millions de membres répartis dans 12 pays.<br />
« BlaBlaCar connait un succès tel parmi les voyageurs européens, que nous transportons chaque mois plus de<br />
personnes que l’Eurostar, et que nous traversons une phase de croissance internationale rapide » déclare Gaëlle<br />
Periat, Manager Business Intelligence chez BlaBlaCar. « La Business Intelligence est au cœur de nos mécanismes<br />
de prise de décision. Nous avons choisi une approche centrée sur les données pour améliorer l’efficacité<br />
de notre marketing. Plus de deux millions de personnes utilisent les services de BlaBlaCar tous les mois, et HP<br />
Vertica nous aide à exploiter toute la puissance de nos Big Data pour optimiser la performance de nos campagnes<br />
de Gestion de la Relation Client et améliorer le confort d’utilisation de nos services pour nos clients. »<br />
Le logiciel HP Vertica, installé sur un cluster Hadoop Cloudera, fournit à BlaBlaCar une plate-forme d’analyse<br />
Big Data en temps réel. Conçue pour supporter des charges de travail intensives, elle délivre des performances<br />
de requêtes SQL ad hoc qui ont décuplé l’efficacité des campagnes marketing en permettant la manipulation et<br />
l’analyse des données à une fréquence plus élevée, à un niveau de granularité plus fin et à partir de plusieurs<br />
points d’accès.<br />
Dans le futur, HP Vertica permettra à BlaBlaCar d’affiner encore davantage ses activités marketing en intégrant<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
38
Retours d’expériences Big Data en entreprise<br />
des informations provenant des réseaux sociaux, et en prédisant le comportement de ses clients grâce à des mécanismes<br />
de reconnaissance des tendances.<br />
Supervisé depuis une machine virtuelle sous Debian 6, le cluster distribué Hadoop est composé de deux machines<br />
équipées de HP Vertica, d’une machine tournant le logiciel Tableau pour l’exploration et la visualisation des données,<br />
et d’une machine équipée du logiciel Data Science Studio de Dataiku. Cette structure permet à BlaBlaCar<br />
de donner une autonomie informatique complète à ses équipes d’analyses de données et de garantir des temps<br />
de traitement très courts.<br />
« Pour répondre à leurs défis en termes de marketing, des entreprises comme BlaBlaCar ont besoin d’analyser<br />
des volumes massifs de données – structurées, semi-structurées et non-structurées – à des vitesses jamais atteintes<br />
» déclare Florence Laget, Directrice de l’activité Big Data chez HP France. « La plateforme analytique HP<br />
Vertica a été conçue pour offrir rapidité, évolutivité, simplicité et ouverture, et architecturée pour effectuer des<br />
traitements analytiques de 50 à 1000 fois plus rapides qu’avec les solutions de DataWarehouse traditionnelles. »<br />
HP - METROPOLITAN POLICE DE LONDRES<br />
LA METROPOLITAN POLICE DE LONDRES UTILISE LES MÉDIAS SOCIAUX<br />
POUR MOBILISER LA COMMUNAUTÉ LOCALE.<br />
Les solutions HP Autonomy permettent à la principale police britannique de mieux impliquer la population et de<br />
répondre à des événements locaux. Conscient des lacunes dans le suivi et l’utilisation des médias sociaux, le<br />
Metropolitan Police Service (MPS) a démarré avec HP pendant l’été des Jeux olympiques de Londres le déploiement<br />
d’outils d’analyses des médias sociaux. Le résultat est un engagement plus efficace de la communauté, un<br />
signalement anticipé des problèmes, et une analyse plus précise des sentiments sur les médias sociaux. Ces<br />
résultats ont bénéficié aux opérations de police, y compris les renseignements et les enquêtes criminelles.<br />
Le Metropolitan Police Service (MPS) est la force policière la plus importante du Royaume-Uni, avec 31 000<br />
agents et plus de 10 000 employés de support. Il couvre une population de 7,2 millions d’ habitants et des événements<br />
publics majeurs du Royaume-Uni. À l’été 2012, le MPS a supervisé les Jeux Olympiques de Londres et les<br />
Jeux Paralympiques, ainsi que la Royal Jubilee et le Carnaval de Notting Hill annuel. Cela a nécessité un niveau<br />
de maintien de l’ordre sans précédent.<br />
Conscient des missions du MPS et ses projets sur les médias sociaux à long terme, HP Autonomy a proposé un<br />
essai pour aider à mieux comprendre et à utiliser l’analyse des médias sociaux (SMA) pour l’engagement communautaire.<br />
HP est un fournisseur important pour la police au Royaume-Uni, fournissant des éléments clés de son<br />
infrastructure informatique. Le déploiement test s’est déroulé de juillet à septembre dans deux arrondissements de<br />
Londres, Haringey et Hammersmith & Fulham. Il a aidé le MPS à élaborer une stratégie à long terme pour les médias<br />
sociaux et a donné un aperçu sur la façon dont les médias sociaux peuvent être utilisés pour faire progresser<br />
l’engagement de la communauté, la collecte de renseignements et les enquêtes criminelles.<br />
Rapide à mettre en œuvre, adaptable aisément, la solution HP Autonomy exploite la puissance de IDOL (Intelligent<br />
Data Operating Layer) pour comprendre automatiquement les concepts exprimés dans les tweets, les articles de<br />
presse et les blogs. IDOL est capable d’identifier les tendances, les thèmes et les sujets connexes, naviguant<br />
automatiquement dans la masse des données. Cela offre une compréhension en temps réel de ce qui capte<br />
l’attention du public. Pour le MPS, il a produit des rapports sur des thèmes, des tendances et mots à la mode,<br />
consolidés sur un tableau de bord unique, personnalisable pour chaque utilisateur.<br />
RÉSOUDRE LE PROBLÈME DE «L’ AIGUILLE DANS LA BOTTE DE FOIN »<br />
Le test a été rapidement considéré comme un succès, et a été poursuivi jusqu’en novembre. L’impact le plus évident<br />
était que la solution HP autonomy a pu faire face aux grands volumes de données non structurées générées.<br />
En moyenne, il y avait 2 306 796 tweets par jour en provenance de Londres du 12 Juillet au 13 Août, avec un pic<br />
de 3 291 998 le jour de la cérémonie d’ouverture des Jeux Olympiques.<br />
De ce déluge d’informations, MPS a été en mesure de déterminer de nouveaux influenceurs de la communauté et<br />
de recueillir un premier aperçu des questions pertinentes. Il a permis de générer des évaluations de l’impact communautaire<br />
beaucoup plus rapidement et avec plus de crédibilité. L’essai a également apporté une contribution<br />
importante aux opérations en cours en permettant à MPS :<br />
• Identifier une connexion entre deux sources de renseignement qui n’étaient pas identifiées jusqu’alors<br />
• Identifier les incidents potentiels et leurs relations beaucoup plus rapidement et avec plus de précision que par<br />
des moyens traditionnels<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
39
Retours d’expériences Big Data en entreprise<br />
• assurer une réponse opérationnelle proportionnée et appropriée à des événements communautaires très sensibles<br />
• Identifier plusieurs inconnus témoins d’un coup de couteau mortel<br />
• Transférer des tweets concernant des événements de la communauté et répondre à des tweets erronés<br />
• Aider à construire un glossaire des termes à utiliser pour des recherches croisées de mots-clés<br />
En synthèse, la solution a pu fournir une analyse précise sur une base en temps quasi réel par rapport à avant, où<br />
les données n’étaient disponibles que 24 heures après.<br />
• Vitesse de compréhension et de sensibilisation opérationnelle<br />
• Précision de l’évaluation menant à des décisions opérationnelles mieux informées<br />
• Facilité d’accès et d’évaluation de l’humeur du public et de l’opinion<br />
• Analyse plus efficace, fournissant automatiquement des informations plus succinctes et laissant le temps à<br />
l’analyste de mieux se concentrer sur les priorités<br />
• Capacité à prendre des décisions plus éclairées à tous les niveaux, des opérations au commandement<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
40
Retours d’expériences Big Data en entreprise<br />
INFORMATICA - WESTERN UNION<br />
GRÂCE À LA TECHNOLOGIE INFORMATICA, WESTERN UNION PROFITE<br />
PLEINEMENT DE TOUT LE POTENTIEL DE SES DONNÉES POUR<br />
PROPOSER UNE EXPÉRIENCE CLIENT EXCEPTIONNELLE<br />
Le leader mondial des paiements lance une initiative de transformation opérationnelle et optimise l’expérience client<br />
grâce à la solution PowerCenter Big Data Edition<br />
Western Union, leader des services de paiement mondiaux, a choisi Informatica Corporation (Nasdaq :INFA),<br />
premier fournisseur indépendant de logiciels d’intégration de données, dans le cadre de son projet d’intégration de<br />
données. En investissant dans la solution PowerCenter Big Data Edition d’Informatica pour Hadoop, Western Union<br />
pourra désormais fédérer les données structurées et non-structurées issues de multiples sources – mainframe,<br />
bases de données disparates et fichiers de logs – et les adapter à des fins de traitement sur Hadoop, quelle que<br />
soit la latence, en temps réel ou sur une base journalière.<br />
L’ambition de Western Union est d’optimiser le traitement intelligent de ses données de façon à perfectionner ses<br />
offres de services numériques, maximiser la satisfaction client et renforcer la fidélisation des utilisateurs à la marque<br />
sur l’ensemble de ses opérations mondiales. En effet, la société dispose d’un volume colossal d’informations qui<br />
transite au sein de son infrastructure. Rien qu’en 2013, à travers le monde, 242 millions de transactions de particulier<br />
à particulier et 459 millions entre professionnels, soit, en moyenne, plus de 29 transactions par seconde,<br />
ont été réalisées. Grâce à l’intégration et à l’analyse de ces données transactionnelles, la société va désormais<br />
bénéficier de multiples atouts :<br />
• Identification des tendances en matière d’envoi et de réception de fonds afin d’améliorer davantage l’expérience client<br />
• Suivi minutieux de l’évolution des transferts de fonds pour mieux planifier les stratégies d’expansion,<br />
• et identification des opportunités, afin de proposer à l’utilisateur une expérience intégrée sur de multiples canaux,<br />
notamment Internet, téléphone, boutiques et terminal mobile. « L’ensemble de nos opérations met au centre de<br />
nos préoccupation nos clients. Western Union dispose d›une opportunité unique d’exploiter au mieux le potentiel<br />
de l›analyse des données collectées à travers les nombreuses transactions. L›objectif est d›identifier des tendances<br />
nous permettant de mieux définir notre stratégie opérationnelle et, à terme, d’améliorer la satisfaction de<br />
notre clientèle. Nous nous réjouissons de la décision de poursuivre notre collaboration avec Informatica qui nous<br />
offrira la possibilité de maximiser le potentiel mondial de notre entreprise et de notre base clientèle. » explique<br />
Sanjay Saraf, senior vice president and chief technology officer chez Western Union.<br />
LES SOLUTIONS INFORMATICA DÉCLOISONNENT LES SILOS DE DONNÉES<br />
La disponibilité immédiate de la version développeur d’ Informatica PowerCenter a joué un rôle crucial dans la<br />
mobilisation d’un personnel dédié à ce projet. L’ensemble des versions de la solution Informatica PowerCenter<br />
reposent sur Informatica Vibe, la toute première et seule machine de données virtuelle embarquable. Même en<br />
l’absence de compétences Hadoop spécifiques, les développeurs œuvrant sur PowerCenter bénéficient d’une<br />
vélocité de développement cinq fois supérieure sur cet environnement Hadoop, qui est celui de Western Union.<br />
Par ailleurs, Western Union sera à même d’effectuer de manière efficace les opérations d’intégration des données<br />
au fur et à mesure des évolutions technologiques, sans devoir adapter les flux de traitement des données.<br />
« Western Union incarne cette ambition de dimension mondiale qui donne à la notion de ‘ service ‘ toute sa portée.<br />
Comme dans bon nombre de sociétés, les données revêtent, pour Western Union, un caractère fondamental.<br />
Elles sont indispensables à la réalisation de ses objectifs. Etre à l’écoute des besoins de sa clientèle, lui assurer<br />
une expérience homogène quel que soit le canal utilisé, optimiser les opérations et poursuivre ses innovations<br />
constituent aujourd’hui les clés du succès sur ce marché très dynamique. Informatica apporte à Western Union<br />
des solutions pour exploiter ses données, grâce à l›automatisation de l’intégration et de la saisies des données<br />
avant traitement et analyses. » conclut Ash Kulkarni, senior vice president et general manager, Data Integration,<br />
Informatica<br />
A PROPOS DE WESTERN UNION<br />
La société Western Union (NYSE : WU) est un leader dans les services de paiement à travers le monde. Avec<br />
ses services de paiement Vigo, Orlandi Valuta, Pago Facil et Western Union Business Solutions, Western Union<br />
propose aux particuliers et aux entreprises des services rapides, fiables et pratiques pour envoyer et recevoir de<br />
l’argent partout dans le monde, pour réaliser des paiements et passer des ordres de paiement. Au 31 décembre<br />
2013, les services Western Union, Vigo et Orlandi Valuta étaient disponibles dans un réseau de plus de 500 000<br />
points de vente répartis dans 200 pays et territoires ainsi que plus de 100 000 distributeurs automatiques de billets.<br />
En 2013, Western Union a réalisé 242 millions de transactions de particulier à particulier à travers le monde,<br />
transférant 82 milliards de dollars entre particuliers et 459 millions de dollars entre professionnels.<br />
Pour plus d’informations sur Western Union : www.westernunion.com<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
41
Retours d’expériences Big Data en entreprise<br />
À PROPOS D›INFORMATICA<br />
Informatica Corporation (NASDAQ : INFA) est le leader des fournisseurs indépendants de solutions d’intégration<br />
de données. Les entreprises du monde entier font confiance à Informatica pour exploiter le potentiel de leurs<br />
informations et répondre à leurs principaux impératifs métiers. Informatica Vibe, la première et la seule machine<br />
de données virtuelle embarquable du marché, supporte les fonctionnalités exclusives de mapping unique pour<br />
déploiement universel (« Map Once. Deploy Anywhere. ») de la plate-forme Informatica. Plus de 5 000 entreprises<br />
dans le monde s’appuient sur Informatica pour tirer pleinement profit de leurs ressources en matière d’informations<br />
issues des périphériques, des réseaux mobiles et des Big Data, hébergées sur site, dans le Cloud et sur les<br />
réseaux sociaux. Pour en savoir plus, appelez le 01 42 04 89 00 ou visitez notre site www.informatica.com/fr.<br />
Vous pouvez également contacter Informatica sur http://www.facebook.com/InformaticaCorporation, http://www.<br />
linkedin.com/company/informatica et http://twitter.com/InformaticaFr.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
42
Retours d’expériences Big Data en entreprise<br />
MAPR - ANCESTRY.COM<br />
ANCESTRY.COM RELIES ON THE HIGH AVAILABILITY OF MAPR TO RUN<br />
THEIR DNA PIPELINE CONSTANTLY, WITH NO INTERRUPTIONS<br />
THE BUSINESS<br />
Ancestry.com, the world’s largest online family history resource, uses machine learning and several other statistical<br />
techniques to provide services such as ancestry information and DNA sequencing to its users.<br />
THE CHALLENGE<br />
According to the Chief Technology Officer, Scott Sorensen, Ancestry.com has more than 12 billion records that are<br />
part of a 10-petabyte (or 10-million gigabyte) data store. If you’re searching for “John Smith,” he explained, it will<br />
likely yield results for about 80 million “Smith” results and about 4 million results for “John Smith,” but you’re only<br />
interested in the handful that are relevant to your John Smith. For Ancestry.com their data is highly strategic. As<br />
Sorensen explains, there are 5 fundamental ways they make use of data to enhance the customer experience.<br />
These include:<br />
• With more than 30,000 record collections<br />
in their data store including birth, death, census, military and immigration records, they mine this data using patterns<br />
in search behavior to speak to their more than 2 million subscribers or tens of mil- lions of registered users<br />
in a more relevant way. For instance, only a selection of their users will be interested in newly released Mexican<br />
census data.<br />
• They mine their data to provide product development direction to the product team. Analyzing search behavior<br />
can show where a subscriber might be stuck or where they leave the service and therefore where new content<br />
could be created.<br />
• They rely on big data stores to develop new statistical approaches to algorithmic development, such as record<br />
linking and search relevance algorithms. Today, the vast amount of user discoveries are deter-mined by Ancestry.<br />
com hints derived from strategically linked records and past search behavior (e.g., Charles ‘Westman’ is the same<br />
person as Charles ‘Westmont’). Two years ago, the majority of discoveries were based on user-initiated search.<br />
• Advanced data forensics is used to mine data for security purposes to ensure ap- propriate use of their information.<br />
• DNA genotyping to provide information about genetic genealogy is a new area of focus. Customers spit in a<br />
tube, send the package to Ancestry.com, and then mo- lecular tests and computational analyses are performed<br />
to predict a person’s ethnic- ity and identify relatives in the database. For every AncestryDNA customer, 700,000<br />
SNPs (distinct variable regions in your DNA) are measured and analyzed, resulting in 10 million cousin predictions<br />
for users to-date.<br />
MAPR SOLUTION<br />
A portion of Ancestry.com’s data is processed on three clusters using MapR as the Hadoop distribution. One cluster<br />
is for DNA matching; another is for machine learning and the third, which is just being built-up, is for data mining.<br />
Massive distributed parallel pro- cessing is required to mine through 10 petabytes of data and the large quantities<br />
of DNA data. Ancestry.com runs batch jobs and wants to run the DNA pipeline constantly with no interruptions, so<br />
high availability is very important. MapR’s high availability JobTracker enabled the company to run different tasks<br />
on the same cluster. They have also been pleased with MapR’s service and support, and the ability to quickly get<br />
everything up and running with the graphical user interface and client configuration.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
43
Retours d’expériences Big Data en entreprise<br />
MAPR - COMSCORE<br />
COMSCORE RELIABLY PROCESSES OVER 1.7 TRILLION INTERNET &<br />
MOBILE EVENTS EVERY MONTH ON MAPR<br />
THE BUSINESS<br />
comScore is a global leader in digital media analytics and the preferred source of digital marketing intelligence.<br />
comScore provides syndicated and custom solutions in online audience measurement, e-commerce, advertis- ing,<br />
search, video and mobile. Advertising agencies, publishers, marketers and financial analysts rely on comScore<br />
for the industry-leading solutions needed to craft successful digital, marketing, sales, product development and<br />
trading strategies.<br />
c omScore ingests over 20 terabytes of new data on a daily basis. In order to keep up with this data, comScore<br />
uses Hadoop to process over 1.7 trillion Internet and mobile events every month. The Hadoop jobs are run every<br />
hour, day, week, month and quarter, and once they’re done, data is nor- malized against the comScore URL data<br />
dictionary and then batch loaded into a relational database for analysis and reporting. comScore clients and analysts<br />
generate reports from this data; these reports enable comScore clients to gain behavioral insights into their<br />
mobile and online customer base.<br />
HADOOP REQUIREMENTS<br />
The comScore engineering team processes a wide variety of Hadoop work- loads and requires a Hadoop distribution<br />
that excels across multiple areas:<br />
Performance : As comScore continues to expand, the Hadoop cluster needs to maintain performance integrity,<br />
deliver insights faster, and also needs to produce more with less to minimize costs.<br />
Availability : comScore needs a Hadoop platform that provides data protection and high availability as the cluster<br />
grows in size.<br />
Scalability : comScore’s Hadoop cluster has grown to process over 1.7 trillion events a month from across the<br />
world, in the past comScore has seen increases of over 100 billion events on a month over month basis. Consequently,<br />
comScore needs a Hadoop platform that will enable them to maintain per- formance, ease of use and<br />
business continuity as they continue to scale.<br />
Ease of Use : comScore needs things to just work, and operating the cluster at scale needs to be easy and intuitive.<br />
BENEFITS<br />
MapR has been in continuous use at comScore for over two years. MapR has demonstrated superior performance,<br />
availability, scalability, ease of use, and significant cost savings over other distributions.<br />
Performance : Across various benchmarks, MapR executes jobs 3 - 5 times faster when compared to other Hadoop<br />
distri-butions and requires substantially less hardware than other distributions.<br />
Availability : MapR protects against cluster failures and data loss with its distributed NameNode and JobTracker<br />
HA. Rolling upgrades are also now possible with MapR.<br />
Scalability<br />
With architectural changes made possible by it’s no NameNode archi- tecture, MapR creates more files faster, processes<br />
more data faster, and produces better streaming and random I/O results than other distributions. comScore<br />
now runs more than 20,000 jobs each day on its production MapR cluster.<br />
Ease of Use : comScore’s Vice President of Engineering, Will Duckworth said, “With MapR, things that should just<br />
work, just work.” This means there is a lot less for comScore to manage with MapR. One of the advantages that<br />
Duckworth cites is that everything is a data node. This configuration re- sults in much better hardware utilization<br />
from his perspective. With MapR, it is easy to install, manage, and get data in and out of the cluster.<br />
Speed : comScore is also able to use the MapR advanced capabilities to enforce parallel data allocation patterns.<br />
This enables key analyses to be performed using map-side merge-joins that have guaranteed data locality, resulting<br />
in a 10x increase in computation speed. “The specific features of MapR, such as volumes, mirroring and snapshots,<br />
have allowed us to iterate much faster,” said Michael Brown, CTO of comScore.<br />
ABOUT MAPR<br />
MapR delivers on the promise of Hadoop with a proven, enterprise-grade platform that supports a broad set of<br />
mission-critical and real-time production uses. MapR brings unprecedented dependability, ease-of-use and worldrecord<br />
speed to Hadoop, NoSQL, database and streaming applications in one unified big data platform.<br />
MapR is used by more than 500 customers across financial services, retail, media, healthcare, manufacturing,<br />
telecommunications and government organizations as well as by leading Fortune 100 and Web 2.0 companies.<br />
Amazon, Cisco, Google and HP are part of the broad MapR partner ecosystem. Investors include Lightspeed Venture<br />
Partners, Mayfield Fund, NEA, and Redpoint Ventures. MapR is based in San Jose, CA.<br />
Connect with MapR on Facebook, LinkedIn, and Twitter.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
44
Retours d’expériences Big Data en entreprise<br />
MARKLOGIC - DE GRUYTER<br />
21ST CENTURY PUBLISHING<br />
EUROPEAN PUBLISHER TAKES UP TO TEN SYSTEMS OFFLINE WITH A<br />
SINGLE MARKLOGIC BUILT CUSTOMER-FACING APPLICATION<br />
COMPANY OVERVIEW<br />
Academic publishing is a long-standing and venerable industry—and De Gruyter is among the most established.<br />
Since 1749, this European publisher has been producing and distributing English and German content, focusing<br />
primarily on scientific, technical, legal, humanities, and social sciences. With an output of approximately 1,400<br />
books per year—in addition to journals, reference materials, and databases—De Gruyter’s compiled catalog exceeds<br />
65,000 titles. They also offer a program called e-dition, which is essentially e-books on demand. Unlike<br />
other industries, De Gruyter’s customers are not usually the end users: they sell to university libraries and other<br />
academic institutions, and it’s the scientists and educators at those universities who actually use the materials.<br />
CHALLENGES<br />
For many years, scientific publishing was focused on printed materials, but the last decade has seen an increasing<br />
demand for digital access. This industry-wide shift has forced De Gruyter to reassess—and redefine—their<br />
business. “With this change in content output, we’re not really a traditional publisher anymore,” Christian Kohl,<br />
Director of Information & Publishing Technology, explains. “We’re becoming more of a service provider, and also<br />
a hosting platform.” And customers’ needs are changing—both in terms of format and timeframe. As Kohl points<br />
out, they want more granular access to content, and they want it faster. “Purchasing is shifting from ‘just in case’ to<br />
‘just in time’. We can’t afford to have a production time of several years. It needs to be quick, custom, and flexible.”<br />
Since 2006, De Gruyter has invested in a wide range of technologies and support staff. With so many different<br />
types of content and business models, they’ve relied on a variety of legacy databases, websites, and online platforms.<br />
Not only was this cumbersome and expensive to maintain, the complicated infrastructure prevented them<br />
from moving forward with new innovations.<br />
The writing was on the wall: in 2009, De Gruyter realized it was time to simplify. “We needed a new, consolidated<br />
platform that would bring increased flexibility, lower costs, and more automation,” Kohl says.<br />
THE SOLUTION<br />
Kohl and his team began searching for a solution that would support all of their various data types and adapt to<br />
constantly changing structures. Excellent searching and browsing capabilities were also high on the list. And with<br />
their limited budget, they needed a turnkey solution that wouldn’t require third-party technologies.<br />
In November of 2010, De Gruyter chose MarkLogic to consolidate up to ten of their legacy systems into one<br />
customer-facing application. The new platform would combine all of<br />
the existing systems on top of a MarkLogic database and search engine. Using an agile development approach,<br />
they were able to implement new iterations for key features. Just a little over a year later, the new platform was<br />
launched.<br />
WHY MARKLOGIC?<br />
Quicker Response, Higher Revenue: With previous systems, it could take up to six months to add new features or<br />
changes. With Marklogic ever-increasing requests can be met in a matter of days—or even hours. This has also enabled<br />
the company to increase acquisitions and partnerships with publishing partners. Reduced time to market: Database<br />
products and reference works used to take a year to develop and deploy. Now, it’s a matter of days or weeks.<br />
Seamless Integration & Automation: De Gruyter was able to set up XML feeds to send all data from their ERP system<br />
- which houses metadata, catalogs, pricing, and other information—directly into MarkLogic. The new platform<br />
also hooks into the company’s CMS and MAM systems, streamlining the flow of content. Streamlined acquisition<br />
process: Historically, acquiring more providers and content was a very painful process, particularly for the IT department.<br />
With the new platform, De Gruyter can ramp up data volume without impacting performance.<br />
Reduced Costs: With MarkLogic’s more simplistic structure, there is no longer a need to map between the SQL<br />
database and the application layer—which translates to lower maintenance costs. And by eliminating much of its<br />
hardware requirements, De Gruyter has cut its hosting costs in half.<br />
Out-of-the-box Search: With their limited budget, De Gruyter needed a solution that wouldn’t require a third-party<br />
tool—and MarkLogic delivered. “There’s no need to integrate with the SQL server,” Kohl says. “MarkLogic’s search<br />
is already powerful enough.”<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
45
Retours d’expériences Big Data en entreprise<br />
MARKLOGIC - ELSEVIER<br />
UNLOCKING THE VALUE OF CONTENT AT ELSEVIER<br />
INTEGRATING CONTENT TO ENABLE THE RAPID DEVELOPMENT AND<br />
DELIVERY OF NEW INFORMATION PRODUCTS.<br />
INDUSTRY OVERVIEW<br />
The last thirty years have seen a major shift in the production, storage and retrieval of content. Elec- tronic, rather<br />
than printed, content now powers a new class of products and services, with the Inter- net key to delivery. Driving<br />
critical activities within companies, it also provides many of their content- based services to customers. Yet this exploding<br />
volume of content, typically comprising 85% of an enterprise’s information, is fundamentally dif- ferent from<br />
the structured data that relational database technology was created to deal with. A cornerstone in most enterprises,<br />
relational data- bases function by structuring data and applications into tables. They cannot readily accommodate<br />
the unstructured content residing in vast reservoirs of Word files, lab reports, data sheets, operating manuals, messages,<br />
HTML documents, PDFs, Pow- erPoint slides, emails, etc. So organizations wishing to repurpose and realize<br />
more value from digital content are stymied, since the applications needed to deliver added value to customers<br />
are difficult and expensive to create. These issues have had even more impact in the publishing industry, where<br />
content is a company’s greatest asset. And for Elsevier, a leading publisher and information provider for medical,<br />
academic and health-related organizations, they were particularly challenging. Elsevier supports, and continues<br />
to enlarge, a digital content repository unsurpassed in its market. Yet despite Elsevier’s significant investments in<br />
search technology, their users found it increasingly time-consuming to extract the information they needed from<br />
this mountain of data. Elsevier was unable to quickly create applica- tions that would make extracting content faster<br />
and easier...until Mark Logic demonstrated a prod- uct that could rapidly ingest enormous volumes of content, and<br />
then execute complex, fine-grained queries against it with lightning speed.<br />
ELSEVIER’S CHALLENGE<br />
Reconciling the need for relevancy with the necessity for volume. One of the world’s leading publishers, Elsevier<br />
prides itself on supplying customers with the information they need to conduct research, perform experiments,<br />
aid patients, and achieve mission-critical objectives. To this end, Elsevier invested heavily in digitizing its content,<br />
amassing vast repositories of medical and scientific information, and making it available via a range of online<br />
database-driven solutions. However, as Chief Technology Officer David Marques points out, users often have little<br />
time to locate the data most relevant to their work. “If a doctor is at the point of care or a scientist is working in<br />
the lab on an experiment, they don’t have time to go searching through 10 or 20 possible sources.” Yet as more<br />
content amassed, its sheer volume meant customers were spending more time refining searches to winnow out<br />
the content most relevant to their needs. Elsevier’s greatest asset was growing more difficult to deliver with the<br />
level of granularity required by users. And this, explains Marques, is precisely the kind of value- added service<br />
Elsevier wished to supply. “We wanted to help customers solve the problems they face in their particu- lar setting...<br />
By enabling our customers to extract only the pieces of content that matter to them at that moment, and to flexibly<br />
combine them, Elsevier can provide maxi- mum value per use of content.” To achieve its objective for increased<br />
customer satis- faction, Elsevier set two goals: quickly transform the content rigidly held in its many separate databases<br />
into a liquid asset easily tapped by users in any way they desired. And in so doing, establish a common<br />
platform for developing future products.<br />
But facing Elsevier were four formidable challenges:<br />
1. Lack of central repository. Each body of content existed in a separate database – either in a relational database<br />
format or a proprietary one – with several ap- plications on each database.<br />
2. Huge range of file formats. Normalizing content was extremely time-consuming. For one application project<br />
alone, there were 35 different document formats involved.<br />
3. High cost. New functionality was time-consuming and expensive to build. The complex logic needed to deconstruct<br />
a document and analyze relationships between documents had to be built application-by-application. Moreover,<br />
from a performance perspective, forcing this logic into an application was inefficient, compared to lev- eraging<br />
a specialized content server that can efficiently retrieve large amounts of information.<br />
4. Massive amounts of content. The final content repository was estimated to exceed 5 terabytes in size. Included:<br />
More than five million full-text journal articles across 1,800 journals; over 60 million citations and abstracts (separate<br />
from the articles); 20,000 in-print books; 9,000 out-of-print books; and thousands of infor- mational pamphlets.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
46
Retours d’expériences Big Data en entreprise<br />
DEFINING REQUIREMENTS<br />
Preparing the way.<br />
In an increasingly aggressive industry, Elsevier required shorter delivery cycles for its competitive offerings. So as<br />
a pioneer in the digital marketplace, they defined the parameters for products that extracted content from authors<br />
fast and put it online even faster. Equally signifi- cant, Elsevier recognized that to give users exactly the information<br />
they wanted, any new solutions must have the power to dynamically assemble relevant information from across<br />
multiple sources. Recognizing the poten- tial of tagged search elements, Elsevier started in the year 2000 to redesign<br />
products along Web services architecture.<br />
Beginning with Standard Generalized Markup Language (SGML), Elsevier moved forward, keeping pace with the<br />
evolution of descriptive signature technologies and ultimately investing in the benefits of XML (Extensible Markup<br />
Language). Of course, such advances helped deliver greater content relevancy to users. But enabling the highest<br />
degree of granularity meant the structural relationships of tagged content had to be leveraged in a way that allowed<br />
relevant information deep within docu- ments to be parsed and reassembled into new content.<br />
Accordingly, the absence of a centralized content repository had to be remedied, since an intelligent terminus<br />
would be required for all searches – enabling the deconstruction and synthesis of documents into con- text- specific<br />
results. This eliminated the deployment of traditional relational database systems, whose concepts and data<br />
models were conceived in an era of short, highly- structured records of data, and not the unpredictable and timevarying<br />
structure found in content.<br />
Instead, the new solution would need to:<br />
• Exploit the wide variety of unstructured content, rather than be constrained by it.<br />
• Eliminate format and content-prejudiced conditions for standardization of information.<br />
• Function without a single, standard, pre-defined schema, and indeed in the presence of many different and<br />
changing schemas<br />
• Achieve performance without sacrificing relevance. Both the user interface and the returned results had to operate<br />
quickly and efficiently, and to deliver the right pieces of information at the right time.<br />
Roadblocks to rapid product development<br />
When developing new products, Elsevier had to confront:<br />
• Difficulty in leveraging and synthesizing information from docu- ments held among a wide range of different databases<br />
and the applications on each.<br />
• Lack of a “content common denominator” for normalizing informa- tion within applications or databases.<br />
• Risk of poor ROI due to long and expensive implementation of new functionality and applications.<br />
• A mountain of disparate content with no existing unifying solution<br />
PUTTING MARK LOGIC TO THE TEST<br />
Transforming a mountain of documents into a single, searchable contentbase.<br />
By the year 2004, Elsevier had reengineered their products along the lines of web service architectures, creating<br />
an XML repository offering new efficiencies to their IT staff and higher functionality for users. But the apron strings<br />
of relational database technology still tied the company down to long, expensive product develop- ment cycles and<br />
less than optimal performance. To get reasonable content performance from their database management systems<br />
they still needed to pre-define schemas and access paths: time-consuming tasks that ultimately limit content ingestion<br />
and the power of resultant searches. And after intensifying their hunt for new ways to shorten time to market<br />
and add greater value to their content they found what looked like a per-fect way to leverage their significant investment<br />
in XML: MarkLogic Server.<br />
“We offered to show Elsevier how the MarkLogic Server could leverage their investment in XML to deliver on Elsevier’s<br />
vision,” recalls Mark Logic Co-founder and Chief Technologist Paul Pedersen. “Our promise was simple.<br />
Hand us any amount of data, as is, from your archives.<br />
We’ll hand you back an entirely new application based on that content.” And as Pedersen further described to<br />
Elsevier, “The system lets you reach across large content sets, extract exactly the information that you need, and<br />
then present it as a new document that was created automatically.”<br />
Intrigued by the prospect of being able to simply pour existing archives and content into MarkLogic Server and<br />
receive a fully functional application, Elsevier agreed to the test. And to see just how short a timeline Mark Logic<br />
could deliver a competitive product in, they made it a demanding one. According to Pedersen, “...Their team<br />
handed us an entire product line of 20 medical textbooks, each a thousand pages long or more. They didn’t even<br />
provide the DTDs,” he recalls. “They just said ‘Go.’ So we did, and in about a week we came back to them with a<br />
fully functional application.”<br />
Moreover, according to David Marques, the application Mark Logic delivered in just a few days was more flexible<br />
than anything Elsevier had online at the time. This ac- complishment was all the more remarkable considering that<br />
the 0.5 terabytes of content loaded into MarkLogic Server was comprised of over 35 different formats – a flexibility<br />
matched only by the level of granularity provided by searches using the resulting application. Im- pressed, Elsevier<br />
engaged Mark Logic and is using Mark- Logic Server to consolidate all of its archives, rapidly build new applications,<br />
and create value-added services from its repository. As Marques affirms, “MarkLogic Server will be a core of<br />
all our major electronic products going forward, since it allows us to even better serve our customers and users.”<br />
BENEFITS OF THE MARKLOGIC SERVER<br />
Putting content in its place, fast.<br />
From Mark Logic, Elsevier found an immediate solution to all the key challenges facing publishers who need to<br />
hasten the deployment of new, more competitive online products. They are now consolidating all of their content<br />
archives, rapidly bringing new applications to market and enhancing existing applications with value-added functionality<br />
that makes every last byte of content available to users in the most relevant way.<br />
Combining the power of database-style queries against content, with the speed and scalability of search engines,<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
47
Retours d’expériences Big Data en entreprise<br />
MarkLogic Server repurposes content on-the-fly, combining information into new content for users seek- ing answers<br />
to different questions involving the same subject matter – literally creating new content from old and adding<br />
value in the process. Massively scalable in both storage and performance, it can manage millions of documents<br />
and terabytes of content – with no degrada- tion in executing queries and updates.<br />
A boon to publishers and their customers, Mark Logic revolutionizes search technology by enabling:<br />
• Consolidation of content archives. MarkLogic inte- grates content from many sources into a single reposi- tory,<br />
then creates new content by summarizing informa- tion across various content categories.<br />
• High-performance XQuery implementation. A com- plete XQuery implementation delivers high performance<br />
against multi-terabyte datasets, thanks to MarkLogic’s search-engine-style indexing mechanisms.<br />
• Rapid application development, no fixed schemas. MarkLogic does not require schemas or document type definitions<br />
(DTDs). MarkLogic loads content, as is, and allows you to instantly start building applications that leverage it.<br />
• Element-level granularity. Using XQuery, MarkLogic Server fulfills searches by reaching deep inside docu- ments<br />
to identify, analyze, combine, and extract pieces of content exactly relevant to the task of the user, precisely within<br />
the context in which they’re working.<br />
• Extreme flexibility. MarkLogic accepts content “as is” from many sources, eliminating the lengthy process of preparing<br />
content. Rather than having to plan ahead for every possible use of the content, publishers can rely upon<br />
the flexibility of the technology to evolve applica- tions over time.<br />
A SINGLE SOLUTION TO MANY BOTTLENECKS<br />
With Mark Logic, Elsevier has achieved:<br />
• Consolidation of all content archives into one centralized repository.<br />
• A high performance platform for multi-terabyte contentbases.<br />
• Higher efficiency through centralized storage of content and indexing.<br />
• Element-level search granularity for users.<br />
• Preparation-free content loading.<br />
• Speedy application development thanks to the power of XQuery and the elimination of extensive content preparation.<br />
• Just-in-time delivery of information that is precisely tailored to users’ needs, within the context they’re working in<br />
and in the form they need.<br />
BENEFITS TO ELSEVIER’S CUSTOMERS<br />
The results.<br />
The power of a database, the speed and flexibility of word and phrase search functionality, the ability to de- liver<br />
it all in a fraction of the time previously necessary... With MarkLogic, Elsevier not only speeds the delivery of new,<br />
more competitive products, but enables users to get exactly the data they need to complete their tasks 5 to 9 times<br />
faster than before.<br />
For example, Elsevier no longer needs to normalize content to transform it into their repository. Now they can build<br />
directly on the inherent variability of dif- ferent types of content – slashing time to availability by two-thirds. And,<br />
says David Marques, the ultimate benefit to users is fantastic granularity: “...When a user has a question, we want<br />
to reduce the number of search results from 10 possible documents down to two precise sections or paragraphs<br />
so we deliver just the right bit of content the user needs.”<br />
But for the Elsevier team, the gratification of providing this kind of added value to users goes beyond feelings of<br />
pride in their technical accomplishment. As Marques explains, by enabling researchers and medical profes- sionals<br />
to find fast answers to urgent questions, they<br />
also help improve treatments and outcomes for patients: “Medical reference books are invaluable resources for<br />
making a diagnosis, but laboriously searching and cross- referencing a number of different books is an inefficient<br />
way to do this. The products we build with MarkLogic allow physicians to quickly pull out only the relevant passages<br />
from across a range of different books, in order to reach an informed diagnosis.”<br />
And the future for Elsevier and its customers holds even more promise. MarkLogic has dramatically accelerated<br />
the deployment of products and services, while greatly reducing the costs of content loading and design – translating<br />
into even faster research cycles and clinical diagnoses, thanks to a new generation of solutions for helping<br />
professionals find exactly the information they need, when they need it most.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
48
Retours d’expériences Big Data en entreprise<br />
MARKLOGIC - HEALTHCARE.GOV<br />
MARKLOGIC PROVIDES ACCESS TO HEALTHCARE INSURANCE FOR<br />
MILLIONS OF AMERICANS MORE THAN EIGHT MILLION APPLICATIONS<br />
PROCESSED ON HEALTHCARE.GOV<br />
OVERVIEW<br />
Following the approval of the Affordable Care Act of 2010, the US Department of Health and Human Services<br />
(HHS) Centers for Medicare and Medicaid Services (CMS) needed to design, build, and implement a technology<br />
platform capable of enrolling millions of Americans in new healthcare plans. CMS’s driving vision was to enable<br />
better access to healthcare for all Americans through smart and efficient tools and systems that would also help<br />
reduce costs.<br />
CHALLENGES<br />
CMS had to develop a Health Insurance Marketplace (HIM) and Data Services Hub (DSH) that would allow millions<br />
of Americans to shop for insurance, check their eligibility against dozens of federal and commercial data sources,<br />
and provide a way for state health exchanges to connect. This was the first time the US government would tackle<br />
an IT project of this kind.<br />
CMS had to overcome some daunting challenges:<br />
Strict time constraints. CMS was mandated by ACA to launch on October 1, 2013.<br />
Stringent security requirements. Whatever solution CMS chose, it would have to provide the transactional consistency,<br />
reliability, disaster recovery, security, and auditing capabilities required for the federal government.<br />
Multiple data sources. The system would need to take in a vast array of data from states, health plan providers,<br />
and government entities to evaluate applicants’ eligibility status, including the Department of Homeland Security;<br />
the Internal Revenue Service; the Social Security Administration; and Veterans Affairs.<br />
An unknown data specification. As with most large-scale implementations, when development started, the data<br />
specification was not yet determined. There were numerous changing factors driven by insurance providers and<br />
participating states. The database needed to be able to handle constant change and a schema that could evolve.<br />
Scalability. From the outset, CMS knew the marketplace would serve individuals from as many as 51 jurisdictions<br />
(the states plus Washington, D.C.). CMS needed a technology that could scale rapidly, on cost-effective commodity<br />
hardware, to meet any level of demand.<br />
THE SOLUTION<br />
CMS concluded that the MarkLogic Enterprise NoSQL database platform provided the scalability and agility required<br />
to meet an 18-month timeframe from software procurement to launch.<br />
The teams working on this initiative realized the effort to complete this project would take too long using a traditional<br />
relational database.<br />
MarkLogic’s schema-agnostic data model ingests data as-is and adapts to modifications, as new data sources are<br />
included and as policies or regulations change, to help meet tight deadlines.<br />
MarkLogic was the only platform able to process massive amounts of poly-schematic information while simultaneously<br />
offering ACID-compliant transactions.<br />
WHY MARKLOGIC?<br />
Faster time to production. MarkLogic helped CMS get the Healthcare.gov site running within 18 months. In less<br />
than 5 months after the website launched, MarkLogic supported 5,500+ transactions per second (TPS-backend<br />
transactions to database) to help over 8 million people sign up for health insurance.<br />
Nearly limitless scalability with record-breaking performance. MarkLogic has supported 160,000 concurrent users<br />
and delivered over 99.9% availability. More than 99.99% of queries have logged response times of less than 0.1<br />
seconds, without any data loss or data inconsistencies.<br />
A seamless online shopping experience for Healthcare.gov users. MarkLogic’s schema- agnostic data model provided<br />
CMS the ability to manage and integrate data “as is” so data from multiple states, government agencies,<br />
health plan providers, and personal information from millions of Americans did not have to be recoded. This allowed<br />
the system to qualify Americans and provide them competitive healthcare coverage and options.<br />
Confidence to manage and integrate confidential user information. MarkLogic’s enterprise-grade NoSQL database<br />
platform meant CMS did not have to sacrifice any of the enterprise features expected from a traditional database,<br />
such as government-grade security, ACID transactions, and HA/DR, and could take full advantage of a NoSQL<br />
schema-agnostic document model that handled the heterogeneous and unstructured data.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
49
Retours d’expériences Big Data en entreprise<br />
MARKLOGIC - OXFORD UNIVERSITY PRESS<br />
SCALING THE CONTENT DELIVERY PROCESS:<br />
THE VIEW FROM OXFORD UNIVERSITY PRESS<br />
INTRODUCTION<br />
This case study chronicles one organization’s focus on streamlining its publishing process to facilitate the creation<br />
and delivery of new products. With the growing use of the Web and other electronic sources for information<br />
discovery and access, organizations like Oxford University Press are being pressed to deliver content through<br />
multiple channels. They must also create products that are aimed at specific market segments, often utilizing<br />
multiple information sources.<br />
For Oxford University Press, each new online project meant starting from scratch. Building a standard publishing<br />
platform and using XML for its content format enabled Oxford University Press to quickly produce new products<br />
in much less time and re-use work from previous projects. This company provides an excellent example of an<br />
organization that:<br />
• Continues to introduce new products targeted toward specialized market needs<br />
• Understands that content for its products can come from multiple information sources, possibly with different<br />
content structures, characteristics, and attributes<br />
• Recognizes the inefficiencies of building new workflows and systems for each content product<br />
• Realizes the value that an XML-based publishing platform can provide<br />
• Comprehends the importance of content aggregation and searching as core capabilities for building new products<br />
from the growing base of source information<br />
To obtain these benefits, Oxford University Press built a publishing platform based on an XML content server<br />
from Mark Logic that enabled it to work with multiple content structures. To make the platform extensible for future<br />
needs, Oxford University Press developed an API (application programming interface) that would enable it to work<br />
with multiple development firms without major changes to the platform. Benefits are typically accrued across a<br />
range of projects, but Oxford experienced significant results with its very first project.<br />
COMPANY OVERVIEW<br />
Oxford University Press (OUP) has an illustrious history. The company had its origins in the information technology<br />
revolution of the late fifteenth century, which began with the invention of printing from movable type. The first book<br />
was printed in Oxford in 1478, only two years after Caxton set up the first printing press in England.<br />
Despite this early start, Oxford’s printing industry developed in a somewhat haphazard fashion over the next century.<br />
It consisted of a number of<br />
short-lived private businesses, some that were patronized by the University. In 1586, the University itself obtained<br />
a decree from the Star Chamber confirming its privilege to print books.<br />
This was further enhanced in the Great Charter secured by Archbishop Laud from King Charles I, which entitled<br />
the University to print “all manner of books.”<br />
In 1896, Oxford University Press opened an office in New York that followed all of Oxford’s traditions of religious<br />
and academic publication. OUP USA is currently Oxford University Press’s second major publishing center (after<br />
Oxford), annually producing nearly 500 titles.<br />
Since 1896, OUP’s development has been rapid in all areas. Music, journals, and electronic publishing have been<br />
introduced during the past 75 years, and ELT publishing (which started with books to teach English in Africa and<br />
India) has grown into a major international business. OUP is now one of the largest publishers in the U.K. and the<br />
largest university press in the world.<br />
The project to create a publishing platform for its online content was led by New York-based OUP, Inc. This architecture<br />
and its resulting benefits would then spread out across Oxford University Press.<br />
BUSINESS DRIVERS<br />
Since the onset of internet publishing, the introduction of each new online product (i.e. OED.com, American National<br />
Biography Online) required Oxford University Press to staff its own project team to create a new platform.<br />
Apart from shared best practices, therefore, OUP was unable to fully leverage its investments from one product to<br />
the next. This approach made sense while Oxford University Press was building flagship products like The Oxford<br />
Dictionary of National Biography, but OUP needed a more effective way to build niche products (i.e. a referencebased<br />
subscription product for the African American Studies market). This time, Oxford University Press wanted to<br />
produce a project in a way that would make it easier to handle similar projects in the future.<br />
Oxford University Press understood that this could be achieved with the creation of a publishing platform. The<br />
platform needed to be flexible enough to handle varying functional requirements and diverse types of content, but<br />
scaleable enough to meet the needs of large and small projects.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
50
Retours d’expériences Big Data en entreprise<br />
CHALLENGES<br />
Oxford University Press made a strategic decision to develop its new platform simultaneously with the first product<br />
implemented on it. While this added complexity to the project, the company believed that this approach would accomplish<br />
two goals. First, it would mean that OUP could more quickly realize the fiscal and practical benefits of<br />
the platform. Second and perhaps more importantly, the platform would have a real-world example against which<br />
to test itself.<br />
THE AFRICAN AMERICAN STUDIES CENTER’S REQUIREMENTS<br />
The Oxford African American Studies Center (AASC), edited by Henry Louis Gates, Jr., was developed to be the<br />
online authority on the African American experience. To be the preeminent scholarly reference on African American<br />
studies, the AASC site needed to aggregate and publish a range of content and formats:<br />
• Core content: Five major Oxford encyclopedias covering all aspects of the African American past, including Encyclopedia<br />
Africana (5 vol.) and Black Women in America (3 vol.)<br />
• Additional source content from more than 18 Oxford reference sources, all editorially selected and reviewed<br />
• Approximately 1,000 images at the product launch, with an ongoing image research program expected to add<br />
hundreds more images annually<br />
• 100 primary sources, including the Emancipation Proclamation, Frederick Douglass’s slave<br />
narratives, and text of speeches. Brief introductory essays accompany each primary source.<br />
• More than 200 charts, tables, and graphs representing demographic information in areas like history, government<br />
and politics, business and labor, education, law and crime, and the arts<br />
• Over 140 thematic maps illustrating demographics and history in a variety of areas<br />
• A general timeline of African American history, and specific thematic timelines<br />
• Learning center: Designed for the school market, this will be a growing area that aims to help users explore the<br />
content with ready reference tools like country profiles, suggested lesson plans by grade level, and study guides<br />
to match the curriculum<br />
The AASC needed to support two types of users with different expectations for finding information:<br />
• The primary users would be librarians, who are knowledge professionals. This class of users would demand<br />
complex search functionality, including boolean, proximity, field, thesaurus, stemming, and wildcard.<br />
• Secondary users would be students, who would want simple searching capabilities in the model of Google.<br />
PLATFORM REQUIREMENTS<br />
The two guiding principles for developing the platform, according to Alex Humphreys, OUP’s Director of Online<br />
Engineering, were “flexibility and scalability.” He goes on to say, “These two principles should each be realized in<br />
the areas of content creation and management, product development, and project management.”<br />
TABLE 1: PLATFORM REQUIREMENTS<br />
FLEXIBILITY<br />
SCALABILITY<br />
CONTENT<br />
OUP wanted a model where content could<br />
be created once, and then used in multiple<br />
products. At the same time, the platform<br />
could not define the content format. It<br />
would need to use and integrate content in<br />
a variety of formats, from different sources,<br />
and using different DTDs.<br />
The platform could not place any constraints<br />
on the volume of content that could be supported.<br />
PRODUCT<br />
It was critical that the platform did not dictate<br />
product features or capabilities. Instead,<br />
it needed to be extensible to support<br />
market-driven needs and requirements.<br />
For the platform to be successful, the investment<br />
in features, hardware, and resource<br />
training needed to be leveraged between<br />
products. Each new product could not be a<br />
one-off proposition.<br />
PROJECT<br />
The platform needed to provide multiple<br />
options for integration with other systems<br />
and capabilities. It needed to enable OUP<br />
to work with any number of different vendors,<br />
suiting the vendor selection to the<br />
specific needs of each new project.<br />
The platform needed to provide a foundation<br />
that would enable OUP to work on multiple<br />
projects simultaneously. This meant limiting<br />
its dependence on any one vendor by allowing<br />
multiple vendors to interact with the platform<br />
using a defined API.<br />
To ensure longevity and extensibility of the platform, OUP decided that the platform would need to be standardsbased,<br />
utilizing XML to the greatest extent possible.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
51
Retours d’expériences Big Data en entreprise<br />
STEPS TO SUCCESS<br />
In March 2005, Oxford University Press selected Mark Logic’s XML content server as the foundation technology<br />
upon which to build its new product platform. MarkLogic Server would provide three things:<br />
• A flexible database for the content that OUP would include in AASC and in all future platform-based projects. As<br />
a database, it was specifically designed for the structured XML documents that constituted OUP’s content.<br />
• A powerful search engine that would enable customized searching on a per-product basis<br />
• The ability to use the XQuery language, a W3C standard that OUP considers to be cutting-edge<br />
Not long after selecting MarkLogic as the basis for its platform, Oxford University Press chose Boston- based Interactive<br />
Factory (IFactory) to build the platform and the AASC product. Having worked with IFactory on the Oxford<br />
Dictionary of National Biography (www.oxforddnb.com), OUP was confident in its ability to understand the complex<br />
requirements of the platform and the product. The design phases of both projects began in June 2005.<br />
Meanwhile, OUP was assembling the content for the African American Studies Center. The content took a variety<br />
of paths into the product:<br />
• The core content from the main African American encyclopedias needed to be tagged into XML.<br />
• Other content was used from other products such as Oxford Reference Online and Grove Music Online; this<br />
content required very little work to incorporate.<br />
• Some content needed to be created specifically for the site. This set included articles and features as well as<br />
certain metadata regarding the rest of the content on the site.<br />
By late fall, OUP had solid designs for the product and the platform. The company also had the bulk of the content<br />
created and detailed plans for the remaining elements. With this, the development phase with IFactory began.<br />
The platform was released and tested in an Alpha site in January, and a Beta site in March. The AASC product was<br />
launched in late April, in time to market it for the summer academic library season.<br />
The teams responsible for the project consisted of a core group of four people from OUP and an additional four<br />
from IFactory. Those teams expanded, however, to include other people and roles when the project demanded it.<br />
In all, OUP spent two years on this project. The first year was spent assessing opportunities and needs. Once<br />
MarkLogic and IFactory were chosen, the site and platform were designed and developed in less than eleven<br />
months. The schedule was aggressive, but ultimately successful.<br />
Figure 1: Publishing Platform and AASC Project Timeline<br />
IMPACT OF THE RESULTS<br />
The product implemented on the platform looks similar to existing projects that were done the old way. This is a<br />
testament to the fact that OUP met its goal of not having the platform limit the product’s design or functionality. The<br />
first reviews of AASC have been extraordinarily positive.<br />
The impact of the platform will be felt more significantly on future projects. For one thing, the new project team<br />
now has a resilient new platform on which to work. This should enable OUP to diminish the duration and cost of<br />
implementing new projects. Under the right circumstances (i.e. in the development of new Studies Centers), the<br />
time taken to develop new products could drop from 10 – 12 months to 4 – 6 months.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
52
Retours d’expériences Big Data en entreprise<br />
Figure 2: Example from the Oxford African American Studies Center Site<br />
Going beyond the ability to develop and introduce new products faster and more affordably, Oxford University<br />
Press is also likely to see:<br />
• More efficient utilization of technical staff, all trained on and fluent in one platform<br />
• The ability to introduce new types of functionality and content in new and existing products, and the ability to<br />
combine various content types in ways that were once impossible<br />
• Reduced hardware costs through shared servers and better utilization of resources<br />
• The ability to add delivery channels such as print or even mobile<br />
• Flexibility in choosing third-party vendors to develop new sites<br />
As long as it is similar to an existing project—meaning that the content is of a similar structure (DTD) and that the<br />
functionalities of the Web sites are similar—a new project can be replicated fairly quickly. That is not to say that<br />
additional costs will not be incurred on future projects. Three things are likely to increase the cost of a new project:<br />
• New types of content, specifically each new DTD “learned” by the platform. Alex Humphreys, Oxford’s Director<br />
of Online Engineering, noted that “when and if lexical content is added, the platform would need to be taught how<br />
to handle it.”<br />
• New functionality, such as the ability to print to PDF or wiki-based interactivity<br />
• The need for a new implementation vendor to implement a project. “We understand that there will be a learning<br />
curve, and therefore additional costs, when each new vendor implements a product using our platform’s API,”<br />
states Humphreys. “By being able to spread our projects across multiple vendors, we can avoid keeping all of our<br />
eggs in one basket.”<br />
Humphreys concludes, “The key value proposition of this solution is flexibility. The platform provides us with the<br />
flexibility to respond to specific project and product requirements. That could mean launching new products more<br />
quickly, or it could mean scaling the platform’s hardware to handle a site much larger than AASC. We feel that this<br />
flexibility gives OUP a real advantage in responding to the rapidly evolving academic publishing marketplace.”<br />
Oxford University Press has three new products to add to the platform, and many more will follow.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
53
Retours d’expériences Big Data en entreprise<br />
LESSONS LEARNED<br />
As with any project, a number of valuable lessons were learned by the Oxford University Press team as it developed<br />
its new platform and rolled out the African American Studies Center.<br />
Know<br />
./<br />
Understand<br />
./<br />
./<br />
Plan<br />
./<br />
your content. In addition to understanding the type of information and its structures,<br />
one must also understand how the content is interrelated. Possessing a deep understanding<br />
of the information enables you to fully define the content, its metadata, and its publishing<br />
requirements. You can then verify that the functionality you have planned properly<br />
leverages the content’s granularity. The information and relationships play directly into the<br />
design of the final product.<br />
that technology is not magic. In the end, technology is not a silver bullet that<br />
can do everything for you—it is a tool that enables you to speed the development and publishing<br />
of information. In the end, it will not provide 100% automation, nor will it eliminate<br />
the need to work directly with the information. If used correctly, however, technology can<br />
greatly improve the pace and effectiveness of creating and delivering information.<br />
Utilize an XML architecture to help ensure flexibility. Using XML helps to remove the dependency<br />
of information on any one particular technology, and this ultimately adds longevity<br />
to the information and platform. XML-based information can be aggregated with<br />
other information, automatically processed, and published in a more automated manner. It<br />
reduces the amount of direct interaction that is necessary to reuse or repurpose the content.<br />
An XML content server like MarkLogic Server can significantly improve this process.<br />
for iterations. Functionality, content, and metadata are often intertwined. For instance,<br />
metadata that was not used in the original content may be core to the online product.<br />
According to Alex Humphreys, “Iterations are about coordination. By cycling through these<br />
iterations, we can simultaneously mitigate risk while ensuring that the entire project team<br />
is working towards the same goal.»<br />
PRODUCT REFERENCE: MARKLOGIC SERVER<br />
Mark Logic Corp. helps its customers accelerate the creation of new information products. MarkLogic Server is<br />
an XML content server that enables organizations to build content applications, or applications that are based on<br />
content and that support business processes. With MarkLogic Server, companies can deliver products through<br />
multiple channels, integrate content from different sources, repurpose content into multiple products, build unique<br />
information products, and discover previously unknown information. MarkLogic has a complete implementation of<br />
XQuery, the W3C-standard for querying XML, and provides very fast and highly scalable content retrieval.<br />
San Mateo, California-based Mark Logic is privately-held and backed by Sequoia Capital and Lehman Brothers.<br />
The company serves large, recognized companies in the publishing industry, public sector, and other industries.<br />
MARKLOGIC SERVER OVERVIEW<br />
As MarkLogic Server is an XML content server, it is an ideal platform for content applications. With a native XML<br />
repository and a complete implementation of XQuery, MarkLogic provides robust support for:<br />
• Content loading: Content can be loaded in its current format, converted to XML as necessary, and automatically<br />
indexed for later retrieval. Supporting any number of DTDs or XML schemas, MarkLogic Server is able to make<br />
sense of a disparate array of content.<br />
• Query: With full-text and XML indexes accessible via XQuery, MarkLogic Server provides fine-grained search and<br />
retrieval based on document type, content structure, occurrence, and attributes.<br />
• Content manipulation: MarkLogic Server provides the means to transform, update, and even assemble new content<br />
products based on specific needs.<br />
• Rendering content: MarkLogic Server enables companies to format, publish, and deliver content products. If<br />
needed, MarkLogic can be integrated with other publishing technologies to facilitate the delivery of content through<br />
any number of media or channels.<br />
MarkLogic Server enables organizations with high-volume content needs to automate the processes of content<br />
integration, content repurposing, content delivery, and custom publishing.<br />
CONTENT INTEGRATION<br />
Many organizations have numerous disparate silos of content due to unique project needs, mergers and acquisitions,<br />
licensing, or changing corporate standards. Much of that content is maintained in different formats. Until the<br />
content has been integrated, however, its true value cannot be realized.<br />
MarkLogic Server bypasses the typical content normalization step by importing content “as is.” It uses the power of<br />
its query system to cut across all of the types and formats in a content base. MarkLogic supports loading, querying,<br />
manipulating, and rendering content in consistent ways even if there are no common DTDs, XML schemas,<br />
or formats. Furthermore, MarkLogic Server does not “shred” or “chunk” documents, so there are no problems with<br />
“round-tripping” documents to and from the content base. No information is ever lost.<br />
CONTENT REPURPOSING<br />
Content Publishers often need to repurpose content into multiple products to increase revenues, decrease costs,<br />
or accelerate time to market. The goal is simple—write once, use many. These organizations want to assemble<br />
content components to create customized, purpose-built documents and information products.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
54
Retours d’expériences Big Data en entreprise<br />
MarkLogic Server delivers content that is formatted and organized to end-users’ specifications. It can automatically<br />
create summary documents that extract relevant content across entire collections. MarkLogic is the basis of<br />
self-service publishing systems that enable customers to assemble their own information collections. Content repurposing<br />
is vital when multiple variants of a document are drawn from common materials. For example, a section<br />
of a research article may be combined with different content for Internet portals, print journals, grant applications,<br />
reference manuals, and textbooks. In another example, a master technical document about an aircraft may be excerpted<br />
to form manufacturing instructions, maintenance manuals, pilot briefing books, and training presentations.<br />
CONTENT DELIVERY<br />
When documents are ready to be published, syndicated, or otherwise delivered, they must go through an output<br />
formatting and rendering process. Preparing the same content for use in a textbook and a magazine means dealing<br />
with different document organizations, formats, and layouts. Meanwhile, publishing the same content for a Web<br />
portal, on-demand PDF, or handheld document reader requires further output rendering.<br />
MarkLogic Server provides the services needed for delivery of content that is optimized for multiple output formats,<br />
media, and devices. It also provides a content processing framework that offers custom content processing<br />
pipelines to coordinate multi-step production processes. The content processing framework has a Web services<br />
interface for easy integration of third-party tools and applications, enabling MarkLogic Server to be seamlessly<br />
integrated into existing business processes to create efficient content delivery systems.<br />
CUSTOM PUBLISHING<br />
Custom publishing is the on-demand assembly and production of documents from existing content. With a custom<br />
publishing system, users can build a custom document, book, article, newsletter, or collection of articles simply by<br />
“snapping” together content components from different sources.<br />
MarkLogic Server provides the services that enable content to be located, selected, and then assembled into a<br />
complete book or whatever format is required.<br />
SEARCH AND DISCOVERY<br />
Traditional enterprise search engines can often prove useful, especially when you know exactly what you are looking<br />
for. All too often, however, the potential matches are too numerous to even review. Furthermore, a user may not always<br />
know what he or she wants to find. MarkLogic Server provides extensive enterprise search capabilities (i.e. phrase,<br />
Boolean, wildcard, proximity, parametric, range searches) and language processing features (i.e. stemming, thesauri,<br />
spell checking). All of these features are implemented in a platform that can scale to handle terabytes of content.<br />
Figure 3: MarkLogic Server vs. Enterprise Search Engine<br />
INFOTRENDS’ PERSPECTIVE<br />
The Oxford University Press story is an excellent example of a company that made an infrastructure investment in<br />
a standardized XML publishing system that enhanced its ability to quickly develop new products while also reducing<br />
costs. The Mark Logic-based publishing platform enabled OUP to develop new projects in less time than it had<br />
taken to produce one-off projects. This directly translates into a better utilization of resources, the ability to respond<br />
more rapidly to changing market conditions, and the flexibility to respond to new requirements and content in the<br />
future. XML-based publishing solutions are gaining favor as customers and their vendors realize that information<br />
consistency is critical and metadata is paramount for a wide range of publishing projects. In fact, content- centric<br />
applications that assemble and distribute content through multiple touchpoints using open standards such as XML<br />
are no longer in the minority. OUP’s willingness to grapple with its online publishing problem using an XML-based<br />
publishing approach that is built on MarkLogic Server will enable the company to better serve customers in the<br />
future as their information needs continue to evolve.<br />
Mike Maziarka, Craig Cline<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
55
Retours d’expériences Big Data en entreprise<br />
MARKLOGIC - PRESS ASSOCIATION<br />
DATA IN THE NEWS<br />
MULTIMEDIA CONTENT PROVIDER STREAMLINES DELIVERY WITH A<br />
CENTRALIZED PLATFORM<br />
COMPANY OVERVIEW<br />
For over 140 years, the Press Association (PA) has served as the UK’s biggest provider of fast, fair, and accurate<br />
news content. Today, PA Group provides a range of global multimedia content and editorial services, including<br />
news, sports, data, weather forecasts, images and video as well as more bespoke services. Their diverse customer<br />
base ranges across media and from small businesses to global corporations and government agencies.<br />
CHALLENGE<br />
Originally made up of multiple companies brought together to form PA Group and with such diversification in different<br />
types of content and services, more technical cohesion and strategy was needed when John O’Donovan joined<br />
as Director of Architecture & Development.<br />
“All of the different parts of the business were utilizing different technologies,” he says. “Each of the various types<br />
of data - images, video, news stories and so on - were built and managed on different systems.”<br />
PA needed a new, centralized solution that could handle XML, while also merging a large volume of structured<br />
and unstructured content in a useful and efficient way. O’Donovan and his team knew that traditional databases<br />
wouldn’t have that capability: “We needed something that could build a single, common platform to align all of our<br />
diverse and complex content.”<br />
Speed and efficiency were also key considerations. With previous solutions, the company was spending 70% of<br />
their time managing and manipulating data before they could get any use out of it. It was important that the new<br />
platform be fast and flexible.<br />
SOLUTION<br />
PA has enjoyed a beneficial relationship with MarkLogic for several years. Most notably, they used MarkLogic to<br />
facilitate news delivery during the Olympic Games and have rebuilt their central editorial system including certain<br />
sports news systems using MarkLogic as the common content store. During the Olympics, PA fulfilled over 50<br />
billion information requests, including competition results, athlete information, news stories and more. MarkLogic<br />
rose to the challenge, serving up all that data in a<br />
fast and efficient manner for it to be distributed to many different clients in 26 languages across 40 regional territories.<br />
“Throughout the whole event, the technology worked exactly the way we wanted it to,” says O’Donovan.<br />
When considering their key objectives for the new platform, MarkLogic was a natural fit; “The platform aligned<br />
perfectly with our business strategy and development goals,” O’Donovan says. “They were equipped to deliver a<br />
central, common database - one system to accommodate all types of data.”<br />
After a successful launch, the PA team immediately recognized several key benefits. The new system had the flexibility<br />
and scalability they needed, which will seamlessly accommodate future growth. It also offered a high degree<br />
of security they were seeking.<br />
With the new platform, PA is able to manage data issues much more efficiently. As an example, one specific project<br />
would have taken up to 100 workdays to complete with the old platform; with the MarkLogic solution, it took only<br />
34 days - a 66% boost in efficiency. “There are fewer restrictions and less complexity in transforming data from<br />
one format to another,” notes O’Donovan. “We can store and manage data in a way that aligns with how we want<br />
to present it to customers.”<br />
Overall, PA feels they are utilizing the new tool to the best of its ability, enabling them to not only deliver their existing<br />
products, but to also deploy new solutions that were previously too difficult, time-consuming or expensive to<br />
build.<br />
SUMMARY<br />
After successfully launching several key applications, the Press Association has become a huge advocate of Mark-<br />
Logic. “We’ve converted many people over to their platform,” O’Donovan says. “It’s fun to watch people use it and<br />
have these ‘Eureka’ moments when they realize how easy it is to do things that used to be so complex.”<br />
According to O’Donovan, even the most traditional developers become invigorated by MarkLogic’s clever and<br />
unique way of handling structured and unstructured data. “MarkLogic provides an elegant solution for dealing<br />
with the complex content issues of the PA.” For this high-volume multimedia content provider, such a capability is<br />
newsworthy indeed.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
56
Retours d’expériences Big Data en entreprise<br />
MARKLOGIC - REED BUSINESS INFORMATION - 4D CONCEPT<br />
STREAMLINING PUBLICATION PRODUCTION PROCESSES AT REED<br />
BUSINESS INFORMATION FRANCE<br />
CORPORATE OVERVIEW:<br />
Reed Elsevier is the world’s leading publisher of pro- fessional content, with 37,000 employees across 200 offices<br />
worldwide, accounting for sales of nearly 8 billion euros. Its four principal industry divisions – Sciences & Medical,<br />
Legal, Education, and Business – produce more than 15,000 professional references, magazines, books, CD-<br />
ROMs, online information and business intelligence services annually.<br />
As a subsidiary of Reed Elsevier, Reed Business Informa- tion (RBI) provides business professionals across five<br />
continents unrivaled access to a wide range of commu- nication and information channels. With offerings from<br />
magazines to directories, conferences to market re- search, RBI’s main objective is to become the undeniable<br />
reference in key business sectors across a diverse range of industries. The company’s vision is that superior information<br />
and communication products help its customers gain competitive advantage in areas such as commerce,<br />
marketing and decision support.<br />
Yet, just as important to its central mission, is to operate as a cost-efficient, high performing organization. When<br />
assessing any new technology, RBI strikes a constant balance between cost and the potential impact of effective,<br />
efficient, but substantial investment in new revenue streams. Driving this effort at its core is the utilization of<br />
the Internet as a key delivery channel. RBI’s portfolio of leading prestige brands comprise powerful products and<br />
services that, thanks to Mark Logic OEM partner 4Dcon- cept’s XMS product, leverage all forms of new media to<br />
adapt professional information to specific customer requirements.<br />
RBI FRANCE FACES PUBLICATION CHALLENGES<br />
RBI France publishes a number of successful titles including the leading French weekly business magazine Stratégies,<br />
the monthly Direction(s), the #1 electron- ics review in Europe EPN, and its sister publications EPN France<br />
and EDN Europe. Last March RBI acquired Cosmedias, the leading French publisher in the beauty market with<br />
famous magazines like Cosmétique Mag, ICN and Coiffure de Paris. The office also publishes books, guides, CDs<br />
and databases in areas of interest as diverse as social services, education, human resources, public policy, selfhelp,<br />
and legal.<br />
RBI France was laboring under challenging content transformation and production processes. Such issues have<br />
even greater negative impact in the publishing industry, where content is a company’s greatest asset. RBI France<br />
was already familiar with the power of XML to tag and index content, but reusing this content often proved quite<br />
difficult. Regarding its magazine content, RBI France remained tethered to use of an SQLServer database as its<br />
content repository. This meant that for reuse purposes, any existing content selected would be exported out into<br />
XML, reprocessed for publishing, and then new pages exported out of XML again for re-stor- age in the database.<br />
This laborious use of XML made the press composition process neither clean nor quick. The constant back and<br />
forth transformations required to produce new content – first for print production and ultimately to the web – was<br />
proving too difficult to man- age. Waiting for production to get print content first and then load it on the Internet had<br />
introduced latency into the update process as well.<br />
It was becoming clear that RBI France’s content produc- tion, storage and retrieval processes were interfering with<br />
fulfilling one of its central missions – understanding and exceeding customer expectations. RBI resells its professional<br />
content to business partners who aren’t in the publishing business but rather leverage custom, industryspecific<br />
information published by RBI to better serve their own end customers. RBI France’s partners include<br />
banks, consumer sites, retail outlets, and technol- ogy companies. Because of its sometimes laborious production<br />
processes, RBI France’s wish to repurpose and realize more value from its digital content as new services was<br />
stymied, making the creation and delivery of added value to these indispensable partners both dif- ficult and expensive.<br />
REQUIREMENTS FOR A NATIVE XML<br />
DATABASE SOLUTION<br />
Although RBI France’s main technical challenge was in transforming content back and forth from XML, its solu- tion<br />
requirements did not end simply at a database that could handle XML. It needed to be a fully realized enter- prise<br />
content management system leveraging a single centralized XML repository as the main content source for all<br />
publishing operations. This required that the content platform selected offer workflow functionality to speed and<br />
ease production and content management of the French publisher’s books, magazines, websites, applications,<br />
and partner offerings. The company also wanted to be sure that the solution selected was fully compatible with<br />
Adobe Framemaker, InDesign and the other design tools already in use and favored by its editors. Finally, RBI was<br />
seeking a partnership with its supplier that would be long-term and mutually beneficial.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
57
Retours d’expériences Big Data en entreprise<br />
Reed Elsevier, the parent company of RBI, has a stated value that pervades the company system-wide: innovation.<br />
Management encourages workers to welcome and push change, challenge the status quo, take risks and be<br />
entrepreneurial. Reed Elsevier’s U.S. and U.K. offices first started working with Mark Logic’s XML server back in<br />
2006. Certainly, going with a new solution called an XML Database at that time was a new idea and a bold move<br />
indicative of ‘out-of-the-box’ thinking. By the time their counterparts in France were ready for a similar solution,<br />
Elsevier’s corporate IT department had already completed 2 projects. The result: MarkLogic had a leg up on the<br />
competition in solving the problems of RBI France.<br />
PILOTING MARKLOGIC SPARKS 4DCONCEPT’S XMS, AN EDITORIAL CMS<br />
After the selection of MarkLogic Server, RBI France launched its implementation project at the end of 2006. It<br />
started small, with a pilot based on only one of its profes- sional electronics magazines, EPN (Europe-wide edition),<br />
EPN France, and one of its books, Le Guide Familial – the leading French family law guide used by half of<br />
the country’s social workers. Why? Because sales efforts were already aligned behind these products, and success<br />
with their high profile brands could be used as a compelling business case to help IT push a larger goal – the<br />
ultimate move to a true enterprise-wide editorial content management system.<br />
To succeed in this challenge, RBI France turned to one of its trusted local IT solution providers, 4Dconcept. 4Dconcept<br />
would provide critical know-how in multi-channel publication for the press and publishing industries. After<br />
having learned to integrate Mark Logic in a matter of weeks, 4Dconcept managed the 6-month pilot program to<br />
a successful conclu- sion and also set the foundation for the future editorial con- tent management system. This<br />
solution, called XMS, would drive the production of other RBI France content.<br />
However, it didn’t take RBI France very long to under- stand the distinct advantages of an editorial content management<br />
system relying on a database specialized in handling full XML content. This is how RBI France got<br />
involved in the development of XMS. XML simply made sense for a wider solution that would anticipate all RBI<br />
France’s future needs. First, XMS places no limitations on the original structure of the content, meaning it can be<br />
tagged and indexed from any source just as efficiently.<br />
RBI France is able to repurpose content without any con- straint from the media itself. Changes anywhere, even to<br />
a single word in a single story, ripple out to be reflected in all citations automatically without IT intervention.<br />
Finally, editors were able to keep in place all of their pre- ferred publication layout and design tools such as Adobe<br />
InDesign, Framemaker and Bridge.<br />
After the pilot project was completed, RBI France conducted three to four months of analysis to measure its success.<br />
This process yielded some best practices to optimize the massive rollout of XMS across RBI France. EPN<br />
and Le Guide Familial are not large publications.<br />
Hence, it was critical that the success of the future XMS be demonstrated and proven in action here before moving<br />
on to larger, more prestigious brands.<br />
RBI FRANCE’S USE OF XMS SPURS NEW SERVICES FOR CUSTOMERS<br />
As a result of the successful implementation of XMS, RBI France was actually able to reverse its original production<br />
process of new content from web to print, versus print to web. Changing this workflow allows editors<br />
to publish in XML without media constraint, to launch new material on the web in seconds when ready, and to<br />
provide new value-added services for customers and partners. The content lives in XML without needless transformations,<br />
streamlining a process that’s cleaner, quicker and always up-to-date. The print production team now<br />
consistently leverages the latest information to churn out RBI France’s magazines weekly and monthly, or its new<br />
book editions on a quarterly basis.<br />
Because of 4Dconcept and Mark Logic’s success with some of the most high profile brands at RBI France, the<br />
division was able to rollout a true enterprise-wide edito- rial content management system – a live, fully functional<br />
solution with direct connections to and from in-house layout and design tools. Seven different RBI brands now<br />
have their content fully loaded as XML in XMS, includ- ing numerous leaflet books and some of the larger, more<br />
prestigious magazines published by RBI France such as stratégies. The high level of scalability and reliability of<br />
XMS ensures work can continue until all of RBI France’s products live in the XML database. The amount of upfront<br />
index definition completed during XMS’ conception means little additional development investment is necessary to<br />
integrate new brands or products into XMS quickly and cleanly.<br />
In summary, RBI France’s investment in XMS is indeed paying off. Streamlined production has lead to the company’s<br />
ability to repurpose its digital content and to de- liver more value offering new resale services to partners.<br />
Rich XML allows innovative products to be introduced easily and less expensively, whether internal or external.<br />
One example of dynamically updated custom content resulting in a new service includes the case of one of RBI<br />
France’s major bank customers. This content resale part- ner was able to rapidly produce a new audit guide on<br />
their own website, completely powered by RBI content. Mark Logic and 4Dconcept have thereby helped RBI<br />
France to fulfill another one of its core corporate objectives: to be highly valued and respected by its customers.<br />
The official introduction of XMS to the market occurred in October 2008 in Paris. RBI France, 4Dconcept and Mark<br />
Logic continue to partner for ongoing development and evolution of XMS.<br />
ABOUT 4DCONCEPT<br />
4Dconcept provides leading organizations with services to drive, define, design and deploy documentary and<br />
editorial information systems in the aeronautics, de- fense, construction, manufacturing, telecommunication, transport,<br />
publishing, media and administration sec- tors. 4Dconcept addresses matters such as content and knowledge<br />
management, editorial content enrichment and publishing, after-sale market and maintenance engi- neering, and<br />
cross-media publishing. It offers a range of services to advise customers on best practices, develops custom-made<br />
solutions, and produces graphical (2D/3D) and text content applications. 4Dconcept also offers a set of modular<br />
and adaptable turnkey solutions to help customers produce and manage their information in mul- tiple sectors. The<br />
implementation of technologies such as XML enables 4Dconcept to bring relevant information to the people who<br />
need it, when they need it. To learn more about 4Dconcept, visit www.4dconcept.fr.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
58
Retours d’expériences Big Data en entreprise<br />
MARKLOGIC - RSC<br />
BIG DATA AS A SCIENCE UK CHEMISTRY SOCIETY UNLOCKS 170 YEARS’<br />
WORTH OF DATA WITH THE POWER AND FLEXIBILITY OF MARKLOGIC<br />
When the content experts at the Royal Society of Chemistry (RSC) found themselves struggling to manage millions<br />
of buried data files, they partnered with MarkLogic to build a new solution. Using the MarkLogic Enterprise NoSQL<br />
database, the RSC has made over a century’s worth of information accessible to entrepreneurs, educators, and<br />
researchers around the world.<br />
COMPANY OVERVIEW<br />
Founded over 150 years ago in the United Kingdom, the RSC is Europe’s largest organization dedicated to furthering<br />
awareness of the chemical sciences. With more than 48,000 global members, the RSC is the heir and successor<br />
of four renowned and long-established chemical science bodies—The Chemical Society, The Society for<br />
Analytical Chemistry, The Royal Institute of Chemistry, and The Faraday Society. The RSC’s headquarters are in<br />
London and Cambridge, UK with international offices in the USA, China, Japan, India and Brazil.<br />
To strengthen knowledge of the profession and science of chemistry, the RSC holds conferences, meetings, and<br />
public events, and also publishes industry-renowned scientific journals, books and databases.<br />
Adding to its wealth of content, the RSC recently acquired the rights to The Merck Index. Widely considered as<br />
the worldwide authority on chemistry information, this renowned reference book has been used by industry professionals<br />
for over 120 years.<br />
CHALLENGE<br />
It’s a tall order to manage a single year’s worth of data—so how about 170 of them? Since the 1840s, the RSC has<br />
gathered millions of images, science data files and articles from more than 200,000 authors. All of that information<br />
was stored in a wide range of formats at multiple locations and was growing by the day.<br />
In 2010, largely due to the huge growth of social media and digital formats, the RSC launched an initiative to make<br />
its data more accessible, fluid and mobile.<br />
David Leeming, strategic innovation group solutions manager for RSC, sums up the society’s goal: “We needed an<br />
integrated repository that would make all of our content accessible online to anyone—from teachers to businesses<br />
to researchers. The key was finding the right technology.”<br />
SOLUTION<br />
After evaluating several major providers, the RSC chose MarkLogic as the best platform for its needs, and built<br />
three sites on it:<br />
• RSC Publishing: http://www.rsc.org/publishing<br />
• Learn Chemistry: http://www.rsc.org/learn-chemistry<br />
• Chemistry World: http://www.rsc.org/chemistryworld<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
59
Retours d’expériences Big Data en entreprise<br />
Given the society’s wide range of information media— books, emails, manuals, tweets, metadata, and more—the<br />
data does not conform to a single schema, which means a traditional relational database can’t accommodate it.<br />
MarkLogic’s document-based data model is ideal for varied formats and hierarchical metadata. The RSC can<br />
simply load its information as-is, without having to conform to a rigid format.<br />
As Leeming points out, “A book chapter is very different from a journal article. A relational database can’t combine<br />
the two. MarkLogic is flexible enough to handle all types of unstructured content in a single delivery mechanism,<br />
from spreadsheets and images to videos and social media comments.”<br />
MarkLogic offers many key benefits, including the ability to store content as XML documents. The database also<br />
enables logical associations between different types of content.<br />
Each image, video, and article is automatically tagged, allowing users to find, understand, and process the information<br />
they need. As shown in the image above, searching RSC publications is a quick, intuitive process using a<br />
standard Web browser.<br />
The new MarkLogic platform will be a significant benefit in the RSC’s acquisition of The Merck Index. “We’re eagerly<br />
looking forward to developing The Merck Index for the digital future,” says Dr. James Milne, RSC Publishing<br />
Executive Director. The schema-less MarkLogic database will help to ensure the continued growth of the publication’s<br />
online format.<br />
SHARING THE KNOWLEDGE<br />
With the greater data accessibility afforded by the new MarkLogic database, the RSC’s publishing division has<br />
become much more productive, publishing more than 20,000 articles in 2011. “We can now publish three times as<br />
many journals and four times as many articles as we did in 2006, and get them to market faster,” says Leeming.<br />
“And we have the ability to build new educational programs to spread chemistry knowledge among more people.”<br />
In addition, since implementing the integrated MarkLogic database, the RSC has seen a 30 percent increase in<br />
article views, a 70 percent traffic boost on its educational websites, and a spike in research activity in India, China,<br />
and Brazil.<br />
Although the integrated data repository has been the biggest game-changer, the MarkLogic technology has enabled<br />
other opportunities. Leveraging MarkLogic’s Enterprise NoSQL database, the RSC has launched many new<br />
research journals, mobile applications, social media forums, and applications for children.<br />
Dr. Robert Parker, RSC Chief Executive, sums up the major role MarkLogic has played in this successful transition.<br />
“Using MarkLogic’s big data platform has allowed us to open up the world of chemistry to a much wider audience,<br />
whilst increasing the volume and quality of the research that we publish.”<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
60
Retours d’expériences Big Data en entreprise<br />
MARKLOGIC - SPRINGER<br />
SPRINGER TAKES CONTROL OF ITS ONLINE CONTENT DELIVERY<br />
SCIENTIFIC PUBLISHER USES MARKLOGIC TO TURN SPRINGERLINK<br />
INTO THE CORE OF ITS BUSINESS AND IMPROVE PERFORMANCE BY 50%<br />
COMPANY OVERVIEW<br />
For over 160 years, Springer has led the industry in scientific and medical publishing.<br />
With a staff of 6,000 employees around the world, the company publishes more than 8,000 new book titles each<br />
year—and that’s just in print. To meet the growing demand for online delivery, Springer also maintains an online<br />
catalog of more than 169,000 eBooks, and has the world’s largest open access portfolio.<br />
The company’s content delivery platform, SpringerLink, is the heart of the company’s business, hosting more than<br />
8.4 million scientific documents including journals, books, series, protocols and reference works.<br />
CHALLENGES<br />
Launched in 1996, SpringerLink was one of the first publicly available online content platforms. The site was originally<br />
used as a home to some of the company’s journals, but as online content became an increasingly important<br />
part of the company’s business, SpringerLink became the hub for every journal the company published, and later,<br />
its entire library of books.<br />
With a massive content library and a shift in revenues from print to electronic, Springer needed a greater level of<br />
flexibility and control over its online content distribution, which had grown to account for two-thirds of total company<br />
revenue. The Springer team required:<br />
• An in-house solution. For the past eight years, Springer had been using a third-party technology provider to power<br />
SpringerLink. As it evolved into a crucial component of their revenue, the company decided that they didn’t want<br />
that strategic asset resting on a technology they didn’t own.<br />
• Rapid deployment. With the end of their outsourced technology contract fast approaching, Springer faced the<br />
daunting task of completing the project in just 11 months.<br />
• Fast search. As online content exploded, readers came to expect better functionality from content providers,<br />
including sub-second search.<br />
THE SOLUTION<br />
Springer chose MarkLogic as its new platform because it allowed them to deliver more rich applications to their<br />
customers so they could create a user experience that went beyond simply delivering a piece of content. It had<br />
previously built and deployed some high-performing applications using MarkLogic technology, including a tool to<br />
track the locations of document authors, a search engine for mathematicians, a program that displays snippets<br />
of scientific language in a publishing context, and SpringerImages, a robust platform that allows users to search<br />
through the millions of images stored in SpringerLink.<br />
BENEFITS<br />
MarkLogic gave Springer an in-house solution that dramatically improved SpringerLink’s performance. MarkLogic<br />
also helped Springer:<br />
• Create revenue. SpringerLink has become the core of Springer’s business, generating 95 percent of Springer’s<br />
online revenue and driving more than 2 million page requests and over a million downloads a day.<br />
• Increase performance. In fractions of a second, SpringerLink can now analyze hundreds of contracts per customer<br />
identifying which of the millions of items they can access. During high-traffic periods, the new platform loads<br />
twice as fast, and runs essential functions up to four times faster.<br />
• Boost user engagement. Since moving to MarkLogic, the time users spend on SpringerLink has increased by<br />
one-third, bounce rate has been cut in half, and number of page views grown.<br />
• Re-build SpringerImages. MarkLogic searches image captions as well as relevant text surrounding the image<br />
ensuring more robust and accurate results.<br />
• Fit its agile development process. MarkLogic’s agile approach supports automated tests, continuous integration<br />
and deployment, and weekly iterations.<br />
• Simplify architecture. MarkLogic’s built-in powerful search engine helped Springer simplify its architecture and<br />
allows users to subscribe to their own reusable queries.<br />
• Support multi-language search. MarkLogic is able to change the search parameters based on the user’s language.<br />
German-speaking users and English-speaking users will see results tailored to them.<br />
• Go to market quickly. From three releases each year on the old platform to now weekly releases, Springer is able<br />
to take new features to market as soon as a business need is identified.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
61
Retours d’expériences Big Data en entreprise<br />
MICROPOLE - L’OBS<br />
L’OBS : DE NOUVELLES OPPORTUNITÉS GRÂCE AU BIG DATA POUR<br />
AMÉLIORER L’EXPÉRIENCE DES LECTEURS<br />
L’OBS (ex-Le Nouvel Observateur), acteur majeur de l’information sur les supports magazine, web et mobile a<br />
retenu en 2013 Micropole et son agence digitale Wide pour l’accompagner dans la définition et sur la mise en place<br />
de sa stratégie multicanal personnalisée.<br />
Avec 8 millions de visiteurs uniques par mois* et plus de 800 000 abonnés, le groupe souhaitait disposer d’une<br />
connaissance 360° de l’ensemble de son audience afin de lui proposer de nouveaux services individualisés à forte<br />
valeur ajoutée.<br />
Dans un contexte de mutation des usages, particulièrement dans le domaine des media et de transformation de<br />
l’information (volume, vitesse et variété), l’OBS entreprend alors :<br />
- D’écouter sur tous les points de contact, digitaux ou offline ;<br />
- D’analyser les données pour mieux connaître et appréhender les centres d’intérêt du lecteur ;<br />
- De comprendre et d’animer en cross-canal l’ensemble de son lectorat traditionnel et digital.<br />
Pour atteindre ces objectifs de collecte, d’analyse et d’engagement de la relation client, l’OBS s’appuie sur la<br />
plateforme Customer Data mise en place par Wide. Cette solution repose sur les principes technologiques du Big<br />
Data et met à disposition les services métiers en mode SaaS (Software as a Service) de la solution Cloud Digital<br />
Marketing Optimization de IBM .<br />
Ainsi, l’OBS est en capacité de proposer un contenu personnalisé en accord avec les préférences de ses lecteurs<br />
et selon leur historique de navigation, ceci en temps réel. Le groupe est également capable d’adresser des communications<br />
individualisées (emails, newsletters…) tenant compte de leurs centres d’intérêt.<br />
Cette stratégie digitale a rapidement porté ses fruits car le nombre d’abonnements à la newsletter a augmenté de<br />
25% en seulement 6 mois. Le lecteur abonné est alors reconnu et animé par le CRM.<br />
« Avec IBM et Micropole, nous avons fait le choix de l’ambition et de l’innovation. Grâce aux fonctions avancées<br />
de cette nouvelle plateforme, nous sommes capables de comprendre les centres d’intérêt d’un internaute, sans<br />
pour autant connaître son identité, tout en apportant de nouveaux services à forte valeur ajoutée à nos abonnés.<br />
Plus généralement, ceci nous permet d’offrir à nos lecteurs la possibilité de bénéficier de contenus et de services<br />
personnalisés en temps réel », a déclaré le Directeur Marketing Digital de L’OBS.<br />
*Source : Médiamétrie NetRating mai 2013<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
62
Retours d’expériences Big Data en entreprise<br />
MICROSOFT - PIER IMPORT<br />
MICROSOFT - PIER IMPORT<br />
With over 1,000 stores, Pier 1 Imports aims to be their customers’ neighborhood store for furniture and home décor.<br />
But the way customers are shopping is different today and Pier 1 Imports recently launched a multi-year, omnichannel<br />
strategy called “1 Pier 1”, a key goal of which is to understand customers better and serve them with a<br />
more personalized experience across their multiple interactions and touch points with the Pier 1 brand.<br />
Pier 1 Imports recently adopted Microsoft Azure Machine Learning to help them predict what their customers might<br />
like to buy next. Working with Microsoft partner MAX451, they built an Azure ML solution that predicts what a<br />
customer’s future product preferences might be and how they might like to purchase and receive these products.<br />
Many Microsoft customers across a broad range of industries are deploying enterprise-grade predictive analytics<br />
solutions using Azure ML. You too can get started on Azure ML today.<br />
MICROSOFT - THYSSENKRUPP<br />
MICROSOFT - THYSSENKRUPP USES PREDICTIVE<br />
ANALYTICS TO GIVE BURGEONING CITIES A LIFT<br />
Urban migration is one of the megatrends of our time. A majority of the world’s population now lives in its cities. By<br />
2050, seven of every ten humans will call a city their home. To make room for billions of urban residents to live,<br />
work and play, there is only one direction to go – up.<br />
As one of the world’s leading elevator manufacturers, ThyssenKrupp Elevator maintains over 1.1 million elevators<br />
worldwide, including those at some of the world’s most iconic buildings such as the new 102-story One World<br />
Trade Center in New York (featuring the fastest elevators in the western hemisphere) and the Bayshore Hotel in<br />
Dalian, China.<br />
ThyssenKrupp wanted to gain a competitive edge by focusing on the one thing that matters most to their customers<br />
– having elevators run safely and reliability, round the clock. In the words of Andreas Schierenbeck, ThyssenKrupp<br />
Elevator CEO, “We wanted to go beyond the industry standard of preventative maintenance, to offer predictive and<br />
even preemptive maintenance, so we can guarantee a higher uptime percentage on our elevators.”<br />
FIX IT BEFORE IT BREAKS – ‘SMART’ ELEVATORS<br />
ThyssenKrupp teamed up with Microsoft and CGI to create a connected intelligent system to help raise their elevator<br />
uptime. Drawing on the potential of the Internet of Things (IoT), the solution securely connects the thousands<br />
of sensors in ThyssenKrupp’s elevators – sensors that monitor cab speed, door functioning, shaft alignment, motor<br />
temperature and much more – to the cloud, using Microsoft Azure Intelligent Systems Service (Azure ISS). The<br />
system pulls all this data into a single integrated real-time dashboard of key performance indicators Using the rich<br />
data visualization capabilities of Power BI for Office 365, ThyssenKrupp knows precisely which elevator cabs need<br />
service and when. Microsoft Azure Machine Learning (Azure ML) is used to feed the elevator data into dynamic<br />
predictive models which then allow elevators to anticipate what specific repairs they need.<br />
As Dr. Rory Smith, Director of Strategic Development for the Americas at ThyssenKrupp Elevator, sums it up,<br />
“When the elevator reports that it has a problem, it sends out an error code and the three or four most probable<br />
causes of that error code. In effect, our field technician is being coached by this expert citizen.”<br />
In other words, these ‘Smart’ elevators are actually teaching technicians how to fix them, thanks to Azure ML. With<br />
up to 400 error codes possible on a given elevator, such “coaching” is significantly sharpening efficiency in the field.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
63
Retours d’expériences Big Data en entreprise<br />
MICROSOFT - CARNEGIE<br />
MICROSOFT - MEET CARNEGIE MELLON’S ENERGY SLEUTHS<br />
An academic, architect, researcher and activist for energy conservation—Vivian Loftness is a champion of biophilic<br />
design. Her workspace, surrounded by light and plants, reflects her passion.<br />
Vivian Loftness is obsessed with sustainability and building performance. Having called many different cities<br />
around the world home — from her birth city of Stockholm, to early years in Los Angeles and Paris, to study and<br />
work stints in Boston, Helsinki, New York City, Cologne, Athens, Ottawa and finally, Pittsburgh, where she is a professor<br />
at Carnegie Mellon’s School of Architecture — Loftness has checked out more than a few buildings close up.<br />
Loftness’ singular passion is for sustainable architectural design and the need to get buildings in our world to a<br />
“zero state” where they have the smallest possible energy footprint without sacrificing comfort. This is no small<br />
feat, and a problem that is technological as much as it is architectural. But advances in technologies such as cloud<br />
computing, data analytics and services such as Microsoft’s Azure Machine Learning are helping Loftness and two<br />
researchers at Carnegie Mellon’s Center for Building Performance and Diagnostics slowly crack the code, one<br />
building at a time, and in ways previously unthinkable.<br />
THE ‘INTELLIGENT WORKPLACE’ - WHERE THE DATA JOURNEY BEGINS<br />
The Intelligent Workplace, which sits atop the Margaret Morrison Carnegie Hall, was established in 1997 as the first<br />
“Living Laboratory” of its kind dedicated to research in building sustainability.<br />
The Robert L. Preger Intelligent Workplace, which sits atop the stunning Margaret Morrison Carnegie Hall, is where<br />
Loftness and 30 researchers and graduate students are studying the impact of a variety of factors on the quality<br />
of built environments. Natural light dominates this space they call “the Living Laboratory,” streaming in through<br />
skylights and wall after wall of expansive windows that offer sweeping views of the campus grounds. Research<br />
students occupy open, collaborative workspaces. Unfinished wooden building models sit on work tables which, like<br />
the rest of the furniture and walls in the lab, are reconfigurable and movable — all in a matter of minutes. Plants<br />
are everywhere, and if you look closely enough, several are wired with sensors, as are the walls and ceilings of<br />
this “living” workspace.<br />
For these researchers, the journey started with really simple questions: How do you give people who work in buildings<br />
a comfortable environment while using the least possible energy? How do you make people accountable for<br />
their own energy footprints? And how can technology assist in that journey?<br />
Senior researchers Bertrand Lasternas and Azizan Aziz work with Loftness, sharing her passion for taking on one<br />
of the most daunting problems facing our generation — How do you make buildings more energy efficient? The<br />
statistics are sobering. Nearly 70 percent of all electricity in the United States goes toward building operations —<br />
heating and cooling systems, lighting, ventilation and plug loads. For these researchers, the journey started with<br />
really simple questions: How do you give people who work in buildings a comfortable environment while using<br />
the least possible energy? How do you make people accountable for their own energy footprints? And how can<br />
technology assist in that journey?<br />
MAKING SENSE OF BUILDING DATA<br />
Not unlike a crew of investigators methodically working their way through evidence at a crime scene, these energy<br />
sleuths have cultivated a healthy respect for data and are capturing it from buildings all across the Carnegie Mellon<br />
campus. They’re about halfway there, drawing data from 40 buildings, with roughly 25 more to go.<br />
Data is how buildings reveal their secrets and to miss one key piece could potentially derail an entire investigation.<br />
“The behaviors of buildings we analyze and the people who occupy them are unique, complex and hard to predict,”<br />
says Loftness. There are students who leave windows open in their dorm rooms during bitterly cold winters when<br />
heat is blasting. There are building managers who leave air conditioning systems running during cool summer<br />
nights. There are offices that enjoy bright daylight but whose staff still leave the lights on all day. And then there<br />
is the challenge of managing “things”— thermostats, computers, microwaves, elevators — as well as analyzing<br />
external factors such as day-to-day fluctuations in weather.<br />
SO MUCH INEFFICIENCY<br />
Loftness conducts a lecture with graduate students at the Intelligent Workplace. Some of her students assist with<br />
the data sleuthing activities.<br />
The large number of variables means one simple thing: Buildings, like those who inhabit them, are living beings.<br />
What are they telling us? More importantly, are we doing enough to listen?<br />
“There is no question that we save 30 percent in most buildings through better awareness of where the energy’s<br />
going, and giving users better controls to adjust for their individual needs while driving down energy usage,” Loftness<br />
says.<br />
The stakes are high and so is the urgency. About 40 percent of CO2 emissions globally come from buildings.<br />
Buildings use technologies and products assembled in hundreds of unique ways, generating literally millions of<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
64
Retours d’expériences Big Data en entreprise<br />
variations. Buildings also vary in age, with generations of local architectural adaptations made over time. Then<br />
there are the occupants — a mix of people with unique activities and comfort thresholds. Understanding how all<br />
these factors mesh together requires historical data and data analysis. A lot of it.<br />
These are complex and critical problems we’re trying to solve. And cloud and machine learning technology is<br />
helping us push boundaries of what is possible in ways I couldn’t have imagined a few years ago. — Azizan Aziz,<br />
Senior Research Architect<br />
THE DATA CHALLENGE MEETS THE DATA SLEUTHS<br />
Making all the captured data from buildings work together is like putting together a massive jigsaw puzzle. Some<br />
buildings on campus, such as the Gates Center, have hundreds of sensors, and others not so many. These sensors<br />
are tracking CO2 levels in different rooms, measuring the distribution of temperatures by floor, by room and by<br />
height, monitoring windows, lighting systems and plug loads. And there’s more: People who work inside make up<br />
the most significant part of a building’s heartbeat — so user satisfaction data is being added to the mix based on<br />
occupant surveys in order to have a holistic picture of the indoor environmental quality of the workplace.<br />
To say it’s a complex task would be putting it lightly. Lasternas and Aziz spend a good deal of time being data<br />
sleuths, and finding ways to listen to what the buildings are trying to communicate — the story that lives in the data.<br />
There is a real difference you can make in energy conservation by giving people data that is actionable instead of<br />
asking them to just do their best — Bertrand Lasternas, Senior Researcher<br />
When Lasternas came to Carnegie Mellon from France in 2010, he was a physics and chemistry major working<br />
towards a master’s degree in mechanical engineering and building sciences. Today, he’s an expert in extracting<br />
data from building management systems and sensors, both to understand how buildings work, as well as to help<br />
people manage energy more efficiently.<br />
Recalling challenges from the earlier phases of the research, Lasternas says, “We might have 10 different manufacturers<br />
of equipment in a single building, and none of them share information. So how do you pull all of that<br />
together? We wanted to empower people to be more engaged in the living building, more aware of their energy<br />
usage patterns.”<br />
With help from Microsoft’s Global ISV partner OSIsoft, Lasternas and Aziz began using their solution, the PI System,<br />
four years ago. It offered the missing “glue” that helped the team bring data together from various sources,<br />
“cleanse” it, store it in a common, usable format, and make it ready for historical and real-time analysis. The PI<br />
System supports more than 400 interfaces that can connect to systems from the many different vendors of building<br />
systems and controls.<br />
THE MACHINE LEARNING BREAKTHROUGH<br />
“We’re not trained data scientists. We went overnight from using complex statistical analysis tools to drag-n-drop<br />
insights. That’s a breakthrough for the work we do” — Senior Researcher Azizan Aziz<br />
Having conquered the data integration and storage challenge, the team dove into analysis — a world of massive<br />
spreadsheets and programming languages such as MATLAB to handle big, iterative computations. It was an<br />
exercise that very quickly got unwieldy. “We’re not trained data scientists by background, and complex statistical<br />
packages are outside of our immediate area of expertise,” says Aziz.<br />
“One of our former students was using MATLAB for analysis,” he recalls. “It took her a long time just to prepare and<br />
sort the data, and then a single run of analysis took 30-45 minutes. That’s far too long to develop good predictions<br />
for demand reduction. We really need to do these iterative analyses in real-time.”<br />
Machine Learning, cloud and data visualization technologies changed the dynamics of their project dramatically.<br />
“With Azure Machine Learning, the time it took to run a single experiment went from 45 minutes to instantaneous,”<br />
Aziz says. “It’s really fun to be able to use multiple types of machine learning algorithms and just have the results<br />
appear immediately. We’re able to play with all the variables and make sense of which ones contribute most to a<br />
specific change in building conditions.”<br />
LETTING THE DATA TELL THE STORY<br />
To let the data tell its own story in a way that is visual and easy to grasp, the Carnegie Mellon researchers build<br />
“digital dashboards” that make data anomalies much easier to spot. Using these dashboards, they’ve been able to<br />
solve puzzles in the buildings they’re working on. In one case, Lasternas recalls, “We saw an unusual area of low<br />
temperature in a building and realized that someone was leaving a window open in the middle of winter, when it<br />
was minus-eight degrees outside.”<br />
According to Aziz, when a strange condition is spotted on the dashboard, the solution is often a simple one. “We<br />
ask people why they have the boiler on when the temperature outside is 85 degrees. Turns out they didn’t know it<br />
was on, because they don’t have the data presented to them clearly,” he says.<br />
Having data-based insight on-the-fly is great, but where things get really interesting is with the potential to do predictive<br />
modeling. This is an area where cloud and machine learning technologies have truly been a game changer.<br />
Because Carnegie Mellon is collecting and storing real-time and historical data on campus buildings using the PI<br />
System, they finally have the ability to do predictive analysis using Azure Machine Learning in exciting ways.<br />
For people who live in buildings and use its systems, providing data alone isn’t enough to change behavior. “People<br />
need to see the impact of their actions every minute. Digital dashboards often trigger the “aha!” moments.”<br />
— Lasternas<br />
One of the team’s early experiments involved trying to figure out the ideal time to ramp up the heating in campus<br />
buildings to hit 72 degrees at start of business (by 8 a.m.), given predicted variations in outdoor temperature and<br />
sunshine. Using Azure Machine Learning, they built a model that looked at months of “heat up” data from the building’s<br />
records and matched that to multi-day external temperatures and anticipated solar radiation. The result? They<br />
were able to zero in on a custom model for each day to start heating a building at the lowest energy use.<br />
“As simple as that victory sounds, the implications for energy and dollar savings are simply enormous —especially<br />
when you scale up,” notes Lasternas. For this group of researchers, the potential to scale up such predictive ca-<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
65
Retours d’expériences Big Data en entreprise<br />
pabilities — to forecast factors such as energy demand spikes and equipment failures, to simply and proactively<br />
give people actionable information at their fingertips — is where their research can have real and broad impact.<br />
“These are complex and critical problems we’re trying to solve. And cloud and machine learning technology is helping<br />
us push boundaries of what is possible in ways I couldn’t have imagined a few years ago,” Aziz says.<br />
AN ENERGY CROSSROADS<br />
Vivian Loftness checks out a model of a planned second wing to Margaret Morrison called “Invention Works’ where<br />
Carnegie Mellon inventors from across campus could collaborate to create products and systems that improve our<br />
environment, our health and our quality of life.<br />
The journey of these energy crusaders is just picking up steam. Early alliances include partnerships and projects<br />
with United States Department of Energy and the Department of Defense, OSIsoft, the city of Pittsburgh and PNC<br />
Bank, one of the largest diversified financial services organizations in the country.<br />
With the growing commitment to sustainable design initiatives across the public and private sector, Loftness believes<br />
the energy conservation movement is quickly hitting a tipping point in the U.S.<br />
“Climate change is a serious challenge and I expect to see energy management in buildings rise from its underchampioned<br />
status today to the forefront of the energy conservation movement,” Loftness says. “Technology is<br />
helping us get to better insights, and faster, creating a movement that will ripple across the country in the next few<br />
years, reshaping how we live, work and play.”<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
66
Retours d’expériences Big Data en entreprise<br />
MONGO DB - BOSCH<br />
BOSCH LEADS THE CHARGE INTO INTERNET OF THINGS<br />
BETS ON MONGODB FOR BUILDING APPS NEVER BEFORE POSSIBLE<br />
Things (e.g., devices, assets) are getting more intelligent. And every day, more and more of them are connecting<br />
to the Internet. This is forming the Internet of Things (IoT).<br />
There’s no company more connected to this trend than the Bosch Group, a multinational engineering conglomerate<br />
with nearly 300,000 employees. Known for its appliances in the U.S., Bosch is also the world’s largest automotive<br />
components manufacturer. From smart power tools and advanced telematics to microelectromechanical systems<br />
(MEMS), it’s at the forefront of IoT.<br />
With such a wide-reaching, diverse product base, IoT represents a huge opportunity for the Bosch Group to increase<br />
efficiency and to develop new business models. It also poses a significant challenge, to design, develop<br />
and operate innovative software and industry solutions in the IoT. Bosch Software Innovations (Bosch SI) spearheads<br />
all IoT activities inside the Bosch Group and helps their internal and external customers to be successful in<br />
the IoT.<br />
IoT is in its infancy, but growing up fast. By some estimates, 50 billion devices, appliances and systems will be<br />
connected by 2020. Traditional systems cannot support the volume, speed and complexity of data being generated<br />
across such a vast spectrum of potential use cases. Bosch SI was looking for an innovative partner to meet the<br />
challenges of Big Data in IoT.<br />
IOT DATA MADE VALUABLE<br />
IoT goes beyond simply connecting assets and devices. It requires creating services that gather data and deliver<br />
immediate insight. The Bosch IoT Suite and the integrated database from MongoDB make this possible.<br />
“IoT is the culmination of agility and flexibility on the one side and big data on the other side – and this is where<br />
MongoDB is of great value to us.”<br />
Dirk Slama, Bosch Business Development Take, for example, the automotive field data app that Bosch is piloting.<br />
The app captures data from the vehicle, such as the braking system, power steering and windshield wipers. The<br />
data can then be used to improve diagnostics for preventative maintenance needs, as well as analyze how components<br />
are performing in the field. The value isn’t simply in the sensor attached to the electromagnetic components,<br />
but in how the back-end service is able to improve maintenance and product design processes.<br />
In another example, an app based on the Bosch SI technology gives aircraft manufactures unprecedented control<br />
over how operators use highly advanced power tools used to tighten the six million screws, nuts and bolts on an<br />
airplane -- a mission-critical job with zero room for error.<br />
The app captures all data transmitted wirelessly, including battery level, operator details and time-series calibration<br />
readings. If the torque or angle is off by the slightest bit, the app sets off an alarm so the operator can make on-thefly<br />
adjustments. It manages maintenance schedules, tracks and traces details to prevent loss, and also creates an<br />
audit trail of tightening processes for compliance with the FAA and other regulatory bodies. By connecting data to<br />
manufacturing processes in real-time, the app makes that power tool exponentially more powerful.<br />
In both instances, the Bosch IoT Suite collects data from individual sensors and equipment – the car’s braking<br />
system, or the wireless tightening tool. MongoDB stores, manages and analyzes all of this event data in real-time.<br />
MongoDB also stores business rules that trigger alarms and notifications, such as “alert driver when brake pressure<br />
drops below a certain level” or “send alarm when tool is being used incorrectly.”<br />
DATA MANAGEMENT REIMAGINED FOR IOT<br />
The massive volume and increasingly unstructured nature of IoT data has put new demands on Bosch SI’s entire<br />
technology stack, especially the underlying database. Rigidly defined RDBMS data models have limited use in IoT.<br />
They lack the flexibility, scale and real-time analytics needed to quickly capture, share, process and analyze IoT data.<br />
IoT calls for a new mindset, and a new database. MongoDB helped Bosch SI reimagine what’s possible. Here’s how:<br />
1. Manage complex data types. IoT data arrives at higher speeds, in greater volumes and variability of structure. MongoDB<br />
can easily handle the full spectrum of data: structured, semi-structured, unstructured. Efficient modeling of data<br />
using JSON makes it easy to map the information model of the device to its associated document in the database.<br />
2. Support continuous innovation and business agility. Changes in IoT customer requirements, standards and use<br />
cases will require frequent data model changes. MongoDB’s dynamic schema supports agile, iterative development<br />
methodologies and makes it simple to evolve an app. Adding new devices, sensors and assets is straightforward,<br />
even when you’re dealing with multiple versions in the field concurrently. Instead of wasting time dealing<br />
with the mismatch between programming language and the database, MongoDB lets developers focus on creating<br />
rich, functional apps.<br />
3. Create a unified view. Creating a single view of an asset or customer with a relational database is complicated.<br />
Source schema changes require additional changes to the single view schema. MongoDB makes it easy to aggregate<br />
multiple views of related data from different source systems into one unified view.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
67
Retours d’expériences Big Data en entreprise<br />
4. Power operational insight with real-time analysis. Apps handling fast-moving IoT data can’t wait on ETL processes<br />
to replicate data to a data warehouse. They need to react and respond in real time. MongoDB’s rich indexing<br />
and querying capabilities – including secondary, geospatial and text search indexes, the Aggregation Framework<br />
and native MapReduce – allow users to ask complex questions of the data, leading to real-time operational insight<br />
and business discovery.<br />
5. Be enterprise-ready. MongoDB complements agility with enterprise-grade availability, security and scalability.<br />
Zero downtime with replica sets. Proven database security with authentication, authorization, auditing and encryption.<br />
Cost-effective scale-out across commodity hardware with auto-sharding. As IoT data volumes continue to<br />
explode, Bosch will be able to efficiently scale without imposing additional complexity on development teams or<br />
additional cost on the business.<br />
A BET THAT PAID OFF<br />
Bosch SI is making a strategic bet on MongoDB to drive innovative apps in every industry where it does business. It<br />
can improve the retail shopping experience with in-store maps and personalized notifications. Create safer working<br />
conditions in manufacturing environments. Trace agriculture through the food chain to support farm-to-table initiatives.<br />
“It’s great to see MongoDB as a stable and growing company that we can strategically bet on” Dirk Slama, Bosch<br />
Business Development<br />
The use cases are limitless. And MongoDB makes every single one possible.<br />
The IoT market is exploding and Bosch is moving quickly. Bosch SI is continuing development on new apps and<br />
working closely with MongoDB to scale up existing apps – like growing a three million car pilot to a 300 million car<br />
application.<br />
With MongoDB, scale-out will be fast, reliable and cost effective.<br />
As a technology provider, partner and fellow innovator, MongoDB is in lock-step with Bosch SI. Bosch SI is accelerating<br />
implementation of new IoT apps and business models, ensuring the business units and customers it serves<br />
don’t miss a beat as new generations of sensors and equipment come online.<br />
Copyright © MongoDB Inc 2014<br />
MONGO DB - METLIFE<br />
RETHINKING THE CUSTOMER EXPERIENCE AT METLIFE: FROM STALLED<br />
TO SUCCESS IN THREE MONTHS<br />
Reinventing customer service. In 2011, MetLife’s new executive team knew they had to shake up how the insurance<br />
giant catered to customers. Because today’s consumers – hyper connected, digitally empowered, information<br />
savvy – have little patience and even less loyalty.<br />
MetLife wanted to harness Big Data to create a 360-degree view of its customers so it could know and talk to each<br />
of its more than 100 million clients as individuals. But the Fortune 50 company had already spent many years trying<br />
unsuccessfully to develop this kind of centralized system using relational databases.<br />
Which is why the 145-year old insurer in 2013 turned to MongoDB. Using MongoDB’s technology over just 2<br />
weeks, MetLife created a working prototype of a new system that pulled together every single relevant piece of<br />
customer information about each client.<br />
Three short months later, the finished version of this new system, called the “MetLife Wall,” was in production<br />
across MetLife’s call centers. The Wall collects vast amounts of structured and unstructured information from<br />
MetLife’s more than 70 different administrative systems. After many years of trying, MetLife solved one of the<br />
biggest data challenges dogging companies today. All by using MongoDB’s innovative approach for organizing<br />
massive amounts of data.<br />
INSIDE THE METLIFE WALL<br />
Today, when a customer calls MetLife to ask about a claim, add a new baby to a policy, or dig into coverage details,<br />
customer representatives use the Wall to pull up every bit of information they need in seconds – name, address,<br />
policies, and life events.<br />
Using a touchscreen and a design based on how Facebook dishes up information, The Wall is instantly familiar to<br />
MetLife’s call center operators. Which means customer reps can quickly and efficiently answer questions, handle<br />
claims, suggest new services, or offer promotions, while slashing wait and call times. MetLife now understands<br />
and serves each customer individually.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
68
Retours d’expériences Big Data en entreprise<br />
POWER OF THE FLEXIBLE DATA MODEL<br />
What sparked this change? We’re all too familiar with typical customer service. Call any business and you enter an<br />
endless maze where you’re passed around to different people who ask for the same bits of information.<br />
The culprit is data silos. Like most companies, MetLife has scores of data systems created or acquired over the<br />
years. MetLife’s systems contain a huge array of structured and unstructured data, including policy and customer<br />
information and transactional history about everything from claims to payments. Few are connected and many are<br />
on mainframes with cumbersome interfaces.<br />
Ripping out its administrative systems and replacing them with one unified system wasn’t an option for MetLife.<br />
So the company had tried over the years to use relational databases, which require a common schema and strict<br />
mapping of data sources. Adding each new system was an expensive and time consuming process of changing<br />
schemas, and extracting, cleansing, and matching data – one that MetLife never won.<br />
Working with MongoDB, MetLife could finally sidestep this whole exercise. What makes MongoDB different is its<br />
flexible data model. MongoDB looks at data more naturally, making it easy to evolve schemas in real time. If relational<br />
databases are like Excel spreadsheets – where data is organized into sheets but where you add a column<br />
every time you add a field, creating a structured but unwieldy project – MongoDB is a series of Word documents.<br />
Each entry is a document that can have its own schema.<br />
FLEXIBLE, SCALABLE, USER FRIENDLY<br />
MongoDB also makes the most of today’s computing resources, including commodity hardware and cloud infrastructure.<br />
This helps slash the cost of ownership and lets organizations scale their operations and applications<br />
quickly. MongoDB’s horizontal scaling via automatic sharding provides reliable partitioning of massive amounts of<br />
data across multiple servers. And it’s flexible, allowing organizations to leverage multiple data centers and multitemperature<br />
storage techniques.<br />
Just as crucial for productivity and agile application development is the ease of use MongoDB provides developers.<br />
Developers can interact with the database in the same programming language they use to write the application,<br />
whether Java, Ruby, Python, or something else. Which means they can focus on building apps instead of wrestling<br />
with ORMs.<br />
And MongoDB provides a variety of rich features, such as integrated search, geospatial, and native analytics, that<br />
don’t exist in a traditional database. Giving companies the right resources they need to get projects done quickly.<br />
A CATALYST FOR INNOVATION<br />
“MongoDB helped us to deliver that 360 view of the customer in just 90 days. That was really ground-breaking for<br />
MetLife, ground-breaking for the insurance industry. And it really set an example of the type of company that we<br />
want to be recognized as.”<br />
John Bungert, senior architect at MetLife<br />
Working with MongoDB led not just to The Wall’s success, but a wave of innovation inside MetLife. Harnessing Big<br />
Data is letting the insurance giant do things it never could do before.<br />
NOW, METLIFE IS:<br />
• Rolling out The Wall internationally<br />
• Developing a version of The Wall for its sales force<br />
• Creating a real-time analytical system that predicts customer attrition rates, prompting customer reps to offer<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
69
Retours d’expériences Big Data en entreprise<br />
alternative products or promotions<br />
• Considering adding social data and data from mobile apps into The Wall to gain an even better understanding of<br />
customers, something that’s easy to do with MongoDB.<br />
With MongoDB, MetLife joined the vanguard of the Big Data revolution. By quickly and successfully cracking one<br />
of the biggest problems it faced, MetLife changed the expectations of what is possible.<br />
Copyright © 2014 MongoDB, Inc<br />
MONGO DB - OTTO<br />
OTTO REINVENTS E-COMMERCE PERSONALIZATION FOR MORE THAN<br />
2 MILLION VISITORS PER DAY<br />
SLASHES SITE CATALOGUE UPDATE TIME FROM 12 HOURS TO 15 MINUTES<br />
Online retailers have access to troves of data. They know more about their customers than the corner store shopkeeper<br />
knew decades ago. Smart retailers use that data to give shoppers a highly personalized, painless shopping<br />
experience. That’s how you attract – and keep – today’s customer.<br />
OTTO is Germany’s top online retailer for fashion and lifestyle goods; the company turns over more than €2B per<br />
year and has more than two million daily site visitors. It has long held the customer at the centre of its retail strategy.<br />
Yet existing systems were slowing it down – loading new catalogue updates for two million products often took all day.<br />
With a MongoDB-powered catalog, OTTO gets an edge with speed. It’s fast to develop. Fast to load data. And fast<br />
to personalize a shopping experience for a great number of customers.<br />
“Personalization based on real-time data is the key success factor for e-commerce sites.”<br />
Peter Wolter, head of OTTO’s e-commerce Solutions & Technology Division<br />
PERSONALIZATION MADE FAST<br />
OTTO’s previous site was static, slow and expensive to change. So was its approach to development. OTTO had<br />
one big system with one big team. Only small fragments of the site could be changed to personalize the customer<br />
experience. This prevented it from quickly responding to market changes, such as competitive price fluctuations. It<br />
also lacked the ability get the most relevant products in front of customers as soon as they hit the site.<br />
SLOW REACTION TIME IS A CONVERSION KILLER<br />
The average customer doesn’t stay on an e-commerce web site for very long. OTTO has only 1-2 seconds to access<br />
customer profiles in real time and decide how to react.<br />
This is especially challenging with a product catalogue as diverse as OTTO’s. It offers one stop shopping for over<br />
5,000 brands -- everything from jeans to sofas to stereo systems, each of which has a different set of attributes<br />
(such as name, colour, size). In addition, product pricing and availability are dynamic, and need to be constantly<br />
refreshed to maintain competitive advantage.<br />
Using a relational database to update a site with such variation in products and attributes is painful, often requiring<br />
reading from dozens of tables to update a single product. Querying is complicated. Scaling is slow and difficult.<br />
MongoDB’s flexible data model erases that complexity and is well suited to an asset catalogue. OTTO can quickly<br />
iterate data schema for changes to products, attributes and customer profiles – without taking the database offline<br />
or affecting performance. Plus, all product information can be read from a single JSON document, allowing for incredibly<br />
fast reads. Complete insight into customer behaviour hinges on analytics that take advantage of real-time<br />
data. This is what drives true personalization.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
70
Retours d’expériences Big Data en entreprise<br />
OTTO has scaled up to 800 page impressions per second that generate 10,000 events per second – every click,<br />
every hover is stored in MongoDB. This rich insight into shopping behaviour enables OTTO to deliver a unique site<br />
with a personalized set of products, navigation and filters for every customer.<br />
It can also move incredibly fast. In-memory speed and on-disk capacity have led to dramatically improved site<br />
response times. In addition, all touch points – browser, mobile, tablet – are integrated, so OTTO can deliver instantaneous<br />
personalization during each customer’s journey on the site.<br />
The result is boosted engagement, revenue and a new way to deliver superior customer service.<br />
DEVELOPMENT AGILITY<br />
OTTO needed fast results. MongoDB delivered.<br />
Parallel teams spanning business, project management, and IT all individually chose MongoDB as the best tool to<br />
quickly and easily achieve results. MongoDB was the go-to preference for every team, even though the business<br />
problems varied. Today, each team has its own MongoDB installation to get done what it needs to do without any<br />
architectural governance on top. This is only possible because MongoDB has proven to be easy to use, easy to<br />
integrate and easy to operate.<br />
With loosely coupled teams, architecture, and operations, OTTO has removed the bottleneck to deploy and test.<br />
Teams can easily correct errors and innovate risk-free. Complete autonomy means they move at speeds never<br />
before possible. This move to agile development wasn’t mandated. It was inspired by MongoDB and driven by the<br />
teams. Now, both business and IT can produce fast results while staying focused on enterprise operation, scalability,<br />
request handling, and speed.<br />
OTTO has successfully bridged two worlds: a lean approach and sustainable enterprise operations.<br />
“We always want to be at the forefront of an increasingly competitive online trading market,” said Wolter. “We now<br />
have a modern, digitally-oriented application development environment which allows us to implement our innovative<br />
ideas as quickly as we create them.”<br />
In changing its operations, development, technology tools, and the way in which they cooperate, OTTO took a risk.<br />
But it was a risk worth taking – one that’s paying off for the business and for customers.<br />
THE ENDLESS AISLE – NOW PERSONALIZED<br />
New channels. More traffic. An endless aisle of products. E-commerce is booming and OTTO is ready.<br />
OTTO already has a strong foundation of a 65-year-old trusted brand, loyal customers, and innovative retail strategies.<br />
Now it has the stable, proven technology architecture and agile development to match – vital pieces that will<br />
propel it forward in the face of unknown challenges and growing demand.<br />
Copyright © 2014 MongoDB, Inc.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
71
Retours d’expériences Big Data en entreprise<br />
MONGO DB - WEATHER CHANNEL<br />
KILLER FEATURES. FAST. THE WEATHER CHANNEL LAUNCHES NEW<br />
FEATURES IN HOURS, NOT WEEKS<br />
Weather changes quickly. In its extreme form, it’s volatile, sometimes dangerous and often thrilling. Given its impact<br />
on lifestyle, people are eager to get their hands on the latest information. They want to know – now – what’s<br />
happening.<br />
In 1982, The Weather Channel started a 24x7 television network to meet the demand for non-stop, as-it-happens<br />
weather reporting. Several years later, they made the natural progression online with weather.com. But because<br />
the site was built on a cumbersome relational database backend, developing mobile apps was difficult. The Weather<br />
Channel team needed to iterate more quickly, with responsive apps and a scalable system. For a user base<br />
of 40 million and quickly growing on smartphones, the Weather Channel brand needed to move beyond a legacy<br />
relational database approach.<br />
THE WEATHER CHANNEL TURNED TO MONGODB TO GET KILLER FEATURES OUT TO<br />
USERS QUICKLY. CHANGES THAT USED TO TAKE WEEKS CAN NOW BE PUSHED OUT<br />
IN HOURS.<br />
They’ve replaced high costs and complexity with simplified scale and speed. And now that they’ve modernized on<br />
a cloud infrastructure, they are transitioning news, lifestyle and some weather content from their digital properties<br />
to MongoDB.<br />
With a fleet of apps built on MongoDB, users can personalize their experiences across mobile devices, tablets and<br />
the website. They can view incredibly fast radar maps and receive severe weather alerts in real-time.<br />
WHATEVER USERS CLAMOR FOR, THE WEATHER CHANNEL IS READY TO DELIVER.<br />
“As we work with our user base to figure out killer features, rapid innovation cycles with MongoDB are a real benefit.”<br />
Luke Kolin, vice president of architecture at The Weather Channel<br />
SEVERE WEATHER ALERTS, FASTER THAN THE STORM<br />
Five million users rely on The Weather Channel for the severe weather alert feature. It’s a competitive differentiator<br />
for the brand, and a must-have feature for many users.<br />
If the National Weather Service (NWS) issues a storm warning for Cook County, Illinois, for example, The Weather<br />
Channel has to notify those 125,000 local subscribers as fast as possible.<br />
With MongoDB, The Weather Channel can quickly distribute those weather alerts to subscribers in affected geographic<br />
locations in real-time.<br />
According to Kolin, MongoDB’s secondary indexes and fast ad hoc querying make it the only product that can reliably<br />
perform that kind of lookup on such a large user base in mere seconds.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
72
Retours d’expériences Big Data en entreprise<br />
SIMPLIFIED SCALE IN THE CLOUD<br />
Weather is hard to predict. So is the online traffic for weather apps.<br />
With MongoDB, The Weather Channel doesn’t have to worry about app performance during unpredictable peak times.<br />
The apps typically handle two million requests per minute, including weather data and social sign-ins. As the user<br />
base scales, so will MongoDB. With its native scale-out capabilities, MongoDB can support thousands of nodes,<br />
petabytes of data and hundreds of thousands of ops per second.<br />
The Weather Channel initially planned to build its own management services for the new cloud infrastructure.<br />
Instead, they saved significant time and money by taking advantage of MongoDB’s management application,<br />
MongoDB Management Service (MMS). Built by the same engineers who develop MongoDB, MMS is a cloud<br />
service that makes it easy to run MongoDB at any scale. Features like performance visualization, custom alerts<br />
and point-in-time recovery ensure The Weather Channel can mitigate issues before they arise and optimize its<br />
MongoDB deployment.<br />
FAST APPS, WITHOUT THE WAIT<br />
MongoDB met The Weather Channel brand’s needs from day one, with no significant optimization needed.<br />
“As part of our infrastructure redesign, we needed to ensure that new app development was never waiting on the<br />
back-end,” said Kolin.<br />
MongoDB was made for this mission.<br />
Today, The Weather Channel team can iterate rapidly without worrying about schema changes. They can adapt.<br />
They can push out changes to users in a fraction of the time. And at much lower cost.<br />
New features, new devices, new expectations. Users want awesome apps that keep getting better. And now, MongoDB<br />
helps The Weather Channel deliver.<br />
Copyright © MongoDB Inc 2014<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
73
Retours d’expériences Big Data en entreprise<br />
NEO4J - EBAY<br />
EBAY NOW CHOISIT NEO4J POUR LA GESTION DU ROUTAGE DE SON<br />
SERVICE DE LIVRAISON E-COMMERCE<br />
La société londonienne Shutl était réputée pour l’incroyable rapidité de ses services avant même son acquisition<br />
par eBay, leader mondial du e-commerce. Depuis sa création en 2009, sa mission est de livrer le plus rapidement<br />
possible les achats effectués sur Internet à leurs destinataires. Qu’il s’agisse de jouets, de chaussons, de cravates<br />
ou encore d’iPhones, eBay fait désormais appel à la plateforme nouvelle génération de Shutl pour redéfinir le e-<br />
commerce en accélérant et en simplifiant la livraison des commandes passées sur Internet ou appareil mobile.<br />
eBay élimine le plus gros obstacle entre les vendeurs et les ache- teurs en ligne en proposant une livraison des<br />
articles le jour même. Aujourd’hui, la plateforme de Shutl est à la base des opérations du service de livraison locale<br />
eBay Now dans quatre marchés américains et son extension à 25 grandes villes aux États-Unis et au Royaume-<br />
Uni est prévue pour la fin 2014. Volker Pacher, développeur senior pour eBay, fait partie de l’équipe principale de<br />
la plateforme de services chargée de fournir une API aux transporteurs et aux marchands. Les requêtes envoyées<br />
à l’API ont connu une croissance exponen- tielle, d’où un allongement des temps de réponse. L’équipe a donc<br />
entièrement repensé la première plateforme SaaS de Shutl. Volker Pacher savait qu’une base de données orientée<br />
graphe permettrait de simplifier la modélisation du domaine sans affecter la structure existante. À l’aide de Neo4j<br />
et d’une structure de graphe sans schéma (schema-less), l’équipe a créé une base de données permettant aux<br />
requêtes de rester localisées à l’intérieur du graphe, améliorant les performances grâce à la facilité d’expression.<br />
Comme aime à le dire Volker Pacher : « Notre système fonc- tionne sur sept lignes de Cypher ».<br />
La plateforme Shutl orchestre les livraisons entre les boutiques, les coursiers et les acheteurs 24 h/24 et 7 j/7. Les<br />
envois s’effectuent directement depuis les points de vente. Le service organise la collecte et la livraison des articles<br />
selon les préférences des clients, généralement dans un délai de deux heures, ou dans une fenêtre de livraison d’une<br />
heure choisie par les clients. Le résultat : un service innovant qui améliore la qualité de service pour les clients ainsi que<br />
la producti- vité des partenaires revendeurs et transporteurs. Tous les acteurs sont gagnants : les clients disposent de<br />
plus de choix pour la livraison, les coursiers ne perdent plus de temps à attendre et les boutiques peuvent proposer des<br />
services supplé- mentaires à leurs clients sur Internet. Shutl « sauve les petits commerces » dans chaque ville en faisant<br />
appel à leurs services marchands et de livraison et en leur permettant ainsi de rester compétitifs.<br />
LE DÉFI<br />
Le service de livraison le jour même de Shutl s’est développé de manière exponentielle et couvre aujourd’hui<br />
jusqu’à 85 % du Royaume-Uni. Sa plateforme de services a dû être entièrement repensée afin de prendre en<br />
charge l’explosion du volume de données et les nouvelles fonctionnalités. Les join- tures MySQL utilisées auparavant<br />
ont créé une base de code trop lente et complexe. Les délais d’exé- cution des requêtes de sélection<br />
du meilleur coursier étaient tout simplement trop longs et Shutl avait besoin qui permette à son service de rester<br />
compétitif. Volker Pacher et l’équipe de développement pensaient qu’en ajoutant une base de données orientée<br />
graphe à l’AOS et à la structure de services, il serait possible de résoudre les problèmes de performan- ces et<br />
d’évolutivité. L’équipe a choisi Neo4j, la meilleure solution à ses yeux.<br />
POURQUOI NEO4J?<br />
Le choix s’est porté sur Neo4j pour sa flexibilité, sa vitesse et sa simplicité d’utilisation. Son modèle de graphe à<br />
propriétés était parfaitement com- patible avec le domaine modélisé. La base de données ne nécessitant pas de<br />
schéma, cela a simplifié son extensibilité et a permis d’accélérer la phase de développement. Enfin, les limitations<br />
en termes de rapidité et d’évolutivité de la solution précédente ont été surmontées. « Notre solu- tion Neo4j est<br />
littéralement des milliers de fois plus rapide que la solution MySQL précédente, avec des requêtes qui nécessitent<br />
de 10 à 100 fois moins de code. Dans le même temps, Neo4j nous a permis d’ajouter des fonctionnalités jusqu’ici<br />
impossibles », explique Volker Pacher. Cypher a permis d’exprimer les requêtes sous une forme très compacte et<br />
intuitive, ce qui a accéléré le développement. L’équipe a pu exploiter le code existant à l’aide d’une bibliothèque<br />
Ruby pour Neo4j prenant égale- ment en charge Cypher.<br />
LES AVANTAGES<br />
Basée sur jRuby, Sinatra, MongoDB et Neo4j, la nouvelle plateforme garantit des transactions rapides avec des<br />
performances relativement constantes. Par ailleurs, son modèle de données permet aux requêtes de rester localisées<br />
à l’intérieur de leurs portions respectives du graphe. « Nous avons obtenu des performances constantes pour<br />
les requêtes en utilisant Neo4j pour créer un graphe qui est son propre index. Cette flexibilité de développement<br />
est tout simplement unique », explique Volker Pacher. La phase d›implémentation a été réalisée dans les délais<br />
prévus, en à peine une année. Les requêtes sont désormais simples et rapides. Le résultat est une plateforme<br />
évolutive capable de prendre en charge le développement de l›entreprise, et notamment la croissance de l›activité<br />
à laquelle elle doit faire face en tant que plateforme du service eBay Now.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
74
Retours d’expériences Big Data en entreprise<br />
NEO4J - GAMESYS<br />
GAMESYS MISE LA CROISSANCE DE SA PROCHAINE GÉNÉRATION DE<br />
JEUX SUR NEO4J, PAR UNE INTÉGRATION SOCIALE AVANCÉE.<br />
La société Gamesys est l’un des leaders des jeux d’argent en ligne. Elle a été nommée en tant que compagnie<br />
technologique privée ayant eu la plus forte cro- issance au Royaume-Uni par le Sunday Times, avec des paris<br />
d’argent à hauteur de 4,3 milliards de Livres en 2012. Leur produit phare récompensé par un prix, « Jackpotjoy »,<br />
est depuis le principal site en ligne de Bingo et de jeu à gain instan- tané (Instant Win), avec plus de quatre millions<br />
de joueurs. Gamesys a fait passer sa plate-forme de jeux au niveau supérieur en ajoutant une plate-forme<br />
sociale basée sur Neo4j pour offrir une intégration à Facebook, un système de gestion des données de référence,<br />
et bien plus encore. La versatilité de Neo4j a permis à Gamesys d’apporter de nouvelles fonctionnalités en ligne<br />
facilement, en offrant aux utilisateurs finaux un système très performant et fiable.<br />
PROBLÈME D’AFFAIRES<br />
Face au challenge que représente la création d’un nouveau réseau social, Gamesys a considéré les types de bases<br />
de données disponibles. Après avoir réalisé que les bases de données relationnel- les ne sont pas adaptées à<br />
la gestion une intercon- nexion de données massive; Gamesys a évalué les solutions NoSQL et réalisé rapidement<br />
que les graphes étaient une solution naturellement adaptée à leur problématique. La maturité de la base de données<br />
choisie était plus importante que tous les autres facteurs. Si Gamesys pariait son expansion dans l’espace<br />
social sur une base de données, cel- le-ci devait être très utilisée, compter un bon ser- vice de support, être bien<br />
documentée, et avoir fait ses preuves dans des déploiements en production multiples et à grande échelle.<br />
LE CHOIX DE NEO4J<br />
Les ingénieurs de GameSys ont évalué plusieurs bases de données de graphes. Après avoir inspecté d’autres offres,<br />
ils ont vite réalisé que Neo4j était de loin la plus mûre. Par rapport à d’autres vendeurs, il est clair que Neo4j<br />
et Neo Techno- logy étaient le monstre sacré de l’univers des graphes, et un bon investissement à long terme.<br />
Lors de l’évaluation des bases de données relationnelles, il est devenu clair qu’une base de données de graphes<br />
était un choix plus avisé et plus sûr pour ce pro- jet. L’un des facteurs les plus importants était la résistance au<br />
changement. Les données et requêtes étaient clairement adaptées à un graphe, et il était évident que la manipulation<br />
de données au format tabulaire générerait des coûts signi- ficatifs pour le projet et une augmentation importante<br />
des temps de traitement. L’avantage majeur était que la base de données graphes répondait aux exigences<br />
opérationnelles et analytiques environnement technique<br />
Avant l’introduction de Neo4j, Gamesys utilisait principalement des bases de données relationnelles. Gamesys a<br />
profité du lancement de son nouveau projet social pour porter un nouveau regard sur les options technologiques.<br />
Les bases de données de graphes, naturellement adaptées au domaine social sont une technologique qui correspond<br />
bien mieux cet usage que les bases relationnelles,.<br />
Gamesys a débuté le projet avec trois groupes d’instances hautement disponibles, un choix adapté à l’évolutivité<br />
de leurs besoins et à des exigences de disponibilité maximales. Gamesys a également déployé une instance pour<br />
un projet d’analytique. Gamesys de exécute de cette façon des requêtes temps-réel en direct sur les données sans<br />
besoin d’un entrepôt de données, ce qui leur permet de découvrir de nouveaux indicateurs et des mesures inédites<br />
sans délai et sans besoin de pré-calculs.<br />
CONCLUSION<br />
Gamesys propose à ses clients une offre sociale compétitive et convaincante en utilisant Neo4j. Les capacités de<br />
développer rapidement et avec souplesse, ainsi que les coût raisonnable de Neo4j leur a assuré le succès. En<br />
introduisant une base de données de graphes comme Neo4j dans son architecture, Gamesys a sécurisé sa croissance<br />
future en terme d’évolutivité et d’extensibilité à un plus grand nombre d’utilisateurs.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
75
Retours d’expériences Big Data en entreprise<br />
NEO4J - GLASSDOOR<br />
GLASSDOOR ÉTEND SA PLATE-FORME SOCIALE INTÉGRÉE AVEC NEO4J<br />
LE DÉFI DE GLASSDOOR<br />
Glassdoor est une communauté en ligne dédiée à l’emploi qui aide les deman- deurs d’emploi à prendre des<br />
décisions professionnelles éclairées et conseille les entreprises afin d’attirer les meilleurs collaborateurs du marché.<br />
Forte de plus de 20 millions de membres, Glassdoor offre une vision à 360 degrés du travail au sein d’une<br />
entreprise particulière et à un poste donné grâce aux contributions de ses membres. Sa base de données en<br />
croissance constante contient désormais plus de 4 millions de publications anonymes : rapports sur les salaires,<br />
analyses d’entreprises, évaluations de PDG, questions posées en entretien d’embauche et autres enseignements<br />
sur l’environnement de travail.<br />
Glassdoor exploite l’idée répandue selon laquelle les réseaux personnels et professionnels permettent<br />
généralement d’obtenir un emploi, et a lancé une nouvelle initiative afin de se démarquer<br />
davantage des autres acteurs du marché de l’em ploi en ligne. En effet, elle a créé un système<br />
appelé InsideConnections permettant aux demandeurs d’emploi d’identifier parmi leurs amis de<br />
leur réseau Facebook ceux qui travaillent pour des entreprises particulières.<br />
Lorsque les membres s’inscrivent sur Glassdoor via Facebook, ils doivent fournir des renseignements basiques<br />
permettant d’améliorer leur expérience sur le site, tels que leurs emplois actuels et pré- cédents ainsi que leur<br />
formation. En contrepartie, les membres de Glassdoor peuvent découvrir qui, parmi leurs connaissances, travaille<br />
dans certaines entreprises, et recevoir des recommandations pro- fessionnelles davantage personnalisées.<br />
sélECtion d’unE basE dE donnéEs oriEntéE GraphE<br />
Glassdoor avait besoin d’une base de données pour gérer les informations four- nies par les amis des membres<br />
et leurs amis, ainsi que les relations avec l’em- ployeur. Il a été convenu qu’une base de données orientée graphe<br />
constituait la solution parfaite pour obtenir cet ensemble de données connectées. Neo4j, qui s’intègre à sa technologie<br />
existante, a été désignée comme étant la base de don- nées idéale grâce à sa maturité et ses fonctions<br />
intégrées.<br />
ÉCHELLE, CONNEXION ET NEO4J<br />
Au cours de la première année de lancement d’InsideConnections, Glassdoor a connu une croissance phénoménale.<br />
Sa base de données sociale en constante évolution a rapidement compté plus de 600 millions de personnes,<br />
soit plus de la moitié du graphe Facebook. L’installation de Neo4j par Glassdoor a connu une croissance régulière.<br />
Toutes les données ont été réunies dans un cluster unique (et de grande capacité) haute disponibilité, conçu pour<br />
s’adapter à des débits élevés de lecture et d’écriture.<br />
CONCLUSION<br />
Neo4j constitue la technologie adaptée à la technologie de recherche d’emploi étendue de Glassdoor, et la solution<br />
idéale pour gérer les données connectées de Glassdoor. Glassdoor, qui compte dans sa base de données plus de<br />
600 millions de membres qu’elle relie entre eux, détient l’un des plus vastes graphes sociaux du monde, offrant à<br />
ses membres une portée exceptionnellement étendue.<br />
Neo4j s’adapte au gigantesque graphe social de Glassdoor en exploitant son affinité naturelle avec les données<br />
connectées, sa technologie de clustering haute disponibilité et ses fonctionnalités de partition- nement de cache,<br />
permettant ainsi à Glassdoor d’accroître sereinement sa communauté ainsi que sa popularité.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
76
Retours d’expériences Big Data en entreprise<br />
NEO4J - SNAP INTERACTIVE<br />
SNAP INTERACTIVE CONQUIERT LE MARCHÉ DE LA RENCONTRE<br />
EN LIGNE AVEC NEO4J<br />
La vocation de la société basée à Manhattan SNAP Interactive, Inc. (OTCBB: STVI) est de permettre aux personnes<br />
d’accéder au 3e degré. Êtes-vous intéressé ? Voici la question posée à tous les utilisateurs de l’application<br />
Web et mobile de rencontre en ligne AYI (AreYouInterested?). Cette question a fait de SNAP l’un des leaders du<br />
développement d’applications pour sites Web et plate- formes mobiles de réseaux sociaux.<br />
Depuis 2005, SNAP cherche à améliorer la réussite des rencontres en ligne en mettant des amis en relation et en<br />
recoupant leurs intérêts. SNAP a choisi d’ex- plorer le filon des données des connexions de 3e degré. Ingénieur<br />
Big Data chez SNAP, David Fox connaissait les statistiques. « La probabilité qu’une personne se connecte avec<br />
un ami du 3e degré est presque la même que pour un ami du 2e degré, où ils ont un ami commun », explique-t-il.<br />
« Il s’agit d’un point essentiel pouvant faire exploser l’engagement et la taille d’un réseau. » Mais ces données sont<br />
extrêmement difficiles à récupérer avec une base de données relationnelle.<br />
Le défi de SNAP consistait à représenter les données de type « amis des amis ». L’équipe ne disposait d’aucun<br />
moyen efficace de trouver les connexions de 3e degré au sein de son immense réseau social, avec plus d’un milliard<br />
d’individus dans le graphe et plus de 7 milliards de relations.<br />
David Fox a exploité Neo4j pour modéliser les données entre les utilisateurs amis et créer des connexions de 3e<br />
degré visibles (c’est-à-dire les amis d’amis ainsi que les amis des amis d’amis) à l’échelle de l’application AYI. Le<br />
retour s’est avéré colossal.<br />
Aujourd’hui, AYI est l’une des applications sociales les plus utilisées sur Internet, avec plus de 70 millions<br />
d’installations, des millions de visiteurs actifs et un par tenariat stratégique avec Match.com. « Nous continuons<br />
à innover avec Neo4j en exploitant la puissance des traversées multi-saut en temps réel pour gérer le volume de<br />
données sociales et sommes passés de 7 à 8 milliards de relations », explique David Fox.<br />
LE DÉFI<br />
À l›origine, le service de SNAP était basé sur Apache Solr et reliait les amis de 2e degré, présentant les données<br />
de type « amis des amis ». L›équipe ne parvenait pas à trouver une solution efficace pour rechercher les connexions<br />
de 3e degré au sein d›un corpus de données comptant plus d›un milliard de nœuds d›individus et plus de 7<br />
milliards de relations. Après avoir minutieusement exploré et testé MySQL, l›équipe a conclu que cette plateforme<br />
ne permettait pas de gérer les connexions de 3e degré ni d›autres problèmes complexes. Le temps nécessaire au<br />
développement et à la maintenance de l›indexation et des jointures aurait été trop important et la solution aurait<br />
été incapable de gérer le trafic et le volume de données existant.<br />
David Fox a alors pris la décision de passer à une base de données orientée graphe et a choisi Neo4j, seule et<br />
unique solution à ses yeux capable de gérer la croissance du service AYI.<br />
POURQUOI NEO4J?<br />
Le choix s’est porté sur Neo4j pour sa flexibilité, sa vitesse et sa sim- plicité d’utilisation. SNAP a ainsi pu proposer<br />
une offre particulière- ment distinctive en améliorant nettement le nombre de recomman- dations de rencontres à<br />
travers l’exploitation des connexions de type<br />
« amis des amis ». Grâce à Neo4j, le développement a été simplifié. Cypher, le langage de requête de Neo4j, a<br />
accéléré la phase d’implé- mentation en facilitant grandement le codage. La possibilité d’utiliser Java en natif a<br />
aidé SNAP à respecter les spécificités en termes de lecture et a offert une vitesse et une flexibilité maximales pour<br />
optimi- ser l’importation d’un volume de données considérable.<br />
LES AVANTAGES<br />
Le service AYI de SNAP offre aujourd’hui des temps de réponse rapi- des sur l’un des graphes sociaux les plus<br />
vastes au monde, comptant plus d’un milliard d’individus, gérant les recommandations de ren- contres entre «<br />
amis d’amis » avec des performances en temps réel constantes. Le choix de Neo4j pour gérer le réseau social de<br />
SNAP a également permis de réduire sensiblement les délais de développe- ment et le coût global par rapport à<br />
MySQL. Neo4j a facilité l’ajout de fonctionnalités et permet des requêtes rapides et flexibles.<br />
Aujourd’hui, 98 % des requêtes sont exécutées plus rapidement que prévu. L’utilisation de Neo4j pour gérer les<br />
relations « amis d’amis » s’avère plus que payante. « Les utilisateurs vont interagir s’ils voient qu’ils ont un ami<br />
en commun, la 3e connexion. SNAP révèle les «amis des amis», générant ainsi un nombre d’utilisateurs de plus<br />
en plus important, ce qui augmente d’autant l’interaction entre les utilisa- teurs et permet une croissance rapide<br />
du réseau. Cela représente un engagement colossal, qui a fait augmenter le nombre de relations de 7 à presque<br />
8 milliards depuis l’implémentation de Neo4j. C’est de bon augure pour notre entreprise », explique David Fox.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
77
Retours d’expériences Big Data en entreprise<br />
À travers Neo4j, SNAP a également gagné une précieuse vue d›ensemble de son réseau d›utilisateurs.<br />
« Lorsque nous étudions une représentation géospatiale du réseau social générée par des algorithmes, nous<br />
pouvons voir les connexions qui relient les amis ainsi que leur localisation. Cela nous donne une meilleure vision<br />
d›ensemble du réseau et permet à SNAP de proposer des fonctionnalités innovantes et d›améliorer le service AYI.<br />
Nous y voyons de nouvelles méthodes pour améliorer les probabilités d›in- teraction. Neo4j a fourni à SNAP un<br />
moteur de base de données évolutif capable de prendre en charge l›expansion de l›entreprise et de l›application<br />
AYI, s›imposant ainsi en tant que partenaire stratégique incontournable pour d›autres services de rencontre en<br />
ligne tels que Match.com.<br />
NEO4J - TELENOR<br />
AUTORISATION DE RESSOURCES: PROBLÈME RÉSOLU AVEC UNE BASE<br />
DE DONNÉES DE GRAPHES<br />
Telenor Norvège est le principal fournisseur de télécommunications et de services de données du pays. Avec plus<br />
de 3 millions de souscripteurs mobiles, c’est éga- lement le fournisseur numéro un de bande passante de la nation<br />
et, en tant que partie du Groupe Telenor, l’un des plus grands opérateurs mobiles du monde.<br />
Les systèmes de Telenor exposent les données du client et du produit à une gamme de canaux différents, avec<br />
entre autres une solution web en autoservice, où les entreprises clientes peuvent gérer leur propre portefeuille.<br />
La disponibilité du système et les temps de réponse d’accès et de récupération sont critiques pour la satisfaction<br />
du client.<br />
SITUATION<br />
Derrière le portail d’autogestion en ligne de Telenor, vous trouverez l’intergiciel responsable de la gestion des<br />
structures d’organisation des clients, des accords, des souscriptions et de l’accès des utilisateurs à leurs souscriptions<br />
mobiles d’af- faires. L’intergiciel est soutenu par Sybase, avec des demandes implémentées en tant que procédures<br />
stockées. Comme les souscriptions mobiles ont augmenté, en donnant de grands portefeuilles de clients,<br />
et comme les utilisateurs attendent une ponctualité et des temps de réponse en temps réel des systèmes en ligne,<br />
le module d’autorisation de ressource existant écrit en SQL n’était plus assez perfor- mant. Les autorisations de<br />
ressources prenaient jusqu’à 20 minutes pour les cli- ents les plus importants et devaient être pré-calculées et<br />
mises en cache chaque nuit, ce qui causait également l’apparition de données obsolètes.<br />
Sebastian Verheughe, architecte et développeur de Telenor Mobile Middleware Services, déclare: « En tant que<br />
fournisseur premium Telco en Norvège, nous avi- ons besoin d’un système fiable pour pourvoir aux besoins de notre<br />
importante base de données. La base de données Neo4j offre des services de haute perfor- mance pour notre<br />
chaîne de valeur. La solution couvre à la fois les clients entre- prises et les résidents, leur structure corporative, les<br />
souscriptions contenant le numéro de téléphone, le plan de financement et le propriétaire/payeur/utilisateur des<br />
souscriptions, les comptes de facturation et tout accord d’affaires ou résidentiel offrant des réduc- tions pour tous<br />
les membres de l’accord.<br />
POURQUOI NEO4J?<br />
La modélisation du graphe de ressources de Neo4j était naturelle étant donné que le domaine modelé était un<br />
graphe par essence. Neo4j a fourni un accès rapide et sécurisé, et des réponses à des questions importantes,<br />
comme: À quelles souscriptions peut avoir accès un utilisateur, est-ce que l’utilisateur a accès à une ressource<br />
donnée, et de quels accords un client fait il partie ? La vitesse et la pré- cision de ces opérations sont critiques,<br />
parce que les utilisateurs du sys- tème ne peuvent pas accéder à des données tant que le calcul d’autorisa- tion<br />
n’a pas eu lieu. « Avec des dépendances complexes entre les comptes, les produits et les entreprises, le moteur<br />
à haute performance de Neo4j offre une flexibilité de représentation des données, avec des caractéristiques qui<br />
vont au-delà des bases de données relationnelles habituelles ».<br />
BÉNÉFICES<br />
En surmontant à la fois les limites de performances et de fiabilité des données du projet précédent, Neo4j a permis<br />
des performances élevées et une exécution fiable des règles d’autorisation. La transition a eu pour résultat<br />
non seulement des performances plus importantes, mais aussi un code plus mainten- able, car les règles d’accès<br />
peuvent être exprimées encore plus facilement dans un graphe. Les temps de réponse ont été réduits à quelques<br />
secondes, voire millisecondes, dans de nombreux cas, alors qu’ils étaient de plusieurs minutes auparavant.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
78
Retours d’expériences Big Data en entreprise<br />
NEO4J - WALMART<br />
WALMART S’APPUIE SUR NEO4J POUR OFFRIR À SES CLIENTS LA<br />
MEILLEURE EXPÉRIENCE WEB PAR LE BIAIS DE RECOMMANDATIONS<br />
PERSONNELLES PERTINENTES<br />
Walmart est unique : une entreprise familiale qui en un peu plus de 50 ans est dev- enue la plus grande société<br />
anonyme par actions au monde avec plus de 2 mil- lions d’employés et un chiffre d’affaires annuel de 470 milliards<br />
de dollars1. En ayant su comprendre les besoins de ses clients, Walmart est devenu le plus grand détaillant au<br />
monde, et la base de données Neo4j représente un atout essentiel pour maintenir cette position.<br />
Plus de 250 millions de clients se rendent chaque semaine dans l’un des 11 000 magasins Walmart répartis<br />
sur pas moins de 27 pays et sur son site Web de vente accessible dans 10 pays. Le groupe d’e-commerce brésilien<br />
de Walmart a choisi Neo4j pour parvenir à comprendre le comportement et les préférences des acheteurs en<br />
ligne, avec une précision et une vitesse telles qu’il devient pos- sible de proposer des recommandations personnalisées<br />
en temps réel et ainsi maximiser les bénéfices.<br />
Marcos Wada, développeur logiciel du service d’e-commerce de Walmart, groupe Brésil, nous en dit plus : « Neo4j<br />
nous aide à comprendre le com- portement de nos clients en ligne et la relation entre nos clients et nos produits.<br />
Il s’agit de l’outil parfait pour les recommandations de produits en temps réel. »<br />
LE DÉFI<br />
Dans sa quête de la meilleure expérience Web pour ses clients, Walmart cherchait à optimiser ses recommandations<br />
en ligne. De nos jours, les clients s’attendent à des recommandations parfaitement person- nalisées et<br />
répondent de moins en moins bien aux suggestions universelles. Cela requiert toutefois des bases de données<br />
capables d’établir des liens entre les don- nées client et produit – complexes et volumineuses – et les données<br />
connectées en général, dans le but de mieux appréhender les besoins des clients ainsi que les tendances de<br />
consommation. Walmart s’est rendu compte du défi auquel il faisait face avec la technologie de base de données<br />
rela- tionnelle traditionnelle. Comme l’explique Marcos : « En raison de la complexité de nos requêtes, une base de<br />
données relationnelle ne suffisait pas pour satisfaire nos exigences en matière de performance et de simplicité. »<br />
Pour pallier à ce problème, l’équipe de Marcos a décidé d’utiliser une base de données orientée graphe Neo4j, le<br />
leader du marché.<br />
POURQUOI NEO4J ?<br />
Les bases de données orientées graphe peuvent rapidement interroger l’historique d’achat des clients, ainsi que<br />
capturer les nouveaux intérêts manifestés par les clients au cours de leur visite sur le site, ce qui s’avère essentiel<br />
pour proposer des recommandations en temps réel. Faire correspondre les données d’historique et de session de<br />
cette manière est chose aisée pour les bases de données orientées graphe telles que Neo4j, qui surpassent de<br />
loin les performances des bases de données relationnelles et NoSQL. Marcos a assisté pour la première fois à une<br />
démonstration de Neo4j à la conférence QCON de New York en 2012 et a tout de suite compris :<br />
« Neo4j peut nous permettre de remplacer un processus lourd de traite- ment par lot par une base de données<br />
orientée graphe simple et en temps réel. » À partir de là, son équipe a testé la technologie et a obtenu des résultats<br />
positifs qui l›ont aidé à mûrir sa décision. Son verdict ? « Il est parfaitement adapté à nos besoins. »<br />
LES AVANTAGES<br />
Walmart utilise Neo4j pour analyser le comportement des acheteurs en ligne afin de favoriser la montée en gamme<br />
et les ventes croisées des prin- cipales lignes de produits dans les marchés clés.<br />
Neo4j a été déployé dans son application de marketing de relance, gérée par l’équipe informatique d’e-commerce<br />
de l’entreprise basée au Brésil. Walmart utilise Neo4j en production depuis début 2013 et est passé à la version<br />
2.0 cette année. Marcos nous explique les avantages : « Neo4j nous a permis de remplacer un processus par<br />
lot com- pliqué que nous utilisions pour préparer notre base de données relationnelle par une base de données<br />
orientée graphe simple et en temps réel. Nous avons pu concevoir un système de recommandation simple et en<br />
temps réel avec des requêtes à faible latence. » Il conclut : « En tant que leader actuel sur le marché des bases<br />
de données orientées graphe, Neo4j représente l’outil idéal pour atteindre nos objectifs, notamment grâce à ses<br />
fonctionnalités métier offrant évolutivité et disponibilité. »<br />
À PROPOS DE NEO TECHNOLOGY<br />
Les graphes nous entourent. Neo Technology a joué un rôle prépondérant en rendant la technologie des graphes<br />
accessible à de nombreuses organisations, comprenant une base globale de 2 000 clients qui ne cesse de croître,<br />
parmi lesquels Cisco, HP, Accenture, Deutsche Telekom et Telenor. En assistant la production de ses clients depuis<br />
plus de dix ans, Neo4j s’est imposé comme le leader mondial dans le domaine des bases de données orientées<br />
graphe, grâce à un large éventail de partenariats et des dizaines de milliers de déploiements couronnés de succès.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
79
Retours d’expériences Big Data en entreprise<br />
SAP - MOBILINK<br />
LA SOLUTION SAP INFINITEINSIGHT A PERMIS À MOBILINK DE BOOSTER<br />
DE 380 % LE TAUX DE RÉPONSE DE SES CAMPAGNES<br />
Société Mobilink | Siège social Islamabad (Pakistan) | Secteur d’activité Télécommunications | Produits et services<br />
Services de communication fixes et sans fil haut débit – Services de communication de données | Salariés<br />
7000 | Chiffre d’affaires 1,1 milliard $USD; Rapprocher les personnes à travers des solutions de communication<br />
innovantes, c’est la solution adoptée par Mobilink pour devenir le principal fournisseur de télécommunications<br />
du Pakistan. Face à la croissance explosive du marché et à une concurrence féroce, Mobilink avait besoin de se<br />
protéger contre le taux d’attrition des clients en proposant certains services aux bons clients et au bon moment.<br />
Pour relever ce défi, Mobilink a dû extraire de la connaissance client de ses 35 millions d’abonnés et de 200.000<br />
distributeurs présents dans 10.000 villes et villages du Pakistan.<br />
LES PRIORITÉS DE L’ENTREPRISE<br />
• Devancer la concurrence à travers une approche « prochaine action ciblée », qui permet de proposer les meilleures<br />
offres, aux meilleurs clients, au meilleur moment<br />
• Utiliser les big data et l’analyse prédictive pour renforcer la confiance des clients, les fidéliser, diminuer le taux<br />
d’attrition toute en maintenant les marges de profit<br />
LA SOLUTION<br />
• Après avoir étudié les solutions d’autres fournisseurs telles que SAS et SPSS, a rapidement déployé la solution<br />
SAP InfiniteInsight pour bénéficier de ses excellentes capacités prédictives, de son interface ergonomique et de<br />
sa compatibilité avec de nombreuses autres solutions<br />
• A élaboré des modèles prédictifs, combinés avec des techniques de clustering et d’analyse des big data collectées<br />
sur les réseaux sociaux pour dégager une connaissance essentielle sur le comportement des clients<br />
LES PRINCIPAUX AVANTAGES<br />
• Campagnes mieux ciblées et promotions plus efficaces, ce qui s’est traduit par une utilisation accrue des services<br />
à valeur ajoutée tels que SMS, sonneries et musique<br />
• Réduction du taux d’attrition par prédiction puis prévention du comportement des clients<br />
• Meilleure connaissance des communautés d’intérêt (grandes ou petites), ce qui a permis d’injecter du marketing<br />
viral dans de nouveaux segments en vue d’acquérir de nouveaux clients et de réduire le taux d’attrition<br />
8x : Augmentation de l’efficacité des offres de rétention des clients (de 0,5 % à environ 4 %) avec une dépense réduite<br />
380 % : Augmentation du taux de réponse aux campagnes grâce à l’analyse des réseaux sociaux<br />
Retours d’expériences Big Data en entreprise<br />
LES PRIORITÉS DE L’ENTREPRISE<br />
• Élaborer des modèles prédictifs pour faciliter la création d’offres personnalisées, plus rapidement et avec une<br />
plus grande précision pour plus de 6 millions d’abonnés dans 28 régions<br />
• Doubler le taux de conversion des campagnes de marketing direct<br />
LA SOLUTION<br />
• A déployé la solution SAP InfiniteInsight pour analyse prédictive, y compris segmentation, classification, régression<br />
et agrégation des données<br />
• A optimisé ses processus d’analyse du marché à l’échelle de l’entreprise grâce à une équipe analytique centralisée<br />
chargée de couvrir ses 28 régions<br />
LES PRINCIPAUX AVANTAGES<br />
• Une solution évolutive pour accompagner les besoins à court et long terme, y compris modélisation prédictive<br />
pour les acquisitions de client, la rétention des clients, l’évaluation des clients sur la durée et le marketing événementiel<br />
• Analyse précise et rapide de 10 millions d’observations et de 800 variables pour analyser le comportement des<br />
clients, dont propension à l’achat, risques d’attritions et risques de solvabilité<br />
14 % : Augmentation du nombre de produits par foyer<br />
28 % : Réduction du taux d’attrition des clients<br />
80 % : Réduction du temps de création des modèles<br />
42x : Rendement plus élevé pour les analystes (de 40 à 1680 modèles prédictifs par an)<br />
SAP - BELGACOM<br />
PRÉVOIR DES TENDANCES SUR L’ENSEMBLE DES CANAUX<br />
D’INTERACTION CLIENT AVEC SAP® INFINITEINSIGHT ®<br />
Société Groupe Belgacom| Siège social Bruxelles, Belgique | Secteur d’activité Télécommunications| Produits et<br />
services Services de téléphonie fixe et mobile, de télévision et d’Internet| Salariés 15 859 (2012) | Chiffre d’affaires<br />
6,4 million d’€ (2012). En matière de services de téléphonie, d’Internet et de télévision, Belgacom est un opérateur de<br />
télécommunications incontournable en Belgique. En règle générale, il est pourtant difficile de réussir le lancement de<br />
nouveaux produits sur ce marché hautement compétitif. Avec la solution SAP® InfiniteInsight®, Belgacom a pourtant<br />
su relever ce challenge en automatisant les outils d’exploration de données (« data mining ») qui permettent de mieux<br />
comprendre les besoins de chaque client et de déployer ainsi des services et des campagnes personnalisés répondant<br />
précisément à leurs attentes. Résultat : le taux de satisfaction des clients de Belgacom ne cesse d’augmenter.<br />
OBJECTIFS<br />
• Exploiter de précieuses informations cachées sur la clientèle permettant d’augmenter la fidélisation et d’identifier<br />
de nouvelles perspectives de croissance<br />
• Améliorer la détection des risques de défection, accélérer le déploiement de modèles prédictifs et identifier les<br />
sources de revenus potentiels à toutes les étapes de la relation client<br />
POURQUOI SAP<br />
• Un savoir-faire et des résultats reconnus dans le secteur des télécommunications<br />
• Des modèles prédictifs puissants et fiables pour analyser les comportements clients (professionnels et particuliers)<br />
avec la solution SAP® InfiniteInsight®<br />
• Une solution flexible et conviviale, au service de statisticiens et d’analystes de gestion qualifiés<br />
AVANTAGES<br />
• Un marketing prédictif opérationnel sur tous les canaux d’interaction avec les clients, des centres d’appels<br />
aux boutiques en ligne<br />
• Des échanges de qualité optimale d’un bout à l’autre de la relation client permettant de tirer profit d’une mine<br />
d’informations de grande valeur<br />
• De nouvelles opportunités de revenu issues de failles ou de lacunes du marché<br />
• Des taux accrus de satisfaction et de rétention des clients<br />
• Un meilleur retour sur investissement marketing<br />
• Un temps de modélisation ramené de plusieurs mois à quelques jours<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
81
Retours d’expériences Big Data en entreprise<br />
SAP - BANGLALINK DIGITAL COMMUNICATIONS<br />
MAINTENIR LE CHIFFRE D’AFFAIRES ET AMÉLIORER L’EXPÉRIENCE CLIENT<br />
Société Banglalink Digital Communications Ltd. | Siège social Dhaka (Bangladesh) | Secteur d’activité Télécommunications<br />
| Produits et services Services de télécommunication intégrés (technologies voix, données, mobile traditionnel<br />
et mobile haut débit, fixe)| Salariés 2500 | Chiffre d’affaires 550 millions $USD : Depuis 2005, Banglalink Digital<br />
Communications Ltd. se positionne comme l’un des principaux opérateurs de téléphonie mobile du Bangladesh.<br />
Cette société améliore la vie des citoyens en leur proposant des services de télécommunication à coût modéré. Pour<br />
faciliter la diffusion de ses solutions de télécommunications mobiles au plus grand nombre, Banglalink a utilisé la<br />
solution SAP InfiniteInsight. En définissant des modèles prédictifs, Banglalink parvient à conserver d›importants flux<br />
de chiffre d›affaires en luttant contre le taux d›attrition et à améliorer l’expérience globale de ses clients.<br />
OBJECTIFS<br />
• Améliorer les résultats des campagnes de rétention pour lutter contre le taux d’attrition des clients<br />
• Analyser les big data générées par des sources telles que les enregistrements des centres d’appel, les abonnements<br />
aux produits, les transactions de vouchers, les conversions de forfaits et les relais cellulaires<br />
POURQUOI SAP<br />
• Supporte l’élaboration de modèles prédictifs, même par les utilisateurs ayant peu ou pas d’expérience en informatique<br />
ou en statistiques<br />
• Inclut des modèles prédictifs et une architecture de données analytiques. Ces éléments prédéfinis permettent<br />
de réduire le temps nécessaire pour préparer les données analytiques, élaborer les modèles prédictifs et déployer<br />
les scores résultants en production<br />
AVANTAGES<br />
• A pu définir un modèle capable de détecter plus d’un quart des clients en risque d’attrition, en utilisant seulement<br />
un échantillon de 10 % des scores les plus élevés<br />
• A déployé la solution SAP InfiniteInsight en moins de cinq mois<br />
• A découvert les outils nécessaires pour créer et déployer des modèles de prévision en quelques heures, et non<br />
en plusieurs semaines ou plusieurs mois<br />
PLANS FUTURS<br />
• Intégrer des modèles prédictifs dans le système de gestion des campagnes, de manière à proposer aux abonnés<br />
la meilleure offre au meilleur moment, dans tous les canaux côté clients<br />
• Ajouter l’application SAP InfiniteInsight Social pour identifier les influenceurs en vue de les intégrer dans des<br />
programmes de marketing viral, et pour détecter toute activité frauduleuse chez les clients<br />
SAP - VODAFONE<br />
CIBLER LES CLIENTS AVEC DES OFFRES PLUS PERTINENTES<br />
Société Vodafone Pays-Bas| Siège social Amsterdam (Pays-Bas) | Secteur d’activité Télécommunications | Produits<br />
et services Services de télécommunication, y compris paiement à la réception pour consommateurs et entreprises,<br />
paiement fixe, paiement à l’envoi et paiement de machine à machine<br />
« L›analyse prédictive est importante, car elle permet à une entreprise de tirer le meilleur parti possible de ses<br />
dépenses marketing. Nous utilisons SAP InfiniteInsight pour que nos offres soient plus pertinentes pour nos clients, et<br />
pour éviter de les contacter trop souvent. » Viliah Overwater, Analyste senior en modélisation, Vodafone Pays-Bas<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
82
Retours d’expériences Big Data en entreprise<br />
SAP - XL<br />
XL DOUBLE LES RÉSULTATS DE SES CAMPAGNES MARKETING AVEC LA<br />
SOLUTION SAP® INFINITEINSIGHT®<br />
Société PT XL Axiata Tbk | Siège social Djakarta (Indonésie) | Secteur d’activité Télécommunications | Produits et<br />
services Communications mobiles, Internet haut débit, communication de données, services 3G | Salariés 2,000 |<br />
Chiffre d’affaires 2,1 milliards $USD « Nous avons pu exécuter des campagnes marketing finement ciblées grâce<br />
aux modèles prédictifs générés par SAP InfiniteInsight. Depuis le déploiement de cette solution, nous avons réduit<br />
le taux d’attrition de 8,2 % dans tous les domaines et nous avons augmenté notre base de clientèle de près de 25 %. »<br />
Pradeep Kumar, directeur général de l’analytique client chez PT XL Axiata Tbk<br />
PRINCIPAUX OBJECTIFS<br />
• Devancer la concurrence dans un marché concurrentiel et presque saturé<br />
• Générer des relations plus profitables avec nos clients et améliorer leur rétention et leur fidélisation<br />
POURQUOI LA SOLUTION SAP® INFINITEINSIGHT® ?<br />
• La modélisation prédictive permet d’analyser des données sur plus 40 millions d’abonnés et de déterminer certaines<br />
caractéristiques telles que l’attractivité des produits et les risques de taux d’attrition<br />
• Plébiscitée par rapport aux solutions concurrentes et traditionnelles de gestion de la rétention et de la fidélisation des<br />
clients parce qu’elle elle est rapide à déployer, facile à utiliser et qu’elle contribue à l’agilité des opérations marketing<br />
PRINCIPAUX AVANTAGES<br />
• Possibilité d’élaborer des modèles prédictifs en quelques heures<br />
• Utilisation des données d’éligibilité du client, de disponibilité en inventaire et de profitabilité pour prioriser la<br />
présentation des offres et déployer une approche « prochaine action ciblée »<br />
• Optimisation des campagnes pour rétention maximale, ventes croisées/ventes de gamme supérieure dans les<br />
différents canaux marketing, augmentation du chiffre d’affaires et de l’activité des abonnés<br />
• Identification proactive et ciblage très en amont des clients en risque d’attrition<br />
200 % : Augmentation du taux de conversion des campagnes<br />
28 % : Augmentation de la précision des prédictions lors du ciblage des influenceurs sociaux<br />
66,6 % : Réduction globale du taux d’attrition de 8,2 % et acquisition d’abonnés à plus forte valeur<br />
25 % : Croissance de la base de clientèle<br />
102 % : Retour sur investissement<br />
SAP - AVIVA<br />
CONNAISSANCE DU CLIENT PAR L’ANALYSE PRÉDICTIVE<br />
Société Aviva plc | Siège social Londres (Angleterre) | Secteur d’activité Assurance | Produits et services Assurance<br />
générale, assurance-vie | Clients 31,4 millions, dans plus de 15 pays | Salariés 27.700 (monde) | Bénéfice<br />
d’exploitation 2,5 milliards €. Aviva protège environ 31 millions de clients dans le monde entier avec ses produits<br />
d’assurance, d’épargne et d’investissement. Aviva est le plus grand assureur du Royaume-Uni, et également l’un<br />
des principaux prestataires européens en assurance, assurance-vie et gestion d’actifs. Fermement engagée dans<br />
le service de ses clients pour proposer des offres plus fortes, plus durables et ayant une incidence positive sur la<br />
société, Aviva a choisi la solution SAP InfiniteInsight. Ses modèles prédictifs aident Aviva à dégager la connaissance<br />
nécessaire au ciblage des meilleurs clients avec la meilleure offre et au meilleur moment.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
83
Retours d’expériences Big Data en entreprise<br />
OBJECTIFS<br />
• Utiliser l’analyse prédictive pour élaborer des modèles de propension décrivant des groupes de clients spécifiques<br />
plutôt que des modèles génériques portant sur l’ensemble des clients<br />
• Éviter de contacter les clients trop souvent tout en améliorant les taux de réponse des campagnes<br />
• Augmenter le retour sur les investissements marketing et améliorer le succès des campagnes en identifiant les<br />
clients les plus susceptibles de répondre<br />
POURQUOI SAP<br />
• Les nombreux graphiques permettent aux experts marketing de visualiser l’impact prévisible des modèles<br />
• L’automatisation très efficace de la modélisation permet de définir rapidement et facilement une gamme complète<br />
de modèles<br />
• L’analyse automatique de la contribution à un modèle de plusieurs centaines de variables remplace l’examen<br />
visuel d’un nombre limité de variables<br />
AVANTAGES<br />
• Taux de réponse aux campagnes plus élevé et plus grande valeur des clients sur la durée grâce à des offres<br />
mieux personnalisées<br />
• Augmentation significative du nombre de modèles de propension utilisés dans la société (dont plus de 30<br />
modèles en production)<br />
• Possibilité d’utiliser les données les plus récentes pour actualiser les modèles et capturer les dernières tendances<br />
PLANS FUTURS<br />
• Améliorer nettement le retour sur les investissements marketing par une modélisation des intentions des clients<br />
capable de prédire l’impact des initiatives de marketing sur des groupes cibles spécifiques<br />
• Élaborer des modèles prédictifs pour analyser l’acquisition et la relance des clients<br />
SAP - ELDORADO<br />
AMÉLIORATION SPECTACULAIRE DE LA PRÉCISION DES PRÉVISIONS DE<br />
VENTES AVEC LA SOLUTION SAP INFINITEINSIGHT<br />
Société Eldorado LLC | Siège social Moscou (Russie) | Secteur d’activité Distribution | Produits et services Électronique<br />
grand public et appareils électroménagers | Salariés 15.000 | Chiffre d’affaires 2.4 milliards € (2012)<br />
Pour les produits électroniques, les appliances, les ordinateurs, etc., les Russes plébiscitent Eldorado. Réseau<br />
fort de 700 magasins et franchises, plus de 30 présences en ligne et 120 points de commande et d’enlèvement, ce<br />
distributeur russe doit gérer d’importants volumes de données pour améliorer la prévision de ses ventes, exploiter<br />
un potentiel de chiffre d’affaires insoupçonné et réduire considérablement ses frais d’inventaire. Pour exploiter au<br />
mieux ses big data grâce à l’analyse prédictive, Eldorado a choisi la solution SAP InfiniteInsight.<br />
OBJECTIFS<br />
• Analyser les données stockées dans la solution SAP 360 Customer, générées par plus de 1,5 millions de transactions<br />
sur les points de vente. Ventes portant sur plus de 420 groupes de produits et plus de 8000 références par mois<br />
• Améliorer la précision des prévisions pour booster les ventes et réduire le coût des inventaires<br />
POURQUOI SAP<br />
• Partenaire technologique de confiance avec une expérience démontrée et des succès dans l’ensemble du secteur<br />
• Possibilité d’utiliser plus efficacement l’accès en temps réel aux gros volumes de données déjà disponibles avec<br />
l’application SAP Business Warehouse (avec SAP HANA) et avec l’application SAP Planning for Distribution<br />
• Facilité d’utilisation, précision des modèles prédictifs et outils automatisés innovants disponibles avec la solution<br />
SAP InfiniteInsight<br />
AVANTAGES<br />
• Élaborer environ 500 modèles prédictifs par mois – une tâche impossible à envisager avec les techniques de<br />
modélisation traditionnelles qui exigent plusieurs semaines ou plusieurs mois pour définir un seul modèle<br />
• Création de prévisions pour la planification des assortiments, réapprovisionnement des étagères, analyse des prix et<br />
des promotions, fusion de magasins, sélection de l’emplacement des magasins et planification des ventes et des achats<br />
• Précision jusqu’à 82 % des prévisions de ventes, une amélioration de 10 % par rapport aux techniques précédentes<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
84
Retours d’expériences Big Data en entreprise<br />
PLANS FUTURS<br />
• Migrer d’autres applications SAP vers SAP HANA pour tirer pleinement partie du potentiel de la technologie de<br />
traitement en mémoire<br />
• Poursuivre l’expansion et faire évoluer les activités de l’entreprise en faisant appel à des systèmes IT performants<br />
et à l’innovation<br />
SAP - SAMSE<br />
OPTIMISER LA PRÉVENTION DES RISQUES, LES INVESTISSEMENTS<br />
MARKETING ET LA GESTION DES STOCKS AVEC SAP® INFINITEINSIGHT®<br />
Société Groupe SAMSE | Siège social Grenoble, France | Secteur d’activité Grande distribution | Produits et services<br />
Distribution de produits et services (matériaux et outils de construction) | Salariés 5,000 | Chiffre d’affaires1,138<br />
million d’€. Que ce soit pour entreprendre un projet de développement de grande envergure ou rénover son domicile,<br />
les professionnels comme les bricoleurs du dimanche français font confiance aux outils, matériaux et conseils<br />
personnalisés que propose le groupe SAMSE. Grâce à la solution<br />
SAP® InfiniteInsight®, Groupe SAMSE peut développer des modèles prédictifs pour analyser et exploiter les énormes<br />
masses de données clients recueillies chaque jour. Avec des taux de réponse aux campagnes marketing en<br />
augmentation de 220 %, Groupe SAMSE propose à ses clients des offres taillées pour leurs besoins.<br />
OBJECTIFS<br />
• Optimiser les performances des campagnes marketing, la prévention des risques et la planification des stocks<br />
pour 25 marques et 290 points de vente<br />
• Analyser des téraoctets de données issues de plus de 300 000 détenteurs de cartes de fidélité et de 30 000<br />
entreprises clientes chaque jour<br />
• Développer une vision globale des relations entre entreprises (B2B) et avec les clients (B2C) et la compléter<br />
d’analyses approfondies<br />
• Mettre à jour les modèles prédictifs chaque semaine, plutôt que mensuellement, pour renforcer la fiabilité des prévisions<br />
POURQUOI SAP<br />
• Des analyses réutilisables et facilement modifiables avec la solution SAP® InfiniteInsight®<br />
• Des modèles prédictifs qui facilitent la planifica- tion de plus de 75 unités de gestion des stocks de produits et<br />
l’analyse de la cote de solvabilité pour prévoir le risque de défaut de paiement des clients<br />
AVANTAGES<br />
• Des taux de réponse aux campagnes de marketing direct en augmentation de 220 %<br />
• La mise à jour des modèles prédictifs ramenée de plusieurs mois à une semaine seulement<br />
• Un équilibre entre une exploration systématique et flexible des données quotidiennes relatives aux marques du<br />
groupe à l’aide de modèles prédictifs<br />
• Un système d’alerte précoce pour les projets de construction de particuliers, permettant d’établir des recommandations<br />
de produits personnalisées quasiment en temps réel sur plusieurs canaux d’interaction avec les clients,<br />
notamment les magasins, les centres d’appels et les commerciaux<br />
PLANS FUTURS<br />
• Attirer toujours plus de clients grâce à une juste appréciation de leurs comportements<br />
• Poursuivre une stratégie d’optimisation de l’activité en adoptant des technologies de pointe<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
85
Retours d’expériences Big Data en entreprise<br />
SAP - HSE24<br />
INFLUENCER POSITIVEMENT LE COMPORTEMENT D’ACHAT DES<br />
CONSOMMATEURS AVEC UN LOGICIEL ANALYTIQUE PLUS PERFORMANT<br />
ET AVEC SAP HANA®<br />
Société Home Shopping Europe GmbH (HSE24) | Siège social Ismaning (Allemagne) | Secteur d’activité Distribution<br />
| Produits et services Mode, bijoux, produits de beauté pour la maison | Salariés Environ 2900 (y compris<br />
centre d’appels externe et personnel logistique) | Visiteurs 515 millions € (2012)<br />
« Avec SAP HANA, nous avons vu une opportunité d›influencer le comportement d›achat de nos clients et de<br />
réduire le taux de retour des produits. Chaque année, plus de 11,5 millions de colis HSE24 sont envoyés à 1,5<br />
millions de clients. Spécialisés dans le VPC, nous estimons que diminuer notre taux de retours de seulement 1 %<br />
pourrait conduire à une économie à sept chiffres ! »<br />
Michael Kuenzel, vice-président IT chez Home Shopping Europe GmbH (HSE24)<br />
LES PRIORITÉS DE L’ENTREPRISE<br />
• Devenir une entreprise de vente et de service clientèle de classe mondiale<br />
• Réduire les retours des commandes en VPC<br />
• Réagir à la demande en temps réel<br />
LA SOLUTION<br />
• Déploiement du logiciel SAP® Predictive Analysis et de l’application analytique SAP Audience Discovery and<br />
Targeting (avec SAP HANA®) • Définition d’un plan de migration de l’application SAP Customer Relationship<br />
Management à SAP HANA (phase II du projet d’implémentation de SAP HANA)<br />
LES PRINCIPAUX AVANTAGES<br />
• La vue à 360 degrés des informations client permet de définir des campagnes ciblées plus précises et mieux<br />
ciblées et facilite les interactions avec les clients<br />
• L’accès instantané à l’ensemble des données client permet aux spécialistes marketing de prendre les mesures<br />
appropriées pour réduire le taux de retours<br />
• Les interactions plus riches avec les clients facilitent la définition d’offres pertinentes pour les consommateurs<br />
et reflètent mieux les exigences uniques de chaque personne - Temps réel : L’agrégation des données fournit une<br />
vue complète de chaque client - Efficace : Interactions plus puissantes et plus efficaces avec les clients - Ciblé :<br />
Des campagnes marketing qui mettent l’accent sur des segments spécifiques de clientèle - Pertinent : Des offres<br />
qui répondent avec une meilleure précision aux demandes de clients<br />
SAP - MONEXT<br />
RÉDUIRE LA FRAUDE SUR UN MILLIARD DE TRANSACTIONS<br />
ÉLECTRONIQUES ANNUELLES AVEC LA SOLUTION SAP®<br />
INFINITEINSIGHT®<br />
Société Monext SAS | Siège social Courbevoie, France | Secteur d’activité Banque | Produits et services Solutions<br />
et services de traitement des paiements et des cartes de paiement | Salariés 480 | Chiffre d’affaires €67 million<br />
(2011) « SAP InfiniteInsight nous procurera un réel avantage concurrentiel et nous fera ainsi économiser chaque<br />
année des centaines de millions d’euros. »<br />
Annabelle Gerard, Analyste de Business Intelligence et de Data Mining, Monext SAS<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
86
Retours d’expériences Big Data en entreprise<br />
OBJECTIFS<br />
• Réduire la fraude électronique pour quelques-uns des principaux e-commerçants, distributeurs et banques européens<br />
• Remplacer une solution analytique externalisée qui utilisait un modèle générique pour prédire la fraude électronique<br />
• Diminuer les fausses alertes pour améliorer l’expérience client et réduire les coûts du centre d’appels<br />
POURQUOI SAP<br />
• Modélisation prédictive adaptée à chaque fournisseur de carte et type de carte, notamment les cartes de crédit,<br />
de débit, prépayées, premium, disponible avec la solution SAP® InfiniteInsight®.<br />
• Formation automatisée pour une modélisation rapide, alliée à une interface puissante et conviviale<br />
AVANTAGES<br />
• Un analyste à mi-temps suffit pour créer des modèles personnalisés pour chaque fournisseur et type de carte<br />
• Résultats fiables obtenus en quelques heures au lieu de plusieurs jours ou semaines<br />
• Analyse des Big Data collectées sur des centaines de millions de transactions et jusqu’à 500 attributs natifs et<br />
dérivés utilisés pour évaluer les transactions en quelques millisecondes<br />
• Économie de centaines de millions d’euros sur les pertes annuelles potentielles de revenus pour les fournisseurs<br />
de cartes afin de procurer un réel avantage concurrentiel et d’améliorer considérablement l’expérience client<br />
PROJETS À VENIR<br />
• Innover davantage pour effectuer des paiements de manière encore plus pratique et sûre sur tous les canaux<br />
électroniques<br />
• Continuer à soutenir et à protéger les entreprises et les consommateurs à l’aide de la technologie logicielle SAP<br />
SAP - AMERICAN AUTOMOBILE ASSOCIATION<br />
EN ROUTE VERS UNE MEILLEURE COMPRÉHENSION DES CLIENTS<br />
Société American Automobile Association (AAA) | Siège social Orlando (Floride) | Secteur d’activité Assurance |<br />
Produits et services Assistance aux automobilistes – Véhicules, voyages et services financiers | Salariés > 40.000<br />
Sur la route, des millions d’Américains font confiance à l’American Automobile Association (AAA) pour ses services<br />
d’assistance, d’assurance et de dépannage. Pour optimiser les services des 44 automobile-clubs AAA des États-<br />
Unis et du Canada, le AAA National Office a créé un « centre d’action » centralisé pour dégager une meilleure<br />
connaissance des besoins de ses membres. Avec l’analyse prédictive performante proposée par la solution SAP<br />
InfiniteInsight, AAA peut répondre aux besoins de ses membres au moment précis où ils les expriment.<br />
SAP - SKYROCK<br />
MONÉTISER LE RÉSEAU SOCIAL AVEC SAP® INFINITEINSIGHT®<br />
RECOMMANDATION<br />
Société Skyrock.com | Siège social Paris | Secteur d’activité Médias| Produits et services Services de partage de<br />
réseaux sociaux, de blogs et de médias | Salariés 80 | Visiteurs 12 million per month<br />
En matière de contenu en ligne, les internautes font confiance à leurs amis pour découvrir de nouveaux sujets<br />
d’intérêt. En mettant gratuitement à disposition de ses membres un espace Web personnalisé pour y créer des<br />
blogs, ajouter des profils et échanger des messages avec d’autres membres inscrits, Skyrock.com est l’un des<br />
réseaux sociaux de blogs les plus dynamiques au monde. Toutefois, la société recherchait une solution lui permettant<br />
de tirer parti de toutes ces données clients et monétiser sa croissance rapide.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
87
Retours d’expériences Big Data en entreprise<br />
LES PRIORITÉS DE L’ENTREPRISE<br />
• Décrypter les sources de Big Data pour obtenir des prévisions précises et des recommandations personnalisées<br />
sur les produits, les amis et le contenu<br />
• Améliorer la fidélité au site et l’engagement social<br />
• Augmenter le nombre de pages consultées par visite pour proposer des annonces publicitaires payantes plus<br />
rémunératrices et doper les revenus<br />
LA SOLUTION<br />
• Déploiement de l’application SAP® InfiniteInsight® Recommendation, en permettant la segmentation à l’aide de<br />
l’analyse des réseaux sociaux et les recommandations sociales d’« amis »<br />
• Lancement d’un projet pilote pour recommander des blogs aux visiteurs et aux membres selon des profils et des<br />
goûts pour accroître la fidélité au site<br />
LES PRINCIPAUX AVANTAGES<br />
• Possibilité de fournir chaque matin des recommandations d’« amis » pertinentes aux membres du site<br />
• Meilleure compréhension des utilisateurs, facilitant ainsi l’identification des communautés partageant les<br />
mêmes centres d’intérêt, des caractéristiques et des comportements, comme les fans de shopping, les amateurs<br />
d’équitation, les jeunes mamans et les passionnés d’automobile<br />
20 : Recommandations d’amis pertinentes envoyées chaque matin aux membres du site<br />
2x : Plus de demandes d’ajout d’ami et augmentation correspondante du taux d’acceptation<br />
Retours d’expériences Big Data en entreprise<br />
SAP - TIPP24.COM<br />
MULTIPLICATION PAR 4 DES PERFORMANCES DE SES CAMPAGNES<br />
MARKETING AVEC SAP® INFINITEINSIGHT®<br />
Société Tipp24.com | Siège social Londres (Angleterre) | Secteur d’activité Sports et divertissement | Produits et<br />
services Loteries en ligne<br />
Pour mieux comprendre ses clients et améliorer la précision de ses activités marketing, Tipp24.com, un des principaux<br />
intermédiaires de loterie sous licence d’Europe, a opté pour une solution d’analyse prédictive. En faisant<br />
appel à la solution SAP® InfiniteInsight® pour sa modélisation prédictive, Tipp24 a pu améliorer de 300 % la<br />
précision de ses ciblages. Ces résultats lui permettent de proposer les meilleures loteries aux joueurs et de leur<br />
souhaiter Bonne chance !<br />
PRINCIPAUX OBJECTIFS<br />
• Mieux comprendre le client sur la durée pour suivre les clients de grande valeur, augmenter les opportunités de<br />
vente croisée et de vente de gamme supérieure et réduire l’attrition<br />
• Collecter des données détaillée sur le comportement des clients pour optimiser les campagnes marketing<br />
• Mettre à la disposition des activités marketing et des canaux client une solution efficace de modélisation prédictive<br />
POURQUOI LA SOLUTION SAP® INFINITEINSIGHT® ?<br />
• Améliorer les performances et l’évolutivité par rapport aux logiciels SAS et SPSS d’IBM<br />
• Possibilité d’identifier les tendances de comportement des clients en vue d’améliorer leur satisfaction<br />
• Possibilité de prédire les clients qui risquent de devenir inactifs et les clients inactifs qui sont susceptibles de<br />
redevenir actifs<br />
PRINCIPAUX AVANTAGES<br />
• Optimise les campagnes et le comportement des clients sur la durée dans plusieurs canaux, y compris téléphone,<br />
marketing direct et mail<br />
• Permet la gestion proactive des relations avec les clients à grande valeur (existants et potentiels)<br />
• Réduit le taux d’attrition et augmente la valeur des clients sur la durée<br />
300 % : Amélioration de la précision de ciblage, y compris identification des joueurs qui seraient les plus intéressés<br />
par des participations hebdomadaires, mensuelles ou permanentes à certaines loteries<br />
25 % : Réduction de la taille de l’audience ciblée pour une campagne donnée (grâce à des fonctions analytiques<br />
plus précises)<br />
90 % : Réduction du temps nécessaire pour créer et déployer des modèles prédictifs (de plusieurs semaines à<br />
quelques jours), augmentation de la productivité de l’équipe Analytique<br />
SAP - KAESER KOMPRESSOREN<br />
TRANSFORMATION DES ACTIVITÉS AVEC SAP® BUSINESS SUITE<br />
(ET SAP HANA®)<br />
Société Kaeser Kompressoren SE | Siège social Cobourg (Allemagne) | Secteur d’activité Machines et équipements<br />
industriels | Produits et services Systèmes à air comprimé (y compris services de consulting) | Salariés<br />
4400 | Chiffre d’affaires 600 millions € (2012) | Partenaire SAP® Consulting<br />
« Nous allons mettre à profit toute la puissance de SAP HANA pour améliorer les processus métier existants,<br />
déployer des processus entièrement nouveaux et réduire notre TCO. Nous avons pris un excellent<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
89
Retours d’expériences Big Data en entreprise<br />
départ avec la migration en douceur et rapide de SAP CRM vers SAP HANA. Cette opération va être<br />
suivie par le déploiement d›autres applications SAP Business Suite et de solutions personnalisées. »<br />
Falko Lameter, DSI chez KAESER KOMPRESSOREN<br />
OBJECTIFS<br />
• Définir un environnement IT innovant et capable de supporter l’évolution vers un business mode de prestataire<br />
en solutions<br />
• Améliorer les processus commerciaux existants et exploiter la puissance des big data et de la maintenance<br />
prédictive pour devenir plus concurrentiel, plus proactifs et plus à l’écoute des clients<br />
• Tirer parti de la plate-forme SAP HANA® pour transformer et simplifier le paysage de solutions SAP<br />
IMPLÉMENTATION TECHNIQUE<br />
• Migration efficace de l’application SAP Customer Relationship Management (SAP CRM) à SAP HANA en 2,5<br />
mois – et avec un temps d’arrêt limité à 1,5 jour<br />
• Excellente collaboration avec SAP pendant toutes les phases du projet<br />
PLANS FUTURS<br />
• Déployer des fonctionnalités de maintenance prédictive (solution personnalisée basée sur SAP CRM et SAP<br />
HANA) pour améliorer le service client<br />
• Migrer toutes les applications de SAP Business Suite vers SAP HANA (dont SAP ERP, SAP Supply Chain Management<br />
et SAP Business Warehouse)<br />
• Déployer SAP CRM (avec SAP HANA) dans le cloud avec d’autres offres cloud telle que la plate-forme de<br />
logiciels sociaux SAP Jam en vue d’activer une stratégie de relation client (CRM) plus mobile et plus sociale<br />
SUCCÈS<br />
SAP CRM (avec SAP HANA) lancé en production sans aucune difficulté<br />
VITESSE<br />
Temps de réponse de la base de données x5 plus rapides<br />
SIMPLICITÉ<br />
Un environnement IT et des processus métier plus simples et plus agiles<br />
DURABILITÉ<br />
Socle pour la maintenance prédictive<br />
SAP - EBAY<br />
SYSTÈME DE DÉTECTION DE SIGNAUX PRÉCOCES GRÂCE À L’ANALYSE<br />
PRÉDICTIVE DE SAP HANA<br />
Société eBay | Siège social San Jose (Californie) | Secteur d’activité Services spécialisés | Produits et services<br />
Place de marché en ligne | Salariés 31.500 (2012) | Chiffre d’affaires 14,1 milliards $USD (2012)<br />
« SAP HANA met toute sa puissance au service de la connaissance. Pour l›utilisateur, il suffit de spécifier des<br />
indicateurs : il n›a pas à se préoccuper de la qualité des algorithmes, et il peut utiliser facilement le système parce<br />
que celui-ci est intelligent et configurable. »<br />
Gagandeep Bawa, responsable Analyse et planification financière (FP&A) pour l’Amérique du Nord chez eBay Inc.<br />
DÉFIS COMMERCIAUX<br />
• Améliorer la capacité de séparation des signaux et du « bruit » afin d’identifier les principaux changements subis<br />
par la place de marché d’eBay<br />
• Améliorer la prévisibilité et la fiabilité des prévisions portant sur l’économie virtuelle d’eBay<br />
• Améliorer la connaissance des écarts et de leurs causes<br />
DÉFIS TECHNIQUES<br />
• Difficulté à détecter les signaux critiques dans la masse de 100 péta-octets de données stockées dans le data<br />
warehouse principal d’eBay<br />
• Processus hautement manuel, exigeant l’intervention des analystes (impossibilité d’appliquer un modèle unique<br />
aux différents indicateurs)<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
90
Retours d’expériences Big Data en entreprise<br />
PRINCIPAUX AVANTAGES<br />
• Le système de détection automatique des signaux (alimenté par l’analyse prédictive SAP HANA) sélectionne le<br />
modèle le mieux adapté aux indicateurs de l’utilisateur – ce qui a pour effet d’augmenter la précision des prévisions<br />
• Un système fiable et évolutif génère un aperçu en temps réel qui permet aux analystes de se concentrer sur les<br />
tâches stratégiques<br />
• Une arborescence décisionnelle et la possibilité d’ajuster les scénarios permet à eBay d’adapter le meilleur<br />
modèle à ses différents types de données<br />
Détermine avec une précision de 100 % et avec une confiance de 97 % qu’un signal est positif Système de détection<br />
de signal automatique et précoce avec SAP HANA<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
91
Retours d’expériences Big Data en entreprise<br />
SAS - SANTIANE<br />
LE GROUPE SANTIANE CAPITALISE SUR SA CULTURE DE LA DONNÉE<br />
AVEC LA DATA VISUALISATION DE SAS<br />
Le premier courtier en ligne d’assurance-santé adopte SAS® Visual Analytics pour exploiter les grands volumes<br />
de données dont il dispose et ainsi optimiser ses ventes de contrats santé.<br />
Société de courtage d’assurance santé pour les particuliers et les entreprises, le Groupe Santiane est devenu en<br />
moins de 5 ans le premier courtier en ligne en France. Cette forte croissance a nécessité une structuration à la<br />
hauteur des ambitions de l’entreprise, avec notamment, le développement de ses équipes de direction. Pure player<br />
de l’assurance santé en ligne et empreint d’une forte culture numérique, Santiane a équipé ses nouvelles équipes<br />
dirigeantes (générale, financière, commerciale) de l’outil SAS Visual Analytics, pour guider leurs décisions en<br />
explorant les données sur PC et tablettes. “La grande force de SAS Visual Analytics, c’est son interopérabilité l’outil<br />
s’est branché naturellement à nos systèmes mais aussi aux données externes issues de Facebook et Google.”<br />
Alexandre Ginesty, Directeur des Systèmes d’Information<br />
EMBRASSER L’ENJEU DU BIG DATA<br />
« Grâce à la puissance de traitement et d›analyse de SAS Visual Analytics, nous puisons dans nos grands volumes<br />
de données des informations riches et parfois insoupçonnables sur notre portefeuille clients, explique Alexandre<br />
Ginesty, Directeur des Systèmes d›Information du Groupe Santiane. « Avec notre équipe d’actuaires, nous<br />
avons notamment pu découvrir de nouvelles variables explicatives sur le comportement de notre portefeuille, par<br />
exemple sur des éléments en tout début de la chaîne du contrat »<br />
Le domaine de l’assurance santé induit pour le Groupe Santiane une grande diversité des populations ciblées, et<br />
bien que très jeune, cette société dispose d’un historique de données très riche, stocké depuis 2007. En tant que<br />
premier courtier de santé sur Internet, le Groupe est d’autant plus armé pour embrasser l’enjeu du Big Data : des<br />
données complètes sur les parcours en ligne enrichies de celles issues de Google et Facebook, sur les nouvelles<br />
acquisitions de contrats et plus globalement la vie des contrats, sans oublier la chaîne de traitement commercial.<br />
SAS® VISUAL ANALYTICS RÉPOND À UN BESOIN CONSÉQUENT D’ACCÈS À LA DONNÉE<br />
La stratégie du Groupe Santiane s’est toujours appuyée sur les nouvelles technologies et le passage à la data<br />
visualisation éclaire aujourd’hui les managers et les rend plus autonomes. Sur iPad ou PC, les utilisateurs peuvent<br />
élaborer eux-mêmes leurs tableaux de bord et les partager en mode collaboratif. Ainsi, une dizaine de profils<br />
(sur un effectif total de 250 personnes) utilisent SAS Visual Analytics, essentiellement la Direction Générale. La<br />
Direction Financière et actuarielle, le Digital Marketing ainsi que les Directions Opérationnelles. Les délégués<br />
commerciaux de la filiale Néoliane Santé & Prévoyance profitent en particulier de la version tablette pour leurs<br />
déplacements sur le terrain.<br />
Des données qui jusque-là étaient inertes, sont aujourd’hui utilisées pour améliorer la construction des produits,<br />
à la fois dans une meilleure segmentation du risque pour les partenaires, et en adéquation avec les besoins des<br />
clients. Entièrement numérisé jusqu’à la signature en ligne des contrats d’assurance, le Groupe Santiane optimise<br />
aujourd’hui la vente de ses contrats santé grâce aux données et grâce à la data visualisation.<br />
« Nous souhaitions donner les moyens à nos directeurs d’explorer les données sans qu’ils aient nécessairement<br />
des compétences informatiques particulières, pour ainsi soulager notre R&D sur-sollicitée », ajoute Alexandre<br />
Ginesty. « La grande force de SAS Visual Analytics, c’est son interopérabilité ; l’outil s’est branché naturellement<br />
à nos systèmes mais aussi aux données externes issues de Facebook et Google. Nous avons choisi avec SAS<br />
l’outil de dataviz le plus abouti du marché, sa puissance de calcul in-memory nous permet aujourd’hui d’être plus<br />
créatifs grâce aux temps de réponse très rapides ».<br />
L’OFFRE QUICKSTART DE SAS : UNE MISE EN ŒUVRE RAPIDE DE LA SOLUTION<br />
Parmi les principaux points forts de SAS Visual Analytics, le Groupe Santiane a bénéficié d’un déploiement très<br />
rapide grâce à l’offre Quickstart de SAS, permettant d’accéder aux premiers tableaux de bord en un temps record.<br />
L’outil fait en outre gagner du temps en proposant un modèle de données préconçu.<br />
Pour la filiale Neoliane Santé & Prévoyance, courtier grossiste pour les professionnels, dont les forces commerciales<br />
ont vocation à développer le réseau de partenaires sur le terrain, les fonctionnalités de géolocalisation<br />
sont particulièrement intéressantes. L’outil leur donne une meilleure vision sur l’implémentation géographique des<br />
partenaires, et leur permet de suivre sur iPad leur activité dans une dimension collaborative.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
92
Retours d’expériences Big Data en entreprise<br />
SAS® VISUAL ANALYTICS : VITESSE, AGILITÉ ET MOBILITÉ<br />
SAS Visual Analytics, la solution phare de SAS dédiée au reporting agile, à l’exploration visuelle et à l’analyse des<br />
données, est disponible désormais sur des petits serveurs, ouvrant son utilisation aux entreprises de toutes tailles.<br />
Accédez partout et immédiatement à vos informations.<br />
Testez gratuitement SAS Visual Analytics en ligne avec des données correspondant à votre secteur d’activité.<br />
Vos données comme vous ne les avez jamais vues : qu’importent votre secteur d’activité, votre profil ou le volume<br />
de données à analyser, vous pouvez, avec SAS Visual Analytics, explorer toutes les données pertinentes rapidement<br />
et aisément. Rejoignez-nous sur nos évènements<br />
Lancée en 2012, SAS Visual Analytics a déjà été adoptée par plus de 2 600 entreprises dans le monde, dont plus<br />
de 100 en France.<br />
GROUPE SANTIANE<br />
Enjeux<br />
• Transformer rapidement de gigantesques quantités de données en informations stratégiques<br />
• Améliorer la construction des produits en adéquation avec les besoins des clients<br />
• Exploiter les données sans avoir de compétences informatiques particulières avec un modèle de données préconçu<br />
• La vente des contrats santé est optimisée grâce aux données et à la data visualisation<br />
• Sur iPad ou PC, les utilisateurs élaborent eux-mêmes leurs tableaux de bord et les partagent en mode collaboratif<br />
Les résultats présentés dans cet article sont spécifiques à des situations, problématiques métiers et données particulières,<br />
et aux environnements informatiques décrits. L’expérience de chaque client SAS est unique et dépend<br />
de variables commerciales et techniques propres, de ce fait les déclarations ci-dessus doivent être considérées<br />
dans un contexte. Les gains, résultats et performances peuvent varier selon les configurations et conditions de<br />
chaque client. SAS ne garantit ni ne déclare que chaque client obtiendra des résultats similaires. Les seules<br />
garanties relatives aux produits et services de SAS sont celles qui sont expressément stipulées dans les garanties<br />
contractuelles figurant dans l’accord écrit conclu avec SAS pour ces produits et services. Aucune information<br />
contenue dans le présent document ne peut être interprétée comme constituant une garantie supplémentaire. Les<br />
clients ont partagé leurs succès avec SAS dans le cadre d’un accord contractuel ou à la suite de la mise en œuvre<br />
réussie du progiciel SAS. Les noms de marques et de produits sont des marques déposées de leurs sociétés<br />
respectives.<br />
SAS - ELFE/INED<br />
ELFE/INED ÉTUDIE LE DÉVELOPPEMENT DE L’ENFANT<br />
À L’AIDE DE SAS® VISUAL ANALYTICS<br />
L’étude scientifique ELFE tire parti de la richesse fonctionnelle de SAS Visual Analytics pour dresser une image<br />
précise de la situation de l’enfance en France, à travers le regard de multiples chercheurs.<br />
SAS, leader mondial de la business analytics annonce que l’Institut national d’études démographiques (Ined) a retenu<br />
sa solution d’exploration et de visualisation des données SAS® Visual Analytics dans le cadre du programme<br />
ELFE. L’Ined, le plus important institut de recherche démographique au monde, étudie les populations de la France<br />
et des pays étrangers avec les outils du démographe et les apports des autres disciplines : histoire, géographie,<br />
sociologie, anthropologie, économie, biologie, épidémiologie. Ses chercheurs travaillent dans des domaines aussi<br />
divers que la contraception et l’avortement, les migrations, les populations en marge et l’allongement de la durée<br />
de vie. L’Ined emploie environ 200 personnes, dont 60 chercheurs titulaires, 110 techniciens ou ingénieurs, une<br />
vingtaine de doctorants, ainsi que des chercheurs associés.<br />
« Les fonctions analytiques proposées par SAS Visual Analytics sont particulièrement sophistiquées -exploration,<br />
constitution dynamique de rapports, croisements, etc.- et nous ouvrent de nouvelles perspectives. »<br />
Ando Rakotonirina, Directeur des systèmes d’information de l’unité de recherche ELFE de l’Ined<br />
ELFE : Etude Longitudinale Française depuis l’Enfance<br />
ELFE, l’un des programmes de recherche phares de l’Ined, vise à suivre, pendant 20 ans, 18 300 enfants nés<br />
en 2011, pour mieux comprendre comment les conditions périnatales et l’environnement dans ses différentes<br />
dimensions affectent le développement, la santé et la socialisation des enfants, de la période intra-utérine à<br />
l’adolescence. Le projet est pluridisciplinaire et se construit à partir des propositions de plus de 100 chercheurs<br />
associés. En tout, plus de 300 équipes de recherche – démographes, économistes, médecins, généticiens, spé-<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
93
Retours d’expériences Big Data en entreprise<br />
cialistes de l’environnement, épidémiologistes, etc. – participent à ce programme, soit au total 1500 personnes.<br />
« Ce programme, de très grande ampleur, doit prendre en compte une quantité dantesque de variables associées<br />
aux enfants : santé, sciences sociales, environnement, génétique, environnement familial, etc. Il repose sur des<br />
enquêtes menées chaque année et déclinées en quatre vagues (qui correspondent aux saisons). Les données<br />
issues de ces enquêtes sont stockées dans un système hautement sécurisé de base de données et décrivent la<br />
situation de l’enfant à travers des milliers de variables » témoigne Ando Rakotonirina, Directeur des systèmes<br />
d’information de l’unité de recherche ELFE de l’Ined. « Nous apportons un soin tout particulier aux contrôles qualité<br />
afin de garantir à nos chercheurs des données cohérentes. Si nous avons réalisé ces contrôles manuellement lors<br />
des premières enquêtes (maternité et 2 mois), nous avons souhaité industrialiser ce processus particulièrement<br />
chronophage. »<br />
Dans le passé, les réponses aux questionnaires étaient stockées dans une solution SAS déployée sur un poste<br />
autonome (non relié au réseau) et gérées par une personne chargée de réaliser des tests de cohérence et de<br />
travailler sur la « validité » des données avec des chercheurs affectés à cette étude en leur mettant à disposition<br />
des informations sous la forme d’extractions. Pour des raisons de confidentialité, les chercheurs ne peuvent pas<br />
accéder à l’intégralité des données de toutes les enquêtes, des extractions étaient donc nécessaires à chaque<br />
demande. Ces pré-études de données permettaient de faire des redressements ou corrections éventuelles. Pour<br />
obtenir une base propre pour une collecte contenant 5 200 variables pour 18 300 individus – pouvant être mise à<br />
disposition de chercheurs du monde entier – il fallait compter un an et demi.<br />
FLUIDIFIER CES ÉCHANGES, ACCÉLÉRER LA MISE À DISPOSITION DES DONNÉES<br />
« Les travaux de contrôle qualité nécessitant de multiples extractions étaient très fastidieux et la transmission<br />
des données était réalisée via des supports physiques. De nombreux échanges étaient nécessaires avec les<br />
chercheurs pour déterminer exactement quelles données ils souhaitaient recevoir » poursuit Ando Rakotonirina. «<br />
Nous cherchions une solution permettant de fluidifier ces échanges, d’accélérer la mise à disposition des données<br />
et de garantir le principe d›un dépôt unique réclamé par les autorités. Par ailleurs, la future loi sur la protection<br />
des données scientifiques va dans ce sens (limitation des extractions des données) pour préserver la maîtrise de<br />
propriété des données des chercheurs. Au vu des volumétries que nous traitons, cette solution devait en outre offrir<br />
une grande puissance de traitement. »<br />
Si, au départ, le Pôle SI de ELFE de l’Ined a privilégié des outils open source, il a pris conscience que ceux-ci ne<br />
répondaient qu’à une partie des objectifs. Une veille a été réalisée sur les outils de SAS et particulièrement SAS<br />
Visual Analytics (VA). Plusieurs maquettes ont été développées.<br />
« Nous avons finalement décidé non seulement d’adopter VA, mais également de nous affranchir des anciennes<br />
solutions sur postes autonomes pour basculer sur SAS Server, puisque nous avions la garantie d’éviter les extractions<br />
grâce au système de dépôts sécurisés combiné à une gestion personnalisée des accès. Les fonctions<br />
analytiques proposées par l’outil sont particulièrement sophistiquées (exploration, constitution dynamique de rapports,<br />
croisements, etc.) et nous ouvrent de nouvelles perspectives » explique Ando Rakotonirina. « Depuis la<br />
mise en œuvre de VA, le Pôle SI et l’administrateur de données ELFE ont pris en main la solution pour créer des<br />
rapports et des explorations de base qu’ils ont mis à disposition des chercheurs. Ceci dans un premier temps pour<br />
améliorer l’adhésion. Dans un deuxième temps, les chercheurs pourront choisir en toute autonomie les données<br />
sur lesquelles ils travaillent et la manière de les présenter. »<br />
SAS® VISUAL ANALYTICS, PIÈCE MAÎTRESSE DE L’INFRASTRUCTURE ANALYTIQUE<br />
DU PROGRAMME ELFE<br />
En quelques mois, SAS Visual Analytics est devenue une pièce maîtresse de l’infrastructure analytique du programme<br />
ELFE. Non seulement les multiples extractions ne sont plus nécessaires puisque chaque chercheur<br />
dispose de droits de consultation personnalisés et d’espaces de travail sécurisés, accessibles via un simple navigateur<br />
web, mais de plus, l’ensemble des modifications et des mises à jour sont tracées.<br />
Pour Ando Rakotonirina, le principal objectif du projet a été atteint : « La problématique de sécurité des données<br />
liée aux extractions a été résolue. Nous respectons les contraintes légales et réglementaires, ce qui est bien sûr<br />
capital. Mais parallèlement, nous avons gagné en efficacité en termes d’organisation des contrôles qualité : les<br />
données sont mises à disposition dans SAS VA ce qui évite les nombreux allers-retours entre nos services. Pour<br />
l’enquête «2 mois», 18 mois ont été nécessaires pour rendre nos données exploitables. Avec VA, ce délai va être<br />
réduit à 5 mois ! » se réjouit-il. « Parallèlement, VA nous offre une richesse fonctionnelle qui permet de nouvelles<br />
dimensions d’analyse. Par exemple : nos utilisateurs peuvent, de manière autonome, visualiser dynamiquement la<br />
répartition des enfants allaités dans chaque département sur une carte. Filtrer les données selon leurs envies et<br />
obtenir les résultats instantanément. ».<br />
Avec SAS, Elfe/Ined se déclare parfaitement équipée pour exploiter ses big data : « Les big data sont le carburant<br />
de la recherche moderne ! Elles sont en train de révolutionner notre profession : auparavant, chacun travaillait<br />
dans son coin et sur un mode vertical, les chercheurs partageaient difficilement leurs découvertes. Aujourd’hui,<br />
nous sommes en mesure d’enrichir nos analyses et de susciter la collaboration » conclut Ando Rakotonirina.<br />
ENJEUX<br />
• Prendre en compte une quantité dantesque de variables.<br />
• Fluidifier less échanges entre les chercheurs.<br />
• Accélérer la mise à disposition des données.<br />
• Garantir le principe d’un dépôt unique réclamé par les autorités.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
94
Retours d’expériences Big Data en entreprise<br />
SOLUTION<br />
• SAS Visual Analytics<br />
BÉNÉFICES<br />
• VA va réduire de 18 à 5 mois le délai nécessaire pour rendre les données exploitables<br />
• Les multiples extractions ne sont plus nécessaires (chaque chercheur dispose de droits de consultation personnalisés<br />
et d’espaces de travail sécurisés, accessibles via un simple navigateur web).<br />
• L’ensemble des modifications et des mises à jour sont tracées.<br />
• VA offre une richesse fonctionnelle qui permet de nouvelles dimensions d’analyse.<br />
• Visualisation dynamique de la répartition des données en toute autonomie.<br />
• Résultats obtenus instantanés.<br />
• Exploitation des big data pour enrichir les analyses et susciter la collaboration.<br />
SAS - UTAC-OTC<br />
UTAC-OTC : PREMIER TOUR DE PISTE AVEC SAS® VISUAL ANALYTICS<br />
POUR L’ORGANISME DE SUPERVISION DU CONTROLE TECHNIQUE<br />
Chaque année, plus de 20 millions de contrôles techniques (100 000 par jour environ) sont centralisés par<br />
l’Organisme Technique Central (OTC, groupe UTAC/CERAM).<br />
Pour mieux explorer et exploiter ces données, l’OTC s’est doté en 2013 de SAS® Visual Analytics. Retour sur une<br />
première année de mise en œuvre, avec les premiers résultats, les premiers enseignements, et les perspectives de<br />
développement. Mis en place en 1992 pour les véhicules légers, le contrôle technique automobile est aujourd’hui<br />
assuré par 6 000 installations de contrôle, la plupart appartenant à l’un des cinq grands réseaux opérant sur tout<br />
le territoire. Depuis l’origine, l’UTAC a été notifié par le ministère des Transports comme Organisme Technique<br />
Central pour recueillir, aujourd’hui en temps réel, les données issues de chaque contrôle. L’organisme surveille<br />
les opérateurs et délivre les agréments, s’assure de l’homogénéité des contrôles et tient à jour des informations<br />
sur l’état du parc automobile français pour adapter et faire évoluer les équipements et les méthodes de contrôle.<br />
Aujourd’hui, l’OTC dispose de plusieurs bases de données contenant l’ensemble des contrôles techniques depuis<br />
1992 – soit environ 400 millions de contrôles au total, avec quelque 450 variables relevées !<br />
INSTALLATION DE L’OUTIL : UNE FORMATION EXPRESS<br />
Déjà équipé d’outils SAS pour l’analyse des données, l’OTC a choisi en 2013 de se doter de SAS Visual Analytics.<br />
« Avec une telle volumétrie, il était impossible d’ignorer la data visualisation... au moins pour voir ! » explique<br />
Thierry Ageron, responsable Etudes & Productions Statistiques du groupe UTAC/CERAM. L’OTC a donc choisi de<br />
partir sur une configuration minimale (un serveur de 16 cœurs avec 100 Go de données lues sur disque et 50 Go<br />
de données en mémoire) pour tester l’exploration de données et les possibilités de l’outil en matière d’édition de<br />
rapports. Une base de données de 42 Go contenant tous les contrôles effectués depuis 2008 (soit 43 colonnes et<br />
148 millions de lignes), a ainsi été chargée « in memory ».<br />
La mise en place de SAS Visual Analytics s’est réalisée en quatre jours : deux jours pour l’installation du produit,<br />
puis deux jours de formation et de prise en main pour les quatre statisticiens chargés d’explorer l’outil. Travailler<br />
en amont avec les consultants SAS pour assurer le transfert de compétences constituait pour Thierry Ageron un<br />
investissement humain essentiel : « on imagine souvent qu’on peut en faire l’économie, on se dit que ‘ça va passer’...<br />
mais prendre le temps au départ n’est pas un luxe inutile : c’est un vrai facteur de succès ! ».<br />
ANALYSE EXPLORATOIRE : TRAVAILLER PLUS VITE SUR DE MEILLEURES DONNÉES<br />
La première étude menée avec « VA » a concerné les temps de contrôle. Avec d’emblée, un atout important : la<br />
détection très facile des données atypiques (des contrôles inférieurs à 5 minutes, par exemple... voire des durées<br />
négatives en cas de mauvaise saisie des données), et la possibilité de les éliminer in-memory pour travailler plus<br />
vite sur une base statistiquement plus fiable. « Nous n’avions pas cette souplesse auparavant ! » note Thierry<br />
Ageron, qui rappelle qu’outre les études statistiques, les cas les plus étonnants peuvent être transmis aux services<br />
dépendant du ministère des transports, qui peuvent ainsi « contrôler les contrôleurs ».<br />
Des premières analyses ont ainsi été réalisées pour comparer les durées moyennes selon les réseaux, l’installation<br />
de contrôle, le jour de la semaine - ou selon les mois de l’année, avec des changements qui apparaissent clairement<br />
lors des deux mois d’été... Le bilan ? « SAS Visual Analytics permet de bien voir les tendances générales,<br />
avec la possibilité de zoomer sur une situation qui semble atypique, et de retourner en un clic à la donnée de base<br />
pour l’examiner. Ce qui nous prenait beaucoup de temps avant se fait ici très facilement ». Un mode d’exploration<br />
idéal pour échanger sur nos hypothèses lorsque l’on explore les données à plusieurs.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
95
Retours d’expériences Big Data en entreprise<br />
RAPPORTS : FACILITÉ D’EXPORT ET DIFFUSION MOBILE<br />
L’échange, c’est ce que permet aussi Visual Analytics avec l’édition de rapports dynamiques, qui peuvent être<br />
diffusés sur tablette auprès des « clients » de l’OTC : ministère des transports et directions régionales, réseaux<br />
d’opérateurs, gendarmerie, douanes... Thierry Ageron salue la facilité d’export, reste à voir si la diffusion mobile<br />
entrera dans la culture de ses interlocuteurs. Jusqu’ici, son équipe en est restée à des premiers tests – pour<br />
comparer deux centres sur un mois donné, par exemple. « Nous avons déjà plusieurs centaines de rapports sous<br />
format pdf, explique-t-il. Certains donnent pleine satisfaction à nos clients, il nous faut encore réfléchir avant de<br />
passer au tout-VA. »<br />
Le moment est venu en effet pour l’organisme d’étudier l’opportunité d’intégrer plus avant Visual Analytics dans<br />
les processus de production et de restitution des informations. Restera-t-il un outil parmi d’autres dans l’arsenal<br />
de l’OTC, ou peut-il à terme remplacer le portail décisionnel actuel ? Une décision à la fois technique, financière<br />
et culturelle, qui tiendra aussi compte de l’apparition récente du « petit frère » de VA, SAS® Visual Statistics...<br />
DES PERSPECTIVES MULTIPLES<br />
En attendant, une autre utilisation de la data visualisation est déjà envisagée, pour étudier les retards de présentation<br />
des véhicules au contrôle technique. « Pendant longtemps, nous n’avons pu réaliser ces analyses que sur des<br />
échantillons, et travailler sur la base en frontal était gênant. Aujourd’hui, nous pouvons travailler sur l’exhaustivité<br />
des données grâce à un ODS dédié. Reste à tester l’analyse avec SAS Visual Analytics, pour voir ce que pourra<br />
apporter la souplesse de l’outil. »<br />
Parmi les perspectives se profile aussi l’intégration de données non structurées – en reliant par exemple les informations<br />
du contrôle technique avec des données d’accidentologie venues de l’extérieur. Mais la route est encore<br />
longue !<br />
ENJEUX<br />
- Optimiser l’accès à la donnée<br />
- Améliorer la recherche de données atypiques<br />
- Produire des statistiques pertinentes et les mettre rapidement à disposition des clients<br />
SOLUTIONS<br />
- SAS® Visual Analytics<br />
« SAS Visual Analytics permet de bien voir les tendances générales, avec la possibilité de retourner en un clic à<br />
la donnée de base pour l›examiner »<br />
Thierry Ageron, responsable Etudes & Productions Statistiques du groupe UTAC/CERAM<br />
SAS - BANK OF AMERICA<br />
BANK OF AMERICA AVOIDS GRIDLOCK IN CREDIT<br />
RISK SCORING, FORECASTING<br />
Modeling portfolio credit risk is a fundamental function in banking today. Loan products, such as lines of credit,<br />
mortgages and credit cards, entail a high degree of risk for banks, and on a large scale, especially in turbulent<br />
economic periods -- defaults produce difficult situations and huge implications for both the lender and the borrower.<br />
Banks regularly employ credit-risk management processes to monitor and assess credit portfolios, to make certain<br />
estimates, and to understand their risk position and value of assets at any given time. In today’s complex and everchanging<br />
financial system, powerful, rigorous and accurate credit-risk management processes and technology<br />
play a critical role in mitigating a lending institution’s exposure.<br />
“ Without SAS, processing times would be longer, hedging decisions would be delayed and, ultimately, the bank<br />
would be behind the market.”<br />
Russell Condrich, Senior Vice President, Corporate Investment Group<br />
With approximately 59 million consumer and small business relationships, 6,000 retail banking offices and more<br />
than 18,000 ATMs, Bank of America is among the world’s leading wealth management companies and is a global<br />
leader in corporate and investment banking and trading across a broad range of asset classes.<br />
The Corporate Investments Group (CIG) manages Bank of America’s available-for-sale portfolio and is responsible<br />
for modeling and calculating the probability of default (PD) on the 9.5 million mortgages it services. In addition,<br />
the group calculates the market value, prepayment speeds and sensitivity to changes in interest rates and hedges<br />
these risks for the $19 billion mortgage-service-rights asset. Recently, CIG began assisting with the task of forecasting<br />
loan losses for the bank’s credit card portfolio.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
96
Retours d’expériences Big Data en entreprise<br />
THE NEED FOR SPEED<br />
CIG had been using analytics from SAS for credit-risk modeling for many years, but with the addition of the creditcard<br />
loss forecasting responsibility, it was forced to reassess its use of an internal shared-services environment<br />
to run its modeling and calculation processes. Doing so would help reduce processing time, increase access and<br />
availability of resources for ad hoc analysis, while ensuring business continuity for this mission-critical function of<br />
the bank’s business.<br />
“We needed a solution that addressed today’s business problems, as well as a solution with the flexibility for any<br />
future business requirements,” says Russell Condrich, Senior Vice President, Corporate Investment Group. “Processing<br />
large, multi-terabyte datasets in a quick, efficient manner was a key requirement for us and SAS performed<br />
flawlessly. Without SAS, processing times would be longer, hedging decisions would be delayed and, ultimately,<br />
the bank would be behind the market.”<br />
SAS AND IBM SHOW RESULTS<br />
To meet its performance requirements, the group moved its processing to a dedicated platform comprised of SAS®<br />
Enterprise Risk Management on SAS® Grid Computing, SAS® Scalable Performance Data Server on a 224 core<br />
IBM BladeCenter® grid and the IBM’s XIV® Storage System. The initiative has already produced considerable<br />
results, such as reducing the bank’s probability of default calculation time from 96 hours to just four. Processing<br />
time for ad hoc jobs has been reduced by 90 percent and, according to the CIG, they are processing at three times<br />
the speed of the previous environment.<br />
The platform pulls data from eight systems of record (SOR), amounting to hundreds of millions of records, or 30<br />
terabytes of source data, and allows the SAS environment to consume 3.9 gigabytes of I/O throughput per second<br />
from IBM’s XIV storage environment. Approximately 30 users now have unfettered access to the environment, as<br />
opposed to the shared services environment of the past, in which user time was competitive and response times<br />
varied dramatically due to the high number of jobs being executed.<br />
‘UNPARALLELED’ PERFORMANCE<br />
“We now have an environment that provides users with a robust platform on which to schedule and prioritize jobs,<br />
based on duration or computational requirements, so that ad hoc usage is not competing with scheduled work,”<br />
says Stephen Lange, Managing Director, Corporate Investments Group. “This advanced grid platform is giving us<br />
unparalleled performance. SAS is indispensable for its unique way of handling large data sets.”<br />
As an example, Lange adds, “we have to score a particular portfolio of 400,000 loans with our suite of models,<br />
using multiple scenarios, and we need to run it over the 360 months of the mortgages’ life. That process used to<br />
take three hours, now it takes 10 minutes because of the parallelization capabilities of the grid. The ability to go<br />
from three hours to 10 minutes on a job demonstrates a tremendous increase in our ability to deliver information<br />
and make decisions.”<br />
“The bank has a strong desire to enable loss forecasting as accurately and quickly as possible, right up to the<br />
senior executive layers of the organization,” says Lange. “The only way we can do that is to have sufficient IT<br />
resources to score loans and appropriately assess risks. The partnership between SAS, IBM and our internal technology<br />
group has provided a platform for us to demonstrate risk management leadership.”<br />
CHALLENGE<br />
• Reduce processing time for credit-risk modeling, scoring and loss forecasting.<br />
• Increase ad hoc analysis time while ensuring business continuity and guaranteed “up-time” for these missioncritical<br />
functions.<br />
SOLUTION<br />
• SAS® Enterprise Risk Management<br />
• SAS® Grid Manager<br />
• SAS® Scalable Performance Data Server®<br />
BENEFITS<br />
• Reduced probability of loan default calculation time from 96 hours to just four.<br />
• Yields timely decisions around defaults.<br />
• Reduced its scoring routine of 400,000 loans from three hours to 10 minutes.<br />
• Helps minimize losses and can handle new growth opportunities for bank’s loan portfolio.<br />
• Reduced processing time by 90%.<br />
The results illustrated in this article are specific to the particular situations, business models, data input, and<br />
computing environments described herein. Each SAS customer’s experience is unique based on business and<br />
technical variables and all statements must be considered non-typical. Actual savings, results, and performance<br />
characteristics will vary depending on individual customer configurations and conditions. SAS does not guarantee<br />
or represent that every customer will achieve similar results. The only warranties for SAS products and services are<br />
those that are set forth in the express warranty statements in the written agreement for such products and services.<br />
Nothing herein should be construed as constituting an additional warranty. Customers have shared their successes<br />
with SAS as part of an agreed-upon contractual exchange or project success summarization following a successful<br />
implementation of SAS software. Brand and product names are trademarks of their respective companies.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
97
Retours d’expériences Big Data en entreprise<br />
SAS - FRAPORT<br />
PLOT A COURSE TO REDUCE COSTS<br />
FRAPORT USES SAS® VISUAL ANALYTICS TO MAKE REAL-TIME OPERATIONAL DECISIONS<br />
Frankfurt Airport in Germany flies more than 57 million passengers and 2 million metric tons of freight to 113<br />
countries each year – making it Europe’s third-busiest airport, behind only London Heathrow and Paris-Charles de<br />
Gaulle. It’s up to transport company Fraport AG to make sure that airport operations can handle so much traffic.<br />
“ In addition to the extra speed, we’re also looking forward to new opportunities for data exploration and visualization<br />
with SAS Visual Analytics.”<br />
Dieter Steinmann, Manager of Information and Communication Services for Business Systems<br />
Using SAS® High-Performance Analytics and SAS Visual Analytics, Fraport is reducing the cost of operations and<br />
boosting the performance of decision-support processes.<br />
“We need to analyze massive quantities of data in real time,” explains Dieter Steinmann, Fraport’s Senior Manager<br />
of Information and Communication Services. “High-performance analytics is the perfect solution for us. In addition<br />
to the extra speed, we’re also looking forward to new opportunities for data exploration and visualization with SAS<br />
Visual Analytics.”<br />
Migrating from the tried and tested SAS Business Analytics platform to SAS High-Performance Analytics, Fraport<br />
sets a course toward the most advanced approach to data analysis. Fraport also opted for SAS Visual Analytics,<br />
which allows users to analyze data quickly and intuitively using a graphical interface.<br />
Fraport implemented SAS Visual Analytics on a Pivotal DCA (formerly EMC Greenplum DCA), which was optimized<br />
with SAS for big data analytics.<br />
“With its decision in favor of big data analytics, Fraport AG is creating a huge competitive advantage for itself. We<br />
are very pleased that, together with SAS, we can provide the technology basis for this,” declares Sabine Bendiek,<br />
CEO of EMC Germany.<br />
CHALLENGE<br />
Fraport required a solution to reduce operation costs and improve analysis of big data.<br />
SOLUTION<br />
• SAS® High-Performance Analytics<br />
• SAS® Visual Analytics<br />
BENEFITS<br />
The airport saves both time and costs by analyzing data efficiently.<br />
The results illustrated in this article are specific to the particular situations, business models, data input, and<br />
computing environments described herein. Each SAS customer’s experience is unique based on business and<br />
technical variables and all statements must be considered non-typical. Actual savings, results, and performance<br />
characteristics will vary depending on individual customer configurations and conditions. SAS does not guarantee<br />
or represent that every customer will achieve similar results. The only warranties for SAS products and services are<br />
those that are set forth in the express warranty statements in the written agreement for such products and services.<br />
Nothing herein should be construed as constituting an additional warranty. Customers have shared their successes<br />
with SAS as part of an agreed-upon contractual exchange or project success summarization following a successful<br />
implementation of SAS software. Brand and product names are trademarks of their respective companies.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
98
Retours d’expériences Big Data en entreprise<br />
SAS - MACY’S<br />
DO YOU KNOW WHAT’S ‘IN STORE’ FOR YOUR CUSTOMERS?<br />
MACY’S ENHANCES ITS CUSTOMERS’ ONLINE SHOPPING EXPERIENCE, INCREASES<br />
OVERALL PROFITABILITY<br />
After more than 80 years in business, Macy’s Inc. is one of America’s most iconic retailers. With annual revenues<br />
exceeding $20 billion, Macy’s enjoys a loyal base of customers who come to its stores and shop online each<br />
day. To continue its legacy of providing stellar customer service and the right selection of products, the retailer’s<br />
e-commerce division – Macys.com – is using analytical software from SAS to better understand and enhance its<br />
customers’ online shopping experience, while helping to increase the retailer’s overall profitability.<br />
To more effectively measure and understand the impact of its online marketing initiatives on Macy’s store sales,<br />
Macys.com increased its analytical capabilities with SAS® Enterprise Miner, resulting in an e-mail subscription<br />
churn reduction of 20 percent. It also uses SAS to automate report generation, saving more than $500,000 a year<br />
in comp analyst time.<br />
“... they can look at data and spend more time analyzing it and become internal consultants who provide more of<br />
the insight behind the data.”`<br />
Kerem Tomak, Vice President of Analytics<br />
ENDING “ONE SIZE FITS ALL” EMAIL MARKETING<br />
“We want to understand customer lifetime value,” explains Kerem Tomak, Vice President of Analytics for Macys.<br />
com. “We want to understand how long our customers have been with us, how often an email from us triggers a<br />
visit to our site. This helps us better understand who our best customers are and how engaged they are with us.<br />
(With that knowledge) we can give our valuable customers the right promotions in order to serve them the best<br />
way possible.<br />
“Customers share a lot of information with us – their likes and dislikes – and our task is to support them in return<br />
for their loyalty by providing them with what they want, instantly,’’ adds Tomak. Macys.com uses Hadoop as a data<br />
platform for SAS Enterprise Miner.<br />
Initially, Tomak was worried that segmenting customers and sending fewer, but more specific emails would reduce<br />
traffic to the website. “The general belief was that we had to blast everyone,’’ Tomak said. Today, emails are sent less<br />
frequently, but with more thought, and the retailer has reduced subscription churn rate by approximately 20 percent.<br />
TIME SAVINGS, LOWER COSTS<br />
Tomak’s group is responsible for creating a variety of mission critical reports – some daily, some weekly, others<br />
monthly – that go to employees in marketing and finance. These data-rich reports were taking analysts four to<br />
twelve hours to produce – much of it busy work that involved cutting and pasting from Excel spreadsheets. Macys.<br />
com is now using SAS to automate the reports. “This cuts the time dramatically. It saves us more than $500,000<br />
a year in terms of comp FTE hours saved – a really big impact,’’ Tomak says, noting that the savings began within<br />
about three months of installing SAS.<br />
Now his staff can maximize time spent on providing value-added analyses and insights to provide content, products<br />
and offers that guarantee a personalized shopping experience for Macys.com customers.<br />
“Macy’s is a very information-hungry organization, and requests for ad hoc reports come from all over the company.<br />
These streamlined systems eliminate error, guarantee accuracy and increase the speed with which we can address<br />
requests,’’ Tomak says. “Each time we use the software, we find new ways of doing things, and we are more<br />
and more impressed by the speed at which it churns out data and models.”<br />
MOVING FORWARD<br />
“With the extra time, the team has moved from being reactionary to proactive, meaning they can examine more<br />
data, spend quality time analyzing and become internal consultants who provide more insight behind the data,” he<br />
says. “This will be important to supporting the strategy and driving the next generation of Macy’s.com.”<br />
As competition increases in the online retailing world, Tomak says there is a push toward generating more accurate,<br />
real-time decisions about customer preferences. The ability to gain customer insight across channels is a critical<br />
part of improving customer satisfaction and revenues, and Macys.com uses SAS Enterprise Miner to validate<br />
and guide the site’s cross- and up-sell offer algorithms.<br />
Tomak is also training staff on SAS/OR®, business process optimization software, to further optimize the promotions<br />
that the company sends to clients. “We want to maximize the efficiency in sending these promotions to the<br />
right customer at the right time.’’<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
99
Retours d’expériences Big Data en entreprise<br />
CHALLENGE<br />
Macys.com needed enhanced customer insight, online and across channels, to effectively measure and understand<br />
the impact of its online marketing initiatives on Macy’s store sales.<br />
SOLUTION<br />
• SAS® Enterprise Guide®<br />
• SAS® Enterprise Miner<br />
• SAS/OR® Software<br />
BENEFITS<br />
Increased customer insights; cross-sell and up-sell effectiveness; productivity, revenue and customer satisfaction,<br />
an approx.20 percent reduction in churn rate and more than $500,000 savings in productivity annually in terms of<br />
FTE time saved.<br />
SAS® and Cloudera for big data<br />
“We chose Cloudera’s Platform for Big Data for its unparalleled Hadoop management and SAS Analytics<br />
for deep insight into our data. These combined technologies make our customer interactions<br />
more aligned to their preferences, which leads to improved satisfaction. Ultimately, working<br />
with these two industry leaders allows my team and me to have more time to focus on more strategic<br />
initiatives through automated processes instead of manually collating reports for our business stakeholders.”<br />
Kerem Tomak, Vice President of Analytics, Macys.com<br />
The results illustrated in this article are specific to the particular situations, business models, data input, and<br />
computing environments described herein. Each SAS customer’s experience is unique based on business and<br />
technical variables and all statements must be considered non-typical. Actual savings, results, and performance<br />
characteristics will vary depending on individual customer configurations and conditions. SAS does not guarantee<br />
or represent that every customer will achieve similar results. The only warranties for SAS products and services are<br />
those that are set forth in the express warranty statements in the written agreement for such products and services.<br />
Nothing herein should be construed as constituting an additional warranty. Customers have shared their successes<br />
with SAS as part of an agreed-upon contractual exchange or project success summarization following a successful<br />
implementation of SAS software. Brand and product names are trademarks of their respective companies.<br />
SAS - NESTLÉ<br />
HOW TO KEEP FRESH PRODUCTS ON THE SHELVES<br />
ACCURATE FORECASTING OPTIMIZES CUSTOMER SERVICE, MINIMIZES INVENTORY<br />
OVERSTOCKS AND LAYS THE GROUNDWORK FOR EFFECTIVE MARKETING AT NESTLÉ<br />
A billion units roll off Nestlé production lines every single day. This number illustrates the sheer quantity of goods<br />
produced by the world’s biggest food company. To deliver on its promise of “Good Food, Good Life,” Nestlé has<br />
brought to market a whopping 10,000 products aimed at improving consumers’ lives with better and healthier foods<br />
and beverages.<br />
To ensure the right amounts of those products make it to the shelves and into customers’ hands, Nestlé relies on<br />
forecasting. After all, even the best marketing promotions can backfire if the shelves are empty when the customers<br />
show up for their favorite foods.<br />
It comes as no surprise that Nestlé’s interest in closely managing the supply chain and keeping inventories within<br />
tight limits is proportionate with the size of its operations. Its sheer size makes planning on a global scale highly<br />
complex. Product categories, sales regions and an abundance of participating departments combine to weave a<br />
tangled web.<br />
It’s also the nature of the food and beverage industry that makes operational planning a challenge. Seasonal influences,<br />
being dependent on the weather to provide a good harvest, swings in demand, other retail trends and the<br />
perishable nature of many products make it difficult to plan production and organize logistics.<br />
“ We’re now able to drill down through customer hierarchies and do things such as integrate the impact of promotions<br />
and special offers into the statistical models.”<br />
Marcel Baumgartner, Head of Global Demand Planning Performance and Statistical Forecasting<br />
TIED DOWN BY CONFLICTING KPIS<br />
“Supply chain management is a well-established, recognized stream and process at Nestlé,” explains Marcel<br />
Baumgartner, who leads global demand planning performance and statistical forecasting at Nestlé’s corporate<br />
headquarters. “Our professionals take care of transportation networks, run efficient warehouses and are the first<br />
point of contact with customers. One area of focus is planning – or, more precisely, demand and supply planning.<br />
According to Baumgartner, this process tackles two important metrics: customer service levels and inventory levels.<br />
One can improve customer service levels – defined as the percentage of complete and on-time deliveries – by<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
100
Retours d’expériences Big Data en entreprise<br />
expanding inventories. But that ties up capital, and it’s often difficult to find storage space. The freshness of the<br />
product suffers as well.<br />
In this industry, products are processed in very large batches to keep unit prices low, ensure quality and take<br />
advantage of raw ingredient availability. This make-to-stock production strategy contrasts with the make-to-order<br />
principle frequently seen in other sectors such as the automobile industry. “To have the right quantity of the right<br />
products at the right place and time, we rely heavily on being able to predict the orders our customers will place as<br />
precisely as possible,” says Baumgartner.<br />
Other business metrics, such as budgets and sales targets, are also important factors. The overarching goal, according<br />
to Baumgartner, is to be able to “take proactive measures instead of simply reacting.” To accomplish this,<br />
Nestlé focuses on strong alignment processes, stronger collaboration with customers and the use of the proper<br />
forecasting methodology.<br />
STATISTICS VS. INSTINCTS<br />
There are two main options for generating forecasts. The subjective method is mainly dependent upon on the<br />
estimation and appraisal of planners based on the experience they draw upon. The statistical method approaches<br />
the forecasting problem with data.<br />
Before using SAS, Nestlé was primarily using SAP APO’s underlying forecasting techniques, together with models<br />
from the open-source statistical software R, integrated into APO. Those forecasts were then revised by the Nestlé<br />
demand planners. SAS enhances this, and thus complements SAP APO perfectly.<br />
Statistical forecasting tends to be more reliable if sufficient historical data is available. “But one thing has become<br />
clear to us — you can’t predict the future with statistics by simply looking at the past. It doesn’t matter how complex<br />
your models are.”<br />
So it’s not the statistical methodology that’s the problem for Baumgartner and his team. The critical factor in this<br />
complex environment is being able to assess the reliability of forecasts. Two elements have attracted the most attention<br />
within this context: dealing with volatility, and SAS.<br />
“Predictability of demand for a certain product is highly dependent on that product’s demand volatility,” says Baumgartner.<br />
“Especially for products that display wide fluctuations in demand, the choice and combination of methods<br />
is very important. SAS Forecast Server simplifies this task tremendously.<br />
Of particular importance for demand planning are the so-called “mad bulls,” a term Nestlé uses to characterize<br />
highly volatile products with high volume. A mad bull can be a product like Nescafé, which normally sells quite<br />
regularly throughout the year, but whose volumes are pushed through trade promotions. A simple statistical calculation<br />
is no more useful in generating a demand forecast than the experience of a demand planner for these less<br />
predictable items. The only way out is to explain the volatility in the past by annotating the history. Baumgartner and<br />
his team rely on the forecast value added (FVA) methodology as their indicator . The FVA describes the degree to<br />
which a step in the forecasting process reduces or increases the forecast error.<br />
MORE KNOWLEDGE, LESS GUESSING<br />
According to Baumgartner, SAS® Forecast Server is the ideal tool for this scenario. The solution’s scalability allows<br />
a handful of specialists to cover large geographical regions. And selecting the appropriate statistical models is<br />
largely automated, which is seen as one of the strongest features of SAS Forecast Server. “At the same time, we’re<br />
now able to drill down through customer hierarchies and do things such as integrate the impact of promotions and<br />
special offers into the statistical models.”<br />
The results paint a clear picture. In a comparison between the conventional forecasting method and SAS Forecast<br />
Server procedures – for the most part using default settings – the results showed that Nestlé often matches and<br />
improves its current performance for the predictable part of the portfolio and thus frees up valuable time for demand<br />
planners to focus on mad bulls.<br />
Last but not least, Nestlé emphasizes that even a system as sophisticated as SAS Forecast Server cannot replace<br />
professional demand planners. “Particularly for mad bulls, being connected in the business, with high credibility,<br />
experience and knowledge is key.” With more time available to tackle the complicated products, planners are able<br />
to make more successful production decisions. And that means really having enough Nestlé ice cream at the<br />
beach when those hot summer days finally arrive. .<br />
CHALLENGE<br />
Ensure the right amounts of products make it to the shelves and into customers’ hands. Manage supply chain, plan<br />
operations and organize logistics on a global scale based on a variety of influences and factors.<br />
SOLUTION<br />
SAS® Demand-Driven Planning and Optimization<br />
BENEFITS<br />
Reliable forecast methods free up time to focus on demand planning for highly volatile products. More successful<br />
production decisions ensure products are available when customers want them.<br />
About<br />
Nestlé<br />
Nestlé is the world’s biggest food company. More than 330,000 employees work at 469 locations in 86 countries to<br />
generate annual revenues of more than 90 billion Swiss francs. These sales figures make Nestlé the global market<br />
leader by a large margin.<br />
The results illustrated in this article are specific to the particular situations, business models, data input, and<br />
computing environments described herein. Each SAS customer’s experience is unique based on business and<br />
technical variables and all statements must be considered non-typical. Actual savings, results, and performance<br />
characteristics will vary depending on individual customer configurations and conditions. SAS does not guarantee<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
101
Retours d’expériences Big Data en entreprise<br />
or represent that every customer will achieve similar results. The only warranties for SAS products and services are<br />
those that are set forth in the express warranty statements in the written agreement for such products and services.<br />
Nothing herein should be construed as constituting an additional warranty. Customers have shared their successes<br />
with SAS as part of an agreed-upon contractual exchange or project success summarization following a successful<br />
implementation of SAS software. Brand and product names are trademarks of their respective companies.<br />
SAS - RABOBANK<br />
HOW DOES YOUR DATA FIT TOGETHER?<br />
As Manager Concern Controller at Rabobank, John Lambrechts was assigned to implement chain management to<br />
improve the bank’s ability to quickly gain insights from information coming from its chains or groups and improve<br />
decision making. The Rabobank Group, a leading global financial services provider serving more than 10 million<br />
customers and headquartered in The Netherlands, wanted to optimize its operations by improving the financial and<br />
collaborative alignment across its chains.<br />
“ We are much more flexible in our ability to provide information and direct our chain managers more effectively.<br />
Our people have become more engaged because they can quickly see the results of what they do. ”<br />
John Lambrechts, Manager Concern Control<br />
Lambrechts explains, “The first step we took to properly set this up, was to look at the data available and to determine<br />
how this could be viewed. We discovered that there was an enormous amount of data available from all<br />
groups of the bank’s organizational chain such as departments, business units and local branches. We needed one<br />
system to integrate and structure all the information efficiently and provide the ability to share results.”<br />
NEW INSIGHTS<br />
Lambrechts found data visualization to be the perfect match.<br />
“Data visualization lets us analyze large amounts of data. The diverse visual options lead us to ask new questions<br />
that we had not asked before,” said Lambrechts. “We are much more flexible in our ability to provide information<br />
and direct our chain managers more effectively. Our people have become more engaged because they can quickly<br />
see the results of what they do.”<br />
Rabobank developed new cost and chain models with partner Finext and implemented SAS Visual Analytics. “The<br />
bank also created a new data scientist job function for banking chain specialists. These specialists can probe the<br />
data more extensively, evaluate cost backgrounds, and establish relationships and causes.”<br />
Because of the resulting transparency, Rabobank can see exactly who does what within the chain and which areas<br />
must be tightened to optimize the profit of the chain. And although the solution is scalable to the number of users,<br />
the banking group is using it in a strictly controlled environment to standardize how information is provided to chain<br />
managers and organizational leaders.<br />
POSITIVE OUTCOMES<br />
“I am extremely proud of what we have achieved so far. We have seen an increase in our managers’ use of chain<br />
information,” says Lambrechts.<br />
“Another important outcome has been the removal of boundaries between the chains and the motivation to develop<br />
new thought processes. In the past, for example, departments would look within to find cost savings. But this type of<br />
siloed action was sub-optimal and not always in the organization’s best interests. With the knowledge and access to<br />
all chain information, we are able to let go of old business models and replace them with more dynamic ones.”<br />
CHALLENGE<br />
Improving how information is retrieved and shared from all groups within Rabobank’s organizational chains to<br />
optimize operations and make faster decisions.<br />
SOLUTION<br />
SAS® Visual Analytics<br />
BENEFITS<br />
• A centralized view of information about the bank’s organizational chains for improved financial and collaborative<br />
alignment.<br />
• A dynamic organization where the boundaries between departments and business components are removed and<br />
chain information is embraced by decision makers.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
102
Retours d’expériences Big Data en entreprise<br />
The results illustrated in this article are specific to the particular situations, business models, data input, and<br />
computing environments described herein. Each SAS customer’s experience is unique based on business and<br />
technical variables and all statements must be considered non-typical. Actual savings, results, and performance<br />
characteristics will vary depending on individual customer configurations and conditions. SAS does not guarantee<br />
or represent that every customer will achieve similar results. The only warranties for SAS products and services are<br />
those that are set forth in the express warranty statements in the written agreement for such products and services.<br />
Nothing herein should be construed as constituting an additional warranty. Customers have shared their successes<br />
with SAS as part of an agreed-upon contractual exchange or project success summarization following a successful<br />
implementation of SAS software. Brand and product names are trademarks of their respective companies.<br />
SAS - TELECOM ITALIA<br />
VISUALIZING DATA MAKES HEARING IT MUCH EASIER<br />
To operate in the crowded telecommunications industry, service providers must answer the call for speed and availability<br />
millions of times each day. To prosper, they have to pick up the phone before it ever rings.<br />
As Italy’s largest telecommunications provider, and with a notable presence in Latin America, Telecom Italia always<br />
looks for ways to improve customer experience. That means delivering the reliable service that subscribers expect<br />
today – and knowing which offers they will expect tomorrow.<br />
“ We’re very impressed in terms of the usability and flexibility – and time to market, too – of SAS Visual Analytics. ”<br />
Fabrizio Bellezza, Vice President of National Wholesale Services and Head of Market Development<br />
LISTEN TO THE DATA<br />
As part of a program to improve customer experience for its 32 million mobile subscribers, the company had to<br />
extend and reinforce its ability to monitor network service. To make sense of the enormous amount of unique and<br />
varied data at its disposal, Telecom Italia turned to SAS for a way to make wise decisions quickly based on up-tothe-minute<br />
trends.<br />
“We need to be able to respond quickly with new and improved offerings to our customers, and to analyze the<br />
impact of these offers for the foreseeable future,” says Fabrizio Bellezza, Vice President of National Wholesale<br />
Services and Head of Market Development at Telecom Italia. “Analysis that is valuable and makes sense today<br />
may be irrelevant tomorrow. And we need to see well beyond tomorrow.”<br />
To understand how it stacks up to the competition, Telecom Italia needed to define and analyze key performance<br />
indicators for mobile network voice and data traffic. In a fast-changing market filled with devices and applications<br />
running on different generations of technology, what’s relevant today might not be tomorrow. And beating the competition<br />
means always knowing the right offer for each customer at the right time.<br />
THE SOLUTION<br />
With SAS® Visual Analytics, business executives at Telecom Italia can compare the performance between all<br />
operators for a key indicator – such as accessibility or percentage of dropped calls – on a single screen for a quick<br />
overview of pertinent strengths and weaknesses.<br />
Using SAS, Telecom Italia adds in-memory analytics and advanced data visualization to the provider’s geomarketing<br />
system, simplifying the decision-support and operational processes that go into technical and commercial<br />
planning. “SAS Visual Analytics supports us in identifying network shortcomings and making fast improvements,”<br />
Bellezza says. “It also allows us to calculate the statistical correlations between various KPIs for more effective<br />
further analysis.<br />
“SAS Visual Analytics has allowed us to identify profitable areas that we can strengthen in terms of infrastructure<br />
and services to be marketed.”<br />
IN-DEPTH ANALYSIS OF KPIS<br />
A company whose leadership has always understood the role of sophisticated analytics in monitoring network traffic<br />
and performance, in addition to spotting trends, Telecom Italia has used SAS since the 1990s.<br />
SAS Visual Analytics allows Telecom Italia to analyze a range of KPIs at different levels of aggregation for both<br />
voice and data traffic. These can be viewed on a single screen and can include:<br />
• Accessibility<br />
• Drop rate<br />
• Call setup time<br />
• Data throughput<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
103
Retours d’expériences Big Data en entreprise<br />
“This gives us a rapid overview of areas of competitive strengths and weaknesses,” Bellezza says.<br />
SAS Visual Analytics allows Telecom Italia to analyze coverage of specific areas and identify possible scenarios as<br />
“make” or “buy,” prioritized by cost and benefit.<br />
It helps analyze customer behavior and create a predictive model, forecast services and evaluate the profitability<br />
of a development area after an investment.<br />
A USER-FRIENDLY FORMAT<br />
“When initially analyzing data, it’s impossible to predict the questions users may ask – and often even the users<br />
themselves are unaware of them,” Bellezza says. “SAS Visual Analytics helps us gain insights by simplifying the<br />
transformation of data and enabling us to put it into a user-friendly format.”<br />
As a result, decision makers get a more comprehensive understanding of what’s happening in the market, he adds.<br />
“We’re very impressed in terms of the usability and flexibility – and time to market, too – of SAS Visual Analytics,”<br />
Bellezza affirms.<br />
CHALLENGE<br />
Telecom Italia required a flexible, user-friendly solution for visualizing large amounts of data.<br />
SOLUTION<br />
SAS® Visual Analytics<br />
BENEFITS<br />
SAS Visual Analytics allowed the company to display data in a user-friendly format.<br />
The results illustrated in this article are specific to the particular situations, business models, data input, and<br />
computing environments described herein. Each SAS customer’s experience is unique based on business and<br />
technical variables and all statements must be considered non-typical. Actual savings, results, and performance<br />
characteristics will vary depending on individual customer configurations and conditions. SAS does not guarantee<br />
or represent that every customer will achieve similar results. The only warranties for SAS products and services are<br />
those that are set forth in the express warranty statements in the written agreement for such products and services.<br />
Nothing herein should be construed as constituting an additional warranty. Customers have shared their successes<br />
with SAS as part of an agreed-upon contractual exchange or project success summarization following a successful<br />
implementation of SAS software. Brand and product names are trademarks of their respective companies.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
104
Retours d’expériences Big Data en entreprise<br />
SENTELIS - ASSURANCE MUTUELLE<br />
CADRAGE DU SI DIGITAL GROUPE VERS L’ARCHITECTURE 3.0<br />
CLIENT : Grand groupe d’assurance mutuelle et paritaire de protection sociale - N°1 en retraite complémentaire<br />
Porteur du Projet : Damien LEPRETRE<br />
CONTEXTE<br />
Transformations importantes au sein de l’entreprise : • Rapprochement avec une autre structure<br />
• Avènement du « monde digital » Ces deux grands défis induisent des effets structurels sur les SI et sur le fonctionnement<br />
de la DSI, auxquels l’entreprise doit se préparer pour : • Faciliter la convergence vers le futur SI commun<br />
du groupe (‘best in class’, rationalisation, industrialisation et effets d’échelle,…) • Anticiper et accélérer la «<br />
digitalisation » du groupe – offres et services, relation client, culture et capacités test & learn, mode Lab, maîtrise<br />
du capital informationnel interne et externe, agilité / time to market, small apps,…<br />
OBJECTIFS DE LA MISSION SENTELIS<br />
L’objectif de la mission a été de construire une vision CONVERGEE CIO/CDO de la Stratégie SI Digitale et de<br />
l’organisation cible DSI/CDO/Métiers pour une approche conjointe auprès du COMEX<br />
MÉTHODE :<br />
La mission a été menée en 4 étapes : • Prise de connaissance afin de s’approprier le contexte SI • Identifier le<br />
niveau des réflexions digitales et le traduire en « capacités digitales » • Partager, au sein de la DSI, une vision du<br />
SI Digital et de ses impacts sur le fonctionnement de la DSI • Confronter et faire converger les visions : CIO / SI<br />
Digital - CDO / Stratégie Digitale de l’Entreprise<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
105
Retours d’expériences Big Data en entreprise<br />
SENTELIS - CRÉDIT À LA CONSOMMATION<br />
CONSTRUCTION DE L’ARCHITECTURE DIGITALE DE RÉFÉRENCE<br />
(FRANCE, INTERNATIONAL & CORPORATE)<br />
CLIENT : Grand acteur international du crédit à la consommation<br />
Porteur du Projet : Jérôme BESSON<br />
CONTEXTE<br />
Nouvelle stratégie d’entreprise basée sur 3 piliers :<br />
• Transformation digitale<br />
• Simplification et industrialisation des process<br />
• Augmentation des marges<br />
OBJECTIFS DE LA MISSION SENTELIS<br />
L’objectif de la mission a été de définir la nouvelle architecture de référence SI commune à l’ensemble des filiales<br />
du Groupe pour répondre à la disruption digitale et l’accélération de la transformation de l’entreprise vers le tout<br />
numérique :<br />
• Fédération des exigences des différentes entités du groupe : omnicanalité de l’expérience utilisateur, dématérialisation<br />
étendue des processus métiers, contextualisation et personnalisation à la volée de la proposition de valeur<br />
client et prescripteur et de l’expérience vécue (interaction, processus & informations), cross-selling/up-selling,<br />
évolution réglementaire…<br />
• Définition de la cible d’architecture, des principes directeurs en respect des cadres d’architecture d’entreprise<br />
• Analyse critique architecturale de l’existant des différentes filiales et maturité de leur SI vis-à-vis de la cible<br />
• Co-construction avec les différentes DSI filiales des architectures de transition, des trajectoires de transformation<br />
et d’investissements pour atteindre la cible de référence<br />
• Fédération du portefeuille des projets des différentes filiales. Identification des projets transformant. Détection<br />
des synergies transnationales. Animation de la communauté des architectes. Conduite du changement auprès<br />
des DSI et Directions Métiers, France et International.<br />
Cette mission a également consisté à conduire des études d’architecture ciblées intégrant la mise en place<br />
d’une infrastructure fédérée de données (Shared Data Backbone) : Cible d’architecture décisionnelle et cible<br />
d’architecture du poste de travail des agents commerciaux.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
106
Retours d’expériences Big Data en entreprise<br />
SENTELIS - MUTUELLE D’ASSURANCE<br />
MISE EN ŒUVRE DE LA FONDATION BIG DATA GROUPE<br />
CLIENT : Grand groupe français de Mutuelle d’Assurance<br />
Porteur du Projet : Sébastien LAYER<br />
CONTEXTE<br />
Grand programme de transformation – Ambition Client 2020 autour de 4 axes :<br />
- Valoriser L’ACTIF CLIENT<br />
- Développer la PROXIMITÉ Digitale<br />
- Créer l’AGILITE INDUSTRIELLE<br />
- Fonctionner en ECOSYSTÈME COLLABORATIF<br />
OBJECTIFS DE LA MISSION SENTELIS<br />
Mettre en place un socle Big Data INDUSTRIEL CROSS-METIERS pour gagner la bataille des données, la<br />
bataille de la modernisation digitale et la bataille du lien client<br />
CAS D’USAGES CIBLES TOTALISANT 15 PROJETS MÉTIERS SUR 2015<br />
• Analyse réactive (contextualisation temps réel de la relation client sur tous les canaux)<br />
• Analyse historique du portefeuille client sur l’ensemble des données à disposition (micro-segmentation, qualité et<br />
évolution de la relation, segmentation comportementale)<br />
• Analyse prédictive du portefeuille client (détection d’opportunités, prévention des risques)<br />
NATURE DES DONNÉES TRAITÉES<br />
Intégration dans un lac de données d’une très grande variété de données représentative du système d’information<br />
(données transactionnelles, évènementielles, conversationnelles, sociales référentielles, décisionnelles…) pour<br />
un volume avoisinant plusieurs milliards de données.<br />
ETAPES MAJEURES ET CALENDRIER DE MISE EN ŒUVRE DE LA FONDATION BIG<br />
DATA GROUPE:<br />
• Conduite d’une preuve-de-concept sur un usage emblématique (vision 360° Client) à valeur métier et architecturale,<br />
basée une infrastructure Commodity Hardware et des composants Open Source de l’écosystème Hadoop<br />
. Réalisation par une équipe mixe métier-SI en mode agile (Utilisateur métier, Ergonome, Analyste Donnée, Statisticien,<br />
Architecte Big Data, Développeur Big Data) – 3 mois<br />
• Choix des composants de la stack Big Data du projet de mise en œuvre – 2 mois<br />
• Industrialisation d’un core-model groupe multi instancié au niveau des différentes enseignes + déploiement des<br />
premiers usages en production – 6 mois<br />
• En parallèle, définition de l’offre de service associée à la fondation Big Data et de l’organisation à mettre en place<br />
pour en assurer la pérennité et le déploiement dans l’entreprise<br />
• Enrichissement « versionné » du socle core-model groupe en phase avec les besoins et exigences métiers<br />
ASPECT NOVATEUR<br />
Une innovation à plusieurs niveaux :<br />
• Architecturale, avec la validation de la pertinence du modèle d’architecture 3.0<br />
• Comportementale, avec le décloisonnement des données entre les métiers, entre monde opérationnel et monde<br />
analytique<br />
• Usages<br />
o Amélioration d’usages existants (ex : vision 360 Client, Contrat)<br />
o Perspective de nouveaux usages (ex : analyse de la couleur et la teneur de la conversation client, corrélation<br />
des flux comptables)<br />
o Capacité d’innovation renforcée (Test & Learn, Data Lab)<br />
• Technologique, avec la mise en œuvre de solutions innovantes issues des géants de la donnée, permettant de<br />
motoriser l’architecture 3.0<br />
VALORISATION OBSERVÉE DE LA DONNÉE<br />
Le projet a permis d’envisager une exploitation de toutes les données disponibles structurées et non-structurée<br />
comme jamais auparavant, sans frontière de temps ni d’espace (ex : analyse des commentaires clients dans les<br />
questionnaires de satisfaction et corrélation avec la notation ; détection de nouvelle segmentation via des algorithmes<br />
d’analyses non propriétaires).<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
107
Retours d’expériences Big Data en entreprise<br />
AUTRES ÉLÉMENTS STRUCTURANTS<br />
La mise en place du lac de données a été un révélateur et un catalyseur de nouveaux usages pour l’ensemble des<br />
métiers, encouragés par des coûts et une performance de traitement sans commune mesure avec l’existant. Elle<br />
ouvre la place, au-delà de l’amélioration de la Business Intelligence et du développement de la Business Analytics,<br />
au développement de la Data Science pour tirer le maximum de valeur du capital informationnel de l’entreprise.<br />
Elle a mis en évidence la nécessité d’une gouvernance de la donnée resserrée pour maîtriser l’explosion des données<br />
et des usages.<br />
Le lac de données est la première étape vers la construction d’une infrastructure fédérée des données entre<br />
monde opérationnel et monde analytique (Shared Data Back Bone), dont la frontière disparait.<br />
SENTELIS - ÉNERGIE<br />
CADRAGE DE LA 3ÈME PLATEFORME (BIG DATA & DIGITAL READY)<br />
CLIENT : Un des plus grands groupes mondiaux du secteur de l’énergie<br />
Porteur du Projet : Jean-Baptiste CECCALDI<br />
CONTEXTE<br />
Plusieurs tendances de fond, déjà engagées, révèlent et vont cristalliser les limites des Systèmes d’Informations.<br />
Ces tendances de fond concernent toutes les Branches, toutes les BU. Elles vont induire de nouvelles exigences<br />
multi-branches et reflètent les enjeux du digital pour l’entreprise.<br />
Des expérimentations ont déjà été entamées par les BU pour répondre localement à ces sujets. Mais des stratégies<br />
ou des choix locaux non encadrés (modèle d’architecture, technologies, recours au cloud,…) peuvent se<br />
montrer incompatibles avec les enjeux ou créer de nouveaux risques, de nouvelles limites.<br />
La DSI Corporate souhaite porter les transformations des SI du groupe et de ses pratiques.<br />
OBJECTIFS DE LA MISSION SENTELIS<br />
L’objectif de la mission a été de cadrer cette transformation au niveau groupe destinée à proposer à l’ensemble<br />
des entités et filiales une réponse architecturale et technologique adaptée aux enjeux de partage/maîtrise/exploitation<br />
de la donnée pour accompagner les évolutions digitales à venir ou déjà engagées par les métiers.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
108
Retours d’expériences Big Data en entreprise<br />
LA DÉMARCHE A ÉTÉ LA SUIVANTE :<br />
• Définition de la feuille de route globale à 18 mois : cible architecturale et technologique, trajectoire de transformation<br />
opérationnelle, organisation et cadre de gouvernance, plan de communication et de conduite du changement,<br />
services à activer, budgets requis…<br />
• Communication de la vision et de la proposition de la DSI Groupe auprès de la Direction Groupe et des Directions<br />
des multiples entités<br />
• Identification des premières cibles d’expérimentations concrètes – nécessaires pour démontrer et convaincre<br />
rapidement de la pertinence des gènes du modèle « Architecture 3.0 »<br />
• Préparation des éditeurs/fournisseurs technologiques aux sollicitations à venir<br />
• Identification des contributions de partenaires clés – en particulier la Production sur les infrastructures et services<br />
de production<br />
• Approfondissement avec les BU/BL des cas d’application ou des besoins concrets déjà identifiés<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
109
Retours d’expériences Big Data en entreprise<br />
SENTELIS - JEUX EN LIGNE<br />
CADRAGE DU SOCLE BIG DATA & DES PREMIERS USAGES PILOTES 2015<br />
CLIENT :Acteur majeur français du jeu<br />
Porteur du Projet :Jean-Baptiste CECCALDI<br />
CONTEXTE:<br />
Le plan stratégique de cette entreprise vise entre autres :<br />
• A renforcer la connaissance de ses clients et de ses modes relationnels<br />
• A développer une offre multi canal<br />
La DSI identifie des axes sur lesquels le SI présente des faiblesses structurelles, en particulier autour de la<br />
maîtrise et du partage de la donnée<br />
MISSION DE SENTELIS:<br />
La mission a permis de délivrer en 6 semaines l’ensemble des éléments permettant de lancer sereinement la<br />
fabrication :<br />
• D’un SOCLE ‘Big Data’, garant de l’exigence industrielle en production, regroupant les fonctionnalités requises<br />
pour supporter les premiers cas d’usage etpermettant de préparer le ‘coup suivant’<br />
• Des premiers ‘USAGES’ pilotes, à choisir parmi les projets candidats inscrits au plan 2015, et permettant de<br />
démontrer rapidement la valeur du modèle tout en maîtrisant les risques opérationnels<br />
LES LIVRABLES SUIVANTS ONT ÉTÉ PRODUITS :<br />
• Périmètre fonctionnel des pilotes, les objectifs associés (métiers et DSI)<br />
• Orientations architecturales et technologiques, l’infrastructure nécessaire<br />
• Planning de réalisation, échéances de livrables<br />
• Equipe de réalisation et organisation<br />
• Coût, prérequis de démarrage, risques majeurs à mettre sous contrôle<br />
• Cible architecturale à long terme (inscrire les actions court-terme dans la bonne direction)<br />
LES PROCHAINES ÉTAPES :<br />
• Lancement de la phase d’industrialisation du socle Big Data et des projets candidats sélectionnés lors du cadrage<br />
• Identification d’autres cas d’usage et accompagnement des projets pour leur mise en œuvre avec prise en<br />
compte des évolutions nécessaires du socle<br />
SENTELIS - EDITEUR SOFTWARE<br />
PLAN DE TRANSFORMATION D’ENTREPRISE<br />
CLIENT :Editeur et fournisseur de solutions informatiques mutualisées d’une grande banque internationale Française.<br />
Porteur du Projet : Jean-Nicolas BIARROTTE-SORIN<br />
CONTEXTE :<br />
Plan de transformation à 3 ans autour des axes suivants :<br />
• Renforcement de la position vis-à-vis des filières à l’international<br />
• Développement d’un nouveau business model et operating model<br />
• « Fast IT »<br />
• Sécurisation des données et applications<br />
• Poursuite de la stratégie d’industrialisation<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
110
Retours d’expériences Big Data en entreprise<br />
OBJECTIF DE LA MISSION SENTELIS :<br />
La mission a consisté à :<br />
• Définir les orientations d’architecture<br />
• Elaborer le plan d’action de transformation<br />
LES PILIERS MAJEURS DE CETTE NOUVELLE ORIENTATION ARCHITECTURALE SONT :<br />
• Architecture Data Centric<br />
• Architecture anywhere, anytime, any devices<br />
• Mise en place de modèles permettant de déployer de nouvelles solutions transverses de niveau Groupe, en<br />
s’appuyant sur trois dimensions complémentaires:<br />
o Une approche socles différenciés, adaptée à la variété des entités,<br />
o une approche SOA, pour faciliter l’intégration aux paysages locaux et avec le Corporate,<br />
o une approche Cloud, pour être capable de supporter une variété de stratégie de déploiement (interne, externe,<br />
hybride), en ligne avec la diversité des entités.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
111
Retours d’expériences Big Data en entreprise<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
112
Retours d’expériences Big Data en entreprise<br />
SOFT COMPUTING<br />
BIG DATA : PREMIÈRES LEÇONS APRÈS 3 ANS D’APPLICATIONS<br />
SUR LE TERRAIN.<br />
LES ENJEUX<br />
La révolution numérique qui se déroule sous nos yeux a pour corollaire une explosion des données, encore accentuée<br />
par le développement des objets connectés et la digitalisation des interactions. Ce déluge de données<br />
ouvre de nouveaux horizons en matière de connaissance et de dialogue avec les clients. Le marketing devient<br />
résolument conversationnel, individualisé, contextualisé, mobile, social, temps réel et omnicanal.<br />
Fort de plus de 30 ans d’expérience en matière de valorisation du Capital Client, Soft Computing, Entreprise de<br />
Services du Numérique spécialiste en CRM, Big Data et Digital, réunit près de 400 consultants, délivrant des prestations<br />
de Conseil, de Technologie et de Marketing Services.<br />
Ainsi, nous accompagnons annonceurs & organisations, désireux de mettre en place des plateformes Big Data et<br />
omnicanal, à relever les défis opérationnels suivants :<br />
Comment capter, analyser, exploiter (en temps réel ou non) l’ensemble des données off line et on line pour activer<br />
une animation visiteur/client rentable, engageante, cohérente sur l’ensemble des points de contacts ?<br />
Comment réconcilier des données de navigation & « empreintes digitales » (authentifiés ou non) et données du<br />
CRM tout en garantissant l’unicité, la qualité des données, ainsi que le respect des règles légales locales et/ou<br />
internationales ?<br />
Comment créer une infrastructure de données pérenne et agile, fondée à la fois sur la réalité des besoins opérationnels<br />
d’aujourd’hui et l’esquisse des usages de demain ?<br />
Comment appréhender les nouvelles technologies émanant à la fois du monde innovant Open Source, des « pureplayers<br />
» et des éditeurs traditionnels et solides?<br />
Comment préparer les organisations à la fois dans leur montée en compétence et leur transformation : Data-<br />
Scientism, Marketing prédictif, Agilité ?<br />
NOS INTERVENTIONS<br />
Nous menons plusieurs projets Big Data dans les secteurs de la Banque, le Retail, les Transports, l’énergie et des<br />
Télécoms. Notre démarche pragmatique, pour maîtriser ces enjeux, guide nos interventions autour de 5 axes :<br />
Cadrer : Aligner la stratégie, les besoins métiers et SI pour établir une trajectoire de mise en œuvre volontaire face<br />
aux enjeux de marchés hautement concurrentiels,<br />
Evaluer : Choisir les solutions technologiques pour répondre aux enjeux métiers & SI puis valider leurs bon fonctionnement<br />
et potentiel à travers des phases d’expérimentation ou Proof Of Concept,<br />
Décliner : Mener les chantiers par priorité pour construire une solution pérenne, orientée résultat et génératrice<br />
d’efficacité opérationnelle,<br />
Déployer : Piloter toutes les phases projet pour garantir la bonne mise en œuvre et implémentation du nouveau<br />
dispositif,<br />
Piloter : Consolider les indicateurs de performance, QOS, QOD et mesurer leurs évolutions dans le temps tout en<br />
mobilisant les ressources internes et externes au regard des objectifs définis.<br />
Nos retours d’Expériences : L’accompagnement de l’un des acteurs majeurs de l’énergie en France, dans la mise<br />
en œuvre d’une DMP (Data Management Platform) a fait ressortir les points clés suivants :<br />
DÉMARRER PETIT POUR FINIR GRAND :<br />
Limiter le nombre de données first party en face des millions de lignes clients permet d’intégrer progressivement<br />
des données complémentaires. Démarrer par des cas d’usages métiers simples et raisonnables permet de valider<br />
le fonctionnement de la DMP par itération avant d’investir des cas complexes à forte volumétrie<br />
SOIGNER LA RÉCONCILIATION DES DONNÉES WEB ET CRM :<br />
Réconcilier les données Web et clients suppose de porter une attention particulière sur la gestion des identifiants<br />
Internautes (cookies, IP, Mac…) et CRM (email, Id foyer, …). La connexion à l’espace client reste un vecteur privilégié<br />
et efficace pour rapprocher internaute et client (plus que le clic dans un e-mail par exemple).<br />
AJUSTER LE DISPOSITIF DE TRAITEMENT AU REGARD DES USAGES :<br />
Connaissance client, rebond entrant, campagne marketing ne nécessitent pas la même réactivité et le même type<br />
de réponse. Aussi il est crucial de définir les usages temps réel versus batch à J+1 pour adapter le dispositif aux<br />
différents besoins métiers L’accompagnement d’un leader du marché des Télécoms dans la mise en place d’un<br />
socle de connaissance client omnicanal (Big Data) afin de parfaire sa maîtrise des canaux (reporting & dataviz),<br />
l’analyse comportementale client, puis déclencher des actions personnalisées auprès des visiteurs sur des canaux<br />
traditionnels (point de vente, service client…) et digitaux (bannière web, selfcare…), nous amène à souligner les<br />
points suivants :<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
113
Retours d’expériences Big Data en entreprise<br />
CONCEVOIR UNE SOLUTION AGILE ET INTEROPÉRABLE<br />
Ne pas tenter de présumer des usages de la donnée de demain, mais plutôt imaginer le dispositif agile (architecture)<br />
qui permettra d’absorber rapidement une nouvelle source ou un nouveau format de donnée « sans retour<br />
arrière » et sans déstabiliser les chaînes d’information critique (ERP, DWH…)<br />
DIFFUSER EN TEMPS RÉEL LES INDICATEURS À FORTE VALEUR AJOUTÉE<br />
Se mettre en situation de propager des données client à forte valeur ajoutée en temps réel (tags, éléments de<br />
parcours ou scores) pour pouvoir demain activer la bonne action (push ou argumentaire de vente) au bon moment<br />
quel que soit le canal (une poste vendeur ou une bannière web)<br />
PENSER EXPÉRIENCE CLIENT CROSS CANAL SIMPLE ET ROI DIRECTEMENT<br />
Expérimenter et driver des premiers développements à partir de use cases simples, réalistes simplifiant une expérience<br />
cross canal et génératrice d’un ROI rapide<br />
Laisser place à la découverte des données<br />
Laisser du temps aux équipes opérationnelles pour s’approprier et « cruncher » des nouveaux univers de données<br />
(c’est le cas des données de navigation mobile ou selfcare) pour imaginer à la fois de nouveaux modèles statistiques<br />
prédictifs et de nouveaux processus client.<br />
En synthèse, les principes mis en œuvre dans les projets de relation clients depuis plusieurs années s’appliquent<br />
encore aujourd’hui dans cette nouvelle aire du « digital data driven ». Il apparait important de s’ouvrir aux nombreuses<br />
nouveautés qu’offrent ces perspectives tout en gardant une démarche pragmatique et orientée vers des<br />
résultats opérationnels tangibles et concrets.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
114
Retours d’expériences Big Data en entreprise<br />
SYNCSORT - SFR<br />
PROJET HADOOP CHEZ SFR<br />
EFFICACITÉ ACCRUE GRÂCE AU PROJET HADOOP<br />
En tant qu’opérateur télécom majeur comptant plus de 21 millions de clients, SFR collecte quotidiennement une<br />
quantité énorme de données. L’objectif du projet Hadoop chez SFR était en premier lieu de réduire les coûts<br />
d’exploitation de ces données. Au fur et à mesure que le volume de données augmente, il est de plus en plus<br />
difficile et coûteux de stocker et traiter les données. En utilisant de façon optimale le cluster Hadoop et les outils<br />
puissants de tri et ETL de Syncsort, il est possible de limiter l’investissement dans du nouveau hardware.<br />
UN PROJET QUI NE SE TERMINE JAMAIS<br />
SFR a décidé de lancer le projet Hadoop à la fin de 2013. Dans une première phase, le choix s’est porté sur la<br />
distribution Hadoop Cloudera et début 2014, il a été décidé de travailler avec DMX-h de Syncsort pour loader et<br />
offloader des données à partir du cluster Hadoop. SFR utilisait déjà l’outil ETL DMX de Syncsort pour quatre autres<br />
projets, pour lesquels il avait fait ses preuves. Les très bonnes performances de DMX-h de Syncsort ont ensuite<br />
pu être démontrées dans le cadre du Proof of Concept pour le projet Hadoop. “Nous travaillons encore en mode<br />
batch,” explique François Nguyen, en charge de la division ‘Connaissance Client’ chez SFR. “ Cela implique que<br />
nous disposons d’une fenêtre de traitement réduite. Nos engagements précédents avec Syncsort se sont révélés<br />
très efficaces. Leurs capacités de tri n’ont pas d’équivalent sur le marché, et nous sommes très heureux que Syncsort<br />
soit l’un des véritables innovateurs sur le marché Hadoop. Leur mécanisme de tri est incorporé à la distribution<br />
Hadoop que nous utilisons.<br />
Au cours de l’été 2014, les premières sources de données ont été loadées dans le cluster Hadoop, et davantage<br />
de sources seront ajoutées toutes les deux ou trois semaines. “Il ne s’agit pas d’un projet avec un horizon déterminé,<br />
nous allons continuer à ajouter des sources de données en permanence,” explique François Nguyen.<br />
A l’heure actuelle, la division Connaissance Client gère une base de données très volumineuse , qui n’arrête pas<br />
de croître. Les données traitées dans le cadre du projet Hadoop sont principalement des données structurées mais<br />
on y retrouve également des données semi-structurées provenant de logs.<br />
EN PRIMEUR<br />
Le projet chez SFR est l’une des premières véritables expériences Big Data et Hadoop sur le marché français. Le<br />
projet permettra à SFR de réaliser des économies, grâce à la performance des solutions implementées.<br />
DE PREMIERS RÉSULTATS RAPIDES<br />
L’une des premières réussites du projet a été la capacité à concrétiser les premières étapes dans le délai imparti<br />
et selon le budget, ce qui est une prouesse compte tenu qu’il s’agit de l’introduction de technologies de pointe. La<br />
mise en route aussi rapide du projet est principalement due au fait que SFR n’a pas eu à effectuer une phase de<br />
tuning avant de commencer à utiliser DMX-h pour manipuler les données ni à réaliser de codage supplémentaire.<br />
Les résultats seront évalués en permanence au fur et à mesure que de nouvelles sources de données s’ajoutent<br />
au cluster Hadoop.<br />
L’utilisation des puissantes capacités de tri de Syncsort DMX h n’ont pas rendues nécessaires l’acquisition de<br />
hardware supplémentaire.<br />
.<br />
SYNCSORT - PAGESJAUNES<br />
SYNCSORT AIDE PAGESJAUNES À TIRER LE MEILLEUR DES BIG DATA<br />
PagesJaunes, filiale à 100% de Solocal Group (groupe coté sur le marché Euronext Paris), migre sur la plateforme<br />
Hadoop pour optimiser ses outils d’aide à la décision. L’ETL pour Hadoop de Syncsort est apparu comme la solution<br />
la plus fiable, tant en termes de volumétrie que de rapidité, pour répondre aux nouveaux besoins business<br />
dans le contexte d’une transformation numérique qui fait cas d’école aujourd’hui.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
115
Retours d’expériences Big Data en entreprise<br />
PagesJaunes est le leader français de la publicité et de l’information locale sur Internet (pagesjaunes.fr, pagespro.<br />
com), mobile (sites et applications) et imprimé (l’annuaire PagesJaunes et l’annuaire PagesBlanches). Pages-<br />
Jaunes est aussi un des leaders des services de renseignements par téléphone et SMS (118008), des petites<br />
annonces en ligne (annoncesjaunes.fr) et est le premier créateur de site Internet en France.<br />
En pleine transformation numérique de ses métiers, PagesJaunes est à la recherche de solutions analytiques<br />
agiles qui permettent à ses équipes commerciales de prendre les bonnes décisions, rapidement. « L’entreprise<br />
s’est engagée dans une transformation de sa plateforme d’aide à la décision pour sortir de la Business Intelligence<br />
traditionnelle et tirer réellement des avantages business des Big Data. Notre ambition est de faire parler<br />
les données, » situe Abed Ajraou, responsable de Domaine Business Intelligence au sein de Business Solutions<br />
chez PagesJaunes. Il a rejoint l’entreprise il y a un an environ pour mettre en place une stratégie Big Data, dans<br />
le contexte d’une migration d’une infrastructure base de données IBM avec appliance Netezza vers le framework<br />
Hadoop. L’objectif est de faire face aux défis techniques en termes de capacité (explosion du volume des données),<br />
de stockage de données non structurées et de reporting en temps réel.<br />
SYNCSORT PIONNIER SUR LE MARCHÉ<br />
« ETL pour Hadoop permet d’optimiser notre informatique décisionnelle, » explique Abed Ajraou. En résumé,<br />
l’enjeu consiste à mettre à disposition des responsables commerciaux des capacités d’analyse granulaire, leur<br />
permettant d’optimiser leurs forces de vente par secteur géographique notamment.<br />
La solution DMX-h fournie par Syncsort est utilisée pour l’extraction, la transformation et le chargement (ETL) sur<br />
Hadoop, ainsi que pour des fonctions d’exportation et importation de données. « Les échos du marché étaient<br />
positifs quant aux performances de l’ETL Hadoop de Syncsort. Des progrès considérables ont été réalisés en 2<br />
ans. Nos tests et notre proof of concept ont également été concluants. Venant du monde du mainframe, le fournisseur<br />
jouissait déjà d’une réputation de solidité. Ce sont les premiers à fournir ce genre d’outil sur Hadoop.,»<br />
souligne Abed Ajraou.<br />
Bien que la vocation première du projet Hadoop chez PagesJaunes ne soit pas de réaliser des économies, mais<br />
bien d’améliorer la qualité des données et booster ainsi les performances commerciales, le coût abordable de la<br />
solution Syncsort est également un argument non négligeable : « la solution devrait nous permettre de faire des<br />
économies substantielles sur les coûts de support logiciel. Nous pourrons faire beaucoup plus avec beaucoup<br />
moins, » affirme Abed Ajraou. Le déploiement d’applications sur Syncsort DMX-h a démarré début 2015. Un<br />
premier retour d’expériences est attendu pour mars et sera d’ailleurs partagé à la conférence Big Data de Paris.<br />
REPORTING FINANCIER EN TEMPS RÉEL<br />
Une demi-douzaine d’applications web sont progressivement mises en production. Elles visent pour la plupart à<br />
booster les performances des équipes marketing et ventes en accélérant le reporting financier, le cas échéant sur<br />
un appareil mobile. Les applications sont en effet conçues selon les principes du ‘responsive design’. « Un point<br />
central porte sur la possibilité de rafraîchir les chiffres de ventes, toutes les 5 minutes, par produit, par segment,<br />
par géographie ou par agence. »<br />
Globalement, les enjeux de performances techniques sont davantage liés à la rapidité des temps de réponse et à<br />
la granularité des données analysées qu’au volume de données en tant que tel. « Nous parlons de 45 millions de<br />
lignes de data, ce qui n’est pas si énorme comparé à d’autres implémentations sur Hadoop. La plateforme nous<br />
permet à l’avenir de gérer de gros volumes de données pouvant atteindre entre 15 et 20 To de données, » poursuit<br />
Abeb Ajraou. Ce projet Big Data sur Hadoop est emblématique d’une stratégie d’entreprise qui met l’informatique<br />
au service du business, n’hésitant pas le cas échéant à anticiper les besoins des équipes commerciales et à<br />
leurs donner des instruments de proactivité. « Ce n’est pas pour rien qu’au sein de PagesJaunes, le département<br />
‘systèmes d’information » a été rebaptisé ‘Business Solutions’, avec une mission qui va bien au-delà d’un simple<br />
support opérationnel. Ce type de projet contribue à renforcer la valeur ajoutée de l’informatique auprès de la direction<br />
générale,» souligne Abed Ajraou.<br />
SYNCSORT - TÉLÉCOMS, MÉDIAS, ENTERTAINMENT<br />
COMMENT LIBÉRER LES CAPACITÉS DES BASES DE DONNÉES ET<br />
RÉDUIRE LES COÛTS AVEC HADOOP<br />
Profil de l’entreprise : Grand groupe de télécoms, médias et home entertainment.<br />
PROBLÉMATIQUE<br />
Acteur majeur du home entertainment, cette entreprise génère et collecte des volumes de données parmi les plus<br />
importants du marché. Pour cela, elle exploite un data warehouse Netezza de plusieurs pétaoctets dont le volume<br />
suit chaque année une croissance à deux chiffres. Comptes clients, communications, programmes de fidélisation,<br />
paramètres de confidentialité, mesures d’audimat… ce data warehouse sous-tend les applications critiques de<br />
toute l’entreprise.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
116
Retours d’expériences Big Data en entreprise<br />
Au départ, l’entreprise avait choisi d’associer Informatica à du codage SQL manuel pour effectuer ses traitements<br />
ELT lourds dans la base de données Netezza, y compris des operations courantes comme le tri, l’agrégation et<br />
la CDC (Change Data Capture). Or, cette approche extrêmement gourmande en capacités Netezza s’est très tôt<br />
révélée ingérable car très coûteuse en mises à niveau des matériels, logiciels et bases de données. Côté ressources,<br />
la pression était également énorme car les développeurs ETL devaient consacrer un temps précieux à<br />
optimiser et maintenir des centaines de lignes de code SQL, ne laissant que très peu de marge à la gestion des<br />
nouveaux besoins métiers.<br />
SOLUTION<br />
Face à la hausse des coûts de ses logiciels de bases de données et ETL, l’entreprise décida de stopper tout investissement<br />
dans sa plate-forme ETL existante — devenue ni plus ni moins qu’un planificateur de tâches onéreux<br />
— et d’offloader plus de 500 opérations ELT vers Netezza.<br />
Pour mettre la solution en place, elle s’est tournée vers Syncsort. Rapide et sécurisé, le logiciel d’entreprise Syncsort<br />
DMX-h permet aux entreprises de développer des flux de données sophistiqués dans Hadoop, sans aucune<br />
écriture ni optimisation de code. Syncsort DMX-h s’exécute nativement sur YARN. Contrairement à d’autres solutions,<br />
ce logiciel ne génère aucun code Java, Pig ou HiveQL et ne nécessite aucune compilation, optimisation ou<br />
maintenance de code.<br />
Une fois les objectifs et le cahier des charges connus, Syncsort a proposé à son client une solution d’offload de<br />
son data warehouse.<br />
L’une des principales vocations d’Hadoop consiste à prendre le relais de systèmes anciens et coûteux pour le<br />
stockage et le traitement de données. Or, sans les outils appropriés, l’identification, l’accès et le transfert des<br />
données vers Hadoop peuvent rapidement se révéler complexes. C’est pourquoi Syncsort offre des outils ciblés<br />
permettant d’offloader rapidement et efficacement les traitements batch et ELT des data warehouses vers Hadoop.<br />
Pour l’entreprise, l’adoption d’une solution d’offload Syncsort-Hadoop représentait le meilleur moyen de réduire<br />
ses coûts et de préparer son infrastructure de gestion des données aux futures initiatives métiers. Ainsi, outre la<br />
forte preference du client pour l’open source pure, le partenariat étroit entre Syncsort et Hortonworks a favorisé sa<br />
décision en faveur d’Hortonworks Data Platform comme plate-forme Big Data pour son projet d’offload.<br />
RÉSULTATS<br />
En offloadant le data warehouse, la solution Syncsort-Hortonworks est appelée à générer plusieurs millions de<br />
dollars d’économies sur différents facteurs de coûts dans les années à venir :<br />
• ’’Matériels et logiciels de bases de données<br />
• ’’Licences logicielles ETL<br />
• ’’Maintenance et optimisation des codes SQL<br />
La pénurie de développeurs Hadoop compétents en Pig, Hive et MapReduce constituait l’un des principaux obstacles<br />
à l’adoption d’Hadoop dans l’entreprise. Grâce à son interface graphique, Syncsort DMX-h a permis aux<br />
développeurs d’exploiter leurs compétences ETL existantes pour créer des flux et traitements de données sophistiqués,<br />
sans aucun codage manuel. Par exemple, il n’a fallu qu’une semaine à un développeur pour transférer une<br />
opération ELT de 340 lignes SQL vers DMX-h. Cette même opération lui aurait pris entre trois et quatre semaines<br />
de codage.<br />
La connectivité complète de DMX-h à Hadoop permet aux équipes informatiques d’extraire et de charger nativement<br />
les données depuis la plate-forme HDP ou d’exécuter une opération « hors cluster » sur un serveur ETL.<br />
Par ailleurs, l’intégration étroite de DMX-h à Apache Ambari, au JobTracker d’Hadoop et aux protocoles standards<br />
de sécurité comme LDAP et Kerberos leur permet de déployer, maintenir, monitorer et sécuriser leur nouvel environnement<br />
HDP en toute simplicité.<br />
Enfin, cette nouvelle architecture offre une plate-forme plus flexible, scalable et économique pour le déploiement<br />
de nouvelles initiatives métiers : collecte et analyse d’un plus grand nombre de données issues des box TV-Internet,<br />
augmentation des mesures d’audimat et assimilation des données d’activité des internautes.<br />
L’ENTREPRISE SYNCSORT<br />
Syncsort propose des logiciels d’entreprise sûrs et performants. Solutions Big Data dans Hadoop ou applications<br />
Big Iron sur mainframes : quels que soient les enjeux de nos clients, nous intervenons dans le monde entier pour<br />
accélérer la collecte, le traitement et la diffusion de leurs données, tout en réduisant les coûts et les ressources<br />
engagés. C’est pourquoi la majorité des entreprises du Fortune 100 font confiance à Syncsort. Utilisés dans plus<br />
de 85 pays, nos produits vous permettent de réaffecter vos charges coûteuses et inefficaces, d’accélérer les traitements<br />
dans votre data warehouse et sur votre mainframe, et d’optimiser l’intégration de vos données au Cloud.<br />
Pour en savoir plus, rendez-vous sur www.syncsort.fr<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
117
Retours d’expériences Big Data en entreprise<br />
TABLEAU SOFTWARE - BNP PARIBAS<br />
LA CONCEPTION DE L’AVENIR DE L’UNE DES PRINCIPALES SOCIÉTÉS DE<br />
SERVICES FINANCIERS D’EUROPE<br />
o Partner : BNP Paribas<br />
o Contact person : Pierre Thebault (BNP Paribas) and Edouard Beaucourt (Tableau Software)<br />
OBJECTIFS<br />
Innover pour développer des parts de marché, remporter de nouveaux clients et augmenter la part du portefeuille<br />
de clients existants.<br />
PRÉSENTATION:<br />
Le géant bancaire français a misé sur Tableau pour recueillir et analyser ses données en seulement quelques minutes.<br />
La division BNP Paribas du Sud-Ouest de la France dispose maintenant de la capacité de visualiser les tendances<br />
de géocodage utilisées dans le cadre des campagnes commerciales et marketing de la banque. Et l’aperçu<br />
partagé et détaillé de la performance de 2 000 agences à travers la F contribue à renforcer la compétitivité.<br />
ASPECTS INNOVANTS<br />
Pierre Thebault, géoanalyste, est chargé d’analyser et d’identifier les tendances de géocodage au sein d’une région.<br />
Grâce à Tableau, il traque les opportunités de prospecter de nouveaux clients et de développer de nouvelles<br />
campagnes marketing extrêmement ciblées : « Tableau est le moyen le plus rapide de passer des données aux<br />
décisions ». Il est à même de localiser et de visualiser le nombre de prospects dans la région de Toulouse, et de<br />
les segmenter par revenus, par risques et selon les services financiers de BNP Paribas dont ils disposent déjà.<br />
S’ils ont souscrit un prêt immobilier, ils constituent un candidat potentiel pour la souscription d’une assurance habitation<br />
ou d’une carte de crédit. Tableau permet de visualiser l’ensemble des données en quelques secondes, ce<br />
qui permet son équipe de transmettre ce public cible segmenté aux équipes commerciales internes de la banque<br />
pour un suivi immédiat.<br />
BNP Paribas recherche constamment des manières de différencier ses services en offrant une expérience plus<br />
localisée. Tableau permet à la banque d’étudier la localisation des distributeurs automatiques de billets des concurrents<br />
et d’identifier les sites potentiels pour de nouveaux distributeurs : « Comparer la localisation de nos clients<br />
avec la disponibilité du réseau existant de distributeurs automatiques de billets nous permet de cibler de nouveaux<br />
emplacements de distributeurs », déclare Pierre Thebault.<br />
Malgré l’expansion des services bancaires en ligne, les français restent attaches aux agences physiques. Tableau<br />
représente la source primaire pour les rapports sur la performance des 2 000 agences BNP Paribas française.<br />
Directeurs et responsables partagent un aperçu détaillé de la performance de chacune des agences : chiffre<br />
d’affaires, rentabilité, personnel, adoption des services bancaires en ligne de la part des clients, etc. « L’accès<br />
rapide à des données fiables, grâce à Tableau, se traduit par une prise de décision vive et fiable concernant les<br />
agences », affirme Pierre Thebault. Il poursuit, « Avant Tableau, nous utilisions des feuilles de calcul et une base<br />
de données Access. Cela nous prenait des heures, des semaines, voire des mois, pour trouver les données<br />
correctes et les réponses dont nous avions besoin. Désormais, grâce à Tableau, l’intégration homogène et la<br />
simplicité d’utilisation signifient que nous obtenons les réponses en quelques minutes. Cela rend-il la banque plus<br />
perspicace ? Oui, sans l’ombre d’un doute. »<br />
PROCHAINES ÉTAPES<br />
La majeure partie de l’inspiration pour ce programme couronné de succès appartient à Mydral, le partenaire<br />
d’exécution de BNP Paribas. La vision, la perspicacité et l’expérience de l’équipe de Mydral ont contribué au<br />
lancement de Tableau en quelques jours. Mydral a également fourni à BNP Paribas trois jours de formation et de<br />
transfert des connaissances afin de garantir que l’équipe soit opérationnelle presque immédiatement.<br />
Ce projet attire désormais l’attention d’autres services de la banque. BNP Paribas déploie actuellement Tableau<br />
sur les sites régionaux de Paris et Nantes dans le cadre d’un projet de segmentation de la clientèle. Ces données<br />
sont utilisées pour comprendre les tendances, concevoir de nouvelles campagnes, et maximiser la valeur de BNP<br />
Paribas tirée des données marketing.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
118
Retours d’expériences Big Data en entreprise<br />
TABLEAU SOFTWARE - CROIX ROUGE<br />
TABLEAU SOFTWARE AMÉLIORE L’ANALYSE TRANSVERSE ET VISUELLE<br />
DES INDICATEURS DE LA CROIX ROUGE FRANÇAISE.<br />
o Partner : Croix Rouge française<br />
o Contact person : Marie-Ange Tnani (Croix Rouge française) et Edouard Beaucourt (Tableau Software)<br />
OBJECTIFS :<br />
La Croix-Rouge française faisait face à un cloisonnement des systèmes d’information, sans vision transversale,<br />
avec une remontée d’informations irrégulières. L’association souhaitait mettre en place un système d’information<br />
décisionnel transverse s’appuiant sur une plateforme complète: un outil d’ETL, une base de données et un outil<br />
de tableaux de bord.<br />
PRÉSENTATION:<br />
Association à but non lucratif, la Croix-Rouge française dispense ses services dans les domaines sanitaire, social,<br />
médico-social, de la formation, et de l’action humanitaire. Près de 54000 bénévoles renforcent les 18112 salariés<br />
qui sont répartis dans plus de 570 établissements. Au cœur de l’association, les systèmes d’information (SI)<br />
ont pris une place prépondérante, accompagnant le développement et les besoins des différents métiers de la<br />
Croix-Rouge française. Quarante-trois personnes travaillent à la Direction des Systèmes d’Information, auxquelles<br />
s’ajoutent 7 responsables informatiques régionaux. Le budget de la Direction des Systèmes d’Information dépasse<br />
8 millions d’euros.<br />
«Les années 2000 ont vu le développement des systèmes d’information dans l’optique d’un meilleur pilotage<br />
de l’ensemble de l’association» explique Laurent Monnet, Directeur des Systèmes d’Information de la Croix-<br />
Rouge française, «en suivant une logique d’harmonisation de nos solutions, de rationalisation de nos ressources».<br />
L’ambition affichée de la Direction des Systèmes d’Information est d’optimiser le pilotage de l’activité de<br />
l’association.<br />
« Lors de la construction des SI, nous étions focalisés sur le développement de la partie support et transactionnelle.<br />
Désormais, l’attente des utilisateurs est forte pour des outils de pilotage. Le moment était venu de réfléchir à<br />
une architecture décisionnelle» développe Laurent Monnet. La Croix-Rouge française faisait face à un cloisonnement<br />
des systèmes d’information, sans vision transversale, avec une remontée d’informations irrégulières.<br />
«Nous souhaitions en complément de notre outil de reporting un outil convivial, intuitif pour les utilisateurs, qui<br />
permette des représentations graphiques dynamiques, des résultats en temps réel» précise Marie-Ange Tnani,<br />
Pôle Applications et Développement et Chef de Projet Système d’Information Décisionnel. Aidée par Altic, intégrateur<br />
de solutions Open Source pour le Décisionnel, le traitement des flux de données et les outils collaboratifs, la<br />
Direction des Systèmes d’Information a fait le choix de Tableau Software.<br />
«Spécialiste dans son domaine, Altic a su comprendre nos besoins, dans une vraie logique d’accompagnement,<br />
en nous orientant vers une architecture complète, performante et évolutive » se satisfait Marie-Ange Tnani, « La<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
119
Retours d’expériences Big Data en entreprise<br />
nécessité était forte d’un outil qui permette une grande autonomie des utilisateurs, donc avec une ergonomie<br />
soignée, une grande facilité d’usage.» Les premiers résultats probants n’ont pas tardés. En l’espace de 2 mois et<br />
demi, un datawarehouse complet a été construit sur les EHPAD (Établissements d’Hébergement pour Personnes<br />
Âgées Dépendantes). Cet entrepôt de données comprend 43 indicateurs et 6 sources de données différentes<br />
(comptabilité, ressources humaines, budget, métier, trésorerie, organisation).<br />
ASPECTS INNOVANTS:<br />
« En 3 semaines, avec Tableau, la Croix-Rouge française disposait de son premier tableau de bord. Par expérience,<br />
il aurait fallu 6 mois pour un tel résultat » insiste Marc Sallières, fondateur d’Altic. Tableau joue un rôle<br />
majeur d’accélérateur et catalyseur en étant un outil de data visualisation majeur dans une chaine de Business<br />
Intelligence, qui apporte agilité, souplesse et rapidité dans la restitution de l’information.<br />
« Tableau nous a permis de donner aux managers des indicateurs pour piloter leur organisation. Les utilisateurs<br />
découvrent et s’approprient les données » détaille Marie-Ange Tnani.<br />
« Les résultats tangibles sont immédiats : en cassant les silos, on crée un langage commun autour de la donnée.<br />
Les utilisateurs se retrouvent autour de définitions. Cela créé un cercle vertueux d’amélioration continue de la<br />
qualité des données, en mettant en relief les incohérences existantes.»<br />
Tableau Software offre une représentation géographique<br />
PROCHAINES ÉTAPES:<br />
Les premières restitutions graphiques ont conforté la Direction des Systèmes d’Information dans son choix. « Tableau<br />
offre une vue transverse qui intègre des indicateurs de différentes sources, avec une représentation géographique<br />
de certains de ces indicateurs » souligne ainsi Marie-Ange Tnani. A terme, la Direction des Systèmes d’Information<br />
de la Croix-Rouge française vise la fourniture de tableaux de bord pour ses 570 établissements, consultables via le<br />
reader de Tableau. « Le cout global de la solution, maitrisée, nous autorise cette ambition » conclut Laurent Monnet.<br />
TABLEAU SOFTWARE - ISCOOL<br />
EN CINQ ANS, ISCOOL A QUADRUPLÉ SES REVENUS<br />
GRÂCE À TABLEAU SOFTWARE<br />
o Partner : IsCool<br />
o Contact person : Gaëlle Periat (IsCool) et Edouard Beaucourt (Tableau Software)<br />
PRÉSENTATION:<br />
Des revenus issus du jeu qui ont quadruplé en cinq ans. Plusieurs teraoctets de Big Data concernant les joueurs ont<br />
été exploités, afin de permettre une prise de décision agile et efficace. « Des analyses visuelles ont été réalisées<br />
en quelques minutes, contrairement aux semaines d’attente qui étaient parfois nécessaires avec une précédente<br />
solution d’informatique décisionnelle. Il ne s’agit que de quelques uns des principaux aspects de l’utilisation que<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
120
Retours d’expériences Big Data en entreprise<br />
fait IsCool de la solution d’analyse par virtualisation en temps réel de Tableau Software. En comprenant mieux les<br />
préférences, les comportements et les besoins des joueurs, cette importante société de jeu européenne fait croître<br />
en taille et en nombre ses communautés mondiales de joueurs, pour un coût de possession remarquablement bas.<br />
UN CHEF DE FILE DU MARCHÉ EUROPÉEN DU JEU EN LIGNE<br />
Chef de file européen dans le secteur du jeu en ligne, IsCool Entertainment réunit 2,8 millions d’utilisateurs sur<br />
Facebook et d’autres médias, au sein de jeux interactifs comme IsCool, Star Connect et Temple Of Mahjong. L’un<br />
des catalyseurs du succès de cette société est son utilisation extrêmement précise des outils d’informatique décisionnelle,<br />
c’est-à-dire une approche rigoureuse de l’analyse des profils des clients, de l’adoption par les utilisateurs<br />
et des modes de jeu.<br />
Trois ans auparavant, alors qu’IsCool disposait d’une base de 400 000 utilisateurs et annonçait des bénéfices<br />
de 3 millions de dollars, cette société parisienne se basait sur une approche simple de l’intégration des données<br />
et de l’informatique décisionnelle pour guider ses choix. Celle-ci était composée d’outils d’intégration open<br />
source et d’une solution logicielle commerciale de visualisation décisionnelle. Cependant, les 18 millions d’actions<br />
aujourd’hui générées quotidiennement par les utilisateurs ainsi que des revenus quadruplés par rapport à 2009<br />
imposent à cette société de s’axer sur une analyse agile des Big Data.<br />
« Les données de jeu croissent exponentiellement et évoluent en temps réel », explique Gaëlle Periat, analyste<br />
numérique chez IsCool. « Nous collectons des données issues des journaux des applications, des publications<br />
Facebook et des repères analytiques. Il est impératif que ces données soient fournies sans délai aux décideurs<br />
commerciaux afin qu›ils puissent, en temps opportun, proposer de nouvelles offres aux joueurs, prendre des décisions<br />
en matière de développement des jeux et conférer aux campagnes publicitaires un impact maximal. »<br />
IsCool avait également besoin d’une approche flexible concernant la visualisation et la présentation des données.<br />
Les concepteurs de jeux, par exemple, souhaitaient bénéficier de graphiques visuels et intuitifs, afin de pouvoir<br />
ajouter de nouvelles fonctionnalités à leurs réalisations actuelles les plus populaires. Les développeurs préféraient<br />
consulter des rapports générés à partir des fichiers journaux techniques. Les cadres supérieurs d’IsCool nécessitaient<br />
quant à eux une vision instantanée des prévisions de revenus, des pipelines et des dépenses publicitaires.<br />
DES RAPPORTS QLIKVIEW PÉRIMÉS DÈS LEUR CRÉATION<br />
Encore récemment, IsCool était équipée d’un outil QlikView. Selon Gaëlle Periat, la nature fermée de cette technologie<br />
impliquait la présence permanente d’un analyste qui devait participer à l’intégration des données. « Chaque<br />
fois qu’un cadre supérieur exigeait un rapport, nous devions mettre en place certains scripts, ce qui retardait inévitablement<br />
la fourniture des résultats », explique-t-elle.<br />
Afin de pallier à cette situation, IsCool a adopté en standard une solution d’analyse visuelle en temps réel proposée<br />
par Tableau. À la pointe de sa catégorie, cette solution d’informatique décisionnelle efficace, rentable et collaborative<br />
est utilisée par 20 équipes au sein de la société, afin de permettre des prises de décisions ponctuelles<br />
et fiables. IsCool peut connaître instantanément le nombre d’utilisateurs de ses jeux (trafic), les fonctionnalités<br />
les plus couramment utilisées, la durée des sessions de jeu, les téléchargements les plus populaires, et bien plus<br />
encore.<br />
UNE AUGMENTATION DE 23 % DE L’INTERACTION AVEC LES JOUEURS<br />
En exploitant les Big Data, l’équipe peut également étudier la corrélation entre la taille d’une communauté de<br />
joueurs et son niveau d’interaction. Une fois l’une de ces communautés identifiée (qu’il s’agisse d’un simple<br />
binôme de joueurs ou d’un regroupement de moyenne ou grande envergure), l’équipe peut interagir avec elle de<br />
façon plus efficace, la fidéliser et la faire croître de façon spectaculaire.<br />
Des jeux spécifiques passent eux aussi sous le microscope que constitue la génération de rapports. Tableau<br />
permet de répondre à des questions telles que : « Un jeu est-il trop riche en fonctionnalités ? », « Quelles sont<br />
les fonctionnalités utilisées par telle catégorie de joueurs ? », et « Comment optimiser l’accès aux fonctionnalités<br />
? » De plus, IsCool peut désormais établir de façon fiable et rapide les différentes catégories d’utilisateurs,<br />
caractérisées par leur profil d’interaction et leur utilisation des fonctionnalités. Cette meilleure compréhension de<br />
l’interaction des utilisateurs avec les jeux IsCool a mené à une augmentation incrémentielle de 23 % de celle-ci,<br />
pour certaines catégories d’utilisateurs ciblés.<br />
Dans le même temps, les cadres autorisés d’IsCool reçoivent un rapport quotidien et essentiel de veille commerciale,<br />
qui comprend les revenus générés la veille classés par catégories, le nombre d’utilisateurs simultanés du<br />
jour et le nombre de joueurs actifs. « Alors qu’il nous fallait jusqu’à une semaine pour préparer nos rapports dans<br />
QlikView, nous pouvons maintenant élaborer et partager de nouvelles idées en quelques minutes avec Tableau. »<br />
PRODUCTIFS EN QUELQUES MINUTES AVEC TABLEAU<br />
Gaëlle Periat a été convaincue dès le début. « Lorsque j’ai intégré l’équipe d’IsCool, celle-ci m’avait dit : voici<br />
Tableau, il sera ton meilleur ami. Sur le coup, je n’avais pas pris cette déclaration au sérieux. Mais en quelques<br />
minutes, j’étais productive. Je pouvais développer de nouveaux rapports en temps réel et mettre en évidence des<br />
résultats concernant l’expérience de jeu. Je n’aurais jamais pu faire cela auparavant. »<br />
En transformant IsCool en une organisation de jeu agile et axée sur les données, Tableau a aidé cette société à<br />
quadrupler ses revenus en cinq ans. « Tableau a permis à IsCool de prendre le contrôle des Big Data et a rendu<br />
notre processus de prise de décision plus rapide, plus simple et plus efficace. Je doute qu’IsCool aurait pu passer<br />
de 3 millions de dollars de revenus en 2009 à 13,2 millions de dollars aujourd’hui, sans la visualisation interactive<br />
des données que nous procure Tableau », ajoute Gaëlle Periat.<br />
Une autre composante essentielle de ce succès a été l’innovante base de données analytique Actian Vectorwise.<br />
En remplaçant une plate-forme open source, Vectorwise fournit à IsCool des performances ultra rapides et<br />
rentables en matière de bases de données et d’informatique décisionnelle. Installée sur des serveurs virtuels pour<br />
un traitement extrêmement efficace des Big Data, cette solution stocke jusqu’à un teraoctet de données de jeu.<br />
Vectorwise permet à Gaëlle Periat et ses collaborateurs d’analyser un volume de données plus grand que jamais,<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
121
Retours d’expériences Big Data en entreprise<br />
pour une fraction du coût du traitement classique de celles-ci. Elle précise : « En utilisant Vectorwise, IsCool peut<br />
traiter et exploiter d’énormes quantités de Big Data sur des machines bien plus faiblement dimensionnées. Cette<br />
rationnalisation permet à notre société d’économiser chaque année plus de 10 000 dollars de matériel. Pour une<br />
petite entreprise dynamique comme IsCool, il s’agit d’une économie significative.<br />
Pour Gaëlle Periat, il n’existe qu’une seule façon de résumer la valeur de Tableau. « Chez IsCool, nous pensons<br />
que Tableau est très cool », conclut-elle.<br />
TABLEAU SOFTWARE - NOKIA<br />
L’EXPÉRIENCE UTILISATEUR À LA VITESSE DE LA PENSÉE : NOKIA<br />
o Partner : Nokia<br />
o Contact person : Ravi Bandaru (Nokia) et Edouard Beaucourt (Tableau Software)<br />
PRÉSENTATION:<br />
L’auteur Robin Bloor est analyste principal chez Bloor Group, une société d’analyse en conseil, recherche et<br />
technologie ciblant la recherche libre et l’utilisation des médias modernes pour regrouper des informations et<br />
les redistribuer aux utilisateurs. Pour plus d’informations, consultez les sites www.TheBloorGroup.com et www.<br />
TheVirtualCircle.com.<br />
Cet entretien de Bloor Group s’inscrit dans le cadre d’un projet de recherche.<br />
RÉSUMÉ<br />
Avant Tableau, Nokia confiait ses rapports et ses analyses de données à des intermédiaires informatiques. Désormais,<br />
ce sont les utilisateurs qui tiennent les rênes. « L’analyste réalise à présent l’analyse lui-même dans une plus<br />
grande mesure, sans que le service informatique n’intervienne entre lui et les données. »<br />
Ravi Bandaru, responsable produit pour la visualisation et l’analyse des données chez Nokia, utilise Tableau depuis<br />
juillet 2010. Il affirme qu’au sein de cette société, 350 à 400 personnes utilisent Tableau (sous forme bureautique<br />
ou interactive). Une véritable communauté s’est ainsi formée.<br />
«Avant, les utilisateurs étaient effrayés à l’idée d’utiliser les outils de solution décisionnelle existants. Ils se reposaient<br />
alors sur des intermédiaires, comme le personnel informatique, pour s’occuper de leurs données», déclare-t-il.<br />
L’ANALYSE INTERNE DE LA MÉMOIRE ACCÉLÈRE L’ANALYSE ET REND<br />
L’EXPLORATION POSSIBLE<br />
Selon lui, les capacités de mémoire interne de Tableau offrent deux avantages : une interface personnalisable et<br />
une augmentation de la vitesse des performances des requêtes.<br />
«L’analyste réalise à présent l’analyse lui-même dans une plus grande mesure, sans que le service informatique<br />
n’intervienne entre lui et les données», déclare-t-il. «Ces capacités de mémoire interne me permettent d’explorer<br />
des ensembles de données plus complexes et plus vastes, qui m’étaient auparavant inaccessibles.»<br />
Nokia utilise Tableau dans le cadre d’analyses marketing et l’a installé sur sa propre base de données. Bandaru<br />
déclare que les requêtes en direct normalement exécutées dans leur base de données ne donnent pas les temps<br />
de réponse escomptés, à la différence de celles exécutées dans le moteur de données Tableau, qui apportent une<br />
réponse instantanée à partir de laquelle il peut travailler. Il ajoute que Tableau est utile dans le cadre des analyses<br />
ad hoc et que la plupart des analystes actualisent leurs données de façon hebdomadaire.<br />
Bandaru poursuit en disant qu’il lui arrive de recommander Tableau à certains types d’utilisateurs. Parfois, ce sont<br />
les utilisateurs eux-mêmes qui viennent à lui pour pouvoir l’utiliser. Toutefois, l’utilisateur final standard auquel il est<br />
confronté n’est pas intéressé par les analyses, les statistiques ou le langage SQL.<br />
UTILE POUR TOUS LES UTILISATEURS<br />
Bandaru déclare : «Si l’utilisateur final est passionné de données ou d’analyses, il adorera utiliser Tableau car ce<br />
logiciel lui permet d’accéder désormais à de nombreuses sources de données.» Un utilisateur moins expérimenté<br />
peut l’utiliser simplement comme outil de solution décisionnelle. Il revient ensuite à la direction de proposer des<br />
formations et d’expliquer que «cet outil permet de générer des travaux complexes, impossibles à réaliser avec<br />
d’autres outils.»<br />
Nokia utilise actuellement Tableau Version 6/6.1. Bandaru explique qu’il attend des<br />
améliorations dans la version 7.0, telles que le partage d’extraits dans les classeurs, permettant ainsi à un extrait<br />
de faire office de source de données, ou encore le partage d’extraits entre plusieurs utilisateurs du monde entier.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
122
Retours d’expériences Big Data en entreprise<br />
Il déclare que ce type de collaboration rationalisée serait particulièrement utile pour un nouvel employé non familiarisé<br />
avec le fonctionnement de l’entreprise. De nos jours, affirme-t-il, nous devons encore accéder à la source de<br />
données d’origine. Mais il serait bénéfique à l’avenir que ce même employé soit capable d’extraire et d’utiliser les<br />
données créées par n’importe quel service, et ce n’importe où.<br />
Bandaru essaie de faire en sorte que le produit soit adopté dans une plus grande mesure en proposant des outils<br />
de collaboration internes, tels que des wikis, des sessions des formations, des documents et des meilleures pratiques.<br />
LA DIFFÉRENCE QUI FAIT LA DIFFÉRENCE<br />
Comme l’illustre cette expérience utilisateur de Tableau version 6, Tableau passe du statut d’outil décisionnel dans<br />
le sens traditionnel du terme à un statut de plate-forme décisionnelle capable de prendre en charge une grande<br />
partie des besoins de solution décisionnelle d’une entreprise. D’un point de vue technique, la différence se situe au<br />
niveau de l’architecture. La connexion directe tire profit de sources de données existantes très performantes. De<br />
plus, le moteur de données de mémoire interne génère d’innombrables possibilités. Grâce aux fonctions de mise<br />
en mémoire cache et de traitement, les ensembles de données ne doivent pas être nécessairement chargés en<br />
totalité dans la mémoire pour que l’analyse puisse débuter.<br />
Mais il est probable que l’utilisateur ne le sache pas ou ne s’en soucie guère. Seules la vitesse et la portée sont<br />
importantes à leurs yeux. L’analyse peut s’effectuer à la vitesse de la pensée. Il est ainsi possible d’exploiter davantage<br />
de données sur un matériel plus restreint. On peut parler de véritable analyse ad hoc lorsque l’utilisateur<br />
n’est pas obligé de déterminer à l’avance les mesures à agréger ou à interroger. L’utilisateur peut explorer les<br />
données sous toutes ses formes, y entrer dans le détail ou les résumer en catégories. Quasiment tous les types<br />
de visualisation de données sont regroupés dans cette solution, et capables de traiter des ensembles de données<br />
volumineux à la vitesse de la pensée.<br />
TABLEAU SOFTWARE - PHARMASECURE<br />
PHARMASECURE ENHANCES ITS CUSTOMER VALUE<br />
PROPOSITION WITH TABLEAU<br />
o Partner : PharmaSecure<br />
o Contact person : Abhijit Acharya (PharmaSecure) et Edouard Beaucourt (Tableau Software)<br />
PRÉSENTATION:<br />
PharmaSecure, a technology provider for the healthcare industry, recognised that the company’s success was<br />
underpinned by its ability to understand patient data, derive critical insight and share it with customers regularly.<br />
Today, Tableau is helping PharmaSecure adopt an insight-driven customer service strategy that has helped the<br />
company:<br />
• Cut reporting time by weeks<br />
• Instill a culture of data-driven decision making in the organisation<br />
• Add value to stakeholder ecosystem—helping customers understand patient consumption behaviour and enabling<br />
patients to better depend on medicine<br />
CREATING A DATA-CENTRIC VALUE SYSTEM FOR CUSTOMERS<br />
PharmaSecure is a US-based software and technology company working towards improving global public health.<br />
Its offerings encapsulate a range of solutions that work towards eliminating counterfeit drugs, connecting patients<br />
with safe medicines, and impacting patient adherence.<br />
The company works with pharmaceutical companies to print unique, randomly generated codes on medicine packages.<br />
These identification codes serve two purposes: First, they allow manufacturers to track each strip or blister<br />
pack and shipping carton they produce. Second, patients can verify the authenticity of their medicine through SMS,<br />
mobile app or by feeding it on the company website.<br />
As part of this verification process, PharmaSecure enables access to a mobile health platform, allowing users<br />
to opt in to customized mobile heath programs. These programs have applications such as reminders to refill<br />
medicines, dosage checks, providing health tips etc. By creating this valuable ecosystem, PharmaSecure acts a<br />
facilitating link adding immense value to healthcare users and drug manufacturers.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
123
Retours d’expériences Big Data en entreprise<br />
RECOGNIZING AN OPPORTUNITY<br />
With the industry-wide transformation in the way healthcare is obtained, delivered and paid for, pharmaceutical<br />
companies are scouting for tools that can help them decode patients’ behaviour and consumption patterns.<br />
In the context of this trend, PharmaSecure wanted to gain insights from its growing data repository to help strengthen<br />
their partnerships with pharmaceutical customers while helping patients manage their diseases better.<br />
“Data is at the corner stone of our business and we needed to make that our differentiating element. As a company,<br />
our data volumes, client portfolio and maturity had undergone an evolutionary curve and it was time for us to use<br />
an effective solution that could generate definable, powerful and intuitive analytics,” says Samit YADAV, Senior<br />
Director, Technology and Operations, PharmaSecure.<br />
At first, the team analysed its data through a cumbersome and inefficient process. Team members would dedicate<br />
time every week to extracting information from different sources, populating Excel sheets with the data and finally,<br />
deriving graphs to visually represent the findings. To address this challenge, the company wanted an analysis solution<br />
that would offer a faster, interactive experience.<br />
USING THE POWER OF SIMPLICITY FOR POWERFUL ANALYTICS<br />
After a careful evaluation of the players in the visual analytics marketscape, in 2013 PharmaSecure chose Tableau<br />
software due to its polished and comprehensive offering.<br />
Today Tableau software is used by most members of PharmaSecure’s Operations team. Typically, PharmaSecure’s<br />
MySQL and Excel data sources generate transactional databases of 200-500 rows a day, slated to reach<br />
1000-2000 rows over the next six months.<br />
Throughout the span of 18 months that the company has used Tableau, they are gaining value by drawing insights<br />
from an ever increasing quantum of data. Today all internal reports are generated on Tableau with insights extracted<br />
from data every week and every month. This move to a prescriptive style of analytics triggers faster decision<br />
making for the company.<br />
BELIEVING IN DATA ANALYTICS AND ITS INFLUENCE<br />
Using Tableau, the company has been able to maximise the value from their growing data without having to invest<br />
any additional resources.<br />
“Tableau’s power lies in its simplicity and intuitiveness. Putting Tableau over our data integration layer, has given<br />
us substantially greater insight across the business operations- supply chain, time to market, program enrollment,<br />
distribution, sales force effectiveness among other aspects,” Abhijit elaborates.<br />
Going forward, PharmaSecure will also start Tableau deployment with its customers whereby they will be able to<br />
not only access but build Tableau data charts on their own.<br />
“The biggest highlight of using Tableau has been that our entire team now truly believes in the power of insightful<br />
data. Thanks to Tableau, we as an organisation have become a lot more excited about using data in impactful and<br />
interesting ways for our customers.”<br />
TABLEAU SOFTWARE - SKYROCK<br />
SKYROCK.COM S’OFFRE UN OUTIL DÉCISIONNEL<br />
RAPIDE ET FACILE À UTILISER<br />
o Partner : Skyrock.com<br />
o Contact person : Loïc Cadiot, chef de projet chez Skyrock et Edouard Beaucourt (Tableau Software)<br />
OBJECTIFS:<br />
Uniformiser les outils décisionnels. En effet, jusqu’à récemment, la réponse de Skyrock consistait à autoriser<br />
chaque service à utiliser son propre outil décisionnel, au détriment de l’efficacité, de la productivité et de la convivialité.<br />
Par exemple, les utilisateurs Marketing pour la partie « éditeur » (construisent le site) utilisaient un système,<br />
tandis que ceux de la régie publicitaire (monétisent le site), en utilisaient un autre pour présenter les impressions<br />
de page, les visiteurs uniques, le CA généré… etc. Skyrock s’est rendu compte que le choix d’une solution décisionnelle<br />
standardisée, unique et ultraperformante transformait la capacité de ses utilisateurs à analyser et comprendre<br />
les données. Cela s’explique par le fait que naturellement, on voit et on comprend plus efficacement les<br />
données avec des visualisations interactives. Au final, le nouveau système de Skyrock a apporté des réponses aux<br />
questions, permettant ainsi de faire progresser les audiences web et les revenus publicitaires.<br />
PRÉSENTATION :<br />
Skyrock.com est le premier réseau social de blogs français et européen, avec plus de 34 millions de blogs dans<br />
le monde. « Skyrock doit analyser de grandes quantités de données, et Tableau est une solution ultraperformante<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
124
Retours d’expériences Big Data en entreprise<br />
qui facilite grandement le reporting. La production de rapports devient plus ludique et efficace », explique Loïc<br />
Cadiot, chef de projet chez Skyrock. « Étant donné que nous gagnons du temps sur la collecte et la présentation<br />
des données, nous pouvons consacrer plus de temps à l’essentiel : l’analyse des données et la prise de décisions<br />
qui favorisent la progression des audiences et les revenus publicitaires. »<br />
Le problème : des systèmes informatiques hétérogènes. Comment bénéficier d’un outil décisionnel (business<br />
intelligence) ultrarapide et facile à utiliser, portant sur les usages des utilisateurs sur les blogs et l’efficacité des<br />
campagnes publicitaires ?<br />
ASPECTS INNOVANTS<br />
Les solutions faciles à utiliser font gagner du temps et améliorent l’analyse. Skyrock utilise une version complète<br />
de la technologie Tableau afin d’analyser rapidement les usages web et les revenus publicitaires générés par ses<br />
annonceurs. Les salariés se sont servis de Tableau pour créer des tableaux de bord intuitifs, publier les données<br />
dans un navigateur et les incorporer dans des e-mails afin qu’elles puissent être partagées par les autres utilisateurs<br />
de la société. La majorité des employés accède à Tableau à partir d’un navigateur et est capable d’obtenir<br />
les réponses à ses questions en quelques clics.<br />
L’un des facteurs clés de la réussite de Tableau est son extrême rapidité et sa facilité d’utilisation. Le déploiement<br />
de Tableau au sein de Skyrock a été géré en interne, sans soutien d’experts en technologie de l’information, et<br />
aucune formation formelle n’a été nécessaire. Le personnel s’est formé principalement à l’aide de courtes vidéos<br />
en ligne. Et les résultats parlent d’eux-mêmes : les rapports sur l’étude des usages web, qui autrefois nécessitaient<br />
une demi-journée, sont désormais créés en moins de 30 minutes. Par ailleurs, Tableau permet également la<br />
production de rapports sous différents systèmes d’exploitations, réconciliant les plateformes Windows et Mac – un<br />
problème auquel la société avait déjà été confrontée auparavant.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
125
Retours d’expériences Big Data en entreprise<br />
TALEND - LENOVO<br />
LENOVO SÉLECTIONNE TALEND BIG DATA INTEGRATION POUR<br />
AMÉLIORER ET ACCÉLÉRER SES PRISES DE DÉCISIONS BUSINESS<br />
TALEND ENTERPRISE BIG DATA ACCROIT CONSIDÉRABLEMENT SON AGILITÉ ET SES<br />
PERFORMANCES, TOUT EN RÉDUISANT SES COÛTS D’INTÉGRATION<br />
Talend, le leader mondial des logiciels d’intégration des Big Data, annonce aujourd’hui que Lenovo a sélectionné<br />
Talend Enterprise Big Data afin de mieux connaître ses clients en analysant des données issus d’un grand nombre<br />
de points de contact – tiers, API et flux de réseaux sociaux – et en dégageant de ces données une image très<br />
précise de ses clients.<br />
N°1 mondial des fabricants de PC et n°4 des constructeurs de smartphones, Lenovo cherchait à rationaliser ses<br />
processus d’intégration ainsi que le développement de rapports qu’utilise son département marketing pour analyser<br />
l’efficacité de ses campagnes. L’architecture open source de Talend et son modèle de licence prédictible basé<br />
sur l’utilisation lui a offert la flexibilité nécessaire pour répondre à ses besoins, tout en garantissant l’évolutivité du<br />
système d’intégration.<br />
Grâce à Talend Enterprise Big Data, Lenovo assure l’intégration de ses Big Data à l’aide de près de 300 processus<br />
exploités simultanément – chiffre qui est voué à croître dans les prochaines années. Parmi les nombreux bénéfices<br />
obtenus par Lenovo depuis la mise en œuvre de Talend, les réductions de coûts enregistrées représentent environ<br />
140 000 $ pour les seuls coûts de migration. En outre, Talend a aidé Lenovo à améliorer les performances de son<br />
reporting, tout en raccourcissant les délais de traitement de plusieurs heures.<br />
« Nous devons améliorer continuellement les délais d’acquisition des données et la facilité d’utilisation de la plateforme<br />
de Talend nous permet d’y parvenir » déclare Marc Gallman, Manager of Data Architecture chez Lenovo.<br />
Ces gains d’efficacité se traduisent au final par l’amélioration et l’accélération des prises de décision, ce qui a un<br />
impact positif sur les stratégies marketing du constructeur – à la fois localement et mondialement. Avec un accès<br />
plus fréquent et plus rapide aux données, Lenovo est en mesure d’ajuster rapidement ses campagnes.<br />
« Si les entreprises exploitent de plus en plus de données, elles continuent à éprouver des difficultés pour les<br />
analyser, notamment du fait de leur incapacité à intégrer des données issues de systèmes traditionnels, des<br />
réseaux sociaux et des nombreux systèmes déployés dans le Cloud » commente Mike Sheridan, Executive Vice<br />
President of Sales, chez Talend. « Nous sommes fiers de voir Lenovo choisir les solutions de Talend et sommes<br />
impatients de les aider à accéder plus rapidement et plus fréquemment à leurs données pour améliorer les prises<br />
de décision. »<br />
TALEND - BUFFALO<br />
BUFFALO STUDIOS OPTIMISE LA VALEUR DES DONNÉES POUR<br />
ACCROÎTRE SA COMPÉTITIVITÉ DANS LE SECTEUR DES JEUX SOCIAUX.<br />
LA SOLUTION DE GESTION BIG DATA TALEND ENTERPRISE CONFÈRE À L’INFRASTRU<br />
CTURE D’INTÉGRATION DES DONNÉES LA FLEXIBILITÉ DONT ELLE A TANT BESOIN<br />
Buffalo Studios, une filiale de Caesars Interactive Entertainment (CIE) basée à Santa Monica en Californie, crée<br />
des jeux de casino en ligne conviviaux et accessibles permettant aux utilisateurs de trouver de nouveaux amis<br />
grâce au divertissement interactif. Le projet le plus considérable de Buffalo Studios est Bingo Blitz, le jeu de bingo<br />
en ligne gratuit le plus diffusé dans le monde.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
126
Retours d’expériences Big Data en entreprise<br />
Des millions d’utilisateurs actifs propulsent chaque mois Buffalo Studios au sommet des classements sur Facebook,<br />
iOS, Android et Kindle. Barry Sohl, le directeur technique chez Buffalo Studios, est bien conscient des immenses<br />
opportunités d’affaires que génère la notoriété de leurs jeux. Encore faudrait-il savoir comment exploiter<br />
les données efficacement…<br />
« De manière générale, le secteur dans lequel nous évoluons fonde sa croissance sur les informations, » commente<br />
Sohl. « En effet, les informations que nous récoltons déterminent toutes nos décisions au niveau du marketing<br />
et du développement des produits. C’est grâce à cela que nous sommes toujours en avance sur nos concurrents.<br />
»<br />
Dans le cas de Bingo Blitz, Buffalo recueille des données permettant de savoir quelles cartes ont été jouées<br />
lors de chaque partie, si le joueur fait bingo ou pas, combien de crédits sont gagnés et dépensés, etc. « Chaque<br />
mouvement des données récupérées est vital. Et nous avons des centaines de points de collecte d’informations<br />
dans chaque jeu, » remarque Sohl, en ajoutant que l’entreprise traite plus de 100GB de données tous les jours, un<br />
volume qui devrait augmenter rapidement.<br />
Mais, bien sûr, il y a un obstacle. Selon Sohl : « Avant que ces données ne deviennent vraiment intéressantes<br />
pour nous, nous devons les exploiter. Alors seulement pourront-elles se transformer en levier de croissance et en<br />
avantage concurrentiel. Voilà pourquoi il est indispensable que les informations soient fiables et qu’elles puissent<br />
être intégrées à l’intérieur de notre Data Warehouse. »<br />
Élimination des blocages coûteux<br />
L’intégration de données à l’intérieur du Data Warehouse a toujours représenté un défi à Buffalo, qui utilisait un<br />
ensemble désordonné de code personnalisé et de scripts Python. Le résultat était bien en-dessous des attentes.<br />
“Chaque semaine, nous délivrons de nouvelles fonctionnalités pour nos jeux, surtout pour Bingo Blitz. Nous avons<br />
besoin d’outils spécifiques afin d’analyser leur comportement et identifier les plus performantes d’entre elles, »<br />
explique Sohl. « Nous voulons savoir qui les utilise et mesurer leur incidence sur l’environnement du jeu. »<br />
Pourtant, le système d’intégration de données tel qu’il était paramétré chez Buffalo rendait l’ajout de ces nouveaux<br />
points de mesure extrêmement fastidieux. Comme Sohl l’indique : « Il s’agissait d’une opération manuelle très<br />
pénible, au point que tout se bloquait au niveau de l’équipe chargée du traitement des données. Des informations<br />
nouvelles et importantes se retrouvaient coincées dans l’infrastructure et souvent ne passaient même pas la<br />
phase de l’extraction à partir des fichiers logs bruts. » Ces ralentissements ont hélas conduit l’équipe BI à penser<br />
que les données n’existaient pas. « Pourtant, nous les récupérions. Simplement, elles n’arrivaient jamais au Data<br />
Warehouse à cause de la lourdeur du flux, et les événements sur les données ne pouvaient y être ajoutés, » résume<br />
Sohl.<br />
Le directeur technique et ses collaborateurs savaient pertinemment qu’ils devaient trouver une solution capable<br />
d’apporter une plus grande flexibilité au niveau de l’intégration des données, ce qui leur permettrait d’ajouter de<br />
nouveaux points de mesure, et de repérer les informations cruciales pour une prise de décisions éclairée.<br />
FLEXIBILITÉ TOTALE : LA RÉPONSE DE TALEND<br />
Après avoir pris en considération la possibilité de développer en interne en Java pur, Sohl et le service technique<br />
ont décidé de s’adresser au meilleur éditeur sur le marché capable de répondre à leurs besoins. Talend est ressorti<br />
de leurs recherches. En effet, précise Sohl, « Nous nous sommes aperçus immédiatement que Talend proposait<br />
un environnement de développement plus complet et abouti que toutes les solutions faisant l’objet de nos évaluations.<br />
» Buffalo Studios a alors décidé d’effectuer des essais opérationnels de validation avec Talend et d’autres<br />
éditeurs. Talend a donné les résultats les plus convaincants.<br />
Et Sohl de poursuivre : « La solution d’intégration de données de Talend était basée sur Java, et nous avons beaucoup<br />
apprécié, parce que cela nous permettait de nous appuyer sur les compétences avérées de notre équipe.<br />
Sans compter qu’elle offrait davantage de flexibilité et qu’elle pouvait être utilisée immédiatement telle quelle, sans<br />
modifications, conjointement avec notre code Java personnalisé. »<br />
Après réflexion, Buffalo Studios a donc choisi la solution d’intégration de données Talend, y incorporant quelques<br />
composants spécifiques en Java, compatibles avec Talend.<br />
LA MISE EN PLACE<br />
Buffalo Studios a fait preuve de toute la diligence nécessaire afin de déterminer l’utilisation la plus efficace de<br />
la solution Talend pour l’intégration des données, et l’implémentation de la version de production s’est faite de<br />
manière rapide et indolore.<br />
Avec l’aide d’Artha Data Solutions, un partenaire intégrateur de Talend, Buffalo Studios est passé de la conception<br />
à l’implémentation du projet en quelques mois à peine. Et, puisqu’aucun de ses collaborateurs n’avait d’expérience<br />
avec les solutions Talend, l’entreprise a adopté le système de formation en ligne, ce qui a permis à ses ingénieurs<br />
d’acquérir en très peu de temps toutes les connaissances nécessaires.<br />
Leads plus faciles à exploiter : analyse des informations plus rapide et plus grande productivité<br />
Aujourd’hui Buffalo Studios utilise la solution d’intégration Big Data de Talend, et a obtenu la flexibilité qui lui<br />
manquait auparavant. « Quand nous avons des besoins d’analyse spécifiques, nous pouvons maintenant écrire<br />
nos propres composants Java et les incorporer à la solution Talend, » explique Sohl. « Et quand il s’agit d’ajouter<br />
de nouveaux points de mesure des données, nous ne bloquons plus le processus à notre niveau, car nos développeurs<br />
travaillent simplement avec les outils sans avoir à effectuer manuellement de laborieuses modifications. »<br />
Ce type de gestion allégée, à son tour, permet à Buffalo Studios d’ajouter de nouveaux points de données chaque<br />
semaine. D’après Sohl, le problème des blocages au niveau des fichiers logs bruts devrait maintenant être totalement<br />
résolu.<br />
Cet avantage revêt une importance capitale pour Buffalo Studios. En effet, si le service technique de Sohl n’arrive<br />
pas à livrer les informations cruciales à la direction, les décisionnaires restent dans l’incertitude. « Nous avons<br />
besoin de mesurer la performance de nos fonctionnalités, qu’elle soit bonne ou mauvaise, presque en temps réel.<br />
Plus l’exploitation des données sera simple pour nous, plus l’équipe BI pourra en tirer parti. Talend nous aide à<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
127
Retours d’expériences Big Data en entreprise<br />
optimiser les processus, à améliorer la rapidité et à accroître la valeur que nous pouvons tirer de nos données, »<br />
précise Sohl. De plus, les ingénieurs de l’équipe technique gagnent en productivité, puisqu’ils n’ont plus de problèmes<br />
d’intégration à résoudre et peuvent de nouveau se concentrer sur la construction de technologie innovante.<br />
C’est ce qui assure la croissance et la fidélisation des clients.<br />
PERSPECTIVES<br />
Globalement, Buffalo Studios est extrêmement satisfait de sa collaboration avec Talend.<br />
« Nous portons beaucoup d’intérêt à l’exploration des nombreuses possibilités offertes par Talend en termes de<br />
qualité des données. Je pense qu’il y aura un vrai potentiel à exploiter en élargissant le savoir-faire de Talend à<br />
d’autres applications, et que nous pourrons alors bénéficier de nombreux avantages au fur et à mesure que nous<br />
progresserons, » déclare Sohl.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
128
Retours d’expériences Big Data en entreprise<br />
VELVET - PAIEMENT<br />
MONÉTISATION DE LA DATA D’UN ACTEUR DE LA CHAÎNE DU PAIEMENT<br />
DANS LE CADRE D’UNE MISSION D’ÉTUDE D’OPPORTUNITÉ<br />
Dans le cadre de sa stratégie de développement et de diversification de son offre, un acteur majeur de la chaîne du<br />
paiement a été accompagné par Velvet pour concevoir des offres de monétisation de son capital data, valorisant<br />
les volumes considérables de transactions gérées.<br />
Le projet a consisté dans un premier temps à évaluer l’opportunité d’offres : analyse et diagnostic des data existantes,<br />
interview de potentiels futurs clients pour évaluer le niveau de demande du marché, benchmark des<br />
acteurs de l’écosystème de la donnée et SWOT, pour in fine définir 7 offres de services.<br />
Dans un second temps, il s’est agi de définir un Go To Market : priorisation de 5 offres en fonction de leur complexité<br />
et revenu, analyse juridique détaillée des offres, design détaillé des offres satisfaisant aux contraintes juridiques<br />
avec description, pricing, gains totaux (financier et non financier), complexité de mise en marché et illustrations, et<br />
enfin identification des partenaires potentiels pour leur lancement commercial.<br />
Cette mission a permis de valider l’intérêt du marché pour plusieurs offres de monétisation de la Big Data transactionnelle<br />
de cet acteur, avec une valorisation estimée de 5% à 10% de chiffre d’affaires additionnel.<br />
VELVET - TELECOM<br />
TRANSFORMATION ET COACHING DES ÉQUIPES BUSINESS<br />
INTELLIGENCE D’UN OPÉRATEUR TÉLÉCOM DANS L’EXPLOITATION<br />
OPTIMALE DE SON ENVIRONNEMENT BIG DATA<br />
Cet opérateur global des Télécoms a investi dans une architecture Big Data, convaincu du levier de performance<br />
apporté par cette démarche pour l’ensemble de l’organisation, notamment dans un marché ultra concurrentiel. Afin<br />
d’accompagner sa transformation Big Data, ce dernier a confié à Velvet la réalisation d’une mission de 4 mois de<br />
formation, coaching et aide à la réalisation de traitements et projets dans le nouvel environnement.<br />
Cette mission vise deux principaux objectifs :<br />
- Rendre autonome l’équipe en place dans son activité au quotidien dans l’environnement Big Data<br />
- Profiter de cette transformation pour optimiser l’efficacité du pôle en retravaillant les modes de fonctionnement<br />
et pratiques de l’équipe.<br />
Après une phase de diagnostic de l’existant (sur les plans de l’organisation, des compétences, des relations avec<br />
les entités Marketing, Commerciale, Relation client, et CRM), l’équipe est montée en compétence grâce à un plan<br />
de formation constitué des modules suivants : Mise à niveau Java, Concept Big Data et langage, Map Reduce par<br />
l’exemple, Machine Learning et Scala, Interrogation de données (Hive, Impala, Pig, …), Diverses technologies Big<br />
Data (Scoope, Flume, …) et Outils de visualisation.<br />
Afin de mettre en pratique les acquis de ces formations et de valider l’efficacité de l’exploitation de l’environnement<br />
Big Data, l’équipe a été coachée dans le cadre de la réalisation de projets concrets nourrissant des analyses et<br />
réflexions autour des problématiques Foyer et Expérience Client.<br />
Cette équipe est aujourd’hui autonome sur les principales pratiques de traitements Big Data et des premiers gains<br />
d’efficacité se sont déjà fait ressentir.<br />
Pour en savoir plus – à propos de Velvet<br />
Velvet est un cabinet spécialisé en Marketing, Digital, Ventes et Relation Client situé à Paris et Lyon. Il intervient<br />
sur l’ensemble de la chaîne de valeur client, de la définition de la stratégie à sa mise en œuvre opérationnelle et<br />
technique, grâce au levier de la Data.<br />
Velvet propose une approche globale du Big Data, résolument orientée Valeur (IT, Métier, Analytique et Organisation).<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
129
Retours d’expériences Big Data en entreprise<br />
YSANCE - ARKENA<br />
LES ENJEUX D’UNE PLATEFORME BIG DATA TEMPS RÉEL POUR ARKENA<br />
CONTEXTE<br />
Arkena, commercialise une plateforme permettant de distribuer des contenus audio et vidéo sur tous les écrans<br />
(Streaming Web, Mobile, Box, B2B, etc.)<br />
Ces contenus sont transmis via plusieurs technologies, en particulier un CDN internet qui repose sur de nombreux<br />
serveurs à travers le monde. Ces serveurs génèrent de très grande quantité de logs, actuellement utilisés pour<br />
monitorer le CDN, mais aussi pour déterminer la facturation client selon l’usage.<br />
Avec l’augmentation du nombre des clients et de la volumétrie diffusée, l’architecture en place de collecte et traitement<br />
de ces logs (Rsyslog, Postgresql, Java), ne permettait plus d’assurer les services attendues (Supervision,<br />
Alerting, Analyse et facturation).<br />
Arkena souhaitait donc remplacer ce système par une architecture hautement scalable, facile à maintenir et disposant<br />
d’un faible TCO.<br />
ENJEUX TECHNIQUES<br />
• Collecte et stockage des logs en temps réel (+ de 60 000 logs par seconde)<br />
• Archivage des logs sur au moins 3 ans<br />
• Calcul au fil de l’eau de plus de 300 KPI (Mise à jour toutes les minutes)<br />
• Mise à disposition de ces indicateurs via des appels API REST<br />
• Garantir que chaque ligne de log sera intégrée une et une seule fois<br />
• Remplacer Rsyslog par une solution plus fiable pour la collecte et la centralisation des logs depuis 30 datacenters<br />
et en garantissant l’acquittement de réception de chaque log.<br />
• Offrir un très haut niveau de disponibilité, des mécanismes de reprises sur erreur et une forte capacité de montée<br />
en charge<br />
ARCHITECTURE<br />
L’architecture mise en place par Ysance est de type “Lambda” et repose sur trois stacks techniques :<br />
Spark pour les traitements temps réel, MapReduce pour les traitements Batch et Elasticsearch pour la couche<br />
présentation.<br />
• Vitesse : La couche temps réels reposent sur Apache Spark, et calculent les KPI sur une fenêtre de temps d’une<br />
minute (agrégation de 3,6M de logs / mn). L’objectif est d’alimenter au plus vite la couche de restitution avec des<br />
indicateurs qui ne nécessitent pas de retraiter l’ensemble de l’historique des données.<br />
• Batch : La couche Batch vise à créer une vision définitive, et si nécessaire corrigée des données traitées par la<br />
couche de vitesse (en cas d’arrivée trop tardive, de redémarrage du process temps-réel, …), ainsi qu’à calculer les<br />
KPI nécessitant de traiter un historique de données plus long. (dans le cas de la dimension temps, les aggrégats<br />
à l’heure, journée, semaine, mois, …) Elle repose sur le moteur MapReduce, au travers de Hive ou de développement<br />
spécifiques Java.<br />
• Présentation : La couche de présentation réconcilie les données traitées par la couche vitesse et la couche<br />
batch, et permet ainsi d’analyser et d’aggréger dans un même dashboard des données issues de Spark et de<br />
Hive. Cette couche repose sur Elasticsearch, qui offre la possibilité d’appliquer des aggrégats au requêtage, et<br />
permet ainsi de sommer, de compter distinctement, etc… sur l’ensemble des données, avec des temps de réponse<br />
inférieurs à la seconde.<br />
• Transport : La couche transport repose sur Apache Flume. L’objectif est de collecter en streaming l’ensemble<br />
des lignes de logs vers la plateforme Hadoop, sans provoquer de blocage applicatif. La communication entre les<br />
agents Flume présents sur les edge et ceux qui écrivent sur le cluster Hadoop est effectuée par appel RPC / Avro.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
130
Retours d’expériences Big Data en entreprise<br />
Cette architecture Lambda permet de traiter un même flux de données de manière synchrone et asynchrone :<br />
• Calcul temps-réel de certains indicateurs sur une fenêtre temporelle réduite (1 min) avec un débit jusqu’à 60 000<br />
messages / sec<br />
• Recalcul batch de l’ensemble des indicateurs à J+1<br />
• Indicateurs sur une fenêtre plus longue (5mn)<br />
• Prise en compte des « arrivées tardives » et consolidation des résultats<br />
• Maintient d’un jeu de résultats unique et accessible<br />
BÉNÉFICES<br />
• 2 mois pour la mise en place du projet<br />
• Plateforme Big Data moderne (Fast Data) et hautement scalable<br />
• Enrichissement du périmètre fonctionnel actuel avec de nouveaux KPI désormais envisageables avec cette architecture<br />
• Coût projet réduit notamment grâce à l’usage systématique de solutions Open Source<br />
YSANCE - ANOVO<br />
COMMENT ANOVO A BÂTI RAPIDEMENT SON NOUVEAU SI DÉCISIONNEL<br />
GROUPE GRÂCE AUX SOLUTIONS BIG DATA D’AMAZON WEB SERVICES ?<br />
ANOVO, leader au niveau européen en prestation de services techniques et logistiques pour les opérateurs télécoms<br />
et multimédia, est un des principaux acteurs de la gestion durable du cycle de vie des produits électroniques.<br />
Chaque année, il donne une seconde vie à plus de 20 millions de produits dans le monde entier.<br />
Elle collabore avec des fabricants, des distributeurs et des opérateurs pour proposer à leurs clients des solutions<br />
de réparation, de logistique, de régénération et d’extension de garantie. Parmi les produits électroniques qu’elle<br />
traite, figurent les décodeurs, les set top boxes, les téléphones portables, les modems et les équipements réseaux<br />
des entreprises.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
131
Retours d’expériences Big Data en entreprise<br />
CONTEXTE<br />
Dans le cadre de ses activités, Anovo produit et diffuse un ensemble de tableaux de bord et reporting permettant<br />
à ses clients de suivre et analyser les travaux et services rendus par la société. A cause d’un ensemble de solutions<br />
BI développées en internes et spécifiques à une usine, un pays ou un service, Anovo souffrait des problèmes<br />
suivants : 1/ Développements et déploiements sans cadre IT structuré 2/ Absence de mutualisation des besoins et<br />
donc multiplications des développements spécifiques. En conséquence, la plateforme décisionnelle d’Anovo souffrait<br />
de rigidité, d’obsolescences et de surcoûts notamment pour faire évoluer et maintenir les rapports existants.<br />
Pour y remédier, la DSI d’Anovo a sollicité Ysance pour concevoir une nouvelle architecture décisionnelle de type<br />
Big Data et l’implémenter en s’appuyant sur les solutions de Amazon Web Services et Tableau Software. Les deux<br />
solutions ont été choisis pour les bénéfices suivants : Rapidité de mise en œuvre, simplicité de déploiement sur un<br />
ensemble des pays / usines, mutualisation des usages et autonomie des utilisateurs, réduction des coûts de run<br />
et enfin évolutivité et pérennité.<br />
ARCHITECTURE<br />
Après un POC réalisé en début 2014, l’architecture technique qui a été retenue est la suivante :<br />
• Extraction quotidienne des données utiles directement depuis les systèmes opérationnelles des sites Anovo<br />
présents dans différents pays<br />
• Stockage et archivage de ces données dans Amazon S3<br />
• Contrôles qualités au fil des remontées des données sources (alerting)<br />
• Chargement en delta des données collectées dans un DWH Redshift<br />
• Mise à disposition des données dans Tableau Software<br />
• Création, pour les utilisateurs métiers, des rapports et tableaux de bord nécessaires aux pilotages de leurs activités<br />
• Diffusion des KPI de suivi de la production, à leurs clients, via Tableau Online<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
132
Retours d’expériences Big Data en entreprise<br />
AUTOMATISATION DES CHARGEMENTS :<br />
Le nombre de tables sources devant être chargées dans le DWH Redshift étant très importants, une procédure<br />
automatisée écrite en Python permet de convertir automatiquement les DDL source (SQL Server) en DDL RedShift<br />
• Angleterre: 1300 tables en production<br />
• France : 750 tables en production<br />
• Prochains pays : Chili, Pérou, Espagne<br />
• 40 à 60 JH de développement par pays<br />
Avec sa nouvelle plateforme BI mixant Cloud et Big Data, Anovo dispose d’un environnement décisionnel unique,<br />
évolutif, peu couteux et très scalable, consolidant les données de toutes ses entités à travers le monde et garantissant<br />
agilité et rapidité pour intégrer de nouvelles sources et permettre aux métiers de produire simplement de<br />
nouveaux rapports et tableaux de bord pour leurs besoins et ceux de leurs clients.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
133