24.11.2015 Views

REX

BD16_REX

BD16_REX

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

<strong>REX</strong><br />

Retours d’expériences Big Data en entreprise<br />

www.bigdataparis.com by


Retours d’expériences Big Data en entreprise<br />

SOMMAIRE<br />

ACCENTURE - E-COMMERCE. ............ 3<br />

ACCENTURE - MEDIA. ................... 3<br />

ACCENTURE - COMMERCIAL PROPERTY. ... 5<br />

ACCESS INSIGHT - RENAULT ............. 7<br />

ATOS - MÉTÉO-FRANCE. ................. 9<br />

ATOS - ORANGE BUSINESS SERVICES .... 10<br />

ATOS - STADE TOULOUSAIN. ............ 10<br />

BAKAMAP - CCI. ....................... 12<br />

BIME - WEEKENDESK. . . . . . . . . . . . . . . . . . . 13<br />

CAPGEMINI - CLOUDERA. ............... 14<br />

COMPLEX SYSTEMS - TELE SHOPPING. ... 16<br />

COUCHBASE - AMADEUS. ............... 19<br />

CRAY - INSTITUTE FOR SYSTEMS<br />

BIOLOGY. ............................ 20<br />

CSC - HGST. . . . . . . . . . . . . . . . . . . . . . . . . . . 22<br />

CSC - ASSURANCES AUTO .............. 23<br />

CSC - VOYAGISTE ONLINE .............. 24<br />

DATA PUBLICA - CEGID . ................ 26<br />

DATA PUBLICA - CCI PARIS. ............. 26<br />

DATA PUBLICA - B-POST ................ 27<br />

DATAIKU - BLABLACAR ................. 28<br />

DATAIKU - CHRONOPOST ............... 29<br />

DATAIKU - CITYVOX. ................... 30<br />

DATAIKU - PAGESJAUNES. .............. 31<br />

DATAIKU - PARKEON ................... 32<br />

DELL - DANSKE BANK .................. 33<br />

DELTAMU - SANOFI-PASTEUR. ........... 35<br />

DELTAMU - TRAITEMENT THERMIQUE. .... 35<br />

HP - AT&T ............................ 36<br />

HP - BLABLACAR ...................... 38<br />

HP - METROPOLITAN POLICE<br />

DE LONDRES ......................... 39<br />

INFORMATICA - WESTERN UNION. . . . . . . . . 41<br />

MAPR - ANCESTRY.COM ................ 43<br />

MAPR - COMSCORE. ................... 44<br />

MARKLOGIC - DE GRUYTER. ............ 45<br />

MARKLOGIC - ELSEVIER. ............... 46<br />

MARKLOGIC - HEALTHCARE.GOV. ........ 49<br />

MARKLOGIC - OXFORD UNIVERSITY<br />

PRESS. .............................. 50<br />

MARKLOGIC - PRESS ASSOCIATION. ...... 56<br />

MARKLOGIC - REED BUSINESS<br />

INFORMATION - 4D CONCEPT. ........... 57<br />

MARKLOGIC - RSC. .................... 59<br />

MICROPOLE - L’OBS. ................... 62<br />

MICROSOFT - PIER IMPORT ............. 63<br />

MICROSOFT - THYSSENKRUPP. .......... 63<br />

MICROSOFT - CARNEGIE. ............... 64<br />

MONGO DB - BOSCH . .................. 67<br />

MONGO DB - METLIFE. ................. 68<br />

MONGO DB - OTTO. .................... 70<br />

MONGO DB - WEATHER CHANNEL. ....... 72<br />

NEO4J - EBAY. ........................ 74<br />

NEO4J - GAMESYS. .................... 75<br />

NEO4J - GLASSDOOR .................. 76<br />

NEO4J - SNAP INTERACTIVE. ............ 77<br />

NEO4J - TELENOR. .................... 78<br />

NEO4J - WALMART. .................... 79<br />

SAP - MOBILINK. ...................... 80<br />

SAP - COX. ........................... 80<br />

SAP - BELGACOM. ..................... 81<br />

SAP - BANGLALINK DIGITAL<br />

COMMUNICATIONS. . . . . . . . . . . . . . . . . . . . . 82<br />

SAP - VODAFONE. ..................... 82<br />

SAP - XL ............................. 83<br />

SAP - AVIVA. .......................... 83<br />

SAP - ELDORADO. ..................... 84<br />

SAP - SAMSE ......................... 85<br />

SAP - HSE24. ......................... 86<br />

SAP - MONEXT . ....................... 86<br />

SAP - AMERICAN AUTOMOBILE<br />

ASSOCIATION. ........................ 87<br />

SAP - SKYROCK . ...................... 87<br />

SAP - COOPERATIVA ITALIANA DI<br />

RISTORAZIONE. ....................... 88<br />

SAP - TIPP24.COM. .................... 89<br />

SAP - KAESER KOMPRESSOREN. ........ 89<br />

SAP - EBAY . .......................... 90<br />

SAS - SANTIANE. ...................... 92<br />

SAS - ELFE/INED ...................... 93<br />

SAS - UTAC-OTC. ...................... 95<br />

SAS - BANK OF AMERICA. ............... 96<br />

SAS - FRAPORT. ...................... 98<br />

SAS - MACY’S. ........................ 99<br />

SAS - NESTLÉ. ........................100<br />

SAS - RABOBANK. .....................102<br />

SAS - TELECOM ITALIA. .................103<br />

SENTELIS - ASSURANCE MUTUELLE. .....105<br />

SENTELIS - CRÉDIT À LA<br />

CONSOMMATION. .....................106<br />

SENTELIS - MUTUELLE D’ASSURANCE ....107<br />

SENTELIS - ÉNERGIE. ..................108<br />

SENTELIS - JEUX EN LIGNE. . . . . . . . . . . . . 110<br />

SENTELIS - EDITEUR SOFTWARE. ........110<br />

SOFT COMPUTING. ....................113<br />

SYNCSORT - SFR. .....................115<br />

SYNCSORT - PAGESJAUNES. ............115<br />

SYNCSORT - TÉLÉCOMS, MÉDIAS,<br />

ENTERTAINMENT. .....................116<br />

TABLEAU SOFTWARE - BNP PARIBAS. .....118<br />

TABLEAU SOFTWARE - CROIX ROUGE. ....119<br />

TABLEAU SOFTWARE - ISCOOL ..........120<br />

TABLEAU SOFTWARE - NOKIA. ...........122<br />

TABLEAU SOFTWARE - PHARMASECURE .. 123<br />

TABLEAU SOFTWARE - SKYROCK. . . . . . . . 124<br />

TALEND - LENOVO. ....................126<br />

TALEND - BUFFALO ....................126<br />

VELVET - PAIEMENT. ...................129<br />

VELVET - TELECOM. ...................129<br />

YSANCE - ARKENA. ....................130<br />

YSANCE - ANOVO. .....................131<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

2


Retours d’expériences Big Data en entreprise<br />

ACCENTURE - E-COMMERCE<br />

ACCENTURE’S IMPLEMENTS PATENTED DIGITAL OPTIMIZATION (ADO)<br />

& ACCENTURE RECOMMENDATION ENGINE (ARE) SOLUTIONS HELP<br />

SUSTAIN HIGH GROWTH AND MAXIMIZE SHAREHOLDER VALUE<br />

CLIENT PROFILE<br />

A leader China’s B2C e-commerce portals with 35% market share, and growing at 200% annually. The Company<br />

was exploring alternative growth areas, beyond category expansion.<br />

BUSINESS CHALLENGE<br />

The currently recommended system’s was below industry benchmarks. Especially in contribution to sales.<br />

Over a given week, many changes were applied to the website, but there was no good way to measure its ROI.<br />

Each web-page change was slow and not many were tested each time.<br />

The client had over 2 million unique SKUs, 20 million registered users, 1 million transactions per day and up to 3<br />

billion page views per month. For this reason, it needs to optimize its data management, processes and system.<br />

HOW ACCENTURE HELPED<br />

Derived insight from the data and identified links between data that drive conversion from recommendations.<br />

Identified key data drivers including transactional data (product, customer and purchase history) as well as behavioral<br />

data (browser behavior, search data, page views), in order to increase the richness of data analysis.<br />

Accenture’s patented Recommendation Engine (ARE) was implemented. This combine multiple machine learning<br />

techniques (basket analysis, collaborative filtering, nearest neighbour) for different scenarios to optimize recommendation<br />

efficiency. The Patented Digital Optimization (ADO) solution was implemented in order to maximize<br />

webpage presentation and online marketing at scale. This industrialized multi-variable testing solution allowed<br />

thousands of design variations to be tested.<br />

HIGH PERFORMANCE DELIVERED<br />

Machine learning algorithms improved using ARE.<br />

Number of users given irrelevant product recommendations minimized<br />

Conversion rates increased.<br />

This recommendation outperformed the clients internally recommended engine by up to an estimated 30%, which<br />

translated into increased revenue initially estimated to be up to $100 million per year and expected to grow over<br />

time. The solution also enabled segment-based testing, which increased efficiency of testing at such a large volume<br />

of traffic. This optimization experience delivered a substantial CVR uplift and estimated revenue uplift of about<br />

$200 million per year.<br />

ACCENTURE - MEDIA<br />

HIGH-PERFORMANCE CUSTOMER ANALYTICS WITH A MAJOR PLAYER<br />

IN EUROPE: INSIGHT CREATES COMPETITIVE ADVANTAGE<br />

FOR TV OPERATOR<br />

CLIENT PROFILE<br />

This media client is a leading pay television service operator in Europe transmitting live programs and video-ondemand<br />

via cable, satellite, digital terrestrial television and broadband.<br />

The company has 6 million customers, representing nearly 12 million contracts, including more than 4 million customers<br />

receiving hundreds of channels.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

3


Retours d’expériences Big Data en entreprise<br />

BUSINESS CHALLENGE<br />

Customer churn was rising, partly due to the global economic slump, a corresponding reduction in consumer discretionary<br />

income and diminished usage of its pay channels. Free-of-charge TV channels increased their market<br />

share, and Internet service providers launched competing video-on-demand services.<br />

Limited knowledge of customers inhibited long-term growth in the digital era. Customer surveys failed to dig far<br />

beyond generalities such as household size, preferred program type and equipment. As a result, customer campaigns<br />

tended to be broad in scope and relatively expensive to implement.<br />

Digitalization and a widening array of viewing devices - including tablets, mobile phones and Web TV -offered huge<br />

opportunities to collect data on usage by household. Web-based giants such as Amazon, Facebook and others<br />

understood this trend and built up customer loyalty by offering tailored suggestions based on analyses of online<br />

interactions. Using customer analytics, virtually every interaction with media player services can be added to a<br />

continually updated log and analyzed for insight.<br />

To compete more effectively, our media customer launched a large-scale program on usage and services statistical<br />

analysis. Extensive sources of data knowledge could be gathered to develop insights for improved services. Their<br />

executives turned to us for assistance with customer and marketing analytics, all aligned with high performance.<br />

HOW ACCENTURE HELPED<br />

Accenture helped its client to define the project, outline the multi-year plan in successive phases, shape the technology<br />

solutions, build prototypes, promote these within the organization and monitor the gains.<br />

The project was launched through a proof-of-concept phase, based on a sample of 100,000 customers. Accenture<br />

Interactive organized a pilot for each initiative to gauge potential return on investment.<br />

The project leverages TV digitalization and the ability to gather data per household on television activity, such as<br />

switching channels, use of services, multi-screen usage and so on. One hundred million logs are collected daily,<br />

providing a strong foundation to:<br />

Build new insights: who watches Cable News Network, or do CNN viewers also watch other information channels?<br />

Optimize marketing campaign efficiency: a complete set of usage indicators, calculated at the subscriber level, is<br />

used to refine targets.<br />

Viewing Recommendations, an innovative recommendation engine, integrates statistical analysis of usage and<br />

services data with internal and external evaluations of programs and movies. Accenture developed a unique algorithm<br />

to identify “best for you” programs by combining viewer habits and discovery. Each new recommendation<br />

engine release is validated by prototypes, is beta-tested and verified on customer samples. Using business rules<br />

- such as a customer’s preferred themes, or the likelihood of discovering something new he or she would like – the<br />

engine offers a tailored selection of TV programs every evening for each household.<br />

The recommendation engine is embedded within applications, including the electronic TV program guide, customer<br />

Website, newsletters, and call-center scripts.<br />

HIGH PERFORMANCE DELIVERED<br />

In an increasingly competitive media market, Accenture has worked closely with its client over four years, contributing<br />

to reduced churn, increased customer satisfaction and restoration of the company’s reputation for innovation.<br />

Robust capabilities translate customer preferences into strategies to reduce churn (churn is two percent less<br />

among recommendation engine users), improve service and boost revenue.<br />

Today, the statistical analysis of usage and services project is:<br />

More than 200 key usage indicators per customer, which are used to personalize 40% of marketing campaigns<br />

and newsletters<br />

25 million personal recommendations calculated daily<br />

Helping boost TV consumption among recommendation engine users, which is up more than 20%<br />

More than 2.5 million of our client’s households are expected to enjoy the capabilities of personalized viewing<br />

recommendations in 2013, with a forecast of 3 million by the end of 2014.<br />

“Our recommendation engine goes a step beyond Google” in the words of the media client’s Chief Executive Officer.<br />

“Our customers don’t have to seek because our tool anticipates their needs and suggests appealing programs”.<br />

Customer analytics capabilities continue to be refined throughout the media client’s organization, with additional<br />

features offered to millions of subscribers. In addition, the growing base of detailed information about viewing preferences<br />

has become an asset in itself that can be monetized and sold to other businesses.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

4


Retours d’expériences Big Data en entreprise<br />

ACCENTURE - COMMERCIAL PROPERTY<br />

HIGH-PERFORMANCE BIG DATA ANALYTICS IN SHOPPING MALLS:<br />

BIG DATA IMPROVES KEY BUSINESS DECISIONS FOR COMMERCIAL<br />

PROPERTY COMPANY<br />

CLIENT PROFILE<br />

The client is one of the leading commercial property companies in the world.<br />

BUSINESS CHALLENGE<br />

In a shopping mall, the last touch points with customers are stores. Due to its central position in the customer<br />

journey, the shopping mall can only manage to improve the journey from the entrance of the mall to the entrance of<br />

the shops. Therefore, the choice of stores and their location inside the shopping mall are key business decisions.<br />

Previously, the Client made rent calculations and decisions for store renewals based on financial performance.<br />

Operational performance measures data, such as customer traffic, were used as well but lacked precision and<br />

insights. As a result, a large portion of the operational value of the shopping mall was misunderstood.<br />

Wi-Fi data was a great opportunity for shopping malls. By tracking customer devices, one million logs per day and<br />

day per mall could be used to follow traffic more precisely. Coupled efficiently with stores’ financial performance,<br />

this massive amount of data gives a better picture of their true performance. This commercial property company<br />

asked Accenture to process all Wi-Fi tracking data to follow traffic in the shopping mall and link it with all existing<br />

data in order to better assess the true value of its stores and make the right business decisions.<br />

HOW ACCENTURE HELPED<br />

Accenture helped the commercial property company by launching Wi-Fi traffic tracking and creating value from this<br />

Big Data. Insightful key performance indicators were developed in two malls through a pilot phase.<br />

By combining new and existing data, the shopping malls were able to:<br />

Make better store renewal decisions: by understanding which stores create/consume traffic for/from other stores<br />

and identifying the best performers (in terms of sales and traffic) to decide which stores will stay or be relocated<br />

Identify new potential tenants: by knowing the customers and their journey in the shopping malls and using traffic<br />

synergies between stores. Estimate the rental value of stores more accurately: by putting stores’ financial results<br />

into perspective with their operational performance to improve area pricing Make better marketing investments: by<br />

evaluating the return on investment of different marketing events.<br />

HIGH PERFORMANCE DELIVERED<br />

Accenture worked closely with the commercial property company during the one-year pilot phase to leverage the<br />

maximum value from the Data:<br />

10 sources of data were combined<br />

180 million logs were analyzed<br />

6 data quality algorithms were implemented<br />

… through a Big Data environment:<br />

Cloud-based Hadoop platform<br />

Tableau, html and iPad reports<br />

R, Python, Quantum JS<br />

The project has already improved the key business decisions of the shopping malls: for instance, two undefined<br />

renewal decisions were resolved much faster and the variety of the stores was maintained because of the new<br />

insights. New pricing estimates could improve the rental value of the two pilot shopping malls by several million<br />

euros. Big Data Analytics was quickly integrated in the two pilot shopping malls with noticeable results and would<br />

be improved by extending the analysis to new shopping malls with new data and insights for consistently faster<br />

and better business decisions.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

5


Retours d’expériences Big Data en entreprise<br />

CONTACT<br />

Jean-David Benassouli : Managing Director Digital & Analytics<br />

j-david.benassouli@accenture.com<br />

Clara Landry : Digital Marketing Associate Manager<br />

c.landry@accenture.com<br />

ABOUT ACCENTURE<br />

Accenture is a global management consulting, technology services and outsourcing company, with approximately<br />

319,000 people serving clients in more than 120 countries. Combining unparalleled experience, comprehensive<br />

capabilities across all industries and business functions, and extensive research on the world’s most successful<br />

companies, Accenture collaborates with clients to help them become high-performance businesses and governments.<br />

The company generated net revenues of US$30.0 billion for the fiscal year ended Aug. 31, 2014. Its home<br />

page is www.accenture.com.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

6


Retours d’expériences Big Data en entreprise<br />

ACCESS INSIGHT - RENAULT<br />

CASE STUDY RENAULT : CONSTRUCTEUR AUTOMOBILE DE RÉFÉRENCE<br />

Constructeur automobile Français de référence, Renault a vendu plus de 2,6 millions de véhicules en 2013, un<br />

chiffre en hausse de 3,1% comparativement à 2012. Très présent sur le marché des particuliers, le constructeur<br />

répond également avec brio aux besoins actuels des entreprises (moteurs compétitifs en terme de consommation<br />

et de fiscalité, pertinence des offres utilitaires) ce qui lui a valu d’être classé numéro un des ventes sur ce secteur.<br />

«En un instant, nous avons rendu la démarche de prospection de nos vendeurs interactive»<br />

Jean-Louis Wiedemann : Chef de service Marketing Ventes - Flottes et Véhicules Utilitaires<br />

LE CHALLENGE<br />

Le service Marketing Flotte Entreprise acquiert régulièrement des données publiques stratégiques concernant le<br />

marché automobile Français. Compilées à d’autres sources de données possédées par Renault sur son marché<br />

cible, ces informations regorgent d’opportunités à identifier et à exploiter.<br />

Mais un problème se pose : comment croiser et retranscrire ces données de façon simple et interactive à leurs<br />

équipes opérationnelles ? Renault se met donc à la recherche d’un outil qui permettrait à ses équipes commerciales<br />

et marketing non seulement de pouvoir accéder à ces informations de façon instantanée et en toute<br />

autonomie mais aussi de pouvoir interagir avec les données.<br />

L’accès aux données aura deux buts principaux :<br />

1) Permettre aux vendeurs du réseau de concessionnaires et managers grands comptes d’avoir une vision précise<br />

de la part de marché de Renault sur leur secteur et de la façon de l’accroitre. Ces informations permettront<br />

d’optimiser l’effort commercial et de préparer un argumentaire sur mesure.<br />

Pour se faire, l’outil devra permettre de pouvoir « zoomer » en profondeur sur chaque secteur et entreprise pour<br />

révéler toutes les informations au moment voulu.<br />

2) Permettre aux services marketing nationaux ou régionaux d’accéder à une vue globale du marché et des<br />

performances de Renault (part de marché par secteur, taux facilement des campagnes ciblées qui répondent aux<br />

attentes des performances commerciales. La solution devra être interactive et permettre de donner non seulement<br />

une vision globale de la situation du marché mais également une vision précise par secteur et même par commune<br />

pour chaque manager. «La démonstration de l’outil en interne a eu un réel succès. D’autres services ont<br />

immédiatement imaginé se servir d’Access Insight pour leurs projets »<br />

Jean-Louis Wiedemann : Chef de service Marketing Ventes Flottes et Véhicules Utilitaires<br />

LE CHOIX<br />

Renault était déjà équipé de nombreuses solutions de Business Intelligence. Cependant, Access Insight s’est<br />

présenté comme le choix le plus judicieux pour ce type de projet de tableaux de bord accessibles en réseau par<br />

un grand nombre d’utilisateurs.<br />

L’outil s’est également distingué des autres car il permettait une mise en place rapide avec un démarrage en<br />

mode SaaS, ne nécessitant pas d’interventions majeures de la part du service IT.<br />

LA SOLUTION<br />

Pour répondre aux besoins de Renault, Access France a présenté au service marketing sa solution de tableaux<br />

de bord interactifs et collaboratifs, Access Insight. Afin de permettre une mise en place rapide de la solution,<br />

Renault a choisi d’utiliser la solution dans le « Cloud »<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

7


Retours d’expériences Big Data en entreprise<br />

IMPLÉMENTATION<br />

« En deux semaines nous avons délivré une première version opérationnelle, en intégrant les données<br />

d’immatriculation achetées par Renault et en réalisant les premiers tableaux de bord pour que l’équipe marketing<br />

France de Renault puisse les tester » Matthieu Chabeaud, Directeur Commercial Access France<br />

LES RÉSULTATS<br />

Une détection immédiate des opportunités pour les vendeurs du réseau L’accès à des informations précises<br />

sur les entreprises de leur secteur permet aux vendeurs d’identifier en un instant lesquelles sont susceptibles de<br />

renouveler leur flotte ou peuvent être intéressées par de nouveaux véhicules. Bien informés, les commerciaux se<br />

concentrent ainsi sur l’essentiel.<br />

Un argumentaire ciblé : les commerciaux savent exactement quels arguments adopter face à leurs prospects. Les<br />

tableaux de bord leur permettent de pouvoir se préparer en conséquence et d’identifier les opportunités en filtrant<br />

et creusant dans les données.<br />

Un accès instantané à des analyses du marché pour le marketing : Alors que l’accès à des analyses poussées du<br />

marché prenait un temps non acceptable avant le début du projet, le service marketing accède maintenant aux<br />

informations clés sur l’ensemble de ses cibles en un instant et peut planifier plus.<br />

Fort du succès rencontré par l’outil au sein des différents services, Renault prévoit d’étendre cette utilisation.<br />

POST-IMPLEMENTATION<br />

Plus de 600 chefs des ventes et managers grands comptes utilisent à ce jour la solution Access Insight.<br />

de pénétration par rapport aux concurrents, caractéristiques de la flotte des entreprises…). Toutes ces informations<br />

permettront une connaissance optimale des entreprises et un ciblage précis. Un message adapté répondant<br />

presque à coup sûr aux besoins de chaque segment pourra facilement être établi.<br />

RÉSUMÉ<br />

Access Insight permet au service marketing et commercial de Renault entreprise une vue instantanée sur ses<br />

performances, sur le marché et sur ses cibles. L’outil permet non seulement une vision globale mais également<br />

une vision par secteur et par prospect ou client pour une préparation optimale des argumentaires commerciaux.<br />

Un avantage concurrentiel non négligeable pour Renault.<br />

Avant la mise en place d’Access Insight, les vendeurs avaient accès à des listings de prospections basiques crées<br />

à la demande par le service marketing. Aujourd’hui grâce à Access Insight, ils ont directement accès à des informations<br />

précises sur les entreprises les plus pertinentes, susceptibles d’acquérir des véhicules ou de renouveler<br />

leur flotte.<br />

A PROPOS D’ACCESS INSIGHT<br />

La solution de business intelligence nouvelle génération d’Access permet aux décisionnaires d’analyser rapidement<br />

les performances de leur activité, d’identifier les problèmes et de déceler les opportunités en temps réel. Son<br />

coté “user-friendly”, son interface mobile, ses fonctions collaboratives et ses performances font de la solution un<br />

outil adapté aux besoins actuels des utilisateurs.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

8


Retours d’expériences Big Data en entreprise<br />

ATOS - MÉTÉO-FRANCE<br />

MÉTÉO-FRANCE CHOISIT LA NOUVELLE GÉNÉRATION<br />

DE SUPERCALCULATEURS BULL, MARQUE TECHNOLOGIQUE<br />

DU GROUPE ATOS, D’UNE PUISSANCE CRÊTE TOTALE DE PLUS<br />

DE 5 PÉTAFLOPS À L’HORIZON 2016<br />

Météo-France développe et utilise un système de collectes de données météorologiques temps réel, mises à jour<br />

toutes les heures pour alimenter ses systèmes de modélisation et ainsi piloter et suivre les évolutions climatiques<br />

et les risques liés à la météo en vue d’informer et de protéger les citoyens, les industriels, les agriculteurs…<br />

Ce système a une double mission : les prévisions météorologiques quotidiennes et la recherche sur le climat.<br />

LES OBJECTIFS DE MÉTÉO FRANCE<br />

• Améliorer et rendre plus précises les prévisions et la localisation des phénomènes météorologiques pour une<br />

prévention des risques plus efficace et de meilleure qualité, pour plus de sécurité au quotidien.<br />

• Diversifier l’offre de services de Météo France : prévisions court terme, définition de nouveaux marchés et de<br />

nouveaux supports de diffusion de l’information météo.<br />

LA SOLUTION D’ATOS :<br />

• Système 12 fois plus puissant que le système précédent<br />

• Architecture évolutive : la puissance système peut être multipliée par 3<br />

• Supercalculateur conçu pour une efficacité énergétique optimale: consommation électrique optimisée, empreinte<br />

carbone réduite grâce à une technologie de refroidissement innovante.<br />

LE PROJET<br />

Les supercalculateurs sont installés à Toulouse. Dotés d’un système de refroidissement innovant ultra performant,<br />

équipés des processeurs Intel® Xeon® de dernière génération, les supercalculateurs bullx livrent actuellement<br />

une puissance de calcul d’environ 1 Petaflops, puis à l’horizon 2016, une performance totale dépassant 5 Petaflops.<br />

Cette augmentation des moyens de calcul de Météo-France se double d’une évolution technologique importante<br />

: le passage de la technologie vectorielle à la technologie scalaire qui repose sur les standards du marché et<br />

permet de fournir une puissance de calcul parallèle nettement supérieure, pour un TCO moindre.<br />

POURQUOI ATOS ET LES TECHNOLOGIES BULL ?<br />

Le choix de Météo-France souligne le savoir-faire développé par Atos en matière de parallélisation des codes applicatifs<br />

utilisés dans les domaines de la météorologie et des sciences du climat. Une plus grande parallélisation<br />

est essentielle pour l’utilisation optimale des nouvelles machines scalaires. Elle exige une évolution indispensable<br />

des codes de calcul qui représente en elle-même un grand challenge, auquel sont confrontés tous les instituts<br />

météorologiques dans le monde.<br />

« Atos est fier du choix de Météo-France pour nos plus récents et nos plus puissants supercalculateurs bullx. » déclare<br />

Philippe Vannier, Vice-Président Exécutif d’Atos, Big Data & Security. « Le choix de Météo-France confirme<br />

la capacité d’Atos, appuyé par ses technologies Bull, à aider les grandes organisations dans la modernisation de<br />

leurs infrastructures de calcul, dans les domaines vitaux pour la société et stratégiques pour les États que sont<br />

aujourd’hui la prévision météorologique et l’étude du climat » conclut Philippe Vannier.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

9


Retours d’expériences Big Data en entreprise<br />

ATOS - ORANGE BUSINESS SERVICES<br />

UNE SOLUTION DE SUPERVISION RÉSEAU QUI FOURNIT DES<br />

RÉFÉRENTIELS ET PERMET LA PRODUCTION D’INDICATEURS, POUR<br />

GARANTIR UN SERVICE DE HAUTE QUALITÉ<br />

Le projet OpenStat assure en temps réel la collecte d’informations sur les équipements du réseau ou sur les systèmes<br />

de médiation, la consolidation des indicateurs et la production d’un reporting interactif pour plus de 15 000<br />

clients entreprise en « near real-time » consultable en IHM, aux formats papier et M2M.<br />

LES OBJECTIFS D’ORANGE BUSINESS SERVICES<br />

• Faire évoluer un système obsolète datant de 15 ans pour assurer le reporting d’usage et de performance des<br />

offres entreprises<br />

• Réduire les coûts de maintenance, d’exploitation et d’évolution<br />

• Accroître l’agilité<br />

- collecter les données et éditer un reporting sans pâtir des évolutions systèmes permanentes et des contraintes<br />

d’un SI hétérogène<br />

- revoir la définition et la liste des indicateurs<br />

LA SOLUTION D’ATOS<br />

• Une solution basée sur l’OpenSource, tirant parti des avancées des solutions NoSQL<br />

• Une base NoSQL de type Graphe (OrientDB) pour le référentiel, apportant une grande souplesse dans la modélisation<br />

du réseau et de la performance dans son utilisation<br />

• Une Base NoSQL de type Clé/Valeur (Cassandra) permettant d’absorber le flux continu et important de données,<br />

tout en les parcourant en temps réel pour produire les indicateurs<br />

• Une architecture SOA et 100% évolutive basée sur JEE 7<br />

• La description en XML de la présentation, de la navigation dans l’IHM du calcul du reporting à destination de<br />

l’application en « map reduce » de production des indicateurs<br />

LE PROJET<br />

La solution d’Atos mise en œuvre permet, en toute fiabilité, la captation et le stockage de 10 millions d’indicateurs<br />

bruts toutes les cinq minutes. Sur la base de cette énorme masse de données, des centaines d’indicateurs sont<br />

construits par OBS à destination de 15 000 de ses clients entreprises. Ces tableaux de bord sont consultables en<br />

temps réel sur différents types de supports. Ce projet permet de réduire de manière drastique la production de<br />

nouvelles offres – divisée par environ trois - et rend possible le prototypage en agilité.<br />

ATOS - STADE TOULOUSAIN<br />

LE STADE TOULOUSAIN PREND LE POULS DE SES SUPPORTERS,<br />

FAVORISE LA COMMUNICATION PROACTIVE ET DÉVELOPPE UNE<br />

RELATION SOLIDE AVEC SES PARTENAIRES ET CLIENTS.<br />

Le Stade Toulousain a choisi une solution permettant l’analyse des informations circulant sur les réseaux sociaux,<br />

et en particulier Twitter. Il convient, dans cette énorme volumétrie de données, de trouver l’information utile et utilisable.<br />

Ce qui se dit sur le Stade Toulousain et ce qu’expriment les fans est collecté et analysé, des rapports sont<br />

ensuite construits. Cet outil permet d’adapter l’offre aux tendances et aux souhaits des supporters et de développer<br />

ainsi de nouveaux business.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

10


Retours d’expériences Big Data en entreprise<br />

LES OBJECTIFS DU STADE TOULOUSAIN<br />

• Développer une vision client 360°<br />

• Mieux connaître les fans, identifier influenceurs et ambassadeurs pour adapter les offres<br />

• Mettre en place un marketing ciblé<br />

• Fidéliser les supporters et en attirer de nouveaux.<br />

• Augmenter les ventes de produits dérivés et remplir les stades à plus de 90%<br />

LA SOLUTION FASTCONNECT D’ATOS<br />

La solution s’articule autour de quatre composants majeurs<br />

• Une solution Tibco pour la collecte des données.<br />

• Une plateforme Hadoop et des composants de son écosystème<br />

• Un socle BI temps réel<br />

• Spotfire de Tibco pour le reporting et la construction de tableaux de bord « Social Network Analytics ».<br />

Quelques détails de la solution : FLUME collecte les différents tweets alors que des données sont collectées via<br />

les outils Tibco et déposées au sein de la plateforme Hadoop. La plateforme Hadoop permet le stockage, le tri et<br />

le calcul statistique. De plus des composants de l’écosystème Hahoop sont utilisés : OOZIE orchestre les traitements,<br />

HIVE/IMPALA observe les données et les résultats, OPENNLP gère l’analyse sémantique. A cet ensemble<br />

est associé un Datawarehouse pour la consolidation d’information structurée. Enfin la Solution Spotfire de Tibco<br />

prépare et présente le reporting ainsi que les tableaux de bord.<br />

POURQUOI ATOS ?<br />

Ce projet est à l’initiative de FastConnect, société du Groupe Atos, partenaire du Stade Toulousain depuis de nombreuses<br />

années : il a été proposé et présenté au Stade Toulousain, la démarche très innovante a séduit, la solution<br />

est en production. La proposition d’Atos représente le compromis gagnant entre un prix compétitif, un savoir-faire<br />

fonctionnel et technique. Le Stade Toulousain a fait le choix de la solution FastConnect, société du Groupe Atos,<br />

pour son expertise dans le Big Data et le support qu’il apporte à une équipe SI client restreinte.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

11


Retours d’expériences Big Data en entreprise<br />

BAKAMAP - CCI<br />

LA CCI DE RÉGION NORD DE FRANCE ET BAKAMAP<br />

Le service Innovation de la CCI de Région Nord de France réalise des prestations dans le domaine de la veille,<br />

pour les PME-PMI, pôles d’excellence et de compétitivité de la région. Afin d’améliorer la qualité de son offre de<br />

services, CCI Innovation s’est dotée en 2011 d’une plateforme de visualisation cartographique de l’information.<br />

Depuis le lancement du projet, CCI Innovation confie le développement de son outil et ses évolutions à l’agence<br />

Bakasable. Quatre années de travail qui ont déjà aboutit à une véritable «Formule 1» dans le domaine de la<br />

datavisualisation. De nouvelles fonctionnalités seront implémentées d’ici juin 2015 pour améliorer d’avantage la<br />

performance de l’outil existant.<br />

EXPLORER DES DONNÉES TEXTUELLES PAR LA CARTOGRAPHIE<br />

Basée sur l’analyse de l’information (corpus de textes) et la cartographie temporelle, la solution Bakamap, développée<br />

pour la CCI de Région Nord de France, est un véritable outil d’aide à la décision stratégique. Ainsi, elle<br />

permet :<br />

- d’accéder facilement et intuitivement aux informations associées à une thématique (acteur, technologie, etc);<br />

- de naviguer dans un grand volume de données sans se perdre : plus de 20 000 articles, issus de 60 sources web<br />

sont rapidement accessibles grâce la visualisation;<br />

- de filtrer ou de cumuler les thématiques, afin d’affiner la recherche et se focaliser sur une partie du corpus;<br />

- de percevoir les évolutions des thématiques dans le temps - à l’aide d’une timeline et d’un système de régression<br />

linéaire - et de détecter les technologies émergentes;<br />

- de découvrir les interactions entre les acteurs, les technologies, les zones géographiques (navigation<br />

de proche en proche),<br />

- d’exporter en vectoriel le résultat de la recherche.<br />

Aujourd’hui, Jean Dufour, conseiller veille au sein de la CCI de Région Nord de France, utilise la cartographie pour<br />

aider les entreprises à identifier des marchés, des acteurs, des technologies en pointe sur un secteur d’activité,<br />

mais aussi à se positionner dans l’écosystème de sa région.<br />

NOUVEAU : BRING YOUR OWN DATA !<br />

QUAND LA DATAVISUALISATION S’OUVRE AU GRAND PUBLIC !<br />

La visualisation de l’information, c’est beau (souvent), utile (parfois)…mais au fond qu’est ce que c’est ? Pour<br />

répondre à cette question, l’agence Bakasable propose aujourd’hui un système de datavisualisation et de cartographie<br />

de l’information accessible et compréhensible à tous !<br />

Disponible sur http://www.bakamap.fr/byod/, cet outil gratuit permet non seulement de cartographier en ligne ses<br />

propres bases de données (Excel, Access), mais aussi de comprendre les enjeux de la datavisualisation avec un<br />

exemple concret et personnel.<br />

Les multiples interactions existantes, peu évidentes sur un tableau classique, sont visibles immédiatement grâce à<br />

une représentation claire et graphique. L’utilisateur peut donc visualiser n’importe quel jeu de données, découvrir<br />

les interactions qui les lient entre elles (quels sont les noeuds ? où sont les liens ?), et naviguer facilement à travers<br />

son patrimoine informationnel !<br />

Un tableau de bord permet d’accompagner l’utilisateur dans la configuration de sa carte. Il aura ainsi le choix<br />

d’afficher entre 2 à 5 catégories pour découvrir les interactions entre toutes ses données, mais aussi d’exporter au<br />

format PNG le résultat obtenu.<br />

Ce service gratuit est actuellement en version Bêta. Il s’accompagnera d’une offre payante, d’ici l’été 2015, donnant<br />

accès à d’autres fonctionnalités pour aller encore plus loin dans l’exploitation de ses données.<br />

CONTACT<br />

Heidi GHERNATI : 1 rue Suffren - 44000 NANTES<br />

06 03 55 16 78 - ghernati.h@bakasable.fr<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

12


Retours d’expériences Big Data en entreprise<br />

BIME - WEEKENDESK<br />

BIGDATA & CLOUD : WEEKENDESK.COM, BUSINESS ANALYTICS 100% EN LIGNE<br />

1. OBJECTIFS<br />

Weekendesk est une agence de voyage 100% en ligne, leader de la vente de courts séjours en Europe. Le site<br />

génère plus de 46M€ de Volume d’Affaires sur les 3 pays que sont la France, la Belgique et l’Espagne. Porté par<br />

le département Finance & Business Analytics, leur projet BigData s’articulait d’abord sur une logique de sortie du<br />

Reporting en silo, dû à l’hétérogénéité de leurs sources de données. Il s’agissait en priorité d’agréger des données<br />

financières et de les mixer avec celles du trafic de leurs sites web et du comportement de leurs consommateurs.<br />

2. PRÉSENTATION<br />

a. Nature des données traitées<br />

Weekendesk est un site web marchand dont les 25 000 commandes par mois génèrent un important volume de<br />

données transactionnelles entre les clients et les hôtels. Weekendesk analyse aussi constamment l’évolution de<br />

son trafic et son taux de conversion clients en rapport avec son offre produit et/ou service de son catalogue. Avec<br />

plus de 2 millions de visites par mois en moyenne, Weekendesk utilise Google Analytics. Les données transactionnelles<br />

de réservation sont stockées dans des bases de données SQL et un ERP propriétaire en ligne. D’autres<br />

données sont disponibles dans le Google Drive de l’entreprise.<br />

b. Ressources et méthodologie (compétences humaines, outils techniques, fonctionnement du traitement de la donnée)<br />

Le Reporting était précédemment produit via Excel avec une multitude de tableaux croisés dynamiques associés<br />

et d’onglets, pour couvrir tous les indicateurs clés des différents départements métiers. Ce Reporting a rapidement<br />

atteint les limites techniques d’Excel (volumétrie croissante et problème de disparité des données), devenant difficilement<br />

exploitable. En sélectionnant BIME, Weekendesk peut désormais reproduire son schéma de Reporting<br />

initial avec comme amélioration majeure la fluidité de se connecter nativement à toutes les sources de données<br />

(SQL, Google Analytics et Drive) depuis un seul et même endroit, puis d’agréger les informations en quelques<br />

clics, pour enfin construire et partager des tableaux de bord de pilotage en ligne avec le top management et les<br />

différents départements.<br />

c. Calendrier de déploiement<br />

Le projet a démarré en avril 2014. La Direction analyse les tableaux de bord depuis août 2014.<br />

Weekendesk a fait appel à un intégrateur pour travailler en amont les connexions on premise aux bases de données SQL.<br />

3. ASPECT NOVATEUR<br />

Weekendesk est une société 100% web, orientée cloud et mobilité. Chaque employé doit impérativement accéder<br />

à ses données métiers depuis n’importe où. La solution de Business Intelligence de BIME, 100% web correspond<br />

parfaitement à cet ADN. Grâce à la gestion des profils et droits utilisateurs, chaque Business Analyst rentabilise<br />

son temps de production des analyses. Un même tableau de bord, agrégeant plusieurs sources de données, peut<br />

en effet être partagé avec le Comité de Direction et les départements métiers. Le Comité accède aux informations<br />

globales de l’entreprise tandis que les métiers (vente, marketing) ne voient qu’un périmètre autorisé.<br />

4. VALORISATION OBSERVÉE DE LA DONNÉE<br />

Exploitation de la richesse du croisement des informations multi-sources dans les tableaux de bord, à la volée,<br />

au même endroit et en ligne. Production simplifiée de graphiques visuels permettant une compréhension rapide<br />

des performances des canaux d’acquisition. Visibilité accrue des résultats des ventes web par région, par canal<br />

de vente (force de vente interne, service client, pur web), par source (ordinateur, tablette, smartphone), dans un<br />

contexte croissant de volume de données. Actualisation real time des indices de compétitivité des offres, disponibles<br />

en ligne pour les métiers, chacun étant capable d’exécuter des requêtes adhoc pour répondre à leur question.<br />

5. ETAPES À VENIR ET DÉMARCHE BIG DATA DANS L’ENTREPRISE<br />

Optimisation, augmentation et mix des collectes de données de ventes et de réservations pour renforcer la granularité<br />

de l’analyse au client près. Objectif : migrer les données CRM (dont Salesforce) & Marketing (dont les données<br />

d’Attribution comme C3 Metrics) dans Google BigQuery pour produire des tableaux de bord des profils clients<br />

et de leurs comportements d’achats, le plus rapidement possible. Bénéficier des technologies Cloud pour rester<br />

fidèle à l’ADN Web de Weekendesk et disposer d’une plateforme d’analyse puissante connectée en direct à toutes<br />

les sources de l’entreprise, pouvant grandir à l’infini.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

13


Retours d’expériences Big Data en entreprise<br />

CAPGEMINI - CLOUDERA<br />

ONE OF THE WORLD’S LARGEST HR FIRMS IS USING CLOUDERA<br />

ENTERPRISE TO MATCH JOB SEEKERS WITH OPENINGS AND BUILD NEW<br />

SERVICES FOR ITS CLIENTS<br />

Capgemini and Cloudera Big Data Solution Helps Global Employment Agency Improve Insight into Localized Job Markets<br />

THE SITUATION<br />

The client is one of the world’s largest HR service providers, operating in approximately 40 countries. It faced a<br />

challenge around the sheer volume of information that is increasingly becoming available in job markets today.<br />

Sources include everything from job boards, institutions, LinkedIn, and other social media, to videos and company<br />

reports. Even sources such as weather forecasts can be relevant in relation to seasonal and tourism industry job<br />

opportunities.<br />

The HR service provider wanted to develop a platform to consolidate all available jobs in a particular geography.<br />

They asked Capgemini to demonstrate how an enterprise data hub, based on Cloudera Enterprise, could deliver a<br />

Big Data solution that would help them gain faster access to higher quality information.<br />

The initial objective was to find ways to tackle volumes of information for its own business, with the secondary aim<br />

of developing entirely new HR services for governments and companies. This would include becoming far more<br />

proactive in job markets, anticipating requirements and opportunities, and acting to fulfill recruitment requirements.<br />

THE SOLUTION<br />

A Big Data solution was needed to manage and deliver rapid insight into the sheer volumes of data involved.<br />

Capgemini and Cloudera experts worked closely with the client’s team to list and prioritize the use-cases relevant<br />

for their initial business goals. This led to a proof of concept (POC) project to match job demand and supply in a<br />

specific geography - in this case, France.<br />

Capgemini’s solution involved implementing four major elements not present in the existing system:<br />

• Cloudera Enterprise to store all data and run the data modeling engine<br />

• An analytical SQL database running in conjunction with Cloudera Enterprise<br />

• A data visualization product<br />

• A solution to geo-code the geographical data<br />

As part of the solution, a learning algorithm processes the text within CVs and job openings to identify and flag<br />

similarities. The solution also delivers data from the visualization product to the existing reporting tools which are<br />

already familiar to business users.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

14


Retours d’expériences Big Data en entreprise<br />

THE RESULT<br />

The initial project has successfully demonstrated the viability of the Big Data solution to deliver improved insight<br />

into job markets in a specific geography. This enables users to more proactively match job seekers with relevant<br />

openings.<br />

The system automated the matching of offers and CVs. For instance it was able to analyze 200,000 documents<br />

(including offers and CVs) in only two hours using a handful of computers. The client has verified the results of the<br />

analysis, with the feedback that “users have been amazed” by the accuracy of the system.<br />

After a successful and low-cost POC, the project is now being expanded to explore around 15 additional business<br />

use-cases. These include features such as the ability to have the amount of employment contracts signed per<br />

month, per activity, and per work area or the ability to analyze the travel time between the job seeker and the job<br />

offer.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

15


Retours d’expériences Big Data en entreprise<br />

COMPLEX SYSTEMS - TELE SHOPPING<br />

KNOWLBOX : PLATE-FORME DE DATA MARKETING UNIQUE, LE PLUS<br />

COURT CHEMIN VERS UNE STRATÉGIE MARKETING OPTIMISÉE<br />

LE BESOIN<br />

Les big data ont envahi l’espace médiatique depuis quelques années. Si nombre d’articles détaillent les bénéfices<br />

qu’elles procurent, tant en termes de connaissance client, d’optimisation de processus ou d’amélioration des<br />

capacités de prévision des entreprises, peu s’attardent sur les méthodes qui permettent de les matérialiser. C’est<br />

certainement la raison pour laquelle seulement 25% des entreprises déclarent avoir déjà mis en place un marketing<br />

personnalisé, alors qu’elles sont 80% à souhaiter exploiter davantage leurs données pour optimiser les actions<br />

marketing.<br />

LA SOLUTION:<br />

KNOWLBOX, plate-forme de data marketing unique vous aide à utiliser de manière optimale toutes vos données.<br />

KNOWLBOX propose directement une palette de modules d’analyse métier. Toute l’expertise nécessaire est dans<br />

l’outil. Les résultats présentés sont validés par des tests de significativité statistique. Le déploiement des modèles<br />

sur l’univers de production est réalisé dans le même flux que l’analyse, donc sans risque d’erreur, très simplement<br />

et extrêmement rapidement. Connecté en permanence avec la base de données, les modèles sont mis à jour en<br />

temps réel.<br />

LES AVANTAGES:<br />

Simplicité, rapidité, flexibilité, rentabilité. Quel que soit le type de votre entreprise, KNOWLBOX vous assure de<br />

tirer des conclusions justes pour prendre les décisions en toute sérénité. Vous améliorez ainsi le retour sur investissement<br />

de votre stratégie omnicanale, personnaliser vos offres pour fidéliser vos clients, et faire croitre votre<br />

entreprise grâce aux data.<br />

LA DÉMONSTRATION AVEC TELESHOPPING:<br />

Filiale à 100% de TF1, et première société française de téléachat, TELESHOPPING s’appuie sur 4 canaux de<br />

diffusion produits. La télé (1), avec 18 000 heures de programmes par an, qui permet de découvrir près de 300<br />

nouveaux produits par an, les magasins (2), les sites internet (3) et enfin, le catalogue papier (4), avec 6 millions<br />

d’envois annuels. Le catalogue, qui présente une offre produits beaucoup plus étendue que la télé, est un élément<br />

central de la stratégie de fidélisation aux côtés de des cartes de fidélité et des leviers digitaux.<br />

Mais pour Olivier Dubois, responsable du Département Fidélisation e-CRM et Marketing Digital, la question était :<br />

Le catalogue papier est il encore rentablement efficace?<br />

«Nous devions mesurer, dans des temps très courts, l’impact du catalogue sur les ventes, notamment au regard<br />

de l’impact du web et des émissions.<br />

Ceci impliquait d’arrêter de raisonner en silo, et reconstituer une vision business globale. Compte tenu des<br />

volumétries en jeu et du fait qu’il était nécessaire de reconstituer différentes cohortes de clients sur plusieurs années,<br />

c’était un vrai projet big data.»<br />

«KNOWLBOX est conçue pour répondre directement à toutes sortes de problématiques marketing, de connaissance<br />

client et d’analyse prédictive… La solution répondait tout à fait à nos besoins : quelques jours ont suffi pour<br />

son déploiement, à la fois pour intégrer nos données – 1.2 millions de clients, et l’intégralité de leur historique de<br />

comportement - et pour la paramétrer. Et ceci sans aucun impact sur notre SI.<br />

A partir de là, l’analyse détaillée de l’impact du catalogue sur nos ventes a été menée, conformément à la promesse<br />

de l’outil, en quelques clics !<br />

Nous avons mesuré avec KNOWLBOX une augmentation du nombre de commandes de 50% due au catalogue,<br />

et démontré que la réception du catalogue augmente les ventes de l’émission télé de 20%. Au final, c’est la durée<br />

de vie du client même qui est impactée.<br />

Cette étude nous a aussi permis de découvrir la puissance, alliée à une grande simplicité, de la plateforme analytique<br />

KNOWLBOX, avec laquelle des scores d’appétence catalogue ont aussi été développés et déployés.<br />

A TELESHOPPING, nous n’avons plus aucun doute sur la place du catalogue papier dans une stratégie de fidélisation<br />

client.»<br />

C’est ainsi qu’à contre-courant d’une bonne partie des VADistes, TELESHOPPING démontre que son catalogue<br />

papier est un facteur de développement des ventes.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

16


Retours d’expériences Big Data en entreprise<br />

AVEC SA NOUVELLE PLATE-FORME BIG DATA ANALYTIQUE KNOWLBOX, COMPLEX<br />

SYSTEMS PERMET À TOUTES LES ENTREPRISES DE PRENDRE LES DÉCISIONS BA-<br />

SÉES SUR LEURS DATA.<br />

A la fois éditeur de solutions data analytiques pour le marketing et bureau d’études depuis près<br />

de 20 ans, COMPLEX SYSTEMS innove avec la plate-forme KNOWLBOX qui permet à toutes<br />

les entreprises, quelles que soient leurs contraintes budgétaires, techniques ou humaines, de<br />

pouvoir enfin prendre des décisions reposant sur leurs données.<br />

LA PUISSANCE DE L’ANALYTIQUE À LA PORTÉE DE TOUTES LES ENTREPRISES<br />

La plate-forme KNOWLBOX permet à toutes les entreprises qui ont des données de pouvoir enfin les utiliser pour<br />

optimiser leurs décisions marketing.<br />

Elle supprime les freins à la mise en place d’une démarche data driven - manque d’expertise, coût des logiciels et<br />

temps - et permet une montée en compétence interne progressive et adaptée sur les sujets data. La tarification<br />

sous forme d’abonnement fonction de l’utilisation garantit un budget maitrisé.<br />

Avec KNOWLBOX, COMPLEX SYSTEMS donne à toutes les entreprises le moyen de s’engager simplement,<br />

selon leurs besoins et en toute sécurité dans une démarche marketing data driven gagnante.<br />

KNOWLBOX PLATE-FORME BIG DATA MARKETING FLEXIBLE ET SANS ENGAGEMENT<br />

KNOWLBOX est une plate-forme big data marketing, déployée et paramétrée en 2 jours sur tout type de base -<br />

ORACLE, MySQL, SQLServer, cloud Amazon Web Services... Sans programmation ni traitements de données,<br />

encapsulant une véritable intelligence datamining et dédiée aux problématiques marketing, KNOWLBOX simplifie<br />

drastiquement l’expérience utilisateur. La plate-forme, conçue pour répondre directement aux questions des<br />

directions marketing telles que valeur client, appétence produit, parcours client, cycle de vie, repose sur des<br />

algorithmes éprouvés, et apporte aux dataminers et experts métier des résultats performants immédiatement exploitables.<br />

Offre unique sur le marché, elle est utilisable selon les besoins selon 3 modes :<br />

• En mode autonome, la plate-forme logicielle est livrée clé en main, avec un accompagnement sur 2 mois qui<br />

garantit le succès de son implantation.<br />

• En mode collaboratif, à mi-chemin entre logiciel et outsourcing, l’utilisateur bénéficie de l’expertise et du support<br />

des dataminers du bureau d’études de COMPLEX SYSTEMS, et externalise certaines études.<br />

• En outsourcing l’entreprise dispose d’une plate-forme analytique externalisée et du bureau d’études prêt à répondre<br />

à toutes les demandes de la direction marketing<br />

Proposée sous la forme d’un abonnement mensuel, sans engagement, KNOWLBOX s’adapte à chaque instant<br />

exactement aux besoins de l’entreprise ; son utilisation peut passer d’un mode à un autre sans contrainte.<br />

L’INNOVATION TECHNOLOGIQUE<br />

KNOWLBOX est la seule plate-forme big data analytique, dotée de fonctionnalités clés en main à la fois prédictives<br />

et exploratoires, spécifiquement dédiée aux problématiques marketing. Véritable innovation de rupture,<br />

KNOWLBOX analyse directement les données stockées dans une base de données relationnelle, sans extraction,<br />

sans traitement, sans constitution de fichier d’analyse. Le processus analytique est direct, simple, rapide. En<br />

supprimant l’étape de constitution d’un fichier, jusqu’ici incontournable dès qu’on sort du cadre des problématiques<br />

BI, KNOWLBOX raccourcit considérablement le temps de réalisation des modèles prédictifs, apporte une souplesse<br />

inégalée, et met enfin l’analytique à la portée de profils métier. C’est une avancée majeure qui permet à un<br />

grand nombre de profils métiers d’utiliser les données.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

17


Retours d’expériences Big Data en entreprise<br />

A PROPOS DE COMPLEX SYSTEMS<br />

COMPLEX SYSTEMS a été créé en 1996 à l’époque de l’émergence du datamining par deux passionnés de<br />

data. Avec 20% de son activité consacrée à la R&D data, et près de 20 ans d’expertise datamining, COMPLEX<br />

SYSTEMS, qui a gardé son esprit de start-up, est un éditeur innovant de solutions analytiques de connaissance<br />

client pour le marketing.<br />

COMPLEX SYSTEMS aide les entreprises à exploiter leur capital data, acquérir la connaissance client, développez<br />

et déployer les modèles prédictifs dont elles ont besoin.<br />

CONTACT<br />

Hélène Ivanoff - 01 42 21 48 86 - hivanoff@complex-systems.fr<br />

www.complex-systems.fr<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

18


Retours d’expériences Big Data en entreprise<br />

COUCHBASE - AMADEUS<br />

COUCHBASE HELPS AMADEUS POWER THE TRAVEL INDUSTRY<br />

Today’s travel industry is seeing rapid growth, high customer expectations, fierce competition and pressure on<br />

margins. It’s a market driven by new technologies, new entrants and new business models. Amadeus, the leading<br />

Global Distribution System (GDS) and the biggest processor of travel bookings in the world, looks to NoSQL and<br />

Couchbase to meet stringent data management needs within a demanding industry.<br />

THE NEEDS<br />

The mission of Amadeus is to be the leading provider of IT solutions that enable success in the travel and tourism<br />

industry. The company is a Global Distribution System (GDS), meaning they take travel and tourism data from<br />

airlines, car companies, hotel chains, cruise lines, etc., and distribute it to travel agencies, corporations, travel<br />

websites, airports, and other distributors. As the world’s leading GDS, Amadeus must manage a huge workload<br />

daily, with absolutely no room for service outages, supporting:<br />

• 3.7 Million Bookings per Day<br />

• 1.6 Billion Transactions per Day<br />

• 45 Billion Database Accesses per Day<br />

• 13 Petabytes of Storage<br />

• Response Time of Less than 0.5 Seconds<br />

• Thousands of Developers Pushing New Features (100+ Changes per Day)<br />

Amadeus became interested in NoSQL technology and Couchbase because they needed greater scalabilty and<br />

flexibility for the service-oriented architecture (SOA) on which the business runs. Specifically they needed a lowlatency<br />

key-value store to achieve the required service levels for their architecture, including:<br />

• Consistent high performance (submillisecond latency)<br />

• Elasticity to support frequent capacity expansions of their server farms, needed to handle traffic growth<br />

• Seamless topology changes<br />

Data persistence to support a very write-heavy environment<br />

COUCHBASE AT WORK<br />

To get started with Couchbase, Amadeus implemented Couchbase Server for two applications. The first, the Amadeus<br />

Selling Platform Connect, is the website professional travel agents rely on for doing business. The Platform<br />

supports 500,000 terminals and 150,000 simultaneous users. All web sessions are long-lived, usually lasting the<br />

entire business day, and the amount of session data that needs to be stored is about a half a terabyte. Amadeus<br />

wanted to offload the user sessions, which were stored in JVMs, and move them to a distributed, scalable robust<br />

system, enabling them to reduce TCO and increase scalability. With Couchbase they can achieve this goal, and<br />

maintain a responsive experience for the end users.<br />

The second application, the Availability Processing Engine, is the engine behind many popular travel sites. If you<br />

have ever booked travel online, you have encountered this engine. which displays travel information such as<br />

prices, flights, and dates. This is a critical application for Amadeus, and the one with the most pressing need for<br />

the performance improvements that key-value technology offers. The original system had 28 relational databases<br />

and over 20 terabytes of data. Peak traffic is two million reads of objects per second, and 400K writes per second.<br />

The average object size is about 1 KB.<br />

Amadeus is a leading provider of advanced technology solutions for the global travel industry. Customers include<br />

travel providers (airlines, hotels, rail and ferry operators, etc.), travel sellers (travel agencies and websites), and<br />

travel buyers (corporations and travel management companies).<br />

The Amadeus group employs around 10,000 people worldwide, serving 195 countries. For the year ended December<br />

31, 2012 the company reported revenues of 910.3 million and EBITDA of 1,107.7 million. Amadeus is listed on<br />

the Spanish Stock Exchange under the symbol “AMS.MC” and is a component of the IBEX 35 index.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

19


Retours d’expériences Big Data en entreprise<br />

CRAY - INSTITUTE FOR SYSTEMS BIOLOGY<br />

CRAY SOLUTION BRIEF | CANCER RESEARCH USING<br />

A BIG DATA APPROACH<br />

THE CHALLENGE<br />

Cancer researchers have a wealth of data available to them regarding the molecular and clinical characteristics of<br />

the many forms of cancers and the use of therapeutic drugs to treat disease. This data includes both proprietary<br />

research from their own labs as well as publicly available data such as The Cancer Genome Atlas and other collaborative<br />

scientific and public sources.<br />

The hypothesis is that big data could be used to identify potential new drug treatments from data already available<br />

through analysis of gene-drug relationships without performing “wet” lab work first.<br />

However, traditional analytics tools and techniques to test these hypotheses often take several weeks to months<br />

to execute. They are time consuming because data scientists must assemble all of the necessary data into a new<br />

data model to determine whether the researcher’s hypothesis is accurate. Because of the extensive amount of time<br />

between question and answer, the results of the experiment may be irrelevant by the time they are finally delivered.<br />

The researchers at the Institute for Systems Biology (ISB) wanted to determine whether they could significantly<br />

compress this wait time. They wanted a way to get to “yes” or “no” quickly in order to prioritize drug repurposing<br />

opportunities; this would then accelerate the discovery of new cancer treatments that could be moved through the<br />

drug development and approval process quickly, thus making a major difference to cancer patients.<br />

THE URIKA-GD PLATFORM ADVANTAGE:<br />

To rapidly validate scientific hypotheses in real time and discover new connections within their<br />

existing data, the ISB team needed a powerful solution that enabled data discovery at scale.<br />

THE SOLUTION<br />

The ISB team worked with Cray to develop an innovative, real-time approach to cancer research discovery using<br />

the Urika-GD graph analytics appliance. Using the Urika-GD system, the team was able to assemble all of its<br />

data into a single graph in the appliance’s vast shared memory — eliminating the need to partition the data or create<br />

time-consuming and complex data models prior to posing a hypothesis. This solution is scalable, which allows<br />

the data set to expand over time without losing performance or data integrity.<br />

The ISB team identified new cancer therapy candidates by exploring correlations between frequently mutated<br />

genes from tumor samples to identify existing gene-drug associations that could be possible drug candidates. In<br />

addition to discovering promising new therapies, they also sought to rapidly eliminate from consideration those<br />

drugs that would not deliver the desired result..<br />

To deliver results quickly, the researchers needed a way to discover unknown relationships within the data that the<br />

current data management strategy couldn’t deliver. The Urika-GD system enabled ISB’s researchers to look at the<br />

data in a different way than what they’d be limited to with query-based relational database systems, where the data<br />

determines what questions can be asked. This resulted in a clear visualization of the connections and associations<br />

within the data to help identify promising candidates for new therapies.<br />

The graph analytics approach enabled the research team to identify thousands of drug repurposing opportunities<br />

that warranted further investigation. For example, this methodology revealed that nelfinavir, which is used to treat<br />

HIV, showed selectivity in a separate research study for HER2-breast cancer. The ISB team came to the same<br />

conclusion about nelfinavir in a fraction of the time, with no need for hands-on “wet lab” work to test the hypothesis<br />

- validating the accuracy and efficacy of the big data approach for identifying drug treatment solutions.<br />

THE URIKA-GD PLATFORM ADVANTAGE<br />

The Urika-GD system, with its large global shared memory, RDF/SPARQL interface and proprietary Threadstorm<br />

multithreaded graph processors, allowed the team to rapidly integrate ISB’s proprietary data with publicly available<br />

data, enabling the researchers to identify new relationships in the data without any upfront modeling. No advance<br />

knowledge of the relationships within the data is required to identify non-obvious patterns, facilitating true data<br />

discovery.<br />

Using the Urika-GD platform instead of traditional database strategies and investigative laboratory experiments,<br />

the ISB researchers significantly reduced the time to discovery, saving months or years of research with a higher<br />

probability of success.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

20


Retours d’expériences Big Data en entreprise<br />

SOLUTION BRIEF | CANCER RESEARCH<br />

The impact of using a more powerful analytics solution was immediate-and dramatic: In the amount of time it previously<br />

took to validate a single hypothesis, the team could now validate 1,000.<br />

About Urika-GD The Urika-GD big data appliance for graph analytics helps enterprises gain key insights by discovering<br />

relationships in big data. Its highly scalable, real-time graph analytics warehouse supports ad hoc queries,<br />

pattern-based searches, inferencing and deduction. The Urika-GD appliance complements an existing data warehouse<br />

or Hadoop® cluster by offloading graph workloads and interoperating within the existing analytics workflow.<br />

ABOUT CRAY GLOBAL SUPERCOMPUTING LEADER<br />

Cray Inc. provides innovative systems and solutions enabling scientists and engineers in industry, academia and<br />

government to meet existing and future simulation and analytics challenges. Leveraging more than 40 years of<br />

experience in developing and servicing the world’s most advanced supercomputers, Cray offers a comprehensive<br />

portfolio of supercomputers and big data storage and analytics solutions delivering unrivaled performance, efficiency<br />

and scalability. Go to www.cray.com for more information.<br />

©2014 Cray Inc. All rights reserved. Specifications subject to change without notice. Cray is a registered trademark<br />

and Urika-GD is a trademark of Cray Inc. All other trademarks mentioned herein are the properties of their respective<br />

owners. 20140915<br />

www.cray.com<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

21


Retours d’expériences Big Data en entreprise<br />

CSC - HGST<br />

AMÉLIORER LA SATISFACTION CLIENT ET LA QUALITÉ DES PRODUITS<br />

AVEC UNE PLATEFORME BIG DATA AS A SERVICE<br />

Western Digital, l’un des leaders mondiaux de la conception et de la fabrication de disques durs s’est attaqué<br />

au défi d’accroître la qualité de ses disques durs, d’améliorer l’efficacité opérationnelle de sa fabrication et de<br />

permettre aux personnes de toute l’entreprise de profiter de nouvelles données. Le problème auquel l’entreprise<br />

devait faire face était des ensembles de données qui devenaient si vastes et complexes qu’il devenait compliqué<br />

de travailler avec ces données en utilisant les outils et techniques habituels. En utilisant la solution CSC Big Data<br />

Platform as a Service pour relever ces défis, la totalité des sources de données disparates de HGST a pu être mise<br />

en pratique professionnelle en fournissant des outils permettant d’afficher l’ensemble de « l’ADN » de l’entreprise<br />

— du développement à la fabrication, en passant par les tests de fiabilité et le marketing et les ventes - pour que<br />

tout soit accessible à tout moment et en quelques secondes. Une fois en production, la plateforme de big data CSC<br />

leur a permis d’accroître les normes de qualité, d’améliorer la qualité du produit fini et d’augmenter les niveaux de<br />

satisfaction des clients. Le retour sur investissement du projet a été immense grâce à des économies tirées des<br />

cas d’utilisation initiaux qui ont payé pour l’intégralité de cet effort en trois mois.<br />

ENJEU<br />

L’unité des disques durs (DD) de Western Digital devait relever plusieurs défis, comme des échéances de projet<br />

très courtes, l’intégration de sources de données disparates, une expertise interne réduite et des volumes de données<br />

gigantesques. Lorsqu’une intégration client échoue lors d’un test, le client de Western Digital demande à<br />

voir les données de fiabilité pour tous ses disques durs, afin d’établir une comparaison. Avant, ce processus aurait<br />

pris des semaines d’effort manuel, notamment si les données devaient être extraites de différents silos et bandes<br />

d’archive.<br />

SOLUTION<br />

Infochimps, une société de CSC, a aidé Western Digital en déployant son Big Data Cloud grâce à un moteur<br />

d’analyse de données machine sophistiqué. Nous avons également proposé une infrastructure très évolutive offrant<br />

des interfaces simples pour ajouter de nouveaux éléments de données et déployer de nouvelles analyses de<br />

données s’appuyant sur des solutions open source de sociétés leader du Web comme Google, Yahoo !, Facebook.<br />

RÉSULTATS<br />

Grâce à l’analyse des big data, l’intégralité de l’ADN d’un disque - du développement à la fabrication et au test de<br />

fiabilité - est accessible à tout moment. La nouvelle infrastructure implique une charge opérationnelle minimale (en<br />

tant que service entièrement géré), une échéance de développement réduite et une infrastructure souple et agile<br />

pour convertir efficacement les données en recettes.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

22


Retours d’expériences Big Data en entreprise<br />

CSC - ASSURANCES AUTO<br />

COMPAGNIE D’ASSURANCE AUTOMOBILE LEADER DU MARCHÉ<br />

AMÉRICAIN : FOURNIR UNE PLATEFORME BIG DATA ÉCONOMIQUE POUR<br />

TRAITER UN VOLUME IMPORTANT DE DONNÉES TÉLÉMATIQUES<br />

RÉSUMÉ<br />

Une compagnie d’assurance automobile leader du marché qui compte plus de 18 000 agents au service de 81<br />

millions de clients aux États-Unis et au Canada souhaitait lancer un programme fondé sur la télématique qui permettrait<br />

à ses conducteurs de personnaliser leur prime automobile en fonction de leur conduite. CSC a proposé<br />

une plateforme de big data économique conçue et gérée pour mettre en pratique les exigences de niveau de service<br />

à une vitesse sans précédent afin de traiter des volumes élevés de données télématiques par le biais d’une<br />

plateforme à forte disponibilité. La solution a accéléré le délai de mise sur le marché et a permis de respecter les<br />

délais commerciaux essentiels.<br />

ENJEU<br />

Cette initiative particulièrement visible au niveau du Conseil d’Administration visait à rattraper le retard sur d’autres<br />

opérateurs qui offrent déjà des produits sur le marché. Elle nécessitait une plateforme prenant en charge une application<br />

analytique fondée sur un haut volume de données télématiques.<br />

Les challenges à relever étant :<br />

- La capacité à répondre aux exigences de mise sur le marché de l’entreprise<br />

- Le fossé de compétences technologiques internes<br />

- les plateformes technologiques actuelles n’étaient pas capables de réaliser ce traitement et n’étaient pas<br />

économiques<br />

SOLUTION<br />

Une plateforme solide, intégrée et sécurisée pour permettre à une application de télématique de tirer le meilleur<br />

parti des technologies d’infrastructure et de sécurité informatiques pour les analyses et la collecte de données.<br />

Un moteur d’ingestion de big data hébergé avec un réseau hautement sécurisé<br />

Conçu pour des volumes élevés de données télémétriques (6 millions de clients)<br />

Haute disponibilité fournie par 2 centres de données pour la continuité de l’activité<br />

Solutions de surveillance et de sécurité de classe mondiale avec assistance 24h sur 24, 7j sur 7<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

23


Retours d’expériences Big Data en entreprise<br />

RÉSULTATS<br />

La solution a permis la mise en place d‘un programme de discount sur les polices d’assurance lié à la qualité de<br />

conduite. Ce programme s’appuie sur l’analyse des habitudes de conduite en traitant des quantités massives de<br />

données venant de capteurs et en développant des modèles dynamique d’analyse de risques<br />

Les autres bénéfices pour le client furent :<br />

- des dépenses initiales limitées pour un lancement rapide<br />

- une plateforme hautement disponible : conçue et gérée pour mettre en pratique les exigences de niveau de service<br />

- une rapidité de mise sur le marché : la plateforme CSC a permis au client d’accélérer le temps de mise sur le<br />

marché et de respecter ses échéances commerciales essentielles.<br />

- une expansion et une évolution rapide au fur et à mesure que le programme est déployé et adopté au sein des<br />

52 états à couvrir.<br />

CSC - VOYAGISTE ONLINE<br />

COMPAGNIE LEADER DU MARCHÉ WEB EUROPÉEN DES VOYAGES<br />

RÉSUMÉ<br />

Avec l’aide de CSC, ce client leader du marché web européen des offres de voyages et de loisirs a augmenté<br />

significativement son chiffre d’affaire en segmentant sa base clients et en lançant une campagne marketing ciblée.<br />

En utilisant le modèle RFM (Recency, Frequency and Monetary Value), CSC a fusionné et nettoyé 7 sources de<br />

données et réalisé de l’analytique sur sa base clients. Des données ouvertes (open data) – provenant de l’INSEE<br />

– y ont été insérées afin d’améliorer l’algorithme d’évaluation en s’appuyant sur :<br />

- les données géographiques avec coordonnées GPS pour calculer les distances de voyage<br />

- les revenus moyens par zone d’habitation<br />

- l’âge moyen par prénom pour chaque client potentiel<br />

ENJEU<br />

La fusion de ce client avec un de ces compétiteurs engendra le besoin de réaliser des synergies entre les deux<br />

sociétés, la priorité étant de fusionner et moderniser leur Connaissance Client et de construire un nouvel outil commun<br />

de gestion de campagne marketing<br />

SOLUTION<br />

L’approche de CSC consista à développer une nouvelle base de Connaissance Client en :<br />

- définir les besoins clients avec des analystes marketing<br />

- dédupliquer et nettoyer les données client<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

24


Retours d’expériences Big Data en entreprise<br />

- ingérer des données ouvertes pour améliorer l’algorithme d’évaluation<br />

- construire une solution avec les meilleures technologies du marché<br />

CSC a recommandé la segmentation de la base clients en utilisant le modèle RFM (Recency, Frequency and<br />

Monetary Value) et a affiné les évaluations afin d’améliorer le retour sur investissement des campagnes marketing.<br />

RÉSULTATS<br />

CSC a délivré un “Datamart” clients pour faciliter le reporting, l’analyse et la segmentation de la clientèle.<br />

Grace à ce Datamart le client a augmenté :<br />

- sa rétention client de 5%<br />

- ses revenus de 6% en recommandant des stratégies d’upsell<br />

- ses revenus de 10% en recommandant des stratégies de cross sell<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

25


Retours d’expériences Big Data en entreprise<br />

DATA PUBLICA - CEGID<br />

ALIMENTER LES ÉQUIPES DE TÉLÉPROSPECTION EN NOUVEAUX<br />

PROSPECTS GRÂCE AU BIGDATA<br />

CEGID, PREMIER ÉDITEUR FRANÇAIS DE SOLUTION DE GESTION A FAIT APPEL AU<br />

SERVICE DE C-RADAR L’OUTIL DÉVELOPPÉ PAR DATA PUBLICA START UP SPÉCIALI-<br />

SÉE DANS LA COLLECTE DE DONNÉES B2B.<br />

Frédéric Bornuat, responsable du pôle connaissance client et CRM, direction marketing du Groupe Cegid, avait<br />

besoin de mieux identifier ses cibles de prospection afin d’alimenter les équipes de télémarketing avec des fichiers<br />

neufs. Il cherchait notamment à identifier des cibles très précises à savoir les entreprises sous-traitantes dans les<br />

secteurs de l’automobile et de l’aéronautique. Or il n’existe pas de code NAF qui permet d’identifier les entreprises<br />

de ces secteurs d’activité. Cegid a donc fait appel aux technologies du produit C-Radar pour les aider dans cette<br />

démarche de segmentation.<br />

Grâce à la base de données B2B alimentée par les données du web, ce travail de ciblage a été particulièrement<br />

rapide et efficace. Plusieurs centaines d’entreprises correspondant exactement à la cible désignée ont été identifiées<br />

: les équipes de télémarketing du Groupe Cegid ont été alimentées en fichiers de prospection contenant de<br />

nouveaux contacts, jamais identifiés.<br />

“Grâce à la solution C-Radar, nous avons pu traiter rapidement une base de données entreprises de plusieurs<br />

dizaines de milliers d’entités pour en extraire les quelques centaines de contacts très ciblés que nous voulions<br />

prospecter.”<br />

Frédéric Bornuat, responsable du pôle connaissance client et CRM, direction marketing du Groupe Cegid<br />

DATA PUBLICA - CCI PARIS<br />

CLASSER LES ENTREPRISES DANS UNE DIZAINE DE FILIÈRES MÉTIERS<br />

ET SEGMENTER CHAQUE FILIÈRE EN S’AFFRANCHISSANT DES LIMITES<br />

DES CODES NAF GRÂCE AU BIGDATA.<br />

La Chambre de Commerce et d’Industrie Paris Ile-de-France est un interlocuteur privilégié des entreprises de sa<br />

région. En effet la CCI Paris Ile-de-France collabore avec plusieurs centaines de milliers d’entreprises locales qui<br />

représentent près de 30% des entreprises françaises. Elle les accompagne de la création à la transmission en<br />

passant par toutes les étapes de leur développement. Pour être à même de répondre aux besoins des entreprises<br />

et d’apporter une réponse cibléee, la CCI Paris Ile de France met en place une approche par filière pour laquelle<br />

elle avait besoin d’être accompagnée techniquement par des experts du traitement des données B2B.<br />

Catherine Demongeot, directrice du marketing et de la relation clients déclare notamment “Data Publica grâce à<br />

son outil C-Radar nous permet de réaliser une segmentation plus fine que celle réalisée à partir de codes NAF<br />

par exemple. La solution C-Radar de Data Publica est une interface performante qui fournit aux conseillers, au<br />

quotidien, les informations par filières ainsi qu’une fiche de synthèse par entreprises. Sans la technologie de Data<br />

Publica ce classement aurait été moins pertinent. Nous avons apprécié la capacité de DP à mener à bien le projet,<br />

en respectant les délais et le budget.”<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

26


Retours d’expériences Big Data en entreprise<br />

DATA PUBLICA - B-POST<br />

ANALYSE ET SEGMENTATION PLUS FINE D’UN MARCHÉ. MISE EN PLACE<br />

D’UN NOUVEL OUTIL DE CIBLAGE POUR LA PROSPECTION DE<br />

L’ACTIVITÉ COLIS.<br />

Bpost (la poste belge) a lancé en 2014 un ambitieux projet pour exploiter les promesses du big data dans le domaine<br />

de la prospection commerciale afin de démarcher de façon plus efficace et notamment mieux segmenter<br />

le marché.<br />

Sébastien Dreossi, senior expert au service customer intelligence and business analytics et chef du projet déclare:<br />

“ Après avoir consulté 4 sociétés, Bpost a retenu Data Publica du fait de son approche basée sur un produit existant<br />

en constante évolution (C-Radar), sa capacité à s’adapter à la spécificité linguistique de la Belgique, et du<br />

fait de son engagement à co-créer une solution adaptée aux besoins et à la taille de bpost.”<br />

Les premiers résultats du projet sont conformes à nos attentes, nous avons apprécié tout particulièrement<br />

l’implication totale des équipes de DP, leur écoute et leur capacité à faire évoluer la solution en fonction de nos<br />

attentes».<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

27


Retours d’expériences Big Data en entreprise<br />

DATAIKU - BLABLACAR<br />

BLABLACAR FAIT CONFIANCE À DATAIKU<br />

LA CONNAISSANCE DU CLIENT, UN ENJEU DATA<br />

Au cœur de sa stratégie Big Data, BlaBlaCar cherche à améliorer sa connaissance client. Cette connaissance<br />

permet d’entreprendre une communication ciblée pour ses différents profils d’utilisateurs. Grâce à la collecte et à<br />

l’analyse approfondie des données, BlaBlaCar calcule des indicateurs de performance afin d’optimiser le taux de<br />

conversion et d’améliorer la rétention.<br />

DES DONNÉES ACCESSIBLES AUX ÉQUIPES MÉTIERS<br />

Avec le Data Science Studio de Dataiku, les équipes métiers, Marketing et BI ont la main sur les données. Elles<br />

peuvent ainsi acquérir des données externes, les centraliser et les formater afin de générer des rapports BI. Elles<br />

n’ont plus besoin de faire des demandes d’extractions de bases SQL auprès des équipes techniques.<br />

Avec le logiciel Data Science Studio, l’équipe en charge du projet data chez BlaBlaCar peut construire un flux qui<br />

récupère des données depuis diverses sources (bases SQL, données partenaires ou externes…), de les agréger<br />

et de les stocker dans une base Vertica optimisée pour les calculs analytiques en contexte Big Data. Par la suite,<br />

les équipes métiers, marketing et BI peuvent construire et consulter des rapports à loisir sans régénérer des<br />

requêtes complexes et couteuses sur les bases SQL de production. Une fois les rapports générés, Tableau est<br />

branché à la base Vertica et permet de créer des visualisations sur les données.<br />

LES BÉNÉFICES DE DATA SCIENCE STUDIO POUR BLABLACAR :<br />

« DSS est prévu pour tous les « corps de métiers » de la Data Team - du data engineer au data analyst. Avec<br />

l’aide de DSS, nous avons créé une structure qui nous permet de rendre autonomes les équipes d’analystes.<br />

Les itérations ne sont pas dépendantes des techniciens, ce qui était un de nos objectifs premiers. »<br />

Gaëlle Périat - BI Manager, BlaBlaCar<br />

A PROPOS DE BLABLACAR<br />

BlaBlaCar a lancé en 2011 le 1er service de réservation en ligne au monde dans le secteur du covoiturage, faisant<br />

de cette nouvelle pratique un véritable moyen de transport. BlaBlaCar compte aujourd’hui plus de 10 millions de<br />

membres dans 13 pays et connaît une croissance de 200% par an.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

28


Retours d’expériences Big Data en entreprise<br />

DATAIKU - CHRONOPOST<br />

CHRONOPOST FAIT CONFIANCE À DATAIKU<br />

LE BIG DATA OUVRE DE NOUVELLES PERSPECTIVES<br />

Le logiciel de Dataiku, Data Science Studio, ouvre à Chronopost de nouvelles perspectives d’analyses de données<br />

pour mieux servir la stratégie de l’entreprise. L’historique des livraisons de Chronopost, qui contient notamment<br />

des données horaires et géographiques sur plusieurs années, est pleinement exploité afin de créer de la valeur.<br />

Les applications issues de ces données peuvent être d’ordre technique, commercial (nouvelles offres) ou opérationnel<br />

(optimisation de l’organisation, des processus de distribution, etc).<br />

OPTIMISATION DU DERNIER KILOMÈTRE AVEC DSS<br />

Chronopost utilise DSS pour analyser et identifier, à l’échelle de la France, les moyens opérationnels engagés chaque<br />

jour pour couvrir l’ensemble du territoire. Grâce à des analyses approfondies de leurs bases de données, Chronopost<br />

assure une qualité constante de ses différentes offres (livraison avant 13h, avant 8h…) au meilleur coût de production.<br />

Un score est ainsi calculé pour chaque adresse afin d’indiquer la facilité de livraison à un moment donné.<br />

A terme, l’objectif est d’affiner les moyens routiers nécessaires pour optimiser le dernier kilomètre quelque soit le<br />

moment de l’année, notamment les périodes critiques comme Noël, la fête des mères, etc.<br />

Le projet est mené en interne par le pôle d’assistance à maîtrise d’ouvrage de Chronopost.<br />

LES BÉNÉFICES DE DATA SCIENCE STUDIO POUR CHRONOPOST :<br />

« DSS nous permet un accès souple et direct à nos données de masse. Nous pouvons plus facilement nous en<br />

faire une vision globale, puis affiner notre recherche rapidement dans une architecture alliant Big Data et architecture<br />

standard. »<br />

Régine Buys - Responsable de Domaine BI<br />

A PROPOS DE CHRONOPOST<br />

Chronopost est l’un des acteurs majeurs de la livraison express de colis. En 2013, Chronopost a transporté 102,2<br />

millions de colis dans plus de 230 pays en Europe et dans le monde.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

29


Retours d’expériences Big Data en entreprise<br />

DATAIKU - CITYVOX<br />

CITYVOX FAIT CONFIANCE À DATAIKU<br />

CONSOLIDATION DES DONNÉES : UN ENJEU BIG DATA<br />

Afin de mieux comprendre ses utilisateurs et leurs attentes en terme de sorties, loisirs et événements, Cityvox a<br />

décidé de regrouper dans un même environnement l’ensemble de ses données. Par exemple, cela comprend les<br />

données des utilisateurs, les historiques d’utilisation du site internet et des applications mobiles, les notations des<br />

utilisateurs, les renseignements sur les restaurants, etc.<br />

En utilisant le Data Science Studio de Dataiku, Cityvox a été en mesure de regrouper simplement ces données,<br />

pourtant hétérogènes, dans le but d’en tirer de la valeur. L’interface graphique et les processeurs intégrés<br />

ont permis de nettoyer, harmoniser, enrichir les données puis de les croiser (par lieu, événement, utilisateur…).<br />

Aujourd’hui, une base Vertica stocke l’ensemble des données consolidées de Cityvox.<br />

UN MODÈLE PRÉDICTIF POUR OPTIMISER LES PAGES RESTAURANTS<br />

Une fois les données centralisées et nettoyées, les équipes de Cityvox ont pu en extraire des informations et obtenir<br />

des pistes d’améliorations pour leur business. Par exemple, des optimisations ont été réalisées sur les fiches<br />

restaurants afin d’augmenter les visites sur le site. Pour ce faire, Cityvox a construit avec DSS des modèles prédictifs<br />

afin de déterminer les facteurs qui influent sur la satisfaction utilisateur. Une autre valorisation des données<br />

a été réalisée avec la génération de graphiques pour différents reportings internes.<br />

LES BÉNÉFICES DE DATA SCIENCE STUDIO POUR CITYVOX :<br />

« DSS est l’outil qui nous permet d’automatiser le nettoyage et la centralisation de toutes nos données au même<br />

endroit. Grâce à l’outil, nous maitrisons entièrement le processus d’entrée et de sortie de nos nombreux flux de<br />

données pour pouvoir en faire bon usage. » Raphaël Guillet - Directeur Technique de Cityvox<br />

A PROPOS DE CITYVOX<br />

Cityvox, entreprise née à Marseille en 1999, est un portail dédié aux loisirs et aux sorties en ville. Avec plus d’un<br />

million de membres et plus de deux millions de visiteurs uniques par mois, Cityvox est le site référent de l’actualité<br />

des sorties en France.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

30


Retours d’expériences Big Data en entreprise<br />

DATAIKU - PAGESJAUNES<br />

PAGESJAUNES FAIT CONFIANCE À DATAIKU<br />

LE BIG DATA POUR DE MEILLEURES RÉPONSES<br />

Huit Français sur dix font appel au site PagesJaunes.fr pour se renseigner ou pour faire la promotion de leur<br />

activité, ce qui génère plusieurs centaines de millions de requêtes chaque année. La qualité et la pertinence des<br />

résultats de ces requêtes est donc un enjeu majeur pour PagesJaunes. L’objectif du projet était pour PagesJaunes<br />

d’améliorer la qualité de ses réponses, en automatisant la détection et la correction des requêtes problématiques.<br />

DATA SCIENCE STUDIO EN ACTION<br />

PagesJaunes a choisi l’expertise de Dataiku et son Data Science Studio qui combine des outils de gestion de données,<br />

de statistiques, de visualisation et d’analyse prédictive en contexte Big Data.<br />

Le projet tire massivement parti de la richesse de l’écosystème Open Source intégré à Data Science Studio :<br />

Python, scikit-learn, Pig, Hive, ElasticSearch, etc. Des données issues de l’utilisation du moteur de recherche<br />

(listes des requêtes, logs de navigation et clics, ordre des visites des pages, etc.) sont assemblées et exploitées<br />

afin d’isoler les recherches infructueuses. Un score est ainsi calculé pour chaque requête afin de prédire celles<br />

qui donnent des réponses non-satisfaisantes aux utilisateurs. Ceci permet de cibler les failles du moteur et par<br />

conséquent d’améliorer l’expérience utilisateur.<br />

Depuis le début du projet, une dizaine de collaborateurs PagesJaunes ont été formés à l’usage d’Hadoop,<br />

des statistiques et du « Machine Learning » via le Data Science Studio. Ce projet a servi de pilote et a permis<br />

l’émergence chez Pages Jaunes de plusieurs autres initiatives d’innovation par la donnée.<br />

LES BÉNÉFICES DE DATA SCIENCE STUDIO POUR PAGESJAUNES :<br />

« La technologie de Dataiku nous a permis de rationaliser notre approche, en utilisant des statistiques basées<br />

sur des millions de requêtes, le procédé est carré et nous travaillons en conscience ! »<br />

Erwan Pigneul, Responsable Projet PagesJaunes<br />

A PROPOS DE PAGESJAUNES<br />

PagesJaunes.fr est le leader français de la publicité et de l’information locale sur Internet, mobile et papier.<br />

Il est un client historique de Data Science Studio, la solution de Dataiku.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

31


Retours d’expériences Big Data en entreprise<br />

DATAIKU - PARKEON<br />

PARKEON FAIT CONFIANCE À DATAIKU<br />

BIG DATA, TROUVE-MOI UNE PLACE DE PARKING<br />

Parkeon a créé « Find Me A Space », une application mobile unique permettant aux conducteurs de trouver une<br />

place de stationnement disponible.<br />

Sous son apparente simplicité se cachent des algorithmes prédictifs de dernière génération, valorisant des millions<br />

de transactions de parcmètres chaque jour, croisées avec des données géographiques « crowdsourcées »<br />

d’OpenStreetMap (points d’intérêt tels que les restaurants et commerces) afin de prédire la pression de stationnement<br />

de manière individualisée dans chaque rue. Cette application, simple et intuitive, est un exemple typique<br />

de « Data-Product » moderne : exploitation et enrichissement de données machines, algorithmes prédictifs en<br />

environnement Big Data et packaging grand public (application iOS).<br />

DATA SCIENCE STUDIO EN ACTION<br />

Pour développer le back-office prédictif de l’application, Parkeon a choisi d’utiliser le Data Science Studio (DSS) de<br />

Dataiku, qui a permis l’intégration des données parcmètres, l’enrichissement avec des données géographiques, le<br />

développement des modèles prédictifs de stationnement et leur industrialisation à grande échelle.<br />

LES BÉNÉFICES DE DATA SCIENCE STUDIO POUR PARKEON :<br />

« Nous avons été séduits par la capacité de DSS à fonctionner sur des volumétries importantes de<br />

données ainsi que par son côté ouvert et transparent quant au fonctionnement des algorithmes. »<br />

Yves-Marie Pondaven, CTO de Parkeon<br />

A PROPOS DE PARKEON<br />

Parkeon, leader international dans le secteur de la mobilité urbaine, propose des équipements et des services<br />

permettant de maîtriser tous les aspects de la gestion d’une infrastructure de stationnement (notamment des parcmètres,<br />

plus de 50% de parts de marché mondiale).<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

32


Retours d’expériences Big Data en entreprise<br />

DELL - DANSKE BANK<br />

DANSKE BANK, PREMIÈRE BANQUE DANOISE, CHOISIT DELL STATISTICA<br />

POUR OPTIMISER SES PERFORMANCES ET RÉDUIRE SES RISQUES OPÉ-<br />

RATIONNELS<br />

DANSKE BANK, PREMIÈRE BANQUE DANOISE ET L’UNE DES PLUS IMPORTANTES<br />

INSTITUTIONS FINANCIÈRES D’EUROPE DU NORD, ADOPTE LA SOLUTION D’ANALYSE<br />

DE DONNÉES ET DE MODÉLISATION PRÉDICTIVE, DELL STATISTICA, POUR LA GES-<br />

TION DU RISQUE ET SES OPÉRATIONS DE SCORING.<br />

Danske Bank a déployé la Plate-Forme Décisionnelle Dell Statistica pour la modélisation, le reporting et la gestion<br />

du risque. La solution fournit une aide à la décision en temps réel pour des besoins métiers variés et de très<br />

nombreux sites en Europe.<br />

Le logiciel Dell Statistica permet d’accélérer la création, le test et le déploiement des modèles de risque, et permet<br />

à Danske Bank d’offrir à ses clients des services sur-mesure à plus forte valeur ajoutée, dans tous les pays et pour<br />

tous les marchés.<br />

« Travailler avec les experts de la Danske Bank a été réellement passionnant. Nous avons réussi à créer ensemble<br />

un système de scoring en temps-réel très performant. Ce système permet une recalibration aisée des<br />

modèles, une grande précision dans la prédiction du risque, et offre d’excellents temps de réponse sur de grosses<br />

volumétries de données en temps-réel et dans un environnement exigeant » confie George Butler, Vice-Président<br />

en charge du Développement chez Dell Statistica. « La solution mise en place est un véritable état de l’art technologique,<br />

déployé dans environnement informatique de pointe »<br />

Lorsque Danske Bank a décidé de mettre à jour son système informatisé de gestion du risque et de scoring,<br />

l’opportunité s’est présentée de faire évoluer l’ancienne plate-forme analytique vers une plate-forme plus performante,<br />

pouvant facilement répondre aux différents besoins métiers en termes d’ETL, de scoring, de reporting et<br />

d’aide à la décision en temps réel.<br />

Danske Bank a réalisé pendant près de deux ans une étude approfondie et un comparatif minutieux des solutions<br />

et des plates-formes analytiques disponibles sur le marché, qui ont finalement abouti au choix de la Plate-Forme<br />

Décisionnelle de Dell Statistica. Danske Bank a eu recours à Dell Statistica pour la mise en oeuvre de la solution,<br />

la formation des utilisateurs ainsi que d’autres services en vue d’assurer une transition en douceur et dans les<br />

délais impartis pour ce projet.<br />

La solution Dell Statistica est aujourd’hui en production afin de répondre aux besoins de la Danske Bank dans ses<br />

applications métier courantes et ses opérations en temps-réel. Danske Bank a été particulièrement impressionnée<br />

par la flexibilité et la convivialité des solutions de Dell Statistica, ainsi que par l’étendue et la puissance des<br />

fonctionnalités offertes.<br />

« Nous sommes très heureux des efforts déployés par Dell Statistica pour comprendre les besoins de Danske<br />

Bank et fournir une solution répondant à ces besoins » déclare Jens Chr. Ipsen, Premier Vice-Président et Directeur<br />

du Développement des Systèmes de Gestion du Risque. « La solution proposée a été facile à intégrer, et a<br />

été déployée dans le respect des délais et des coûts impartis. Dell Statistica a été très réactif aux demandes de<br />

modifications fonctionnelles, et les équipes de Dell Statistica sont à la fois professionnelles et sympathiques. La<br />

solution proposée est désormais totalement opérationnelle et fonctionne parfaitement. »<br />

« Dans un environnement de plus en plus complexe pour les modèles de risque, la solution mise en oeuvre par<br />

Dell Statistica constitue un socle solide pour assurer le suivi du contenu, des performances et des versions des<br />

différents modèles » conclut Monsieur Ipsen.<br />

« Cette intégration de la Plate-Forme Décisionnelle de Dell Statistica avec les systèmes de Danske Bank démontre<br />

l’importance pour un logiciel d’adhérer aux conventions et aux normes d’intégration actuelles, pour la mise<br />

en oeuvre réussie et rapide d’une solution analytique de pointe dans un environnement informatique mature et<br />

complexe, et qui doit répondre à des besoins multiples comme c’est le cas pour Danske Bank. » souligne George<br />

Butler. « Le fait que Dell Statistica soit en mesure de fournir une plate-forme logicielle moderne, non seulement<br />

très performante mais également capable de coexister en parfaite harmonie avec les systèmes informatiques<br />

existants, est essentielle pour générer de la valeur immédiatement et sur le long terme. »<br />

Les composantes de la plate-forme Dell Statistica déployée chez Danske Bank comprennent Dell Statistica Enterprise<br />

Server, Dell Statistica Data Miner avec Optimisation de Processus, le Système Expert de Suivi et d’Alertes<br />

de Dell Statistica, Dell Statistica Live Score ainsi que la Plate-Forme Décisionnelle de Dell Statistica. Le système<br />

est utilisé en particulier pour le développement des modèles analytiques et le scoring du risque crédit, qui sont des<br />

applications essentielles dans toutes les banques du Groupe Danske Bank.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

33


Retours d’expériences Big Data en entreprise<br />

AUTRES CAS D’USAGES AVEC LA SOLUTION DELL STATISTICA<br />

Continental Automotive a sélectionné la solution Statistica afin de classer des images transformées numériquement<br />

pour prévoir et contrôler la qualité de sa production.<br />

http://www.statsoft.com/Portals/0/Customers/Success_Stories/2013-Continental-Automotive-Success-Story.pdf<br />

EOS KSI a sélectionné Statistica pour optimiser ses processus de recouvrement de la dette http://www.statsoft.<br />

com/Portals/0/Customers/Success_Stories/2013-eosKSI.pdf<br />

Unipetrol RPA utilise Statistica Réseaux de Neurones pour analyser ses processus de production https://www.<br />

statsoft.com/Portals/0/Customers/Success_Stories/StatSoft-Unipetrol-SuccessStory.pdf<br />

A PROPOS DE DELL STATISTICA<br />

Dell Statistica est l’un des principaux éditeurs de logiciels analytiques avec 30 centres de compétences dans le<br />

monde et plus d’1 million d’utilisateurs. Dell Statistica est un système intégrable à l’échelle de l’entreprise qui est<br />

utilisé dans de nombreuses applications critiques, partout où la modélisation prédictive permet d’améliorer la productivité<br />

et la rentabilité. Dell Statistica est en outre fier de contribuer à l’amélioration de la santé, au renforcement<br />

de la sécurité et à la préservation de l’environnement.<br />

Plus ergonomique et offrant un meilleur rapport qualité-prix par rapport à ses concurrents,<br />

Dell Statistica est sans conteste l’un des logiciels analytiques les plus performants et les plus évolués à ce jour<br />

; les utilisateurs apprécient particulièrement la qualité et le soin apportés à son développement, garants depuis<br />

toujours de son succès.<br />

INFORMATIONS COMPLÉMENTAIRES :<br />

Pour obtenir plus d’informations visitez notre site Internet : www.statsoft.com<br />

Pour télécharger une version d’évaluation : http://software.dell.com/products/statistica/<br />

Pour obtenir notre livre blanc, la Révolution du Big Data… Comment extraire de la valeur à partir des Big Data :<br />

http://www.statsoft.fr/pdf/la_revolution_du_big_data.pdf<br />

Pour visualiser les vidéos « Le Data Mining en 35 leçons » : https://www.youtube.com/playlist?list=PL0C134C89<br />

8122050E<br />

Pour avoir plus d’informations contactez-nous : info.statistica@software.dell.com<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

34


Retours d’expériences Big Data en entreprise<br />

DELTAMU - SANOFI-PASTEUR<br />

SANOFI-PASTEUR – N°1 MONDIAL DU VACCIN<br />

Dans le cadre de la qualité de ses productions de vaccins, Sanofi Pasteur utilise de nombreuses micropipettes.<br />

Compte tenu de l’exigence Qualité autour de ses vaccins, l’entreprise vérifie périodiquement ses micropipettes.<br />

Ces vérifications consistent en la réalisation de mesures de la masse de volumes d’eau pipetés. Ces masses,<br />

converties en volume à partir de la masse volumique de l’eau (et des conditions environnementales, température,<br />

pression et hygrométrie, de cette mesure), permettent de s’assurer que le volume prélevé est bien le volume souhaité.<br />

L’analyse des écarts entre « volume mesuré » et « volume prélevé » permet d’écarter les micropipettes qui<br />

n’ont pas la performance attendue.<br />

L’étude conduite par Delta Mu a permis de montrer que, contrairement aux idées initiales, les écarts observés<br />

étaient dus en grande majorité à la variation de pipetage des techniciens chargés de l’opération plutôt qu’aux<br />

micropipettes. Impossible, dans de telles conditions, de tirer des conclusions pertinentes quant à un phénomène<br />

si la mesure (Dans cet exemple, et finalement, le technicien) n’est pas représentative de la grandeur qu’on croit<br />

mesurer (la micropipette) !<br />

Lire http://www.deltamu.fr/Publications/TelechargerArticlePublication/57<br />

DELTAMU - TRAITEMENT THERMIQUE<br />

PME DANS LE DOMAINE DU TRAITEMENT THERMIQUE<br />

Spécialisée depuis plus de 20 ans dans le traitement thermique de pièces métalliques, la société mesure par<br />

échantillonnage la qualité de sa production. Les mesures sont réalisées sur les pièces, après traitement. Il s’agit<br />

de quantifier la dureté obtenue une fois réalisé le process de trempe. Ses principaux clients lui demandent de<br />

s’assurer de la capabilité de ses processus de mesure, cette exigence étant notamment inscrite au rang des exigences<br />

de la norme Qualité qui lui est imposée (FD ISO/TS 16949).<br />

Accompagnée par Delta Mu dans l’analyse des résultats obtenus, l’entreprise se rend (enfin) compte que ses<br />

mesures (qu’elle croyait fiables) dispersent 3 fois plus que le process qu’elle contrôle avec ! Ses mesures ne lui<br />

permettent finalement pas de voir réellement sa production …<br />

Note : L’étude de capabilité consiste à s’assurer, via un plan d’expérience spécifique, que l’incertitude de mesure<br />

(fiabilité) est compatible avec la dispersion du process à analyser.<br />

DELTA MU DANS LE BIG DATA<br />

Forte d’une compétence reconnue dans le domaine de l’évaluation de la qualité des mesures (fiabilité), Delta Mu<br />

intervient à différents niveaux :<br />

• Evaluation de la qualité des mesures, c’est à dire leur capacité à représenter le plus fidèlement possible la grandeur<br />

recherchée ;<br />

• Préconisations en vue de l’amélioration de la qualité des mesures (si nécessaire) ;<br />

• Préconisations quant au maintien de la qualité des mesures dans le temps ;<br />

• Préconisations quant à la robustesse des mesures en cas de changement de capteurs.<br />

Note : La robustesse se définit comme étant l’insensibilité d’une mesure à une cause d’incertitude.<br />

La prestation prend plusieurs formes : Diagnostic/expertise sur site, Rapport de préconisations, développement<br />

de briques « logiciel » spécifiques, formation, …<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

35


Retours d’expériences Big Data en entreprise<br />

HP - AT&T<br />

AT&T LEVERAGES HP VERTICA ANALYTICS PLATFORM TO CHANGE<br />

THE ECONOMICS OF PROVIDING ACTIONABLE INSIGHTS TO<br />

DECISION MAKERS<br />

OVERVIEW<br />

AT&T has made Big Data analytics a core component of the business decision-making process to drive its growth<br />

and maximize customer satisfaction. In May 2013, the telecommunications company augmented its Enterprise<br />

Consolidated Data Warehouse with the HP Vertica Analytics Platform (HP Vertica) to improve the performance of<br />

critical analytics workloads. HP Vertica, a core engine of the HP HAVEn Big Data Platform, has surpassed AT&T’s<br />

expectations and is providing company decision makers with actionable insights into areas such as customer and<br />

network use patterns.<br />

John Yovanovich, Director of Data Strategy, Delivery, and Support at AT&T, explained that his company chose the<br />

HP Vertica Analytics Platform after concluding that “we needed a platform that supported the columnar database<br />

technology required by critical workloads.” This conclusion reflected the increasingly<br />

prominent position of Big Data analytics at AT&T and the potential value the company sees in it.<br />

Yovanovich credits HP Vertica with changing how analytics are consumed and used by AT&T’s lines of business<br />

(LOBs). Above all, his internal LOB clients demand a robust analytics platform that can<br />

run required queries quickly and efficiently. Before deploying HP Vertica, AT&T could not fully exploit the potential<br />

of Big Data analytics because of the cost and time associated with running certain queries on its legacy platform.<br />

With HP Vertica, Yovanovich’s team provides superior outputs at a much lower cost, so business teams are bringing<br />

many more projects to his team.<br />

Yovanovich cited a number of ways in which HP Vertica drives value for AT&T. From the onset, the move avoided<br />

investment costs of $11 million in pending capacity expansion. Business decision makers get query results in less<br />

time and can run more complex queries and analyses. As such, they have more actionable information in their hands<br />

sooner, which helps them craft improved business strategies and make better decisions. This results in improved<br />

services for AT&T’s customers, improved customer relationships, and operational efficiencies.<br />

Meanwhile, Yovanovich’s team has benefited from the speed with which HP Vertica runs queries and its ease of use;<br />

he estimates that teams responsible for preparing and carrying out data queries have become roughly 20% more productive<br />

since deploying HP Vertica. Finally, AT&T is paying much less to run analytics workloads on HP Vertica than it<br />

was paying to run analytics workloads on its legacy platform. This allows business units to migrate certain workloads<br />

to HP Vertica and pay much less even as the quality and speed of the outputs improve substantially.<br />

Based on discussions with Yovanovich, IDC calculates that AT&T is achieving discounted benefits of<br />

$63.38 million over five years with its to-date deployment of 570TB of data on HP Vertica, including cost savings<br />

on analytical queries compared with its legacy row-based analytics platform, costs avoided for increasing its legacy<br />

platform’s capabilities, more efficient retention of data, and improved productivity for its data analytics team. Over a<br />

projected five-year period, this results in a return on investment (ROI) of 657% and a payback period of 4.0 months.<br />

IMPLEMENTATION<br />

AT&T’s Big Data strategy is centered on leveraging the voluminous customer use data that feeds into the company’s<br />

Enterprise Consolidated Data Warehouse to create actionable insights and ultimately business advantages.<br />

As of October 2014, the warehouse employs 3.2PB of storage in total and supports all of AT&T’s home and business<br />

solutions product and service lines. The foundation of AT&T’s Big Data strategy is to feed this huge amount<br />

of information — more than 100 million files an hour flow from AT&T cellular towers alone — into shared relational<br />

databases and then move this data into the data warehouse via the Hadoop open source software framework for<br />

analysis driven by analytics platforms.<br />

Two years ago, AT&T began evaluating columnar-based analytics engines after concluding that performance limitations<br />

with its legacy row-based analytics solution would prevent it from fully leveraging data to drive its business.<br />

It had discovered that it could not economically run many of the complex data queries and analyses requested by<br />

its LOBs on its legacy row-based analytics platform. As a result, AT&T sought a more robust, query-oriented analytics<br />

platform with columnar-based analytics technology to enable it to handle more complex queries and handle<br />

queries more efficiently.<br />

AT&T carried out a proof of concept with several Big Data analytics engines and found that HP Vertica came out<br />

on top in both performance and cost. “No one came close to HP Vertica on price,” Yovanovich said. “We also liked<br />

the fact that they are a market leader in columnar database technology with a proven track record among largevolume<br />

customers like us.”<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

36


Retours d’expériences Big Data en entreprise<br />

AT&T initially deployed HP Vertica in May 2013 over four days with four employees in support. Onsite training was<br />

initially provided for 15 employees and has since continued. “HP Vertica performed well out of the box,” Yovanovich<br />

said. “It has exceeded my expectations. It’s quicker, so we spend less time on design. Also, we’re able to spend<br />

more time on development to make sure we put out the best-performing product possible.”<br />

In the first year, AT&T deployed 70TB of new data that had never been sourced to another data analytics platform<br />

to HP Vertica. It also migrated about 160TB off of its legacy analytics platform to HP Vertica, which opened up<br />

space on that platform and improved its throughput. Yovanovich expects HP Vertica to support a growing percentage<br />

of AT&T’s data warehousing operations over the next four years, fueled by new projects, mergers and acquisitions,<br />

and organic growth.<br />

BENEFITS<br />

HP Vertica has changed the economics of using Big Data analytics for AT&T’s LOBs while minimizing the likelihood<br />

that performance bottlenecks will prevent business teams from realizing the full potential of Big Data analytics. As<br />

a result, AT&T’s data analytics team can now provide more actionable data, and Big Data analytics has become<br />

an important component of the company’s growth plans. Yovanovich described a number of ways in which AT&T’s<br />

strategic decision makers are leveraging queries and analyses made possible by HP Vertica. He explained: “We’re<br />

enabling our marketing team to create significant customer insights with HP Vertica based on data records that<br />

they never could before.” This results in personalized customer marketing efforts because “we can determine<br />

which messages and ads to present to a customer based on the customer’s profile and use history.” Strategic<br />

business decision makers at AT&T are also increasingly leveraging analytics delivered by HP Vertica to make important<br />

decisions. Yovanovich explained that AT&T uses call detail analyses to understand how its customers use<br />

its network of cellular towers and then applies this understanding to its strategy for investing in and expanding its<br />

cellular network infrastructure. This analysis, which took 17 hours to complete on AT&T’s legacy analytics engine,<br />

takes just more than 30 minutes to complete with HP Vertica. This means that AT&T can now run these analyses<br />

more often and provide its strategic decision makers with actionable data and insights into how its network is being<br />

used on a more regular, timely basis.<br />

The speed with which HP Vertica can run queries and analyses means that users get results faster and can better<br />

integrate them into their decision-making processes. AT&T is also leveraging HP Vertica’s improved compression<br />

capabilities — 6:1 rather than 2.5:1 with the legacy system — to double the retention time of data for analytics use<br />

from three months to six months. Yovanovich said that this improves the quality of queries and analyses by providing<br />

more complete insights based on a longer history. He said, “My goal is to retain 13 months of data, and I expect<br />

to do this within a year or so, which would give us full seasonality.”<br />

In addition to having a positive impact on AT&T’s lines of business, HP Vertica has altered the economics of Big<br />

Data analytics. HP Vertica costs only a fraction per terabyte (TB) of what AT&T’s legacy analytics platform costs.<br />

This means that Yovanovich’s team can offer the win-win proposition of improved analytics outputs at a much<br />

lower price thanks to the savings it is achieving with HP Vertica. As a result, business teams can afford to support<br />

more projects with analytical queries and data. For Yovanovich, the result is straightforward: “We save our lines of<br />

business so much money on capital with HP Vertica that they give us more projects.” AT&T’s data analytics team<br />

handles this increased project workload in part because of efficiencies it gains by using HP Vertica. Yovanovich<br />

cited the ease of using HP Vertica and its ELT approach (Extract, Load, Transform): “Take the source data, load it<br />

onto the platform, and then transform it on Vertica. This allows you to go directly to provisioning the data because<br />

you don’t need to get it ready to put on the platform.” This allows his team to more accurately track any errant code<br />

and ultimately close tickets faster. Yovanovich estimated that his team is about 20% more efficient with HP Vertica<br />

because “we spend less time with system requirements and development to transform data into an appropriate<br />

model that our internal end users want to see.” HP Vertica has also helped AT&T achieve other cost savings related<br />

to its use of Big Data analytics engines. By migrating projects from its legacy analytics platform onto HP Vertica,<br />

AT&T lengthened the life span of its existing system by about 16 months, which is allowing it to avoid significant<br />

expenses associated with buying more space on the system.<br />

QUANTIFYING THE BENEFITS<br />

Based on interviews with Yovanovich about AT&T’s use of the HP Vertica Analytics Platform, IDC has quantified the<br />

benefits the company is realizing from its to-date deployment of 570TB. When projected<br />

over five years, the benefits from improved data analytical operations, cost reductions, and increased data warehousing<br />

team productivity averaged $17.81 million per year.<br />

BUSINESS PRODUCTIVITY BENEFITS/IT INFRASTRUCTURE COST REDUCTIONS<br />

The HP Vertica Analytics Platform has allowed AT&T’s lines of business to make analytics a more central part of<br />

their operations and planning. For the purposes of this study, IDC has quantified the benefits to these business<br />

teams as the difference in cost for the use of the 160TB of capacity on HP Vertica that was transitioned from the<br />

legacy row-based analytics solution while also taking into account employee time costs associated with making<br />

this transition. IDC calculates the value to AT&T’s business teams at an average of $16.53 million per year over<br />

five years.<br />

In addition to these cost efficiencies, AT&T business teams benefit from HP Vertica by being able to afford to run<br />

more queries and analysis and being able to run more robust queries. This translates into productivity gains for<br />

business team end users as well as higher revenue for AT&T through the development of more powerful applications<br />

and enhanced strategic decision making, although these benefits have not been quantified separately for the<br />

purposes of this study.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

37


Retours d’expériences Big Data en entreprise<br />

IT STAFF PRODUCTIVITY BENEFITS<br />

AT&T’s team dedicated to supporting data analytical operations has also become more efficient and productive<br />

since deploying HP Vertica. In particular, HP Vertica makes the data ingestion process faster and less labor intensive.<br />

This means that AT&T has been able to evolve its ELT approach so that staff spend less time on system<br />

requirements and development to transform data into deliverables that serve end users. In addition to benefiting<br />

end users by shortening the overall query process, it also means that the data analysis support team spends less<br />

time on each query or request. As a result, the teams supporting AT&T’s data analysis efforts have been able to<br />

cope with higher demand for their services based on the lower price point for queries run with HP Vertica without<br />

a commensurate increase in staff size. This is a significant benefit for AT&T given that it has several hundred employees<br />

supporting its data analytics efforts. IDC calculates that this benefit has a value of $1.28 million per year<br />

over five years in increased efficiency and higher productivity for these team members.<br />

RETURN ON INVESTMENT<br />

IDC projects that over five years, AT&T will achieve total discounted benefits of $63.38 million by using<br />

the HP Vertica Analytics Platform versus a discounted investment of $8.37 million. This results in a five-year ROI<br />

of 657%, with breakeven on its investment in HP Vertica occurring in 4.0 months.<br />

IDC conducted several interviews with AT&T to quantify the benefits and investment associated with its use of the<br />

HP Vertica Analytics Platform and created an ROI analysis from the results.<br />

IDC calculates the ROI and payback period in a three-step process:<br />

1. Measure the benefits from increased IT staff and user productivity and other cost savings since deployment.<br />

2. Ascertain the total investment.<br />

3. Project the investment and benefit over five years and calculate the ROI and payback period. The ROI is the<br />

five-year net present value of the benefit divided by the discounted investment. To account for the time value of<br />

money, IDC bases the ROI and payback period calculations on a 12% discounted cash flow.<br />

IDC ExpertROI® SPOTLIGHT - Sponsored by: HP - Matthew Marden - November 2014<br />

HP - BLABLACAR<br />

HP AIDE BLABLACAR À AMÉLIORER SON EXPÉRIENCE CLIENT<br />

La plateforme communautaire renforce l’efficacité de ses campagnes marketing en exploitant la puissance des<br />

analyses de données Big Data avec HP Vertica<br />

BlaBlaCar, la place de marché communautaire en ligne qui met en relation des conducteurs disposant de places<br />

dans leur véhicule avec des passagers à la recherche d’un trajet en voiture a amélioré la fidélisation de ses clients<br />

et l’efficacité de ses campagnes marketing en réalisant des analyses Big Data avec HP Vertica.<br />

BlaBlaCar, la startup innovante et performante dont le siège est situé à Paris, et dont les équipes sont réparties à<br />

Madrid, Milan, Varsovie, Hambourg, Londres et Moscou, a créé un modèle de réseau social de transport entièrement<br />

nouveau. Avec son site web et sa plateforme mobile sophistiqués, un centre de service client dédié et une<br />

communauté d’utilisateurs en forte croissance, BlaBlaCar rend le voyage en voiture moins coûteux, plus convivial<br />

et plus pratique pour plus de 10 millions de membres répartis dans 12 pays.<br />

« BlaBlaCar connait un succès tel parmi les voyageurs européens, que nous transportons chaque mois plus de<br />

personnes que l’Eurostar, et que nous traversons une phase de croissance internationale rapide » déclare Gaëlle<br />

Periat, Manager Business Intelligence chez BlaBlaCar. « La Business Intelligence est au cœur de nos mécanismes<br />

de prise de décision. Nous avons choisi une approche centrée sur les données pour améliorer l’efficacité<br />

de notre marketing. Plus de deux millions de personnes utilisent les services de BlaBlaCar tous les mois, et HP<br />

Vertica nous aide à exploiter toute la puissance de nos Big Data pour optimiser la performance de nos campagnes<br />

de Gestion de la Relation Client et améliorer le confort d’utilisation de nos services pour nos clients. »<br />

Le logiciel HP Vertica, installé sur un cluster Hadoop Cloudera, fournit à BlaBlaCar une plate-forme d’analyse<br />

Big Data en temps réel. Conçue pour supporter des charges de travail intensives, elle délivre des performances<br />

de requêtes SQL ad hoc qui ont décuplé l’efficacité des campagnes marketing en permettant la manipulation et<br />

l’analyse des données à une fréquence plus élevée, à un niveau de granularité plus fin et à partir de plusieurs<br />

points d’accès.<br />

Dans le futur, HP Vertica permettra à BlaBlaCar d’affiner encore davantage ses activités marketing en intégrant<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

38


Retours d’expériences Big Data en entreprise<br />

des informations provenant des réseaux sociaux, et en prédisant le comportement de ses clients grâce à des mécanismes<br />

de reconnaissance des tendances.<br />

Supervisé depuis une machine virtuelle sous Debian 6, le cluster distribué Hadoop est composé de deux machines<br />

équipées de HP Vertica, d’une machine tournant le logiciel Tableau pour l’exploration et la visualisation des données,<br />

et d’une machine équipée du logiciel Data Science Studio de Dataiku. Cette structure permet à BlaBlaCar<br />

de donner une autonomie informatique complète à ses équipes d’analyses de données et de garantir des temps<br />

de traitement très courts.<br />

« Pour répondre à leurs défis en termes de marketing, des entreprises comme BlaBlaCar ont besoin d’analyser<br />

des volumes massifs de données – structurées, semi-structurées et non-structurées – à des vitesses jamais atteintes<br />

» déclare Florence Laget, Directrice de l’activité Big Data chez HP France. « La plateforme analytique HP<br />

Vertica a été conçue pour offrir rapidité, évolutivité, simplicité et ouverture, et architecturée pour effectuer des<br />

traitements analytiques de 50 à 1000 fois plus rapides qu’avec les solutions de DataWarehouse traditionnelles. »<br />

HP - METROPOLITAN POLICE DE LONDRES<br />

LA METROPOLITAN POLICE DE LONDRES UTILISE LES MÉDIAS SOCIAUX<br />

POUR MOBILISER LA COMMUNAUTÉ LOCALE.<br />

Les solutions HP Autonomy permettent à la principale police britannique de mieux impliquer la population et de<br />

répondre à des événements locaux. Conscient des lacunes dans le suivi et l’utilisation des médias sociaux, le<br />

Metropolitan Police Service (MPS) a démarré avec HP pendant l’été des Jeux olympiques de Londres le déploiement<br />

d’outils d’analyses des médias sociaux. Le résultat est un engagement plus efficace de la communauté, un<br />

signalement anticipé des problèmes, et une analyse plus précise des sentiments sur les médias sociaux. Ces<br />

résultats ont bénéficié aux opérations de police, y compris les renseignements et les enquêtes criminelles.<br />

Le Metropolitan Police Service (MPS) est la force policière la plus importante du Royaume-Uni, avec 31 000<br />

agents et plus de 10 000 employés de support. Il couvre une population de 7,2 millions d’ habitants et des événements<br />

publics majeurs du Royaume-Uni. À l’été 2012, le MPS a supervisé les Jeux Olympiques de Londres et les<br />

Jeux Paralympiques, ainsi que la Royal Jubilee et le Carnaval de Notting Hill annuel. Cela a nécessité un niveau<br />

de maintien de l’ordre sans précédent.<br />

Conscient des missions du MPS et ses projets sur les médias sociaux à long terme, HP Autonomy a proposé un<br />

essai pour aider à mieux comprendre et à utiliser l’analyse des médias sociaux (SMA) pour l’engagement communautaire.<br />

HP est un fournisseur important pour la police au Royaume-Uni, fournissant des éléments clés de son<br />

infrastructure informatique. Le déploiement test s’est déroulé de juillet à septembre dans deux arrondissements de<br />

Londres, Haringey et Hammersmith & Fulham. Il a aidé le MPS à élaborer une stratégie à long terme pour les médias<br />

sociaux et a donné un aperçu sur la façon dont les médias sociaux peuvent être utilisés pour faire progresser<br />

l’engagement de la communauté, la collecte de renseignements et les enquêtes criminelles.<br />

Rapide à mettre en œuvre, adaptable aisément, la solution HP Autonomy exploite la puissance de IDOL (Intelligent<br />

Data Operating Layer) pour comprendre automatiquement les concepts exprimés dans les tweets, les articles de<br />

presse et les blogs. IDOL est capable d’identifier les tendances, les thèmes et les sujets connexes, naviguant<br />

automatiquement dans la masse des données. Cela offre une compréhension en temps réel de ce qui capte<br />

l’attention du public. Pour le MPS, il a produit des rapports sur des thèmes, des tendances et mots à la mode,<br />

consolidés sur un tableau de bord unique, personnalisable pour chaque utilisateur.<br />

RÉSOUDRE LE PROBLÈME DE «L’ AIGUILLE DANS LA BOTTE DE FOIN »<br />

Le test a été rapidement considéré comme un succès, et a été poursuivi jusqu’en novembre. L’impact le plus évident<br />

était que la solution HP autonomy a pu faire face aux grands volumes de données non structurées générées.<br />

En moyenne, il y avait 2 306 796 tweets par jour en provenance de Londres du 12 Juillet au 13 Août, avec un pic<br />

de 3 291 998 le jour de la cérémonie d’ouverture des Jeux Olympiques.<br />

De ce déluge d’informations, MPS a été en mesure de déterminer de nouveaux influenceurs de la communauté et<br />

de recueillir un premier aperçu des questions pertinentes. Il a permis de générer des évaluations de l’impact communautaire<br />

beaucoup plus rapidement et avec plus de crédibilité. L’essai a également apporté une contribution<br />

importante aux opérations en cours en permettant à MPS :<br />

• Identifier une connexion entre deux sources de renseignement qui n’étaient pas identifiées jusqu’alors<br />

• Identifier les incidents potentiels et leurs relations beaucoup plus rapidement et avec plus de précision que par<br />

des moyens traditionnels<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

39


Retours d’expériences Big Data en entreprise<br />

• assurer une réponse opérationnelle proportionnée et appropriée à des événements communautaires très sensibles<br />

• Identifier plusieurs inconnus témoins d’un coup de couteau mortel<br />

• Transférer des tweets concernant des événements de la communauté et répondre à des tweets erronés<br />

• Aider à construire un glossaire des termes à utiliser pour des recherches croisées de mots-clés<br />

En synthèse, la solution a pu fournir une analyse précise sur une base en temps quasi réel par rapport à avant, où<br />

les données n’étaient disponibles que 24 heures après.<br />

• Vitesse de compréhension et de sensibilisation opérationnelle<br />

• Précision de l’évaluation menant à des décisions opérationnelles mieux informées<br />

• Facilité d’accès et d’évaluation de l’humeur du public et de l’opinion<br />

• Analyse plus efficace, fournissant automatiquement des informations plus succinctes et laissant le temps à<br />

l’analyste de mieux se concentrer sur les priorités<br />

• Capacité à prendre des décisions plus éclairées à tous les niveaux, des opérations au commandement<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

40


Retours d’expériences Big Data en entreprise<br />

INFORMATICA - WESTERN UNION<br />

GRÂCE À LA TECHNOLOGIE INFORMATICA, WESTERN UNION PROFITE<br />

PLEINEMENT DE TOUT LE POTENTIEL DE SES DONNÉES POUR<br />

PROPOSER UNE EXPÉRIENCE CLIENT EXCEPTIONNELLE<br />

Le leader mondial des paiements lance une initiative de transformation opérationnelle et optimise l’expérience client<br />

grâce à la solution PowerCenter Big Data Edition<br />

Western Union, leader des services de paiement mondiaux, a choisi Informatica Corporation (Nasdaq :INFA),<br />

premier fournisseur indépendant de logiciels d’intégration de données, dans le cadre de son projet d’intégration de<br />

données. En investissant dans la solution PowerCenter Big Data Edition d’Informatica pour Hadoop, Western Union<br />

pourra désormais fédérer les données structurées et non-structurées issues de multiples sources – mainframe,<br />

bases de données disparates et fichiers de logs – et les adapter à des fins de traitement sur Hadoop, quelle que<br />

soit la latence, en temps réel ou sur une base journalière.<br />

L’ambition de Western Union est d’optimiser le traitement intelligent de ses données de façon à perfectionner ses<br />

offres de services numériques, maximiser la satisfaction client et renforcer la fidélisation des utilisateurs à la marque<br />

sur l’ensemble de ses opérations mondiales. En effet, la société dispose d’un volume colossal d’informations qui<br />

transite au sein de son infrastructure. Rien qu’en 2013, à travers le monde, 242 millions de transactions de particulier<br />

à particulier et 459 millions entre professionnels, soit, en moyenne, plus de 29 transactions par seconde,<br />

ont été réalisées. Grâce à l’intégration et à l’analyse de ces données transactionnelles, la société va désormais<br />

bénéficier de multiples atouts :<br />

• Identification des tendances en matière d’envoi et de réception de fonds afin d’améliorer davantage l’expérience client<br />

• Suivi minutieux de l’évolution des transferts de fonds pour mieux planifier les stratégies d’expansion,<br />

• et identification des opportunités, afin de proposer à l’utilisateur une expérience intégrée sur de multiples canaux,<br />

notamment Internet, téléphone, boutiques et terminal mobile. « L’ensemble de nos opérations met au centre de<br />

nos préoccupation nos clients. Western Union dispose d›une opportunité unique d’exploiter au mieux le potentiel<br />

de l›analyse des données collectées à travers les nombreuses transactions. L›objectif est d›identifier des tendances<br />

nous permettant de mieux définir notre stratégie opérationnelle et, à terme, d’améliorer la satisfaction de<br />

notre clientèle. Nous nous réjouissons de la décision de poursuivre notre collaboration avec Informatica qui nous<br />

offrira la possibilité de maximiser le potentiel mondial de notre entreprise et de notre base clientèle. » explique<br />

Sanjay Saraf, senior vice president and chief technology officer chez Western Union.<br />

LES SOLUTIONS INFORMATICA DÉCLOISONNENT LES SILOS DE DONNÉES<br />

La disponibilité immédiate de la version développeur d’ Informatica PowerCenter a joué un rôle crucial dans la<br />

mobilisation d’un personnel dédié à ce projet. L’ensemble des versions de la solution Informatica PowerCenter<br />

reposent sur Informatica Vibe, la toute première et seule machine de données virtuelle embarquable. Même en<br />

l’absence de compétences Hadoop spécifiques, les développeurs œuvrant sur PowerCenter bénéficient d’une<br />

vélocité de développement cinq fois supérieure sur cet environnement Hadoop, qui est celui de Western Union.<br />

Par ailleurs, Western Union sera à même d’effectuer de manière efficace les opérations d’intégration des données<br />

au fur et à mesure des évolutions technologiques, sans devoir adapter les flux de traitement des données.<br />

« Western Union incarne cette ambition de dimension mondiale qui donne à la notion de ‘ service ‘ toute sa portée.<br />

Comme dans bon nombre de sociétés, les données revêtent, pour Western Union, un caractère fondamental.<br />

Elles sont indispensables à la réalisation de ses objectifs. Etre à l’écoute des besoins de sa clientèle, lui assurer<br />

une expérience homogène quel que soit le canal utilisé, optimiser les opérations et poursuivre ses innovations<br />

constituent aujourd’hui les clés du succès sur ce marché très dynamique. Informatica apporte à Western Union<br />

des solutions pour exploiter ses données, grâce à l›automatisation de l’intégration et de la saisies des données<br />

avant traitement et analyses. » conclut Ash Kulkarni, senior vice president et general manager, Data Integration,<br />

Informatica<br />

A PROPOS DE WESTERN UNION<br />

La société Western Union (NYSE : WU) est un leader dans les services de paiement à travers le monde. Avec<br />

ses services de paiement Vigo, Orlandi Valuta, Pago Facil et Western Union Business Solutions, Western Union<br />

propose aux particuliers et aux entreprises des services rapides, fiables et pratiques pour envoyer et recevoir de<br />

l’argent partout dans le monde, pour réaliser des paiements et passer des ordres de paiement. Au 31 décembre<br />

2013, les services Western Union, Vigo et Orlandi Valuta étaient disponibles dans un réseau de plus de 500 000<br />

points de vente répartis dans 200 pays et territoires ainsi que plus de 100 000 distributeurs automatiques de billets.<br />

En 2013, Western Union a réalisé 242 millions de transactions de particulier à particulier à travers le monde,<br />

transférant 82 milliards de dollars entre particuliers et 459 millions de dollars entre professionnels.<br />

Pour plus d’informations sur Western Union : www.westernunion.com<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

41


Retours d’expériences Big Data en entreprise<br />

À PROPOS D›INFORMATICA<br />

Informatica Corporation (NASDAQ : INFA) est le leader des fournisseurs indépendants de solutions d’intégration<br />

de données. Les entreprises du monde entier font confiance à Informatica pour exploiter le potentiel de leurs<br />

informations et répondre à leurs principaux impératifs métiers. Informatica Vibe, la première et la seule machine<br />

de données virtuelle embarquable du marché, supporte les fonctionnalités exclusives de mapping unique pour<br />

déploiement universel (« Map Once. Deploy Anywhere. ») de la plate-forme Informatica. Plus de 5 000 entreprises<br />

dans le monde s’appuient sur Informatica pour tirer pleinement profit de leurs ressources en matière d’informations<br />

issues des périphériques, des réseaux mobiles et des Big Data, hébergées sur site, dans le Cloud et sur les<br />

réseaux sociaux. Pour en savoir plus, appelez le 01 42 04 89 00 ou visitez notre site www.informatica.com/fr.<br />

Vous pouvez également contacter Informatica sur http://www.facebook.com/InformaticaCorporation, http://www.<br />

linkedin.com/company/informatica et http://twitter.com/InformaticaFr.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

42


Retours d’expériences Big Data en entreprise<br />

MAPR - ANCESTRY.COM<br />

ANCESTRY.COM RELIES ON THE HIGH AVAILABILITY OF MAPR TO RUN<br />

THEIR DNA PIPELINE CONSTANTLY, WITH NO INTERRUPTIONS<br />

THE BUSINESS<br />

Ancestry.com, the world’s largest online family history resource, uses machine learning and several other statistical<br />

techniques to provide services such as ancestry information and DNA sequencing to its users.<br />

THE CHALLENGE<br />

According to the Chief Technology Officer, Scott Sorensen, Ancestry.com has more than 12 billion records that are<br />

part of a 10-petabyte (or 10-million gigabyte) data store. If you’re searching for “John Smith,” he explained, it will<br />

likely yield results for about 80 million “Smith” results and about 4 million results for “John Smith,” but you’re only<br />

interested in the handful that are relevant to your John Smith. For Ancestry.com their data is highly strategic. As<br />

Sorensen explains, there are 5 fundamental ways they make use of data to enhance the customer experience.<br />

These include:<br />

• With more than 30,000 record collections<br />

in their data store including birth, death, census, military and immigration records, they mine this data using patterns<br />

in search behavior to speak to their more than 2 million subscribers or tens of mil- lions of registered users<br />

in a more relevant way. For instance, only a selection of their users will be interested in newly released Mexican<br />

census data.<br />

• They mine their data to provide product development direction to the product team. Analyzing search behavior<br />

can show where a subscriber might be stuck or where they leave the service and therefore where new content<br />

could be created.<br />

• They rely on big data stores to develop new statistical approaches to algorithmic development, such as record<br />

linking and search relevance algorithms. Today, the vast amount of user discoveries are deter-mined by Ancestry.<br />

com hints derived from strategically linked records and past search behavior (e.g., Charles ‘Westman’ is the same<br />

person as Charles ‘Westmont’). Two years ago, the majority of discoveries were based on user-initiated search.<br />

• Advanced data forensics is used to mine data for security purposes to ensure ap- propriate use of their information.<br />

• DNA genotyping to provide information about genetic genealogy is a new area of focus. Customers spit in a<br />

tube, send the package to Ancestry.com, and then mo- lecular tests and computational analyses are performed<br />

to predict a person’s ethnic- ity and identify relatives in the database. For every AncestryDNA customer, 700,000<br />

SNPs (distinct variable regions in your DNA) are measured and analyzed, resulting in 10 million cousin predictions<br />

for users to-date.<br />

MAPR SOLUTION<br />

A portion of Ancestry.com’s data is processed on three clusters using MapR as the Hadoop distribution. One cluster<br />

is for DNA matching; another is for machine learning and the third, which is just being built-up, is for data mining.<br />

Massive distributed parallel pro- cessing is required to mine through 10 petabytes of data and the large quantities<br />

of DNA data. Ancestry.com runs batch jobs and wants to run the DNA pipeline constantly with no interruptions, so<br />

high availability is very important. MapR’s high availability JobTracker enabled the company to run different tasks<br />

on the same cluster. They have also been pleased with MapR’s service and support, and the ability to quickly get<br />

everything up and running with the graphical user interface and client configuration.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

43


Retours d’expériences Big Data en entreprise<br />

MAPR - COMSCORE<br />

COMSCORE RELIABLY PROCESSES OVER 1.7 TRILLION INTERNET &<br />

MOBILE EVENTS EVERY MONTH ON MAPR<br />

THE BUSINESS<br />

comScore is a global leader in digital media analytics and the preferred source of digital marketing intelligence.<br />

comScore provides syndicated and custom solutions in online audience measurement, e-commerce, advertis- ing,<br />

search, video and mobile. Advertising agencies, publishers, marketers and financial analysts rely on comScore<br />

for the industry-leading solutions needed to craft successful digital, marketing, sales, product development and<br />

trading strategies.<br />

c omScore ingests over 20 terabytes of new data on a daily basis. In order to keep up with this data, comScore<br />

uses Hadoop to process over 1.7 trillion Internet and mobile events every month. The Hadoop jobs are run every<br />

hour, day, week, month and quarter, and once they’re done, data is nor- malized against the comScore URL data<br />

dictionary and then batch loaded into a relational database for analysis and reporting. comScore clients and analysts<br />

generate reports from this data; these reports enable comScore clients to gain behavioral insights into their<br />

mobile and online customer base.<br />

HADOOP REQUIREMENTS<br />

The comScore engineering team processes a wide variety of Hadoop work- loads and requires a Hadoop distribution<br />

that excels across multiple areas:<br />

Performance : As comScore continues to expand, the Hadoop cluster needs to maintain performance integrity,<br />

deliver insights faster, and also needs to produce more with less to minimize costs.<br />

Availability : comScore needs a Hadoop platform that provides data protection and high availability as the cluster<br />

grows in size.<br />

Scalability : comScore’s Hadoop cluster has grown to process over 1.7 trillion events a month from across the<br />

world, in the past comScore has seen increases of over 100 billion events on a month over month basis. Consequently,<br />

comScore needs a Hadoop platform that will enable them to maintain per- formance, ease of use and<br />

business continuity as they continue to scale.<br />

Ease of Use : comScore needs things to just work, and operating the cluster at scale needs to be easy and intuitive.<br />

BENEFITS<br />

MapR has been in continuous use at comScore for over two years. MapR has demonstrated superior performance,<br />

availability, scalability, ease of use, and significant cost savings over other distributions.<br />

Performance : Across various benchmarks, MapR executes jobs 3 - 5 times faster when compared to other Hadoop<br />

distri-butions and requires substantially less hardware than other distributions.<br />

Availability : MapR protects against cluster failures and data loss with its distributed NameNode and JobTracker<br />

HA. Rolling upgrades are also now possible with MapR.<br />

Scalability<br />

With architectural changes made possible by it’s no NameNode archi- tecture, MapR creates more files faster, processes<br />

more data faster, and produces better streaming and random I/O results than other distributions. comScore<br />

now runs more than 20,000 jobs each day on its production MapR cluster.<br />

Ease of Use : comScore’s Vice President of Engineering, Will Duckworth said, “With MapR, things that should just<br />

work, just work.” This means there is a lot less for comScore to manage with MapR. One of the advantages that<br />

Duckworth cites is that everything is a data node. This configuration re- sults in much better hardware utilization<br />

from his perspective. With MapR, it is easy to install, manage, and get data in and out of the cluster.<br />

Speed : comScore is also able to use the MapR advanced capabilities to enforce parallel data allocation patterns.<br />

This enables key analyses to be performed using map-side merge-joins that have guaranteed data locality, resulting<br />

in a 10x increase in computation speed. “The specific features of MapR, such as volumes, mirroring and snapshots,<br />

have allowed us to iterate much faster,” said Michael Brown, CTO of comScore.<br />

ABOUT MAPR<br />

MapR delivers on the promise of Hadoop with a proven, enterprise-grade platform that supports a broad set of<br />

mission-critical and real-time production uses. MapR brings unprecedented dependability, ease-of-use and worldrecord<br />

speed to Hadoop, NoSQL, database and streaming applications in one unified big data platform.<br />

MapR is used by more than 500 customers across financial services, retail, media, healthcare, manufacturing,<br />

telecommunications and government organizations as well as by leading Fortune 100 and Web 2.0 companies.<br />

Amazon, Cisco, Google and HP are part of the broad MapR partner ecosystem. Investors include Lightspeed Venture<br />

Partners, Mayfield Fund, NEA, and Redpoint Ventures. MapR is based in San Jose, CA.<br />

Connect with MapR on Facebook, LinkedIn, and Twitter.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

44


Retours d’expériences Big Data en entreprise<br />

MARKLOGIC - DE GRUYTER<br />

21ST CENTURY PUBLISHING<br />

EUROPEAN PUBLISHER TAKES UP TO TEN SYSTEMS OFFLINE WITH A<br />

SINGLE MARKLOGIC BUILT CUSTOMER-FACING APPLICATION<br />

COMPANY OVERVIEW<br />

Academic publishing is a long-standing and venerable industry—and De Gruyter is among the most established.<br />

Since 1749, this European publisher has been producing and distributing English and German content, focusing<br />

primarily on scientific, technical, legal, humanities, and social sciences. With an output of approximately 1,400<br />

books per year—in addition to journals, reference materials, and databases—De Gruyter’s compiled catalog exceeds<br />

65,000 titles. They also offer a program called e-dition, which is essentially e-books on demand. Unlike<br />

other industries, De Gruyter’s customers are not usually the end users: they sell to university libraries and other<br />

academic institutions, and it’s the scientists and educators at those universities who actually use the materials.<br />

CHALLENGES<br />

For many years, scientific publishing was focused on printed materials, but the last decade has seen an increasing<br />

demand for digital access. This industry-wide shift has forced De Gruyter to reassess—and redefine—their<br />

business. “With this change in content output, we’re not really a traditional publisher anymore,” Christian Kohl,<br />

Director of Information & Publishing Technology, explains. “We’re becoming more of a service provider, and also<br />

a hosting platform.” And customers’ needs are changing—both in terms of format and timeframe. As Kohl points<br />

out, they want more granular access to content, and they want it faster. “Purchasing is shifting from ‘just in case’ to<br />

‘just in time’. We can’t afford to have a production time of several years. It needs to be quick, custom, and flexible.”<br />

Since 2006, De Gruyter has invested in a wide range of technologies and support staff. With so many different<br />

types of content and business models, they’ve relied on a variety of legacy databases, websites, and online platforms.<br />

Not only was this cumbersome and expensive to maintain, the complicated infrastructure prevented them<br />

from moving forward with new innovations.<br />

The writing was on the wall: in 2009, De Gruyter realized it was time to simplify. “We needed a new, consolidated<br />

platform that would bring increased flexibility, lower costs, and more automation,” Kohl says.<br />

THE SOLUTION<br />

Kohl and his team began searching for a solution that would support all of their various data types and adapt to<br />

constantly changing structures. Excellent searching and browsing capabilities were also high on the list. And with<br />

their limited budget, they needed a turnkey solution that wouldn’t require third-party technologies.<br />

In November of 2010, De Gruyter chose MarkLogic to consolidate up to ten of their legacy systems into one<br />

customer-facing application. The new platform would combine all of<br />

the existing systems on top of a MarkLogic database and search engine. Using an agile development approach,<br />

they were able to implement new iterations for key features. Just a little over a year later, the new platform was<br />

launched.<br />

WHY MARKLOGIC?<br />

Quicker Response, Higher Revenue: With previous systems, it could take up to six months to add new features or<br />

changes. With Marklogic ever-increasing requests can be met in a matter of days—or even hours. This has also enabled<br />

the company to increase acquisitions and partnerships with publishing partners. Reduced time to market: Database<br />

products and reference works used to take a year to develop and deploy. Now, it’s a matter of days or weeks.<br />

Seamless Integration & Automation: De Gruyter was able to set up XML feeds to send all data from their ERP system<br />

- which houses metadata, catalogs, pricing, and other information—directly into MarkLogic. The new platform<br />

also hooks into the company’s CMS and MAM systems, streamlining the flow of content. Streamlined acquisition<br />

process: Historically, acquiring more providers and content was a very painful process, particularly for the IT department.<br />

With the new platform, De Gruyter can ramp up data volume without impacting performance.<br />

Reduced Costs: With MarkLogic’s more simplistic structure, there is no longer a need to map between the SQL<br />

database and the application layer—which translates to lower maintenance costs. And by eliminating much of its<br />

hardware requirements, De Gruyter has cut its hosting costs in half.<br />

Out-of-the-box Search: With their limited budget, De Gruyter needed a solution that wouldn’t require a third-party<br />

tool—and MarkLogic delivered. “There’s no need to integrate with the SQL server,” Kohl says. “MarkLogic’s search<br />

is already powerful enough.”<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

45


Retours d’expériences Big Data en entreprise<br />

MARKLOGIC - ELSEVIER<br />

UNLOCKING THE VALUE OF CONTENT AT ELSEVIER<br />

INTEGRATING CONTENT TO ENABLE THE RAPID DEVELOPMENT AND<br />

DELIVERY OF NEW INFORMATION PRODUCTS.<br />

INDUSTRY OVERVIEW<br />

The last thirty years have seen a major shift in the production, storage and retrieval of content. Elec- tronic, rather<br />

than printed, content now powers a new class of products and services, with the Inter- net key to delivery. Driving<br />

critical activities within companies, it also provides many of their content- based services to customers. Yet this exploding<br />

volume of content, typically comprising 85% of an enterprise’s information, is fundamentally dif- ferent from<br />

the structured data that relational database technology was created to deal with. A cornerstone in most enterprises,<br />

relational data- bases function by structuring data and applications into tables. They cannot readily accommodate<br />

the unstructured content residing in vast reservoirs of Word files, lab reports, data sheets, operating manuals, messages,<br />

HTML documents, PDFs, Pow- erPoint slides, emails, etc. So organizations wishing to repurpose and realize<br />

more value from digital content are stymied, since the applications needed to deliver added value to customers<br />

are difficult and expensive to create. These issues have had even more impact in the publishing industry, where<br />

content is a company’s greatest asset. And for Elsevier, a leading publisher and information provider for medical,<br />

academic and health-related organizations, they were particularly challenging. Elsevier supports, and continues<br />

to enlarge, a digital content repository unsurpassed in its market. Yet despite Elsevier’s significant investments in<br />

search technology, their users found it increasingly time-consuming to extract the information they needed from<br />

this mountain of data. Elsevier was unable to quickly create applica- tions that would make extracting content faster<br />

and easier...until Mark Logic demonstrated a prod- uct that could rapidly ingest enormous volumes of content, and<br />

then execute complex, fine-grained queries against it with lightning speed.<br />

ELSEVIER’S CHALLENGE<br />

Reconciling the need for relevancy with the necessity for volume. One of the world’s leading publishers, Elsevier<br />

prides itself on supplying customers with the information they need to conduct research, perform experiments,<br />

aid patients, and achieve mission-critical objectives. To this end, Elsevier invested heavily in digitizing its content,<br />

amassing vast repositories of medical and scientific information, and making it available via a range of online<br />

database-driven solutions. However, as Chief Technology Officer David Marques points out, users often have little<br />

time to locate the data most relevant to their work. “If a doctor is at the point of care or a scientist is working in<br />

the lab on an experiment, they don’t have time to go searching through 10 or 20 possible sources.” Yet as more<br />

content amassed, its sheer volume meant customers were spending more time refining searches to winnow out<br />

the content most relevant to their needs. Elsevier’s greatest asset was growing more difficult to deliver with the<br />

level of granularity required by users. And this, explains Marques, is precisely the kind of value- added service<br />

Elsevier wished to supply. “We wanted to help customers solve the problems they face in their particu- lar setting...<br />

By enabling our customers to extract only the pieces of content that matter to them at that moment, and to flexibly<br />

combine them, Elsevier can provide maxi- mum value per use of content.” To achieve its objective for increased<br />

customer satis- faction, Elsevier set two goals: quickly transform the content rigidly held in its many separate databases<br />

into a liquid asset easily tapped by users in any way they desired. And in so doing, establish a common<br />

platform for developing future products.<br />

But facing Elsevier were four formidable challenges:<br />

1. Lack of central repository. Each body of content existed in a separate database – either in a relational database<br />

format or a proprietary one – with several ap- plications on each database.<br />

2. Huge range of file formats. Normalizing content was extremely time-consuming. For one application project<br />

alone, there were 35 different document formats involved.<br />

3. High cost. New functionality was time-consuming and expensive to build. The complex logic needed to deconstruct<br />

a document and analyze relationships between documents had to be built application-by-application. Moreover,<br />

from a performance perspective, forcing this logic into an application was inefficient, compared to lev- eraging<br />

a specialized content server that can efficiently retrieve large amounts of information.<br />

4. Massive amounts of content. The final content repository was estimated to exceed 5 terabytes in size. Included:<br />

More than five million full-text journal articles across 1,800 journals; over 60 million citations and abstracts (separate<br />

from the articles); 20,000 in-print books; 9,000 out-of-print books; and thousands of infor- mational pamphlets.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

46


Retours d’expériences Big Data en entreprise<br />

DEFINING REQUIREMENTS<br />

Preparing the way.<br />

In an increasingly aggressive industry, Elsevier required shorter delivery cycles for its competitive offerings. So as<br />

a pioneer in the digital marketplace, they defined the parameters for products that extracted content from authors<br />

fast and put it online even faster. Equally signifi- cant, Elsevier recognized that to give users exactly the information<br />

they wanted, any new solutions must have the power to dynamically assemble relevant information from across<br />

multiple sources. Recognizing the poten- tial of tagged search elements, Elsevier started in the year 2000 to redesign<br />

products along Web services architecture.<br />

Beginning with Standard Generalized Markup Language (SGML), Elsevier moved forward, keeping pace with the<br />

evolution of descriptive signature technologies and ultimately investing in the benefits of XML (Extensible Markup<br />

Language). Of course, such advances helped deliver greater content relevancy to users. But enabling the highest<br />

degree of granularity meant the structural relationships of tagged content had to be leveraged in a way that allowed<br />

relevant information deep within docu- ments to be parsed and reassembled into new content.<br />

Accordingly, the absence of a centralized content repository had to be remedied, since an intelligent terminus<br />

would be required for all searches – enabling the deconstruction and synthesis of documents into con- text- specific<br />

results. This eliminated the deployment of traditional relational database systems, whose concepts and data<br />

models were conceived in an era of short, highly- structured records of data, and not the unpredictable and timevarying<br />

structure found in content.<br />

Instead, the new solution would need to:<br />

• Exploit the wide variety of unstructured content, rather than be constrained by it.<br />

• Eliminate format and content-prejudiced conditions for standardization of information.<br />

• Function without a single, standard, pre-defined schema, and indeed in the presence of many different and<br />

changing schemas<br />

• Achieve performance without sacrificing relevance. Both the user interface and the returned results had to operate<br />

quickly and efficiently, and to deliver the right pieces of information at the right time.<br />

Roadblocks to rapid product development<br />

When developing new products, Elsevier had to confront:<br />

• Difficulty in leveraging and synthesizing information from docu- ments held among a wide range of different databases<br />

and the applications on each.<br />

• Lack of a “content common denominator” for normalizing informa- tion within applications or databases.<br />

• Risk of poor ROI due to long and expensive implementation of new functionality and applications.<br />

• A mountain of disparate content with no existing unifying solution<br />

PUTTING MARK LOGIC TO THE TEST<br />

Transforming a mountain of documents into a single, searchable contentbase.<br />

By the year 2004, Elsevier had reengineered their products along the lines of web service architectures, creating<br />

an XML repository offering new efficiencies to their IT staff and higher functionality for users. But the apron strings<br />

of relational database technology still tied the company down to long, expensive product develop- ment cycles and<br />

less than optimal performance. To get reasonable content performance from their database management systems<br />

they still needed to pre-define schemas and access paths: time-consuming tasks that ultimately limit content ingestion<br />

and the power of resultant searches. And after intensifying their hunt for new ways to shorten time to market<br />

and add greater value to their content they found what looked like a per-fect way to leverage their significant investment<br />

in XML: MarkLogic Server.<br />

“We offered to show Elsevier how the MarkLogic Server could leverage their investment in XML to deliver on Elsevier’s<br />

vision,” recalls Mark Logic Co-founder and Chief Technologist Paul Pedersen. “Our promise was simple.<br />

Hand us any amount of data, as is, from your archives.<br />

We’ll hand you back an entirely new application based on that content.” And as Pedersen further described to<br />

Elsevier, “The system lets you reach across large content sets, extract exactly the information that you need, and<br />

then present it as a new document that was created automatically.”<br />

Intrigued by the prospect of being able to simply pour existing archives and content into MarkLogic Server and<br />

receive a fully functional application, Elsevier agreed to the test. And to see just how short a timeline Mark Logic<br />

could deliver a competitive product in, they made it a demanding one. According to Pedersen, “...Their team<br />

handed us an entire product line of 20 medical textbooks, each a thousand pages long or more. They didn’t even<br />

provide the DTDs,” he recalls. “They just said ‘Go.’ So we did, and in about a week we came back to them with a<br />

fully functional application.”<br />

Moreover, according to David Marques, the application Mark Logic delivered in just a few days was more flexible<br />

than anything Elsevier had online at the time. This ac- complishment was all the more remarkable considering that<br />

the 0.5 terabytes of content loaded into MarkLogic Server was comprised of over 35 different formats – a flexibility<br />

matched only by the level of granularity provided by searches using the resulting application. Im- pressed, Elsevier<br />

engaged Mark Logic and is using Mark- Logic Server to consolidate all of its archives, rapidly build new applications,<br />

and create value-added services from its repository. As Marques affirms, “MarkLogic Server will be a core of<br />

all our major electronic products going forward, since it allows us to even better serve our customers and users.”<br />

BENEFITS OF THE MARKLOGIC SERVER<br />

Putting content in its place, fast.<br />

From Mark Logic, Elsevier found an immediate solution to all the key challenges facing publishers who need to<br />

hasten the deployment of new, more competitive online products. They are now consolidating all of their content<br />

archives, rapidly bringing new applications to market and enhancing existing applications with value-added functionality<br />

that makes every last byte of content available to users in the most relevant way.<br />

Combining the power of database-style queries against content, with the speed and scalability of search engines,<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

47


Retours d’expériences Big Data en entreprise<br />

MarkLogic Server repurposes content on-the-fly, combining information into new content for users seek- ing answers<br />

to different questions involving the same subject matter – literally creating new content from old and adding<br />

value in the process. Massively scalable in both storage and performance, it can manage millions of documents<br />

and terabytes of content – with no degrada- tion in executing queries and updates.<br />

A boon to publishers and their customers, Mark Logic revolutionizes search technology by enabling:<br />

• Consolidation of content archives. MarkLogic inte- grates content from many sources into a single reposi- tory,<br />

then creates new content by summarizing informa- tion across various content categories.<br />

• High-performance XQuery implementation. A com- plete XQuery implementation delivers high performance<br />

against multi-terabyte datasets, thanks to MarkLogic’s search-engine-style indexing mechanisms.<br />

• Rapid application development, no fixed schemas. MarkLogic does not require schemas or document type definitions<br />

(DTDs). MarkLogic loads content, as is, and allows you to instantly start building applications that leverage it.<br />

• Element-level granularity. Using XQuery, MarkLogic Server fulfills searches by reaching deep inside docu- ments<br />

to identify, analyze, combine, and extract pieces of content exactly relevant to the task of the user, precisely within<br />

the context in which they’re working.<br />

• Extreme flexibility. MarkLogic accepts content “as is” from many sources, eliminating the lengthy process of preparing<br />

content. Rather than having to plan ahead for every possible use of the content, publishers can rely upon<br />

the flexibility of the technology to evolve applica- tions over time.<br />

A SINGLE SOLUTION TO MANY BOTTLENECKS<br />

With Mark Logic, Elsevier has achieved:<br />

• Consolidation of all content archives into one centralized repository.<br />

• A high performance platform for multi-terabyte contentbases.<br />

• Higher efficiency through centralized storage of content and indexing.<br />

• Element-level search granularity for users.<br />

• Preparation-free content loading.<br />

• Speedy application development thanks to the power of XQuery and the elimination of extensive content preparation.<br />

• Just-in-time delivery of information that is precisely tailored to users’ needs, within the context they’re working in<br />

and in the form they need.<br />

BENEFITS TO ELSEVIER’S CUSTOMERS<br />

The results.<br />

The power of a database, the speed and flexibility of word and phrase search functionality, the ability to de- liver<br />

it all in a fraction of the time previously necessary... With MarkLogic, Elsevier not only speeds the delivery of new,<br />

more competitive products, but enables users to get exactly the data they need to complete their tasks 5 to 9 times<br />

faster than before.<br />

For example, Elsevier no longer needs to normalize content to transform it into their repository. Now they can build<br />

directly on the inherent variability of dif- ferent types of content – slashing time to availability by two-thirds. And,<br />

says David Marques, the ultimate benefit to users is fantastic granularity: “...When a user has a question, we want<br />

to reduce the number of search results from 10 possible documents down to two precise sections or paragraphs<br />

so we deliver just the right bit of content the user needs.”<br />

But for the Elsevier team, the gratification of providing this kind of added value to users goes beyond feelings of<br />

pride in their technical accomplishment. As Marques explains, by enabling researchers and medical profes- sionals<br />

to find fast answers to urgent questions, they<br />

also help improve treatments and outcomes for patients: “Medical reference books are invaluable resources for<br />

making a diagnosis, but laboriously searching and cross- referencing a number of different books is an inefficient<br />

way to do this. The products we build with MarkLogic allow physicians to quickly pull out only the relevant passages<br />

from across a range of different books, in order to reach an informed diagnosis.”<br />

And the future for Elsevier and its customers holds even more promise. MarkLogic has dramatically accelerated<br />

the deployment of products and services, while greatly reducing the costs of content loading and design – translating<br />

into even faster research cycles and clinical diagnoses, thanks to a new generation of solutions for helping<br />

professionals find exactly the information they need, when they need it most.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

48


Retours d’expériences Big Data en entreprise<br />

MARKLOGIC - HEALTHCARE.GOV<br />

MARKLOGIC PROVIDES ACCESS TO HEALTHCARE INSURANCE FOR<br />

MILLIONS OF AMERICANS MORE THAN EIGHT MILLION APPLICATIONS<br />

PROCESSED ON HEALTHCARE.GOV<br />

OVERVIEW<br />

Following the approval of the Affordable Care Act of 2010, the US Department of Health and Human Services<br />

(HHS) Centers for Medicare and Medicaid Services (CMS) needed to design, build, and implement a technology<br />

platform capable of enrolling millions of Americans in new healthcare plans. CMS’s driving vision was to enable<br />

better access to healthcare for all Americans through smart and efficient tools and systems that would also help<br />

reduce costs.<br />

CHALLENGES<br />

CMS had to develop a Health Insurance Marketplace (HIM) and Data Services Hub (DSH) that would allow millions<br />

of Americans to shop for insurance, check their eligibility against dozens of federal and commercial data sources,<br />

and provide a way for state health exchanges to connect. This was the first time the US government would tackle<br />

an IT project of this kind.<br />

CMS had to overcome some daunting challenges:<br />

Strict time constraints. CMS was mandated by ACA to launch on October 1, 2013.<br />

Stringent security requirements. Whatever solution CMS chose, it would have to provide the transactional consistency,<br />

reliability, disaster recovery, security, and auditing capabilities required for the federal government.<br />

Multiple data sources. The system would need to take in a vast array of data from states, health plan providers,<br />

and government entities to evaluate applicants’ eligibility status, including the Department of Homeland Security;<br />

the Internal Revenue Service; the Social Security Administration; and Veterans Affairs.<br />

An unknown data specification. As with most large-scale implementations, when development started, the data<br />

specification was not yet determined. There were numerous changing factors driven by insurance providers and<br />

participating states. The database needed to be able to handle constant change and a schema that could evolve.<br />

Scalability. From the outset, CMS knew the marketplace would serve individuals from as many as 51 jurisdictions<br />

(the states plus Washington, D.C.). CMS needed a technology that could scale rapidly, on cost-effective commodity<br />

hardware, to meet any level of demand.<br />

THE SOLUTION<br />

CMS concluded that the MarkLogic Enterprise NoSQL database platform provided the scalability and agility required<br />

to meet an 18-month timeframe from software procurement to launch.<br />

The teams working on this initiative realized the effort to complete this project would take too long using a traditional<br />

relational database.<br />

MarkLogic’s schema-agnostic data model ingests data as-is and adapts to modifications, as new data sources are<br />

included and as policies or regulations change, to help meet tight deadlines.<br />

MarkLogic was the only platform able to process massive amounts of poly-schematic information while simultaneously<br />

offering ACID-compliant transactions.<br />

WHY MARKLOGIC?<br />

Faster time to production. MarkLogic helped CMS get the Healthcare.gov site running within 18 months. In less<br />

than 5 months after the website launched, MarkLogic supported 5,500+ transactions per second (TPS-backend<br />

transactions to database) to help over 8 million people sign up for health insurance.<br />

Nearly limitless scalability with record-breaking performance. MarkLogic has supported 160,000 concurrent users<br />

and delivered over 99.9% availability. More than 99.99% of queries have logged response times of less than 0.1<br />

seconds, without any data loss or data inconsistencies.<br />

A seamless online shopping experience for Healthcare.gov users. MarkLogic’s schema- agnostic data model provided<br />

CMS the ability to manage and integrate data “as is” so data from multiple states, government agencies,<br />

health plan providers, and personal information from millions of Americans did not have to be recoded. This allowed<br />

the system to qualify Americans and provide them competitive healthcare coverage and options.<br />

Confidence to manage and integrate confidential user information. MarkLogic’s enterprise-grade NoSQL database<br />

platform meant CMS did not have to sacrifice any of the enterprise features expected from a traditional database,<br />

such as government-grade security, ACID transactions, and HA/DR, and could take full advantage of a NoSQL<br />

schema-agnostic document model that handled the heterogeneous and unstructured data.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

49


Retours d’expériences Big Data en entreprise<br />

MARKLOGIC - OXFORD UNIVERSITY PRESS<br />

SCALING THE CONTENT DELIVERY PROCESS:<br />

THE VIEW FROM OXFORD UNIVERSITY PRESS<br />

INTRODUCTION<br />

This case study chronicles one organization’s focus on streamlining its publishing process to facilitate the creation<br />

and delivery of new products. With the growing use of the Web and other electronic sources for information<br />

discovery and access, organizations like Oxford University Press are being pressed to deliver content through<br />

multiple channels. They must also create products that are aimed at specific market segments, often utilizing<br />

multiple information sources.<br />

For Oxford University Press, each new online project meant starting from scratch. Building a standard publishing<br />

platform and using XML for its content format enabled Oxford University Press to quickly produce new products<br />

in much less time and re-use work from previous projects. This company provides an excellent example of an<br />

organization that:<br />

• Continues to introduce new products targeted toward specialized market needs<br />

• Understands that content for its products can come from multiple information sources, possibly with different<br />

content structures, characteristics, and attributes<br />

• Recognizes the inefficiencies of building new workflows and systems for each content product<br />

• Realizes the value that an XML-based publishing platform can provide<br />

• Comprehends the importance of content aggregation and searching as core capabilities for building new products<br />

from the growing base of source information<br />

To obtain these benefits, Oxford University Press built a publishing platform based on an XML content server<br />

from Mark Logic that enabled it to work with multiple content structures. To make the platform extensible for future<br />

needs, Oxford University Press developed an API (application programming interface) that would enable it to work<br />

with multiple development firms without major changes to the platform. Benefits are typically accrued across a<br />

range of projects, but Oxford experienced significant results with its very first project.<br />

COMPANY OVERVIEW<br />

Oxford University Press (OUP) has an illustrious history. The company had its origins in the information technology<br />

revolution of the late fifteenth century, which began with the invention of printing from movable type. The first book<br />

was printed in Oxford in 1478, only two years after Caxton set up the first printing press in England.<br />

Despite this early start, Oxford’s printing industry developed in a somewhat haphazard fashion over the next century.<br />

It consisted of a number of<br />

short-lived private businesses, some that were patronized by the University. In 1586, the University itself obtained<br />

a decree from the Star Chamber confirming its privilege to print books.<br />

This was further enhanced in the Great Charter secured by Archbishop Laud from King Charles I, which entitled<br />

the University to print “all manner of books.”<br />

In 1896, Oxford University Press opened an office in New York that followed all of Oxford’s traditions of religious<br />

and academic publication. OUP USA is currently Oxford University Press’s second major publishing center (after<br />

Oxford), annually producing nearly 500 titles.<br />

Since 1896, OUP’s development has been rapid in all areas. Music, journals, and electronic publishing have been<br />

introduced during the past 75 years, and ELT publishing (which started with books to teach English in Africa and<br />

India) has grown into a major international business. OUP is now one of the largest publishers in the U.K. and the<br />

largest university press in the world.<br />

The project to create a publishing platform for its online content was led by New York-based OUP, Inc. This architecture<br />

and its resulting benefits would then spread out across Oxford University Press.<br />

BUSINESS DRIVERS<br />

Since the onset of internet publishing, the introduction of each new online product (i.e. OED.com, American National<br />

Biography Online) required Oxford University Press to staff its own project team to create a new platform.<br />

Apart from shared best practices, therefore, OUP was unable to fully leverage its investments from one product to<br />

the next. This approach made sense while Oxford University Press was building flagship products like The Oxford<br />

Dictionary of National Biography, but OUP needed a more effective way to build niche products (i.e. a referencebased<br />

subscription product for the African American Studies market). This time, Oxford University Press wanted to<br />

produce a project in a way that would make it easier to handle similar projects in the future.<br />

Oxford University Press understood that this could be achieved with the creation of a publishing platform. The<br />

platform needed to be flexible enough to handle varying functional requirements and diverse types of content, but<br />

scaleable enough to meet the needs of large and small projects.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

50


Retours d’expériences Big Data en entreprise<br />

CHALLENGES<br />

Oxford University Press made a strategic decision to develop its new platform simultaneously with the first product<br />

implemented on it. While this added complexity to the project, the company believed that this approach would accomplish<br />

two goals. First, it would mean that OUP could more quickly realize the fiscal and practical benefits of<br />

the platform. Second and perhaps more importantly, the platform would have a real-world example against which<br />

to test itself.<br />

THE AFRICAN AMERICAN STUDIES CENTER’S REQUIREMENTS<br />

The Oxford African American Studies Center (AASC), edited by Henry Louis Gates, Jr., was developed to be the<br />

online authority on the African American experience. To be the preeminent scholarly reference on African American<br />

studies, the AASC site needed to aggregate and publish a range of content and formats:<br />

• Core content: Five major Oxford encyclopedias covering all aspects of the African American past, including Encyclopedia<br />

Africana (5 vol.) and Black Women in America (3 vol.)<br />

• Additional source content from more than 18 Oxford reference sources, all editorially selected and reviewed<br />

• Approximately 1,000 images at the product launch, with an ongoing image research program expected to add<br />

hundreds more images annually<br />

• 100 primary sources, including the Emancipation Proclamation, Frederick Douglass’s slave<br />

narratives, and text of speeches. Brief introductory essays accompany each primary source.<br />

• More than 200 charts, tables, and graphs representing demographic information in areas like history, government<br />

and politics, business and labor, education, law and crime, and the arts<br />

• Over 140 thematic maps illustrating demographics and history in a variety of areas<br />

• A general timeline of African American history, and specific thematic timelines<br />

• Learning center: Designed for the school market, this will be a growing area that aims to help users explore the<br />

content with ready reference tools like country profiles, suggested lesson plans by grade level, and study guides<br />

to match the curriculum<br />

The AASC needed to support two types of users with different expectations for finding information:<br />

• The primary users would be librarians, who are knowledge professionals. This class of users would demand<br />

complex search functionality, including boolean, proximity, field, thesaurus, stemming, and wildcard.<br />

• Secondary users would be students, who would want simple searching capabilities in the model of Google.<br />

PLATFORM REQUIREMENTS<br />

The two guiding principles for developing the platform, according to Alex Humphreys, OUP’s Director of Online<br />

Engineering, were “flexibility and scalability.” He goes on to say, “These two principles should each be realized in<br />

the areas of content creation and management, product development, and project management.”<br />

TABLE 1: PLATFORM REQUIREMENTS<br />

FLEXIBILITY<br />

SCALABILITY<br />

CONTENT<br />

OUP wanted a model where content could<br />

be created once, and then used in multiple<br />

products. At the same time, the platform<br />

could not define the content format. It<br />

would need to use and integrate content in<br />

a variety of formats, from different sources,<br />

and using different DTDs.<br />

The platform could not place any constraints<br />

on the volume of content that could be supported.<br />

PRODUCT<br />

It was critical that the platform did not dictate<br />

product features or capabilities. Instead,<br />

it needed to be extensible to support<br />

market-driven needs and requirements.<br />

For the platform to be successful, the investment<br />

in features, hardware, and resource<br />

training needed to be leveraged between<br />

products. Each new product could not be a<br />

one-off proposition.<br />

PROJECT<br />

The platform needed to provide multiple<br />

options for integration with other systems<br />

and capabilities. It needed to enable OUP<br />

to work with any number of different vendors,<br />

suiting the vendor selection to the<br />

specific needs of each new project.<br />

The platform needed to provide a foundation<br />

that would enable OUP to work on multiple<br />

projects simultaneously. This meant limiting<br />

its dependence on any one vendor by allowing<br />

multiple vendors to interact with the platform<br />

using a defined API.<br />

To ensure longevity and extensibility of the platform, OUP decided that the platform would need to be standardsbased,<br />

utilizing XML to the greatest extent possible.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

51


Retours d’expériences Big Data en entreprise<br />

STEPS TO SUCCESS<br />

In March 2005, Oxford University Press selected Mark Logic’s XML content server as the foundation technology<br />

upon which to build its new product platform. MarkLogic Server would provide three things:<br />

• A flexible database for the content that OUP would include in AASC and in all future platform-based projects. As<br />

a database, it was specifically designed for the structured XML documents that constituted OUP’s content.<br />

• A powerful search engine that would enable customized searching on a per-product basis<br />

• The ability to use the XQuery language, a W3C standard that OUP considers to be cutting-edge<br />

Not long after selecting MarkLogic as the basis for its platform, Oxford University Press chose Boston- based Interactive<br />

Factory (IFactory) to build the platform and the AASC product. Having worked with IFactory on the Oxford<br />

Dictionary of National Biography (www.oxforddnb.com), OUP was confident in its ability to understand the complex<br />

requirements of the platform and the product. The design phases of both projects began in June 2005.<br />

Meanwhile, OUP was assembling the content for the African American Studies Center. The content took a variety<br />

of paths into the product:<br />

• The core content from the main African American encyclopedias needed to be tagged into XML.<br />

• Other content was used from other products such as Oxford Reference Online and Grove Music Online; this<br />

content required very little work to incorporate.<br />

• Some content needed to be created specifically for the site. This set included articles and features as well as<br />

certain metadata regarding the rest of the content on the site.<br />

By late fall, OUP had solid designs for the product and the platform. The company also had the bulk of the content<br />

created and detailed plans for the remaining elements. With this, the development phase with IFactory began.<br />

The platform was released and tested in an Alpha site in January, and a Beta site in March. The AASC product was<br />

launched in late April, in time to market it for the summer academic library season.<br />

The teams responsible for the project consisted of a core group of four people from OUP and an additional four<br />

from IFactory. Those teams expanded, however, to include other people and roles when the project demanded it.<br />

In all, OUP spent two years on this project. The first year was spent assessing opportunities and needs. Once<br />

MarkLogic and IFactory were chosen, the site and platform were designed and developed in less than eleven<br />

months. The schedule was aggressive, but ultimately successful.<br />

Figure 1: Publishing Platform and AASC Project Timeline<br />

IMPACT OF THE RESULTS<br />

The product implemented on the platform looks similar to existing projects that were done the old way. This is a<br />

testament to the fact that OUP met its goal of not having the platform limit the product’s design or functionality. The<br />

first reviews of AASC have been extraordinarily positive.<br />

The impact of the platform will be felt more significantly on future projects. For one thing, the new project team<br />

now has a resilient new platform on which to work. This should enable OUP to diminish the duration and cost of<br />

implementing new projects. Under the right circumstances (i.e. in the development of new Studies Centers), the<br />

time taken to develop new products could drop from 10 – 12 months to 4 – 6 months.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

52


Retours d’expériences Big Data en entreprise<br />

Figure 2: Example from the Oxford African American Studies Center Site<br />

Going beyond the ability to develop and introduce new products faster and more affordably, Oxford University<br />

Press is also likely to see:<br />

• More efficient utilization of technical staff, all trained on and fluent in one platform<br />

• The ability to introduce new types of functionality and content in new and existing products, and the ability to<br />

combine various content types in ways that were once impossible<br />

• Reduced hardware costs through shared servers and better utilization of resources<br />

• The ability to add delivery channels such as print or even mobile<br />

• Flexibility in choosing third-party vendors to develop new sites<br />

As long as it is similar to an existing project—meaning that the content is of a similar structure (DTD) and that the<br />

functionalities of the Web sites are similar—a new project can be replicated fairly quickly. That is not to say that<br />

additional costs will not be incurred on future projects. Three things are likely to increase the cost of a new project:<br />

• New types of content, specifically each new DTD “learned” by the platform. Alex Humphreys, Oxford’s Director<br />

of Online Engineering, noted that “when and if lexical content is added, the platform would need to be taught how<br />

to handle it.”<br />

• New functionality, such as the ability to print to PDF or wiki-based interactivity<br />

• The need for a new implementation vendor to implement a project. “We understand that there will be a learning<br />

curve, and therefore additional costs, when each new vendor implements a product using our platform’s API,”<br />

states Humphreys. “By being able to spread our projects across multiple vendors, we can avoid keeping all of our<br />

eggs in one basket.”<br />

Humphreys concludes, “The key value proposition of this solution is flexibility. The platform provides us with the<br />

flexibility to respond to specific project and product requirements. That could mean launching new products more<br />

quickly, or it could mean scaling the platform’s hardware to handle a site much larger than AASC. We feel that this<br />

flexibility gives OUP a real advantage in responding to the rapidly evolving academic publishing marketplace.”<br />

Oxford University Press has three new products to add to the platform, and many more will follow.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

53


Retours d’expériences Big Data en entreprise<br />

LESSONS LEARNED<br />

As with any project, a number of valuable lessons were learned by the Oxford University Press team as it developed<br />

its new platform and rolled out the African American Studies Center.<br />

Know<br />

./<br />

Understand<br />

./<br />

./<br />

Plan<br />

./<br />

your content. In addition to understanding the type of information and its structures,<br />

one must also understand how the content is interrelated. Possessing a deep understanding<br />

of the information enables you to fully define the content, its metadata, and its publishing<br />

requirements. You can then verify that the functionality you have planned properly<br />

leverages the content’s granularity. The information and relationships play directly into the<br />

design of the final product.<br />

that technology is not magic. In the end, technology is not a silver bullet that<br />

can do everything for you—it is a tool that enables you to speed the development and publishing<br />

of information. In the end, it will not provide 100% automation, nor will it eliminate<br />

the need to work directly with the information. If used correctly, however, technology can<br />

greatly improve the pace and effectiveness of creating and delivering information.<br />

Utilize an XML architecture to help ensure flexibility. Using XML helps to remove the dependency<br />

of information on any one particular technology, and this ultimately adds longevity<br />

to the information and platform. XML-based information can be aggregated with<br />

other information, automatically processed, and published in a more automated manner. It<br />

reduces the amount of direct interaction that is necessary to reuse or repurpose the content.<br />

An XML content server like MarkLogic Server can significantly improve this process.<br />

for iterations. Functionality, content, and metadata are often intertwined. For instance,<br />

metadata that was not used in the original content may be core to the online product.<br />

According to Alex Humphreys, “Iterations are about coordination. By cycling through these<br />

iterations, we can simultaneously mitigate risk while ensuring that the entire project team<br />

is working towards the same goal.»<br />

PRODUCT REFERENCE: MARKLOGIC SERVER<br />

Mark Logic Corp. helps its customers accelerate the creation of new information products. MarkLogic Server is<br />

an XML content server that enables organizations to build content applications, or applications that are based on<br />

content and that support business processes. With MarkLogic Server, companies can deliver products through<br />

multiple channels, integrate content from different sources, repurpose content into multiple products, build unique<br />

information products, and discover previously unknown information. MarkLogic has a complete implementation of<br />

XQuery, the W3C-standard for querying XML, and provides very fast and highly scalable content retrieval.<br />

San Mateo, California-based Mark Logic is privately-held and backed by Sequoia Capital and Lehman Brothers.<br />

The company serves large, recognized companies in the publishing industry, public sector, and other industries.<br />

MARKLOGIC SERVER OVERVIEW<br />

As MarkLogic Server is an XML content server, it is an ideal platform for content applications. With a native XML<br />

repository and a complete implementation of XQuery, MarkLogic provides robust support for:<br />

• Content loading: Content can be loaded in its current format, converted to XML as necessary, and automatically<br />

indexed for later retrieval. Supporting any number of DTDs or XML schemas, MarkLogic Server is able to make<br />

sense of a disparate array of content.<br />

• Query: With full-text and XML indexes accessible via XQuery, MarkLogic Server provides fine-grained search and<br />

retrieval based on document type, content structure, occurrence, and attributes.<br />

• Content manipulation: MarkLogic Server provides the means to transform, update, and even assemble new content<br />

products based on specific needs.<br />

• Rendering content: MarkLogic Server enables companies to format, publish, and deliver content products. If<br />

needed, MarkLogic can be integrated with other publishing technologies to facilitate the delivery of content through<br />

any number of media or channels.<br />

MarkLogic Server enables organizations with high-volume content needs to automate the processes of content<br />

integration, content repurposing, content delivery, and custom publishing.<br />

CONTENT INTEGRATION<br />

Many organizations have numerous disparate silos of content due to unique project needs, mergers and acquisitions,<br />

licensing, or changing corporate standards. Much of that content is maintained in different formats. Until the<br />

content has been integrated, however, its true value cannot be realized.<br />

MarkLogic Server bypasses the typical content normalization step by importing content “as is.” It uses the power of<br />

its query system to cut across all of the types and formats in a content base. MarkLogic supports loading, querying,<br />

manipulating, and rendering content in consistent ways even if there are no common DTDs, XML schemas,<br />

or formats. Furthermore, MarkLogic Server does not “shred” or “chunk” documents, so there are no problems with<br />

“round-tripping” documents to and from the content base. No information is ever lost.<br />

CONTENT REPURPOSING<br />

Content Publishers often need to repurpose content into multiple products to increase revenues, decrease costs,<br />

or accelerate time to market. The goal is simple—write once, use many. These organizations want to assemble<br />

content components to create customized, purpose-built documents and information products.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

54


Retours d’expériences Big Data en entreprise<br />

MarkLogic Server delivers content that is formatted and organized to end-users’ specifications. It can automatically<br />

create summary documents that extract relevant content across entire collections. MarkLogic is the basis of<br />

self-service publishing systems that enable customers to assemble their own information collections. Content repurposing<br />

is vital when multiple variants of a document are drawn from common materials. For example, a section<br />

of a research article may be combined with different content for Internet portals, print journals, grant applications,<br />

reference manuals, and textbooks. In another example, a master technical document about an aircraft may be excerpted<br />

to form manufacturing instructions, maintenance manuals, pilot briefing books, and training presentations.<br />

CONTENT DELIVERY<br />

When documents are ready to be published, syndicated, or otherwise delivered, they must go through an output<br />

formatting and rendering process. Preparing the same content for use in a textbook and a magazine means dealing<br />

with different document organizations, formats, and layouts. Meanwhile, publishing the same content for a Web<br />

portal, on-demand PDF, or handheld document reader requires further output rendering.<br />

MarkLogic Server provides the services needed for delivery of content that is optimized for multiple output formats,<br />

media, and devices. It also provides a content processing framework that offers custom content processing<br />

pipelines to coordinate multi-step production processes. The content processing framework has a Web services<br />

interface for easy integration of third-party tools and applications, enabling MarkLogic Server to be seamlessly<br />

integrated into existing business processes to create efficient content delivery systems.<br />

CUSTOM PUBLISHING<br />

Custom publishing is the on-demand assembly and production of documents from existing content. With a custom<br />

publishing system, users can build a custom document, book, article, newsletter, or collection of articles simply by<br />

“snapping” together content components from different sources.<br />

MarkLogic Server provides the services that enable content to be located, selected, and then assembled into a<br />

complete book or whatever format is required.<br />

SEARCH AND DISCOVERY<br />

Traditional enterprise search engines can often prove useful, especially when you know exactly what you are looking<br />

for. All too often, however, the potential matches are too numerous to even review. Furthermore, a user may not always<br />

know what he or she wants to find. MarkLogic Server provides extensive enterprise search capabilities (i.e. phrase,<br />

Boolean, wildcard, proximity, parametric, range searches) and language processing features (i.e. stemming, thesauri,<br />

spell checking). All of these features are implemented in a platform that can scale to handle terabytes of content.<br />

Figure 3: MarkLogic Server vs. Enterprise Search Engine<br />

INFOTRENDS’ PERSPECTIVE<br />

The Oxford University Press story is an excellent example of a company that made an infrastructure investment in<br />

a standardized XML publishing system that enhanced its ability to quickly develop new products while also reducing<br />

costs. The Mark Logic-based publishing platform enabled OUP to develop new projects in less time than it had<br />

taken to produce one-off projects. This directly translates into a better utilization of resources, the ability to respond<br />

more rapidly to changing market conditions, and the flexibility to respond to new requirements and content in the<br />

future. XML-based publishing solutions are gaining favor as customers and their vendors realize that information<br />

consistency is critical and metadata is paramount for a wide range of publishing projects. In fact, content- centric<br />

applications that assemble and distribute content through multiple touchpoints using open standards such as XML<br />

are no longer in the minority. OUP’s willingness to grapple with its online publishing problem using an XML-based<br />

publishing approach that is built on MarkLogic Server will enable the company to better serve customers in the<br />

future as their information needs continue to evolve.<br />

Mike Maziarka, Craig Cline<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

55


Retours d’expériences Big Data en entreprise<br />

MARKLOGIC - PRESS ASSOCIATION<br />

DATA IN THE NEWS<br />

MULTIMEDIA CONTENT PROVIDER STREAMLINES DELIVERY WITH A<br />

CENTRALIZED PLATFORM<br />

COMPANY OVERVIEW<br />

For over 140 years, the Press Association (PA) has served as the UK’s biggest provider of fast, fair, and accurate<br />

news content. Today, PA Group provides a range of global multimedia content and editorial services, including<br />

news, sports, data, weather forecasts, images and video as well as more bespoke services. Their diverse customer<br />

base ranges across media and from small businesses to global corporations and government agencies.<br />

CHALLENGE<br />

Originally made up of multiple companies brought together to form PA Group and with such diversification in different<br />

types of content and services, more technical cohesion and strategy was needed when John O’Donovan joined<br />

as Director of Architecture & Development.<br />

“All of the different parts of the business were utilizing different technologies,” he says. “Each of the various types<br />

of data - images, video, news stories and so on - were built and managed on different systems.”<br />

PA needed a new, centralized solution that could handle XML, while also merging a large volume of structured<br />

and unstructured content in a useful and efficient way. O’Donovan and his team knew that traditional databases<br />

wouldn’t have that capability: “We needed something that could build a single, common platform to align all of our<br />

diverse and complex content.”<br />

Speed and efficiency were also key considerations. With previous solutions, the company was spending 70% of<br />

their time managing and manipulating data before they could get any use out of it. It was important that the new<br />

platform be fast and flexible.<br />

SOLUTION<br />

PA has enjoyed a beneficial relationship with MarkLogic for several years. Most notably, they used MarkLogic to<br />

facilitate news delivery during the Olympic Games and have rebuilt their central editorial system including certain<br />

sports news systems using MarkLogic as the common content store. During the Olympics, PA fulfilled over 50<br />

billion information requests, including competition results, athlete information, news stories and more. MarkLogic<br />

rose to the challenge, serving up all that data in a<br />

fast and efficient manner for it to be distributed to many different clients in 26 languages across 40 regional territories.<br />

“Throughout the whole event, the technology worked exactly the way we wanted it to,” says O’Donovan.<br />

When considering their key objectives for the new platform, MarkLogic was a natural fit; “The platform aligned<br />

perfectly with our business strategy and development goals,” O’Donovan says. “They were equipped to deliver a<br />

central, common database - one system to accommodate all types of data.”<br />

After a successful launch, the PA team immediately recognized several key benefits. The new system had the flexibility<br />

and scalability they needed, which will seamlessly accommodate future growth. It also offered a high degree<br />

of security they were seeking.<br />

With the new platform, PA is able to manage data issues much more efficiently. As an example, one specific project<br />

would have taken up to 100 workdays to complete with the old platform; with the MarkLogic solution, it took only<br />

34 days - a 66% boost in efficiency. “There are fewer restrictions and less complexity in transforming data from<br />

one format to another,” notes O’Donovan. “We can store and manage data in a way that aligns with how we want<br />

to present it to customers.”<br />

Overall, PA feels they are utilizing the new tool to the best of its ability, enabling them to not only deliver their existing<br />

products, but to also deploy new solutions that were previously too difficult, time-consuming or expensive to<br />

build.<br />

SUMMARY<br />

After successfully launching several key applications, the Press Association has become a huge advocate of Mark-<br />

Logic. “We’ve converted many people over to their platform,” O’Donovan says. “It’s fun to watch people use it and<br />

have these ‘Eureka’ moments when they realize how easy it is to do things that used to be so complex.”<br />

According to O’Donovan, even the most traditional developers become invigorated by MarkLogic’s clever and<br />

unique way of handling structured and unstructured data. “MarkLogic provides an elegant solution for dealing<br />

with the complex content issues of the PA.” For this high-volume multimedia content provider, such a capability is<br />

newsworthy indeed.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

56


Retours d’expériences Big Data en entreprise<br />

MARKLOGIC - REED BUSINESS INFORMATION - 4D CONCEPT<br />

STREAMLINING PUBLICATION PRODUCTION PROCESSES AT REED<br />

BUSINESS INFORMATION FRANCE<br />

CORPORATE OVERVIEW:<br />

Reed Elsevier is the world’s leading publisher of pro- fessional content, with 37,000 employees across 200 offices<br />

worldwide, accounting for sales of nearly 8 billion euros. Its four principal industry divisions – Sciences & Medical,<br />

Legal, Education, and Business – produce more than 15,000 professional references, magazines, books, CD-<br />

ROMs, online information and business intelligence services annually.<br />

As a subsidiary of Reed Elsevier, Reed Business Informa- tion (RBI) provides business professionals across five<br />

continents unrivaled access to a wide range of commu- nication and information channels. With offerings from<br />

magazines to directories, conferences to market re- search, RBI’s main objective is to become the undeniable<br />

reference in key business sectors across a diverse range of industries. The company’s vision is that superior information<br />

and communication products help its customers gain competitive advantage in areas such as commerce,<br />

marketing and decision support.<br />

Yet, just as important to its central mission, is to operate as a cost-efficient, high performing organization. When<br />

assessing any new technology, RBI strikes a constant balance between cost and the potential impact of effective,<br />

efficient, but substantial investment in new revenue streams. Driving this effort at its core is the utilization of<br />

the Internet as a key delivery channel. RBI’s portfolio of leading prestige brands comprise powerful products and<br />

services that, thanks to Mark Logic OEM partner 4Dcon- cept’s XMS product, leverage all forms of new media to<br />

adapt professional information to specific customer requirements.<br />

RBI FRANCE FACES PUBLICATION CHALLENGES<br />

RBI France publishes a number of successful titles including the leading French weekly business magazine Stratégies,<br />

the monthly Direction(s), the #1 electron- ics review in Europe EPN, and its sister publications EPN France<br />

and EDN Europe. Last March RBI acquired Cosmedias, the leading French publisher in the beauty market with<br />

famous magazines like Cosmétique Mag, ICN and Coiffure de Paris. The office also publishes books, guides, CDs<br />

and databases in areas of interest as diverse as social services, education, human resources, public policy, selfhelp,<br />

and legal.<br />

RBI France was laboring under challenging content transformation and production processes. Such issues have<br />

even greater negative impact in the publishing industry, where content is a company’s greatest asset. RBI France<br />

was already familiar with the power of XML to tag and index content, but reusing this content often proved quite<br />

difficult. Regarding its magazine content, RBI France remained tethered to use of an SQLServer database as its<br />

content repository. This meant that for reuse purposes, any existing content selected would be exported out into<br />

XML, reprocessed for publishing, and then new pages exported out of XML again for re-stor- age in the database.<br />

This laborious use of XML made the press composition process neither clean nor quick. The constant back and<br />

forth transformations required to produce new content – first for print production and ultimately to the web – was<br />

proving too difficult to man- age. Waiting for production to get print content first and then load it on the Internet had<br />

introduced latency into the update process as well.<br />

It was becoming clear that RBI France’s content produc- tion, storage and retrieval processes were interfering with<br />

fulfilling one of its central missions – understanding and exceeding customer expectations. RBI resells its professional<br />

content to business partners who aren’t in the publishing business but rather leverage custom, industryspecific<br />

information published by RBI to better serve their own end customers. RBI France’s partners include<br />

banks, consumer sites, retail outlets, and technol- ogy companies. Because of its sometimes laborious production<br />

processes, RBI France’s wish to repurpose and realize more value from its digital content as new services was<br />

stymied, making the creation and delivery of added value to these indispensable partners both dif- ficult and expensive.<br />

REQUIREMENTS FOR A NATIVE XML<br />

DATABASE SOLUTION<br />

Although RBI France’s main technical challenge was in transforming content back and forth from XML, its solu- tion<br />

requirements did not end simply at a database that could handle XML. It needed to be a fully realized enter- prise<br />

content management system leveraging a single centralized XML repository as the main content source for all<br />

publishing operations. This required that the content platform selected offer workflow functionality to speed and<br />

ease production and content management of the French publisher’s books, magazines, websites, applications,<br />

and partner offerings. The company also wanted to be sure that the solution selected was fully compatible with<br />

Adobe Framemaker, InDesign and the other design tools already in use and favored by its editors. Finally, RBI was<br />

seeking a partnership with its supplier that would be long-term and mutually beneficial.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

57


Retours d’expériences Big Data en entreprise<br />

Reed Elsevier, the parent company of RBI, has a stated value that pervades the company system-wide: innovation.<br />

Management encourages workers to welcome and push change, challenge the status quo, take risks and be<br />

entrepreneurial. Reed Elsevier’s U.S. and U.K. offices first started working with Mark Logic’s XML server back in<br />

2006. Certainly, going with a new solution called an XML Database at that time was a new idea and a bold move<br />

indicative of ‘out-of-the-box’ thinking. By the time their counterparts in France were ready for a similar solution,<br />

Elsevier’s corporate IT department had already completed 2 projects. The result: MarkLogic had a leg up on the<br />

competition in solving the problems of RBI France.<br />

PILOTING MARKLOGIC SPARKS 4DCONCEPT’S XMS, AN EDITORIAL CMS<br />

After the selection of MarkLogic Server, RBI France launched its implementation project at the end of 2006. It<br />

started small, with a pilot based on only one of its profes- sional electronics magazines, EPN (Europe-wide edition),<br />

EPN France, and one of its books, Le Guide Familial – the leading French family law guide used by half of<br />

the country’s social workers. Why? Because sales efforts were already aligned behind these products, and success<br />

with their high profile brands could be used as a compelling business case to help IT push a larger goal – the<br />

ultimate move to a true enterprise-wide editorial content management system.<br />

To succeed in this challenge, RBI France turned to one of its trusted local IT solution providers, 4Dconcept. 4Dconcept<br />

would provide critical know-how in multi-channel publication for the press and publishing industries. After<br />

having learned to integrate Mark Logic in a matter of weeks, 4Dconcept managed the 6-month pilot program to<br />

a successful conclu- sion and also set the foundation for the future editorial con- tent management system. This<br />

solution, called XMS, would drive the production of other RBI France content.<br />

However, it didn’t take RBI France very long to under- stand the distinct advantages of an editorial content management<br />

system relying on a database specialized in handling full XML content. This is how RBI France got<br />

involved in the development of XMS. XML simply made sense for a wider solution that would anticipate all RBI<br />

France’s future needs. First, XMS places no limitations on the original structure of the content, meaning it can be<br />

tagged and indexed from any source just as efficiently.<br />

RBI France is able to repurpose content without any con- straint from the media itself. Changes anywhere, even to<br />

a single word in a single story, ripple out to be reflected in all citations automatically without IT intervention.<br />

Finally, editors were able to keep in place all of their pre- ferred publication layout and design tools such as Adobe<br />

InDesign, Framemaker and Bridge.<br />

After the pilot project was completed, RBI France conducted three to four months of analysis to measure its success.<br />

This process yielded some best practices to optimize the massive rollout of XMS across RBI France. EPN<br />

and Le Guide Familial are not large publications.<br />

Hence, it was critical that the success of the future XMS be demonstrated and proven in action here before moving<br />

on to larger, more prestigious brands.<br />

RBI FRANCE’S USE OF XMS SPURS NEW SERVICES FOR CUSTOMERS<br />

As a result of the successful implementation of XMS, RBI France was actually able to reverse its original production<br />

process of new content from web to print, versus print to web. Changing this workflow allows editors<br />

to publish in XML without media constraint, to launch new material on the web in seconds when ready, and to<br />

provide new value-added services for customers and partners. The content lives in XML without needless transformations,<br />

streamlining a process that’s cleaner, quicker and always up-to-date. The print production team now<br />

consistently leverages the latest information to churn out RBI France’s magazines weekly and monthly, or its new<br />

book editions on a quarterly basis.<br />

Because of 4Dconcept and Mark Logic’s success with some of the most high profile brands at RBI France, the<br />

division was able to rollout a true enterprise-wide edito- rial content management system – a live, fully functional<br />

solution with direct connections to and from in-house layout and design tools. Seven different RBI brands now<br />

have their content fully loaded as XML in XMS, includ- ing numerous leaflet books and some of the larger, more<br />

prestigious magazines published by RBI France such as stratégies. The high level of scalability and reliability of<br />

XMS ensures work can continue until all of RBI France’s products live in the XML database. The amount of upfront<br />

index definition completed during XMS’ conception means little additional development investment is necessary to<br />

integrate new brands or products into XMS quickly and cleanly.<br />

In summary, RBI France’s investment in XMS is indeed paying off. Streamlined production has lead to the company’s<br />

ability to repurpose its digital content and to de- liver more value offering new resale services to partners.<br />

Rich XML allows innovative products to be introduced easily and less expensively, whether internal or external.<br />

One example of dynamically updated custom content resulting in a new service includes the case of one of RBI<br />

France’s major bank customers. This content resale part- ner was able to rapidly produce a new audit guide on<br />

their own website, completely powered by RBI content. Mark Logic and 4Dconcept have thereby helped RBI<br />

France to fulfill another one of its core corporate objectives: to be highly valued and respected by its customers.<br />

The official introduction of XMS to the market occurred in October 2008 in Paris. RBI France, 4Dconcept and Mark<br />

Logic continue to partner for ongoing development and evolution of XMS.<br />

ABOUT 4DCONCEPT<br />

4Dconcept provides leading organizations with services to drive, define, design and deploy documentary and<br />

editorial information systems in the aeronautics, de- fense, construction, manufacturing, telecommunication, transport,<br />

publishing, media and administration sec- tors. 4Dconcept addresses matters such as content and knowledge<br />

management, editorial content enrichment and publishing, after-sale market and maintenance engi- neering, and<br />

cross-media publishing. It offers a range of services to advise customers on best practices, develops custom-made<br />

solutions, and produces graphical (2D/3D) and text content applications. 4Dconcept also offers a set of modular<br />

and adaptable turnkey solutions to help customers produce and manage their information in mul- tiple sectors. The<br />

implementation of technologies such as XML enables 4Dconcept to bring relevant information to the people who<br />

need it, when they need it. To learn more about 4Dconcept, visit www.4dconcept.fr.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

58


Retours d’expériences Big Data en entreprise<br />

MARKLOGIC - RSC<br />

BIG DATA AS A SCIENCE UK CHEMISTRY SOCIETY UNLOCKS 170 YEARS’<br />

WORTH OF DATA WITH THE POWER AND FLEXIBILITY OF MARKLOGIC<br />

When the content experts at the Royal Society of Chemistry (RSC) found themselves struggling to manage millions<br />

of buried data files, they partnered with MarkLogic to build a new solution. Using the MarkLogic Enterprise NoSQL<br />

database, the RSC has made over a century’s worth of information accessible to entrepreneurs, educators, and<br />

researchers around the world.<br />

COMPANY OVERVIEW<br />

Founded over 150 years ago in the United Kingdom, the RSC is Europe’s largest organization dedicated to furthering<br />

awareness of the chemical sciences. With more than 48,000 global members, the RSC is the heir and successor<br />

of four renowned and long-established chemical science bodies—The Chemical Society, The Society for<br />

Analytical Chemistry, The Royal Institute of Chemistry, and The Faraday Society. The RSC’s headquarters are in<br />

London and Cambridge, UK with international offices in the USA, China, Japan, India and Brazil.<br />

To strengthen knowledge of the profession and science of chemistry, the RSC holds conferences, meetings, and<br />

public events, and also publishes industry-renowned scientific journals, books and databases.<br />

Adding to its wealth of content, the RSC recently acquired the rights to The Merck Index. Widely considered as<br />

the worldwide authority on chemistry information, this renowned reference book has been used by industry professionals<br />

for over 120 years.<br />

CHALLENGE<br />

It’s a tall order to manage a single year’s worth of data—so how about 170 of them? Since the 1840s, the RSC has<br />

gathered millions of images, science data files and articles from more than 200,000 authors. All of that information<br />

was stored in a wide range of formats at multiple locations and was growing by the day.<br />

In 2010, largely due to the huge growth of social media and digital formats, the RSC launched an initiative to make<br />

its data more accessible, fluid and mobile.<br />

David Leeming, strategic innovation group solutions manager for RSC, sums up the society’s goal: “We needed an<br />

integrated repository that would make all of our content accessible online to anyone—from teachers to businesses<br />

to researchers. The key was finding the right technology.”<br />

SOLUTION<br />

After evaluating several major providers, the RSC chose MarkLogic as the best platform for its needs, and built<br />

three sites on it:<br />

• RSC Publishing: http://www.rsc.org/publishing<br />

• Learn Chemistry: http://www.rsc.org/learn-chemistry<br />

• Chemistry World: http://www.rsc.org/chemistryworld<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

59


Retours d’expériences Big Data en entreprise<br />

Given the society’s wide range of information media— books, emails, manuals, tweets, metadata, and more—the<br />

data does not conform to a single schema, which means a traditional relational database can’t accommodate it.<br />

MarkLogic’s document-based data model is ideal for varied formats and hierarchical metadata. The RSC can<br />

simply load its information as-is, without having to conform to a rigid format.<br />

As Leeming points out, “A book chapter is very different from a journal article. A relational database can’t combine<br />

the two. MarkLogic is flexible enough to handle all types of unstructured content in a single delivery mechanism,<br />

from spreadsheets and images to videos and social media comments.”<br />

MarkLogic offers many key benefits, including the ability to store content as XML documents. The database also<br />

enables logical associations between different types of content.<br />

Each image, video, and article is automatically tagged, allowing users to find, understand, and process the information<br />

they need. As shown in the image above, searching RSC publications is a quick, intuitive process using a<br />

standard Web browser.<br />

The new MarkLogic platform will be a significant benefit in the RSC’s acquisition of The Merck Index. “We’re eagerly<br />

looking forward to developing The Merck Index for the digital future,” says Dr. James Milne, RSC Publishing<br />

Executive Director. The schema-less MarkLogic database will help to ensure the continued growth of the publication’s<br />

online format.<br />

SHARING THE KNOWLEDGE<br />

With the greater data accessibility afforded by the new MarkLogic database, the RSC’s publishing division has<br />

become much more productive, publishing more than 20,000 articles in 2011. “We can now publish three times as<br />

many journals and four times as many articles as we did in 2006, and get them to market faster,” says Leeming.<br />

“And we have the ability to build new educational programs to spread chemistry knowledge among more people.”<br />

In addition, since implementing the integrated MarkLogic database, the RSC has seen a 30 percent increase in<br />

article views, a 70 percent traffic boost on its educational websites, and a spike in research activity in India, China,<br />

and Brazil.<br />

Although the integrated data repository has been the biggest game-changer, the MarkLogic technology has enabled<br />

other opportunities. Leveraging MarkLogic’s Enterprise NoSQL database, the RSC has launched many new<br />

research journals, mobile applications, social media forums, and applications for children.<br />

Dr. Robert Parker, RSC Chief Executive, sums up the major role MarkLogic has played in this successful transition.<br />

“Using MarkLogic’s big data platform has allowed us to open up the world of chemistry to a much wider audience,<br />

whilst increasing the volume and quality of the research that we publish.”<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

60


Retours d’expériences Big Data en entreprise<br />

MARKLOGIC - SPRINGER<br />

SPRINGER TAKES CONTROL OF ITS ONLINE CONTENT DELIVERY<br />

SCIENTIFIC PUBLISHER USES MARKLOGIC TO TURN SPRINGERLINK<br />

INTO THE CORE OF ITS BUSINESS AND IMPROVE PERFORMANCE BY 50%<br />

COMPANY OVERVIEW<br />

For over 160 years, Springer has led the industry in scientific and medical publishing.<br />

With a staff of 6,000 employees around the world, the company publishes more than 8,000 new book titles each<br />

year—and that’s just in print. To meet the growing demand for online delivery, Springer also maintains an online<br />

catalog of more than 169,000 eBooks, and has the world’s largest open access portfolio.<br />

The company’s content delivery platform, SpringerLink, is the heart of the company’s business, hosting more than<br />

8.4 million scientific documents including journals, books, series, protocols and reference works.<br />

CHALLENGES<br />

Launched in 1996, SpringerLink was one of the first publicly available online content platforms. The site was originally<br />

used as a home to some of the company’s journals, but as online content became an increasingly important<br />

part of the company’s business, SpringerLink became the hub for every journal the company published, and later,<br />

its entire library of books.<br />

With a massive content library and a shift in revenues from print to electronic, Springer needed a greater level of<br />

flexibility and control over its online content distribution, which had grown to account for two-thirds of total company<br />

revenue. The Springer team required:<br />

• An in-house solution. For the past eight years, Springer had been using a third-party technology provider to power<br />

SpringerLink. As it evolved into a crucial component of their revenue, the company decided that they didn’t want<br />

that strategic asset resting on a technology they didn’t own.<br />

• Rapid deployment. With the end of their outsourced technology contract fast approaching, Springer faced the<br />

daunting task of completing the project in just 11 months.<br />

• Fast search. As online content exploded, readers came to expect better functionality from content providers,<br />

including sub-second search.<br />

THE SOLUTION<br />

Springer chose MarkLogic as its new platform because it allowed them to deliver more rich applications to their<br />

customers so they could create a user experience that went beyond simply delivering a piece of content. It had<br />

previously built and deployed some high-performing applications using MarkLogic technology, including a tool to<br />

track the locations of document authors, a search engine for mathematicians, a program that displays snippets<br />

of scientific language in a publishing context, and SpringerImages, a robust platform that allows users to search<br />

through the millions of images stored in SpringerLink.<br />

BENEFITS<br />

MarkLogic gave Springer an in-house solution that dramatically improved SpringerLink’s performance. MarkLogic<br />

also helped Springer:<br />

• Create revenue. SpringerLink has become the core of Springer’s business, generating 95 percent of Springer’s<br />

online revenue and driving more than 2 million page requests and over a million downloads a day.<br />

• Increase performance. In fractions of a second, SpringerLink can now analyze hundreds of contracts per customer<br />

identifying which of the millions of items they can access. During high-traffic periods, the new platform loads<br />

twice as fast, and runs essential functions up to four times faster.<br />

• Boost user engagement. Since moving to MarkLogic, the time users spend on SpringerLink has increased by<br />

one-third, bounce rate has been cut in half, and number of page views grown.<br />

• Re-build SpringerImages. MarkLogic searches image captions as well as relevant text surrounding the image<br />

ensuring more robust and accurate results.<br />

• Fit its agile development process. MarkLogic’s agile approach supports automated tests, continuous integration<br />

and deployment, and weekly iterations.<br />

• Simplify architecture. MarkLogic’s built-in powerful search engine helped Springer simplify its architecture and<br />

allows users to subscribe to their own reusable queries.<br />

• Support multi-language search. MarkLogic is able to change the search parameters based on the user’s language.<br />

German-speaking users and English-speaking users will see results tailored to them.<br />

• Go to market quickly. From three releases each year on the old platform to now weekly releases, Springer is able<br />

to take new features to market as soon as a business need is identified.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

61


Retours d’expériences Big Data en entreprise<br />

MICROPOLE - L’OBS<br />

L’OBS : DE NOUVELLES OPPORTUNITÉS GRÂCE AU BIG DATA POUR<br />

AMÉLIORER L’EXPÉRIENCE DES LECTEURS<br />

L’OBS (ex-Le Nouvel Observateur), acteur majeur de l’information sur les supports magazine, web et mobile a<br />

retenu en 2013 Micropole et son agence digitale Wide pour l’accompagner dans la définition et sur la mise en place<br />

de sa stratégie multicanal personnalisée.<br />

Avec 8 millions de visiteurs uniques par mois* et plus de 800 000 abonnés, le groupe souhaitait disposer d’une<br />

connaissance 360° de l’ensemble de son audience afin de lui proposer de nouveaux services individualisés à forte<br />

valeur ajoutée.<br />

Dans un contexte de mutation des usages, particulièrement dans le domaine des media et de transformation de<br />

l’information (volume, vitesse et variété), l’OBS entreprend alors :<br />

- D’écouter sur tous les points de contact, digitaux ou offline ;<br />

- D’analyser les données pour mieux connaître et appréhender les centres d’intérêt du lecteur ;<br />

- De comprendre et d’animer en cross-canal l’ensemble de son lectorat traditionnel et digital.<br />

Pour atteindre ces objectifs de collecte, d’analyse et d’engagement de la relation client, l’OBS s’appuie sur la<br />

plateforme Customer Data mise en place par Wide. Cette solution repose sur les principes technologiques du Big<br />

Data et met à disposition les services métiers en mode SaaS (Software as a Service) de la solution Cloud Digital<br />

Marketing Optimization de IBM .<br />

Ainsi, l’OBS est en capacité de proposer un contenu personnalisé en accord avec les préférences de ses lecteurs<br />

et selon leur historique de navigation, ceci en temps réel. Le groupe est également capable d’adresser des communications<br />

individualisées (emails, newsletters…) tenant compte de leurs centres d’intérêt.<br />

Cette stratégie digitale a rapidement porté ses fruits car le nombre d’abonnements à la newsletter a augmenté de<br />

25% en seulement 6 mois. Le lecteur abonné est alors reconnu et animé par le CRM.<br />

« Avec IBM et Micropole, nous avons fait le choix de l’ambition et de l’innovation. Grâce aux fonctions avancées<br />

de cette nouvelle plateforme, nous sommes capables de comprendre les centres d’intérêt d’un internaute, sans<br />

pour autant connaître son identité, tout en apportant de nouveaux services à forte valeur ajoutée à nos abonnés.<br />

Plus généralement, ceci nous permet d’offrir à nos lecteurs la possibilité de bénéficier de contenus et de services<br />

personnalisés en temps réel », a déclaré le Directeur Marketing Digital de L’OBS.<br />

*Source : Médiamétrie NetRating mai 2013<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

62


Retours d’expériences Big Data en entreprise<br />

MICROSOFT - PIER IMPORT<br />

MICROSOFT - PIER IMPORT<br />

With over 1,000 stores, Pier 1 Imports aims to be their customers’ neighborhood store for furniture and home décor.<br />

But the way customers are shopping is different today and Pier 1 Imports recently launched a multi-year, omnichannel<br />

strategy called “1 Pier 1”, a key goal of which is to understand customers better and serve them with a<br />

more personalized experience across their multiple interactions and touch points with the Pier 1 brand.<br />

Pier 1 Imports recently adopted Microsoft Azure Machine Learning to help them predict what their customers might<br />

like to buy next. Working with Microsoft partner MAX451, they built an Azure ML solution that predicts what a<br />

customer’s future product preferences might be and how they might like to purchase and receive these products.<br />

Many Microsoft customers across a broad range of industries are deploying enterprise-grade predictive analytics<br />

solutions using Azure ML. You too can get started on Azure ML today.<br />

MICROSOFT - THYSSENKRUPP<br />

MICROSOFT - THYSSENKRUPP USES PREDICTIVE<br />

ANALYTICS TO GIVE BURGEONING CITIES A LIFT<br />

Urban migration is one of the megatrends of our time. A majority of the world’s population now lives in its cities. By<br />

2050, seven of every ten humans will call a city their home. To make room for billions of urban residents to live,<br />

work and play, there is only one direction to go – up.<br />

As one of the world’s leading elevator manufacturers, ThyssenKrupp Elevator maintains over 1.1 million elevators<br />

worldwide, including those at some of the world’s most iconic buildings such as the new 102-story One World<br />

Trade Center in New York (featuring the fastest elevators in the western hemisphere) and the Bayshore Hotel in<br />

Dalian, China.<br />

ThyssenKrupp wanted to gain a competitive edge by focusing on the one thing that matters most to their customers<br />

– having elevators run safely and reliability, round the clock. In the words of Andreas Schierenbeck, ThyssenKrupp<br />

Elevator CEO, “We wanted to go beyond the industry standard of preventative maintenance, to offer predictive and<br />

even preemptive maintenance, so we can guarantee a higher uptime percentage on our elevators.”<br />

FIX IT BEFORE IT BREAKS – ‘SMART’ ELEVATORS<br />

ThyssenKrupp teamed up with Microsoft and CGI to create a connected intelligent system to help raise their elevator<br />

uptime. Drawing on the potential of the Internet of Things (IoT), the solution securely connects the thousands<br />

of sensors in ThyssenKrupp’s elevators – sensors that monitor cab speed, door functioning, shaft alignment, motor<br />

temperature and much more – to the cloud, using Microsoft Azure Intelligent Systems Service (Azure ISS). The<br />

system pulls all this data into a single integrated real-time dashboard of key performance indicators Using the rich<br />

data visualization capabilities of Power BI for Office 365, ThyssenKrupp knows precisely which elevator cabs need<br />

service and when. Microsoft Azure Machine Learning (Azure ML) is used to feed the elevator data into dynamic<br />

predictive models which then allow elevators to anticipate what specific repairs they need.<br />

As Dr. Rory Smith, Director of Strategic Development for the Americas at ThyssenKrupp Elevator, sums it up,<br />

“When the elevator reports that it has a problem, it sends out an error code and the three or four most probable<br />

causes of that error code. In effect, our field technician is being coached by this expert citizen.”<br />

In other words, these ‘Smart’ elevators are actually teaching technicians how to fix them, thanks to Azure ML. With<br />

up to 400 error codes possible on a given elevator, such “coaching” is significantly sharpening efficiency in the field.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

63


Retours d’expériences Big Data en entreprise<br />

MICROSOFT - CARNEGIE<br />

MICROSOFT - MEET CARNEGIE MELLON’S ENERGY SLEUTHS<br />

An academic, architect, researcher and activist for energy conservation—Vivian Loftness is a champion of biophilic<br />

design. Her workspace, surrounded by light and plants, reflects her passion.<br />

Vivian Loftness is obsessed with sustainability and building performance. Having called many different cities<br />

around the world home — from her birth city of Stockholm, to early years in Los Angeles and Paris, to study and<br />

work stints in Boston, Helsinki, New York City, Cologne, Athens, Ottawa and finally, Pittsburgh, where she is a professor<br />

at Carnegie Mellon’s School of Architecture — Loftness has checked out more than a few buildings close up.<br />

Loftness’ singular passion is for sustainable architectural design and the need to get buildings in our world to a<br />

“zero state” where they have the smallest possible energy footprint without sacrificing comfort. This is no small<br />

feat, and a problem that is technological as much as it is architectural. But advances in technologies such as cloud<br />

computing, data analytics and services such as Microsoft’s Azure Machine Learning are helping Loftness and two<br />

researchers at Carnegie Mellon’s Center for Building Performance and Diagnostics slowly crack the code, one<br />

building at a time, and in ways previously unthinkable.<br />

THE ‘INTELLIGENT WORKPLACE’ - WHERE THE DATA JOURNEY BEGINS<br />

The Intelligent Workplace, which sits atop the Margaret Morrison Carnegie Hall, was established in 1997 as the first<br />

“Living Laboratory” of its kind dedicated to research in building sustainability.<br />

The Robert L. Preger Intelligent Workplace, which sits atop the stunning Margaret Morrison Carnegie Hall, is where<br />

Loftness and 30 researchers and graduate students are studying the impact of a variety of factors on the quality<br />

of built environments. Natural light dominates this space they call “the Living Laboratory,” streaming in through<br />

skylights and wall after wall of expansive windows that offer sweeping views of the campus grounds. Research<br />

students occupy open, collaborative workspaces. Unfinished wooden building models sit on work tables which, like<br />

the rest of the furniture and walls in the lab, are reconfigurable and movable — all in a matter of minutes. Plants<br />

are everywhere, and if you look closely enough, several are wired with sensors, as are the walls and ceilings of<br />

this “living” workspace.<br />

For these researchers, the journey started with really simple questions: How do you give people who work in buildings<br />

a comfortable environment while using the least possible energy? How do you make people accountable for<br />

their own energy footprints? And how can technology assist in that journey?<br />

Senior researchers Bertrand Lasternas and Azizan Aziz work with Loftness, sharing her passion for taking on one<br />

of the most daunting problems facing our generation — How do you make buildings more energy efficient? The<br />

statistics are sobering. Nearly 70 percent of all electricity in the United States goes toward building operations —<br />

heating and cooling systems, lighting, ventilation and plug loads. For these researchers, the journey started with<br />

really simple questions: How do you give people who work in buildings a comfortable environment while using<br />

the least possible energy? How do you make people accountable for their own energy footprints? And how can<br />

technology assist in that journey?<br />

MAKING SENSE OF BUILDING DATA<br />

Not unlike a crew of investigators methodically working their way through evidence at a crime scene, these energy<br />

sleuths have cultivated a healthy respect for data and are capturing it from buildings all across the Carnegie Mellon<br />

campus. They’re about halfway there, drawing data from 40 buildings, with roughly 25 more to go.<br />

Data is how buildings reveal their secrets and to miss one key piece could potentially derail an entire investigation.<br />

“The behaviors of buildings we analyze and the people who occupy them are unique, complex and hard to predict,”<br />

says Loftness. There are students who leave windows open in their dorm rooms during bitterly cold winters when<br />

heat is blasting. There are building managers who leave air conditioning systems running during cool summer<br />

nights. There are offices that enjoy bright daylight but whose staff still leave the lights on all day. And then there<br />

is the challenge of managing “things”— thermostats, computers, microwaves, elevators — as well as analyzing<br />

external factors such as day-to-day fluctuations in weather.<br />

SO MUCH INEFFICIENCY<br />

Loftness conducts a lecture with graduate students at the Intelligent Workplace. Some of her students assist with<br />

the data sleuthing activities.<br />

The large number of variables means one simple thing: Buildings, like those who inhabit them, are living beings.<br />

What are they telling us? More importantly, are we doing enough to listen?<br />

“There is no question that we save 30 percent in most buildings through better awareness of where the energy’s<br />

going, and giving users better controls to adjust for their individual needs while driving down energy usage,” Loftness<br />

says.<br />

The stakes are high and so is the urgency. About 40 percent of CO2 emissions globally come from buildings.<br />

Buildings use technologies and products assembled in hundreds of unique ways, generating literally millions of<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

64


Retours d’expériences Big Data en entreprise<br />

variations. Buildings also vary in age, with generations of local architectural adaptations made over time. Then<br />

there are the occupants — a mix of people with unique activities and comfort thresholds. Understanding how all<br />

these factors mesh together requires historical data and data analysis. A lot of it.<br />

These are complex and critical problems we’re trying to solve. And cloud and machine learning technology is<br />

helping us push boundaries of what is possible in ways I couldn’t have imagined a few years ago. — Azizan Aziz,<br />

Senior Research Architect<br />

THE DATA CHALLENGE MEETS THE DATA SLEUTHS<br />

Making all the captured data from buildings work together is like putting together a massive jigsaw puzzle. Some<br />

buildings on campus, such as the Gates Center, have hundreds of sensors, and others not so many. These sensors<br />

are tracking CO2 levels in different rooms, measuring the distribution of temperatures by floor, by room and by<br />

height, monitoring windows, lighting systems and plug loads. And there’s more: People who work inside make up<br />

the most significant part of a building’s heartbeat — so user satisfaction data is being added to the mix based on<br />

occupant surveys in order to have a holistic picture of the indoor environmental quality of the workplace.<br />

To say it’s a complex task would be putting it lightly. Lasternas and Aziz spend a good deal of time being data<br />

sleuths, and finding ways to listen to what the buildings are trying to communicate — the story that lives in the data.<br />

There is a real difference you can make in energy conservation by giving people data that is actionable instead of<br />

asking them to just do their best — Bertrand Lasternas, Senior Researcher<br />

When Lasternas came to Carnegie Mellon from France in 2010, he was a physics and chemistry major working<br />

towards a master’s degree in mechanical engineering and building sciences. Today, he’s an expert in extracting<br />

data from building management systems and sensors, both to understand how buildings work, as well as to help<br />

people manage energy more efficiently.<br />

Recalling challenges from the earlier phases of the research, Lasternas says, “We might have 10 different manufacturers<br />

of equipment in a single building, and none of them share information. So how do you pull all of that<br />

together? We wanted to empower people to be more engaged in the living building, more aware of their energy<br />

usage patterns.”<br />

With help from Microsoft’s Global ISV partner OSIsoft, Lasternas and Aziz began using their solution, the PI System,<br />

four years ago. It offered the missing “glue” that helped the team bring data together from various sources,<br />

“cleanse” it, store it in a common, usable format, and make it ready for historical and real-time analysis. The PI<br />

System supports more than 400 interfaces that can connect to systems from the many different vendors of building<br />

systems and controls.<br />

THE MACHINE LEARNING BREAKTHROUGH<br />

“We’re not trained data scientists. We went overnight from using complex statistical analysis tools to drag-n-drop<br />

insights. That’s a breakthrough for the work we do” — Senior Researcher Azizan Aziz<br />

Having conquered the data integration and storage challenge, the team dove into analysis — a world of massive<br />

spreadsheets and programming languages such as MATLAB to handle big, iterative computations. It was an<br />

exercise that very quickly got unwieldy. “We’re not trained data scientists by background, and complex statistical<br />

packages are outside of our immediate area of expertise,” says Aziz.<br />

“One of our former students was using MATLAB for analysis,” he recalls. “It took her a long time just to prepare and<br />

sort the data, and then a single run of analysis took 30-45 minutes. That’s far too long to develop good predictions<br />

for demand reduction. We really need to do these iterative analyses in real-time.”<br />

Machine Learning, cloud and data visualization technologies changed the dynamics of their project dramatically.<br />

“With Azure Machine Learning, the time it took to run a single experiment went from 45 minutes to instantaneous,”<br />

Aziz says. “It’s really fun to be able to use multiple types of machine learning algorithms and just have the results<br />

appear immediately. We’re able to play with all the variables and make sense of which ones contribute most to a<br />

specific change in building conditions.”<br />

LETTING THE DATA TELL THE STORY<br />

To let the data tell its own story in a way that is visual and easy to grasp, the Carnegie Mellon researchers build<br />

“digital dashboards” that make data anomalies much easier to spot. Using these dashboards, they’ve been able to<br />

solve puzzles in the buildings they’re working on. In one case, Lasternas recalls, “We saw an unusual area of low<br />

temperature in a building and realized that someone was leaving a window open in the middle of winter, when it<br />

was minus-eight degrees outside.”<br />

According to Aziz, when a strange condition is spotted on the dashboard, the solution is often a simple one. “We<br />

ask people why they have the boiler on when the temperature outside is 85 degrees. Turns out they didn’t know it<br />

was on, because they don’t have the data presented to them clearly,” he says.<br />

Having data-based insight on-the-fly is great, but where things get really interesting is with the potential to do predictive<br />

modeling. This is an area where cloud and machine learning technologies have truly been a game changer.<br />

Because Carnegie Mellon is collecting and storing real-time and historical data on campus buildings using the PI<br />

System, they finally have the ability to do predictive analysis using Azure Machine Learning in exciting ways.<br />

For people who live in buildings and use its systems, providing data alone isn’t enough to change behavior. “People<br />

need to see the impact of their actions every minute. Digital dashboards often trigger the “aha!” moments.”<br />

— Lasternas<br />

One of the team’s early experiments involved trying to figure out the ideal time to ramp up the heating in campus<br />

buildings to hit 72 degrees at start of business (by 8 a.m.), given predicted variations in outdoor temperature and<br />

sunshine. Using Azure Machine Learning, they built a model that looked at months of “heat up” data from the building’s<br />

records and matched that to multi-day external temperatures and anticipated solar radiation. The result? They<br />

were able to zero in on a custom model for each day to start heating a building at the lowest energy use.<br />

“As simple as that victory sounds, the implications for energy and dollar savings are simply enormous —especially<br />

when you scale up,” notes Lasternas. For this group of researchers, the potential to scale up such predictive ca-<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

65


Retours d’expériences Big Data en entreprise<br />

pabilities — to forecast factors such as energy demand spikes and equipment failures, to simply and proactively<br />

give people actionable information at their fingertips — is where their research can have real and broad impact.<br />

“These are complex and critical problems we’re trying to solve. And cloud and machine learning technology is helping<br />

us push boundaries of what is possible in ways I couldn’t have imagined a few years ago,” Aziz says.<br />

AN ENERGY CROSSROADS<br />

Vivian Loftness checks out a model of a planned second wing to Margaret Morrison called “Invention Works’ where<br />

Carnegie Mellon inventors from across campus could collaborate to create products and systems that improve our<br />

environment, our health and our quality of life.<br />

The journey of these energy crusaders is just picking up steam. Early alliances include partnerships and projects<br />

with United States Department of Energy and the Department of Defense, OSIsoft, the city of Pittsburgh and PNC<br />

Bank, one of the largest diversified financial services organizations in the country.<br />

With the growing commitment to sustainable design initiatives across the public and private sector, Loftness believes<br />

the energy conservation movement is quickly hitting a tipping point in the U.S.<br />

“Climate change is a serious challenge and I expect to see energy management in buildings rise from its underchampioned<br />

status today to the forefront of the energy conservation movement,” Loftness says. “Technology is<br />

helping us get to better insights, and faster, creating a movement that will ripple across the country in the next few<br />

years, reshaping how we live, work and play.”<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

66


Retours d’expériences Big Data en entreprise<br />

MONGO DB - BOSCH<br />

BOSCH LEADS THE CHARGE INTO INTERNET OF THINGS<br />

BETS ON MONGODB FOR BUILDING APPS NEVER BEFORE POSSIBLE<br />

Things (e.g., devices, assets) are getting more intelligent. And every day, more and more of them are connecting<br />

to the Internet. This is forming the Internet of Things (IoT).<br />

There’s no company more connected to this trend than the Bosch Group, a multinational engineering conglomerate<br />

with nearly 300,000 employees. Known for its appliances in the U.S., Bosch is also the world’s largest automotive<br />

components manufacturer. From smart power tools and advanced telematics to microelectromechanical systems<br />

(MEMS), it’s at the forefront of IoT.<br />

With such a wide-reaching, diverse product base, IoT represents a huge opportunity for the Bosch Group to increase<br />

efficiency and to develop new business models. It also poses a significant challenge, to design, develop<br />

and operate innovative software and industry solutions in the IoT. Bosch Software Innovations (Bosch SI) spearheads<br />

all IoT activities inside the Bosch Group and helps their internal and external customers to be successful in<br />

the IoT.<br />

IoT is in its infancy, but growing up fast. By some estimates, 50 billion devices, appliances and systems will be<br />

connected by 2020. Traditional systems cannot support the volume, speed and complexity of data being generated<br />

across such a vast spectrum of potential use cases. Bosch SI was looking for an innovative partner to meet the<br />

challenges of Big Data in IoT.<br />

IOT DATA MADE VALUABLE<br />

IoT goes beyond simply connecting assets and devices. It requires creating services that gather data and deliver<br />

immediate insight. The Bosch IoT Suite and the integrated database from MongoDB make this possible.<br />

“IoT is the culmination of agility and flexibility on the one side and big data on the other side – and this is where<br />

MongoDB is of great value to us.”<br />

Dirk Slama, Bosch Business Development Take, for example, the automotive field data app that Bosch is piloting.<br />

The app captures data from the vehicle, such as the braking system, power steering and windshield wipers. The<br />

data can then be used to improve diagnostics for preventative maintenance needs, as well as analyze how components<br />

are performing in the field. The value isn’t simply in the sensor attached to the electromagnetic components,<br />

but in how the back-end service is able to improve maintenance and product design processes.<br />

In another example, an app based on the Bosch SI technology gives aircraft manufactures unprecedented control<br />

over how operators use highly advanced power tools used to tighten the six million screws, nuts and bolts on an<br />

airplane -- a mission-critical job with zero room for error.<br />

The app captures all data transmitted wirelessly, including battery level, operator details and time-series calibration<br />

readings. If the torque or angle is off by the slightest bit, the app sets off an alarm so the operator can make on-thefly<br />

adjustments. It manages maintenance schedules, tracks and traces details to prevent loss, and also creates an<br />

audit trail of tightening processes for compliance with the FAA and other regulatory bodies. By connecting data to<br />

manufacturing processes in real-time, the app makes that power tool exponentially more powerful.<br />

In both instances, the Bosch IoT Suite collects data from individual sensors and equipment – the car’s braking<br />

system, or the wireless tightening tool. MongoDB stores, manages and analyzes all of this event data in real-time.<br />

MongoDB also stores business rules that trigger alarms and notifications, such as “alert driver when brake pressure<br />

drops below a certain level” or “send alarm when tool is being used incorrectly.”<br />

DATA MANAGEMENT REIMAGINED FOR IOT<br />

The massive volume and increasingly unstructured nature of IoT data has put new demands on Bosch SI’s entire<br />

technology stack, especially the underlying database. Rigidly defined RDBMS data models have limited use in IoT.<br />

They lack the flexibility, scale and real-time analytics needed to quickly capture, share, process and analyze IoT data.<br />

IoT calls for a new mindset, and a new database. MongoDB helped Bosch SI reimagine what’s possible. Here’s how:<br />

1. Manage complex data types. IoT data arrives at higher speeds, in greater volumes and variability of structure. MongoDB<br />

can easily handle the full spectrum of data: structured, semi-structured, unstructured. Efficient modeling of data<br />

using JSON makes it easy to map the information model of the device to its associated document in the database.<br />

2. Support continuous innovation and business agility. Changes in IoT customer requirements, standards and use<br />

cases will require frequent data model changes. MongoDB’s dynamic schema supports agile, iterative development<br />

methodologies and makes it simple to evolve an app. Adding new devices, sensors and assets is straightforward,<br />

even when you’re dealing with multiple versions in the field concurrently. Instead of wasting time dealing<br />

with the mismatch between programming language and the database, MongoDB lets developers focus on creating<br />

rich, functional apps.<br />

3. Create a unified view. Creating a single view of an asset or customer with a relational database is complicated.<br />

Source schema changes require additional changes to the single view schema. MongoDB makes it easy to aggregate<br />

multiple views of related data from different source systems into one unified view.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

67


Retours d’expériences Big Data en entreprise<br />

4. Power operational insight with real-time analysis. Apps handling fast-moving IoT data can’t wait on ETL processes<br />

to replicate data to a data warehouse. They need to react and respond in real time. MongoDB’s rich indexing<br />

and querying capabilities – including secondary, geospatial and text search indexes, the Aggregation Framework<br />

and native MapReduce – allow users to ask complex questions of the data, leading to real-time operational insight<br />

and business discovery.<br />

5. Be enterprise-ready. MongoDB complements agility with enterprise-grade availability, security and scalability.<br />

Zero downtime with replica sets. Proven database security with authentication, authorization, auditing and encryption.<br />

Cost-effective scale-out across commodity hardware with auto-sharding. As IoT data volumes continue to<br />

explode, Bosch will be able to efficiently scale without imposing additional complexity on development teams or<br />

additional cost on the business.<br />

A BET THAT PAID OFF<br />

Bosch SI is making a strategic bet on MongoDB to drive innovative apps in every industry where it does business. It<br />

can improve the retail shopping experience with in-store maps and personalized notifications. Create safer working<br />

conditions in manufacturing environments. Trace agriculture through the food chain to support farm-to-table initiatives.<br />

“It’s great to see MongoDB as a stable and growing company that we can strategically bet on” Dirk Slama, Bosch<br />

Business Development<br />

The use cases are limitless. And MongoDB makes every single one possible.<br />

The IoT market is exploding and Bosch is moving quickly. Bosch SI is continuing development on new apps and<br />

working closely with MongoDB to scale up existing apps – like growing a three million car pilot to a 300 million car<br />

application.<br />

With MongoDB, scale-out will be fast, reliable and cost effective.<br />

As a technology provider, partner and fellow innovator, MongoDB is in lock-step with Bosch SI. Bosch SI is accelerating<br />

implementation of new IoT apps and business models, ensuring the business units and customers it serves<br />

don’t miss a beat as new generations of sensors and equipment come online.<br />

Copyright © MongoDB Inc 2014<br />

MONGO DB - METLIFE<br />

RETHINKING THE CUSTOMER EXPERIENCE AT METLIFE: FROM STALLED<br />

TO SUCCESS IN THREE MONTHS<br />

Reinventing customer service. In 2011, MetLife’s new executive team knew they had to shake up how the insurance<br />

giant catered to customers. Because today’s consumers – hyper connected, digitally empowered, information<br />

savvy – have little patience and even less loyalty.<br />

MetLife wanted to harness Big Data to create a 360-degree view of its customers so it could know and talk to each<br />

of its more than 100 million clients as individuals. But the Fortune 50 company had already spent many years trying<br />

unsuccessfully to develop this kind of centralized system using relational databases.<br />

Which is why the 145-year old insurer in 2013 turned to MongoDB. Using MongoDB’s technology over just 2<br />

weeks, MetLife created a working prototype of a new system that pulled together every single relevant piece of<br />

customer information about each client.<br />

Three short months later, the finished version of this new system, called the “MetLife Wall,” was in production<br />

across MetLife’s call centers. The Wall collects vast amounts of structured and unstructured information from<br />

MetLife’s more than 70 different administrative systems. After many years of trying, MetLife solved one of the<br />

biggest data challenges dogging companies today. All by using MongoDB’s innovative approach for organizing<br />

massive amounts of data.<br />

INSIDE THE METLIFE WALL<br />

Today, when a customer calls MetLife to ask about a claim, add a new baby to a policy, or dig into coverage details,<br />

customer representatives use the Wall to pull up every bit of information they need in seconds – name, address,<br />

policies, and life events.<br />

Using a touchscreen and a design based on how Facebook dishes up information, The Wall is instantly familiar to<br />

MetLife’s call center operators. Which means customer reps can quickly and efficiently answer questions, handle<br />

claims, suggest new services, or offer promotions, while slashing wait and call times. MetLife now understands<br />

and serves each customer individually.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

68


Retours d’expériences Big Data en entreprise<br />

POWER OF THE FLEXIBLE DATA MODEL<br />

What sparked this change? We’re all too familiar with typical customer service. Call any business and you enter an<br />

endless maze where you’re passed around to different people who ask for the same bits of information.<br />

The culprit is data silos. Like most companies, MetLife has scores of data systems created or acquired over the<br />

years. MetLife’s systems contain a huge array of structured and unstructured data, including policy and customer<br />

information and transactional history about everything from claims to payments. Few are connected and many are<br />

on mainframes with cumbersome interfaces.<br />

Ripping out its administrative systems and replacing them with one unified system wasn’t an option for MetLife.<br />

So the company had tried over the years to use relational databases, which require a common schema and strict<br />

mapping of data sources. Adding each new system was an expensive and time consuming process of changing<br />

schemas, and extracting, cleansing, and matching data – one that MetLife never won.<br />

Working with MongoDB, MetLife could finally sidestep this whole exercise. What makes MongoDB different is its<br />

flexible data model. MongoDB looks at data more naturally, making it easy to evolve schemas in real time. If relational<br />

databases are like Excel spreadsheets – where data is organized into sheets but where you add a column<br />

every time you add a field, creating a structured but unwieldy project – MongoDB is a series of Word documents.<br />

Each entry is a document that can have its own schema.<br />

FLEXIBLE, SCALABLE, USER FRIENDLY<br />

MongoDB also makes the most of today’s computing resources, including commodity hardware and cloud infrastructure.<br />

This helps slash the cost of ownership and lets organizations scale their operations and applications<br />

quickly. MongoDB’s horizontal scaling via automatic sharding provides reliable partitioning of massive amounts of<br />

data across multiple servers. And it’s flexible, allowing organizations to leverage multiple data centers and multitemperature<br />

storage techniques.<br />

Just as crucial for productivity and agile application development is the ease of use MongoDB provides developers.<br />

Developers can interact with the database in the same programming language they use to write the application,<br />

whether Java, Ruby, Python, or something else. Which means they can focus on building apps instead of wrestling<br />

with ORMs.<br />

And MongoDB provides a variety of rich features, such as integrated search, geospatial, and native analytics, that<br />

don’t exist in a traditional database. Giving companies the right resources they need to get projects done quickly.<br />

A CATALYST FOR INNOVATION<br />

“MongoDB helped us to deliver that 360 view of the customer in just 90 days. That was really ground-breaking for<br />

MetLife, ground-breaking for the insurance industry. And it really set an example of the type of company that we<br />

want to be recognized as.”<br />

John Bungert, senior architect at MetLife<br />

Working with MongoDB led not just to The Wall’s success, but a wave of innovation inside MetLife. Harnessing Big<br />

Data is letting the insurance giant do things it never could do before.<br />

NOW, METLIFE IS:<br />

• Rolling out The Wall internationally<br />

• Developing a version of The Wall for its sales force<br />

• Creating a real-time analytical system that predicts customer attrition rates, prompting customer reps to offer<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

69


Retours d’expériences Big Data en entreprise<br />

alternative products or promotions<br />

• Considering adding social data and data from mobile apps into The Wall to gain an even better understanding of<br />

customers, something that’s easy to do with MongoDB.<br />

With MongoDB, MetLife joined the vanguard of the Big Data revolution. By quickly and successfully cracking one<br />

of the biggest problems it faced, MetLife changed the expectations of what is possible.<br />

Copyright © 2014 MongoDB, Inc<br />

MONGO DB - OTTO<br />

OTTO REINVENTS E-COMMERCE PERSONALIZATION FOR MORE THAN<br />

2 MILLION VISITORS PER DAY<br />

SLASHES SITE CATALOGUE UPDATE TIME FROM 12 HOURS TO 15 MINUTES<br />

Online retailers have access to troves of data. They know more about their customers than the corner store shopkeeper<br />

knew decades ago. Smart retailers use that data to give shoppers a highly personalized, painless shopping<br />

experience. That’s how you attract – and keep – today’s customer.<br />

OTTO is Germany’s top online retailer for fashion and lifestyle goods; the company turns over more than €2B per<br />

year and has more than two million daily site visitors. It has long held the customer at the centre of its retail strategy.<br />

Yet existing systems were slowing it down – loading new catalogue updates for two million products often took all day.<br />

With a MongoDB-powered catalog, OTTO gets an edge with speed. It’s fast to develop. Fast to load data. And fast<br />

to personalize a shopping experience for a great number of customers.<br />

“Personalization based on real-time data is the key success factor for e-commerce sites.”<br />

Peter Wolter, head of OTTO’s e-commerce Solutions & Technology Division<br />

PERSONALIZATION MADE FAST<br />

OTTO’s previous site was static, slow and expensive to change. So was its approach to development. OTTO had<br />

one big system with one big team. Only small fragments of the site could be changed to personalize the customer<br />

experience. This prevented it from quickly responding to market changes, such as competitive price fluctuations. It<br />

also lacked the ability get the most relevant products in front of customers as soon as they hit the site.<br />

SLOW REACTION TIME IS A CONVERSION KILLER<br />

The average customer doesn’t stay on an e-commerce web site for very long. OTTO has only 1-2 seconds to access<br />

customer profiles in real time and decide how to react.<br />

This is especially challenging with a product catalogue as diverse as OTTO’s. It offers one stop shopping for over<br />

5,000 brands -- everything from jeans to sofas to stereo systems, each of which has a different set of attributes<br />

(such as name, colour, size). In addition, product pricing and availability are dynamic, and need to be constantly<br />

refreshed to maintain competitive advantage.<br />

Using a relational database to update a site with such variation in products and attributes is painful, often requiring<br />

reading from dozens of tables to update a single product. Querying is complicated. Scaling is slow and difficult.<br />

MongoDB’s flexible data model erases that complexity and is well suited to an asset catalogue. OTTO can quickly<br />

iterate data schema for changes to products, attributes and customer profiles – without taking the database offline<br />

or affecting performance. Plus, all product information can be read from a single JSON document, allowing for incredibly<br />

fast reads. Complete insight into customer behaviour hinges on analytics that take advantage of real-time<br />

data. This is what drives true personalization.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

70


Retours d’expériences Big Data en entreprise<br />

OTTO has scaled up to 800 page impressions per second that generate 10,000 events per second – every click,<br />

every hover is stored in MongoDB. This rich insight into shopping behaviour enables OTTO to deliver a unique site<br />

with a personalized set of products, navigation and filters for every customer.<br />

It can also move incredibly fast. In-memory speed and on-disk capacity have led to dramatically improved site<br />

response times. In addition, all touch points – browser, mobile, tablet – are integrated, so OTTO can deliver instantaneous<br />

personalization during each customer’s journey on the site.<br />

The result is boosted engagement, revenue and a new way to deliver superior customer service.<br />

DEVELOPMENT AGILITY<br />

OTTO needed fast results. MongoDB delivered.<br />

Parallel teams spanning business, project management, and IT all individually chose MongoDB as the best tool to<br />

quickly and easily achieve results. MongoDB was the go-to preference for every team, even though the business<br />

problems varied. Today, each team has its own MongoDB installation to get done what it needs to do without any<br />

architectural governance on top. This is only possible because MongoDB has proven to be easy to use, easy to<br />

integrate and easy to operate.<br />

With loosely coupled teams, architecture, and operations, OTTO has removed the bottleneck to deploy and test.<br />

Teams can easily correct errors and innovate risk-free. Complete autonomy means they move at speeds never<br />

before possible. This move to agile development wasn’t mandated. It was inspired by MongoDB and driven by the<br />

teams. Now, both business and IT can produce fast results while staying focused on enterprise operation, scalability,<br />

request handling, and speed.<br />

OTTO has successfully bridged two worlds: a lean approach and sustainable enterprise operations.<br />

“We always want to be at the forefront of an increasingly competitive online trading market,” said Wolter. “We now<br />

have a modern, digitally-oriented application development environment which allows us to implement our innovative<br />

ideas as quickly as we create them.”<br />

In changing its operations, development, technology tools, and the way in which they cooperate, OTTO took a risk.<br />

But it was a risk worth taking – one that’s paying off for the business and for customers.<br />

THE ENDLESS AISLE – NOW PERSONALIZED<br />

New channels. More traffic. An endless aisle of products. E-commerce is booming and OTTO is ready.<br />

OTTO already has a strong foundation of a 65-year-old trusted brand, loyal customers, and innovative retail strategies.<br />

Now it has the stable, proven technology architecture and agile development to match – vital pieces that will<br />

propel it forward in the face of unknown challenges and growing demand.<br />

Copyright © 2014 MongoDB, Inc.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

71


Retours d’expériences Big Data en entreprise<br />

MONGO DB - WEATHER CHANNEL<br />

KILLER FEATURES. FAST. THE WEATHER CHANNEL LAUNCHES NEW<br />

FEATURES IN HOURS, NOT WEEKS<br />

Weather changes quickly. In its extreme form, it’s volatile, sometimes dangerous and often thrilling. Given its impact<br />

on lifestyle, people are eager to get their hands on the latest information. They want to know – now – what’s<br />

happening.<br />

In 1982, The Weather Channel started a 24x7 television network to meet the demand for non-stop, as-it-happens<br />

weather reporting. Several years later, they made the natural progression online with weather.com. But because<br />

the site was built on a cumbersome relational database backend, developing mobile apps was difficult. The Weather<br />

Channel team needed to iterate more quickly, with responsive apps and a scalable system. For a user base<br />

of 40 million and quickly growing on smartphones, the Weather Channel brand needed to move beyond a legacy<br />

relational database approach.<br />

THE WEATHER CHANNEL TURNED TO MONGODB TO GET KILLER FEATURES OUT TO<br />

USERS QUICKLY. CHANGES THAT USED TO TAKE WEEKS CAN NOW BE PUSHED OUT<br />

IN HOURS.<br />

They’ve replaced high costs and complexity with simplified scale and speed. And now that they’ve modernized on<br />

a cloud infrastructure, they are transitioning news, lifestyle and some weather content from their digital properties<br />

to MongoDB.<br />

With a fleet of apps built on MongoDB, users can personalize their experiences across mobile devices, tablets and<br />

the website. They can view incredibly fast radar maps and receive severe weather alerts in real-time.<br />

WHATEVER USERS CLAMOR FOR, THE WEATHER CHANNEL IS READY TO DELIVER.<br />

“As we work with our user base to figure out killer features, rapid innovation cycles with MongoDB are a real benefit.”<br />

Luke Kolin, vice president of architecture at The Weather Channel<br />

SEVERE WEATHER ALERTS, FASTER THAN THE STORM<br />

Five million users rely on The Weather Channel for the severe weather alert feature. It’s a competitive differentiator<br />

for the brand, and a must-have feature for many users.<br />

If the National Weather Service (NWS) issues a storm warning for Cook County, Illinois, for example, The Weather<br />

Channel has to notify those 125,000 local subscribers as fast as possible.<br />

With MongoDB, The Weather Channel can quickly distribute those weather alerts to subscribers in affected geographic<br />

locations in real-time.<br />

According to Kolin, MongoDB’s secondary indexes and fast ad hoc querying make it the only product that can reliably<br />

perform that kind of lookup on such a large user base in mere seconds.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

72


Retours d’expériences Big Data en entreprise<br />

SIMPLIFIED SCALE IN THE CLOUD<br />

Weather is hard to predict. So is the online traffic for weather apps.<br />

With MongoDB, The Weather Channel doesn’t have to worry about app performance during unpredictable peak times.<br />

The apps typically handle two million requests per minute, including weather data and social sign-ins. As the user<br />

base scales, so will MongoDB. With its native scale-out capabilities, MongoDB can support thousands of nodes,<br />

petabytes of data and hundreds of thousands of ops per second.<br />

The Weather Channel initially planned to build its own management services for the new cloud infrastructure.<br />

Instead, they saved significant time and money by taking advantage of MongoDB’s management application,<br />

MongoDB Management Service (MMS). Built by the same engineers who develop MongoDB, MMS is a cloud<br />

service that makes it easy to run MongoDB at any scale. Features like performance visualization, custom alerts<br />

and point-in-time recovery ensure The Weather Channel can mitigate issues before they arise and optimize its<br />

MongoDB deployment.<br />

FAST APPS, WITHOUT THE WAIT<br />

MongoDB met The Weather Channel brand’s needs from day one, with no significant optimization needed.<br />

“As part of our infrastructure redesign, we needed to ensure that new app development was never waiting on the<br />

back-end,” said Kolin.<br />

MongoDB was made for this mission.<br />

Today, The Weather Channel team can iterate rapidly without worrying about schema changes. They can adapt.<br />

They can push out changes to users in a fraction of the time. And at much lower cost.<br />

New features, new devices, new expectations. Users want awesome apps that keep getting better. And now, MongoDB<br />

helps The Weather Channel deliver.<br />

Copyright © MongoDB Inc 2014<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

73


Retours d’expériences Big Data en entreprise<br />

NEO4J - EBAY<br />

EBAY NOW CHOISIT NEO4J POUR LA GESTION DU ROUTAGE DE SON<br />

SERVICE DE LIVRAISON E-COMMERCE<br />

La société londonienne Shutl était réputée pour l’incroyable rapidité de ses services avant même son acquisition<br />

par eBay, leader mondial du e-commerce. Depuis sa création en 2009, sa mission est de livrer le plus rapidement<br />

possible les achats effectués sur Internet à leurs destinataires. Qu’il s’agisse de jouets, de chaussons, de cravates<br />

ou encore d’iPhones, eBay fait désormais appel à la plateforme nouvelle génération de Shutl pour redéfinir le e-<br />

commerce en accélérant et en simplifiant la livraison des commandes passées sur Internet ou appareil mobile.<br />

eBay élimine le plus gros obstacle entre les vendeurs et les ache- teurs en ligne en proposant une livraison des<br />

articles le jour même. Aujourd’hui, la plateforme de Shutl est à la base des opérations du service de livraison locale<br />

eBay Now dans quatre marchés américains et son extension à 25 grandes villes aux États-Unis et au Royaume-<br />

Uni est prévue pour la fin 2014. Volker Pacher, développeur senior pour eBay, fait partie de l’équipe principale de<br />

la plateforme de services chargée de fournir une API aux transporteurs et aux marchands. Les requêtes envoyées<br />

à l’API ont connu une croissance exponen- tielle, d’où un allongement des temps de réponse. L’équipe a donc<br />

entièrement repensé la première plateforme SaaS de Shutl. Volker Pacher savait qu’une base de données orientée<br />

graphe permettrait de simplifier la modélisation du domaine sans affecter la structure existante. À l’aide de Neo4j<br />

et d’une structure de graphe sans schéma (schema-less), l’équipe a créé une base de données permettant aux<br />

requêtes de rester localisées à l’intérieur du graphe, améliorant les performances grâce à la facilité d’expression.<br />

Comme aime à le dire Volker Pacher : « Notre système fonc- tionne sur sept lignes de Cypher ».<br />

La plateforme Shutl orchestre les livraisons entre les boutiques, les coursiers et les acheteurs 24 h/24 et 7 j/7. Les<br />

envois s’effectuent directement depuis les points de vente. Le service organise la collecte et la livraison des articles<br />

selon les préférences des clients, généralement dans un délai de deux heures, ou dans une fenêtre de livraison d’une<br />

heure choisie par les clients. Le résultat : un service innovant qui améliore la qualité de service pour les clients ainsi que<br />

la producti- vité des partenaires revendeurs et transporteurs. Tous les acteurs sont gagnants : les clients disposent de<br />

plus de choix pour la livraison, les coursiers ne perdent plus de temps à attendre et les boutiques peuvent proposer des<br />

services supplé- mentaires à leurs clients sur Internet. Shutl « sauve les petits commerces » dans chaque ville en faisant<br />

appel à leurs services marchands et de livraison et en leur permettant ainsi de rester compétitifs.<br />

LE DÉFI<br />

Le service de livraison le jour même de Shutl s’est développé de manière exponentielle et couvre aujourd’hui<br />

jusqu’à 85 % du Royaume-Uni. Sa plateforme de services a dû être entièrement repensée afin de prendre en<br />

charge l’explosion du volume de données et les nouvelles fonctionnalités. Les join- tures MySQL utilisées auparavant<br />

ont créé une base de code trop lente et complexe. Les délais d’exé- cution des requêtes de sélection<br />

du meilleur coursier étaient tout simplement trop longs et Shutl avait besoin qui permette à son service de rester<br />

compétitif. Volker Pacher et l’équipe de développement pensaient qu’en ajoutant une base de données orientée<br />

graphe à l’AOS et à la structure de services, il serait possible de résoudre les problèmes de performan- ces et<br />

d’évolutivité. L’équipe a choisi Neo4j, la meilleure solution à ses yeux.<br />

POURQUOI NEO4J?<br />

Le choix s’est porté sur Neo4j pour sa flexibilité, sa vitesse et sa simplicité d’utilisation. Son modèle de graphe à<br />

propriétés était parfaitement com- patible avec le domaine modélisé. La base de données ne nécessitant pas de<br />

schéma, cela a simplifié son extensibilité et a permis d’accélérer la phase de développement. Enfin, les limitations<br />

en termes de rapidité et d’évolutivité de la solution précédente ont été surmontées. « Notre solu- tion Neo4j est<br />

littéralement des milliers de fois plus rapide que la solution MySQL précédente, avec des requêtes qui nécessitent<br />

de 10 à 100 fois moins de code. Dans le même temps, Neo4j nous a permis d’ajouter des fonctionnalités jusqu’ici<br />

impossibles », explique Volker Pacher. Cypher a permis d’exprimer les requêtes sous une forme très compacte et<br />

intuitive, ce qui a accéléré le développement. L’équipe a pu exploiter le code existant à l’aide d’une bibliothèque<br />

Ruby pour Neo4j prenant égale- ment en charge Cypher.<br />

LES AVANTAGES<br />

Basée sur jRuby, Sinatra, MongoDB et Neo4j, la nouvelle plateforme garantit des transactions rapides avec des<br />

performances relativement constantes. Par ailleurs, son modèle de données permet aux requêtes de rester localisées<br />

à l’intérieur de leurs portions respectives du graphe. « Nous avons obtenu des performances constantes pour<br />

les requêtes en utilisant Neo4j pour créer un graphe qui est son propre index. Cette flexibilité de développement<br />

est tout simplement unique », explique Volker Pacher. La phase d›implémentation a été réalisée dans les délais<br />

prévus, en à peine une année. Les requêtes sont désormais simples et rapides. Le résultat est une plateforme<br />

évolutive capable de prendre en charge le développement de l›entreprise, et notamment la croissance de l›activité<br />

à laquelle elle doit faire face en tant que plateforme du service eBay Now.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

74


Retours d’expériences Big Data en entreprise<br />

NEO4J - GAMESYS<br />

GAMESYS MISE LA CROISSANCE DE SA PROCHAINE GÉNÉRATION DE<br />

JEUX SUR NEO4J, PAR UNE INTÉGRATION SOCIALE AVANCÉE.<br />

La société Gamesys est l’un des leaders des jeux d’argent en ligne. Elle a été nommée en tant que compagnie<br />

technologique privée ayant eu la plus forte cro- issance au Royaume-Uni par le Sunday Times, avec des paris<br />

d’argent à hauteur de 4,3 milliards de Livres en 2012. Leur produit phare récompensé par un prix, « Jackpotjoy »,<br />

est depuis le principal site en ligne de Bingo et de jeu à gain instan- tané (Instant Win), avec plus de quatre millions<br />

de joueurs. Gamesys a fait passer sa plate-forme de jeux au niveau supérieur en ajoutant une plate-forme<br />

sociale basée sur Neo4j pour offrir une intégration à Facebook, un système de gestion des données de référence,<br />

et bien plus encore. La versatilité de Neo4j a permis à Gamesys d’apporter de nouvelles fonctionnalités en ligne<br />

facilement, en offrant aux utilisateurs finaux un système très performant et fiable.<br />

PROBLÈME D’AFFAIRES<br />

Face au challenge que représente la création d’un nouveau réseau social, Gamesys a considéré les types de bases<br />

de données disponibles. Après avoir réalisé que les bases de données relationnel- les ne sont pas adaptées à<br />

la gestion une intercon- nexion de données massive; Gamesys a évalué les solutions NoSQL et réalisé rapidement<br />

que les graphes étaient une solution naturellement adaptée à leur problématique. La maturité de la base de données<br />

choisie était plus importante que tous les autres facteurs. Si Gamesys pariait son expansion dans l’espace<br />

social sur une base de données, cel- le-ci devait être très utilisée, compter un bon ser- vice de support, être bien<br />

documentée, et avoir fait ses preuves dans des déploiements en production multiples et à grande échelle.<br />

LE CHOIX DE NEO4J<br />

Les ingénieurs de GameSys ont évalué plusieurs bases de données de graphes. Après avoir inspecté d’autres offres,<br />

ils ont vite réalisé que Neo4j était de loin la plus mûre. Par rapport à d’autres vendeurs, il est clair que Neo4j<br />

et Neo Techno- logy étaient le monstre sacré de l’univers des graphes, et un bon investissement à long terme.<br />

Lors de l’évaluation des bases de données relationnelles, il est devenu clair qu’une base de données de graphes<br />

était un choix plus avisé et plus sûr pour ce pro- jet. L’un des facteurs les plus importants était la résistance au<br />

changement. Les données et requêtes étaient clairement adaptées à un graphe, et il était évident que la manipulation<br />

de données au format tabulaire générerait des coûts signi- ficatifs pour le projet et une augmentation importante<br />

des temps de traitement. L’avantage majeur était que la base de données graphes répondait aux exigences<br />

opérationnelles et analytiques environnement technique<br />

Avant l’introduction de Neo4j, Gamesys utilisait principalement des bases de données relationnelles. Gamesys a<br />

profité du lancement de son nouveau projet social pour porter un nouveau regard sur les options technologiques.<br />

Les bases de données de graphes, naturellement adaptées au domaine social sont une technologique qui correspond<br />

bien mieux cet usage que les bases relationnelles,.<br />

Gamesys a débuté le projet avec trois groupes d’instances hautement disponibles, un choix adapté à l’évolutivité<br />

de leurs besoins et à des exigences de disponibilité maximales. Gamesys a également déployé une instance pour<br />

un projet d’analytique. Gamesys de exécute de cette façon des requêtes temps-réel en direct sur les données sans<br />

besoin d’un entrepôt de données, ce qui leur permet de découvrir de nouveaux indicateurs et des mesures inédites<br />

sans délai et sans besoin de pré-calculs.<br />

CONCLUSION<br />

Gamesys propose à ses clients une offre sociale compétitive et convaincante en utilisant Neo4j. Les capacités de<br />

développer rapidement et avec souplesse, ainsi que les coût raisonnable de Neo4j leur a assuré le succès. En<br />

introduisant une base de données de graphes comme Neo4j dans son architecture, Gamesys a sécurisé sa croissance<br />

future en terme d’évolutivité et d’extensibilité à un plus grand nombre d’utilisateurs.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

75


Retours d’expériences Big Data en entreprise<br />

NEO4J - GLASSDOOR<br />

GLASSDOOR ÉTEND SA PLATE-FORME SOCIALE INTÉGRÉE AVEC NEO4J<br />

LE DÉFI DE GLASSDOOR<br />

Glassdoor est une communauté en ligne dédiée à l’emploi qui aide les deman- deurs d’emploi à prendre des<br />

décisions professionnelles éclairées et conseille les entreprises afin d’attirer les meilleurs collaborateurs du marché.<br />

Forte de plus de 20 millions de membres, Glassdoor offre une vision à 360 degrés du travail au sein d’une<br />

entreprise particulière et à un poste donné grâce aux contributions de ses membres. Sa base de données en<br />

croissance constante contient désormais plus de 4 millions de publications anonymes : rapports sur les salaires,<br />

analyses d’entreprises, évaluations de PDG, questions posées en entretien d’embauche et autres enseignements<br />

sur l’environnement de travail.<br />

Glassdoor exploite l’idée répandue selon laquelle les réseaux personnels et professionnels permettent<br />

généralement d’obtenir un emploi, et a lancé une nouvelle initiative afin de se démarquer<br />

davantage des autres acteurs du marché de l’em ploi en ligne. En effet, elle a créé un système<br />

appelé InsideConnections permettant aux demandeurs d’emploi d’identifier parmi leurs amis de<br />

leur réseau Facebook ceux qui travaillent pour des entreprises particulières.<br />

Lorsque les membres s’inscrivent sur Glassdoor via Facebook, ils doivent fournir des renseignements basiques<br />

permettant d’améliorer leur expérience sur le site, tels que leurs emplois actuels et pré- cédents ainsi que leur<br />

formation. En contrepartie, les membres de Glassdoor peuvent découvrir qui, parmi leurs connaissances, travaille<br />

dans certaines entreprises, et recevoir des recommandations pro- fessionnelles davantage personnalisées.<br />

sélECtion d’unE basE dE donnéEs oriEntéE GraphE<br />

Glassdoor avait besoin d’une base de données pour gérer les informations four- nies par les amis des membres<br />

et leurs amis, ainsi que les relations avec l’em- ployeur. Il a été convenu qu’une base de données orientée graphe<br />

constituait la solution parfaite pour obtenir cet ensemble de données connectées. Neo4j, qui s’intègre à sa technologie<br />

existante, a été désignée comme étant la base de don- nées idéale grâce à sa maturité et ses fonctions<br />

intégrées.<br />

ÉCHELLE, CONNEXION ET NEO4J<br />

Au cours de la première année de lancement d’InsideConnections, Glassdoor a connu une croissance phénoménale.<br />

Sa base de données sociale en constante évolution a rapidement compté plus de 600 millions de personnes,<br />

soit plus de la moitié du graphe Facebook. L’installation de Neo4j par Glassdoor a connu une croissance régulière.<br />

Toutes les données ont été réunies dans un cluster unique (et de grande capacité) haute disponibilité, conçu pour<br />

s’adapter à des débits élevés de lecture et d’écriture.<br />

CONCLUSION<br />

Neo4j constitue la technologie adaptée à la technologie de recherche d’emploi étendue de Glassdoor, et la solution<br />

idéale pour gérer les données connectées de Glassdoor. Glassdoor, qui compte dans sa base de données plus de<br />

600 millions de membres qu’elle relie entre eux, détient l’un des plus vastes graphes sociaux du monde, offrant à<br />

ses membres une portée exceptionnellement étendue.<br />

Neo4j s’adapte au gigantesque graphe social de Glassdoor en exploitant son affinité naturelle avec les données<br />

connectées, sa technologie de clustering haute disponibilité et ses fonctionnalités de partition- nement de cache,<br />

permettant ainsi à Glassdoor d’accroître sereinement sa communauté ainsi que sa popularité.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

76


Retours d’expériences Big Data en entreprise<br />

NEO4J - SNAP INTERACTIVE<br />

SNAP INTERACTIVE CONQUIERT LE MARCHÉ DE LA RENCONTRE<br />

EN LIGNE AVEC NEO4J<br />

La vocation de la société basée à Manhattan SNAP Interactive, Inc. (OTCBB: STVI) est de permettre aux personnes<br />

d’accéder au 3e degré. Êtes-vous intéressé ? Voici la question posée à tous les utilisateurs de l’application<br />

Web et mobile de rencontre en ligne AYI (AreYouInterested?). Cette question a fait de SNAP l’un des leaders du<br />

développement d’applications pour sites Web et plate- formes mobiles de réseaux sociaux.<br />

Depuis 2005, SNAP cherche à améliorer la réussite des rencontres en ligne en mettant des amis en relation et en<br />

recoupant leurs intérêts. SNAP a choisi d’ex- plorer le filon des données des connexions de 3e degré. Ingénieur<br />

Big Data chez SNAP, David Fox connaissait les statistiques. « La probabilité qu’une personne se connecte avec<br />

un ami du 3e degré est presque la même que pour un ami du 2e degré, où ils ont un ami commun », explique-t-il.<br />

« Il s’agit d’un point essentiel pouvant faire exploser l’engagement et la taille d’un réseau. » Mais ces données sont<br />

extrêmement difficiles à récupérer avec une base de données relationnelle.<br />

Le défi de SNAP consistait à représenter les données de type « amis des amis ». L’équipe ne disposait d’aucun<br />

moyen efficace de trouver les connexions de 3e degré au sein de son immense réseau social, avec plus d’un milliard<br />

d’individus dans le graphe et plus de 7 milliards de relations.<br />

David Fox a exploité Neo4j pour modéliser les données entre les utilisateurs amis et créer des connexions de 3e<br />

degré visibles (c’est-à-dire les amis d’amis ainsi que les amis des amis d’amis) à l’échelle de l’application AYI. Le<br />

retour s’est avéré colossal.<br />

Aujourd’hui, AYI est l’une des applications sociales les plus utilisées sur Internet, avec plus de 70 millions<br />

d’installations, des millions de visiteurs actifs et un par tenariat stratégique avec Match.com. « Nous continuons<br />

à innover avec Neo4j en exploitant la puissance des traversées multi-saut en temps réel pour gérer le volume de<br />

données sociales et sommes passés de 7 à 8 milliards de relations », explique David Fox.<br />

LE DÉFI<br />

À l›origine, le service de SNAP était basé sur Apache Solr et reliait les amis de 2e degré, présentant les données<br />

de type « amis des amis ». L›équipe ne parvenait pas à trouver une solution efficace pour rechercher les connexions<br />

de 3e degré au sein d›un corpus de données comptant plus d›un milliard de nœuds d›individus et plus de 7<br />

milliards de relations. Après avoir minutieusement exploré et testé MySQL, l›équipe a conclu que cette plateforme<br />

ne permettait pas de gérer les connexions de 3e degré ni d›autres problèmes complexes. Le temps nécessaire au<br />

développement et à la maintenance de l›indexation et des jointures aurait été trop important et la solution aurait<br />

été incapable de gérer le trafic et le volume de données existant.<br />

David Fox a alors pris la décision de passer à une base de données orientée graphe et a choisi Neo4j, seule et<br />

unique solution à ses yeux capable de gérer la croissance du service AYI.<br />

POURQUOI NEO4J?<br />

Le choix s’est porté sur Neo4j pour sa flexibilité, sa vitesse et sa sim- plicité d’utilisation. SNAP a ainsi pu proposer<br />

une offre particulière- ment distinctive en améliorant nettement le nombre de recomman- dations de rencontres à<br />

travers l’exploitation des connexions de type<br />

« amis des amis ». Grâce à Neo4j, le développement a été simplifié. Cypher, le langage de requête de Neo4j, a<br />

accéléré la phase d’implé- mentation en facilitant grandement le codage. La possibilité d’utiliser Java en natif a<br />

aidé SNAP à respecter les spécificités en termes de lecture et a offert une vitesse et une flexibilité maximales pour<br />

optimi- ser l’importation d’un volume de données considérable.<br />

LES AVANTAGES<br />

Le service AYI de SNAP offre aujourd’hui des temps de réponse rapi- des sur l’un des graphes sociaux les plus<br />

vastes au monde, comptant plus d’un milliard d’individus, gérant les recommandations de ren- contres entre «<br />

amis d’amis » avec des performances en temps réel constantes. Le choix de Neo4j pour gérer le réseau social de<br />

SNAP a également permis de réduire sensiblement les délais de développe- ment et le coût global par rapport à<br />

MySQL. Neo4j a facilité l’ajout de fonctionnalités et permet des requêtes rapides et flexibles.<br />

Aujourd’hui, 98 % des requêtes sont exécutées plus rapidement que prévu. L’utilisation de Neo4j pour gérer les<br />

relations « amis d’amis » s’avère plus que payante. « Les utilisateurs vont interagir s’ils voient qu’ils ont un ami<br />

en commun, la 3e connexion. SNAP révèle les «amis des amis», générant ainsi un nombre d’utilisateurs de plus<br />

en plus important, ce qui augmente d’autant l’interaction entre les utilisa- teurs et permet une croissance rapide<br />

du réseau. Cela représente un engagement colossal, qui a fait augmenter le nombre de relations de 7 à presque<br />

8 milliards depuis l’implémentation de Neo4j. C’est de bon augure pour notre entreprise », explique David Fox.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

77


Retours d’expériences Big Data en entreprise<br />

À travers Neo4j, SNAP a également gagné une précieuse vue d›ensemble de son réseau d›utilisateurs.<br />

« Lorsque nous étudions une représentation géospatiale du réseau social générée par des algorithmes, nous<br />

pouvons voir les connexions qui relient les amis ainsi que leur localisation. Cela nous donne une meilleure vision<br />

d›ensemble du réseau et permet à SNAP de proposer des fonctionnalités innovantes et d›améliorer le service AYI.<br />

Nous y voyons de nouvelles méthodes pour améliorer les probabilités d›in- teraction. Neo4j a fourni à SNAP un<br />

moteur de base de données évolutif capable de prendre en charge l›expansion de l›entreprise et de l›application<br />

AYI, s›imposant ainsi en tant que partenaire stratégique incontournable pour d›autres services de rencontre en<br />

ligne tels que Match.com.<br />

NEO4J - TELENOR<br />

AUTORISATION DE RESSOURCES: PROBLÈME RÉSOLU AVEC UNE BASE<br />

DE DONNÉES DE GRAPHES<br />

Telenor Norvège est le principal fournisseur de télécommunications et de services de données du pays. Avec plus<br />

de 3 millions de souscripteurs mobiles, c’est éga- lement le fournisseur numéro un de bande passante de la nation<br />

et, en tant que partie du Groupe Telenor, l’un des plus grands opérateurs mobiles du monde.<br />

Les systèmes de Telenor exposent les données du client et du produit à une gamme de canaux différents, avec<br />

entre autres une solution web en autoservice, où les entreprises clientes peuvent gérer leur propre portefeuille.<br />

La disponibilité du système et les temps de réponse d’accès et de récupération sont critiques pour la satisfaction<br />

du client.<br />

SITUATION<br />

Derrière le portail d’autogestion en ligne de Telenor, vous trouverez l’intergiciel responsable de la gestion des<br />

structures d’organisation des clients, des accords, des souscriptions et de l’accès des utilisateurs à leurs souscriptions<br />

mobiles d’af- faires. L’intergiciel est soutenu par Sybase, avec des demandes implémentées en tant que procédures<br />

stockées. Comme les souscriptions mobiles ont augmenté, en donnant de grands portefeuilles de clients,<br />

et comme les utilisateurs attendent une ponctualité et des temps de réponse en temps réel des systèmes en ligne,<br />

le module d’autorisation de ressource existant écrit en SQL n’était plus assez perfor- mant. Les autorisations de<br />

ressources prenaient jusqu’à 20 minutes pour les cli- ents les plus importants et devaient être pré-calculées et<br />

mises en cache chaque nuit, ce qui causait également l’apparition de données obsolètes.<br />

Sebastian Verheughe, architecte et développeur de Telenor Mobile Middleware Services, déclare: « En tant que<br />

fournisseur premium Telco en Norvège, nous avi- ons besoin d’un système fiable pour pourvoir aux besoins de notre<br />

importante base de données. La base de données Neo4j offre des services de haute perfor- mance pour notre<br />

chaîne de valeur. La solution couvre à la fois les clients entre- prises et les résidents, leur structure corporative, les<br />

souscriptions contenant le numéro de téléphone, le plan de financement et le propriétaire/payeur/utilisateur des<br />

souscriptions, les comptes de facturation et tout accord d’affaires ou résidentiel offrant des réduc- tions pour tous<br />

les membres de l’accord.<br />

POURQUOI NEO4J?<br />

La modélisation du graphe de ressources de Neo4j était naturelle étant donné que le domaine modelé était un<br />

graphe par essence. Neo4j a fourni un accès rapide et sécurisé, et des réponses à des questions importantes,<br />

comme: À quelles souscriptions peut avoir accès un utilisateur, est-ce que l’utilisateur a accès à une ressource<br />

donnée, et de quels accords un client fait il partie ? La vitesse et la pré- cision de ces opérations sont critiques,<br />

parce que les utilisateurs du sys- tème ne peuvent pas accéder à des données tant que le calcul d’autorisa- tion<br />

n’a pas eu lieu. « Avec des dépendances complexes entre les comptes, les produits et les entreprises, le moteur<br />

à haute performance de Neo4j offre une flexibilité de représentation des données, avec des caractéristiques qui<br />

vont au-delà des bases de données relationnelles habituelles ».<br />

BÉNÉFICES<br />

En surmontant à la fois les limites de performances et de fiabilité des données du projet précédent, Neo4j a permis<br />

des performances élevées et une exécution fiable des règles d’autorisation. La transition a eu pour résultat<br />

non seulement des performances plus importantes, mais aussi un code plus mainten- able, car les règles d’accès<br />

peuvent être exprimées encore plus facilement dans un graphe. Les temps de réponse ont été réduits à quelques<br />

secondes, voire millisecondes, dans de nombreux cas, alors qu’ils étaient de plusieurs minutes auparavant.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

78


Retours d’expériences Big Data en entreprise<br />

NEO4J - WALMART<br />

WALMART S’APPUIE SUR NEO4J POUR OFFRIR À SES CLIENTS LA<br />

MEILLEURE EXPÉRIENCE WEB PAR LE BIAIS DE RECOMMANDATIONS<br />

PERSONNELLES PERTINENTES<br />

Walmart est unique : une entreprise familiale qui en un peu plus de 50 ans est dev- enue la plus grande société<br />

anonyme par actions au monde avec plus de 2 mil- lions d’employés et un chiffre d’affaires annuel de 470 milliards<br />

de dollars1. En ayant su comprendre les besoins de ses clients, Walmart est devenu le plus grand détaillant au<br />

monde, et la base de données Neo4j représente un atout essentiel pour maintenir cette position.<br />

Plus de 250 millions de clients se rendent chaque semaine dans l’un des 11 000 magasins Walmart répartis<br />

sur pas moins de 27 pays et sur son site Web de vente accessible dans 10 pays. Le groupe d’e-commerce brésilien<br />

de Walmart a choisi Neo4j pour parvenir à comprendre le comportement et les préférences des acheteurs en<br />

ligne, avec une précision et une vitesse telles qu’il devient pos- sible de proposer des recommandations personnalisées<br />

en temps réel et ainsi maximiser les bénéfices.<br />

Marcos Wada, développeur logiciel du service d’e-commerce de Walmart, groupe Brésil, nous en dit plus : « Neo4j<br />

nous aide à comprendre le com- portement de nos clients en ligne et la relation entre nos clients et nos produits.<br />

Il s’agit de l’outil parfait pour les recommandations de produits en temps réel. »<br />

LE DÉFI<br />

Dans sa quête de la meilleure expérience Web pour ses clients, Walmart cherchait à optimiser ses recommandations<br />

en ligne. De nos jours, les clients s’attendent à des recommandations parfaitement person- nalisées et<br />

répondent de moins en moins bien aux suggestions universelles. Cela requiert toutefois des bases de données<br />

capables d’établir des liens entre les don- nées client et produit – complexes et volumineuses – et les données<br />

connectées en général, dans le but de mieux appréhender les besoins des clients ainsi que les tendances de<br />

consommation. Walmart s’est rendu compte du défi auquel il faisait face avec la technologie de base de données<br />

rela- tionnelle traditionnelle. Comme l’explique Marcos : « En raison de la complexité de nos requêtes, une base de<br />

données relationnelle ne suffisait pas pour satisfaire nos exigences en matière de performance et de simplicité. »<br />

Pour pallier à ce problème, l’équipe de Marcos a décidé d’utiliser une base de données orientée graphe Neo4j, le<br />

leader du marché.<br />

POURQUOI NEO4J ?<br />

Les bases de données orientées graphe peuvent rapidement interroger l’historique d’achat des clients, ainsi que<br />

capturer les nouveaux intérêts manifestés par les clients au cours de leur visite sur le site, ce qui s’avère essentiel<br />

pour proposer des recommandations en temps réel. Faire correspondre les données d’historique et de session de<br />

cette manière est chose aisée pour les bases de données orientées graphe telles que Neo4j, qui surpassent de<br />

loin les performances des bases de données relationnelles et NoSQL. Marcos a assisté pour la première fois à une<br />

démonstration de Neo4j à la conférence QCON de New York en 2012 et a tout de suite compris :<br />

« Neo4j peut nous permettre de remplacer un processus lourd de traite- ment par lot par une base de données<br />

orientée graphe simple et en temps réel. » À partir de là, son équipe a testé la technologie et a obtenu des résultats<br />

positifs qui l›ont aidé à mûrir sa décision. Son verdict ? « Il est parfaitement adapté à nos besoins. »<br />

LES AVANTAGES<br />

Walmart utilise Neo4j pour analyser le comportement des acheteurs en ligne afin de favoriser la montée en gamme<br />

et les ventes croisées des prin- cipales lignes de produits dans les marchés clés.<br />

Neo4j a été déployé dans son application de marketing de relance, gérée par l’équipe informatique d’e-commerce<br />

de l’entreprise basée au Brésil. Walmart utilise Neo4j en production depuis début 2013 et est passé à la version<br />

2.0 cette année. Marcos nous explique les avantages : « Neo4j nous a permis de remplacer un processus par<br />

lot com- pliqué que nous utilisions pour préparer notre base de données relationnelle par une base de données<br />

orientée graphe simple et en temps réel. Nous avons pu concevoir un système de recommandation simple et en<br />

temps réel avec des requêtes à faible latence. » Il conclut : « En tant que leader actuel sur le marché des bases<br />

de données orientées graphe, Neo4j représente l’outil idéal pour atteindre nos objectifs, notamment grâce à ses<br />

fonctionnalités métier offrant évolutivité et disponibilité. »<br />

À PROPOS DE NEO TECHNOLOGY<br />

Les graphes nous entourent. Neo Technology a joué un rôle prépondérant en rendant la technologie des graphes<br />

accessible à de nombreuses organisations, comprenant une base globale de 2 000 clients qui ne cesse de croître,<br />

parmi lesquels Cisco, HP, Accenture, Deutsche Telekom et Telenor. En assistant la production de ses clients depuis<br />

plus de dix ans, Neo4j s’est imposé comme le leader mondial dans le domaine des bases de données orientées<br />

graphe, grâce à un large éventail de partenariats et des dizaines de milliers de déploiements couronnés de succès.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

79


Retours d’expériences Big Data en entreprise<br />

SAP - MOBILINK<br />

LA SOLUTION SAP INFINITEINSIGHT A PERMIS À MOBILINK DE BOOSTER<br />

DE 380 % LE TAUX DE RÉPONSE DE SES CAMPAGNES<br />

Société Mobilink | Siège social Islamabad (Pakistan) | Secteur d’activité Télécommunications | Produits et services<br />

Services de communication fixes et sans fil haut débit – Services de communication de données | Salariés<br />

7000 | Chiffre d’affaires 1,1 milliard $USD; Rapprocher les personnes à travers des solutions de communication<br />

innovantes, c’est la solution adoptée par Mobilink pour devenir le principal fournisseur de télécommunications<br />

du Pakistan. Face à la croissance explosive du marché et à une concurrence féroce, Mobilink avait besoin de se<br />

protéger contre le taux d’attrition des clients en proposant certains services aux bons clients et au bon moment.<br />

Pour relever ce défi, Mobilink a dû extraire de la connaissance client de ses 35 millions d’abonnés et de 200.000<br />

distributeurs présents dans 10.000 villes et villages du Pakistan.<br />

LES PRIORITÉS DE L’ENTREPRISE<br />

• Devancer la concurrence à travers une approche « prochaine action ciblée », qui permet de proposer les meilleures<br />

offres, aux meilleurs clients, au meilleur moment<br />

• Utiliser les big data et l’analyse prédictive pour renforcer la confiance des clients, les fidéliser, diminuer le taux<br />

d’attrition toute en maintenant les marges de profit<br />

LA SOLUTION<br />

• Après avoir étudié les solutions d’autres fournisseurs telles que SAS et SPSS, a rapidement déployé la solution<br />

SAP InfiniteInsight pour bénéficier de ses excellentes capacités prédictives, de son interface ergonomique et de<br />

sa compatibilité avec de nombreuses autres solutions<br />

• A élaboré des modèles prédictifs, combinés avec des techniques de clustering et d’analyse des big data collectées<br />

sur les réseaux sociaux pour dégager une connaissance essentielle sur le comportement des clients<br />

LES PRINCIPAUX AVANTAGES<br />

• Campagnes mieux ciblées et promotions plus efficaces, ce qui s’est traduit par une utilisation accrue des services<br />

à valeur ajoutée tels que SMS, sonneries et musique<br />

• Réduction du taux d’attrition par prédiction puis prévention du comportement des clients<br />

• Meilleure connaissance des communautés d’intérêt (grandes ou petites), ce qui a permis d’injecter du marketing<br />

viral dans de nouveaux segments en vue d’acquérir de nouveaux clients et de réduire le taux d’attrition<br />

8x : Augmentation de l’efficacité des offres de rétention des clients (de 0,5 % à environ 4 %) avec une dépense réduite<br />

380 % : Augmentation du taux de réponse aux campagnes grâce à l’analyse des réseaux sociaux<br />


Retours d’expériences Big Data en entreprise<br />

LES PRIORITÉS DE L’ENTREPRISE<br />

• Élaborer des modèles prédictifs pour faciliter la création d’offres personnalisées, plus rapidement et avec une<br />

plus grande précision pour plus de 6 millions d’abonnés dans 28 régions<br />

• Doubler le taux de conversion des campagnes de marketing direct<br />

LA SOLUTION<br />

• A déployé la solution SAP InfiniteInsight pour analyse prédictive, y compris segmentation, classification, régression<br />

et agrégation des données<br />

• A optimisé ses processus d’analyse du marché à l’échelle de l’entreprise grâce à une équipe analytique centralisée<br />

chargée de couvrir ses 28 régions<br />

LES PRINCIPAUX AVANTAGES<br />

• Une solution évolutive pour accompagner les besoins à court et long terme, y compris modélisation prédictive<br />

pour les acquisitions de client, la rétention des clients, l’évaluation des clients sur la durée et le marketing événementiel<br />

• Analyse précise et rapide de 10 millions d’observations et de 800 variables pour analyser le comportement des<br />

clients, dont propension à l’achat, risques d’attritions et risques de solvabilité<br />

14 % : Augmentation du nombre de produits par foyer<br />

28 % : Réduction du taux d’attrition des clients<br />

80 % : Réduction du temps de création des modèles<br />

42x : Rendement plus élevé pour les analystes (de 40 à 1680 modèles prédictifs par an)<br />

SAP - BELGACOM<br />

PRÉVOIR DES TENDANCES SUR L’ENSEMBLE DES CANAUX<br />

D’INTERACTION CLIENT AVEC SAP® INFINITEINSIGHT ®<br />

Société Groupe Belgacom| Siège social Bruxelles, Belgique | Secteur d’activité Télécommunications| Produits et<br />

services Services de téléphonie fixe et mobile, de télévision et d’Internet| Salariés 15 859 (2012) | Chiffre d’affaires<br />

6,4 million d’€ (2012). En matière de services de téléphonie, d’Internet et de télévision, Belgacom est un opérateur de<br />

télécommunications incontournable en Belgique. En règle générale, il est pourtant difficile de réussir le lancement de<br />

nouveaux produits sur ce marché hautement compétitif. Avec la solution SAP® InfiniteInsight®, Belgacom a pourtant<br />

su relever ce challenge en automatisant les outils d’exploration de données (« data mining ») qui permettent de mieux<br />

comprendre les besoins de chaque client et de déployer ainsi des services et des campagnes personnalisés répondant<br />

précisément à leurs attentes. Résultat : le taux de satisfaction des clients de Belgacom ne cesse d’augmenter.<br />

OBJECTIFS<br />

• Exploiter de précieuses informations cachées sur la clientèle permettant d’augmenter la fidélisation et d’identifier<br />

de nouvelles perspectives de croissance<br />

• Améliorer la détection des risques de défection, accélérer le déploiement de modèles prédictifs et identifier les<br />

sources de revenus potentiels à toutes les étapes de la relation client<br />

POURQUOI SAP<br />

• Un savoir-faire et des résultats reconnus dans le secteur des télécommunications<br />

• Des modèles prédictifs puissants et fiables pour analyser les comportements clients (professionnels et particuliers)<br />

avec la solution SAP® InfiniteInsight®<br />

• Une solution flexible et conviviale, au service de statisticiens et d’analystes de gestion qualifiés<br />

AVANTAGES<br />

• Un marketing prédictif opérationnel sur tous les canaux d’interaction avec les clients, des centres d’appels<br />

aux boutiques en ligne<br />

• Des échanges de qualité optimale d’un bout à l’autre de la relation client permettant de tirer profit d’une mine<br />

d’informations de grande valeur<br />

• De nouvelles opportunités de revenu issues de failles ou de lacunes du marché<br />

• Des taux accrus de satisfaction et de rétention des clients<br />

• Un meilleur retour sur investissement marketing<br />

• Un temps de modélisation ramené de plusieurs mois à quelques jours<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

81


Retours d’expériences Big Data en entreprise<br />

SAP - BANGLALINK DIGITAL COMMUNICATIONS<br />

MAINTENIR LE CHIFFRE D’AFFAIRES ET AMÉLIORER L’EXPÉRIENCE CLIENT<br />

Société Banglalink Digital Communications Ltd. | Siège social Dhaka (Bangladesh) | Secteur d’activité Télécommunications<br />

| Produits et services Services de télécommunication intégrés (technologies voix, données, mobile traditionnel<br />

et mobile haut débit, fixe)| Salariés 2500 | Chiffre d’affaires 550 millions $USD : Depuis 2005, Banglalink Digital<br />

Communications Ltd. se positionne comme l’un des principaux opérateurs de téléphonie mobile du Bangladesh.<br />

Cette société améliore la vie des citoyens en leur proposant des services de télécommunication à coût modéré. Pour<br />

faciliter la diffusion de ses solutions de télécommunications mobiles au plus grand nombre, Banglalink a utilisé la<br />

solution SAP InfiniteInsight. En définissant des modèles prédictifs, Banglalink parvient à conserver d›importants flux<br />

de chiffre d›affaires en luttant contre le taux d›attrition et à améliorer l’expérience globale de ses clients.<br />

OBJECTIFS<br />

• Améliorer les résultats des campagnes de rétention pour lutter contre le taux d’attrition des clients<br />

• Analyser les big data générées par des sources telles que les enregistrements des centres d’appel, les abonnements<br />

aux produits, les transactions de vouchers, les conversions de forfaits et les relais cellulaires<br />

POURQUOI SAP<br />

• Supporte l’élaboration de modèles prédictifs, même par les utilisateurs ayant peu ou pas d’expérience en informatique<br />

ou en statistiques<br />

• Inclut des modèles prédictifs et une architecture de données analytiques. Ces éléments prédéfinis permettent<br />

de réduire le temps nécessaire pour préparer les données analytiques, élaborer les modèles prédictifs et déployer<br />

les scores résultants en production<br />

AVANTAGES<br />

• A pu définir un modèle capable de détecter plus d’un quart des clients en risque d’attrition, en utilisant seulement<br />

un échantillon de 10 % des scores les plus élevés<br />

• A déployé la solution SAP InfiniteInsight en moins de cinq mois<br />

• A découvert les outils nécessaires pour créer et déployer des modèles de prévision en quelques heures, et non<br />

en plusieurs semaines ou plusieurs mois<br />

PLANS FUTURS<br />

• Intégrer des modèles prédictifs dans le système de gestion des campagnes, de manière à proposer aux abonnés<br />

la meilleure offre au meilleur moment, dans tous les canaux côté clients<br />

• Ajouter l’application SAP InfiniteInsight Social pour identifier les influenceurs en vue de les intégrer dans des<br />

programmes de marketing viral, et pour détecter toute activité frauduleuse chez les clients<br />

SAP - VODAFONE<br />

CIBLER LES CLIENTS AVEC DES OFFRES PLUS PERTINENTES<br />

Société Vodafone Pays-Bas| Siège social Amsterdam (Pays-Bas) | Secteur d’activité Télécommunications | Produits<br />

et services Services de télécommunication, y compris paiement à la réception pour consommateurs et entreprises,<br />

paiement fixe, paiement à l’envoi et paiement de machine à machine<br />

« L›analyse prédictive est importante, car elle permet à une entreprise de tirer le meilleur parti possible de ses<br />

dépenses marketing. Nous utilisons SAP InfiniteInsight pour que nos offres soient plus pertinentes pour nos clients, et<br />

pour éviter de les contacter trop souvent. » Viliah Overwater, Analyste senior en modélisation, Vodafone Pays-Bas<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

82


Retours d’expériences Big Data en entreprise<br />

SAP - XL<br />

XL DOUBLE LES RÉSULTATS DE SES CAMPAGNES MARKETING AVEC LA<br />

SOLUTION SAP® INFINITEINSIGHT®<br />

Société PT XL Axiata Tbk | Siège social Djakarta (Indonésie) | Secteur d’activité Télécommunications | Produits et<br />

services Communications mobiles, Internet haut débit, communication de données, services 3G | Salariés 2,000 |<br />

Chiffre d’affaires 2,1 milliards $USD « Nous avons pu exécuter des campagnes marketing finement ciblées grâce<br />

aux modèles prédictifs générés par SAP InfiniteInsight. Depuis le déploiement de cette solution, nous avons réduit<br />

le taux d’attrition de 8,2 % dans tous les domaines et nous avons augmenté notre base de clientèle de près de 25 %. »<br />

Pradeep Kumar, directeur général de l’analytique client chez PT XL Axiata Tbk<br />

PRINCIPAUX OBJECTIFS<br />

• Devancer la concurrence dans un marché concurrentiel et presque saturé<br />

• Générer des relations plus profitables avec nos clients et améliorer leur rétention et leur fidélisation<br />

POURQUOI LA SOLUTION SAP® INFINITEINSIGHT® ?<br />

• La modélisation prédictive permet d’analyser des données sur plus 40 millions d’abonnés et de déterminer certaines<br />

caractéristiques telles que l’attractivité des produits et les risques de taux d’attrition<br />

• Plébiscitée par rapport aux solutions concurrentes et traditionnelles de gestion de la rétention et de la fidélisation des<br />

clients parce qu’elle elle est rapide à déployer, facile à utiliser et qu’elle contribue à l’agilité des opérations marketing<br />

PRINCIPAUX AVANTAGES<br />

• Possibilité d’élaborer des modèles prédictifs en quelques heures<br />

• Utilisation des données d’éligibilité du client, de disponibilité en inventaire et de profitabilité pour prioriser la<br />

présentation des offres et déployer une approche « prochaine action ciblée »<br />

• Optimisation des campagnes pour rétention maximale, ventes croisées/ventes de gamme supérieure dans les<br />

différents canaux marketing, augmentation du chiffre d’affaires et de l’activité des abonnés<br />

• Identification proactive et ciblage très en amont des clients en risque d’attrition<br />

200 % : Augmentation du taux de conversion des campagnes<br />

28 % : Augmentation de la précision des prédictions lors du ciblage des influenceurs sociaux<br />

66,6 % : Réduction globale du taux d’attrition de 8,2 % et acquisition d’abonnés à plus forte valeur<br />

25 % : Croissance de la base de clientèle<br />

102 % : Retour sur investissement<br />

SAP - AVIVA<br />

CONNAISSANCE DU CLIENT PAR L’ANALYSE PRÉDICTIVE<br />

Société Aviva plc | Siège social Londres (Angleterre) | Secteur d’activité Assurance | Produits et services Assurance<br />

générale, assurance-vie | Clients 31,4 millions, dans plus de 15 pays | Salariés 27.700 (monde) | Bénéfice<br />

d’exploitation 2,5 milliards €. Aviva protège environ 31 millions de clients dans le monde entier avec ses produits<br />

d’assurance, d’épargne et d’investissement. Aviva est le plus grand assureur du Royaume-Uni, et également l’un<br />

des principaux prestataires européens en assurance, assurance-vie et gestion d’actifs. Fermement engagée dans<br />

le service de ses clients pour proposer des offres plus fortes, plus durables et ayant une incidence positive sur la<br />

société, Aviva a choisi la solution SAP InfiniteInsight. Ses modèles prédictifs aident Aviva à dégager la connaissance<br />

nécessaire au ciblage des meilleurs clients avec la meilleure offre et au meilleur moment.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

83


Retours d’expériences Big Data en entreprise<br />

OBJECTIFS<br />

• Utiliser l’analyse prédictive pour élaborer des modèles de propension décrivant des groupes de clients spécifiques<br />

plutôt que des modèles génériques portant sur l’ensemble des clients<br />

• Éviter de contacter les clients trop souvent tout en améliorant les taux de réponse des campagnes<br />

• Augmenter le retour sur les investissements marketing et améliorer le succès des campagnes en identifiant les<br />

clients les plus susceptibles de répondre<br />

POURQUOI SAP<br />

• Les nombreux graphiques permettent aux experts marketing de visualiser l’impact prévisible des modèles<br />

• L’automatisation très efficace de la modélisation permet de définir rapidement et facilement une gamme complète<br />

de modèles<br />

• L’analyse automatique de la contribution à un modèle de plusieurs centaines de variables remplace l’examen<br />

visuel d’un nombre limité de variables<br />

AVANTAGES<br />

• Taux de réponse aux campagnes plus élevé et plus grande valeur des clients sur la durée grâce à des offres<br />

mieux personnalisées<br />

• Augmentation significative du nombre de modèles de propension utilisés dans la société (dont plus de 30<br />

modèles en production)<br />

• Possibilité d’utiliser les données les plus récentes pour actualiser les modèles et capturer les dernières tendances<br />

PLANS FUTURS<br />

• Améliorer nettement le retour sur les investissements marketing par une modélisation des intentions des clients<br />

capable de prédire l’impact des initiatives de marketing sur des groupes cibles spécifiques<br />

• Élaborer des modèles prédictifs pour analyser l’acquisition et la relance des clients<br />

SAP - ELDORADO<br />

AMÉLIORATION SPECTACULAIRE DE LA PRÉCISION DES PRÉVISIONS DE<br />

VENTES AVEC LA SOLUTION SAP INFINITEINSIGHT<br />

Société Eldorado LLC | Siège social Moscou (Russie) | Secteur d’activité Distribution | Produits et services Électronique<br />

grand public et appareils électroménagers | Salariés 15.000 | Chiffre d’affaires 2.4 milliards € (2012)<br />

Pour les produits électroniques, les appliances, les ordinateurs, etc., les Russes plébiscitent Eldorado. Réseau<br />

fort de 700 magasins et franchises, plus de 30 présences en ligne et 120 points de commande et d’enlèvement, ce<br />

distributeur russe doit gérer d’importants volumes de données pour améliorer la prévision de ses ventes, exploiter<br />

un potentiel de chiffre d’affaires insoupçonné et réduire considérablement ses frais d’inventaire. Pour exploiter au<br />

mieux ses big data grâce à l’analyse prédictive, Eldorado a choisi la solution SAP InfiniteInsight.<br />

OBJECTIFS<br />

• Analyser les données stockées dans la solution SAP 360 Customer, générées par plus de 1,5 millions de transactions<br />

sur les points de vente. Ventes portant sur plus de 420 groupes de produits et plus de 8000 références par mois<br />

• Améliorer la précision des prévisions pour booster les ventes et réduire le coût des inventaires<br />

POURQUOI SAP<br />

• Partenaire technologique de confiance avec une expérience démontrée et des succès dans l’ensemble du secteur<br />

• Possibilité d’utiliser plus efficacement l’accès en temps réel aux gros volumes de données déjà disponibles avec<br />

l’application SAP Business Warehouse (avec SAP HANA) et avec l’application SAP Planning for Distribution<br />

• Facilité d’utilisation, précision des modèles prédictifs et outils automatisés innovants disponibles avec la solution<br />

SAP InfiniteInsight<br />

AVANTAGES<br />

• Élaborer environ 500 modèles prédictifs par mois – une tâche impossible à envisager avec les techniques de<br />

modélisation traditionnelles qui exigent plusieurs semaines ou plusieurs mois pour définir un seul modèle<br />

• Création de prévisions pour la planification des assortiments, réapprovisionnement des étagères, analyse des prix et<br />

des promotions, fusion de magasins, sélection de l’emplacement des magasins et planification des ventes et des achats<br />

• Précision jusqu’à 82 % des prévisions de ventes, une amélioration de 10 % par rapport aux techniques précédentes<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

84


Retours d’expériences Big Data en entreprise<br />

PLANS FUTURS<br />

• Migrer d’autres applications SAP vers SAP HANA pour tirer pleinement partie du potentiel de la technologie de<br />

traitement en mémoire<br />

• Poursuivre l’expansion et faire évoluer les activités de l’entreprise en faisant appel à des systèmes IT performants<br />

et à l’innovation<br />

SAP - SAMSE<br />

OPTIMISER LA PRÉVENTION DES RISQUES, LES INVESTISSEMENTS<br />

MARKETING ET LA GESTION DES STOCKS AVEC SAP® INFINITEINSIGHT®<br />

Société Groupe SAMSE | Siège social Grenoble, France | Secteur d’activité Grande distribution | Produits et services<br />

Distribution de produits et services (matériaux et outils de construction) | Salariés 5,000 | Chiffre d’affaires1,138<br />

million d’€. Que ce soit pour entreprendre un projet de développement de grande envergure ou rénover son domicile,<br />

les professionnels comme les bricoleurs du dimanche français font confiance aux outils, matériaux et conseils<br />

personnalisés que propose le groupe SAMSE. Grâce à la solution<br />

SAP® InfiniteInsight®, Groupe SAMSE peut développer des modèles prédictifs pour analyser et exploiter les énormes<br />

masses de données clients recueillies chaque jour. Avec des taux de réponse aux campagnes marketing en<br />

augmentation de 220 %, Groupe SAMSE propose à ses clients des offres taillées pour leurs besoins.<br />

OBJECTIFS<br />

• Optimiser les performances des campagnes marketing, la prévention des risques et la planification des stocks<br />

pour 25 marques et 290 points de vente<br />

• Analyser des téraoctets de données issues de plus de 300 000 détenteurs de cartes de fidélité et de 30 000<br />

entreprises clientes chaque jour<br />

• Développer une vision globale des relations entre entreprises (B2B) et avec les clients (B2C) et la compléter<br />

d’analyses approfondies<br />

• Mettre à jour les modèles prédictifs chaque semaine, plutôt que mensuellement, pour renforcer la fiabilité des prévisions<br />

POURQUOI SAP<br />

• Des analyses réutilisables et facilement modifiables avec la solution SAP® InfiniteInsight®<br />

• Des modèles prédictifs qui facilitent la planifica- tion de plus de 75 unités de gestion des stocks de produits et<br />

l’analyse de la cote de solvabilité pour prévoir le risque de défaut de paiement des clients<br />

AVANTAGES<br />

• Des taux de réponse aux campagnes de marketing direct en augmentation de 220 %<br />

• La mise à jour des modèles prédictifs ramenée de plusieurs mois à une semaine seulement<br />

• Un équilibre entre une exploration systématique et flexible des données quotidiennes relatives aux marques du<br />

groupe à l’aide de modèles prédictifs<br />

• Un système d’alerte précoce pour les projets de construction de particuliers, permettant d’établir des recommandations<br />

de produits personnalisées quasiment en temps réel sur plusieurs canaux d’interaction avec les clients,<br />

notamment les magasins, les centres d’appels et les commerciaux<br />

PLANS FUTURS<br />

• Attirer toujours plus de clients grâce à une juste appréciation de leurs comportements<br />

• Poursuivre une stratégie d’optimisation de l’activité en adoptant des technologies de pointe<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

85


Retours d’expériences Big Data en entreprise<br />

SAP - HSE24<br />

INFLUENCER POSITIVEMENT LE COMPORTEMENT D’ACHAT DES<br />

CONSOMMATEURS AVEC UN LOGICIEL ANALYTIQUE PLUS PERFORMANT<br />

ET AVEC SAP HANA®<br />

Société Home Shopping Europe GmbH (HSE24) | Siège social Ismaning (Allemagne) | Secteur d’activité Distribution<br />

| Produits et services Mode, bijoux, produits de beauté pour la maison | Salariés Environ 2900 (y compris<br />

centre d’appels externe et personnel logistique) | Visiteurs 515 millions € (2012)<br />

« Avec SAP HANA, nous avons vu une opportunité d›influencer le comportement d›achat de nos clients et de<br />

réduire le taux de retour des produits. Chaque année, plus de 11,5 millions de colis HSE24 sont envoyés à 1,5<br />

millions de clients. Spécialisés dans le VPC, nous estimons que diminuer notre taux de retours de seulement 1 %<br />

pourrait conduire à une économie à sept chiffres ! »<br />

Michael Kuenzel, vice-président IT chez Home Shopping Europe GmbH (HSE24)<br />

LES PRIORITÉS DE L’ENTREPRISE<br />

• Devenir une entreprise de vente et de service clientèle de classe mondiale<br />

• Réduire les retours des commandes en VPC<br />

• Réagir à la demande en temps réel<br />

LA SOLUTION<br />

• Déploiement du logiciel SAP® Predictive Analysis et de l’application analytique SAP Audience Discovery and<br />

Targeting (avec SAP HANA®) • Définition d’un plan de migration de l’application SAP Customer Relationship<br />

Management à SAP HANA (phase II du projet d’implémentation de SAP HANA)<br />

LES PRINCIPAUX AVANTAGES<br />

• La vue à 360 degrés des informations client permet de définir des campagnes ciblées plus précises et mieux<br />

ciblées et facilite les interactions avec les clients<br />

• L’accès instantané à l’ensemble des données client permet aux spécialistes marketing de prendre les mesures<br />

appropriées pour réduire le taux de retours<br />

• Les interactions plus riches avec les clients facilitent la définition d’offres pertinentes pour les consommateurs<br />

et reflètent mieux les exigences uniques de chaque personne - Temps réel : L’agrégation des données fournit une<br />

vue complète de chaque client - Efficace : Interactions plus puissantes et plus efficaces avec les clients - Ciblé :<br />

Des campagnes marketing qui mettent l’accent sur des segments spécifiques de clientèle - Pertinent : Des offres<br />

qui répondent avec une meilleure précision aux demandes de clients<br />

SAP - MONEXT<br />

RÉDUIRE LA FRAUDE SUR UN MILLIARD DE TRANSACTIONS<br />

ÉLECTRONIQUES ANNUELLES AVEC LA SOLUTION SAP®<br />

INFINITEINSIGHT®<br />

Société Monext SAS | Siège social Courbevoie, France | Secteur d’activité Banque | Produits et services Solutions<br />

et services de traitement des paiements et des cartes de paiement | Salariés 480 | Chiffre d’affaires €67 million<br />

(2011) « SAP InfiniteInsight nous procurera un réel avantage concurrentiel et nous fera ainsi économiser chaque<br />

année des centaines de millions d’euros. »<br />

Annabelle Gerard, Analyste de Business Intelligence et de Data Mining, Monext SAS<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

86


Retours d’expériences Big Data en entreprise<br />

OBJECTIFS<br />

• Réduire la fraude électronique pour quelques-uns des principaux e-commerçants, distributeurs et banques européens<br />

• Remplacer une solution analytique externalisée qui utilisait un modèle générique pour prédire la fraude électronique<br />

• Diminuer les fausses alertes pour améliorer l’expérience client et réduire les coûts du centre d’appels<br />

POURQUOI SAP<br />

• Modélisation prédictive adaptée à chaque fournisseur de carte et type de carte, notamment les cartes de crédit,<br />

de débit, prépayées, premium, disponible avec la solution SAP® InfiniteInsight®.<br />

• Formation automatisée pour une modélisation rapide, alliée à une interface puissante et conviviale<br />

AVANTAGES<br />

• Un analyste à mi-temps suffit pour créer des modèles personnalisés pour chaque fournisseur et type de carte<br />

• Résultats fiables obtenus en quelques heures au lieu de plusieurs jours ou semaines<br />

• Analyse des Big Data collectées sur des centaines de millions de transactions et jusqu’à 500 attributs natifs et<br />

dérivés utilisés pour évaluer les transactions en quelques millisecondes<br />

• Économie de centaines de millions d’euros sur les pertes annuelles potentielles de revenus pour les fournisseurs<br />

de cartes afin de procurer un réel avantage concurrentiel et d’améliorer considérablement l’expérience client<br />

PROJETS À VENIR<br />

• Innover davantage pour effectuer des paiements de manière encore plus pratique et sûre sur tous les canaux<br />

électroniques<br />

• Continuer à soutenir et à protéger les entreprises et les consommateurs à l’aide de la technologie logicielle SAP<br />

SAP - AMERICAN AUTOMOBILE ASSOCIATION<br />

EN ROUTE VERS UNE MEILLEURE COMPRÉHENSION DES CLIENTS<br />

Société American Automobile Association (AAA) | Siège social Orlando (Floride) | Secteur d’activité Assurance |<br />

Produits et services Assistance aux automobilistes – Véhicules, voyages et services financiers | Salariés > 40.000<br />

Sur la route, des millions d’Américains font confiance à l’American Automobile Association (AAA) pour ses services<br />

d’assistance, d’assurance et de dépannage. Pour optimiser les services des 44 automobile-clubs AAA des États-<br />

Unis et du Canada, le AAA National Office a créé un « centre d’action » centralisé pour dégager une meilleure<br />

connaissance des besoins de ses membres. Avec l’analyse prédictive performante proposée par la solution SAP<br />

InfiniteInsight, AAA peut répondre aux besoins de ses membres au moment précis où ils les expriment.<br />

SAP - SKYROCK<br />

MONÉTISER LE RÉSEAU SOCIAL AVEC SAP® INFINITEINSIGHT®<br />

RECOMMANDATION<br />

Société Skyrock.com | Siège social Paris | Secteur d’activité Médias| Produits et services Services de partage de<br />

réseaux sociaux, de blogs et de médias | Salariés 80 | Visiteurs 12 million per month<br />

En matière de contenu en ligne, les internautes font confiance à leurs amis pour découvrir de nouveaux sujets<br />

d’intérêt. En mettant gratuitement à disposition de ses membres un espace Web personnalisé pour y créer des<br />

blogs, ajouter des profils et échanger des messages avec d’autres membres inscrits, Skyrock.com est l’un des<br />

réseaux sociaux de blogs les plus dynamiques au monde. Toutefois, la société recherchait une solution lui permettant<br />

de tirer parti de toutes ces données clients et monétiser sa croissance rapide.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

87


Retours d’expériences Big Data en entreprise<br />

LES PRIORITÉS DE L’ENTREPRISE<br />

• Décrypter les sources de Big Data pour obtenir des prévisions précises et des recommandations personnalisées<br />

sur les produits, les amis et le contenu<br />

• Améliorer la fidélité au site et l’engagement social<br />

• Augmenter le nombre de pages consultées par visite pour proposer des annonces publicitaires payantes plus<br />

rémunératrices et doper les revenus<br />

LA SOLUTION<br />

• Déploiement de l’application SAP® InfiniteInsight® Recommendation, en permettant la segmentation à l’aide de<br />

l’analyse des réseaux sociaux et les recommandations sociales d’« amis »<br />

• Lancement d’un projet pilote pour recommander des blogs aux visiteurs et aux membres selon des profils et des<br />

goûts pour accroître la fidélité au site<br />

LES PRINCIPAUX AVANTAGES<br />

• Possibilité de fournir chaque matin des recommandations d’« amis » pertinentes aux membres du site<br />

• Meilleure compréhension des utilisateurs, facilitant ainsi l’identification des communautés partageant les<br />

mêmes centres d’intérêt, des caractéristiques et des comportements, comme les fans de shopping, les amateurs<br />

d’équitation, les jeunes mamans et les passionnés d’automobile<br />

20 : Recommandations d’amis pertinentes envoyées chaque matin aux membres du site<br />

2x : Plus de demandes d’ajout d’ami et augmentation correspondante du taux d’acceptation<br />


Retours d’expériences Big Data en entreprise<br />

SAP - TIPP24.COM<br />

MULTIPLICATION PAR 4 DES PERFORMANCES DE SES CAMPAGNES<br />

MARKETING AVEC SAP® INFINITEINSIGHT®<br />

Société Tipp24.com | Siège social Londres (Angleterre) | Secteur d’activité Sports et divertissement | Produits et<br />

services Loteries en ligne<br />

Pour mieux comprendre ses clients et améliorer la précision de ses activités marketing, Tipp24.com, un des principaux<br />

intermédiaires de loterie sous licence d’Europe, a opté pour une solution d’analyse prédictive. En faisant<br />

appel à la solution SAP® InfiniteInsight® pour sa modélisation prédictive, Tipp24 a pu améliorer de 300 % la<br />

précision de ses ciblages. Ces résultats lui permettent de proposer les meilleures loteries aux joueurs et de leur<br />

souhaiter Bonne chance !<br />

PRINCIPAUX OBJECTIFS<br />

• Mieux comprendre le client sur la durée pour suivre les clients de grande valeur, augmenter les opportunités de<br />

vente croisée et de vente de gamme supérieure et réduire l’attrition<br />

• Collecter des données détaillée sur le comportement des clients pour optimiser les campagnes marketing<br />

• Mettre à la disposition des activités marketing et des canaux client une solution efficace de modélisation prédictive<br />

POURQUOI LA SOLUTION SAP® INFINITEINSIGHT® ?<br />

• Améliorer les performances et l’évolutivité par rapport aux logiciels SAS et SPSS d’IBM<br />

• Possibilité d’identifier les tendances de comportement des clients en vue d’améliorer leur satisfaction<br />

• Possibilité de prédire les clients qui risquent de devenir inactifs et les clients inactifs qui sont susceptibles de<br />

redevenir actifs<br />

PRINCIPAUX AVANTAGES<br />

• Optimise les campagnes et le comportement des clients sur la durée dans plusieurs canaux, y compris téléphone,<br />

marketing direct et mail<br />

• Permet la gestion proactive des relations avec les clients à grande valeur (existants et potentiels)<br />

• Réduit le taux d’attrition et augmente la valeur des clients sur la durée<br />

300 % : Amélioration de la précision de ciblage, y compris identification des joueurs qui seraient les plus intéressés<br />

par des participations hebdomadaires, mensuelles ou permanentes à certaines loteries<br />

25 % : Réduction de la taille de l’audience ciblée pour une campagne donnée (grâce à des fonctions analytiques<br />

plus précises)<br />

90 % : Réduction du temps nécessaire pour créer et déployer des modèles prédictifs (de plusieurs semaines à<br />

quelques jours), augmentation de la productivité de l’équipe Analytique<br />

SAP - KAESER KOMPRESSOREN<br />

TRANSFORMATION DES ACTIVITÉS AVEC SAP® BUSINESS SUITE<br />

(ET SAP HANA®)<br />

Société Kaeser Kompressoren SE | Siège social Cobourg (Allemagne) | Secteur d’activité Machines et équipements<br />

industriels | Produits et services Systèmes à air comprimé (y compris services de consulting) | Salariés<br />

4400 | Chiffre d’affaires 600 millions € (2012) | Partenaire SAP® Consulting<br />

« Nous allons mettre à profit toute la puissance de SAP HANA pour améliorer les processus métier existants,<br />

déployer des processus entièrement nouveaux et réduire notre TCO. Nous avons pris un excellent<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

89


Retours d’expériences Big Data en entreprise<br />

départ avec la migration en douceur et rapide de SAP CRM vers SAP HANA. Cette opération va être<br />

suivie par le déploiement d›autres applications SAP Business Suite et de solutions personnalisées. »<br />

Falko Lameter, DSI chez KAESER KOMPRESSOREN<br />

OBJECTIFS<br />

• Définir un environnement IT innovant et capable de supporter l’évolution vers un business mode de prestataire<br />

en solutions<br />

• Améliorer les processus commerciaux existants et exploiter la puissance des big data et de la maintenance<br />

prédictive pour devenir plus concurrentiel, plus proactifs et plus à l’écoute des clients<br />

• Tirer parti de la plate-forme SAP HANA® pour transformer et simplifier le paysage de solutions SAP<br />

IMPLÉMENTATION TECHNIQUE<br />

• Migration efficace de l’application SAP Customer Relationship Management (SAP CRM) à SAP HANA en 2,5<br />

mois – et avec un temps d’arrêt limité à 1,5 jour<br />

• Excellente collaboration avec SAP pendant toutes les phases du projet<br />

PLANS FUTURS<br />

• Déployer des fonctionnalités de maintenance prédictive (solution personnalisée basée sur SAP CRM et SAP<br />

HANA) pour améliorer le service client<br />

• Migrer toutes les applications de SAP Business Suite vers SAP HANA (dont SAP ERP, SAP Supply Chain Management<br />

et SAP Business Warehouse)<br />

• Déployer SAP CRM (avec SAP HANA) dans le cloud avec d’autres offres cloud telle que la plate-forme de<br />

logiciels sociaux SAP Jam en vue d’activer une stratégie de relation client (CRM) plus mobile et plus sociale<br />

SUCCÈS<br />

SAP CRM (avec SAP HANA) lancé en production sans aucune difficulté<br />

VITESSE<br />

Temps de réponse de la base de données x5 plus rapides<br />

SIMPLICITÉ<br />

Un environnement IT et des processus métier plus simples et plus agiles<br />

DURABILITÉ<br />

Socle pour la maintenance prédictive<br />

SAP - EBAY<br />

SYSTÈME DE DÉTECTION DE SIGNAUX PRÉCOCES GRÂCE À L’ANALYSE<br />

PRÉDICTIVE DE SAP HANA<br />

Société eBay | Siège social San Jose (Californie) | Secteur d’activité Services spécialisés | Produits et services<br />

Place de marché en ligne | Salariés 31.500 (2012) | Chiffre d’affaires 14,1 milliards $USD (2012)<br />

« SAP HANA met toute sa puissance au service de la connaissance. Pour l›utilisateur, il suffit de spécifier des<br />

indicateurs : il n›a pas à se préoccuper de la qualité des algorithmes, et il peut utiliser facilement le système parce<br />

que celui-ci est intelligent et configurable. »<br />

Gagandeep Bawa, responsable Analyse et planification financière (FP&A) pour l’Amérique du Nord chez eBay Inc.<br />

DÉFIS COMMERCIAUX<br />

• Améliorer la capacité de séparation des signaux et du « bruit » afin d’identifier les principaux changements subis<br />

par la place de marché d’eBay<br />

• Améliorer la prévisibilité et la fiabilité des prévisions portant sur l’économie virtuelle d’eBay<br />

• Améliorer la connaissance des écarts et de leurs causes<br />

DÉFIS TECHNIQUES<br />

• Difficulté à détecter les signaux critiques dans la masse de 100 péta-octets de données stockées dans le data<br />

warehouse principal d’eBay<br />

• Processus hautement manuel, exigeant l’intervention des analystes (impossibilité d’appliquer un modèle unique<br />

aux différents indicateurs)<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

90


Retours d’expériences Big Data en entreprise<br />

PRINCIPAUX AVANTAGES<br />

• Le système de détection automatique des signaux (alimenté par l’analyse prédictive SAP HANA) sélectionne le<br />

modèle le mieux adapté aux indicateurs de l’utilisateur – ce qui a pour effet d’augmenter la précision des prévisions<br />

• Un système fiable et évolutif génère un aperçu en temps réel qui permet aux analystes de se concentrer sur les<br />

tâches stratégiques<br />

• Une arborescence décisionnelle et la possibilité d’ajuster les scénarios permet à eBay d’adapter le meilleur<br />

modèle à ses différents types de données<br />

Détermine avec une précision de 100 % et avec une confiance de 97 % qu’un signal est positif Système de détection<br />

de signal automatique et précoce avec SAP HANA<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

91


Retours d’expériences Big Data en entreprise<br />

SAS - SANTIANE<br />

LE GROUPE SANTIANE CAPITALISE SUR SA CULTURE DE LA DONNÉE<br />

AVEC LA DATA VISUALISATION DE SAS<br />

Le premier courtier en ligne d’assurance-santé adopte SAS® Visual Analytics pour exploiter les grands volumes<br />

de données dont il dispose et ainsi optimiser ses ventes de contrats santé.<br />

Société de courtage d’assurance santé pour les particuliers et les entreprises, le Groupe Santiane est devenu en<br />

moins de 5 ans le premier courtier en ligne en France. Cette forte croissance a nécessité une structuration à la<br />

hauteur des ambitions de l’entreprise, avec notamment, le développement de ses équipes de direction. Pure player<br />

de l’assurance santé en ligne et empreint d’une forte culture numérique, Santiane a équipé ses nouvelles équipes<br />

dirigeantes (générale, financière, commerciale) de l’outil SAS Visual Analytics, pour guider leurs décisions en<br />

explorant les données sur PC et tablettes. “La grande force de SAS Visual Analytics, c’est son interopérabilité l’outil<br />

s’est branché naturellement à nos systèmes mais aussi aux données externes issues de Facebook et Google.”<br />

Alexandre Ginesty, Directeur des Systèmes d’Information<br />

EMBRASSER L’ENJEU DU BIG DATA<br />

« Grâce à la puissance de traitement et d›analyse de SAS Visual Analytics, nous puisons dans nos grands volumes<br />

de données des informations riches et parfois insoupçonnables sur notre portefeuille clients, explique Alexandre<br />

Ginesty, Directeur des Systèmes d›Information du Groupe Santiane. « Avec notre équipe d’actuaires, nous<br />

avons notamment pu découvrir de nouvelles variables explicatives sur le comportement de notre portefeuille, par<br />

exemple sur des éléments en tout début de la chaîne du contrat »<br />

Le domaine de l’assurance santé induit pour le Groupe Santiane une grande diversité des populations ciblées, et<br />

bien que très jeune, cette société dispose d’un historique de données très riche, stocké depuis 2007. En tant que<br />

premier courtier de santé sur Internet, le Groupe est d’autant plus armé pour embrasser l’enjeu du Big Data : des<br />

données complètes sur les parcours en ligne enrichies de celles issues de Google et Facebook, sur les nouvelles<br />

acquisitions de contrats et plus globalement la vie des contrats, sans oublier la chaîne de traitement commercial.<br />

SAS® VISUAL ANALYTICS RÉPOND À UN BESOIN CONSÉQUENT D’ACCÈS À LA DONNÉE<br />

La stratégie du Groupe Santiane s’est toujours appuyée sur les nouvelles technologies et le passage à la data<br />

visualisation éclaire aujourd’hui les managers et les rend plus autonomes. Sur iPad ou PC, les utilisateurs peuvent<br />

élaborer eux-mêmes leurs tableaux de bord et les partager en mode collaboratif. Ainsi, une dizaine de profils<br />

(sur un effectif total de 250 personnes) utilisent SAS Visual Analytics, essentiellement la Direction Générale. La<br />

Direction Financière et actuarielle, le Digital Marketing ainsi que les Directions Opérationnelles. Les délégués<br />

commerciaux de la filiale Néoliane Santé & Prévoyance profitent en particulier de la version tablette pour leurs<br />

déplacements sur le terrain.<br />

Des données qui jusque-là étaient inertes, sont aujourd’hui utilisées pour améliorer la construction des produits,<br />

à la fois dans une meilleure segmentation du risque pour les partenaires, et en adéquation avec les besoins des<br />

clients. Entièrement numérisé jusqu’à la signature en ligne des contrats d’assurance, le Groupe Santiane optimise<br />

aujourd’hui la vente de ses contrats santé grâce aux données et grâce à la data visualisation.<br />

« Nous souhaitions donner les moyens à nos directeurs d’explorer les données sans qu’ils aient nécessairement<br />

des compétences informatiques particulières, pour ainsi soulager notre R&D sur-sollicitée », ajoute Alexandre<br />

Ginesty. « La grande force de SAS Visual Analytics, c’est son interopérabilité ; l’outil s’est branché naturellement<br />

à nos systèmes mais aussi aux données externes issues de Facebook et Google. Nous avons choisi avec SAS<br />

l’outil de dataviz le plus abouti du marché, sa puissance de calcul in-memory nous permet aujourd’hui d’être plus<br />

créatifs grâce aux temps de réponse très rapides ».<br />

L’OFFRE QUICKSTART DE SAS : UNE MISE EN ŒUVRE RAPIDE DE LA SOLUTION<br />

Parmi les principaux points forts de SAS Visual Analytics, le Groupe Santiane a bénéficié d’un déploiement très<br />

rapide grâce à l’offre Quickstart de SAS, permettant d’accéder aux premiers tableaux de bord en un temps record.<br />

L’outil fait en outre gagner du temps en proposant un modèle de données préconçu.<br />

Pour la filiale Neoliane Santé & Prévoyance, courtier grossiste pour les professionnels, dont les forces commerciales<br />

ont vocation à développer le réseau de partenaires sur le terrain, les fonctionnalités de géolocalisation<br />

sont particulièrement intéressantes. L’outil leur donne une meilleure vision sur l’implémentation géographique des<br />

partenaires, et leur permet de suivre sur iPad leur activité dans une dimension collaborative.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

92


Retours d’expériences Big Data en entreprise<br />

SAS® VISUAL ANALYTICS : VITESSE, AGILITÉ ET MOBILITÉ<br />

SAS Visual Analytics, la solution phare de SAS dédiée au reporting agile, à l’exploration visuelle et à l’analyse des<br />

données, est disponible désormais sur des petits serveurs, ouvrant son utilisation aux entreprises de toutes tailles.<br />

Accédez partout et immédiatement à vos informations.<br />

Testez gratuitement SAS Visual Analytics en ligne avec des données correspondant à votre secteur d’activité.<br />

Vos données comme vous ne les avez jamais vues : qu’importent votre secteur d’activité, votre profil ou le volume<br />

de données à analyser, vous pouvez, avec SAS Visual Analytics, explorer toutes les données pertinentes rapidement<br />

et aisément. Rejoignez-nous sur nos évènements<br />

Lancée en 2012, SAS Visual Analytics a déjà été adoptée par plus de 2 600 entreprises dans le monde, dont plus<br />

de 100 en France.<br />

GROUPE SANTIANE<br />

Enjeux<br />

• Transformer rapidement de gigantesques quantités de données en informations stratégiques<br />

• Améliorer la construction des produits en adéquation avec les besoins des clients<br />

• Exploiter les données sans avoir de compétences informatiques particulières avec un modèle de données préconçu<br />

• La vente des contrats santé est optimisée grâce aux données et à la data visualisation<br />

• Sur iPad ou PC, les utilisateurs élaborent eux-mêmes leurs tableaux de bord et les partagent en mode collaboratif<br />

Les résultats présentés dans cet article sont spécifiques à des situations, problématiques métiers et données particulières,<br />

et aux environnements informatiques décrits. L’expérience de chaque client SAS est unique et dépend<br />

de variables commerciales et techniques propres, de ce fait les déclarations ci-dessus doivent être considérées<br />

dans un contexte. Les gains, résultats et performances peuvent varier selon les configurations et conditions de<br />

chaque client. SAS ne garantit ni ne déclare que chaque client obtiendra des résultats similaires. Les seules<br />

garanties relatives aux produits et services de SAS sont celles qui sont expressément stipulées dans les garanties<br />

contractuelles figurant dans l’accord écrit conclu avec SAS pour ces produits et services. Aucune information<br />

contenue dans le présent document ne peut être interprétée comme constituant une garantie supplémentaire. Les<br />

clients ont partagé leurs succès avec SAS dans le cadre d’un accord contractuel ou à la suite de la mise en œuvre<br />

réussie du progiciel SAS. Les noms de marques et de produits sont des marques déposées de leurs sociétés<br />

respectives.<br />

SAS - ELFE/INED<br />

ELFE/INED ÉTUDIE LE DÉVELOPPEMENT DE L’ENFANT<br />

À L’AIDE DE SAS® VISUAL ANALYTICS<br />

L’étude scientifique ELFE tire parti de la richesse fonctionnelle de SAS Visual Analytics pour dresser une image<br />

précise de la situation de l’enfance en France, à travers le regard de multiples chercheurs.<br />

SAS, leader mondial de la business analytics annonce que l’Institut national d’études démographiques (Ined) a retenu<br />

sa solution d’exploration et de visualisation des données SAS® Visual Analytics dans le cadre du programme<br />

ELFE. L’Ined, le plus important institut de recherche démographique au monde, étudie les populations de la France<br />

et des pays étrangers avec les outils du démographe et les apports des autres disciplines : histoire, géographie,<br />

sociologie, anthropologie, économie, biologie, épidémiologie. Ses chercheurs travaillent dans des domaines aussi<br />

divers que la contraception et l’avortement, les migrations, les populations en marge et l’allongement de la durée<br />

de vie. L’Ined emploie environ 200 personnes, dont 60 chercheurs titulaires, 110 techniciens ou ingénieurs, une<br />

vingtaine de doctorants, ainsi que des chercheurs associés.<br />

« Les fonctions analytiques proposées par SAS Visual Analytics sont particulièrement sophistiquées -exploration,<br />

constitution dynamique de rapports, croisements, etc.- et nous ouvrent de nouvelles perspectives. »<br />

Ando Rakotonirina, Directeur des systèmes d’information de l’unité de recherche ELFE de l’Ined<br />

ELFE : Etude Longitudinale Française depuis l’Enfance<br />

ELFE, l’un des programmes de recherche phares de l’Ined, vise à suivre, pendant 20 ans, 18 300 enfants nés<br />

en 2011, pour mieux comprendre comment les conditions périnatales et l’environnement dans ses différentes<br />

dimensions affectent le développement, la santé et la socialisation des enfants, de la période intra-utérine à<br />

l’adolescence. Le projet est pluridisciplinaire et se construit à partir des propositions de plus de 100 chercheurs<br />

associés. En tout, plus de 300 équipes de recherche – démographes, économistes, médecins, généticiens, spé-<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

93


Retours d’expériences Big Data en entreprise<br />

cialistes de l’environnement, épidémiologistes, etc. – participent à ce programme, soit au total 1500 personnes.<br />

« Ce programme, de très grande ampleur, doit prendre en compte une quantité dantesque de variables associées<br />

aux enfants : santé, sciences sociales, environnement, génétique, environnement familial, etc. Il repose sur des<br />

enquêtes menées chaque année et déclinées en quatre vagues (qui correspondent aux saisons). Les données<br />

issues de ces enquêtes sont stockées dans un système hautement sécurisé de base de données et décrivent la<br />

situation de l’enfant à travers des milliers de variables » témoigne Ando Rakotonirina, Directeur des systèmes<br />

d’information de l’unité de recherche ELFE de l’Ined. « Nous apportons un soin tout particulier aux contrôles qualité<br />

afin de garantir à nos chercheurs des données cohérentes. Si nous avons réalisé ces contrôles manuellement lors<br />

des premières enquêtes (maternité et 2 mois), nous avons souhaité industrialiser ce processus particulièrement<br />

chronophage. »<br />

Dans le passé, les réponses aux questionnaires étaient stockées dans une solution SAS déployée sur un poste<br />

autonome (non relié au réseau) et gérées par une personne chargée de réaliser des tests de cohérence et de<br />

travailler sur la « validité » des données avec des chercheurs affectés à cette étude en leur mettant à disposition<br />

des informations sous la forme d’extractions. Pour des raisons de confidentialité, les chercheurs ne peuvent pas<br />

accéder à l’intégralité des données de toutes les enquêtes, des extractions étaient donc nécessaires à chaque<br />

demande. Ces pré-études de données permettaient de faire des redressements ou corrections éventuelles. Pour<br />

obtenir une base propre pour une collecte contenant 5 200 variables pour 18 300 individus – pouvant être mise à<br />

disposition de chercheurs du monde entier – il fallait compter un an et demi.<br />

FLUIDIFIER CES ÉCHANGES, ACCÉLÉRER LA MISE À DISPOSITION DES DONNÉES<br />

« Les travaux de contrôle qualité nécessitant de multiples extractions étaient très fastidieux et la transmission<br />

des données était réalisée via des supports physiques. De nombreux échanges étaient nécessaires avec les<br />

chercheurs pour déterminer exactement quelles données ils souhaitaient recevoir » poursuit Ando Rakotonirina. «<br />

Nous cherchions une solution permettant de fluidifier ces échanges, d’accélérer la mise à disposition des données<br />

et de garantir le principe d›un dépôt unique réclamé par les autorités. Par ailleurs, la future loi sur la protection<br />

des données scientifiques va dans ce sens (limitation des extractions des données) pour préserver la maîtrise de<br />

propriété des données des chercheurs. Au vu des volumétries que nous traitons, cette solution devait en outre offrir<br />

une grande puissance de traitement. »<br />

Si, au départ, le Pôle SI de ELFE de l’Ined a privilégié des outils open source, il a pris conscience que ceux-ci ne<br />

répondaient qu’à une partie des objectifs. Une veille a été réalisée sur les outils de SAS et particulièrement SAS<br />

Visual Analytics (VA). Plusieurs maquettes ont été développées.<br />

« Nous avons finalement décidé non seulement d’adopter VA, mais également de nous affranchir des anciennes<br />

solutions sur postes autonomes pour basculer sur SAS Server, puisque nous avions la garantie d’éviter les extractions<br />

grâce au système de dépôts sécurisés combiné à une gestion personnalisée des accès. Les fonctions<br />

analytiques proposées par l’outil sont particulièrement sophistiquées (exploration, constitution dynamique de rapports,<br />

croisements, etc.) et nous ouvrent de nouvelles perspectives » explique Ando Rakotonirina. « Depuis la<br />

mise en œuvre de VA, le Pôle SI et l’administrateur de données ELFE ont pris en main la solution pour créer des<br />

rapports et des explorations de base qu’ils ont mis à disposition des chercheurs. Ceci dans un premier temps pour<br />

améliorer l’adhésion. Dans un deuxième temps, les chercheurs pourront choisir en toute autonomie les données<br />

sur lesquelles ils travaillent et la manière de les présenter. »<br />

SAS® VISUAL ANALYTICS, PIÈCE MAÎTRESSE DE L’INFRASTRUCTURE ANALYTIQUE<br />

DU PROGRAMME ELFE<br />

En quelques mois, SAS Visual Analytics est devenue une pièce maîtresse de l’infrastructure analytique du programme<br />

ELFE. Non seulement les multiples extractions ne sont plus nécessaires puisque chaque chercheur<br />

dispose de droits de consultation personnalisés et d’espaces de travail sécurisés, accessibles via un simple navigateur<br />

web, mais de plus, l’ensemble des modifications et des mises à jour sont tracées.<br />

Pour Ando Rakotonirina, le principal objectif du projet a été atteint : « La problématique de sécurité des données<br />

liée aux extractions a été résolue. Nous respectons les contraintes légales et réglementaires, ce qui est bien sûr<br />

capital. Mais parallèlement, nous avons gagné en efficacité en termes d’organisation des contrôles qualité : les<br />

données sont mises à disposition dans SAS VA ce qui évite les nombreux allers-retours entre nos services. Pour<br />

l’enquête «2 mois», 18 mois ont été nécessaires pour rendre nos données exploitables. Avec VA, ce délai va être<br />

réduit à 5 mois ! » se réjouit-il. « Parallèlement, VA nous offre une richesse fonctionnelle qui permet de nouvelles<br />

dimensions d’analyse. Par exemple : nos utilisateurs peuvent, de manière autonome, visualiser dynamiquement la<br />

répartition des enfants allaités dans chaque département sur une carte. Filtrer les données selon leurs envies et<br />

obtenir les résultats instantanément. ».<br />

Avec SAS, Elfe/Ined se déclare parfaitement équipée pour exploiter ses big data : « Les big data sont le carburant<br />

de la recherche moderne ! Elles sont en train de révolutionner notre profession : auparavant, chacun travaillait<br />

dans son coin et sur un mode vertical, les chercheurs partageaient difficilement leurs découvertes. Aujourd’hui,<br />

nous sommes en mesure d’enrichir nos analyses et de susciter la collaboration » conclut Ando Rakotonirina.<br />

ENJEUX<br />

• Prendre en compte une quantité dantesque de variables.<br />

• Fluidifier less échanges entre les chercheurs.<br />

• Accélérer la mise à disposition des données.<br />

• Garantir le principe d’un dépôt unique réclamé par les autorités.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

94


Retours d’expériences Big Data en entreprise<br />

SOLUTION<br />

• SAS Visual Analytics<br />

BÉNÉFICES<br />

• VA va réduire de 18 à 5 mois le délai nécessaire pour rendre les données exploitables<br />

• Les multiples extractions ne sont plus nécessaires (chaque chercheur dispose de droits de consultation personnalisés<br />

et d’espaces de travail sécurisés, accessibles via un simple navigateur web).<br />

• L’ensemble des modifications et des mises à jour sont tracées.<br />

• VA offre une richesse fonctionnelle qui permet de nouvelles dimensions d’analyse.<br />

• Visualisation dynamique de la répartition des données en toute autonomie.<br />

• Résultats obtenus instantanés.<br />

• Exploitation des big data pour enrichir les analyses et susciter la collaboration.<br />

SAS - UTAC-OTC<br />

UTAC-OTC : PREMIER TOUR DE PISTE AVEC SAS® VISUAL ANALYTICS<br />

POUR L’ORGANISME DE SUPERVISION DU CONTROLE TECHNIQUE<br />

Chaque année, plus de 20 millions de contrôles techniques (100 000 par jour environ) sont centralisés par<br />

l’Organisme Technique Central (OTC, groupe UTAC/CERAM).<br />

Pour mieux explorer et exploiter ces données, l’OTC s’est doté en 2013 de SAS® Visual Analytics. Retour sur une<br />

première année de mise en œuvre, avec les premiers résultats, les premiers enseignements, et les perspectives de<br />

développement. Mis en place en 1992 pour les véhicules légers, le contrôle technique automobile est aujourd’hui<br />

assuré par 6 000 installations de contrôle, la plupart appartenant à l’un des cinq grands réseaux opérant sur tout<br />

le territoire. Depuis l’origine, l’UTAC a été notifié par le ministère des Transports comme Organisme Technique<br />

Central pour recueillir, aujourd’hui en temps réel, les données issues de chaque contrôle. L’organisme surveille<br />

les opérateurs et délivre les agréments, s’assure de l’homogénéité des contrôles et tient à jour des informations<br />

sur l’état du parc automobile français pour adapter et faire évoluer les équipements et les méthodes de contrôle.<br />

Aujourd’hui, l’OTC dispose de plusieurs bases de données contenant l’ensemble des contrôles techniques depuis<br />

1992 – soit environ 400 millions de contrôles au total, avec quelque 450 variables relevées !<br />

INSTALLATION DE L’OUTIL : UNE FORMATION EXPRESS<br />

Déjà équipé d’outils SAS pour l’analyse des données, l’OTC a choisi en 2013 de se doter de SAS Visual Analytics.<br />

« Avec une telle volumétrie, il était impossible d’ignorer la data visualisation... au moins pour voir ! » explique<br />

Thierry Ageron, responsable Etudes & Productions Statistiques du groupe UTAC/CERAM. L’OTC a donc choisi de<br />

partir sur une configuration minimale (un serveur de 16 cœurs avec 100 Go de données lues sur disque et 50 Go<br />

de données en mémoire) pour tester l’exploration de données et les possibilités de l’outil en matière d’édition de<br />

rapports. Une base de données de 42 Go contenant tous les contrôles effectués depuis 2008 (soit 43 colonnes et<br />

148 millions de lignes), a ainsi été chargée « in memory ».<br />

La mise en place de SAS Visual Analytics s’est réalisée en quatre jours : deux jours pour l’installation du produit,<br />

puis deux jours de formation et de prise en main pour les quatre statisticiens chargés d’explorer l’outil. Travailler<br />

en amont avec les consultants SAS pour assurer le transfert de compétences constituait pour Thierry Ageron un<br />

investissement humain essentiel : « on imagine souvent qu’on peut en faire l’économie, on se dit que ‘ça va passer’...<br />

mais prendre le temps au départ n’est pas un luxe inutile : c’est un vrai facteur de succès ! ».<br />

ANALYSE EXPLORATOIRE : TRAVAILLER PLUS VITE SUR DE MEILLEURES DONNÉES<br />

La première étude menée avec « VA » a concerné les temps de contrôle. Avec d’emblée, un atout important : la<br />

détection très facile des données atypiques (des contrôles inférieurs à 5 minutes, par exemple... voire des durées<br />

négatives en cas de mauvaise saisie des données), et la possibilité de les éliminer in-memory pour travailler plus<br />

vite sur une base statistiquement plus fiable. « Nous n’avions pas cette souplesse auparavant ! » note Thierry<br />

Ageron, qui rappelle qu’outre les études statistiques, les cas les plus étonnants peuvent être transmis aux services<br />

dépendant du ministère des transports, qui peuvent ainsi « contrôler les contrôleurs ».<br />

Des premières analyses ont ainsi été réalisées pour comparer les durées moyennes selon les réseaux, l’installation<br />

de contrôle, le jour de la semaine - ou selon les mois de l’année, avec des changements qui apparaissent clairement<br />

lors des deux mois d’été... Le bilan ? « SAS Visual Analytics permet de bien voir les tendances générales,<br />

avec la possibilité de zoomer sur une situation qui semble atypique, et de retourner en un clic à la donnée de base<br />

pour l’examiner. Ce qui nous prenait beaucoup de temps avant se fait ici très facilement ». Un mode d’exploration<br />

idéal pour échanger sur nos hypothèses lorsque l’on explore les données à plusieurs.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

95


Retours d’expériences Big Data en entreprise<br />

RAPPORTS : FACILITÉ D’EXPORT ET DIFFUSION MOBILE<br />

L’échange, c’est ce que permet aussi Visual Analytics avec l’édition de rapports dynamiques, qui peuvent être<br />

diffusés sur tablette auprès des « clients » de l’OTC : ministère des transports et directions régionales, réseaux<br />

d’opérateurs, gendarmerie, douanes... Thierry Ageron salue la facilité d’export, reste à voir si la diffusion mobile<br />

entrera dans la culture de ses interlocuteurs. Jusqu’ici, son équipe en est restée à des premiers tests – pour<br />

comparer deux centres sur un mois donné, par exemple. « Nous avons déjà plusieurs centaines de rapports sous<br />

format pdf, explique-t-il. Certains donnent pleine satisfaction à nos clients, il nous faut encore réfléchir avant de<br />

passer au tout-VA. »<br />

Le moment est venu en effet pour l’organisme d’étudier l’opportunité d’intégrer plus avant Visual Analytics dans<br />

les processus de production et de restitution des informations. Restera-t-il un outil parmi d’autres dans l’arsenal<br />

de l’OTC, ou peut-il à terme remplacer le portail décisionnel actuel ? Une décision à la fois technique, financière<br />

et culturelle, qui tiendra aussi compte de l’apparition récente du « petit frère » de VA, SAS® Visual Statistics...<br />

DES PERSPECTIVES MULTIPLES<br />

En attendant, une autre utilisation de la data visualisation est déjà envisagée, pour étudier les retards de présentation<br />

des véhicules au contrôle technique. « Pendant longtemps, nous n’avons pu réaliser ces analyses que sur des<br />

échantillons, et travailler sur la base en frontal était gênant. Aujourd’hui, nous pouvons travailler sur l’exhaustivité<br />

des données grâce à un ODS dédié. Reste à tester l’analyse avec SAS Visual Analytics, pour voir ce que pourra<br />

apporter la souplesse de l’outil. »<br />

Parmi les perspectives se profile aussi l’intégration de données non structurées – en reliant par exemple les informations<br />

du contrôle technique avec des données d’accidentologie venues de l’extérieur. Mais la route est encore<br />

longue !<br />

ENJEUX<br />

- Optimiser l’accès à la donnée<br />

- Améliorer la recherche de données atypiques<br />

- Produire des statistiques pertinentes et les mettre rapidement à disposition des clients<br />

SOLUTIONS<br />

- SAS® Visual Analytics<br />

« SAS Visual Analytics permet de bien voir les tendances générales, avec la possibilité de retourner en un clic à<br />

la donnée de base pour l›examiner »<br />

Thierry Ageron, responsable Etudes & Productions Statistiques du groupe UTAC/CERAM<br />

SAS - BANK OF AMERICA<br />

BANK OF AMERICA AVOIDS GRIDLOCK IN CREDIT<br />

RISK SCORING, FORECASTING<br />

Modeling portfolio credit risk is a fundamental function in banking today. Loan products, such as lines of credit,<br />

mortgages and credit cards, entail a high degree of risk for banks, and on a large scale, especially in turbulent<br />

economic periods -- defaults produce difficult situations and huge implications for both the lender and the borrower.<br />

Banks regularly employ credit-risk management processes to monitor and assess credit portfolios, to make certain<br />

estimates, and to understand their risk position and value of assets at any given time. In today’s complex and everchanging<br />

financial system, powerful, rigorous and accurate credit-risk management processes and technology<br />

play a critical role in mitigating a lending institution’s exposure.<br />

“ Without SAS, processing times would be longer, hedging decisions would be delayed and, ultimately, the bank<br />

would be behind the market.”<br />

Russell Condrich, Senior Vice President, Corporate Investment Group<br />

With approximately 59 million consumer and small business relationships, 6,000 retail banking offices and more<br />

than 18,000 ATMs, Bank of America is among the world’s leading wealth management companies and is a global<br />

leader in corporate and investment banking and trading across a broad range of asset classes.<br />

The Corporate Investments Group (CIG) manages Bank of America’s available-for-sale portfolio and is responsible<br />

for modeling and calculating the probability of default (PD) on the 9.5 million mortgages it services. In addition,<br />

the group calculates the market value, prepayment speeds and sensitivity to changes in interest rates and hedges<br />

these risks for the $19 billion mortgage-service-rights asset. Recently, CIG began assisting with the task of forecasting<br />

loan losses for the bank’s credit card portfolio.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

96


Retours d’expériences Big Data en entreprise<br />

THE NEED FOR SPEED<br />

CIG had been using analytics from SAS for credit-risk modeling for many years, but with the addition of the creditcard<br />

loss forecasting responsibility, it was forced to reassess its use of an internal shared-services environment<br />

to run its modeling and calculation processes. Doing so would help reduce processing time, increase access and<br />

availability of resources for ad hoc analysis, while ensuring business continuity for this mission-critical function of<br />

the bank’s business.<br />

“We needed a solution that addressed today’s business problems, as well as a solution with the flexibility for any<br />

future business requirements,” says Russell Condrich, Senior Vice President, Corporate Investment Group. “Processing<br />

large, multi-terabyte datasets in a quick, efficient manner was a key requirement for us and SAS performed<br />

flawlessly. Without SAS, processing times would be longer, hedging decisions would be delayed and, ultimately,<br />

the bank would be behind the market.”<br />

SAS AND IBM SHOW RESULTS<br />

To meet its performance requirements, the group moved its processing to a dedicated platform comprised of SAS®<br />

Enterprise Risk Management on SAS® Grid Computing, SAS® Scalable Performance Data Server on a 224 core<br />

IBM BladeCenter® grid and the IBM’s XIV® Storage System. The initiative has already produced considerable<br />

results, such as reducing the bank’s probability of default calculation time from 96 hours to just four. Processing<br />

time for ad hoc jobs has been reduced by 90 percent and, according to the CIG, they are processing at three times<br />

the speed of the previous environment.<br />

The platform pulls data from eight systems of record (SOR), amounting to hundreds of millions of records, or 30<br />

terabytes of source data, and allows the SAS environment to consume 3.9 gigabytes of I/O throughput per second<br />

from IBM’s XIV storage environment. Approximately 30 users now have unfettered access to the environment, as<br />

opposed to the shared services environment of the past, in which user time was competitive and response times<br />

varied dramatically due to the high number of jobs being executed.<br />

‘UNPARALLELED’ PERFORMANCE<br />

“We now have an environment that provides users with a robust platform on which to schedule and prioritize jobs,<br />

based on duration or computational requirements, so that ad hoc usage is not competing with scheduled work,”<br />

says Stephen Lange, Managing Director, Corporate Investments Group. “This advanced grid platform is giving us<br />

unparalleled performance. SAS is indispensable for its unique way of handling large data sets.”<br />

As an example, Lange adds, “we have to score a particular portfolio of 400,000 loans with our suite of models,<br />

using multiple scenarios, and we need to run it over the 360 months of the mortgages’ life. That process used to<br />

take three hours, now it takes 10 minutes because of the parallelization capabilities of the grid. The ability to go<br />

from three hours to 10 minutes on a job demonstrates a tremendous increase in our ability to deliver information<br />

and make decisions.”<br />

“The bank has a strong desire to enable loss forecasting as accurately and quickly as possible, right up to the<br />

senior executive layers of the organization,” says Lange. “The only way we can do that is to have sufficient IT<br />

resources to score loans and appropriately assess risks. The partnership between SAS, IBM and our internal technology<br />

group has provided a platform for us to demonstrate risk management leadership.”<br />

CHALLENGE<br />

• Reduce processing time for credit-risk modeling, scoring and loss forecasting.<br />

• Increase ad hoc analysis time while ensuring business continuity and guaranteed “up-time” for these missioncritical<br />

functions.<br />

SOLUTION<br />

• SAS® Enterprise Risk Management<br />

• SAS® Grid Manager<br />

• SAS® Scalable Performance Data Server®<br />

BENEFITS<br />

• Reduced probability of loan default calculation time from 96 hours to just four.<br />

• Yields timely decisions around defaults.<br />

• Reduced its scoring routine of 400,000 loans from three hours to 10 minutes.<br />

• Helps minimize losses and can handle new growth opportunities for bank’s loan portfolio.<br />

• Reduced processing time by 90%.<br />

The results illustrated in this article are specific to the particular situations, business models, data input, and<br />

computing environments described herein. Each SAS customer’s experience is unique based on business and<br />

technical variables and all statements must be considered non-typical. Actual savings, results, and performance<br />

characteristics will vary depending on individual customer configurations and conditions. SAS does not guarantee<br />

or represent that every customer will achieve similar results. The only warranties for SAS products and services are<br />

those that are set forth in the express warranty statements in the written agreement for such products and services.<br />

Nothing herein should be construed as constituting an additional warranty. Customers have shared their successes<br />

with SAS as part of an agreed-upon contractual exchange or project success summarization following a successful<br />

implementation of SAS software. Brand and product names are trademarks of their respective companies.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

97


Retours d’expériences Big Data en entreprise<br />

SAS - FRAPORT<br />

PLOT A COURSE TO REDUCE COSTS<br />

FRAPORT USES SAS® VISUAL ANALYTICS TO MAKE REAL-TIME OPERATIONAL DECISIONS<br />

Frankfurt Airport in Germany flies more than 57 million passengers and 2 million metric tons of freight to 113<br />

countries each year – making it Europe’s third-busiest airport, behind only London Heathrow and Paris-Charles de<br />

Gaulle. It’s up to transport company Fraport AG to make sure that airport operations can handle so much traffic.<br />

“ In addition to the extra speed, we’re also looking forward to new opportunities for data exploration and visualization<br />

with SAS Visual Analytics.”<br />

Dieter Steinmann, Manager of Information and Communication Services for Business Systems<br />

Using SAS® High-Performance Analytics and SAS Visual Analytics, Fraport is reducing the cost of operations and<br />

boosting the performance of decision-support processes.<br />

“We need to analyze massive quantities of data in real time,” explains Dieter Steinmann, Fraport’s Senior Manager<br />

of Information and Communication Services. “High-performance analytics is the perfect solution for us. In addition<br />

to the extra speed, we’re also looking forward to new opportunities for data exploration and visualization with SAS<br />

Visual Analytics.”<br />

Migrating from the tried and tested SAS Business Analytics platform to SAS High-Performance Analytics, Fraport<br />

sets a course toward the most advanced approach to data analysis. Fraport also opted for SAS Visual Analytics,<br />

which allows users to analyze data quickly and intuitively using a graphical interface.<br />

Fraport implemented SAS Visual Analytics on a Pivotal DCA (formerly EMC Greenplum DCA), which was optimized<br />

with SAS for big data analytics.<br />

“With its decision in favor of big data analytics, Fraport AG is creating a huge competitive advantage for itself. We<br />

are very pleased that, together with SAS, we can provide the technology basis for this,” declares Sabine Bendiek,<br />

CEO of EMC Germany.<br />

CHALLENGE<br />

Fraport required a solution to reduce operation costs and improve analysis of big data.<br />

SOLUTION<br />

• SAS® High-Performance Analytics<br />

• SAS® Visual Analytics<br />

BENEFITS<br />

The airport saves both time and costs by analyzing data efficiently.<br />

The results illustrated in this article are specific to the particular situations, business models, data input, and<br />

computing environments described herein. Each SAS customer’s experience is unique based on business and<br />

technical variables and all statements must be considered non-typical. Actual savings, results, and performance<br />

characteristics will vary depending on individual customer configurations and conditions. SAS does not guarantee<br />

or represent that every customer will achieve similar results. The only warranties for SAS products and services are<br />

those that are set forth in the express warranty statements in the written agreement for such products and services.<br />

Nothing herein should be construed as constituting an additional warranty. Customers have shared their successes<br />

with SAS as part of an agreed-upon contractual exchange or project success summarization following a successful<br />

implementation of SAS software. Brand and product names are trademarks of their respective companies.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

98


Retours d’expériences Big Data en entreprise<br />

SAS - MACY’S<br />

DO YOU KNOW WHAT’S ‘IN STORE’ FOR YOUR CUSTOMERS?<br />

MACY’S ENHANCES ITS CUSTOMERS’ ONLINE SHOPPING EXPERIENCE, INCREASES<br />

OVERALL PROFITABILITY<br />

After more than 80 years in business, Macy’s Inc. is one of America’s most iconic retailers. With annual revenues<br />

exceeding $20 billion, Macy’s enjoys a loyal base of customers who come to its stores and shop online each<br />

day. To continue its legacy of providing stellar customer service and the right selection of products, the retailer’s<br />

e-commerce division – Macys.com – is using analytical software from SAS to better understand and enhance its<br />

customers’ online shopping experience, while helping to increase the retailer’s overall profitability.<br />

To more effectively measure and understand the impact of its online marketing initiatives on Macy’s store sales,<br />

Macys.com increased its analytical capabilities with SAS® Enterprise Miner, resulting in an e-mail subscription<br />

churn reduction of 20 percent. It also uses SAS to automate report generation, saving more than $500,000 a year<br />

in comp analyst time.<br />

“... they can look at data and spend more time analyzing it and become internal consultants who provide more of<br />

the insight behind the data.”`<br />

Kerem Tomak, Vice President of Analytics<br />

ENDING “ONE SIZE FITS ALL” EMAIL MARKETING<br />

“We want to understand customer lifetime value,” explains Kerem Tomak, Vice President of Analytics for Macys.<br />

com. “We want to understand how long our customers have been with us, how often an email from us triggers a<br />

visit to our site. This helps us better understand who our best customers are and how engaged they are with us.<br />

(With that knowledge) we can give our valuable customers the right promotions in order to serve them the best<br />

way possible.<br />

“Customers share a lot of information with us – their likes and dislikes – and our task is to support them in return<br />

for their loyalty by providing them with what they want, instantly,’’ adds Tomak. Macys.com uses Hadoop as a data<br />

platform for SAS Enterprise Miner.<br />

Initially, Tomak was worried that segmenting customers and sending fewer, but more specific emails would reduce<br />

traffic to the website. “The general belief was that we had to blast everyone,’’ Tomak said. Today, emails are sent less<br />

frequently, but with more thought, and the retailer has reduced subscription churn rate by approximately 20 percent.<br />

TIME SAVINGS, LOWER COSTS<br />

Tomak’s group is responsible for creating a variety of mission critical reports – some daily, some weekly, others<br />

monthly – that go to employees in marketing and finance. These data-rich reports were taking analysts four to<br />

twelve hours to produce – much of it busy work that involved cutting and pasting from Excel spreadsheets. Macys.<br />

com is now using SAS to automate the reports. “This cuts the time dramatically. It saves us more than $500,000<br />

a year in terms of comp FTE hours saved – a really big impact,’’ Tomak says, noting that the savings began within<br />

about three months of installing SAS.<br />

Now his staff can maximize time spent on providing value-added analyses and insights to provide content, products<br />

and offers that guarantee a personalized shopping experience for Macys.com customers.<br />

“Macy’s is a very information-hungry organization, and requests for ad hoc reports come from all over the company.<br />

These streamlined systems eliminate error, guarantee accuracy and increase the speed with which we can address<br />

requests,’’ Tomak says. “Each time we use the software, we find new ways of doing things, and we are more<br />

and more impressed by the speed at which it churns out data and models.”<br />

MOVING FORWARD<br />

“With the extra time, the team has moved from being reactionary to proactive, meaning they can examine more<br />

data, spend quality time analyzing and become internal consultants who provide more insight behind the data,” he<br />

says. “This will be important to supporting the strategy and driving the next generation of Macy’s.com.”<br />

As competition increases in the online retailing world, Tomak says there is a push toward generating more accurate,<br />

real-time decisions about customer preferences. The ability to gain customer insight across channels is a critical<br />

part of improving customer satisfaction and revenues, and Macys.com uses SAS Enterprise Miner to validate<br />

and guide the site’s cross- and up-sell offer algorithms.<br />

Tomak is also training staff on SAS/OR®, business process optimization software, to further optimize the promotions<br />

that the company sends to clients. “We want to maximize the efficiency in sending these promotions to the<br />

right customer at the right time.’’<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

99


Retours d’expériences Big Data en entreprise<br />

CHALLENGE<br />

Macys.com needed enhanced customer insight, online and across channels, to effectively measure and understand<br />

the impact of its online marketing initiatives on Macy’s store sales.<br />

SOLUTION<br />

• SAS® Enterprise Guide®<br />

• SAS® Enterprise Miner<br />

• SAS/OR® Software<br />

BENEFITS<br />

Increased customer insights; cross-sell and up-sell effectiveness; productivity, revenue and customer satisfaction,<br />

an approx.20 percent reduction in churn rate and more than $500,000 savings in productivity annually in terms of<br />

FTE time saved.<br />

SAS® and Cloudera for big data<br />

“We chose Cloudera’s Platform for Big Data for its unparalleled Hadoop management and SAS Analytics<br />

for deep insight into our data. These combined technologies make our customer interactions<br />

more aligned to their preferences, which leads to improved satisfaction. Ultimately, working<br />

with these two industry leaders allows my team and me to have more time to focus on more strategic<br />

initiatives through automated processes instead of manually collating reports for our business stakeholders.”<br />

Kerem Tomak, Vice President of Analytics, Macys.com<br />

The results illustrated in this article are specific to the particular situations, business models, data input, and<br />

computing environments described herein. Each SAS customer’s experience is unique based on business and<br />

technical variables and all statements must be considered non-typical. Actual savings, results, and performance<br />

characteristics will vary depending on individual customer configurations and conditions. SAS does not guarantee<br />

or represent that every customer will achieve similar results. The only warranties for SAS products and services are<br />

those that are set forth in the express warranty statements in the written agreement for such products and services.<br />

Nothing herein should be construed as constituting an additional warranty. Customers have shared their successes<br />

with SAS as part of an agreed-upon contractual exchange or project success summarization following a successful<br />

implementation of SAS software. Brand and product names are trademarks of their respective companies.<br />

SAS - NESTLÉ<br />

HOW TO KEEP FRESH PRODUCTS ON THE SHELVES<br />

ACCURATE FORECASTING OPTIMIZES CUSTOMER SERVICE, MINIMIZES INVENTORY<br />

OVERSTOCKS AND LAYS THE GROUNDWORK FOR EFFECTIVE MARKETING AT NESTLÉ<br />

A billion units roll off Nestlé production lines every single day. This number illustrates the sheer quantity of goods<br />

produced by the world’s biggest food company. To deliver on its promise of “Good Food, Good Life,” Nestlé has<br />

brought to market a whopping 10,000 products aimed at improving consumers’ lives with better and healthier foods<br />

and beverages.<br />

To ensure the right amounts of those products make it to the shelves and into customers’ hands, Nestlé relies on<br />

forecasting. After all, even the best marketing promotions can backfire if the shelves are empty when the customers<br />

show up for their favorite foods.<br />

It comes as no surprise that Nestlé’s interest in closely managing the supply chain and keeping inventories within<br />

tight limits is proportionate with the size of its operations. Its sheer size makes planning on a global scale highly<br />

complex. Product categories, sales regions and an abundance of participating departments combine to weave a<br />

tangled web.<br />

It’s also the nature of the food and beverage industry that makes operational planning a challenge. Seasonal influences,<br />

being dependent on the weather to provide a good harvest, swings in demand, other retail trends and the<br />

perishable nature of many products make it difficult to plan production and organize logistics.<br />

“ We’re now able to drill down through customer hierarchies and do things such as integrate the impact of promotions<br />

and special offers into the statistical models.”<br />

Marcel Baumgartner, Head of Global Demand Planning Performance and Statistical Forecasting<br />

TIED DOWN BY CONFLICTING KPIS<br />

“Supply chain management is a well-established, recognized stream and process at Nestlé,” explains Marcel<br />

Baumgartner, who leads global demand planning performance and statistical forecasting at Nestlé’s corporate<br />

headquarters. “Our professionals take care of transportation networks, run efficient warehouses and are the first<br />

point of contact with customers. One area of focus is planning – or, more precisely, demand and supply planning.<br />

According to Baumgartner, this process tackles two important metrics: customer service levels and inventory levels.<br />

One can improve customer service levels – defined as the percentage of complete and on-time deliveries – by<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

100


Retours d’expériences Big Data en entreprise<br />

expanding inventories. But that ties up capital, and it’s often difficult to find storage space. The freshness of the<br />

product suffers as well.<br />

In this industry, products are processed in very large batches to keep unit prices low, ensure quality and take<br />

advantage of raw ingredient availability. This make-to-stock production strategy contrasts with the make-to-order<br />

principle frequently seen in other sectors such as the automobile industry. “To have the right quantity of the right<br />

products at the right place and time, we rely heavily on being able to predict the orders our customers will place as<br />

precisely as possible,” says Baumgartner.<br />

Other business metrics, such as budgets and sales targets, are also important factors. The overarching goal, according<br />

to Baumgartner, is to be able to “take proactive measures instead of simply reacting.” To accomplish this,<br />

Nestlé focuses on strong alignment processes, stronger collaboration with customers and the use of the proper<br />

forecasting methodology.<br />

STATISTICS VS. INSTINCTS<br />

There are two main options for generating forecasts. The subjective method is mainly dependent upon on the<br />

estimation and appraisal of planners based on the experience they draw upon. The statistical method approaches<br />

the forecasting problem with data.<br />

Before using SAS, Nestlé was primarily using SAP APO’s underlying forecasting techniques, together with models<br />

from the open-source statistical software R, integrated into APO. Those forecasts were then revised by the Nestlé<br />

demand planners. SAS enhances this, and thus complements SAP APO perfectly.<br />

Statistical forecasting tends to be more reliable if sufficient historical data is available. “But one thing has become<br />

clear to us — you can’t predict the future with statistics by simply looking at the past. It doesn’t matter how complex<br />

your models are.”<br />

So it’s not the statistical methodology that’s the problem for Baumgartner and his team. The critical factor in this<br />

complex environment is being able to assess the reliability of forecasts. Two elements have attracted the most attention<br />

within this context: dealing with volatility, and SAS.<br />

“Predictability of demand for a certain product is highly dependent on that product’s demand volatility,” says Baumgartner.<br />

“Especially for products that display wide fluctuations in demand, the choice and combination of methods<br />

is very important. SAS Forecast Server simplifies this task tremendously.<br />

Of particular importance for demand planning are the so-called “mad bulls,” a term Nestlé uses to characterize<br />

highly volatile products with high volume. A mad bull can be a product like Nescafé, which normally sells quite<br />

regularly throughout the year, but whose volumes are pushed through trade promotions. A simple statistical calculation<br />

is no more useful in generating a demand forecast than the experience of a demand planner for these less<br />

predictable items. The only way out is to explain the volatility in the past by annotating the history. Baumgartner and<br />

his team rely on the forecast value added (FVA) methodology as their indicator . The FVA describes the degree to<br />

which a step in the forecasting process reduces or increases the forecast error.<br />

MORE KNOWLEDGE, LESS GUESSING<br />

According to Baumgartner, SAS® Forecast Server is the ideal tool for this scenario. The solution’s scalability allows<br />

a handful of specialists to cover large geographical regions. And selecting the appropriate statistical models is<br />

largely automated, which is seen as one of the strongest features of SAS Forecast Server. “At the same time, we’re<br />

now able to drill down through customer hierarchies and do things such as integrate the impact of promotions and<br />

special offers into the statistical models.”<br />

The results paint a clear picture. In a comparison between the conventional forecasting method and SAS Forecast<br />

Server procedures – for the most part using default settings – the results showed that Nestlé often matches and<br />

improves its current performance for the predictable part of the portfolio and thus frees up valuable time for demand<br />

planners to focus on mad bulls.<br />

Last but not least, Nestlé emphasizes that even a system as sophisticated as SAS Forecast Server cannot replace<br />

professional demand planners. “Particularly for mad bulls, being connected in the business, with high credibility,<br />

experience and knowledge is key.” With more time available to tackle the complicated products, planners are able<br />

to make more successful production decisions. And that means really having enough Nestlé ice cream at the<br />

beach when those hot summer days finally arrive. .<br />

CHALLENGE<br />

Ensure the right amounts of products make it to the shelves and into customers’ hands. Manage supply chain, plan<br />

operations and organize logistics on a global scale based on a variety of influences and factors.<br />

SOLUTION<br />

SAS® Demand-Driven Planning and Optimization<br />

BENEFITS<br />

Reliable forecast methods free up time to focus on demand planning for highly volatile products. More successful<br />

production decisions ensure products are available when customers want them.<br />

About<br />

Nestlé<br />

Nestlé is the world’s biggest food company. More than 330,000 employees work at 469 locations in 86 countries to<br />

generate annual revenues of more than 90 billion Swiss francs. These sales figures make Nestlé the global market<br />

leader by a large margin.<br />

The results illustrated in this article are specific to the particular situations, business models, data input, and<br />

computing environments described herein. Each SAS customer’s experience is unique based on business and<br />

technical variables and all statements must be considered non-typical. Actual savings, results, and performance<br />

characteristics will vary depending on individual customer configurations and conditions. SAS does not guarantee<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

101


Retours d’expériences Big Data en entreprise<br />

or represent that every customer will achieve similar results. The only warranties for SAS products and services are<br />

those that are set forth in the express warranty statements in the written agreement for such products and services.<br />

Nothing herein should be construed as constituting an additional warranty. Customers have shared their successes<br />

with SAS as part of an agreed-upon contractual exchange or project success summarization following a successful<br />

implementation of SAS software. Brand and product names are trademarks of their respective companies.<br />

SAS - RABOBANK<br />

HOW DOES YOUR DATA FIT TOGETHER?<br />

As Manager Concern Controller at Rabobank, John Lambrechts was assigned to implement chain management to<br />

improve the bank’s ability to quickly gain insights from information coming from its chains or groups and improve<br />

decision making. The Rabobank Group, a leading global financial services provider serving more than 10 million<br />

customers and headquartered in The Netherlands, wanted to optimize its operations by improving the financial and<br />

collaborative alignment across its chains.<br />

“ We are much more flexible in our ability to provide information and direct our chain managers more effectively.<br />

Our people have become more engaged because they can quickly see the results of what they do. ”<br />

John Lambrechts, Manager Concern Control<br />

Lambrechts explains, “The first step we took to properly set this up, was to look at the data available and to determine<br />

how this could be viewed. We discovered that there was an enormous amount of data available from all<br />

groups of the bank’s organizational chain such as departments, business units and local branches. We needed one<br />

system to integrate and structure all the information efficiently and provide the ability to share results.”<br />

NEW INSIGHTS<br />

Lambrechts found data visualization to be the perfect match.<br />

“Data visualization lets us analyze large amounts of data. The diverse visual options lead us to ask new questions<br />

that we had not asked before,” said Lambrechts. “We are much more flexible in our ability to provide information<br />

and direct our chain managers more effectively. Our people have become more engaged because they can quickly<br />

see the results of what they do.”<br />

Rabobank developed new cost and chain models with partner Finext and implemented SAS Visual Analytics. “The<br />

bank also created a new data scientist job function for banking chain specialists. These specialists can probe the<br />

data more extensively, evaluate cost backgrounds, and establish relationships and causes.”<br />

Because of the resulting transparency, Rabobank can see exactly who does what within the chain and which areas<br />

must be tightened to optimize the profit of the chain. And although the solution is scalable to the number of users,<br />

the banking group is using it in a strictly controlled environment to standardize how information is provided to chain<br />

managers and organizational leaders.<br />

POSITIVE OUTCOMES<br />

“I am extremely proud of what we have achieved so far. We have seen an increase in our managers’ use of chain<br />

information,” says Lambrechts.<br />

“Another important outcome has been the removal of boundaries between the chains and the motivation to develop<br />

new thought processes. In the past, for example, departments would look within to find cost savings. But this type of<br />

siloed action was sub-optimal and not always in the organization’s best interests. With the knowledge and access to<br />

all chain information, we are able to let go of old business models and replace them with more dynamic ones.”<br />

CHALLENGE<br />

Improving how information is retrieved and shared from all groups within Rabobank’s organizational chains to<br />

optimize operations and make faster decisions.<br />

SOLUTION<br />

SAS® Visual Analytics<br />

BENEFITS<br />

• A centralized view of information about the bank’s organizational chains for improved financial and collaborative<br />

alignment.<br />

• A dynamic organization where the boundaries between departments and business components are removed and<br />

chain information is embraced by decision makers.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

102


Retours d’expériences Big Data en entreprise<br />

The results illustrated in this article are specific to the particular situations, business models, data input, and<br />

computing environments described herein. Each SAS customer’s experience is unique based on business and<br />

technical variables and all statements must be considered non-typical. Actual savings, results, and performance<br />

characteristics will vary depending on individual customer configurations and conditions. SAS does not guarantee<br />

or represent that every customer will achieve similar results. The only warranties for SAS products and services are<br />

those that are set forth in the express warranty statements in the written agreement for such products and services.<br />

Nothing herein should be construed as constituting an additional warranty. Customers have shared their successes<br />

with SAS as part of an agreed-upon contractual exchange or project success summarization following a successful<br />

implementation of SAS software. Brand and product names are trademarks of their respective companies.<br />

SAS - TELECOM ITALIA<br />

VISUALIZING DATA MAKES HEARING IT MUCH EASIER<br />

To operate in the crowded telecommunications industry, service providers must answer the call for speed and availability<br />

millions of times each day. To prosper, they have to pick up the phone before it ever rings.<br />

As Italy’s largest telecommunications provider, and with a notable presence in Latin America, Telecom Italia always<br />

looks for ways to improve customer experience. That means delivering the reliable service that subscribers expect<br />

today – and knowing which offers they will expect tomorrow.<br />

“ We’re very impressed in terms of the usability and flexibility – and time to market, too – of SAS Visual Analytics. ”<br />

Fabrizio Bellezza, Vice President of National Wholesale Services and Head of Market Development<br />

LISTEN TO THE DATA<br />

As part of a program to improve customer experience for its 32 million mobile subscribers, the company had to<br />

extend and reinforce its ability to monitor network service. To make sense of the enormous amount of unique and<br />

varied data at its disposal, Telecom Italia turned to SAS for a way to make wise decisions quickly based on up-tothe-minute<br />

trends.<br />

“We need to be able to respond quickly with new and improved offerings to our customers, and to analyze the<br />

impact of these offers for the foreseeable future,” says Fabrizio Bellezza, Vice President of National Wholesale<br />

Services and Head of Market Development at Telecom Italia. “Analysis that is valuable and makes sense today<br />

may be irrelevant tomorrow. And we need to see well beyond tomorrow.”<br />

To understand how it stacks up to the competition, Telecom Italia needed to define and analyze key performance<br />

indicators for mobile network voice and data traffic. In a fast-changing market filled with devices and applications<br />

running on different generations of technology, what’s relevant today might not be tomorrow. And beating the competition<br />

means always knowing the right offer for each customer at the right time.<br />

THE SOLUTION<br />

With SAS® Visual Analytics, business executives at Telecom Italia can compare the performance between all<br />

operators for a key indicator – such as accessibility or percentage of dropped calls – on a single screen for a quick<br />

overview of pertinent strengths and weaknesses.<br />

Using SAS, Telecom Italia adds in-memory analytics and advanced data visualization to the provider’s geomarketing<br />

system, simplifying the decision-support and operational processes that go into technical and commercial<br />

planning. “SAS Visual Analytics supports us in identifying network shortcomings and making fast improvements,”<br />

Bellezza says. “It also allows us to calculate the statistical correlations between various KPIs for more effective<br />

further analysis.<br />

“SAS Visual Analytics has allowed us to identify profitable areas that we can strengthen in terms of infrastructure<br />

and services to be marketed.”<br />

IN-DEPTH ANALYSIS OF KPIS<br />

A company whose leadership has always understood the role of sophisticated analytics in monitoring network traffic<br />

and performance, in addition to spotting trends, Telecom Italia has used SAS since the 1990s.<br />

SAS Visual Analytics allows Telecom Italia to analyze a range of KPIs at different levels of aggregation for both<br />

voice and data traffic. These can be viewed on a single screen and can include:<br />

• Accessibility<br />

• Drop rate<br />

• Call setup time<br />

• Data throughput<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

103


Retours d’expériences Big Data en entreprise<br />

“This gives us a rapid overview of areas of competitive strengths and weaknesses,” Bellezza says.<br />

SAS Visual Analytics allows Telecom Italia to analyze coverage of specific areas and identify possible scenarios as<br />

“make” or “buy,” prioritized by cost and benefit.<br />

It helps analyze customer behavior and create a predictive model, forecast services and evaluate the profitability<br />

of a development area after an investment.<br />

A USER-FRIENDLY FORMAT<br />

“When initially analyzing data, it’s impossible to predict the questions users may ask – and often even the users<br />

themselves are unaware of them,” Bellezza says. “SAS Visual Analytics helps us gain insights by simplifying the<br />

transformation of data and enabling us to put it into a user-friendly format.”<br />

As a result, decision makers get a more comprehensive understanding of what’s happening in the market, he adds.<br />

“We’re very impressed in terms of the usability and flexibility – and time to market, too – of SAS Visual Analytics,”<br />

Bellezza affirms.<br />

CHALLENGE<br />

Telecom Italia required a flexible, user-friendly solution for visualizing large amounts of data.<br />

SOLUTION<br />

SAS® Visual Analytics<br />

BENEFITS<br />

SAS Visual Analytics allowed the company to display data in a user-friendly format.<br />

The results illustrated in this article are specific to the particular situations, business models, data input, and<br />

computing environments described herein. Each SAS customer’s experience is unique based on business and<br />

technical variables and all statements must be considered non-typical. Actual savings, results, and performance<br />

characteristics will vary depending on individual customer configurations and conditions. SAS does not guarantee<br />

or represent that every customer will achieve similar results. The only warranties for SAS products and services are<br />

those that are set forth in the express warranty statements in the written agreement for such products and services.<br />

Nothing herein should be construed as constituting an additional warranty. Customers have shared their successes<br />

with SAS as part of an agreed-upon contractual exchange or project success summarization following a successful<br />

implementation of SAS software. Brand and product names are trademarks of their respective companies.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

104


Retours d’expériences Big Data en entreprise<br />

SENTELIS - ASSURANCE MUTUELLE<br />

CADRAGE DU SI DIGITAL GROUPE VERS L’ARCHITECTURE 3.0<br />

CLIENT : Grand groupe d’assurance mutuelle et paritaire de protection sociale - N°1 en retraite complémentaire<br />

Porteur du Projet : Damien LEPRETRE<br />

CONTEXTE<br />

Transformations importantes au sein de l’entreprise : • Rapprochement avec une autre structure<br />

• Avènement du « monde digital » Ces deux grands défis induisent des effets structurels sur les SI et sur le fonctionnement<br />

de la DSI, auxquels l’entreprise doit se préparer pour : • Faciliter la convergence vers le futur SI commun<br />

du groupe (‘best in class’, rationalisation, industrialisation et effets d’échelle,…) • Anticiper et accélérer la «<br />

digitalisation » du groupe – offres et services, relation client, culture et capacités test & learn, mode Lab, maîtrise<br />

du capital informationnel interne et externe, agilité / time to market, small apps,…<br />

OBJECTIFS DE LA MISSION SENTELIS<br />

L’objectif de la mission a été de construire une vision CONVERGEE CIO/CDO de la Stratégie SI Digitale et de<br />

l’organisation cible DSI/CDO/Métiers pour une approche conjointe auprès du COMEX<br />

MÉTHODE :<br />

La mission a été menée en 4 étapes : • Prise de connaissance afin de s’approprier le contexte SI • Identifier le<br />

niveau des réflexions digitales et le traduire en « capacités digitales » • Partager, au sein de la DSI, une vision du<br />

SI Digital et de ses impacts sur le fonctionnement de la DSI • Confronter et faire converger les visions : CIO / SI<br />

Digital - CDO / Stratégie Digitale de l’Entreprise<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

105


Retours d’expériences Big Data en entreprise<br />

SENTELIS - CRÉDIT À LA CONSOMMATION<br />

CONSTRUCTION DE L’ARCHITECTURE DIGITALE DE RÉFÉRENCE<br />

(FRANCE, INTERNATIONAL & CORPORATE)<br />

CLIENT : Grand acteur international du crédit à la consommation<br />

Porteur du Projet : Jérôme BESSON<br />

CONTEXTE<br />

Nouvelle stratégie d’entreprise basée sur 3 piliers :<br />

• Transformation digitale<br />

• Simplification et industrialisation des process<br />

• Augmentation des marges<br />

OBJECTIFS DE LA MISSION SENTELIS<br />

L’objectif de la mission a été de définir la nouvelle architecture de référence SI commune à l’ensemble des filiales<br />

du Groupe pour répondre à la disruption digitale et l’accélération de la transformation de l’entreprise vers le tout<br />

numérique :<br />

• Fédération des exigences des différentes entités du groupe : omnicanalité de l’expérience utilisateur, dématérialisation<br />

étendue des processus métiers, contextualisation et personnalisation à la volée de la proposition de valeur<br />

client et prescripteur et de l’expérience vécue (interaction, processus & informations), cross-selling/up-selling,<br />

évolution réglementaire…<br />

• Définition de la cible d’architecture, des principes directeurs en respect des cadres d’architecture d’entreprise<br />

• Analyse critique architecturale de l’existant des différentes filiales et maturité de leur SI vis-à-vis de la cible<br />

• Co-construction avec les différentes DSI filiales des architectures de transition, des trajectoires de transformation<br />

et d’investissements pour atteindre la cible de référence<br />

• Fédération du portefeuille des projets des différentes filiales. Identification des projets transformant. Détection<br />

des synergies transnationales. Animation de la communauté des architectes. Conduite du changement auprès<br />

des DSI et Directions Métiers, France et International.<br />

Cette mission a également consisté à conduire des études d’architecture ciblées intégrant la mise en place<br />

d’une infrastructure fédérée de données (Shared Data Backbone) : Cible d’architecture décisionnelle et cible<br />

d’architecture du poste de travail des agents commerciaux.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

106


Retours d’expériences Big Data en entreprise<br />

SENTELIS - MUTUELLE D’ASSURANCE<br />

MISE EN ŒUVRE DE LA FONDATION BIG DATA GROUPE<br />

CLIENT : Grand groupe français de Mutuelle d’Assurance<br />

Porteur du Projet : Sébastien LAYER<br />

CONTEXTE<br />

Grand programme de transformation – Ambition Client 2020 autour de 4 axes :<br />

- Valoriser L’ACTIF CLIENT<br />

- Développer la PROXIMITÉ Digitale<br />

- Créer l’AGILITE INDUSTRIELLE<br />

- Fonctionner en ECOSYSTÈME COLLABORATIF<br />

OBJECTIFS DE LA MISSION SENTELIS<br />

Mettre en place un socle Big Data INDUSTRIEL CROSS-METIERS pour gagner la bataille des données, la<br />

bataille de la modernisation digitale et la bataille du lien client<br />

CAS D’USAGES CIBLES TOTALISANT 15 PROJETS MÉTIERS SUR 2015<br />

• Analyse réactive (contextualisation temps réel de la relation client sur tous les canaux)<br />

• Analyse historique du portefeuille client sur l’ensemble des données à disposition (micro-segmentation, qualité et<br />

évolution de la relation, segmentation comportementale)<br />

• Analyse prédictive du portefeuille client (détection d’opportunités, prévention des risques)<br />

NATURE DES DONNÉES TRAITÉES<br />

Intégration dans un lac de données d’une très grande variété de données représentative du système d’information<br />

(données transactionnelles, évènementielles, conversationnelles, sociales référentielles, décisionnelles…) pour<br />

un volume avoisinant plusieurs milliards de données.<br />

ETAPES MAJEURES ET CALENDRIER DE MISE EN ŒUVRE DE LA FONDATION BIG<br />

DATA GROUPE:<br />

• Conduite d’une preuve-de-concept sur un usage emblématique (vision 360° Client) à valeur métier et architecturale,<br />

basée une infrastructure Commodity Hardware et des composants Open Source de l’écosystème Hadoop<br />

. Réalisation par une équipe mixe métier-SI en mode agile (Utilisateur métier, Ergonome, Analyste Donnée, Statisticien,<br />

Architecte Big Data, Développeur Big Data) – 3 mois<br />

• Choix des composants de la stack Big Data du projet de mise en œuvre – 2 mois<br />

• Industrialisation d’un core-model groupe multi instancié au niveau des différentes enseignes + déploiement des<br />

premiers usages en production – 6 mois<br />

• En parallèle, définition de l’offre de service associée à la fondation Big Data et de l’organisation à mettre en place<br />

pour en assurer la pérennité et le déploiement dans l’entreprise<br />

• Enrichissement « versionné » du socle core-model groupe en phase avec les besoins et exigences métiers<br />

ASPECT NOVATEUR<br />

Une innovation à plusieurs niveaux :<br />

• Architecturale, avec la validation de la pertinence du modèle d’architecture 3.0<br />

• Comportementale, avec le décloisonnement des données entre les métiers, entre monde opérationnel et monde<br />

analytique<br />

• Usages<br />

o Amélioration d’usages existants (ex : vision 360 Client, Contrat)<br />

o Perspective de nouveaux usages (ex : analyse de la couleur et la teneur de la conversation client, corrélation<br />

des flux comptables)<br />

o Capacité d’innovation renforcée (Test & Learn, Data Lab)<br />

• Technologique, avec la mise en œuvre de solutions innovantes issues des géants de la donnée, permettant de<br />

motoriser l’architecture 3.0<br />

VALORISATION OBSERVÉE DE LA DONNÉE<br />

Le projet a permis d’envisager une exploitation de toutes les données disponibles structurées et non-structurée<br />

comme jamais auparavant, sans frontière de temps ni d’espace (ex : analyse des commentaires clients dans les<br />

questionnaires de satisfaction et corrélation avec la notation ; détection de nouvelle segmentation via des algorithmes<br />

d’analyses non propriétaires).<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

107


Retours d’expériences Big Data en entreprise<br />

AUTRES ÉLÉMENTS STRUCTURANTS<br />

La mise en place du lac de données a été un révélateur et un catalyseur de nouveaux usages pour l’ensemble des<br />

métiers, encouragés par des coûts et une performance de traitement sans commune mesure avec l’existant. Elle<br />

ouvre la place, au-delà de l’amélioration de la Business Intelligence et du développement de la Business Analytics,<br />

au développement de la Data Science pour tirer le maximum de valeur du capital informationnel de l’entreprise.<br />

Elle a mis en évidence la nécessité d’une gouvernance de la donnée resserrée pour maîtriser l’explosion des données<br />

et des usages.<br />

Le lac de données est la première étape vers la construction d’une infrastructure fédérée des données entre<br />

monde opérationnel et monde analytique (Shared Data Back Bone), dont la frontière disparait.<br />

SENTELIS - ÉNERGIE<br />

CADRAGE DE LA 3ÈME PLATEFORME (BIG DATA & DIGITAL READY)<br />

CLIENT : Un des plus grands groupes mondiaux du secteur de l’énergie<br />

Porteur du Projet : Jean-Baptiste CECCALDI<br />

CONTEXTE<br />

Plusieurs tendances de fond, déjà engagées, révèlent et vont cristalliser les limites des Systèmes d’Informations.<br />

Ces tendances de fond concernent toutes les Branches, toutes les BU. Elles vont induire de nouvelles exigences<br />

multi-branches et reflètent les enjeux du digital pour l’entreprise.<br />

Des expérimentations ont déjà été entamées par les BU pour répondre localement à ces sujets. Mais des stratégies<br />

ou des choix locaux non encadrés (modèle d’architecture, technologies, recours au cloud,…) peuvent se<br />

montrer incompatibles avec les enjeux ou créer de nouveaux risques, de nouvelles limites.<br />

La DSI Corporate souhaite porter les transformations des SI du groupe et de ses pratiques.<br />

OBJECTIFS DE LA MISSION SENTELIS<br />

L’objectif de la mission a été de cadrer cette transformation au niveau groupe destinée à proposer à l’ensemble<br />

des entités et filiales une réponse architecturale et technologique adaptée aux enjeux de partage/maîtrise/exploitation<br />

de la donnée pour accompagner les évolutions digitales à venir ou déjà engagées par les métiers.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

108


Retours d’expériences Big Data en entreprise<br />

LA DÉMARCHE A ÉTÉ LA SUIVANTE :<br />

• Définition de la feuille de route globale à 18 mois : cible architecturale et technologique, trajectoire de transformation<br />

opérationnelle, organisation et cadre de gouvernance, plan de communication et de conduite du changement,<br />

services à activer, budgets requis…<br />

• Communication de la vision et de la proposition de la DSI Groupe auprès de la Direction Groupe et des Directions<br />

des multiples entités<br />

• Identification des premières cibles d’expérimentations concrètes – nécessaires pour démontrer et convaincre<br />

rapidement de la pertinence des gènes du modèle « Architecture 3.0 »<br />

• Préparation des éditeurs/fournisseurs technologiques aux sollicitations à venir<br />

• Identification des contributions de partenaires clés – en particulier la Production sur les infrastructures et services<br />

de production<br />

• Approfondissement avec les BU/BL des cas d’application ou des besoins concrets déjà identifiés<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

109


Retours d’expériences Big Data en entreprise<br />

SENTELIS - JEUX EN LIGNE<br />

CADRAGE DU SOCLE BIG DATA & DES PREMIERS USAGES PILOTES 2015<br />

CLIENT :Acteur majeur français du jeu<br />

Porteur du Projet :Jean-Baptiste CECCALDI<br />

CONTEXTE:<br />

Le plan stratégique de cette entreprise vise entre autres :<br />

• A renforcer la connaissance de ses clients et de ses modes relationnels<br />

• A développer une offre multi canal<br />

La DSI identifie des axes sur lesquels le SI présente des faiblesses structurelles, en particulier autour de la<br />

maîtrise et du partage de la donnée<br />

MISSION DE SENTELIS:<br />

La mission a permis de délivrer en 6 semaines l’ensemble des éléments permettant de lancer sereinement la<br />

fabrication :<br />

• D’un SOCLE ‘Big Data’, garant de l’exigence industrielle en production, regroupant les fonctionnalités requises<br />

pour supporter les premiers cas d’usage etpermettant de préparer le ‘coup suivant’<br />

• Des premiers ‘USAGES’ pilotes, à choisir parmi les projets candidats inscrits au plan 2015, et permettant de<br />

démontrer rapidement la valeur du modèle tout en maîtrisant les risques opérationnels<br />

LES LIVRABLES SUIVANTS ONT ÉTÉ PRODUITS :<br />

• Périmètre fonctionnel des pilotes, les objectifs associés (métiers et DSI)<br />

• Orientations architecturales et technologiques, l’infrastructure nécessaire<br />

• Planning de réalisation, échéances de livrables<br />

• Equipe de réalisation et organisation<br />

• Coût, prérequis de démarrage, risques majeurs à mettre sous contrôle<br />

• Cible architecturale à long terme (inscrire les actions court-terme dans la bonne direction)<br />

LES PROCHAINES ÉTAPES :<br />

• Lancement de la phase d’industrialisation du socle Big Data et des projets candidats sélectionnés lors du cadrage<br />

• Identification d’autres cas d’usage et accompagnement des projets pour leur mise en œuvre avec prise en<br />

compte des évolutions nécessaires du socle<br />

SENTELIS - EDITEUR SOFTWARE<br />

PLAN DE TRANSFORMATION D’ENTREPRISE<br />

CLIENT :Editeur et fournisseur de solutions informatiques mutualisées d’une grande banque internationale Française.<br />

Porteur du Projet : Jean-Nicolas BIARROTTE-SORIN<br />

CONTEXTE :<br />

Plan de transformation à 3 ans autour des axes suivants :<br />

• Renforcement de la position vis-à-vis des filières à l’international<br />

• Développement d’un nouveau business model et operating model<br />

• « Fast IT »<br />

• Sécurisation des données et applications<br />

• Poursuite de la stratégie d’industrialisation<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

110


Retours d’expériences Big Data en entreprise<br />

OBJECTIF DE LA MISSION SENTELIS :<br />

La mission a consisté à :<br />

• Définir les orientations d’architecture<br />

• Elaborer le plan d’action de transformation<br />

LES PILIERS MAJEURS DE CETTE NOUVELLE ORIENTATION ARCHITECTURALE SONT :<br />

• Architecture Data Centric<br />

• Architecture anywhere, anytime, any devices<br />

• Mise en place de modèles permettant de déployer de nouvelles solutions transverses de niveau Groupe, en<br />

s’appuyant sur trois dimensions complémentaires:<br />

o Une approche socles différenciés, adaptée à la variété des entités,<br />

o une approche SOA, pour faciliter l’intégration aux paysages locaux et avec le Corporate,<br />

o une approche Cloud, pour être capable de supporter une variété de stratégie de déploiement (interne, externe,<br />

hybride), en ligne avec la diversité des entités.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

111


Retours d’expériences Big Data en entreprise<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

112


Retours d’expériences Big Data en entreprise<br />

SOFT COMPUTING<br />

BIG DATA : PREMIÈRES LEÇONS APRÈS 3 ANS D’APPLICATIONS<br />

SUR LE TERRAIN.<br />

LES ENJEUX<br />

La révolution numérique qui se déroule sous nos yeux a pour corollaire une explosion des données, encore accentuée<br />

par le développement des objets connectés et la digitalisation des interactions. Ce déluge de données<br />

ouvre de nouveaux horizons en matière de connaissance et de dialogue avec les clients. Le marketing devient<br />

résolument conversationnel, individualisé, contextualisé, mobile, social, temps réel et omnicanal.<br />

Fort de plus de 30 ans d’expérience en matière de valorisation du Capital Client, Soft Computing, Entreprise de<br />

Services du Numérique spécialiste en CRM, Big Data et Digital, réunit près de 400 consultants, délivrant des prestations<br />

de Conseil, de Technologie et de Marketing Services.<br />

Ainsi, nous accompagnons annonceurs & organisations, désireux de mettre en place des plateformes Big Data et<br />

omnicanal, à relever les défis opérationnels suivants :<br />

Comment capter, analyser, exploiter (en temps réel ou non) l’ensemble des données off line et on line pour activer<br />

une animation visiteur/client rentable, engageante, cohérente sur l’ensemble des points de contacts ?<br />

Comment réconcilier des données de navigation & « empreintes digitales » (authentifiés ou non) et données du<br />

CRM tout en garantissant l’unicité, la qualité des données, ainsi que le respect des règles légales locales et/ou<br />

internationales ?<br />

Comment créer une infrastructure de données pérenne et agile, fondée à la fois sur la réalité des besoins opérationnels<br />

d’aujourd’hui et l’esquisse des usages de demain ?<br />

Comment appréhender les nouvelles technologies émanant à la fois du monde innovant Open Source, des « pureplayers<br />

» et des éditeurs traditionnels et solides?<br />

Comment préparer les organisations à la fois dans leur montée en compétence et leur transformation : Data-<br />

Scientism, Marketing prédictif, Agilité ?<br />

NOS INTERVENTIONS<br />

Nous menons plusieurs projets Big Data dans les secteurs de la Banque, le Retail, les Transports, l’énergie et des<br />

Télécoms. Notre démarche pragmatique, pour maîtriser ces enjeux, guide nos interventions autour de 5 axes :<br />

Cadrer : Aligner la stratégie, les besoins métiers et SI pour établir une trajectoire de mise en œuvre volontaire face<br />

aux enjeux de marchés hautement concurrentiels,<br />

Evaluer : Choisir les solutions technologiques pour répondre aux enjeux métiers & SI puis valider leurs bon fonctionnement<br />

et potentiel à travers des phases d’expérimentation ou Proof Of Concept,<br />

Décliner : Mener les chantiers par priorité pour construire une solution pérenne, orientée résultat et génératrice<br />

d’efficacité opérationnelle,<br />

Déployer : Piloter toutes les phases projet pour garantir la bonne mise en œuvre et implémentation du nouveau<br />

dispositif,<br />

Piloter : Consolider les indicateurs de performance, QOS, QOD et mesurer leurs évolutions dans le temps tout en<br />

mobilisant les ressources internes et externes au regard des objectifs définis.<br />

Nos retours d’Expériences : L’accompagnement de l’un des acteurs majeurs de l’énergie en France, dans la mise<br />

en œuvre d’une DMP (Data Management Platform) a fait ressortir les points clés suivants :<br />

DÉMARRER PETIT POUR FINIR GRAND :<br />

Limiter le nombre de données first party en face des millions de lignes clients permet d’intégrer progressivement<br />

des données complémentaires. Démarrer par des cas d’usages métiers simples et raisonnables permet de valider<br />

le fonctionnement de la DMP par itération avant d’investir des cas complexes à forte volumétrie<br />

SOIGNER LA RÉCONCILIATION DES DONNÉES WEB ET CRM :<br />

Réconcilier les données Web et clients suppose de porter une attention particulière sur la gestion des identifiants<br />

Internautes (cookies, IP, Mac…) et CRM (email, Id foyer, …). La connexion à l’espace client reste un vecteur privilégié<br />

et efficace pour rapprocher internaute et client (plus que le clic dans un e-mail par exemple).<br />

AJUSTER LE DISPOSITIF DE TRAITEMENT AU REGARD DES USAGES :<br />

Connaissance client, rebond entrant, campagne marketing ne nécessitent pas la même réactivité et le même type<br />

de réponse. Aussi il est crucial de définir les usages temps réel versus batch à J+1 pour adapter le dispositif aux<br />

différents besoins métiers L’accompagnement d’un leader du marché des Télécoms dans la mise en place d’un<br />

socle de connaissance client omnicanal (Big Data) afin de parfaire sa maîtrise des canaux (reporting & dataviz),<br />

l’analyse comportementale client, puis déclencher des actions personnalisées auprès des visiteurs sur des canaux<br />

traditionnels (point de vente, service client…) et digitaux (bannière web, selfcare…), nous amène à souligner les<br />

points suivants :<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

113


Retours d’expériences Big Data en entreprise<br />

CONCEVOIR UNE SOLUTION AGILE ET INTEROPÉRABLE<br />

Ne pas tenter de présumer des usages de la donnée de demain, mais plutôt imaginer le dispositif agile (architecture)<br />

qui permettra d’absorber rapidement une nouvelle source ou un nouveau format de donnée « sans retour<br />

arrière » et sans déstabiliser les chaînes d’information critique (ERP, DWH…)<br />

DIFFUSER EN TEMPS RÉEL LES INDICATEURS À FORTE VALEUR AJOUTÉE<br />

Se mettre en situation de propager des données client à forte valeur ajoutée en temps réel (tags, éléments de<br />

parcours ou scores) pour pouvoir demain activer la bonne action (push ou argumentaire de vente) au bon moment<br />

quel que soit le canal (une poste vendeur ou une bannière web)<br />

PENSER EXPÉRIENCE CLIENT CROSS CANAL SIMPLE ET ROI DIRECTEMENT<br />

Expérimenter et driver des premiers développements à partir de use cases simples, réalistes simplifiant une expérience<br />

cross canal et génératrice d’un ROI rapide<br />

Laisser place à la découverte des données<br />

Laisser du temps aux équipes opérationnelles pour s’approprier et « cruncher » des nouveaux univers de données<br />

(c’est le cas des données de navigation mobile ou selfcare) pour imaginer à la fois de nouveaux modèles statistiques<br />

prédictifs et de nouveaux processus client.<br />

En synthèse, les principes mis en œuvre dans les projets de relation clients depuis plusieurs années s’appliquent<br />

encore aujourd’hui dans cette nouvelle aire du « digital data driven ». Il apparait important de s’ouvrir aux nombreuses<br />

nouveautés qu’offrent ces perspectives tout en gardant une démarche pragmatique et orientée vers des<br />

résultats opérationnels tangibles et concrets.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

114


Retours d’expériences Big Data en entreprise<br />

SYNCSORT - SFR<br />

PROJET HADOOP CHEZ SFR<br />

EFFICACITÉ ACCRUE GRÂCE AU PROJET HADOOP<br />

En tant qu’opérateur télécom majeur comptant plus de 21 millions de clients, SFR collecte quotidiennement une<br />

quantité énorme de données. L’objectif du projet Hadoop chez SFR était en premier lieu de réduire les coûts<br />

d’exploitation de ces données. Au fur et à mesure que le volume de données augmente, il est de plus en plus<br />

difficile et coûteux de stocker et traiter les données. En utilisant de façon optimale le cluster Hadoop et les outils<br />

puissants de tri et ETL de Syncsort, il est possible de limiter l’investissement dans du nouveau hardware.<br />

UN PROJET QUI NE SE TERMINE JAMAIS<br />

SFR a décidé de lancer le projet Hadoop à la fin de 2013. Dans une première phase, le choix s’est porté sur la<br />

distribution Hadoop Cloudera et début 2014, il a été décidé de travailler avec DMX-h de Syncsort pour loader et<br />

offloader des données à partir du cluster Hadoop. SFR utilisait déjà l’outil ETL DMX de Syncsort pour quatre autres<br />

projets, pour lesquels il avait fait ses preuves. Les très bonnes performances de DMX-h de Syncsort ont ensuite<br />

pu être démontrées dans le cadre du Proof of Concept pour le projet Hadoop. “Nous travaillons encore en mode<br />

batch,” explique François Nguyen, en charge de la division ‘Connaissance Client’ chez SFR. “ Cela implique que<br />

nous disposons d’une fenêtre de traitement réduite. Nos engagements précédents avec Syncsort se sont révélés<br />

très efficaces. Leurs capacités de tri n’ont pas d’équivalent sur le marché, et nous sommes très heureux que Syncsort<br />

soit l’un des véritables innovateurs sur le marché Hadoop. Leur mécanisme de tri est incorporé à la distribution<br />

Hadoop que nous utilisons.<br />

Au cours de l’été 2014, les premières sources de données ont été loadées dans le cluster Hadoop, et davantage<br />

de sources seront ajoutées toutes les deux ou trois semaines. “Il ne s’agit pas d’un projet avec un horizon déterminé,<br />

nous allons continuer à ajouter des sources de données en permanence,” explique François Nguyen.<br />

A l’heure actuelle, la division Connaissance Client gère une base de données très volumineuse , qui n’arrête pas<br />

de croître. Les données traitées dans le cadre du projet Hadoop sont principalement des données structurées mais<br />

on y retrouve également des données semi-structurées provenant de logs.<br />

EN PRIMEUR<br />

Le projet chez SFR est l’une des premières véritables expériences Big Data et Hadoop sur le marché français. Le<br />

projet permettra à SFR de réaliser des économies, grâce à la performance des solutions implementées.<br />

DE PREMIERS RÉSULTATS RAPIDES<br />

L’une des premières réussites du projet a été la capacité à concrétiser les premières étapes dans le délai imparti<br />

et selon le budget, ce qui est une prouesse compte tenu qu’il s’agit de l’introduction de technologies de pointe. La<br />

mise en route aussi rapide du projet est principalement due au fait que SFR n’a pas eu à effectuer une phase de<br />

tuning avant de commencer à utiliser DMX-h pour manipuler les données ni à réaliser de codage supplémentaire.<br />

Les résultats seront évalués en permanence au fur et à mesure que de nouvelles sources de données s’ajoutent<br />

au cluster Hadoop.<br />

L’utilisation des puissantes capacités de tri de Syncsort DMX h n’ont pas rendues nécessaires l’acquisition de<br />

hardware supplémentaire.<br />

.<br />

SYNCSORT - PAGESJAUNES<br />

SYNCSORT AIDE PAGESJAUNES À TIRER LE MEILLEUR DES BIG DATA<br />

PagesJaunes, filiale à 100% de Solocal Group (groupe coté sur le marché Euronext Paris), migre sur la plateforme<br />

Hadoop pour optimiser ses outils d’aide à la décision. L’ETL pour Hadoop de Syncsort est apparu comme la solution<br />

la plus fiable, tant en termes de volumétrie que de rapidité, pour répondre aux nouveaux besoins business<br />

dans le contexte d’une transformation numérique qui fait cas d’école aujourd’hui.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

115


Retours d’expériences Big Data en entreprise<br />

PagesJaunes est le leader français de la publicité et de l’information locale sur Internet (pagesjaunes.fr, pagespro.<br />

com), mobile (sites et applications) et imprimé (l’annuaire PagesJaunes et l’annuaire PagesBlanches). Pages-<br />

Jaunes est aussi un des leaders des services de renseignements par téléphone et SMS (118008), des petites<br />

annonces en ligne (annoncesjaunes.fr) et est le premier créateur de site Internet en France.<br />

En pleine transformation numérique de ses métiers, PagesJaunes est à la recherche de solutions analytiques<br />

agiles qui permettent à ses équipes commerciales de prendre les bonnes décisions, rapidement. « L’entreprise<br />

s’est engagée dans une transformation de sa plateforme d’aide à la décision pour sortir de la Business Intelligence<br />

traditionnelle et tirer réellement des avantages business des Big Data. Notre ambition est de faire parler<br />

les données, » situe Abed Ajraou, responsable de Domaine Business Intelligence au sein de Business Solutions<br />

chez PagesJaunes. Il a rejoint l’entreprise il y a un an environ pour mettre en place une stratégie Big Data, dans<br />

le contexte d’une migration d’une infrastructure base de données IBM avec appliance Netezza vers le framework<br />

Hadoop. L’objectif est de faire face aux défis techniques en termes de capacité (explosion du volume des données),<br />

de stockage de données non structurées et de reporting en temps réel.<br />

SYNCSORT PIONNIER SUR LE MARCHÉ<br />

« ETL pour Hadoop permet d’optimiser notre informatique décisionnelle, » explique Abed Ajraou. En résumé,<br />

l’enjeu consiste à mettre à disposition des responsables commerciaux des capacités d’analyse granulaire, leur<br />

permettant d’optimiser leurs forces de vente par secteur géographique notamment.<br />

La solution DMX-h fournie par Syncsort est utilisée pour l’extraction, la transformation et le chargement (ETL) sur<br />

Hadoop, ainsi que pour des fonctions d’exportation et importation de données. « Les échos du marché étaient<br />

positifs quant aux performances de l’ETL Hadoop de Syncsort. Des progrès considérables ont été réalisés en 2<br />

ans. Nos tests et notre proof of concept ont également été concluants. Venant du monde du mainframe, le fournisseur<br />

jouissait déjà d’une réputation de solidité. Ce sont les premiers à fournir ce genre d’outil sur Hadoop.,»<br />

souligne Abed Ajraou.<br />

Bien que la vocation première du projet Hadoop chez PagesJaunes ne soit pas de réaliser des économies, mais<br />

bien d’améliorer la qualité des données et booster ainsi les performances commerciales, le coût abordable de la<br />

solution Syncsort est également un argument non négligeable : « la solution devrait nous permettre de faire des<br />

économies substantielles sur les coûts de support logiciel. Nous pourrons faire beaucoup plus avec beaucoup<br />

moins, » affirme Abed Ajraou. Le déploiement d’applications sur Syncsort DMX-h a démarré début 2015. Un<br />

premier retour d’expériences est attendu pour mars et sera d’ailleurs partagé à la conférence Big Data de Paris.<br />

REPORTING FINANCIER EN TEMPS RÉEL<br />

Une demi-douzaine d’applications web sont progressivement mises en production. Elles visent pour la plupart à<br />

booster les performances des équipes marketing et ventes en accélérant le reporting financier, le cas échéant sur<br />

un appareil mobile. Les applications sont en effet conçues selon les principes du ‘responsive design’. « Un point<br />

central porte sur la possibilité de rafraîchir les chiffres de ventes, toutes les 5 minutes, par produit, par segment,<br />

par géographie ou par agence. »<br />

Globalement, les enjeux de performances techniques sont davantage liés à la rapidité des temps de réponse et à<br />

la granularité des données analysées qu’au volume de données en tant que tel. « Nous parlons de 45 millions de<br />

lignes de data, ce qui n’est pas si énorme comparé à d’autres implémentations sur Hadoop. La plateforme nous<br />

permet à l’avenir de gérer de gros volumes de données pouvant atteindre entre 15 et 20 To de données, » poursuit<br />

Abeb Ajraou. Ce projet Big Data sur Hadoop est emblématique d’une stratégie d’entreprise qui met l’informatique<br />

au service du business, n’hésitant pas le cas échéant à anticiper les besoins des équipes commerciales et à<br />

leurs donner des instruments de proactivité. « Ce n’est pas pour rien qu’au sein de PagesJaunes, le département<br />

‘systèmes d’information » a été rebaptisé ‘Business Solutions’, avec une mission qui va bien au-delà d’un simple<br />

support opérationnel. Ce type de projet contribue à renforcer la valeur ajoutée de l’informatique auprès de la direction<br />

générale,» souligne Abed Ajraou.<br />

SYNCSORT - TÉLÉCOMS, MÉDIAS, ENTERTAINMENT<br />

COMMENT LIBÉRER LES CAPACITÉS DES BASES DE DONNÉES ET<br />

RÉDUIRE LES COÛTS AVEC HADOOP<br />

Profil de l’entreprise : Grand groupe de télécoms, médias et home entertainment.<br />

PROBLÉMATIQUE<br />

Acteur majeur du home entertainment, cette entreprise génère et collecte des volumes de données parmi les plus<br />

importants du marché. Pour cela, elle exploite un data warehouse Netezza de plusieurs pétaoctets dont le volume<br />

suit chaque année une croissance à deux chiffres. Comptes clients, communications, programmes de fidélisation,<br />

paramètres de confidentialité, mesures d’audimat… ce data warehouse sous-tend les applications critiques de<br />

toute l’entreprise.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

116


Retours d’expériences Big Data en entreprise<br />

Au départ, l’entreprise avait choisi d’associer Informatica à du codage SQL manuel pour effectuer ses traitements<br />

ELT lourds dans la base de données Netezza, y compris des operations courantes comme le tri, l’agrégation et<br />

la CDC (Change Data Capture). Or, cette approche extrêmement gourmande en capacités Netezza s’est très tôt<br />

révélée ingérable car très coûteuse en mises à niveau des matériels, logiciels et bases de données. Côté ressources,<br />

la pression était également énorme car les développeurs ETL devaient consacrer un temps précieux à<br />

optimiser et maintenir des centaines de lignes de code SQL, ne laissant que très peu de marge à la gestion des<br />

nouveaux besoins métiers.<br />

SOLUTION<br />

Face à la hausse des coûts de ses logiciels de bases de données et ETL, l’entreprise décida de stopper tout investissement<br />

dans sa plate-forme ETL existante — devenue ni plus ni moins qu’un planificateur de tâches onéreux<br />

— et d’offloader plus de 500 opérations ELT vers Netezza.<br />

Pour mettre la solution en place, elle s’est tournée vers Syncsort. Rapide et sécurisé, le logiciel d’entreprise Syncsort<br />

DMX-h permet aux entreprises de développer des flux de données sophistiqués dans Hadoop, sans aucune<br />

écriture ni optimisation de code. Syncsort DMX-h s’exécute nativement sur YARN. Contrairement à d’autres solutions,<br />

ce logiciel ne génère aucun code Java, Pig ou HiveQL et ne nécessite aucune compilation, optimisation ou<br />

maintenance de code.<br />

Une fois les objectifs et le cahier des charges connus, Syncsort a proposé à son client une solution d’offload de<br />

son data warehouse.<br />

L’une des principales vocations d’Hadoop consiste à prendre le relais de systèmes anciens et coûteux pour le<br />

stockage et le traitement de données. Or, sans les outils appropriés, l’identification, l’accès et le transfert des<br />

données vers Hadoop peuvent rapidement se révéler complexes. C’est pourquoi Syncsort offre des outils ciblés<br />

permettant d’offloader rapidement et efficacement les traitements batch et ELT des data warehouses vers Hadoop.<br />

Pour l’entreprise, l’adoption d’une solution d’offload Syncsort-Hadoop représentait le meilleur moyen de réduire<br />

ses coûts et de préparer son infrastructure de gestion des données aux futures initiatives métiers. Ainsi, outre la<br />

forte preference du client pour l’open source pure, le partenariat étroit entre Syncsort et Hortonworks a favorisé sa<br />

décision en faveur d’Hortonworks Data Platform comme plate-forme Big Data pour son projet d’offload.<br />

RÉSULTATS<br />

En offloadant le data warehouse, la solution Syncsort-Hortonworks est appelée à générer plusieurs millions de<br />

dollars d’économies sur différents facteurs de coûts dans les années à venir :<br />

• ’’Matériels et logiciels de bases de données<br />

• ’’Licences logicielles ETL<br />

• ’’Maintenance et optimisation des codes SQL<br />

La pénurie de développeurs Hadoop compétents en Pig, Hive et MapReduce constituait l’un des principaux obstacles<br />

à l’adoption d’Hadoop dans l’entreprise. Grâce à son interface graphique, Syncsort DMX-h a permis aux<br />

développeurs d’exploiter leurs compétences ETL existantes pour créer des flux et traitements de données sophistiqués,<br />

sans aucun codage manuel. Par exemple, il n’a fallu qu’une semaine à un développeur pour transférer une<br />

opération ELT de 340 lignes SQL vers DMX-h. Cette même opération lui aurait pris entre trois et quatre semaines<br />

de codage.<br />

La connectivité complète de DMX-h à Hadoop permet aux équipes informatiques d’extraire et de charger nativement<br />

les données depuis la plate-forme HDP ou d’exécuter une opération « hors cluster » sur un serveur ETL.<br />

Par ailleurs, l’intégration étroite de DMX-h à Apache Ambari, au JobTracker d’Hadoop et aux protocoles standards<br />

de sécurité comme LDAP et Kerberos leur permet de déployer, maintenir, monitorer et sécuriser leur nouvel environnement<br />

HDP en toute simplicité.<br />

Enfin, cette nouvelle architecture offre une plate-forme plus flexible, scalable et économique pour le déploiement<br />

de nouvelles initiatives métiers : collecte et analyse d’un plus grand nombre de données issues des box TV-Internet,<br />

augmentation des mesures d’audimat et assimilation des données d’activité des internautes.<br />

L’ENTREPRISE SYNCSORT<br />

Syncsort propose des logiciels d’entreprise sûrs et performants. Solutions Big Data dans Hadoop ou applications<br />

Big Iron sur mainframes : quels que soient les enjeux de nos clients, nous intervenons dans le monde entier pour<br />

accélérer la collecte, le traitement et la diffusion de leurs données, tout en réduisant les coûts et les ressources<br />

engagés. C’est pourquoi la majorité des entreprises du Fortune 100 font confiance à Syncsort. Utilisés dans plus<br />

de 85 pays, nos produits vous permettent de réaffecter vos charges coûteuses et inefficaces, d’accélérer les traitements<br />

dans votre data warehouse et sur votre mainframe, et d’optimiser l’intégration de vos données au Cloud.<br />

Pour en savoir plus, rendez-vous sur www.syncsort.fr<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

117


Retours d’expériences Big Data en entreprise<br />

TABLEAU SOFTWARE - BNP PARIBAS<br />

LA CONCEPTION DE L’AVENIR DE L’UNE DES PRINCIPALES SOCIÉTÉS DE<br />

SERVICES FINANCIERS D’EUROPE<br />

o Partner : BNP Paribas<br />

o Contact person : Pierre Thebault (BNP Paribas) and Edouard Beaucourt (Tableau Software)<br />

OBJECTIFS<br />

Innover pour développer des parts de marché, remporter de nouveaux clients et augmenter la part du portefeuille<br />

de clients existants.<br />

PRÉSENTATION:<br />

Le géant bancaire français a misé sur Tableau pour recueillir et analyser ses données en seulement quelques minutes.<br />

La division BNP Paribas du Sud-Ouest de la France dispose maintenant de la capacité de visualiser les tendances<br />

de géocodage utilisées dans le cadre des campagnes commerciales et marketing de la banque. Et l’aperçu<br />

partagé et détaillé de la performance de 2 000 agences à travers la F contribue à renforcer la compétitivité.<br />

ASPECTS INNOVANTS<br />

Pierre Thebault, géoanalyste, est chargé d’analyser et d’identifier les tendances de géocodage au sein d’une région.<br />

Grâce à Tableau, il traque les opportunités de prospecter de nouveaux clients et de développer de nouvelles<br />

campagnes marketing extrêmement ciblées : « Tableau est le moyen le plus rapide de passer des données aux<br />

décisions ». Il est à même de localiser et de visualiser le nombre de prospects dans la région de Toulouse, et de<br />

les segmenter par revenus, par risques et selon les services financiers de BNP Paribas dont ils disposent déjà.<br />

S’ils ont souscrit un prêt immobilier, ils constituent un candidat potentiel pour la souscription d’une assurance habitation<br />

ou d’une carte de crédit. Tableau permet de visualiser l’ensemble des données en quelques secondes, ce<br />

qui permet son équipe de transmettre ce public cible segmenté aux équipes commerciales internes de la banque<br />

pour un suivi immédiat.<br />

BNP Paribas recherche constamment des manières de différencier ses services en offrant une expérience plus<br />

localisée. Tableau permet à la banque d’étudier la localisation des distributeurs automatiques de billets des concurrents<br />

et d’identifier les sites potentiels pour de nouveaux distributeurs : « Comparer la localisation de nos clients<br />

avec la disponibilité du réseau existant de distributeurs automatiques de billets nous permet de cibler de nouveaux<br />

emplacements de distributeurs », déclare Pierre Thebault.<br />

Malgré l’expansion des services bancaires en ligne, les français restent attaches aux agences physiques. Tableau<br />

représente la source primaire pour les rapports sur la performance des 2 000 agences BNP Paribas française.<br />

Directeurs et responsables partagent un aperçu détaillé de la performance de chacune des agences : chiffre<br />

d’affaires, rentabilité, personnel, adoption des services bancaires en ligne de la part des clients, etc. « L’accès<br />

rapide à des données fiables, grâce à Tableau, se traduit par une prise de décision vive et fiable concernant les<br />

agences », affirme Pierre Thebault. Il poursuit, « Avant Tableau, nous utilisions des feuilles de calcul et une base<br />

de données Access. Cela nous prenait des heures, des semaines, voire des mois, pour trouver les données<br />

correctes et les réponses dont nous avions besoin. Désormais, grâce à Tableau, l’intégration homogène et la<br />

simplicité d’utilisation signifient que nous obtenons les réponses en quelques minutes. Cela rend-il la banque plus<br />

perspicace ? Oui, sans l’ombre d’un doute. »<br />

PROCHAINES ÉTAPES<br />

La majeure partie de l’inspiration pour ce programme couronné de succès appartient à Mydral, le partenaire<br />

d’exécution de BNP Paribas. La vision, la perspicacité et l’expérience de l’équipe de Mydral ont contribué au<br />

lancement de Tableau en quelques jours. Mydral a également fourni à BNP Paribas trois jours de formation et de<br />

transfert des connaissances afin de garantir que l’équipe soit opérationnelle presque immédiatement.<br />

Ce projet attire désormais l’attention d’autres services de la banque. BNP Paribas déploie actuellement Tableau<br />

sur les sites régionaux de Paris et Nantes dans le cadre d’un projet de segmentation de la clientèle. Ces données<br />

sont utilisées pour comprendre les tendances, concevoir de nouvelles campagnes, et maximiser la valeur de BNP<br />

Paribas tirée des données marketing.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

118


Retours d’expériences Big Data en entreprise<br />

TABLEAU SOFTWARE - CROIX ROUGE<br />

TABLEAU SOFTWARE AMÉLIORE L’ANALYSE TRANSVERSE ET VISUELLE<br />

DES INDICATEURS DE LA CROIX ROUGE FRANÇAISE.<br />

o Partner : Croix Rouge française<br />

o Contact person : Marie-Ange Tnani (Croix Rouge française) et Edouard Beaucourt (Tableau Software)<br />

OBJECTIFS :<br />

La Croix-Rouge française faisait face à un cloisonnement des systèmes d’information, sans vision transversale,<br />

avec une remontée d’informations irrégulières. L’association souhaitait mettre en place un système d’information<br />

décisionnel transverse s’appuiant sur une plateforme complète: un outil d’ETL, une base de données et un outil<br />

de tableaux de bord.<br />

PRÉSENTATION:<br />

Association à but non lucratif, la Croix-Rouge française dispense ses services dans les domaines sanitaire, social,<br />

médico-social, de la formation, et de l’action humanitaire. Près de 54000 bénévoles renforcent les 18112 salariés<br />

qui sont répartis dans plus de 570 établissements. Au cœur de l’association, les systèmes d’information (SI)<br />

ont pris une place prépondérante, accompagnant le développement et les besoins des différents métiers de la<br />

Croix-Rouge française. Quarante-trois personnes travaillent à la Direction des Systèmes d’Information, auxquelles<br />

s’ajoutent 7 responsables informatiques régionaux. Le budget de la Direction des Systèmes d’Information dépasse<br />

8 millions d’euros.<br />

«Les années 2000 ont vu le développement des systèmes d’information dans l’optique d’un meilleur pilotage<br />

de l’ensemble de l’association» explique Laurent Monnet, Directeur des Systèmes d’Information de la Croix-<br />

Rouge française, «en suivant une logique d’harmonisation de nos solutions, de rationalisation de nos ressources».<br />

L’ambition affichée de la Direction des Systèmes d’Information est d’optimiser le pilotage de l’activité de<br />

l’association.<br />

« Lors de la construction des SI, nous étions focalisés sur le développement de la partie support et transactionnelle.<br />

Désormais, l’attente des utilisateurs est forte pour des outils de pilotage. Le moment était venu de réfléchir à<br />

une architecture décisionnelle» développe Laurent Monnet. La Croix-Rouge française faisait face à un cloisonnement<br />

des systèmes d’information, sans vision transversale, avec une remontée d’informations irrégulières.<br />

«Nous souhaitions en complément de notre outil de reporting un outil convivial, intuitif pour les utilisateurs, qui<br />

permette des représentations graphiques dynamiques, des résultats en temps réel» précise Marie-Ange Tnani,<br />

Pôle Applications et Développement et Chef de Projet Système d’Information Décisionnel. Aidée par Altic, intégrateur<br />

de solutions Open Source pour le Décisionnel, le traitement des flux de données et les outils collaboratifs, la<br />

Direction des Systèmes d’Information a fait le choix de Tableau Software.<br />

«Spécialiste dans son domaine, Altic a su comprendre nos besoins, dans une vraie logique d’accompagnement,<br />

en nous orientant vers une architecture complète, performante et évolutive » se satisfait Marie-Ange Tnani, « La<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

119


Retours d’expériences Big Data en entreprise<br />

nécessité était forte d’un outil qui permette une grande autonomie des utilisateurs, donc avec une ergonomie<br />

soignée, une grande facilité d’usage.» Les premiers résultats probants n’ont pas tardés. En l’espace de 2 mois et<br />

demi, un datawarehouse complet a été construit sur les EHPAD (Établissements d’Hébergement pour Personnes<br />

Âgées Dépendantes). Cet entrepôt de données comprend 43 indicateurs et 6 sources de données différentes<br />

(comptabilité, ressources humaines, budget, métier, trésorerie, organisation).<br />

ASPECTS INNOVANTS:<br />

« En 3 semaines, avec Tableau, la Croix-Rouge française disposait de son premier tableau de bord. Par expérience,<br />

il aurait fallu 6 mois pour un tel résultat » insiste Marc Sallières, fondateur d’Altic. Tableau joue un rôle<br />

majeur d’accélérateur et catalyseur en étant un outil de data visualisation majeur dans une chaine de Business<br />

Intelligence, qui apporte agilité, souplesse et rapidité dans la restitution de l’information.<br />

« Tableau nous a permis de donner aux managers des indicateurs pour piloter leur organisation. Les utilisateurs<br />

découvrent et s’approprient les données » détaille Marie-Ange Tnani.<br />

« Les résultats tangibles sont immédiats : en cassant les silos, on crée un langage commun autour de la donnée.<br />

Les utilisateurs se retrouvent autour de définitions. Cela créé un cercle vertueux d’amélioration continue de la<br />

qualité des données, en mettant en relief les incohérences existantes.»<br />

Tableau Software offre une représentation géographique<br />

PROCHAINES ÉTAPES:<br />

Les premières restitutions graphiques ont conforté la Direction des Systèmes d’Information dans son choix. « Tableau<br />

offre une vue transverse qui intègre des indicateurs de différentes sources, avec une représentation géographique<br />

de certains de ces indicateurs » souligne ainsi Marie-Ange Tnani. A terme, la Direction des Systèmes d’Information<br />

de la Croix-Rouge française vise la fourniture de tableaux de bord pour ses 570 établissements, consultables via le<br />

reader de Tableau. « Le cout global de la solution, maitrisée, nous autorise cette ambition » conclut Laurent Monnet.<br />

TABLEAU SOFTWARE - ISCOOL<br />

EN CINQ ANS, ISCOOL A QUADRUPLÉ SES REVENUS<br />

GRÂCE À TABLEAU SOFTWARE<br />

o Partner : IsCool<br />

o Contact person : Gaëlle Periat (IsCool) et Edouard Beaucourt (Tableau Software)<br />

PRÉSENTATION:<br />

Des revenus issus du jeu qui ont quadruplé en cinq ans. Plusieurs teraoctets de Big Data concernant les joueurs ont<br />

été exploités, afin de permettre une prise de décision agile et efficace. « Des analyses visuelles ont été réalisées<br />

en quelques minutes, contrairement aux semaines d’attente qui étaient parfois nécessaires avec une précédente<br />

solution d’informatique décisionnelle. Il ne s’agit que de quelques uns des principaux aspects de l’utilisation que<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

120


Retours d’expériences Big Data en entreprise<br />

fait IsCool de la solution d’analyse par virtualisation en temps réel de Tableau Software. En comprenant mieux les<br />

préférences, les comportements et les besoins des joueurs, cette importante société de jeu européenne fait croître<br />

en taille et en nombre ses communautés mondiales de joueurs, pour un coût de possession remarquablement bas.<br />

UN CHEF DE FILE DU MARCHÉ EUROPÉEN DU JEU EN LIGNE<br />

Chef de file européen dans le secteur du jeu en ligne, IsCool Entertainment réunit 2,8 millions d’utilisateurs sur<br />

Facebook et d’autres médias, au sein de jeux interactifs comme IsCool, Star Connect et Temple Of Mahjong. L’un<br />

des catalyseurs du succès de cette société est son utilisation extrêmement précise des outils d’informatique décisionnelle,<br />

c’est-à-dire une approche rigoureuse de l’analyse des profils des clients, de l’adoption par les utilisateurs<br />

et des modes de jeu.<br />

Trois ans auparavant, alors qu’IsCool disposait d’une base de 400 000 utilisateurs et annonçait des bénéfices<br />

de 3 millions de dollars, cette société parisienne se basait sur une approche simple de l’intégration des données<br />

et de l’informatique décisionnelle pour guider ses choix. Celle-ci était composée d’outils d’intégration open<br />

source et d’une solution logicielle commerciale de visualisation décisionnelle. Cependant, les 18 millions d’actions<br />

aujourd’hui générées quotidiennement par les utilisateurs ainsi que des revenus quadruplés par rapport à 2009<br />

imposent à cette société de s’axer sur une analyse agile des Big Data.<br />

« Les données de jeu croissent exponentiellement et évoluent en temps réel », explique Gaëlle Periat, analyste<br />

numérique chez IsCool. « Nous collectons des données issues des journaux des applications, des publications<br />

Facebook et des repères analytiques. Il est impératif que ces données soient fournies sans délai aux décideurs<br />

commerciaux afin qu›ils puissent, en temps opportun, proposer de nouvelles offres aux joueurs, prendre des décisions<br />

en matière de développement des jeux et conférer aux campagnes publicitaires un impact maximal. »<br />

IsCool avait également besoin d’une approche flexible concernant la visualisation et la présentation des données.<br />

Les concepteurs de jeux, par exemple, souhaitaient bénéficier de graphiques visuels et intuitifs, afin de pouvoir<br />

ajouter de nouvelles fonctionnalités à leurs réalisations actuelles les plus populaires. Les développeurs préféraient<br />

consulter des rapports générés à partir des fichiers journaux techniques. Les cadres supérieurs d’IsCool nécessitaient<br />

quant à eux une vision instantanée des prévisions de revenus, des pipelines et des dépenses publicitaires.<br />

DES RAPPORTS QLIKVIEW PÉRIMÉS DÈS LEUR CRÉATION<br />

Encore récemment, IsCool était équipée d’un outil QlikView. Selon Gaëlle Periat, la nature fermée de cette technologie<br />

impliquait la présence permanente d’un analyste qui devait participer à l’intégration des données. « Chaque<br />

fois qu’un cadre supérieur exigeait un rapport, nous devions mettre en place certains scripts, ce qui retardait inévitablement<br />

la fourniture des résultats », explique-t-elle.<br />

Afin de pallier à cette situation, IsCool a adopté en standard une solution d’analyse visuelle en temps réel proposée<br />

par Tableau. À la pointe de sa catégorie, cette solution d’informatique décisionnelle efficace, rentable et collaborative<br />

est utilisée par 20 équipes au sein de la société, afin de permettre des prises de décisions ponctuelles<br />

et fiables. IsCool peut connaître instantanément le nombre d’utilisateurs de ses jeux (trafic), les fonctionnalités<br />

les plus couramment utilisées, la durée des sessions de jeu, les téléchargements les plus populaires, et bien plus<br />

encore.<br />

UNE AUGMENTATION DE 23 % DE L’INTERACTION AVEC LES JOUEURS<br />

En exploitant les Big Data, l’équipe peut également étudier la corrélation entre la taille d’une communauté de<br />

joueurs et son niveau d’interaction. Une fois l’une de ces communautés identifiée (qu’il s’agisse d’un simple<br />

binôme de joueurs ou d’un regroupement de moyenne ou grande envergure), l’équipe peut interagir avec elle de<br />

façon plus efficace, la fidéliser et la faire croître de façon spectaculaire.<br />

Des jeux spécifiques passent eux aussi sous le microscope que constitue la génération de rapports. Tableau<br />

permet de répondre à des questions telles que : « Un jeu est-il trop riche en fonctionnalités ? », « Quelles sont<br />

les fonctionnalités utilisées par telle catégorie de joueurs ? », et « Comment optimiser l’accès aux fonctionnalités<br />

? » De plus, IsCool peut désormais établir de façon fiable et rapide les différentes catégories d’utilisateurs,<br />

caractérisées par leur profil d’interaction et leur utilisation des fonctionnalités. Cette meilleure compréhension de<br />

l’interaction des utilisateurs avec les jeux IsCool a mené à une augmentation incrémentielle de 23 % de celle-ci,<br />

pour certaines catégories d’utilisateurs ciblés.<br />

Dans le même temps, les cadres autorisés d’IsCool reçoivent un rapport quotidien et essentiel de veille commerciale,<br />

qui comprend les revenus générés la veille classés par catégories, le nombre d’utilisateurs simultanés du<br />

jour et le nombre de joueurs actifs. « Alors qu’il nous fallait jusqu’à une semaine pour préparer nos rapports dans<br />

QlikView, nous pouvons maintenant élaborer et partager de nouvelles idées en quelques minutes avec Tableau. »<br />

PRODUCTIFS EN QUELQUES MINUTES AVEC TABLEAU<br />

Gaëlle Periat a été convaincue dès le début. « Lorsque j’ai intégré l’équipe d’IsCool, celle-ci m’avait dit : voici<br />

Tableau, il sera ton meilleur ami. Sur le coup, je n’avais pas pris cette déclaration au sérieux. Mais en quelques<br />

minutes, j’étais productive. Je pouvais développer de nouveaux rapports en temps réel et mettre en évidence des<br />

résultats concernant l’expérience de jeu. Je n’aurais jamais pu faire cela auparavant. »<br />

En transformant IsCool en une organisation de jeu agile et axée sur les données, Tableau a aidé cette société à<br />

quadrupler ses revenus en cinq ans. « Tableau a permis à IsCool de prendre le contrôle des Big Data et a rendu<br />

notre processus de prise de décision plus rapide, plus simple et plus efficace. Je doute qu’IsCool aurait pu passer<br />

de 3 millions de dollars de revenus en 2009 à 13,2 millions de dollars aujourd’hui, sans la visualisation interactive<br />

des données que nous procure Tableau », ajoute Gaëlle Periat.<br />

Une autre composante essentielle de ce succès a été l’innovante base de données analytique Actian Vectorwise.<br />

En remplaçant une plate-forme open source, Vectorwise fournit à IsCool des performances ultra rapides et<br />

rentables en matière de bases de données et d’informatique décisionnelle. Installée sur des serveurs virtuels pour<br />

un traitement extrêmement efficace des Big Data, cette solution stocke jusqu’à un teraoctet de données de jeu.<br />

Vectorwise permet à Gaëlle Periat et ses collaborateurs d’analyser un volume de données plus grand que jamais,<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

121


Retours d’expériences Big Data en entreprise<br />

pour une fraction du coût du traitement classique de celles-ci. Elle précise : « En utilisant Vectorwise, IsCool peut<br />

traiter et exploiter d’énormes quantités de Big Data sur des machines bien plus faiblement dimensionnées. Cette<br />

rationnalisation permet à notre société d’économiser chaque année plus de 10 000 dollars de matériel. Pour une<br />

petite entreprise dynamique comme IsCool, il s’agit d’une économie significative.<br />

Pour Gaëlle Periat, il n’existe qu’une seule façon de résumer la valeur de Tableau. « Chez IsCool, nous pensons<br />

que Tableau est très cool », conclut-elle.<br />

TABLEAU SOFTWARE - NOKIA<br />

L’EXPÉRIENCE UTILISATEUR À LA VITESSE DE LA PENSÉE : NOKIA<br />

o Partner : Nokia<br />

o Contact person : Ravi Bandaru (Nokia) et Edouard Beaucourt (Tableau Software)<br />

PRÉSENTATION:<br />

L’auteur Robin Bloor est analyste principal chez Bloor Group, une société d’analyse en conseil, recherche et<br />

technologie ciblant la recherche libre et l’utilisation des médias modernes pour regrouper des informations et<br />

les redistribuer aux utilisateurs. Pour plus d’informations, consultez les sites www.TheBloorGroup.com et www.<br />

TheVirtualCircle.com.<br />

Cet entretien de Bloor Group s’inscrit dans le cadre d’un projet de recherche.<br />

RÉSUMÉ<br />

Avant Tableau, Nokia confiait ses rapports et ses analyses de données à des intermédiaires informatiques. Désormais,<br />

ce sont les utilisateurs qui tiennent les rênes. « L’analyste réalise à présent l’analyse lui-même dans une plus<br />

grande mesure, sans que le service informatique n’intervienne entre lui et les données. »<br />

Ravi Bandaru, responsable produit pour la visualisation et l’analyse des données chez Nokia, utilise Tableau depuis<br />

juillet 2010. Il affirme qu’au sein de cette société, 350 à 400 personnes utilisent Tableau (sous forme bureautique<br />

ou interactive). Une véritable communauté s’est ainsi formée.<br />

«Avant, les utilisateurs étaient effrayés à l’idée d’utiliser les outils de solution décisionnelle existants. Ils se reposaient<br />

alors sur des intermédiaires, comme le personnel informatique, pour s’occuper de leurs données», déclare-t-il.<br />

L’ANALYSE INTERNE DE LA MÉMOIRE ACCÉLÈRE L’ANALYSE ET REND<br />

L’EXPLORATION POSSIBLE<br />

Selon lui, les capacités de mémoire interne de Tableau offrent deux avantages : une interface personnalisable et<br />

une augmentation de la vitesse des performances des requêtes.<br />

«L’analyste réalise à présent l’analyse lui-même dans une plus grande mesure, sans que le service informatique<br />

n’intervienne entre lui et les données», déclare-t-il. «Ces capacités de mémoire interne me permettent d’explorer<br />

des ensembles de données plus complexes et plus vastes, qui m’étaient auparavant inaccessibles.»<br />

Nokia utilise Tableau dans le cadre d’analyses marketing et l’a installé sur sa propre base de données. Bandaru<br />

déclare que les requêtes en direct normalement exécutées dans leur base de données ne donnent pas les temps<br />

de réponse escomptés, à la différence de celles exécutées dans le moteur de données Tableau, qui apportent une<br />

réponse instantanée à partir de laquelle il peut travailler. Il ajoute que Tableau est utile dans le cadre des analyses<br />

ad hoc et que la plupart des analystes actualisent leurs données de façon hebdomadaire.<br />

Bandaru poursuit en disant qu’il lui arrive de recommander Tableau à certains types d’utilisateurs. Parfois, ce sont<br />

les utilisateurs eux-mêmes qui viennent à lui pour pouvoir l’utiliser. Toutefois, l’utilisateur final standard auquel il est<br />

confronté n’est pas intéressé par les analyses, les statistiques ou le langage SQL.<br />

UTILE POUR TOUS LES UTILISATEURS<br />

Bandaru déclare : «Si l’utilisateur final est passionné de données ou d’analyses, il adorera utiliser Tableau car ce<br />

logiciel lui permet d’accéder désormais à de nombreuses sources de données.» Un utilisateur moins expérimenté<br />

peut l’utiliser simplement comme outil de solution décisionnelle. Il revient ensuite à la direction de proposer des<br />

formations et d’expliquer que «cet outil permet de générer des travaux complexes, impossibles à réaliser avec<br />

d’autres outils.»<br />

Nokia utilise actuellement Tableau Version 6/6.1. Bandaru explique qu’il attend des<br />

améliorations dans la version 7.0, telles que le partage d’extraits dans les classeurs, permettant ainsi à un extrait<br />

de faire office de source de données, ou encore le partage d’extraits entre plusieurs utilisateurs du monde entier.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

122


Retours d’expériences Big Data en entreprise<br />

Il déclare que ce type de collaboration rationalisée serait particulièrement utile pour un nouvel employé non familiarisé<br />

avec le fonctionnement de l’entreprise. De nos jours, affirme-t-il, nous devons encore accéder à la source de<br />

données d’origine. Mais il serait bénéfique à l’avenir que ce même employé soit capable d’extraire et d’utiliser les<br />

données créées par n’importe quel service, et ce n’importe où.<br />

Bandaru essaie de faire en sorte que le produit soit adopté dans une plus grande mesure en proposant des outils<br />

de collaboration internes, tels que des wikis, des sessions des formations, des documents et des meilleures pratiques.<br />

LA DIFFÉRENCE QUI FAIT LA DIFFÉRENCE<br />

Comme l’illustre cette expérience utilisateur de Tableau version 6, Tableau passe du statut d’outil décisionnel dans<br />

le sens traditionnel du terme à un statut de plate-forme décisionnelle capable de prendre en charge une grande<br />

partie des besoins de solution décisionnelle d’une entreprise. D’un point de vue technique, la différence se situe au<br />

niveau de l’architecture. La connexion directe tire profit de sources de données existantes très performantes. De<br />

plus, le moteur de données de mémoire interne génère d’innombrables possibilités. Grâce aux fonctions de mise<br />

en mémoire cache et de traitement, les ensembles de données ne doivent pas être nécessairement chargés en<br />

totalité dans la mémoire pour que l’analyse puisse débuter.<br />

Mais il est probable que l’utilisateur ne le sache pas ou ne s’en soucie guère. Seules la vitesse et la portée sont<br />

importantes à leurs yeux. L’analyse peut s’effectuer à la vitesse de la pensée. Il est ainsi possible d’exploiter davantage<br />

de données sur un matériel plus restreint. On peut parler de véritable analyse ad hoc lorsque l’utilisateur<br />

n’est pas obligé de déterminer à l’avance les mesures à agréger ou à interroger. L’utilisateur peut explorer les<br />

données sous toutes ses formes, y entrer dans le détail ou les résumer en catégories. Quasiment tous les types<br />

de visualisation de données sont regroupés dans cette solution, et capables de traiter des ensembles de données<br />

volumineux à la vitesse de la pensée.<br />

TABLEAU SOFTWARE - PHARMASECURE<br />

PHARMASECURE ENHANCES ITS CUSTOMER VALUE<br />

PROPOSITION WITH TABLEAU<br />

o Partner : PharmaSecure<br />

o Contact person : Abhijit Acharya (PharmaSecure) et Edouard Beaucourt (Tableau Software)<br />

PRÉSENTATION:<br />

PharmaSecure, a technology provider for the healthcare industry, recognised that the company’s success was<br />

underpinned by its ability to understand patient data, derive critical insight and share it with customers regularly.<br />

Today, Tableau is helping PharmaSecure adopt an insight-driven customer service strategy that has helped the<br />

company:<br />

• Cut reporting time by weeks<br />

• Instill a culture of data-driven decision making in the organisation<br />

• Add value to stakeholder ecosystem—helping customers understand patient consumption behaviour and enabling<br />

patients to better depend on medicine<br />

CREATING A DATA-CENTRIC VALUE SYSTEM FOR CUSTOMERS<br />

PharmaSecure is a US-based software and technology company working towards improving global public health.<br />

Its offerings encapsulate a range of solutions that work towards eliminating counterfeit drugs, connecting patients<br />

with safe medicines, and impacting patient adherence.<br />

The company works with pharmaceutical companies to print unique, randomly generated codes on medicine packages.<br />

These identification codes serve two purposes: First, they allow manufacturers to track each strip or blister<br />

pack and shipping carton they produce. Second, patients can verify the authenticity of their medicine through SMS,<br />

mobile app or by feeding it on the company website.<br />

As part of this verification process, PharmaSecure enables access to a mobile health platform, allowing users<br />

to opt in to customized mobile heath programs. These programs have applications such as reminders to refill<br />

medicines, dosage checks, providing health tips etc. By creating this valuable ecosystem, PharmaSecure acts a<br />

facilitating link adding immense value to healthcare users and drug manufacturers.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

123


Retours d’expériences Big Data en entreprise<br />

RECOGNIZING AN OPPORTUNITY<br />

With the industry-wide transformation in the way healthcare is obtained, delivered and paid for, pharmaceutical<br />

companies are scouting for tools that can help them decode patients’ behaviour and consumption patterns.<br />

In the context of this trend, PharmaSecure wanted to gain insights from its growing data repository to help strengthen<br />

their partnerships with pharmaceutical customers while helping patients manage their diseases better.<br />

“Data is at the corner stone of our business and we needed to make that our differentiating element. As a company,<br />

our data volumes, client portfolio and maturity had undergone an evolutionary curve and it was time for us to use<br />

an effective solution that could generate definable, powerful and intuitive analytics,” says Samit YADAV, Senior<br />

Director, Technology and Operations, PharmaSecure.<br />

At first, the team analysed its data through a cumbersome and inefficient process. Team members would dedicate<br />

time every week to extracting information from different sources, populating Excel sheets with the data and finally,<br />

deriving graphs to visually represent the findings. To address this challenge, the company wanted an analysis solution<br />

that would offer a faster, interactive experience.<br />

USING THE POWER OF SIMPLICITY FOR POWERFUL ANALYTICS<br />

After a careful evaluation of the players in the visual analytics marketscape, in 2013 PharmaSecure chose Tableau<br />

software due to its polished and comprehensive offering.<br />

Today Tableau software is used by most members of PharmaSecure’s Operations team. Typically, PharmaSecure’s<br />

MySQL and Excel data sources generate transactional databases of 200-500 rows a day, slated to reach<br />

1000-2000 rows over the next six months.<br />

Throughout the span of 18 months that the company has used Tableau, they are gaining value by drawing insights<br />

from an ever increasing quantum of data. Today all internal reports are generated on Tableau with insights extracted<br />

from data every week and every month. This move to a prescriptive style of analytics triggers faster decision<br />

making for the company.<br />

BELIEVING IN DATA ANALYTICS AND ITS INFLUENCE<br />

Using Tableau, the company has been able to maximise the value from their growing data without having to invest<br />

any additional resources.<br />

“Tableau’s power lies in its simplicity and intuitiveness. Putting Tableau over our data integration layer, has given<br />

us substantially greater insight across the business operations- supply chain, time to market, program enrollment,<br />

distribution, sales force effectiveness among other aspects,” Abhijit elaborates.<br />

Going forward, PharmaSecure will also start Tableau deployment with its customers whereby they will be able to<br />

not only access but build Tableau data charts on their own.<br />

“The biggest highlight of using Tableau has been that our entire team now truly believes in the power of insightful<br />

data. Thanks to Tableau, we as an organisation have become a lot more excited about using data in impactful and<br />

interesting ways for our customers.”<br />

TABLEAU SOFTWARE - SKYROCK<br />

SKYROCK.COM S’OFFRE UN OUTIL DÉCISIONNEL<br />

RAPIDE ET FACILE À UTILISER<br />

o Partner : Skyrock.com<br />

o Contact person : Loïc Cadiot, chef de projet chez Skyrock et Edouard Beaucourt (Tableau Software)<br />

OBJECTIFS:<br />

Uniformiser les outils décisionnels. En effet, jusqu’à récemment, la réponse de Skyrock consistait à autoriser<br />

chaque service à utiliser son propre outil décisionnel, au détriment de l’efficacité, de la productivité et de la convivialité.<br />

Par exemple, les utilisateurs Marketing pour la partie « éditeur » (construisent le site) utilisaient un système,<br />

tandis que ceux de la régie publicitaire (monétisent le site), en utilisaient un autre pour présenter les impressions<br />

de page, les visiteurs uniques, le CA généré… etc. Skyrock s’est rendu compte que le choix d’une solution décisionnelle<br />

standardisée, unique et ultraperformante transformait la capacité de ses utilisateurs à analyser et comprendre<br />

les données. Cela s’explique par le fait que naturellement, on voit et on comprend plus efficacement les<br />

données avec des visualisations interactives. Au final, le nouveau système de Skyrock a apporté des réponses aux<br />

questions, permettant ainsi de faire progresser les audiences web et les revenus publicitaires.<br />

PRÉSENTATION :<br />

Skyrock.com est le premier réseau social de blogs français et européen, avec plus de 34 millions de blogs dans<br />

le monde. « Skyrock doit analyser de grandes quantités de données, et Tableau est une solution ultraperformante<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

124


Retours d’expériences Big Data en entreprise<br />

qui facilite grandement le reporting. La production de rapports devient plus ludique et efficace », explique Loïc<br />

Cadiot, chef de projet chez Skyrock. « Étant donné que nous gagnons du temps sur la collecte et la présentation<br />

des données, nous pouvons consacrer plus de temps à l’essentiel : l’analyse des données et la prise de décisions<br />

qui favorisent la progression des audiences et les revenus publicitaires. »<br />

Le problème : des systèmes informatiques hétérogènes. Comment bénéficier d’un outil décisionnel (business<br />

intelligence) ultrarapide et facile à utiliser, portant sur les usages des utilisateurs sur les blogs et l’efficacité des<br />

campagnes publicitaires ?<br />

ASPECTS INNOVANTS<br />

Les solutions faciles à utiliser font gagner du temps et améliorent l’analyse. Skyrock utilise une version complète<br />

de la technologie Tableau afin d’analyser rapidement les usages web et les revenus publicitaires générés par ses<br />

annonceurs. Les salariés se sont servis de Tableau pour créer des tableaux de bord intuitifs, publier les données<br />

dans un navigateur et les incorporer dans des e-mails afin qu’elles puissent être partagées par les autres utilisateurs<br />

de la société. La majorité des employés accède à Tableau à partir d’un navigateur et est capable d’obtenir<br />

les réponses à ses questions en quelques clics.<br />

L’un des facteurs clés de la réussite de Tableau est son extrême rapidité et sa facilité d’utilisation. Le déploiement<br />

de Tableau au sein de Skyrock a été géré en interne, sans soutien d’experts en technologie de l’information, et<br />

aucune formation formelle n’a été nécessaire. Le personnel s’est formé principalement à l’aide de courtes vidéos<br />

en ligne. Et les résultats parlent d’eux-mêmes : les rapports sur l’étude des usages web, qui autrefois nécessitaient<br />

une demi-journée, sont désormais créés en moins de 30 minutes. Par ailleurs, Tableau permet également la<br />

production de rapports sous différents systèmes d’exploitations, réconciliant les plateformes Windows et Mac – un<br />

problème auquel la société avait déjà été confrontée auparavant.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

125


Retours d’expériences Big Data en entreprise<br />

TALEND - LENOVO<br />

LENOVO SÉLECTIONNE TALEND BIG DATA INTEGRATION POUR<br />

AMÉLIORER ET ACCÉLÉRER SES PRISES DE DÉCISIONS BUSINESS<br />

TALEND ENTERPRISE BIG DATA ACCROIT CONSIDÉRABLEMENT SON AGILITÉ ET SES<br />

PERFORMANCES, TOUT EN RÉDUISANT SES COÛTS D’INTÉGRATION<br />

Talend, le leader mondial des logiciels d’intégration des Big Data, annonce aujourd’hui que Lenovo a sélectionné<br />

Talend Enterprise Big Data afin de mieux connaître ses clients en analysant des données issus d’un grand nombre<br />

de points de contact – tiers, API et flux de réseaux sociaux – et en dégageant de ces données une image très<br />

précise de ses clients.<br />

N°1 mondial des fabricants de PC et n°4 des constructeurs de smartphones, Lenovo cherchait à rationaliser ses<br />

processus d’intégration ainsi que le développement de rapports qu’utilise son département marketing pour analyser<br />

l’efficacité de ses campagnes. L’architecture open source de Talend et son modèle de licence prédictible basé<br />

sur l’utilisation lui a offert la flexibilité nécessaire pour répondre à ses besoins, tout en garantissant l’évolutivité du<br />

système d’intégration.<br />

Grâce à Talend Enterprise Big Data, Lenovo assure l’intégration de ses Big Data à l’aide de près de 300 processus<br />

exploités simultanément – chiffre qui est voué à croître dans les prochaines années. Parmi les nombreux bénéfices<br />

obtenus par Lenovo depuis la mise en œuvre de Talend, les réductions de coûts enregistrées représentent environ<br />

140 000 $ pour les seuls coûts de migration. En outre, Talend a aidé Lenovo à améliorer les performances de son<br />

reporting, tout en raccourcissant les délais de traitement de plusieurs heures.<br />

« Nous devons améliorer continuellement les délais d’acquisition des données et la facilité d’utilisation de la plateforme<br />

de Talend nous permet d’y parvenir » déclare Marc Gallman, Manager of Data Architecture chez Lenovo.<br />

Ces gains d’efficacité se traduisent au final par l’amélioration et l’accélération des prises de décision, ce qui a un<br />

impact positif sur les stratégies marketing du constructeur – à la fois localement et mondialement. Avec un accès<br />

plus fréquent et plus rapide aux données, Lenovo est en mesure d’ajuster rapidement ses campagnes.<br />

« Si les entreprises exploitent de plus en plus de données, elles continuent à éprouver des difficultés pour les<br />

analyser, notamment du fait de leur incapacité à intégrer des données issues de systèmes traditionnels, des<br />

réseaux sociaux et des nombreux systèmes déployés dans le Cloud » commente Mike Sheridan, Executive Vice<br />

President of Sales, chez Talend. « Nous sommes fiers de voir Lenovo choisir les solutions de Talend et sommes<br />

impatients de les aider à accéder plus rapidement et plus fréquemment à leurs données pour améliorer les prises<br />

de décision. »<br />

TALEND - BUFFALO<br />

BUFFALO STUDIOS OPTIMISE LA VALEUR DES DONNÉES POUR<br />

ACCROÎTRE SA COMPÉTITIVITÉ DANS LE SECTEUR DES JEUX SOCIAUX.<br />

LA SOLUTION DE GESTION BIG DATA TALEND ENTERPRISE CONFÈRE À L’INFRASTRU<br />

CTURE D’INTÉGRATION DES DONNÉES LA FLEXIBILITÉ DONT ELLE A TANT BESOIN<br />

Buffalo Studios, une filiale de Caesars Interactive Entertainment (CIE) basée à Santa Monica en Californie, crée<br />

des jeux de casino en ligne conviviaux et accessibles permettant aux utilisateurs de trouver de nouveaux amis<br />

grâce au divertissement interactif. Le projet le plus considérable de Buffalo Studios est Bingo Blitz, le jeu de bingo<br />

en ligne gratuit le plus diffusé dans le monde.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

126


Retours d’expériences Big Data en entreprise<br />

Des millions d’utilisateurs actifs propulsent chaque mois Buffalo Studios au sommet des classements sur Facebook,<br />

iOS, Android et Kindle. Barry Sohl, le directeur technique chez Buffalo Studios, est bien conscient des immenses<br />

opportunités d’affaires que génère la notoriété de leurs jeux. Encore faudrait-il savoir comment exploiter<br />

les données efficacement…<br />

« De manière générale, le secteur dans lequel nous évoluons fonde sa croissance sur les informations, » commente<br />

Sohl. « En effet, les informations que nous récoltons déterminent toutes nos décisions au niveau du marketing<br />

et du développement des produits. C’est grâce à cela que nous sommes toujours en avance sur nos concurrents.<br />

»<br />

Dans le cas de Bingo Blitz, Buffalo recueille des données permettant de savoir quelles cartes ont été jouées<br />

lors de chaque partie, si le joueur fait bingo ou pas, combien de crédits sont gagnés et dépensés, etc. « Chaque<br />

mouvement des données récupérées est vital. Et nous avons des centaines de points de collecte d’informations<br />

dans chaque jeu, » remarque Sohl, en ajoutant que l’entreprise traite plus de 100GB de données tous les jours, un<br />

volume qui devrait augmenter rapidement.<br />

Mais, bien sûr, il y a un obstacle. Selon Sohl : « Avant que ces données ne deviennent vraiment intéressantes<br />

pour nous, nous devons les exploiter. Alors seulement pourront-elles se transformer en levier de croissance et en<br />

avantage concurrentiel. Voilà pourquoi il est indispensable que les informations soient fiables et qu’elles puissent<br />

être intégrées à l’intérieur de notre Data Warehouse. »<br />

Élimination des blocages coûteux<br />

L’intégration de données à l’intérieur du Data Warehouse a toujours représenté un défi à Buffalo, qui utilisait un<br />

ensemble désordonné de code personnalisé et de scripts Python. Le résultat était bien en-dessous des attentes.<br />

“Chaque semaine, nous délivrons de nouvelles fonctionnalités pour nos jeux, surtout pour Bingo Blitz. Nous avons<br />

besoin d’outils spécifiques afin d’analyser leur comportement et identifier les plus performantes d’entre elles, »<br />

explique Sohl. « Nous voulons savoir qui les utilise et mesurer leur incidence sur l’environnement du jeu. »<br />

Pourtant, le système d’intégration de données tel qu’il était paramétré chez Buffalo rendait l’ajout de ces nouveaux<br />

points de mesure extrêmement fastidieux. Comme Sohl l’indique : « Il s’agissait d’une opération manuelle très<br />

pénible, au point que tout se bloquait au niveau de l’équipe chargée du traitement des données. Des informations<br />

nouvelles et importantes se retrouvaient coincées dans l’infrastructure et souvent ne passaient même pas la<br />

phase de l’extraction à partir des fichiers logs bruts. » Ces ralentissements ont hélas conduit l’équipe BI à penser<br />

que les données n’existaient pas. « Pourtant, nous les récupérions. Simplement, elles n’arrivaient jamais au Data<br />

Warehouse à cause de la lourdeur du flux, et les événements sur les données ne pouvaient y être ajoutés, » résume<br />

Sohl.<br />

Le directeur technique et ses collaborateurs savaient pertinemment qu’ils devaient trouver une solution capable<br />

d’apporter une plus grande flexibilité au niveau de l’intégration des données, ce qui leur permettrait d’ajouter de<br />

nouveaux points de mesure, et de repérer les informations cruciales pour une prise de décisions éclairée.<br />

FLEXIBILITÉ TOTALE : LA RÉPONSE DE TALEND<br />

Après avoir pris en considération la possibilité de développer en interne en Java pur, Sohl et le service technique<br />

ont décidé de s’adresser au meilleur éditeur sur le marché capable de répondre à leurs besoins. Talend est ressorti<br />

de leurs recherches. En effet, précise Sohl, « Nous nous sommes aperçus immédiatement que Talend proposait<br />

un environnement de développement plus complet et abouti que toutes les solutions faisant l’objet de nos évaluations.<br />

» Buffalo Studios a alors décidé d’effectuer des essais opérationnels de validation avec Talend et d’autres<br />

éditeurs. Talend a donné les résultats les plus convaincants.<br />

Et Sohl de poursuivre : « La solution d’intégration de données de Talend était basée sur Java, et nous avons beaucoup<br />

apprécié, parce que cela nous permettait de nous appuyer sur les compétences avérées de notre équipe.<br />

Sans compter qu’elle offrait davantage de flexibilité et qu’elle pouvait être utilisée immédiatement telle quelle, sans<br />

modifications, conjointement avec notre code Java personnalisé. »<br />

Après réflexion, Buffalo Studios a donc choisi la solution d’intégration de données Talend, y incorporant quelques<br />

composants spécifiques en Java, compatibles avec Talend.<br />

LA MISE EN PLACE<br />

Buffalo Studios a fait preuve de toute la diligence nécessaire afin de déterminer l’utilisation la plus efficace de<br />

la solution Talend pour l’intégration des données, et l’implémentation de la version de production s’est faite de<br />

manière rapide et indolore.<br />

Avec l’aide d’Artha Data Solutions, un partenaire intégrateur de Talend, Buffalo Studios est passé de la conception<br />

à l’implémentation du projet en quelques mois à peine. Et, puisqu’aucun de ses collaborateurs n’avait d’expérience<br />

avec les solutions Talend, l’entreprise a adopté le système de formation en ligne, ce qui a permis à ses ingénieurs<br />

d’acquérir en très peu de temps toutes les connaissances nécessaires.<br />

Leads plus faciles à exploiter : analyse des informations plus rapide et plus grande productivité<br />

Aujourd’hui Buffalo Studios utilise la solution d’intégration Big Data de Talend, et a obtenu la flexibilité qui lui<br />

manquait auparavant. « Quand nous avons des besoins d’analyse spécifiques, nous pouvons maintenant écrire<br />

nos propres composants Java et les incorporer à la solution Talend, » explique Sohl. « Et quand il s’agit d’ajouter<br />

de nouveaux points de mesure des données, nous ne bloquons plus le processus à notre niveau, car nos développeurs<br />

travaillent simplement avec les outils sans avoir à effectuer manuellement de laborieuses modifications. »<br />

Ce type de gestion allégée, à son tour, permet à Buffalo Studios d’ajouter de nouveaux points de données chaque<br />

semaine. D’après Sohl, le problème des blocages au niveau des fichiers logs bruts devrait maintenant être totalement<br />

résolu.<br />

Cet avantage revêt une importance capitale pour Buffalo Studios. En effet, si le service technique de Sohl n’arrive<br />

pas à livrer les informations cruciales à la direction, les décisionnaires restent dans l’incertitude. « Nous avons<br />

besoin de mesurer la performance de nos fonctionnalités, qu’elle soit bonne ou mauvaise, presque en temps réel.<br />

Plus l’exploitation des données sera simple pour nous, plus l’équipe BI pourra en tirer parti. Talend nous aide à<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

127


Retours d’expériences Big Data en entreprise<br />

optimiser les processus, à améliorer la rapidité et à accroître la valeur que nous pouvons tirer de nos données, »<br />

précise Sohl. De plus, les ingénieurs de l’équipe technique gagnent en productivité, puisqu’ils n’ont plus de problèmes<br />

d’intégration à résoudre et peuvent de nouveau se concentrer sur la construction de technologie innovante.<br />

C’est ce qui assure la croissance et la fidélisation des clients.<br />

PERSPECTIVES<br />

Globalement, Buffalo Studios est extrêmement satisfait de sa collaboration avec Talend.<br />

« Nous portons beaucoup d’intérêt à l’exploration des nombreuses possibilités offertes par Talend en termes de<br />

qualité des données. Je pense qu’il y aura un vrai potentiel à exploiter en élargissant le savoir-faire de Talend à<br />

d’autres applications, et que nous pourrons alors bénéficier de nombreux avantages au fur et à mesure que nous<br />

progresserons, » déclare Sohl.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

128


Retours d’expériences Big Data en entreprise<br />

VELVET - PAIEMENT<br />

MONÉTISATION DE LA DATA D’UN ACTEUR DE LA CHAÎNE DU PAIEMENT<br />

DANS LE CADRE D’UNE MISSION D’ÉTUDE D’OPPORTUNITÉ<br />

Dans le cadre de sa stratégie de développement et de diversification de son offre, un acteur majeur de la chaîne du<br />

paiement a été accompagné par Velvet pour concevoir des offres de monétisation de son capital data, valorisant<br />

les volumes considérables de transactions gérées.<br />

Le projet a consisté dans un premier temps à évaluer l’opportunité d’offres : analyse et diagnostic des data existantes,<br />

interview de potentiels futurs clients pour évaluer le niveau de demande du marché, benchmark des<br />

acteurs de l’écosystème de la donnée et SWOT, pour in fine définir 7 offres de services.<br />

Dans un second temps, il s’est agi de définir un Go To Market : priorisation de 5 offres en fonction de leur complexité<br />

et revenu, analyse juridique détaillée des offres, design détaillé des offres satisfaisant aux contraintes juridiques<br />

avec description, pricing, gains totaux (financier et non financier), complexité de mise en marché et illustrations, et<br />

enfin identification des partenaires potentiels pour leur lancement commercial.<br />

Cette mission a permis de valider l’intérêt du marché pour plusieurs offres de monétisation de la Big Data transactionnelle<br />

de cet acteur, avec une valorisation estimée de 5% à 10% de chiffre d’affaires additionnel.<br />

VELVET - TELECOM<br />

TRANSFORMATION ET COACHING DES ÉQUIPES BUSINESS<br />

INTELLIGENCE D’UN OPÉRATEUR TÉLÉCOM DANS L’EXPLOITATION<br />

OPTIMALE DE SON ENVIRONNEMENT BIG DATA<br />

Cet opérateur global des Télécoms a investi dans une architecture Big Data, convaincu du levier de performance<br />

apporté par cette démarche pour l’ensemble de l’organisation, notamment dans un marché ultra concurrentiel. Afin<br />

d’accompagner sa transformation Big Data, ce dernier a confié à Velvet la réalisation d’une mission de 4 mois de<br />

formation, coaching et aide à la réalisation de traitements et projets dans le nouvel environnement.<br />

Cette mission vise deux principaux objectifs :<br />

- Rendre autonome l’équipe en place dans son activité au quotidien dans l’environnement Big Data<br />

- Profiter de cette transformation pour optimiser l’efficacité du pôle en retravaillant les modes de fonctionnement<br />

et pratiques de l’équipe.<br />

Après une phase de diagnostic de l’existant (sur les plans de l’organisation, des compétences, des relations avec<br />

les entités Marketing, Commerciale, Relation client, et CRM), l’équipe est montée en compétence grâce à un plan<br />

de formation constitué des modules suivants : Mise à niveau Java, Concept Big Data et langage, Map Reduce par<br />

l’exemple, Machine Learning et Scala, Interrogation de données (Hive, Impala, Pig, …), Diverses technologies Big<br />

Data (Scoope, Flume, …) et Outils de visualisation.<br />

Afin de mettre en pratique les acquis de ces formations et de valider l’efficacité de l’exploitation de l’environnement<br />

Big Data, l’équipe a été coachée dans le cadre de la réalisation de projets concrets nourrissant des analyses et<br />

réflexions autour des problématiques Foyer et Expérience Client.<br />

Cette équipe est aujourd’hui autonome sur les principales pratiques de traitements Big Data et des premiers gains<br />

d’efficacité se sont déjà fait ressentir.<br />

Pour en savoir plus – à propos de Velvet<br />

Velvet est un cabinet spécialisé en Marketing, Digital, Ventes et Relation Client situé à Paris et Lyon. Il intervient<br />

sur l’ensemble de la chaîne de valeur client, de la définition de la stratégie à sa mise en œuvre opérationnelle et<br />

technique, grâce au levier de la Data.<br />

Velvet propose une approche globale du Big Data, résolument orientée Valeur (IT, Métier, Analytique et Organisation).<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

129


Retours d’expériences Big Data en entreprise<br />

YSANCE - ARKENA<br />

LES ENJEUX D’UNE PLATEFORME BIG DATA TEMPS RÉEL POUR ARKENA<br />

CONTEXTE<br />

Arkena, commercialise une plateforme permettant de distribuer des contenus audio et vidéo sur tous les écrans<br />

(Streaming Web, Mobile, Box, B2B, etc.)<br />

Ces contenus sont transmis via plusieurs technologies, en particulier un CDN internet qui repose sur de nombreux<br />

serveurs à travers le monde. Ces serveurs génèrent de très grande quantité de logs, actuellement utilisés pour<br />

monitorer le CDN, mais aussi pour déterminer la facturation client selon l’usage.<br />

Avec l’augmentation du nombre des clients et de la volumétrie diffusée, l’architecture en place de collecte et traitement<br />

de ces logs (Rsyslog, Postgresql, Java), ne permettait plus d’assurer les services attendues (Supervision,<br />

Alerting, Analyse et facturation).<br />

Arkena souhaitait donc remplacer ce système par une architecture hautement scalable, facile à maintenir et disposant<br />

d’un faible TCO.<br />

ENJEUX TECHNIQUES<br />

• Collecte et stockage des logs en temps réel (+ de 60 000 logs par seconde)<br />

• Archivage des logs sur au moins 3 ans<br />

• Calcul au fil de l’eau de plus de 300 KPI (Mise à jour toutes les minutes)<br />

• Mise à disposition de ces indicateurs via des appels API REST<br />

• Garantir que chaque ligne de log sera intégrée une et une seule fois<br />

• Remplacer Rsyslog par une solution plus fiable pour la collecte et la centralisation des logs depuis 30 datacenters<br />

et en garantissant l’acquittement de réception de chaque log.<br />

• Offrir un très haut niveau de disponibilité, des mécanismes de reprises sur erreur et une forte capacité de montée<br />

en charge<br />

ARCHITECTURE<br />

L’architecture mise en place par Ysance est de type “Lambda” et repose sur trois stacks techniques :<br />

Spark pour les traitements temps réel, MapReduce pour les traitements Batch et Elasticsearch pour la couche<br />

présentation.<br />

• Vitesse : La couche temps réels reposent sur Apache Spark, et calculent les KPI sur une fenêtre de temps d’une<br />

minute (agrégation de 3,6M de logs / mn). L’objectif est d’alimenter au plus vite la couche de restitution avec des<br />

indicateurs qui ne nécessitent pas de retraiter l’ensemble de l’historique des données.<br />

• Batch : La couche Batch vise à créer une vision définitive, et si nécessaire corrigée des données traitées par la<br />

couche de vitesse (en cas d’arrivée trop tardive, de redémarrage du process temps-réel, …), ainsi qu’à calculer les<br />

KPI nécessitant de traiter un historique de données plus long. (dans le cas de la dimension temps, les aggrégats<br />

à l’heure, journée, semaine, mois, …) Elle repose sur le moteur MapReduce, au travers de Hive ou de développement<br />

spécifiques Java.<br />

• Présentation : La couche de présentation réconcilie les données traitées par la couche vitesse et la couche<br />

batch, et permet ainsi d’analyser et d’aggréger dans un même dashboard des données issues de Spark et de<br />

Hive. Cette couche repose sur Elasticsearch, qui offre la possibilité d’appliquer des aggrégats au requêtage, et<br />

permet ainsi de sommer, de compter distinctement, etc… sur l’ensemble des données, avec des temps de réponse<br />

inférieurs à la seconde.<br />

• Transport : La couche transport repose sur Apache Flume. L’objectif est de collecter en streaming l’ensemble<br />

des lignes de logs vers la plateforme Hadoop, sans provoquer de blocage applicatif. La communication entre les<br />

agents Flume présents sur les edge et ceux qui écrivent sur le cluster Hadoop est effectuée par appel RPC / Avro.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

130


Retours d’expériences Big Data en entreprise<br />

Cette architecture Lambda permet de traiter un même flux de données de manière synchrone et asynchrone :<br />

• Calcul temps-réel de certains indicateurs sur une fenêtre temporelle réduite (1 min) avec un débit jusqu’à 60 000<br />

messages / sec<br />

• Recalcul batch de l’ensemble des indicateurs à J+1<br />

• Indicateurs sur une fenêtre plus longue (5mn)<br />

• Prise en compte des « arrivées tardives » et consolidation des résultats<br />

• Maintient d’un jeu de résultats unique et accessible<br />

BÉNÉFICES<br />

• 2 mois pour la mise en place du projet<br />

• Plateforme Big Data moderne (Fast Data) et hautement scalable<br />

• Enrichissement du périmètre fonctionnel actuel avec de nouveaux KPI désormais envisageables avec cette architecture<br />

• Coût projet réduit notamment grâce à l’usage systématique de solutions Open Source<br />

YSANCE - ANOVO<br />

COMMENT ANOVO A BÂTI RAPIDEMENT SON NOUVEAU SI DÉCISIONNEL<br />

GROUPE GRÂCE AUX SOLUTIONS BIG DATA D’AMAZON WEB SERVICES ?<br />

ANOVO, leader au niveau européen en prestation de services techniques et logistiques pour les opérateurs télécoms<br />

et multimédia, est un des principaux acteurs de la gestion durable du cycle de vie des produits électroniques.<br />

Chaque année, il donne une seconde vie à plus de 20 millions de produits dans le monde entier.<br />

Elle collabore avec des fabricants, des distributeurs et des opérateurs pour proposer à leurs clients des solutions<br />

de réparation, de logistique, de régénération et d’extension de garantie. Parmi les produits électroniques qu’elle<br />

traite, figurent les décodeurs, les set top boxes, les téléphones portables, les modems et les équipements réseaux<br />

des entreprises.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

131


Retours d’expériences Big Data en entreprise<br />

CONTEXTE<br />

Dans le cadre de ses activités, Anovo produit et diffuse un ensemble de tableaux de bord et reporting permettant<br />

à ses clients de suivre et analyser les travaux et services rendus par la société. A cause d’un ensemble de solutions<br />

BI développées en internes et spécifiques à une usine, un pays ou un service, Anovo souffrait des problèmes<br />

suivants : 1/ Développements et déploiements sans cadre IT structuré 2/ Absence de mutualisation des besoins et<br />

donc multiplications des développements spécifiques. En conséquence, la plateforme décisionnelle d’Anovo souffrait<br />

de rigidité, d’obsolescences et de surcoûts notamment pour faire évoluer et maintenir les rapports existants.<br />

Pour y remédier, la DSI d’Anovo a sollicité Ysance pour concevoir une nouvelle architecture décisionnelle de type<br />

Big Data et l’implémenter en s’appuyant sur les solutions de Amazon Web Services et Tableau Software. Les deux<br />

solutions ont été choisis pour les bénéfices suivants : Rapidité de mise en œuvre, simplicité de déploiement sur un<br />

ensemble des pays / usines, mutualisation des usages et autonomie des utilisateurs, réduction des coûts de run<br />

et enfin évolutivité et pérennité.<br />

ARCHITECTURE<br />

Après un POC réalisé en début 2014, l’architecture technique qui a été retenue est la suivante :<br />

• Extraction quotidienne des données utiles directement depuis les systèmes opérationnelles des sites Anovo<br />

présents dans différents pays<br />

• Stockage et archivage de ces données dans Amazon S3<br />

• Contrôles qualités au fil des remontées des données sources (alerting)<br />

• Chargement en delta des données collectées dans un DWH Redshift<br />

• Mise à disposition des données dans Tableau Software<br />

• Création, pour les utilisateurs métiers, des rapports et tableaux de bord nécessaires aux pilotages de leurs activités<br />

• Diffusion des KPI de suivi de la production, à leurs clients, via Tableau Online<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

132


Retours d’expériences Big Data en entreprise<br />

AUTOMATISATION DES CHARGEMENTS :<br />

Le nombre de tables sources devant être chargées dans le DWH Redshift étant très importants, une procédure<br />

automatisée écrite en Python permet de convertir automatiquement les DDL source (SQL Server) en DDL RedShift<br />

• Angleterre: 1300 tables en production<br />

• France : 750 tables en production<br />

• Prochains pays : Chili, Pérou, Espagne<br />

• 40 à 60 JH de développement par pays<br />

Avec sa nouvelle plateforme BI mixant Cloud et Big Data, Anovo dispose d’un environnement décisionnel unique,<br />

évolutif, peu couteux et très scalable, consolidant les données de toutes ses entités à travers le monde et garantissant<br />

agilité et rapidité pour intégrer de nouvelles sources et permettre aux métiers de produire simplement de<br />

nouveaux rapports et tableaux de bord pour leurs besoins et ceux de leurs clients.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

133

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!