REX

REX 

Retours d’expériences Big Data en entreprise 

www.bigdataparis.com by


SOMMAIRE 

ACCENTURE - E-COMMERCE. ............ 3 

ACCENTURE - MEDIA. ................... 3 

ACCENTURE - COMMERCIAL PROPERTY. ... 5 

ACCESS INSIGHT - RENAULT ............. 7 

ATOS - MÉTÉO-FRANCE. ................. 9 

ATOS - ORANGE BUSINESS SERVICES .... 10 

ATOS - STADE TOULOUSAIN. ............ 10 

BAKAMAP - CCI. ....................... 12 

BIME - WEEKENDESK. . . . . . . . . . . . . . . . . . . 13 

CAPGEMINI - CLOUDERA. ............... 14 

COMPLEX SYSTEMS - TELE SHOPPING. ... 16 

COUCHBASE - AMADEUS. ............... 19 

CRAY - INSTITUTE FOR SYSTEMS 

BIOLOGY. ............................ 20 

CSC - HGST. . . . . . . . . . . . . . . . . . . . . . . . . . . 22 

CSC - ASSURANCES AUTO .............. 23 

CSC - VOYAGISTE ONLINE .............. 24 

DATA PUBLICA - CEGID . ................ 26 

DATA PUBLICA - CCI PARIS. ............. 26 

DATA PUBLICA - B-POST ................ 27 

DATAIKU - BLABLACAR ................. 28 

DATAIKU - CHRONOPOST ............... 29 

DATAIKU - CITYVOX. ................... 30 

DATAIKU - PAGESJAUNES. .............. 31 

DATAIKU - PARKEON ................... 32 

DELL - DANSKE BANK .................. 33 

DELTAMU - SANOFI-PASTEUR. ........... 35 

DELTAMU - TRAITEMENT THERMIQUE. .... 35 

HP - AT&T ............................ 36 

HP - BLABLACAR ...................... 38 

HP - METROPOLITAN POLICE 

DE LONDRES ......................... 39 

INFORMATICA - WESTERN UNION. . . . . . . . . 41 

MAPR - ANCESTRY.COM ................ 43 

MAPR - COMSCORE. ................... 44 

MARKLOGIC - DE GRUYTER. ............ 45 

MARKLOGIC - ELSEVIER. ............... 46 

MARKLOGIC - HEALTHCARE.GOV. ........ 49 

MARKLOGIC - OXFORD UNIVERSITY 

PRESS. .............................. 50 

MARKLOGIC - PRESS ASSOCIATION. ...... 56 

MARKLOGIC - REED BUSINESS 

INFORMATION - 4D CONCEPT. ........... 57 

MARKLOGIC - RSC. .................... 59 

MICROPOLE - L’OBS. ................... 62 

MICROSOFT - PIER IMPORT ............. 63 

MICROSOFT - THYSSENKRUPP. .......... 63 

MICROSOFT - CARNEGIE. ............... 64 

MONGO DB - BOSCH . .................. 67 

MONGO DB - METLIFE. ................. 68 

MONGO DB - OTTO. .................... 70 

MONGO DB - WEATHER CHANNEL. ....... 72 

NEO4J - EBAY. ........................ 74 

NEO4J - GAMESYS. .................... 75 

NEO4J - GLASSDOOR .................. 76 

NEO4J - SNAP INTERACTIVE. ............ 77 

NEO4J - TELENOR. .................... 78 

NEO4J - WALMART. .................... 79 

SAP - MOBILINK. ...................... 80 

SAP - COX. ........................... 80 

SAP - BELGACOM. ..................... 81 

SAP - BANGLALINK DIGITAL 

COMMUNICATIONS. . . . . . . . . . . . . . . . . . . . . 82 

SAP - VODAFONE. ..................... 82 

SAP - XL ............................. 83 

SAP - AVIVA. .......................... 83 

SAP - ELDORADO. ..................... 84 

SAP - SAMSE ......................... 85 

SAP - HSE24. ......................... 86 

SAP - MONEXT . ....................... 86 

SAP - AMERICAN AUTOMOBILE 

ASSOCIATION. ........................ 87 

SAP - SKYROCK . ...................... 87 

SAP - COOPERATIVA ITALIANA DI 

RISTORAZIONE. ....................... 88 

SAP - TIPP24.COM. .................... 89 

SAP - KAESER KOMPRESSOREN. ........ 89 

SAP - EBAY . .......................... 90 

SAS - SANTIANE. ...................... 92 

SAS - ELFE/INED ...................... 93 

SAS - UTAC-OTC. ...................... 95 

SAS - BANK OF AMERICA. ............... 96 

SAS - FRAPORT. ...................... 98 

SAS - MACY’S. ........................ 99 

SAS - NESTLÉ. ........................100 

SAS - RABOBANK. .....................102 

SAS - TELECOM ITALIA. .................103 

SENTELIS - ASSURANCE MUTUELLE. .....105 

SENTELIS - CRÉDIT À LA 

CONSOMMATION. .....................106 

SENTELIS - MUTUELLE D’ASSURANCE ....107 

SENTELIS - ÉNERGIE. ..................108 

SENTELIS - JEUX EN LIGNE. . . . . . . . . . . . . 110 

SENTELIS - EDITEUR SOFTWARE. ........110 

SOFT COMPUTING. ....................113 

SYNCSORT - SFR. .....................115 

SYNCSORT - PAGESJAUNES. ............115 

SYNCSORT - TÉLÉCOMS, MÉDIAS, 

ENTERTAINMENT. .....................116 

TABLEAU SOFTWARE - BNP PARIBAS. .....118 

TABLEAU SOFTWARE - CROIX ROUGE. ....119 

TABLEAU SOFTWARE - ISCOOL ..........120 

TABLEAU SOFTWARE - NOKIA. ...........122 

TABLEAU SOFTWARE - PHARMASECURE .. 123 

TABLEAU SOFTWARE - SKYROCK. . . . . . . . 124 

TALEND - LENOVO. ....................126 

TALEND - BUFFALO ....................126 

VELVET - PAIEMENT. ...................129 

VELVET - TELECOM. ...................129 

YSANCE - ARKENA. ....................130 

YSANCE - ANOVO. .....................131 

Document réalisé par la Société Corp Events - Janvier 2015 

2


ACCENTURE - E-COMMERCE 

ACCENTURE’S IMPLEMENTS PATENTED DIGITAL OPTIMIZATION (ADO) 

& ACCENTURE RECOMMENDATION ENGINE (ARE) SOLUTIONS HELP 

SUSTAIN HIGH GROWTH AND MAXIMIZE SHAREHOLDER VALUE 

CLIENT PROFILE 

A leader China’s B2C e-commerce portals with 35% market share, and growing at 200% annually. The Company 

was exploring alternative growth areas, beyond category expansion. 

BUSINESS CHALLENGE 

The currently recommended system’s was below industry benchmarks. Especially in contribution to sales. 

Over a given week, many changes were applied to the website, but there was no good way to measure its ROI. 

Each web-page change was slow and not many were tested each time. 

The client had over 2 million unique SKUs, 20 million registered users, 1 million transactions per day and up to 3 

billion page views per month. For this reason, it needs to optimize its data management, processes and system. 

HOW ACCENTURE HELPED 

Derived insight from the data and identified links between data that drive conversion from recommendations. 

Identified key data drivers including transactional data (product, customer and purchase history) as well as behavioral 

data (browser behavior, search data, page views), in order to increase the richness of data analysis. 

Accenture’s patented Recommendation Engine (ARE) was implemented. This combine multiple machine learning 

techniques (basket analysis, collaborative filtering, nearest neighbour) for different scenarios to optimize recommendation 

efficiency. The Patented Digital Optimization (ADO) solution was implemented in order to maximize 

webpage presentation and online marketing at scale. This industrialized multi-variable testing solution allowed 

thousands of design variations to be tested. 

HIGH PERFORMANCE DELIVERED 

Machine learning algorithms improved using ARE. 

Number of users given irrelevant product recommendations minimized 

Conversion rates increased. 

This recommendation outperformed the clients internally recommended engine by up to an estimated 30%, which 

translated into increased revenue initially estimated to be up to $100 million per year and expected to grow over 

time. The solution also enabled segment-based testing, which increased efficiency of testing at such a large volume 

of traffic. This optimization experience delivered a substantial CVR uplift and estimated revenue uplift of about 

$200 million per year. 

ACCENTURE - MEDIA 

HIGH-PERFORMANCE CUSTOMER ANALYTICS WITH A MAJOR PLAYER 

IN EUROPE: INSIGHT CREATES COMPETITIVE ADVANTAGE 

FOR TV OPERATOR 


This media client is a leading pay television service operator in Europe transmitting live programs and video-ondemand 

via cable, satellite, digital terrestrial television and broadband. 

The company has 6 million customers, representing nearly 12 million contracts, including more than 4 million customers 

receiving hundreds of channels. 


3



Customer churn was rising, partly due to the global economic slump, a corresponding reduction in consumer discretionary 

income and diminished usage of its pay channels. Free-of-charge TV channels increased their market 

share, and Internet service providers launched competing video-on-demand services. 

Limited knowledge of customers inhibited long-term growth in the digital era. Customer surveys failed to dig far 

beyond generalities such as household size, preferred program type and equipment. As a result, customer campaigns 

tended to be broad in scope and relatively expensive to implement. 

Digitalization and a widening array of viewing devices - including tablets, mobile phones and Web TV -offered huge 

opportunities to collect data on usage by household. Web-based giants such as Amazon, Facebook and others 

understood this trend and built up customer loyalty by offering tailored suggestions based on analyses of online 

interactions. Using customer analytics, virtually every interaction with media player services can be added to a 

continually updated log and analyzed for insight. 

To compete more effectively, our media customer launched a large-scale program on usage and services statistical 

analysis. Extensive sources of data knowledge could be gathered to develop insights for improved services. Their 

executives turned to us for assistance with customer and marketing analytics, all aligned with high performance. 


Accenture helped its client to define the project, outline the multi-year plan in successive phases, shape the technology 

solutions, build prototypes, promote these within the organization and monitor the gains. 

The project was launched through a proof-of-concept phase, based on a sample of 100,000 customers. Accenture 

Interactive organized a pilot for each initiative to gauge potential return on investment. 

The project leverages TV digitalization and the ability to gather data per household on television activity, such as 

switching channels, use of services, multi-screen usage and so on. One hundred million logs are collected daily, 

providing a strong foundation to: 

Build new insights: who watches Cable News Network, or do CNN viewers also watch other information channels? 

Optimize marketing campaign efficiency: a complete set of usage indicators, calculated at the subscriber level, is 

used to refine targets. 

Viewing Recommendations, an innovative recommendation engine, integrates statistical analysis of usage and 

services data with internal and external evaluations of programs and movies. Accenture developed a unique algorithm 

to identify “best for you” programs by combining viewer habits and discovery. Each new recommendation 

engine release is validated by prototypes, is beta-tested and verified on customer samples. Using business rules 

- such as a customer’s preferred themes, or the likelihood of discovering something new he or she would like – the 

engine offers a tailored selection of TV programs every evening for each household. 

The recommendation engine is embedded within applications, including the electronic TV program guide, customer 

Website, newsletters, and call-center scripts. 


In an increasingly competitive media market, Accenture has worked closely with its client over four years, contributing 

to reduced churn, increased customer satisfaction and restoration of the company’s reputation for innovation. 

Robust capabilities translate customer preferences into strategies to reduce churn (churn is two percent less 

among recommendation engine users), improve service and boost revenue. 

Today, the statistical analysis of usage and services project is: 

More than 200 key usage indicators per customer, which are used to personalize 40% of marketing campaigns 

and newsletters 

25 million personal recommendations calculated daily 

Helping boost TV consumption among recommendation engine users, which is up more than 20% 

More than 2.5 million of our client’s households are expected to enjoy the capabilities of personalized viewing 

recommendations in 2013, with a forecast of 3 million by the end of 2014. 

“Our recommendation engine goes a step beyond Google” in the words of the media client’s Chief Executive Officer. 

“Our customers don’t have to seek because our tool anticipates their needs and suggests appealing programs”. 

Customer analytics capabilities continue to be refined throughout the media client’s organization, with additional 

features offered to millions of subscribers. In addition, the growing base of detailed information about viewing preferences 

has become an asset in itself that can be monetized and sold to other businesses. 


4


ACCENTURE - COMMERCIAL PROPERTY 

HIGH-PERFORMANCE BIG DATA ANALYTICS IN SHOPPING MALLS: 

BIG DATA IMPROVES KEY BUSINESS DECISIONS FOR COMMERCIAL 

PROPERTY COMPANY 


The client is one of the leading commercial property companies in the world. 


In a shopping mall, the last touch points with customers are stores. Due to its central position in the customer 

journey, the shopping mall can only manage to improve the journey from the entrance of the mall to the entrance of 

the shops. Therefore, the choice of stores and their location inside the shopping mall are key business decisions. 

Previously, the Client made rent calculations and decisions for store renewals based on financial performance. 

Operational performance measures data, such as customer traffic, were used as well but lacked precision and 

insights. As a result, a large portion of the operational value of the shopping mall was misunderstood. 

Wi-Fi data was a great opportunity for shopping malls. By tracking customer devices, one million logs per day and 

day per mall could be used to follow traffic more precisely. Coupled efficiently with stores’ financial performance, 

this massive amount of data gives a better picture of their true performance. This commercial property company 

asked Accenture to process all Wi-Fi tracking data to follow traffic in the shopping mall and link it with all existing 

data in order to better assess the true value of its stores and make the right business decisions. 


Accenture helped the commercial property company by launching Wi-Fi traffic tracking and creating value from this 

Big Data. Insightful key performance indicators were developed in two malls through a pilot phase. 

By combining new and existing data, the shopping malls were able to: 

Make better store renewal decisions: by understanding which stores create/consume traffic for/from other stores 

and identifying the best performers (in terms of sales and traffic) to decide which stores will stay or be relocated 

Identify new potential tenants: by knowing the customers and their journey in the shopping malls and using traffic 

synergies between stores. Estimate the rental value of stores more accurately: by putting stores’ financial results 

into perspective with their operational performance to improve area pricing Make better marketing investments: by 

evaluating the return on investment of different marketing events. 


Accenture worked closely with the commercial property company during the one-year pilot phase to leverage the 

maximum value from the Data: 

10 sources of data were combined 

180 million logs were analyzed 

6 data quality algorithms were implemented 

… through a Big Data environment: 

Cloud-based Hadoop platform 

Tableau, html and iPad reports 

R, Python, Quantum JS 

The project has already improved the key business decisions of the shopping malls: for instance, two undefined 

renewal decisions were resolved much faster and the variety of the stores was maintained because of the new 

insights. New pricing estimates could improve the rental value of the two pilot shopping malls by several million 

euros. Big Data Analytics was quickly integrated in the two pilot shopping malls with noticeable results and would 

be improved by extending the analysis to new shopping malls with new data and insights for consistently faster 

and better business decisions. 


5


CONTACT 

Jean-David Benassouli : Managing Director Digital & Analytics 

j-david.benassouli@accenture.com 

Clara Landry : Digital Marketing Associate Manager 

c.landry@accenture.com 

ABOUT ACCENTURE 

Accenture is a global management consulting, technology services and outsourcing company, with approximately 

319,000 people serving clients in more than 120 countries. Combining unparalleled experience, comprehensive 

capabilities across all industries and business functions, and extensive research on the world’s most successful 

companies, Accenture collaborates with clients to help them become high-performance businesses and governments. 

The company generated net revenues of US$30.0 billion for the fiscal year ended Aug. 31, 2014. Its home 

page is www.accenture.com. 


6


ACCESS INSIGHT - RENAULT 

CASE STUDY RENAULT : CONSTRUCTEUR AUTOMOBILE DE RÉFÉRENCE 

Constructeur automobile Français de référence, Renault a vendu plus de 2,6 millions de véhicules en 2013, un 

chiffre en hausse de 3,1% comparativement à 2012. Très présent sur le marché des particuliers, le constructeur 

répond également avec brio aux besoins actuels des entreprises (moteurs compétitifs en terme de consommation 

et de fiscalité, pertinence des offres utilitaires) ce qui lui a valu d’être classé numéro un des ventes sur ce secteur. 

«En un instant, nous avons rendu la démarche de prospection de nos vendeurs interactive» 

Jean-Louis Wiedemann : Chef de service Marketing Ventes - Flottes et Véhicules Utilitaires 

LE CHALLENGE 

Le service Marketing Flotte Entreprise acquiert régulièrement des données publiques stratégiques concernant le 

marché automobile Français. Compilées à d’autres sources de données possédées par Renault sur son marché 

cible, ces informations regorgent d’opportunités à identifier et à exploiter. 

Mais un problème se pose : comment croiser et retranscrire ces données de façon simple et interactive à leurs 

équipes opérationnelles ? Renault se met donc à la recherche d’un outil qui permettrait à ses équipes commerciales 

et marketing non seulement de pouvoir accéder à ces informations de façon instantanée et en toute 

autonomie mais aussi de pouvoir interagir avec les données. 

L’accès aux données aura deux buts principaux : 

1) Permettre aux vendeurs du réseau de concessionnaires et managers grands comptes d’avoir une vision précise 

de la part de marché de Renault sur leur secteur et de la façon de l’accroitre. Ces informations permettront 

d’optimiser l’effort commercial et de préparer un argumentaire sur mesure. 

Pour se faire, l’outil devra permettre de pouvoir « zoomer » en profondeur sur chaque secteur et entreprise pour 

révéler toutes les informations au moment voulu. 

2) Permettre aux services marketing nationaux ou régionaux d’accéder à une vue globale du marché et des 

performances de Renault (part de marché par secteur, taux facilement des campagnes ciblées qui répondent aux 

attentes des performances commerciales. La solution devra être interactive et permettre de donner non seulement 

une vision globale de la situation du marché mais également une vision précise par secteur et même par commune 

pour chaque manager. «La démonstration de l’outil en interne a eu un réel succès. D’autres services ont 

immédiatement imaginé se servir d’Access Insight pour leurs projets » 

Jean-Louis Wiedemann : Chef de service Marketing Ventes Flottes et Véhicules Utilitaires 

LE CHOIX 

Renault était déjà équipé de nombreuses solutions de Business Intelligence. Cependant, Access Insight s’est 

présenté comme le choix le plus judicieux pour ce type de projet de tableaux de bord accessibles en réseau par 

un grand nombre d’utilisateurs. 

L’outil s’est également distingué des autres car il permettait une mise en place rapide avec un démarrage en 

mode SaaS, ne nécessitant pas d’interventions majeures de la part du service IT. 

LA SOLUTION 

Pour répondre aux besoins de Renault, Access France a présenté au service marketing sa solution de tableaux 

de bord interactifs et collaboratifs, Access Insight. Afin de permettre une mise en place rapide de la solution, 

Renault a choisi d’utiliser la solution dans le « Cloud » 


7


IMPLÉMENTATION 

« En deux semaines nous avons délivré une première version opérationnelle, en intégrant les données 

d’immatriculation achetées par Renault et en réalisant les premiers tableaux de bord pour que l’équipe marketing 

France de Renault puisse les tester » Matthieu Chabeaud, Directeur Commercial Access France 

LES RÉSULTATS 

Une détection immédiate des opportunités pour les vendeurs du réseau L’accès à des informations précises 

sur les entreprises de leur secteur permet aux vendeurs d’identifier en un instant lesquelles sont susceptibles de 

renouveler leur flotte ou peuvent être intéressées par de nouveaux véhicules. Bien informés, les commerciaux se 

concentrent ainsi sur l’essentiel. 

Un argumentaire ciblé : les commerciaux savent exactement quels arguments adopter face à leurs prospects. Les 

tableaux de bord leur permettent de pouvoir se préparer en conséquence et d’identifier les opportunités en filtrant 

et creusant dans les données. 

Un accès instantané à des analyses du marché pour le marketing : Alors que l’accès à des analyses poussées du 

marché prenait un temps non acceptable avant le début du projet, le service marketing accède maintenant aux 

informations clés sur l’ensemble de ses cibles en un instant et peut planifier plus. 

Fort du succès rencontré par l’outil au sein des différents services, Renault prévoit d’étendre cette utilisation. 

POST-IMPLEMENTATION 

Plus de 600 chefs des ventes et managers grands comptes utilisent à ce jour la solution Access Insight. 

de pénétration par rapport aux concurrents, caractéristiques de la flotte des entreprises…). Toutes ces informations 

permettront une connaissance optimale des entreprises et un ciblage précis. Un message adapté répondant 

presque à coup sûr aux besoins de chaque segment pourra facilement être établi. 

RÉSUMÉ 

Access Insight permet au service marketing et commercial de Renault entreprise une vue instantanée sur ses 

performances, sur le marché et sur ses cibles. L’outil permet non seulement une vision globale mais également 

une vision par secteur et par prospect ou client pour une préparation optimale des argumentaires commerciaux. 

Un avantage concurrentiel non négligeable pour Renault. 

Avant la mise en place d’Access Insight, les vendeurs avaient accès à des listings de prospections basiques crées 

à la demande par le service marketing. Aujourd’hui grâce à Access Insight, ils ont directement accès à des informations 

précises sur les entreprises les plus pertinentes, susceptibles d’acquérir des véhicules ou de renouveler 

leur flotte. 

A PROPOS D’ACCESS INSIGHT 

La solution de business intelligence nouvelle génération d’Access permet aux décisionnaires d’analyser rapidement 

les performances de leur activité, d’identifier les problèmes et de déceler les opportunités en temps réel. Son 

coté “user-friendly”, son interface mobile, ses fonctions collaboratives et ses performances font de la solution un 

outil adapté aux besoins actuels des utilisateurs. 


8


ATOS - MÉTÉO-FRANCE 

MÉTÉO-FRANCE CHOISIT LA NOUVELLE GÉNÉRATION 

DE SUPERCALCULATEURS BULL, MARQUE TECHNOLOGIQUE 

DU GROUPE ATOS, D’UNE PUISSANCE CRÊTE TOTALE DE PLUS 

DE 5 PÉTAFLOPS À L’HORIZON 2016 

Météo-France développe et utilise un système de collectes de données météorologiques temps réel, mises à jour 

toutes les heures pour alimenter ses systèmes de modélisation et ainsi piloter et suivre les évolutions climatiques 

et les risques liés à la météo en vue d’informer et de protéger les citoyens, les industriels, les agriculteurs… 

Ce système a une double mission : les prévisions météorologiques quotidiennes et la recherche sur le climat. 

LES OBJECTIFS DE MÉTÉO FRANCE 

• Améliorer et rendre plus précises les prévisions et la localisation des phénomènes météorologiques pour une 

prévention des risques plus efficace et de meilleure qualité, pour plus de sécurité au quotidien. 

• Diversifier l’offre de services de Météo France : prévisions court terme, définition de nouveaux marchés et de 

nouveaux supports de diffusion de l’information météo. 

LA SOLUTION D’ATOS : 

• Système 12 fois plus puissant que le système précédent 

• Architecture évolutive : la puissance système peut être multipliée par 3 

• Supercalculateur conçu pour une efficacité énergétique optimale: consommation électrique optimisée, empreinte 

carbone réduite grâce à une technologie de refroidissement innovante. 

LE PROJET 

Les supercalculateurs sont installés à Toulouse. Dotés d’un système de refroidissement innovant ultra performant, 

équipés des processeurs Intel® Xeon® de dernière génération, les supercalculateurs bullx livrent actuellement 

une puissance de calcul d’environ 1 Petaflops, puis à l’horizon 2016, une performance totale dépassant 5 Petaflops. 

Cette augmentation des moyens de calcul de Météo-France se double d’une évolution technologique importante 

: le passage de la technologie vectorielle à la technologie scalaire qui repose sur les standards du marché et 

permet de fournir une puissance de calcul parallèle nettement supérieure, pour un TCO moindre. 

POURQUOI ATOS ET LES TECHNOLOGIES BULL ? 

Le choix de Météo-France souligne le savoir-faire développé par Atos en matière de parallélisation des codes applicatifs 

utilisés dans les domaines de la météorologie et des sciences du climat. Une plus grande parallélisation 

est essentielle pour l’utilisation optimale des nouvelles machines scalaires. Elle exige une évolution indispensable 

des codes de calcul qui représente en elle-même un grand challenge, auquel sont confrontés tous les instituts 

météorologiques dans le monde. 

« Atos est fier du choix de Météo-France pour nos plus récents et nos plus puissants supercalculateurs bullx. » déclare 

Philippe Vannier, Vice-Président Exécutif d’Atos, Big Data & Security. « Le choix de Météo-France confirme 

la capacité d’Atos, appuyé par ses technologies Bull, à aider les grandes organisations dans la modernisation de 

leurs infrastructures de calcul, dans les domaines vitaux pour la société et stratégiques pour les États que sont 

aujourd’hui la prévision météorologique et l’étude du climat » conclut Philippe Vannier. 


9


ATOS - ORANGE BUSINESS SERVICES 

UNE SOLUTION DE SUPERVISION RÉSEAU QUI FOURNIT DES 

RÉFÉRENTIELS ET PERMET LA PRODUCTION D’INDICATEURS, POUR 

GARANTIR UN SERVICE DE HAUTE QUALITÉ 

Le projet OpenStat assure en temps réel la collecte d’informations sur les équipements du réseau ou sur les systèmes 

de médiation, la consolidation des indicateurs et la production d’un reporting interactif pour plus de 15 000 

clients entreprise en « near real-time » consultable en IHM, aux formats papier et M2M. 

LES OBJECTIFS D’ORANGE BUSINESS SERVICES 

• Faire évoluer un système obsolète datant de 15 ans pour assurer le reporting d’usage et de performance des 

offres entreprises 

• Réduire les coûts de maintenance, d’exploitation et d’évolution 

• Accroître l’agilité 

- collecter les données et éditer un reporting sans pâtir des évolutions systèmes permanentes et des contraintes 

d’un SI hétérogène 

- revoir la définition et la liste des indicateurs 

LA SOLUTION D’ATOS 

• Une solution basée sur l’OpenSource, tirant parti des avancées des solutions NoSQL 

• Une base NoSQL de type Graphe (OrientDB) pour le référentiel, apportant une grande souplesse dans la modélisation 

du réseau et de la performance dans son utilisation 

• Une Base NoSQL de type Clé/Valeur (Cassandra) permettant d’absorber le flux continu et important de données, 

tout en les parcourant en temps réel pour produire les indicateurs 

• Une architecture SOA et 100% évolutive basée sur JEE 7 

• La description en XML de la présentation, de la navigation dans l’IHM du calcul du reporting à destination de 

l’application en « map reduce » de production des indicateurs 

LE PROJET 

La solution d’Atos mise en œuvre permet, en toute fiabilité, la captation et le stockage de 10 millions d’indicateurs 

bruts toutes les cinq minutes. Sur la base de cette énorme masse de données, des centaines d’indicateurs sont 

construits par OBS à destination de 15 000 de ses clients entreprises. Ces tableaux de bord sont consultables en 

temps réel sur différents types de supports. Ce projet permet de réduire de manière drastique la production de 

nouvelles offres – divisée par environ trois - et rend possible le prototypage en agilité. 

ATOS - STADE TOULOUSAIN 

LE STADE TOULOUSAIN PREND LE POULS DE SES SUPPORTERS, 

FAVORISE LA COMMUNICATION PROACTIVE ET DÉVELOPPE UNE 

RELATION SOLIDE AVEC SES PARTENAIRES ET CLIENTS. 

Le Stade Toulousain a choisi une solution permettant l’analyse des informations circulant sur les réseaux sociaux, 

et en particulier Twitter. Il convient, dans cette énorme volumétrie de données, de trouver l’information utile et utilisable. 

Ce qui se dit sur le Stade Toulousain et ce qu’expriment les fans est collecté et analysé, des rapports sont 

ensuite construits. Cet outil permet d’adapter l’offre aux tendances et aux souhaits des supporters et de développer 

ainsi de nouveaux business. 


10


LES OBJECTIFS DU STADE TOULOUSAIN 

• Développer une vision client 360° 

• Mieux connaître les fans, identifier influenceurs et ambassadeurs pour adapter les offres 

• Mettre en place un marketing ciblé 

• Fidéliser les supporters et en attirer de nouveaux. 

• Augmenter les ventes de produits dérivés et remplir les stades à plus de 90% 

LA SOLUTION FASTCONNECT D’ATOS 

La solution s’articule autour de quatre composants majeurs 

• Une solution Tibco pour la collecte des données. 

• Une plateforme Hadoop et des composants de son écosystème 

• Un socle BI temps réel 

• Spotfire de Tibco pour le reporting et la construction de tableaux de bord « Social Network Analytics ». 

Quelques détails de la solution : FLUME collecte les différents tweets alors que des données sont collectées via 

les outils Tibco et déposées au sein de la plateforme Hadoop. La plateforme Hadoop permet le stockage, le tri et 

le calcul statistique. De plus des composants de l’écosystème Hahoop sont utilisés : OOZIE orchestre les traitements, 

HIVE/IMPALA observe les données et les résultats, OPENNLP gère l’analyse sémantique. A cet ensemble 

est associé un Datawarehouse pour la consolidation d’information structurée. Enfin la Solution Spotfire de Tibco 

prépare et présente le reporting ainsi que les tableaux de bord. 

POURQUOI ATOS ? 

Ce projet est à l’initiative de FastConnect, société du Groupe Atos, partenaire du Stade Toulousain depuis de nombreuses 

années : il a été proposé et présenté au Stade Toulousain, la démarche très innovante a séduit, la solution 

est en production. La proposition d’Atos représente le compromis gagnant entre un prix compétitif, un savoir-faire 

fonctionnel et technique. Le Stade Toulousain a fait le choix de la solution FastConnect, société du Groupe Atos, 

pour son expertise dans le Big Data et le support qu’il apporte à une équipe SI client restreinte. 


11


BAKAMAP - CCI 

LA CCI DE RÉGION NORD DE FRANCE ET BAKAMAP 

Le service Innovation de la CCI de Région Nord de France réalise des prestations dans le domaine de la veille, 

pour les PME-PMI, pôles d’excellence et de compétitivité de la région. Afin d’améliorer la qualité de son offre de 

services, CCI Innovation s’est dotée en 2011 d’une plateforme de visualisation cartographique de l’information. 

Depuis le lancement du projet, CCI Innovation confie le développement de son outil et ses évolutions à l’agence 

Bakasable. Quatre années de travail qui ont déjà aboutit à une véritable «Formule 1» dans le domaine de la 

datavisualisation. De nouvelles fonctionnalités seront implémentées d’ici juin 2015 pour améliorer d’avantage la 

performance de l’outil existant. 

EXPLORER DES DONNÉES TEXTUELLES PAR LA CARTOGRAPHIE 

Basée sur l’analyse de l’information (corpus de textes) et la cartographie temporelle, la solution Bakamap, développée 

pour la CCI de Région Nord de France, est un véritable outil d’aide à la décision stratégique. Ainsi, elle 

permet : 

- d’accéder facilement et intuitivement aux informations associées à une thématique (acteur, technologie, etc); 

- de naviguer dans un grand volume de données sans se perdre : plus de 20 000 articles, issus de 60 sources web 

sont rapidement accessibles grâce la visualisation; 

- de filtrer ou de cumuler les thématiques, afin d’affiner la recherche et se focaliser sur une partie du corpus; 

- de percevoir les évolutions des thématiques dans le temps - à l’aide d’une timeline et d’un système de régression 

linéaire - et de détecter les technologies émergentes; 

- de découvrir les interactions entre les acteurs, les technologies, les zones géographiques (navigation 

de proche en proche), 

- d’exporter en vectoriel le résultat de la recherche. 

Aujourd’hui, Jean Dufour, conseiller veille au sein de la CCI de Région Nord de France, utilise la cartographie pour 

aider les entreprises à identifier des marchés, des acteurs, des technologies en pointe sur un secteur d’activité, 

mais aussi à se positionner dans l’écosystème de sa région. 

NOUVEAU : BRING YOUR OWN DATA ! 

QUAND LA DATAVISUALISATION S’OUVRE AU GRAND PUBLIC ! 

La visualisation de l’information, c’est beau (souvent), utile (parfois)…mais au fond qu’est ce que c’est ? Pour 

répondre à cette question, l’agence Bakasable propose aujourd’hui un système de datavisualisation et de cartographie 

de l’information accessible et compréhensible à tous ! 

Disponible sur http://www.bakamap.fr/byod/, cet outil gratuit permet non seulement de cartographier en ligne ses 

propres bases de données (Excel, Access), mais aussi de comprendre les enjeux de la datavisualisation avec un 

exemple concret et personnel. 

Les multiples interactions existantes, peu évidentes sur un tableau classique, sont visibles immédiatement grâce à 

une représentation claire et graphique. L’utilisateur peut donc visualiser n’importe quel jeu de données, découvrir 

les interactions qui les lient entre elles (quels sont les noeuds ? où sont les liens ?), et naviguer facilement à travers 

son patrimoine informationnel ! 

Un tableau de bord permet d’accompagner l’utilisateur dans la configuration de sa carte. Il aura ainsi le choix 

d’afficher entre 2 à 5 catégories pour découvrir les interactions entre toutes ses données, mais aussi d’exporter au 

format PNG le résultat obtenu. 

Ce service gratuit est actuellement en version Bêta. Il s’accompagnera d’une offre payante, d’ici l’été 2015, donnant 

accès à d’autres fonctionnalités pour aller encore plus loin dans l’exploitation de ses données. 

CONTACT 

Heidi GHERNATI : 1 rue Suffren - 44000 NANTES 

06 03 55 16 78 - ghernati.h@bakasable.fr 


12


BIME - WEEKENDESK 

BIGDATA & CLOUD : WEEKENDESK.COM, BUSINESS ANALYTICS 100% EN LIGNE 

1. OBJECTIFS 

Weekendesk est une agence de voyage 100% en ligne, leader de la vente de courts séjours en Europe. Le site 

génère plus de 46M€ de Volume d’Affaires sur les 3 pays que sont la France, la Belgique et l’Espagne. Porté par 

le département Finance & Business Analytics, leur projet BigData s’articulait d’abord sur une logique de sortie du 

Reporting en silo, dû à l’hétérogénéité de leurs sources de données. Il s’agissait en priorité d’agréger des données 

financières et de les mixer avec celles du trafic de leurs sites web et du comportement de leurs consommateurs. 

2. PRÉSENTATION 

a. Nature des données traitées 

Weekendesk est un site web marchand dont les 25 000 commandes par mois génèrent un important volume de 

données transactionnelles entre les clients et les hôtels. Weekendesk analyse aussi constamment l’évolution de 

son trafic et son taux de conversion clients en rapport avec son offre produit et/ou service de son catalogue. Avec 

plus de 2 millions de visites par mois en moyenne, Weekendesk utilise Google Analytics. Les données transactionnelles 

de réservation sont stockées dans des bases de données SQL et un ERP propriétaire en ligne. D’autres 

données sont disponibles dans le Google Drive de l’entreprise. 

b. Ressources et méthodologie (compétences humaines, outils techniques, fonctionnement du traitement de la donnée) 

Le Reporting était précédemment produit via Excel avec une multitude de tableaux croisés dynamiques associés 

et d’onglets, pour couvrir tous les indicateurs clés des différents départements métiers. Ce Reporting a rapidement 

atteint les limites techniques d’Excel (volumétrie croissante et problème de disparité des données), devenant difficilement 

exploitable. En sélectionnant BIME, Weekendesk peut désormais reproduire son schéma de Reporting 

initial avec comme amélioration majeure la fluidité de se connecter nativement à toutes les sources de données 

(SQL, Google Analytics et Drive) depuis un seul et même endroit, puis d’agréger les informations en quelques 

clics, pour enfin construire et partager des tableaux de bord de pilotage en ligne avec le top management et les 

différents départements. 

c. Calendrier de déploiement 

Le projet a démarré en avril 2014. La Direction analyse les tableaux de bord depuis août 2014. 

Weekendesk a fait appel à un intégrateur pour travailler en amont les connexions on premise aux bases de données SQL. 

3. ASPECT NOVATEUR 

Weekendesk est une société 100% web, orientée cloud et mobilité. Chaque employé doit impérativement accéder 

à ses données métiers depuis n’importe où. La solution de Business Intelligence de BIME, 100% web correspond 

parfaitement à cet ADN. Grâce à la gestion des profils et droits utilisateurs, chaque Business Analyst rentabilise 

son temps de production des analyses. Un même tableau de bord, agrégeant plusieurs sources de données, peut 

en effet être partagé avec le Comité de Direction et les départements métiers. Le Comité accède aux informations 

globales de l’entreprise tandis que les métiers (vente, marketing) ne voient qu’un périmètre autorisé. 

4. VALORISATION OBSERVÉE DE LA DONNÉE 

Exploitation de la richesse du croisement des informations multi-sources dans les tableaux de bord, à la volée, 

au même endroit et en ligne. Production simplifiée de graphiques visuels permettant une compréhension rapide 

des performances des canaux d’acquisition. Visibilité accrue des résultats des ventes web par région, par canal 

de vente (force de vente interne, service client, pur web), par source (ordinateur, tablette, smartphone), dans un 

contexte croissant de volume de données. Actualisation real time des indices de compétitivité des offres, disponibles 

en ligne pour les métiers, chacun étant capable d’exécuter des requêtes adhoc pour répondre à leur question. 

5. ETAPES À VENIR ET DÉMARCHE BIG DATA DANS L’ENTREPRISE 

Optimisation, augmentation et mix des collectes de données de ventes et de réservations pour renforcer la granularité 

de l’analyse au client près. Objectif : migrer les données CRM (dont Salesforce) & Marketing (dont les données 

d’Attribution comme C3 Metrics) dans Google BigQuery pour produire des tableaux de bord des profils clients 

et de leurs comportements d’achats, le plus rapidement possible. Bénéficier des technologies Cloud pour rester 

fidèle à l’ADN Web de Weekendesk et disposer d’une plateforme d’analyse puissante connectée en direct à toutes 

les sources de l’entreprise, pouvant grandir à l’infini. 


13


CAPGEMINI - CLOUDERA 

ONE OF THE WORLD’S LARGEST HR FIRMS IS USING CLOUDERA 

ENTERPRISE TO MATCH JOB SEEKERS WITH OPENINGS AND BUILD NEW 

SERVICES FOR ITS CLIENTS 

Capgemini and Cloudera Big Data Solution Helps Global Employment Agency Improve Insight into Localized Job Markets 

THE SITUATION 

The client is one of the world’s largest HR service providers, operating in approximately 40 countries. It faced a 

challenge around the sheer volume of information that is increasingly becoming available in job markets today. 

Sources include everything from job boards, institutions, LinkedIn, and other social media, to videos and company 

reports. Even sources such as weather forecasts can be relevant in relation to seasonal and tourism industry job 

opportunities. 

The HR service provider wanted to develop a platform to consolidate all available jobs in a particular geography. 

They asked Capgemini to demonstrate how an enterprise data hub, based on Cloudera Enterprise, could deliver a 

Big Data solution that would help them gain faster access to higher quality information. 

The initial objective was to find ways to tackle volumes of information for its own business, with the secondary aim 

of developing entirely new HR services for governments and companies. This would include becoming far more 

proactive in job markets, anticipating requirements and opportunities, and acting to fulfill recruitment requirements. 

THE SOLUTION 

A Big Data solution was needed to manage and deliver rapid insight into the sheer volumes of data involved. 

Capgemini and Cloudera experts worked closely with the client’s team to list and prioritize the use-cases relevant 

for their initial business goals. This led to a proof of concept (POC) project to match job demand and supply in a 

specific geography - in this case, France. 

Capgemini’s solution involved implementing four major elements not present in the existing system: 

• Cloudera Enterprise to store all data and run the data modeling engine 

• An analytical SQL database running in conjunction with Cloudera Enterprise 

• A data visualization product 

• A solution to geo-code the geographical data 

As part of the solution, a learning algorithm processes the text within CVs and job openings to identify and flag 

similarities. The solution also delivers data from the visualization product to the existing reporting tools which are 

already familiar to business users. 


14


THE RESULT 

The initial project has successfully demonstrated the viability of the Big Data solution to deliver improved insight 

into job markets in a specific geography. This enables users to more proactively match job seekers with relevant 

openings. 

The system automated the matching of offers and CVs. For instance it was able to analyze 200,000 documents 

(including offers and CVs) in only two hours using a handful of computers. The client has verified the results of the 

analysis, with the feedback that “users have been amazed” by the accuracy of the system. 

After a successful and low-cost POC, the project is now being expanded to explore around 15 additional business 

use-cases. These include features such as the ability to have the amount of employment contracts signed per 

month, per activity, and per work area or the ability to analyze the travel time between the job seeker and the job 

offer. 


15


COMPLEX SYSTEMS - TELE SHOPPING 

KNOWLBOX : PLATE-FORME DE DATA MARKETING UNIQUE, LE PLUS 

COURT CHEMIN VERS UNE STRATÉGIE MARKETING OPTIMISÉE 

LE BESOIN 

Les big data ont envahi l’espace médiatique depuis quelques années. Si nombre d’articles détaillent les bénéfices 

qu’elles procurent, tant en termes de connaissance client, d’optimisation de processus ou d’amélioration des 

capacités de prévision des entreprises, peu s’attardent sur les méthodes qui permettent de les matérialiser. C’est 

certainement la raison pour laquelle seulement 25% des entreprises déclarent avoir déjà mis en place un marketing 

personnalisé, alors qu’elles sont 80% à souhaiter exploiter davantage leurs données pour optimiser les actions 

marketing. 

LA SOLUTION: 

KNOWLBOX, plate-forme de data marketing unique vous aide à utiliser de manière optimale toutes vos données. 

KNOWLBOX propose directement une palette de modules d’analyse métier. Toute l’expertise nécessaire est dans 

l’outil. Les résultats présentés sont validés par des tests de significativité statistique. Le déploiement des modèles 

sur l’univers de production est réalisé dans le même flux que l’analyse, donc sans risque d’erreur, très simplement 

et extrêmement rapidement. Connecté en permanence avec la base de données, les modèles sont mis à jour en 

temps réel. 

LES AVANTAGES: 

Simplicité, rapidité, flexibilité, rentabilité. Quel que soit le type de votre entreprise, KNOWLBOX vous assure de 

tirer des conclusions justes pour prendre les décisions en toute sérénité. Vous améliorez ainsi le retour sur investissement 

de votre stratégie omnicanale, personnaliser vos offres pour fidéliser vos clients, et faire croitre votre 

entreprise grâce aux data. 

LA DÉMONSTRATION AVEC TELESHOPPING: 

Filiale à 100% de TF1, et première société française de téléachat, TELESHOPPING s’appuie sur 4 canaux de 

diffusion produits. La télé (1), avec 18 000 heures de programmes par an, qui permet de découvrir près de 300 

nouveaux produits par an, les magasins (2), les sites internet (3) et enfin, le catalogue papier (4), avec 6 millions 

d’envois annuels. Le catalogue, qui présente une offre produits beaucoup plus étendue que la télé, est un élément 

central de la stratégie de fidélisation aux côtés de des cartes de fidélité et des leviers digitaux. 

Mais pour Olivier Dubois, responsable du Département Fidélisation e-CRM et Marketing Digital, la question était : 

Le catalogue papier est il encore rentablement efficace? 

«Nous devions mesurer, dans des temps très courts, l’impact du catalogue sur les ventes, notamment au regard 

de l’impact du web et des émissions. 

Ceci impliquait d’arrêter de raisonner en silo, et reconstituer une vision business globale. Compte tenu des 

volumétries en jeu et du fait qu’il était nécessaire de reconstituer différentes cohortes de clients sur plusieurs années, 

c’était un vrai projet big data.» 

«KNOWLBOX est conçue pour répondre directement à toutes sortes de problématiques marketing, de connaissance 

client et d’analyse prédictive… La solution répondait tout à fait à nos besoins : quelques jours ont suffi pour 

son déploiement, à la fois pour intégrer nos données – 1.2 millions de clients, et l’intégralité de leur historique de 

comportement - et pour la paramétrer. Et ceci sans aucun impact sur notre SI. 

A partir de là, l’analyse détaillée de l’impact du catalogue sur nos ventes a été menée, conformément à la promesse 

de l’outil, en quelques clics ! 

Nous avons mesuré avec KNOWLBOX une augmentation du nombre de commandes de 50% due au catalogue, 

et démontré que la réception du catalogue augmente les ventes de l’émission télé de 20%. Au final, c’est la durée 

de vie du client même qui est impactée. 

Cette étude nous a aussi permis de découvrir la puissance, alliée à une grande simplicité, de la plateforme analytique 

KNOWLBOX, avec laquelle des scores d’appétence catalogue ont aussi été développés et déployés. 

A TELESHOPPING, nous n’avons plus aucun doute sur la place du catalogue papier dans une stratégie de fidélisation 

client.» 

C’est ainsi qu’à contre-courant d’une bonne partie des VADistes, TELESHOPPING démontre que son catalogue 

papier est un facteur de développement des ventes. 


16


AVEC SA NOUVELLE PLATE-FORME BIG DATA ANALYTIQUE KNOWLBOX, COMPLEX 

SYSTEMS PERMET À TOUTES LES ENTREPRISES DE PRENDRE LES DÉCISIONS BA- 

SÉES SUR LEURS DATA. 

A la fois éditeur de solutions data analytiques pour le marketing et bureau d’études depuis près 

de 20 ans, COMPLEX SYSTEMS innove avec la plate-forme KNOWLBOX qui permet à toutes 

les entreprises, quelles que soient leurs contraintes budgétaires, techniques ou humaines, de 

pouvoir enfin prendre des décisions reposant sur leurs données. 

LA PUISSANCE DE L’ANALYTIQUE À LA PORTÉE DE TOUTES LES ENTREPRISES 

La plate-forme KNOWLBOX permet à toutes les entreprises qui ont des données de pouvoir enfin les utiliser pour 

optimiser leurs décisions marketing. 

Elle supprime les freins à la mise en place d’une démarche data driven - manque d’expertise, coût des logiciels et 

temps - et permet une montée en compétence interne progressive et adaptée sur les sujets data. La tarification 

sous forme d’abonnement fonction de l’utilisation garantit un budget maitrisé. 

Avec KNOWLBOX, COMPLEX SYSTEMS donne à toutes les entreprises le moyen de s’engager simplement, 

selon leurs besoins et en toute sécurité dans une démarche marketing data driven gagnante. 

KNOWLBOX PLATE-FORME BIG DATA MARKETING FLEXIBLE ET SANS ENGAGEMENT 

KNOWLBOX est une plate-forme big data marketing, déployée et paramétrée en 2 jours sur tout type de base - 

ORACLE, MySQL, SQLServer, cloud Amazon Web Services... Sans programmation ni traitements de données, 

encapsulant une véritable intelligence datamining et dédiée aux problématiques marketing, KNOWLBOX simplifie 

drastiquement l’expérience utilisateur. La plate-forme, conçue pour répondre directement aux questions des 

directions marketing telles que valeur client, appétence produit, parcours client, cycle de vie, repose sur des 

algorithmes éprouvés, et apporte aux dataminers et experts métier des résultats performants immédiatement exploitables. 

Offre unique sur le marché, elle est utilisable selon les besoins selon 3 modes : 

• En mode autonome, la plate-forme logicielle est livrée clé en main, avec un accompagnement sur 2 mois qui 

garantit le succès de son implantation. 

• En mode collaboratif, à mi-chemin entre logiciel et outsourcing, l’utilisateur bénéficie de l’expertise et du support 

des dataminers du bureau d’études de COMPLEX SYSTEMS, et externalise certaines études. 

• En outsourcing l’entreprise dispose d’une plate-forme analytique externalisée et du bureau d’études prêt à répondre 

à toutes les demandes de la direction marketing 

Proposée sous la forme d’un abonnement mensuel, sans engagement, KNOWLBOX s’adapte à chaque instant 

exactement aux besoins de l’entreprise ; son utilisation peut passer d’un mode à un autre sans contrainte. 

L’INNOVATION TECHNOLOGIQUE 

KNOWLBOX est la seule plate-forme big data analytique, dotée de fonctionnalités clés en main à la fois prédictives 

et exploratoires, spécifiquement dédiée aux problématiques marketing. Véritable innovation de rupture, 

KNOWLBOX analyse directement les données stockées dans une base de données relationnelle, sans extraction, 

sans traitement, sans constitution de fichier d’analyse. Le processus analytique est direct, simple, rapide. En 

supprimant l’étape de constitution d’un fichier, jusqu’ici incontournable dès qu’on sort du cadre des problématiques 

BI, KNOWLBOX raccourcit considérablement le temps de réalisation des modèles prédictifs, apporte une souplesse 

inégalée, et met enfin l’analytique à la portée de profils métier. C’est une avancée majeure qui permet à un 

grand nombre de profils métiers d’utiliser les données. 


17


A PROPOS DE COMPLEX SYSTEMS 

COMPLEX SYSTEMS a été créé en 1996 à l’époque de l’émergence du datamining par deux passionnés de 

data. Avec 20% de son activité consacrée à la R&D data, et près de 20 ans d’expertise datamining, COMPLEX 

SYSTEMS, qui a gardé son esprit de start-up, est un éditeur innovant de solutions analytiques de connaissance 

client pour le marketing. 

COMPLEX SYSTEMS aide les entreprises à exploiter leur capital data, acquérir la connaissance client, développez 

et déployer les modèles prédictifs dont elles ont besoin. 

CONTACT 

Hélène Ivanoff - 01 42 21 48 86 - hivanoff@complex-systems.fr 

www.complex-systems.fr 


18


COUCHBASE - AMADEUS 

COUCHBASE HELPS AMADEUS POWER THE TRAVEL INDUSTRY 

Today’s travel industry is seeing rapid growth, high customer expectations, fierce competition and pressure on 

margins. It’s a market driven by new technologies, new entrants and new business models. Amadeus, the leading 

Global Distribution System (GDS) and the biggest processor of travel bookings in the world, looks to NoSQL and 

Couchbase to meet stringent data management needs within a demanding industry. 

THE NEEDS 

The mission of Amadeus is to be the leading provider of IT solutions that enable success in the travel and tourism 

industry. The company is a Global Distribution System (GDS), meaning they take travel and tourism data from 

airlines, car companies, hotel chains, cruise lines, etc., and distribute it to travel agencies, corporations, travel 

websites, airports, and other distributors. As the world’s leading GDS, Amadeus must manage a huge workload 

daily, with absolutely no room for service outages, supporting: 

• 3.7 Million Bookings per Day 

• 1.6 Billion Transactions per Day 

• 45 Billion Database Accesses per Day 

• 13 Petabytes of Storage 

• Response Time of Less than 0.5 Seconds 

• Thousands of Developers Pushing New Features (100+ Changes per Day) 

Amadeus became interested in NoSQL technology and Couchbase because they needed greater scalabilty and 

flexibility for the service-oriented architecture (SOA) on which the business runs. Specifically they needed a lowlatency 

key-value store to achieve the required service levels for their architecture, including: 

• Consistent high performance (submillisecond latency) 

• Elasticity to support frequent capacity expansions of their server farms, needed to handle traffic growth 

• Seamless topology changes 

Data persistence to support a very write-heavy environment 

COUCHBASE AT WORK 

To get started with Couchbase, Amadeus implemented Couchbase Server for two applications. The first, the Amadeus 

Selling Platform Connect, is the website professional travel agents rely on for doing business. The Platform 

supports 500,000 terminals and 150,000 simultaneous users. All web sessions are long-lived, usually lasting the 

entire business day, and the amount of session data that needs to be stored is about a half a terabyte. Amadeus 

wanted to offload the user sessions, which were stored in JVMs, and move them to a distributed, scalable robust 

system, enabling them to reduce TCO and increase scalability. With Couchbase they can achieve this goal, and 

maintain a responsive experience for the end users. 

The second application, the Availability Processing Engine, is the engine behind many popular travel sites. If you 

have ever booked travel online, you have encountered this engine. which displays travel information such as 

prices, flights, and dates. This is a critical application for Amadeus, and the one with the most pressing need for 

the performance improvements that key-value technology offers. The original system had 28 relational databases 

and over 20 terabytes of data. Peak traffic is two million reads of objects per second, and 400K writes per second. 

The average object size is about 1 KB. 

Amadeus is a leading provider of advanced technology solutions for the global travel industry. Customers include 

travel providers (airlines, hotels, rail and ferry operators, etc.), travel sellers (travel agencies and websites), and 

travel buyers (corporations and travel management companies). 

The Amadeus group employs around 10,000 people worldwide, serving 195 countries. For the year ended December 

31, 2012 the company reported revenues of 910.3 million and EBITDA of 1,107.7 million. Amadeus is listed on 

the Spanish Stock Exchange under the symbol “AMS.MC” and is a component of the IBEX 35 index. 


19


CRAY - INSTITUTE FOR SYSTEMS BIOLOGY 

CRAY SOLUTION BRIEF | CANCER RESEARCH USING 

A BIG DATA APPROACH 

THE CHALLENGE 

Cancer researchers have a wealth of data available to them regarding the molecular and clinical characteristics of 

the many forms of cancers and the use of therapeutic drugs to treat disease. This data includes both proprietary 

research from their own labs as well as publicly available data such as The Cancer Genome Atlas and other collaborative 

scientific and public sources. 

The hypothesis is that big data could be used to identify potential new drug treatments from data already available 

through analysis of gene-drug relationships without performing “wet” lab work first. 

However, traditional analytics tools and techniques to test these hypotheses often take several weeks to months 

to execute. They are time consuming because data scientists must assemble all of the necessary data into a new 

data model to determine whether the researcher’s hypothesis is accurate. Because of the extensive amount of time 

between question and answer, the results of the experiment may be irrelevant by the time they are finally delivered. 

The researchers at the Institute for Systems Biology (ISB) wanted to determine whether they could significantly 

compress this wait time. They wanted a way to get to “yes” or “no” quickly in order to prioritize drug repurposing 

opportunities; this would then accelerate the discovery of new cancer treatments that could be moved through the 

drug development and approval process quickly, thus making a major difference to cancer patients. 

THE URIKA-GD PLATFORM ADVANTAGE: 

To rapidly validate scientific hypotheses in real time and discover new connections within their 

existing data, the ISB team needed a powerful solution that enabled data discovery at scale. 

THE SOLUTION 

The ISB team worked with Cray to develop an innovative, real-time approach to cancer research discovery using 

the Urika-GD graph analytics appliance. Using the Urika-GD system, the team was able to assemble all of its 

data into a single graph in the appliance’s vast shared memory — eliminating the need to partition the data or create 

time-consuming and complex data models prior to posing a hypothesis. This solution is scalable, which allows 

the data set to expand over time without losing performance or data integrity. 

The ISB team identified new cancer therapy candidates by exploring correlations between frequently mutated 

genes from tumor samples to identify existing gene-drug associations that could be possible drug candidates. In 

addition to discovering promising new therapies, they also sought to rapidly eliminate from consideration those 

drugs that would not deliver the desired result.. 

To deliver results quickly, the researchers needed a way to discover unknown relationships within the data that the 

current data management strategy couldn’t deliver. The Urika-GD system enabled ISB’s researchers to look at the 

data in a different way than what they’d be limited to with query-based relational database systems, where the data 

determines what questions can be asked. This resulted in a clear visualization of the connections and associations 

within the data to help identify promising candidates for new therapies. 

The graph analytics approach enabled the research team to identify thousands of drug repurposing opportunities 

that warranted further investigation. For example, this methodology revealed that nelfinavir, which is used to treat 

HIV, showed selectivity in a separate research study for HER2-breast cancer. The ISB team came to the same 

conclusion about nelfinavir in a fraction of the time, with no need for hands-on “wet lab” work to test the hypothesis 

- validating the accuracy and efficacy of the big data approach for identifying drug treatment solutions. 

THE URIKA-GD PLATFORM ADVANTAGE 

The Urika-GD system, with its large global shared memory, RDF/SPARQL interface and proprietary Threadstorm 

multithreaded graph processors, allowed the team to rapidly integrate ISB’s proprietary data with publicly available 

data, enabling the researchers to identify new relationships in the data without any upfront modeling. No advance 

knowledge of the relationships within the data is required to identify non-obvious patterns, facilitating true data 

discovery. 

Using the Urika-GD platform instead of traditional database strategies and investigative laboratory experiments, 

the ISB researchers significantly reduced the time to discovery, saving months or years of research with a higher 

probability of success. 


20


SOLUTION BRIEF | CANCER RESEARCH 

The impact of using a more powerful analytics solution was immediate-and dramatic: In the amount of time it previously 

took to validate a single hypothesis, the team could now validate 1,000. 

About Urika-GD The Urika-GD big data appliance for graph analytics helps enterprises gain key insights by discovering 

relationships in big data. Its highly scalable, real-time graph analytics warehouse supports ad hoc queries, 

pattern-based searches, inferencing and deduction. The Urika-GD appliance complements an existing data warehouse 

or Hadoop® cluster by offloading graph workloads and interoperating within the existing analytics workflow. 

ABOUT CRAY GLOBAL SUPERCOMPUTING LEADER 

Cray Inc. provides innovative systems and solutions enabling scientists and engineers in industry, academia and 

government to meet existing and future simulation and analytics challenges. Leveraging more than 40 years of 

experience in developing and servicing the world’s most advanced supercomputers, Cray offers a comprehensive 

portfolio of supercomputers and big data storage and analytics solutions delivering unrivaled performance, efficiency 

and scalability. Go to www.cray.com for more information. 

©2014 Cray Inc. All rights reserved. Specifications subject to change without notice. Cray is a registered trademark 

and Urika-GD is a trademark of Cray Inc. All other trademarks mentioned herein are the properties of their respective 

owners. 20140915 

www.cray.com 


21


CSC - HGST 

AMÉLIORER LA SATISFACTION CLIENT ET LA QUALITÉ DES PRODUITS 

AVEC UNE PLATEFORME BIG DATA AS A SERVICE 

Western Digital, l’un des leaders mondiaux de la conception et de la fabrication de disques durs s’est attaqué 

au défi d’accroître la qualité de ses disques durs, d’améliorer l’efficacité opérationnelle de sa fabrication et de 

permettre aux personnes de toute l’entreprise de profiter de nouvelles données. Le problème auquel l’entreprise 

devait faire face était des ensembles de données qui devenaient si vastes et complexes qu’il devenait compliqué 

de travailler avec ces données en utilisant les outils et techniques habituels. En utilisant la solution CSC Big Data 

Platform as a Service pour relever ces défis, la totalité des sources de données disparates de HGST a pu être mise 

en pratique professionnelle en fournissant des outils permettant d’afficher l’ensemble de « l’ADN » de l’entreprise 

— du développement à la fabrication, en passant par les tests de fiabilité et le marketing et les ventes - pour que 

tout soit accessible à tout moment et en quelques secondes. Une fois en production, la plateforme de big data CSC 

leur a permis d’accroître les normes de qualité, d’améliorer la qualité du produit fini et d’augmenter les niveaux de 

satisfaction des clients. Le retour sur investissement du projet a été immense grâce à des économies tirées des 

cas d’utilisation initiaux qui ont payé pour l’intégralité de cet effort en trois mois. 

ENJEU 

L’unité des disques durs (DD) de Western Digital devait relever plusieurs défis, comme des échéances de projet 

très courtes, l’intégration de sources de données disparates, une expertise interne réduite et des volumes de données 

gigantesques. Lorsqu’une intégration client échoue lors d’un test, le client de Western Digital demande à 

voir les données de fiabilité pour tous ses disques durs, afin d’établir une comparaison. Avant, ce processus aurait 

pris des semaines d’effort manuel, notamment si les données devaient être extraites de différents silos et bandes 

d’archive. 

SOLUTION 

Infochimps, une société de CSC, a aidé Western Digital en déployant son Big Data Cloud grâce à un moteur 

d’analyse de données machine sophistiqué. Nous avons également proposé une infrastructure très évolutive offrant 

des interfaces simples pour ajouter de nouveaux éléments de données et déployer de nouvelles analyses de 

données s’appuyant sur des solutions open source de sociétés leader du Web comme Google, Yahoo !, Facebook. 

RÉSULTATS 

Grâce à l’analyse des big data, l’intégralité de l’ADN d’un disque - du développement à la fabrication et au test de 

fiabilité - est accessible à tout moment. La nouvelle infrastructure implique une charge opérationnelle minimale (en 

tant que service entièrement géré), une échéance de développement réduite et une infrastructure souple et agile 

pour convertir efficacement les données en recettes. 


22


CSC - ASSURANCES AUTO 

COMPAGNIE D’ASSURANCE AUTOMOBILE LEADER DU MARCHÉ 

AMÉRICAIN : FOURNIR UNE PLATEFORME BIG DATA ÉCONOMIQUE POUR 

TRAITER UN VOLUME IMPORTANT DE DONNÉES TÉLÉMATIQUES 

RÉSUMÉ 

Une compagnie d’assurance automobile leader du marché qui compte plus de 18 000 agents au service de 81 

millions de clients aux États-Unis et au Canada souhaitait lancer un programme fondé sur la télématique qui permettrait 

à ses conducteurs de personnaliser leur prime automobile en fonction de leur conduite. CSC a proposé 

une plateforme de big data économique conçue et gérée pour mettre en pratique les exigences de niveau de service 

à une vitesse sans précédent afin de traiter des volumes élevés de données télématiques par le biais d’une 

plateforme à forte disponibilité. La solution a accéléré le délai de mise sur le marché et a permis de respecter les 

délais commerciaux essentiels. 

ENJEU 

Cette initiative particulièrement visible au niveau du Conseil d’Administration visait à rattraper le retard sur d’autres 

opérateurs qui offrent déjà des produits sur le marché. Elle nécessitait une plateforme prenant en charge une application 

analytique fondée sur un haut volume de données télématiques. 

Les challenges à relever étant : 

- La capacité à répondre aux exigences de mise sur le marché de l’entreprise 

- Le fossé de compétences technologiques internes 

- les plateformes technologiques actuelles n’étaient pas capables de réaliser ce traitement et n’étaient pas 

économiques 

SOLUTION 

Une plateforme solide, intégrée et sécurisée pour permettre à une application de télématique de tirer le meilleur 

parti des technologies d’infrastructure et de sécurité informatiques pour les analyses et la collecte de données. 

Un moteur d’ingestion de big data hébergé avec un réseau hautement sécurisé 

Conçu pour des volumes élevés de données télémétriques (6 millions de clients) 

Haute disponibilité fournie par 2 centres de données pour la continuité de l’activité 

Solutions de surveillance et de sécurité de classe mondiale avec assistance 24h sur 24, 7j sur 7 


23


RÉSULTATS 

La solution a permis la mise en place d‘un programme de discount sur les polices d’assurance lié à la qualité de 

conduite. Ce programme s’appuie sur l’analyse des habitudes de conduite en traitant des quantités massives de 

données venant de capteurs et en développant des modèles dynamique d’analyse de risques 

Les autres bénéfices pour le client furent : 

- des dépenses initiales limitées pour un lancement rapide 

- une plateforme hautement disponible : conçue et gérée pour mettre en pratique les exigences de niveau de service 

- une rapidité de mise sur le marché : la plateforme CSC a permis au client d’accélérer le temps de mise sur le 

marché et de respecter ses échéances commerciales essentielles. 

- une expansion et une évolution rapide au fur et à mesure que le programme est déployé et adopté au sein des 

52 états à couvrir. 

CSC - VOYAGISTE ONLINE 

COMPAGNIE LEADER DU MARCHÉ WEB EUROPÉEN DES VOYAGES 

RÉSUMÉ 

Avec l’aide de CSC, ce client leader du marché web européen des offres de voyages et de loisirs a augmenté 

significativement son chiffre d’affaire en segmentant sa base clients et en lançant une campagne marketing ciblée. 

En utilisant le modèle RFM (Recency, Frequency and Monetary Value), CSC a fusionné et nettoyé 7 sources de 

données et réalisé de l’analytique sur sa base clients. Des données ouvertes (open data) – provenant de l’INSEE 

– y ont été insérées afin d’améliorer l’algorithme d’évaluation en s’appuyant sur : 

- les données géographiques avec coordonnées GPS pour calculer les distances de voyage 

- les revenus moyens par zone d’habitation 

- l’âge moyen par prénom pour chaque client potentiel 

ENJEU 

La fusion de ce client avec un de ces compétiteurs engendra le besoin de réaliser des synergies entre les deux 

sociétés, la priorité étant de fusionner et moderniser leur Connaissance Client et de construire un nouvel outil commun 

de gestion de campagne marketing 

SOLUTION 

L’approche de CSC consista à développer une nouvelle base de Connaissance Client en : 

- définir les besoins clients avec des analystes marketing 

- dédupliquer et nettoyer les données client 


24


- ingérer des données ouvertes pour améliorer l’algorithme d’évaluation 

- construire une solution avec les meilleures technologies du marché 

CSC a recommandé la segmentation de la base clients en utilisant le modèle RFM (Recency, Frequency and 

Monetary Value) et a affiné les évaluations afin d’améliorer le retour sur investissement des campagnes marketing. 

RÉSULTATS 

CSC a délivré un “Datamart” clients pour faciliter le reporting, l’analyse et la segmentation de la clientèle. 

Grace à ce Datamart le client a augmenté : 

- sa rétention client de 5% 

- ses revenus de 6% en recommandant des stratégies d’upsell 

- ses revenus de 10% en recommandant des stratégies de cross sell 


25


DATA PUBLICA - CEGID 

ALIMENTER LES ÉQUIPES DE TÉLÉPROSPECTION EN NOUVEAUX 

PROSPECTS GRÂCE AU BIGDATA 

CEGID, PREMIER ÉDITEUR FRANÇAIS DE SOLUTION DE GESTION A FAIT APPEL AU 

SERVICE DE C-RADAR L’OUTIL DÉVELOPPÉ PAR DATA PUBLICA START UP SPÉCIALI- 

SÉE DANS LA COLLECTE DE DONNÉES B2B. 

Frédéric Bornuat, responsable du pôle connaissance client et CRM, direction marketing du Groupe Cegid, avait 

besoin de mieux identifier ses cibles de prospection afin d’alimenter les équipes de télémarketing avec des fichiers 

neufs. Il cherchait notamment à identifier des cibles très précises à savoir les entreprises sous-traitantes dans les 

secteurs de l’automobile et de l’aéronautique. Or il n’existe pas de code NAF qui permet d’identifier les entreprises 

de ces secteurs d’activité. Cegid a donc fait appel aux technologies du produit C-Radar pour les aider dans cette 

démarche de segmentation. 

Grâce à la base de données B2B alimentée par les données du web, ce travail de ciblage a été particulièrement 

rapide et efficace. Plusieurs centaines d’entreprises correspondant exactement à la cible désignée ont été identifiées 

: les équipes de télémarketing du Groupe Cegid ont été alimentées en fichiers de prospection contenant de 

nouveaux contacts, jamais identifiés. 

“Grâce à la solution C-Radar, nous avons pu traiter rapidement une base de données entreprises de plusieurs 

dizaines de milliers d’entités pour en extraire les quelques centaines de contacts très ciblés que nous voulions 

prospecter.” 

Frédéric Bornuat, responsable du pôle connaissance client et CRM, direction marketing du Groupe Cegid 

DATA PUBLICA - CCI PARIS 

CLASSER LES ENTREPRISES DANS UNE DIZAINE DE FILIÈRES MÉTIERS 

ET SEGMENTER CHAQUE FILIÈRE EN S’AFFRANCHISSANT DES LIMITES 

DES CODES NAF GRÂCE AU BIGDATA. 

La Chambre de Commerce et d’Industrie Paris Ile-de-France est un interlocuteur privilégié des entreprises de sa 

région. En effet la CCI Paris Ile-de-France collabore avec plusieurs centaines de milliers d’entreprises locales qui 

représentent près de 30% des entreprises françaises. Elle les accompagne de la création à la transmission en 

passant par toutes les étapes de leur développement. Pour être à même de répondre aux besoins des entreprises 

et d’apporter une réponse cibléee, la CCI Paris Ile de France met en place une approche par filière pour laquelle 

elle avait besoin d’être accompagnée techniquement par des experts du traitement des données B2B. 

Catherine Demongeot, directrice du marketing et de la relation clients déclare notamment “Data Publica grâce à 

son outil C-Radar nous permet de réaliser une segmentation plus fine que celle réalisée à partir de codes NAF 

par exemple. La solution C-Radar de Data Publica est une interface performante qui fournit aux conseillers, au 

quotidien, les informations par filières ainsi qu’une fiche de synthèse par entreprises. Sans la technologie de Data 

Publica ce classement aurait été moins pertinent. Nous avons apprécié la capacité de DP à mener à bien le projet, 

en respectant les délais et le budget.” 


26


DATA PUBLICA - B-POST 

ANALYSE ET SEGMENTATION PLUS FINE D’UN MARCHÉ. MISE EN PLACE 

D’UN NOUVEL OUTIL DE CIBLAGE POUR LA PROSPECTION DE 

L’ACTIVITÉ COLIS. 

Bpost (la poste belge) a lancé en 2014 un ambitieux projet pour exploiter les promesses du big data dans le domaine 

de la prospection commerciale afin de démarcher de façon plus efficace et notamment mieux segmenter 

le marché. 

Sébastien Dreossi, senior expert au service customer intelligence and business analytics et chef du projet déclare: 

“ Après avoir consulté 4 sociétés, Bpost a retenu Data Publica du fait de son approche basée sur un produit existant 

en constante évolution (C-Radar), sa capacité à s’adapter à la spécificité linguistique de la Belgique, et du 

fait de son engagement à co-créer une solution adaptée aux besoins et à la taille de bpost.” 

Les premiers résultats du projet sont conformes à nos attentes, nous avons apprécié tout particulièrement 

l’implication totale des équipes de DP, leur écoute et leur capacité à faire évoluer la solution en fonction de nos 

attentes». 


27


DATAIKU - BLABLACAR 

BLABLACAR FAIT CONFIANCE À DATAIKU 

LA CONNAISSANCE DU CLIENT, UN ENJEU DATA 

Au cœur de sa stratégie Big Data, BlaBlaCar cherche à améliorer sa connaissance client. Cette connaissance 

permet d’entreprendre une communication ciblée pour ses différents profils d’utilisateurs. Grâce à la collecte et à 

l’analyse approfondie des données, BlaBlaCar calcule des indicateurs de performance afin d’optimiser le taux de 

conversion et d’améliorer la rétention. 

DES DONNÉES ACCESSIBLES AUX ÉQUIPES MÉTIERS 

Avec le Data Science Studio de Dataiku, les équipes métiers, Marketing et BI ont la main sur les données. Elles 

peuvent ainsi acquérir des données externes, les centraliser et les formater afin de générer des rapports BI. Elles 

n’ont plus besoin de faire des demandes d’extractions de bases SQL auprès des équipes techniques. 

Avec le logiciel Data Science Studio, l’équipe en charge du projet data chez BlaBlaCar peut construire un flux qui 

récupère des données depuis diverses sources (bases SQL, données partenaires ou externes…), de les agréger 

et de les stocker dans une base Vertica optimisée pour les calculs analytiques en contexte Big Data. Par la suite, 

les équipes métiers, marketing et BI peuvent construire et consulter des rapports à loisir sans régénérer des 

requêtes complexes et couteuses sur les bases SQL de production. Une fois les rapports générés, Tableau est 

branché à la base Vertica et permet de créer des visualisations sur les données. 

LES BÉNÉFICES DE DATA SCIENCE STUDIO POUR BLABLACAR : 

« DSS est prévu pour tous les « corps de métiers » de la Data Team - du data engineer au data analyst. Avec 

l’aide de DSS, nous avons créé une structure qui nous permet de rendre autonomes les équipes d’analystes. 

Les itérations ne sont pas dépendantes des techniciens, ce qui était un de nos objectifs premiers. » 

Gaëlle Périat - BI Manager, BlaBlaCar 

A PROPOS DE BLABLACAR 

BlaBlaCar a lancé en 2011 le 1er service de réservation en ligne au monde dans le secteur du covoiturage, faisant 

de cette nouvelle pratique un véritable moyen de transport. BlaBlaCar compte aujourd’hui plus de 10 millions de 

membres dans 13 pays et connaît une croissance de 200% par an. 


28


DATAIKU - CHRONOPOST 

CHRONOPOST FAIT CONFIANCE À DATAIKU 

LE BIG DATA OUVRE DE NOUVELLES PERSPECTIVES 

Le logiciel de Dataiku, Data Science Studio, ouvre à Chronopost de nouvelles perspectives d’analyses de données 

pour mieux servir la stratégie de l’entreprise. L’historique des livraisons de Chronopost, qui contient notamment 

des données horaires et géographiques sur plusieurs années, est pleinement exploité afin de créer de la valeur. 

Les applications issues de ces données peuvent être d’ordre technique, commercial (nouvelles offres) ou opérationnel 

(optimisation de l’organisation, des processus de distribution, etc). 

OPTIMISATION DU DERNIER KILOMÈTRE AVEC DSS 

Chronopost utilise DSS pour analyser et identifier, à l’échelle de la France, les moyens opérationnels engagés chaque 

jour pour couvrir l’ensemble du territoire. Grâce à des analyses approfondies de leurs bases de données, Chronopost 

assure une qualité constante de ses différentes offres (livraison avant 13h, avant 8h…) au meilleur coût de production. 

Un score est ainsi calculé pour chaque adresse afin d’indiquer la facilité de livraison à un moment donné. 

A terme, l’objectif est d’affiner les moyens routiers nécessaires pour optimiser le dernier kilomètre quelque soit le 

moment de l’année, notamment les périodes critiques comme Noël, la fête des mères, etc. 

Le projet est mené en interne par le pôle d’assistance à maîtrise d’ouvrage de Chronopost. 

LES BÉNÉFICES DE DATA SCIENCE STUDIO POUR CHRONOPOST : 

« DSS nous permet un accès souple et direct à nos données de masse. Nous pouvons plus facilement nous en 

faire une vision globale, puis affiner notre recherche rapidement dans une architecture alliant Big Data et architecture 

standard. » 

Régine Buys - Responsable de Domaine BI 

A PROPOS DE CHRONOPOST 

Chronopost est l’un des acteurs majeurs de la livraison express de colis. En 2013, Chronopost a transporté 102,2 

millions de colis dans plus de 230 pays en Europe et dans le monde. 


29


DATAIKU - CITYVOX 

CITYVOX FAIT CONFIANCE À DATAIKU 

CONSOLIDATION DES DONNÉES : UN ENJEU BIG DATA 

Afin de mieux comprendre ses utilisateurs et leurs attentes en terme de sorties, loisirs et événements, Cityvox a 

décidé de regrouper dans un même environnement l’ensemble de ses données. Par exemple, cela comprend les 

données des utilisateurs, les historiques d’utilisation du site internet et des applications mobiles, les notations des 

utilisateurs, les renseignements sur les restaurants, etc. 

En utilisant le Data Science Studio de Dataiku, Cityvox a été en mesure de regrouper simplement ces données, 

pourtant hétérogènes, dans le but d’en tirer de la valeur. L’interface graphique et les processeurs intégrés 

ont permis de nettoyer, harmoniser, enrichir les données puis de les croiser (par lieu, événement, utilisateur…). 

Aujourd’hui, une base Vertica stocke l’ensemble des données consolidées de Cityvox. 

UN MODÈLE PRÉDICTIF POUR OPTIMISER LES PAGES RESTAURANTS 

Une fois les données centralisées et nettoyées, les équipes de Cityvox ont pu en extraire des informations et obtenir 

des pistes d’améliorations pour leur business. Par exemple, des optimisations ont été réalisées sur les fiches 

restaurants afin d’augmenter les visites sur le site. Pour ce faire, Cityvox a construit avec DSS des modèles prédictifs 

afin de déterminer les facteurs qui influent sur la satisfaction utilisateur. Une autre valorisation des données 

a été réalisée avec la génération de graphiques pour différents reportings internes. 

LES BÉNÉFICES DE DATA SCIENCE STUDIO POUR CITYVOX : 

« DSS est l’outil qui nous permet d’automatiser le nettoyage et la centralisation de toutes nos données au même 

endroit. Grâce à l’outil, nous maitrisons entièrement le processus d’entrée et de sortie de nos nombreux flux de 

données pour pouvoir en faire bon usage. » Raphaël Guillet - Directeur Technique de Cityvox 

A PROPOS DE CITYVOX 

Cityvox, entreprise née à Marseille en 1999, est un portail dédié aux loisirs et aux sorties en ville. Avec plus d’un 

million de membres et plus de deux millions de visiteurs uniques par mois, Cityvox est le site référent de l’actualité 

des sorties en France. 


30


DATAIKU - PAGESJAUNES 

PAGESJAUNES FAIT CONFIANCE À DATAIKU 

LE BIG DATA POUR DE MEILLEURES RÉPONSES 

Huit Français sur dix font appel au site PagesJaunes.fr pour se renseigner ou pour faire la promotion de leur 

activité, ce qui génère plusieurs centaines de millions de requêtes chaque année. La qualité et la pertinence des 

résultats de ces requêtes est donc un enjeu majeur pour PagesJaunes. L’objectif du projet était pour PagesJaunes 

d’améliorer la qualité de ses réponses, en automatisant la détection et la correction des requêtes problématiques. 

DATA SCIENCE STUDIO EN ACTION 

PagesJaunes a choisi l’expertise de Dataiku et son Data Science Studio qui combine des outils de gestion de données, 

de statistiques, de visualisation et d’analyse prédictive en contexte Big Data. 

Le projet tire massivement parti de la richesse de l’écosystème Open Source intégré à Data Science Studio : 

Python, scikit-learn, Pig, Hive, ElasticSearch, etc. Des données issues de l’utilisation du moteur de recherche 

(listes des requêtes, logs de navigation et clics, ordre des visites des pages, etc.) sont assemblées et exploitées 

afin d’isoler les recherches infructueuses. Un score est ainsi calculé pour chaque requête afin de prédire celles 

qui donnent des réponses non-satisfaisantes aux utilisateurs. Ceci permet de cibler les failles du moteur et par 

conséquent d’améliorer l’expérience utilisateur. 

Depuis le début du projet, une dizaine de collaborateurs PagesJaunes ont été formés à l’usage d’Hadoop, 

des statistiques et du « Machine Learning » via le Data Science Studio. Ce projet a servi de pilote et a permis 

l’émergence chez Pages Jaunes de plusieurs autres initiatives d’innovation par la donnée. 

LES BÉNÉFICES DE DATA SCIENCE STUDIO POUR PAGESJAUNES : 

« La technologie de Dataiku nous a permis de rationaliser notre approche, en utilisant des statistiques basées 

sur des millions de requêtes, le procédé est carré et nous travaillons en conscience ! » 

Erwan Pigneul, Responsable Projet PagesJaunes 

A PROPOS DE PAGESJAUNES 

PagesJaunes.fr est le leader français de la publicité et de l’information locale sur Internet, mobile et papier. 

Il est un client historique de Data Science Studio, la solution de Dataiku. 


31


DATAIKU - PARKEON 

PARKEON FAIT CONFIANCE À DATAIKU 

BIG DATA, TROUVE-MOI UNE PLACE DE PARKING 

Parkeon a créé « Find Me A Space », une application mobile unique permettant aux conducteurs de trouver une 

place de stationnement disponible. 

Sous son apparente simplicité se cachent des algorithmes prédictifs de dernière génération, valorisant des millions 

de transactions de parcmètres chaque jour, croisées avec des données géographiques « crowdsourcées » 

d’OpenStreetMap (points d’intérêt tels que les restaurants et commerces) afin de prédire la pression de stationnement 

de manière individualisée dans chaque rue. Cette application, simple et intuitive, est un exemple typique 

de « Data-Product » moderne : exploitation et enrichissement de données machines, algorithmes prédictifs en 

environnement Big Data et packaging grand public (application iOS). 

DATA SCIENCE STUDIO EN ACTION 

Pour développer le back-office prédictif de l’application, Parkeon a choisi d’utiliser le Data Science Studio (DSS) de 

Dataiku, qui a permis l’intégration des données parcmètres, l’enrichissement avec des données géographiques, le 

développement des modèles prédictifs de stationnement et leur industrialisation à grande échelle. 

LES BÉNÉFICES DE DATA SCIENCE STUDIO POUR PARKEON : 

« Nous avons été séduits par la capacité de DSS à fonctionner sur des volumétries importantes de 

données ainsi que par son côté ouvert et transparent quant au fonctionnement des algorithmes. » 

Yves-Marie Pondaven, CTO de Parkeon 

A PROPOS DE PARKEON 

Parkeon, leader international dans le secteur de la mobilité urbaine, propose des équipements et des services 

permettant de maîtriser tous les aspects de la gestion d’une infrastructure de stationnement (notamment des parcmètres, 

plus de 50% de parts de marché mondiale). 


32


DELL - DANSKE BANK 

DANSKE BANK, PREMIÈRE BANQUE DANOISE, CHOISIT DELL STATISTICA 

POUR OPTIMISER SES PERFORMANCES ET RÉDUIRE SES RISQUES OPÉ- 

RATIONNELS 

DANSKE BANK, PREMIÈRE BANQUE DANOISE ET L’UNE DES PLUS IMPORTANTES 

INSTITUTIONS FINANCIÈRES D’EUROPE DU NORD, ADOPTE LA SOLUTION D’ANALYSE 

DE DONNÉES ET DE MODÉLISATION PRÉDICTIVE, DELL STATISTICA, POUR LA GES- 

TION DU RISQUE ET SES OPÉRATIONS DE SCORING. 

Danske Bank a déployé la Plate-Forme Décisionnelle Dell Statistica pour la modélisation, le reporting et la gestion 

du risque. La solution fournit une aide à la décision en temps réel pour des besoins métiers variés et de très 

nombreux sites en Europe. 

Le logiciel Dell Statistica permet d’accélérer la création, le test et le déploiement des modèles de risque, et permet 

à Danske Bank d’offrir à ses clients des services sur-mesure à plus forte valeur ajoutée, dans tous les pays et pour 

tous les marchés. 

« Travailler avec les experts de la Danske Bank a été réellement passionnant. Nous avons réussi à créer ensemble 

un système de scoring en temps-réel très performant. Ce système permet une recalibration aisée des 

modèles, une grande précision dans la prédiction du risque, et offre d’excellents temps de réponse sur de grosses 

volumétries de données en temps-réel et dans un environnement exigeant » confie George Butler, Vice-Président 

en charge du Développement chez Dell Statistica. « La solution mise en place est un véritable état de l’art technologique, 

déployé dans environnement informatique de pointe » 

Lorsque Danske Bank a décidé de mettre à jour son système informatisé de gestion du risque et de scoring, 

l’opportunité s’est présentée de faire évoluer l’ancienne plate-forme analytique vers une plate-forme plus performante, 

pouvant facilement répondre aux différents besoins métiers en termes d’ETL, de scoring, de reporting et 

d’aide à la décision en temps réel. 

Danske Bank a réalisé pendant près de deux ans une étude approfondie et un comparatif minutieux des solutions 

et des plates-formes analytiques disponibles sur le marché, qui ont finalement abouti au choix de la Plate-Forme 

Décisionnelle de Dell Statistica. Danske Bank a eu recours à Dell Statistica pour la mise en oeuvre de la solution, 

la formation des utilisateurs ainsi que d’autres services en vue d’assurer une transition en douceur et dans les 

délais impartis pour ce projet. 

La solution Dell Statistica est aujourd’hui en production afin de répondre aux besoins de la Danske Bank dans ses 

applications métier courantes et ses opérations en temps-réel. Danske Bank a été particulièrement impressionnée 

par la flexibilité et la convivialité des solutions de Dell Statistica, ainsi que par l’étendue et la puissance des 

fonctionnalités offertes. 

« Nous sommes très heureux des efforts déployés par Dell Statistica pour comprendre les besoins de Danske 

Bank et fournir une solution répondant à ces besoins » déclare Jens Chr. Ipsen, Premier Vice-Président et Directeur 

du Développement des Systèmes de Gestion du Risque. « La solution proposée a été facile à intégrer, et a 

été déployée dans le respect des délais et des coûts impartis. Dell Statistica a été très réactif aux demandes de 

modifications fonctionnelles, et les équipes de Dell Statistica sont à la fois professionnelles et sympathiques. La 

solution proposée est désormais totalement opérationnelle et fonctionne parfaitement. » 

« Dans un environnement de plus en plus complexe pour les modèles de risque, la solution mise en oeuvre par 

Dell Statistica constitue un socle solide pour assurer le suivi du contenu, des performances et des versions des 

différents modèles » conclut Monsieur Ipsen. 

« Cette intégration de la Plate-Forme Décisionnelle de Dell Statistica avec les systèmes de Danske Bank démontre 

l’importance pour un logiciel d’adhérer aux conventions et aux normes d’intégration actuelles, pour la mise 

en oeuvre réussie et rapide d’une solution analytique de pointe dans un environnement informatique mature et 

complexe, et qui doit répondre à des besoins multiples comme c’est le cas pour Danske Bank. » souligne George 

Butler. « Le fait que Dell Statistica soit en mesure de fournir une plate-forme logicielle moderne, non seulement 

très performante mais également capable de coexister en parfaite harmonie avec les systèmes informatiques 

existants, est essentielle pour générer de la valeur immédiatement et sur le long terme. » 

Les composantes de la plate-forme Dell Statistica déployée chez Danske Bank comprennent Dell Statistica Enterprise 

Server, Dell Statistica Data Miner avec Optimisation de Processus, le Système Expert de Suivi et d’Alertes 

de Dell Statistica, Dell Statistica Live Score ainsi que la Plate-Forme Décisionnelle de Dell Statistica. Le système 

est utilisé en particulier pour le développement des modèles analytiques et le scoring du risque crédit, qui sont des 

applications essentielles dans toutes les banques du Groupe Danske Bank. 


33


AUTRES CAS D’USAGES AVEC LA SOLUTION DELL STATISTICA 

Continental Automotive a sélectionné la solution Statistica afin de classer des images transformées numériquement 

pour prévoir et contrôler la qualité de sa production. 

http://www.statsoft.com/Portals/0/Customers/Success_Stories/2013-Continental-Automotive-Success-Story.pdf 

EOS KSI a sélectionné Statistica pour optimiser ses processus de recouvrement de la dette http://www.statsoft. 

com/Portals/0/Customers/Success_Stories/2013-eosKSI.pdf 

Unipetrol RPA utilise Statistica Réseaux de Neurones pour analyser ses processus de production https://www. 

statsoft.com/Portals/0/Customers/Success_Stories/StatSoft-Unipetrol-SuccessStory.pdf 

A PROPOS DE DELL STATISTICA 

Dell Statistica est l’un des principaux éditeurs de logiciels analytiques avec 30 centres de compétences dans le 

monde et plus d’1 million d’utilisateurs. Dell Statistica est un système intégrable à l’échelle de l’entreprise qui est 

utilisé dans de nombreuses applications critiques, partout où la modélisation prédictive permet d’améliorer la productivité 

et la rentabilité. Dell Statistica est en outre fier de contribuer à l’amélioration de la santé, au renforcement 

de la sécurité et à la préservation de l’environnement. 

Plus ergonomique et offrant un meilleur rapport qualité-prix par rapport à ses concurrents, 

Dell Statistica est sans conteste l’un des logiciels analytiques les plus performants et les plus évolués à ce jour 

; les utilisateurs apprécient particulièrement la qualité et le soin apportés à son développement, garants depuis 

toujours de son succès. 

INFORMATIONS COMPLÉMENTAIRES : 

Pour obtenir plus d’informations visitez notre site Internet : www.statsoft.com 

Pour télécharger une version d’évaluation : http://software.dell.com/products/statistica/ 

Pour obtenir notre livre blanc, la Révolution du Big Data… Comment extraire de la valeur à partir des Big Data : 

http://www.statsoft.fr/pdf/la_revolution_du_big_data.pdf 

Pour visualiser les vidéos « Le Data Mining en 35 leçons » : https://www.youtube.com/playlist?list=PL0C134C89 

8122050E 

Pour avoir plus d’informations contactez-nous : info.statistica@software.dell.com 


34


DELTAMU - SANOFI-PASTEUR 

SANOFI-PASTEUR – N°1 MONDIAL DU VACCIN 

Dans le cadre de la qualité de ses productions de vaccins, Sanofi Pasteur utilise de nombreuses micropipettes. 

Compte tenu de l’exigence Qualité autour de ses vaccins, l’entreprise vérifie périodiquement ses micropipettes. 

Ces vérifications consistent en la réalisation de mesures de la masse de volumes d’eau pipetés. Ces masses, 

converties en volume à partir de la masse volumique de l’eau (et des conditions environnementales, température, 

pression et hygrométrie, de cette mesure), permettent de s’assurer que le volume prélevé est bien le volume souhaité. 

L’analyse des écarts entre « volume mesuré » et « volume prélevé » permet d’écarter les micropipettes qui 

n’ont pas la performance attendue. 

L’étude conduite par Delta Mu a permis de montrer que, contrairement aux idées initiales, les écarts observés 

étaient dus en grande majorité à la variation de pipetage des techniciens chargés de l’opération plutôt qu’aux 

micropipettes. Impossible, dans de telles conditions, de tirer des conclusions pertinentes quant à un phénomène 

si la mesure (Dans cet exemple, et finalement, le technicien) n’est pas représentative de la grandeur qu’on croit 

mesurer (la micropipette) ! 

Lire http://www.deltamu.fr/Publications/TelechargerArticlePublication/57 

DELTAMU - TRAITEMENT THERMIQUE 

PME DANS LE DOMAINE DU TRAITEMENT THERMIQUE 

Spécialisée depuis plus de 20 ans dans le traitement thermique de pièces métalliques, la société mesure par 

échantillonnage la qualité de sa production. Les mesures sont réalisées sur les pièces, après traitement. Il s’agit 

de quantifier la dureté obtenue une fois réalisé le process de trempe. Ses principaux clients lui demandent de 

s’assurer de la capabilité de ses processus de mesure, cette exigence étant notamment inscrite au rang des exigences 

de la norme Qualité qui lui est imposée (FD ISO/TS 16949). 

Accompagnée par Delta Mu dans l’analyse des résultats obtenus, l’entreprise se rend (enfin) compte que ses 

mesures (qu’elle croyait fiables) dispersent 3 fois plus que le process qu’elle contrôle avec ! Ses mesures ne lui 

permettent finalement pas de voir réellement sa production … 

Note : L’étude de capabilité consiste à s’assurer, via un plan d’expérience spécifique, que l’incertitude de mesure 

(fiabilité) est compatible avec la dispersion du process à analyser. 

DELTA MU DANS LE BIG DATA 

Forte d’une compétence reconnue dans le domaine de l’évaluation de la qualité des mesures (fiabilité), Delta Mu 

intervient à différents niveaux : 

• Evaluation de la qualité des mesures, c’est à dire leur capacité à représenter le plus fidèlement possible la grandeur 

recherchée ; 

• Préconisations en vue de l’amélioration de la qualité des mesures (si nécessaire) ; 

• Préconisations quant au maintien de la qualité des mesures dans le temps ; 

• Préconisations quant à la robustesse des mesures en cas de changement de capteurs. 

Note : La robustesse se définit comme étant l’insensibilité d’une mesure à une cause d’incertitude. 

La prestation prend plusieurs formes : Diagnostic/expertise sur site, Rapport de préconisations, développement 

de briques « logiciel » spécifiques, formation, … 


35


HP - AT&T 

AT&T LEVERAGES HP VERTICA ANALYTICS PLATFORM TO CHANGE 

THE ECONOMICS OF PROVIDING ACTIONABLE INSIGHTS TO 

DECISION MAKERS 

OVERVIEW 

AT&T has made Big Data analytics a core component of the business decision-making process to drive its growth 

and maximize customer satisfaction. In May 2013, the telecommunications company augmented its Enterprise 

Consolidated Data Warehouse with the HP Vertica Analytics Platform (HP Vertica) to improve the performance of 

critical analytics workloads. HP Vertica, a core engine of the HP HAVEn Big Data Platform, has surpassed AT&T’s 

expectations and is providing company decision makers with actionable insights into areas such as customer and 

network use patterns. 

John Yovanovich, Director of Data Strategy, Delivery, and Support at AT&T, explained that his company chose the 

HP Vertica Analytics Platform after concluding that “we needed a platform that supported the columnar database 

technology required by critical workloads.” This conclusion reflected the increasingly 

prominent position of Big Data analytics at AT&T and the potential value the company sees in it. 

Yovanovich credits HP Vertica with changing how analytics are consumed and used by AT&T’s lines of business 

(LOBs). Above all, his internal LOB clients demand a robust analytics platform that can 

run required queries quickly and efficiently. Before deploying HP Vertica, AT&T could not fully exploit the potential 

of Big Data analytics because of the cost and time associated with running certain queries on its legacy platform. 

With HP Vertica, Yovanovich’s team provides superior outputs at a much lower cost, so business teams are bringing 

many more projects to his team. 

Yovanovich cited a number of ways in which HP Vertica drives value for AT&T. From the onset, the move avoided 

investment costs of $11 million in pending capacity expansion. Business decision makers get query results in less 

time and can run more complex queries and analyses. As such, they have more actionable information in their hands 

sooner, which helps them craft improved business strategies and make better decisions. This results in improved 

services for AT&T’s customers, improved customer relationships, and operational efficiencies. 

Meanwhile, Yovanovich’s team has benefited from the speed with which HP Vertica runs queries and its ease of use; 

he estimates that teams responsible for preparing and carrying out data queries have become roughly 20% more productive 

since deploying HP Vertica. Finally, AT&T is paying much less to run analytics workloads on HP Vertica than it 

was paying to run analytics workloads on its legacy platform. This allows business units to migrate certain workloads 

to HP Vertica and pay much less even as the quality and speed of the outputs improve substantially. 

Based on discussions with Yovanovich, IDC calculates that AT&T is achieving discounted benefits of 

$63.38 million over five years with its to-date deployment of 570TB of data on HP Vertica, including cost savings 

on analytical queries compared with its legacy row-based analytics platform, costs avoided for increasing its legacy 

platform’s capabilities, more efficient retention of data, and improved productivity for its data analytics team. Over a 

projected five-year period, this results in a return on investment (ROI) of 657% and a payback period of 4.0 months. 

IMPLEMENTATION 

AT&T’s Big Data strategy is centered on leveraging the voluminous customer use data that feeds into the company’s 

Enterprise Consolidated Data Warehouse to create actionable insights and ultimately business advantages. 

As of October 2014, the warehouse employs 3.2PB of storage in total and supports all of AT&T’s home and business 

solutions product and service lines. The foundation of AT&T’s Big Data strategy is to feed this huge amount 

of information — more than 100 million files an hour flow from AT&T cellular towers alone — into shared relational 

databases and then move this data into the data warehouse via the Hadoop open source software framework for 

analysis driven by analytics platforms. 

Two years ago, AT&T began evaluating columnar-based analytics engines after concluding that performance limitations 

with its legacy row-based analytics solution would prevent it from fully leveraging data to drive its business. 

It had discovered that it could not economically run many of the complex data queries and analyses requested by 

its LOBs on its legacy row-based analytics platform. As a result, AT&T sought a more robust, query-oriented analytics 

platform with columnar-based analytics technology to enable it to handle more complex queries and handle 

queries more efficiently. 

AT&T carried out a proof of concept with several Big Data analytics engines and found that HP Vertica came out 

on top in both performance and cost. “No one came close to HP Vertica on price,” Yovanovich said. “We also liked 

the fact that they are a market leader in columnar database technology with a proven track record among largevolume 

customers like us.” 


36


AT&T initially deployed HP Vertica in May 2013 over four days with four employees in support. Onsite training was 

initially provided for 15 employees and has since continued. “HP Vertica performed well out of the box,” Yovanovich 

said. “It has exceeded my expectations. It’s quicker, so we spend less time on design. Also, we’re able to spend 

more time on development to make sure we put out the best-performing product possible.” 

In the first year, AT&T deployed 70TB of new data that had never been sourced to another data analytics platform 

to HP Vertica. It also migrated about 160TB off of its legacy analytics platform to HP Vertica, which opened up 

space on that platform and improved its throughput. Yovanovich expects HP Vertica to support a growing percentage 

of AT&T’s data warehousing operations over the next four years, fueled by new projects, mergers and acquisitions, 

and organic growth. 

BENEFITS 

HP Vertica has changed the economics of using Big Data analytics for AT&T’s LOBs while minimizing the likelihood 

that performance bottlenecks will prevent business teams from realizing the full potential of Big Data analytics. As 

a result, AT&T’s data analytics team can now provide more actionable data, and Big Data analytics has become 

an important component of the company’s growth plans. Yovanovich described a number of ways in which AT&T’s 

strategic decision makers are leveraging queries and analyses made possible by HP Vertica. He explained: “We’re 

enabling our marketing team to create significant customer insights with HP Vertica based on data records that 

they never could before.” This results in personalized customer marketing efforts because “we can determine 

which messages and ads to present to a customer based on the customer’s profile and use history.” Strategic 

business decision makers at AT&T are also increasingly leveraging analytics delivered by HP Vertica to make important 

decisions. Yovanovich explained that AT&T uses call detail analyses to understand how its customers use 

its network of cellular towers and then applies this understanding to its strategy for investing in and expanding its 

cellular network infrastructure. This analysis, which took 17 hours to complete on AT&T’s legacy analytics engine, 

takes just more than 30 minutes to complete with HP Vertica. This means that AT&T can now run these analyses 

more often and provide its strategic decision makers with actionable data and insights into how its network is being 

used on a more regular, timely basis. 

The speed with which HP Vertica can run queries and analyses means that users get results faster and can better 

integrate them into their decision-making processes. AT&T is also leveraging HP Vertica’s improved compression 

capabilities — 6:1 rather than 2.5:1 with the legacy system — to double the retention time of data for analytics use 

from three months to six months. Yovanovich said that this improves the quality of queries and analyses by providing 

more complete insights based on a longer history. He said, “My goal is to retain 13 months of data, and I expect 

to do this within a year or so, which would give us full seasonality.” 

In addition to having a positive impact on AT&T’s lines of business, HP Vertica has altered the economics of Big 

Data analytics. HP Vertica costs only a fraction per terabyte (TB) of what AT&T’s legacy analytics platform costs. 

This means that Yovanovich’s team can offer the win-win proposition of improved analytics outputs at a much 

lower price thanks to the savings it is achieving with HP Vertica. As a result, business teams can afford to support 

more projects with analytical queries and data. For Yovanovich, the result is straightforward: “We save our lines of 

business so much money on capital with HP Vertica that they give us more projects.” AT&T’s data analytics team 

handles this increased project workload in part because of efficiencies it gains by using HP Vertica. Yovanovich 

cited the ease of using HP Vertica and its ELT approach (Extract, Load, Transform): “Take the source data, load it 

onto the platform, and then transform it on Vertica. This allows you to go directly to provisioning the data because 

you don’t need to get it ready to put on the platform.” This allows his team to more accurately track any errant code 

and ultimately close tickets faster. Yovanovich estimated that his team is about 20% more efficient with HP Vertica 

because “we spend less time with system requirements and development to transform data into an appropriate 

model that our internal end users want to see.” HP Vertica has also helped AT&T achieve other cost savings related 

to its use of Big Data analytics engines. By migrating projects from its legacy analytics platform onto HP Vertica, 

AT&T lengthened the life span of its existing system by about 16 months, which is allowing it to avoid significant 

expenses associated with buying more space on the system. 

QUANTIFYING THE BENEFITS 

Based on interviews with Yovanovich about AT&T’s use of the HP Vertica Analytics Platform, IDC has quantified the 

benefits the company is realizing from its to-date deployment of 570TB. When projected 

over five years, the benefits from improved data analytical operations, cost reductions, and increased data warehousing 

team productivity averaged $17.81 million per year. 

BUSINESS PRODUCTIVITY BENEFITS/IT INFRASTRUCTURE COST REDUCTIONS 

The HP Vertica Analytics Platform has allowed AT&T’s lines of business to make analytics a more central part of 

their operations and planning. For the purposes of this study, IDC has quantified the benefits to these business 

teams as the difference in cost for the use of the 160TB of capacity on HP Vertica that was transitioned from the 

legacy row-based analytics solution while also taking into account employee time costs associated with making 

this transition. IDC calculates the value to AT&T’s business teams at an average of $16.53 million per year over 

five years. 

In addition to these cost efficiencies, AT&T business teams benefit from HP Vertica by being able to afford to run 

more queries and analysis and being able to run more robust queries. This translates into productivity gains for 

business team end users as well as higher revenue for AT&T through the development of more powerful applications 

and enhanced strategic decision making, although these benefits have not been quantified separately for the 

purposes of this study. 


37


IT STAFF PRODUCTIVITY BENEFITS 

AT&T’s team dedicated to supporting data analytical operations has also become more efficient and productive 

since deploying HP Vertica. In particular, HP Vertica makes the data ingestion process faster and less labor intensive. 

This means that AT&T has been able to evolve its ELT approach so that staff spend less time on system 

requirements and development to transform data into deliverables that serve end users. In addition to benefiting 

end users by shortening the overall query process, it also means that the data analysis support team spends less 

time on each query or request. As a result, the teams supporting AT&T’s data analysis efforts have been able to 

cope with higher demand for their services based on the lower price point for queries run with HP Vertica without 

a commensurate increase in staff size. This is a significant benefit for AT&T given that it has several hundred employees 

supporting its data analytics efforts. IDC calculates that this benefit has a value of $1.28 million per year 

over five years in increased efficiency and higher productivity for these team members. 

RETURN ON INVESTMENT 

IDC projects that over five years, AT&T will achieve total discounted benefits of $63.38 million by using 

the HP Vertica Analytics Platform versus a discounted investment of $8.37 million. This results in a five-year ROI 

of 657%, with breakeven on its investment in HP Vertica occurring in 4.0 months. 

IDC conducted several interviews with AT&T to quantify the benefits and investment associated with its use of the 

HP Vertica Analytics Platform and created an ROI analysis from the results. 

IDC calculates the ROI and payback period in a three-step process: 

1. Measure the benefits from increased IT staff and user productivity and other cost savings since deployment. 

2. Ascertain the total investment. 

3. Project the investment and benefit over five years and calculate the ROI and payback period. The ROI is the 

five-year net present value of the benefit divided by the discounted investment. To account for the time value of 

money, IDC bases the ROI and payback period calculations on a 12% discounted cash flow. 

IDC ExpertROI® SPOTLIGHT - Sponsored by: HP - Matthew Marden - November 2014 

HP - BLABLACAR 

HP AIDE BLABLACAR À AMÉLIORER SON EXPÉRIENCE CLIENT 

La plateforme communautaire renforce l’efficacité de ses campagnes marketing en exploitant la puissance des 

analyses de données Big Data avec HP Vertica 

BlaBlaCar, la place de marché communautaire en ligne qui met en relation des conducteurs disposant de places 

dans leur véhicule avec des passagers à la recherche d’un trajet en voiture a amélioré la fidélisation de ses clients 

et l’efficacité de ses campagnes marketing en réalisant des analyses Big Data avec HP Vertica. 

BlaBlaCar, la startup innovante et performante dont le siège est situé à Paris, et dont les équipes sont réparties à 

Madrid, Milan, Varsovie, Hambourg, Londres et Moscou, a créé un modèle de réseau social de transport entièrement 

nouveau. Avec son site web et sa plateforme mobile sophistiqués, un centre de service client dédié et une 

communauté d’utilisateurs en forte croissance, BlaBlaCar rend le voyage en voiture moins coûteux, plus convivial 

et plus pratique pour plus de 10 millions de membres répartis dans 12 pays. 

« BlaBlaCar connait un succès tel parmi les voyageurs européens, que nous transportons chaque mois plus de 

personnes que l’Eurostar, et que nous traversons une phase de croissance internationale rapide » déclare Gaëlle 

Periat, Manager Business Intelligence chez BlaBlaCar. « La Business Intelligence est au cœur de nos mécanismes 

de prise de décision. Nous avons choisi une approche centrée sur les données pour améliorer l’efficacité 

de notre marketing. Plus de deux millions de personnes utilisent les services de BlaBlaCar tous les mois, et HP 

Vertica nous aide à exploiter toute la puissance de nos Big Data pour optimiser la performance de nos campagnes 

de Gestion de la Relation Client et améliorer le confort d’utilisation de nos services pour nos clients. » 

Le logiciel HP Vertica, installé sur un cluster Hadoop Cloudera, fournit à BlaBlaCar une plate-forme d’analyse 

Big Data en temps réel. Conçue pour supporter des charges de travail intensives, elle délivre des performances 

de requêtes SQL ad hoc qui ont décuplé l’efficacité des campagnes marketing en permettant la manipulation et 

l’analyse des données à une fréquence plus élevée, à un niveau de granularité plus fin et à partir de plusieurs 

points d’accès. 

Dans le futur, HP Vertica permettra à BlaBlaCar d’affiner encore davantage ses activités marketing en intégrant 


38


des informations provenant des réseaux sociaux, et en prédisant le comportement de ses clients grâce à des mécanismes 

de reconnaissance des tendances. 

Supervisé depuis une machine virtuelle sous Debian 6, le cluster distribué Hadoop est composé de deux machines 

équipées de HP Vertica, d’une machine tournant le logiciel Tableau pour l’exploration et la visualisation des données, 

et d’une machine équipée du logiciel Data Science Studio de Dataiku. Cette structure permet à BlaBlaCar 

de donner une autonomie informatique complète à ses équipes d’analyses de données et de garantir des temps 

de traitement très courts. 

« Pour répondre à leurs défis en termes de marketing, des entreprises comme BlaBlaCar ont besoin d’analyser 

des volumes massifs de données – structurées, semi-structurées et non-structurées – à des vitesses jamais atteintes 

» déclare Florence Laget, Directrice de l’activité Big Data chez HP France. « La plateforme analytique HP 

Vertica a été conçue pour offrir rapidité, évolutivité, simplicité et ouverture, et architecturée pour effectuer des 

traitements analytiques de 50 à 1000 fois plus rapides qu’avec les solutions de DataWarehouse traditionnelles. » 

HP - METROPOLITAN POLICE DE LONDRES 

LA METROPOLITAN POLICE DE LONDRES UTILISE LES MÉDIAS SOCIAUX 

POUR MOBILISER LA COMMUNAUTÉ LOCALE. 

Les solutions HP Autonomy permettent à la principale police britannique de mieux impliquer la population et de 

répondre à des événements locaux. Conscient des lacunes dans le suivi et l’utilisation des médias sociaux, le 

Metropolitan Police Service (MPS) a démarré avec HP pendant l’été des Jeux olympiques de Londres le déploiement 

d’outils d’analyses des médias sociaux. Le résultat est un engagement plus efficace de la communauté, un 

signalement anticipé des problèmes, et une analyse plus précise des sentiments sur les médias sociaux. Ces 

résultats ont bénéficié aux opérations de police, y compris les renseignements et les enquêtes criminelles. 

Le Metropolitan Police Service (MPS) est la force policière la plus importante du Royaume-Uni, avec 31 000 

agents et plus de 10 000 employés de support. Il couvre une population de 7,2 millions d’ habitants et des événements 

publics majeurs du Royaume-Uni. À l’été 2012, le MPS a supervisé les Jeux Olympiques de Londres et les 

Jeux Paralympiques, ainsi que la Royal Jubilee et le Carnaval de Notting Hill annuel. Cela a nécessité un niveau 

de maintien de l’ordre sans précédent. 

Conscient des missions du MPS et ses projets sur les médias sociaux à long terme, HP Autonomy a proposé un 

essai pour aider à mieux comprendre et à utiliser l’analyse des médias sociaux (SMA) pour l’engagement communautaire. 

HP est un fournisseur important pour la police au Royaume-Uni, fournissant des éléments clés de son 

infrastructure informatique. Le déploiement test s’est déroulé de juillet à septembre dans deux arrondissements de 

Londres, Haringey et Hammersmith & Fulham. Il a aidé le MPS à élaborer une stratégie à long terme pour les médias 

sociaux et a donné un aperçu sur la façon dont les médias sociaux peuvent être utilisés pour faire progresser 

l’engagement de la communauté, la collecte de renseignements et les enquêtes criminelles. 

Rapide à mettre en œuvre, adaptable aisément, la solution HP Autonomy exploite la puissance de IDOL (Intelligent 

Data Operating Layer) pour comprendre automatiquement les concepts exprimés dans les tweets, les articles de 

presse et les blogs. IDOL est capable d’identifier les tendances, les thèmes et les sujets connexes, naviguant 

automatiquement dans la masse des données. Cela offre une compréhension en temps réel de ce qui capte 

l’attention du public. Pour le MPS, il a produit des rapports sur des thèmes, des tendances et mots à la mode, 

consolidés sur un tableau de bord unique, personnalisable pour chaque utilisateur. 

RÉSOUDRE LE PROBLÈME DE «L’ AIGUILLE DANS LA BOTTE DE FOIN » 

Le test a été rapidement considéré comme un succès, et a été poursuivi jusqu’en novembre. L’impact le plus évident 

était que la solution HP autonomy a pu faire face aux grands volumes de données non structurées générées. 

En moyenne, il y avait 2 306 796 tweets par jour en provenance de Londres du 12 Juillet au 13 Août, avec un pic 

de 3 291 998 le jour de la cérémonie d’ouverture des Jeux Olympiques. 

De ce déluge d’informations, MPS a été en mesure de déterminer de nouveaux influenceurs de la communauté et 

de recueillir un premier aperçu des questions pertinentes. Il a permis de générer des évaluations de l’impact communautaire 

beaucoup plus rapidement et avec plus de crédibilité. L’essai a également apporté une contribution 

importante aux opérations en cours en permettant à MPS : 

• Identifier une connexion entre deux sources de renseignement qui n’étaient pas identifiées jusqu’alors 

• Identifier les incidents potentiels et leurs relations beaucoup plus rapidement et avec plus de précision que par 

des moyens traditionnels 


39


• assurer une réponse opérationnelle proportionnée et appropriée à des événements communautaires très sensibles 

• Identifier plusieurs inconnus témoins d’un coup de couteau mortel 

• Transférer des tweets concernant des événements de la communauté et répondre à des tweets erronés 

• Aider à construire un glossaire des termes à utiliser pour des recherches croisées de mots-clés 

En synthèse, la solution a pu fournir une analyse précise sur une base en temps quasi réel par rapport à avant, où 

les données n’étaient disponibles que 24 heures après. 

• Vitesse de compréhension et de sensibilisation opérationnelle 

• Précision de l’évaluation menant à des décisions opérationnelles mieux informées 

• Facilité d’accès et d’évaluation de l’humeur du public et de l’opinion 

• Analyse plus efficace, fournissant automatiquement des informations plus succinctes et laissant le temps à 

l’analyste de mieux se concentrer sur les priorités 

• Capacité à prendre des décisions plus éclairées à tous les niveaux, des opérations au commandement 


40


INFORMATICA - WESTERN UNION 

GRÂCE À LA TECHNOLOGIE INFORMATICA, WESTERN UNION PROFITE 

PLEINEMENT DE TOUT LE POTENTIEL DE SES DONNÉES POUR 

PROPOSER UNE EXPÉRIENCE CLIENT EXCEPTIONNELLE 

Le leader mondial des paiements lance une initiative de transformation opérationnelle et optimise l’expérience client 

grâce à la solution PowerCenter Big Data Edition 

Western Union, leader des services de paiement mondiaux, a choisi Informatica Corporation (Nasdaq :INFA), 

premier fournisseur indépendant de logiciels d’intégration de données, dans le cadre de son projet d’intégration de 

données. En investissant dans la solution PowerCenter Big Data Edition d’Informatica pour Hadoop, Western Union 

pourra désormais fédérer les données structurées et non-structurées issues de multiples sources – mainframe, 

bases de données disparates et fichiers de logs – et les adapter à des fins de traitement sur Hadoop, quelle que 

soit la latence, en temps réel ou sur une base journalière. 

L’ambition de Western Union est d’optimiser le traitement intelligent de ses données de façon à perfectionner ses 

offres de services numériques, maximiser la satisfaction client et renforcer la fidélisation des utilisateurs à la marque 

sur l’ensemble de ses opérations mondiales. En effet, la société dispose d’un volume colossal d’informations qui 

transite au sein de son infrastructure. Rien qu’en 2013, à travers le monde, 242 millions de transactions de particulier 

à particulier et 459 millions entre professionnels, soit, en moyenne, plus de 29 transactions par seconde, 

ont été réalisées. Grâce à l’intégration et à l’analyse de ces données transactionnelles, la société va désormais 

bénéficier de multiples atouts : 

• Identification des tendances en matière d’envoi et de réception de fonds afin d’améliorer davantage l’expérience client 

• Suivi minutieux de l’évolution des transferts de fonds pour mieux planifier les stratégies d’expansion, 

• et identification des opportunités, afin de proposer à l’utilisateur une expérience intégrée sur de multiples canaux, 

notamment Internet, téléphone, boutiques et terminal mobile. « L’ensemble de nos opérations met au centre de 

nos préoccupation nos clients. Western Union dispose d›une opportunité unique d’exploiter au mieux le potentiel 

de l›analyse des données collectées à travers les nombreuses transactions. L›objectif est d›identifier des tendances 

nous permettant de mieux définir notre stratégie opérationnelle et, à terme, d’améliorer la satisfaction de 

notre clientèle. Nous nous réjouissons de la décision de poursuivre notre collaboration avec Informatica qui nous 

offrira la possibilité de maximiser le potentiel mondial de notre entreprise et de notre base clientèle. » explique 

Sanjay Saraf, senior vice president and chief technology officer chez Western Union. 

LES SOLUTIONS INFORMATICA DÉCLOISONNENT LES SILOS DE DONNÉES 

La disponibilité immédiate de la version développeur d’ Informatica PowerCenter a joué un rôle crucial dans la 

mobilisation d’un personnel dédié à ce projet. L’ensemble des versions de la solution Informatica PowerCenter 

reposent sur Informatica Vibe, la toute première et seule machine de données virtuelle embarquable. Même en 

l’absence de compétences Hadoop spécifiques, les développeurs œuvrant sur PowerCenter bénéficient d’une 

vélocité de développement cinq fois supérieure sur cet environnement Hadoop, qui est celui de Western Union. 

Par ailleurs, Western Union sera à même d’effectuer de manière efficace les opérations d’intégration des données 

au fur et à mesure des évolutions technologiques, sans devoir adapter les flux de traitement des données. 

« Western Union incarne cette ambition de dimension mondiale qui donne à la notion de ‘ service ‘ toute sa portée. 

Comme dans bon nombre de sociétés, les données revêtent, pour Western Union, un caractère fondamental. 

Elles sont indispensables à la réalisation de ses objectifs. Etre à l’écoute des besoins de sa clientèle, lui assurer 

une expérience homogène quel que soit le canal utilisé, optimiser les opérations et poursuivre ses innovations 

constituent aujourd’hui les clés du succès sur ce marché très dynamique. Informatica apporte à Western Union 

des solutions pour exploiter ses données, grâce à l›automatisation de l’intégration et de la saisies des données 

avant traitement et analyses. » conclut Ash Kulkarni, senior vice president et general manager, Data Integration, 

Informatica 

A PROPOS DE WESTERN UNION 

La société Western Union (NYSE : WU) est un leader dans les services de paiement à travers le monde. Avec 

ses services de paiement Vigo, Orlandi Valuta, Pago Facil et Western Union Business Solutions, Western Union 

propose aux particuliers et aux entreprises des services rapides, fiables et pratiques pour envoyer et recevoir de 

l’argent partout dans le monde, pour réaliser des paiements et passer des ordres de paiement. Au 31 décembre 

2013, les services Western Union, Vigo et Orlandi Valuta étaient disponibles dans un réseau de plus de 500 000 

points de vente répartis dans 200 pays et territoires ainsi que plus de 100 000 distributeurs automatiques de billets. 

En 2013, Western Union a réalisé 242 millions de transactions de particulier à particulier à travers le monde, 

transférant 82 milliards de dollars entre particuliers et 459 millions de dollars entre professionnels. 

Pour plus d’informations sur Western Union : www.westernunion.com 


41


À PROPOS D›INFORMATICA 

Informatica Corporation (NASDAQ : INFA) est le leader des fournisseurs indépendants de solutions d’intégration 

de données. Les entreprises du monde entier font confiance à Informatica pour exploiter le potentiel de leurs 

informations et répondre à leurs principaux impératifs métiers. Informatica Vibe, la première et la seule machine 

de données virtuelle embarquable du marché, supporte les fonctionnalités exclusives de mapping unique pour 

déploiement universel (« Map Once. Deploy Anywhere. ») de la plate-forme Informatica. Plus de 5 000 entreprises 

dans le monde s’appuient sur Informatica pour tirer pleinement profit de leurs ressources en matière d’informations 

issues des périphériques, des réseaux mobiles et des Big Data, hébergées sur site, dans le Cloud et sur les 

réseaux sociaux. Pour en savoir plus, appelez le 01 42 04 89 00 ou visitez notre site www.informatica.com/fr. 

Vous pouvez également contacter Informatica sur http://www.facebook.com/InformaticaCorporation, http://www. 

linkedin.com/company/informatica et http://twitter.com/InformaticaFr. 


42


MAPR - ANCESTRY.COM 

ANCESTRY.COM RELIES ON THE HIGH AVAILABILITY OF MAPR TO RUN 

THEIR DNA PIPELINE CONSTANTLY, WITH NO INTERRUPTIONS 

THE BUSINESS 

Ancestry.com, the world’s largest online family history resource, uses machine learning and several other statistical 

techniques to provide services such as ancestry information and DNA sequencing to its users. 

THE CHALLENGE 

According to the Chief Technology Officer, Scott Sorensen, Ancestry.com has more than 12 billion records that are 

part of a 10-petabyte (or 10-million gigabyte) data store. If you’re searching for “John Smith,” he explained, it will 

likely yield results for about 80 million “Smith” results and about 4 million results for “John Smith,” but you’re only 

interested in the handful that are relevant to your John Smith. For Ancestry.com their data is highly strategic. As 

Sorensen explains, there are 5 fundamental ways they make use of data to enhance the customer experience. 

These include: 

• With more than 30,000 record collections 

in their data store including birth, death, census, military and immigration records, they mine this data using patterns 

in search behavior to speak to their more than 2 million subscribers or tens of millions of registered users 

in a more relevant way. For instance, only a selection of their users will be interested in newly released Mexican 

census data. 

• They mine their data to provide product development direction to the product team. Analyzing search behavior 

can show where a subscriber might be stuck or where they leave the service and therefore where new content 

could be created. 

• They rely on big data stores to develop new statistical approaches to algorithmic development, such as record 

linking and search relevance algorithms. Today, the vast amount of user discoveries are deter-mined by Ancestry. 

com hints derived from strategically linked records and past search behavior (e.g., Charles ‘Westman’ is the same 

person as Charles ‘Westmont’). Two years ago, the majority of discoveries were based on user-initiated search. 

• Advanced data forensics is used to mine data for security purposes to ensure appropriate use of their information. 

• DNA genotyping to provide information about genetic genealogy is a new area of focus. Customers spit in a 

tube, send the package to Ancestry.com, and then molecular tests and computational analyses are performed 

to predict a person’s ethnic- ity and identify relatives in the database. For every AncestryDNA customer, 700,000 

SNPs (distinct variable regions in your DNA) are measured and analyzed, resulting in 10 million cousin predictions 

for users to-date. 

MAPR SOLUTION 

A portion of Ancestry.com’s data is processed on three clusters using MapR as the Hadoop distribution. One cluster 

is for DNA matching; another is for machine learning and the third, which is just being built-up, is for data mining. 

Massive distributed parallel processing is required to mine through 10 petabytes of data and the large quantities 

of DNA data. Ancestry.com runs batch jobs and wants to run the DNA pipeline constantly with no interruptions, so 

high availability is very important. MapR’s high availability JobTracker enabled the company to run different tasks 

on the same cluster. They have also been pleased with MapR’s service and support, and the ability to quickly get 

everything up and running with the graphical user interface and client configuration. 


43


MAPR - COMSCORE 

COMSCORE RELIABLY PROCESSES OVER 1.7 TRILLION INTERNET & 

MOBILE EVENTS EVERY MONTH ON MAPR 

THE BUSINESS 

comScore is a global leader in digital media analytics and the preferred source of digital marketing intelligence. 

comScore provides syndicated and custom solutions in online audience measurement, e-commerce, advertising, 

search, video and mobile. Advertising agencies, publishers, marketers and financial analysts rely on comScore 

for the industry-leading solutions needed to craft successful digital, marketing, sales, product development and 

trading strategies. 

c omScore ingests over 20 terabytes of new data on a daily basis. In order to keep up with this data, comScore 

uses Hadoop to process over 1.7 trillion Internet and mobile events every month. The Hadoop jobs are run every 

hour, day, week, month and quarter, and once they’re done, data is nor- malized against the comScore URL data 

dictionary and then batch loaded into a relational database for analysis and reporting. comScore clients and analysts 

generate reports from this data; these reports enable comScore clients to gain behavioral insights into their 

mobile and online customer base. 

HADOOP REQUIREMENTS 

The comScore engineering team processes a wide variety of Hadoop workloads and requires a Hadoop distribution 

that excels across multiple areas: 

Performance : As comScore continues to expand, the Hadoop cluster needs to maintain performance integrity, 

deliver insights faster, and also needs to produce more with less to minimize costs. 

Availability : comScore needs a Hadoop platform that provides data protection and high availability as the cluster 

grows in size. 

Scalability : comScore’s Hadoop cluster has grown to process over 1.7 trillion events a month from across the 

world, in the past comScore has seen increases of over 100 billion events on a month over month basis. Consequently, 

comScore needs a Hadoop platform that will enable them to maintain performance, ease of use and 

business continuity as they continue to scale. 

Ease of Use : comScore needs things to just work, and operating the cluster at scale needs to be easy and intuitive. 

BENEFITS 

MapR has been in continuous use at comScore for over two years. MapR has demonstrated superior performance, 

availability, scalability, ease of use, and significant cost savings over other distributions. 

Performance : Across various benchmarks, MapR executes jobs 3 - 5 times faster when compared to other Hadoop 

distri-butions and requires substantially less hardware than other distributions. 

Availability : MapR protects against cluster failures and data loss with its distributed NameNode and JobTracker 

HA. Rolling upgrades are also now possible with MapR. 

Scalability 

With architectural changes made possible by it’s no NameNode architecture, MapR creates more files faster, processes 

more data faster, and produces better streaming and random I/O results than other distributions. comScore 

now runs more than 20,000 jobs each day on its production MapR cluster. 

Ease of Use : comScore’s Vice President of Engineering, Will Duckworth said, “With MapR, things that should just 

work, just work.” This means there is a lot less for comScore to manage with MapR. One of the advantages that 

Duckworth cites is that everything is a data node. This configuration results in much better hardware utilization 

from his perspective. With MapR, it is easy to install, manage, and get data in and out of the cluster. 

Speed : comScore is also able to use the MapR advanced capabilities to enforce parallel data allocation patterns. 

This enables key analyses to be performed using map-side merge-joins that have guaranteed data locality, resulting 

in a 10x increase in computation speed. “The specific features of MapR, such as volumes, mirroring and snapshots, 

have allowed us to iterate much faster,” said Michael Brown, CTO of comScore. 

ABOUT MAPR 

MapR delivers on the promise of Hadoop with a proven, enterprise-grade platform that supports a broad set of 

mission-critical and real-time production uses. MapR brings unprecedented dependability, ease-of-use and worldrecord 

speed to Hadoop, NoSQL, database and streaming applications in one unified big data platform. 

MapR is used by more than 500 customers across financial services, retail, media, healthcare, manufacturing, 

telecommunications and government organizations as well as by leading Fortune 100 and Web 2.0 companies. 

Amazon, Cisco, Google and HP are part of the broad MapR partner ecosystem. Investors include Lightspeed Venture 

Partners, Mayfield Fund, NEA, and Redpoint Ventures. MapR is based in San Jose, CA. 

Connect with MapR on Facebook, LinkedIn, and Twitter. 


44


MARKLOGIC - DE GRUYTER 

21ST CENTURY PUBLISHING 

EUROPEAN PUBLISHER TAKES UP TO TEN SYSTEMS OFFLINE WITH A 

SINGLE MARKLOGIC BUILT CUSTOMER-FACING APPLICATION 

COMPANY OVERVIEW 

Academic publishing is a long-standing and venerable industry—and De Gruyter is among the most established. 

Since 1749, this European publisher has been producing and distributing English and German content, focusing 

primarily on scientific, technical, legal, humanities, and social sciences. With an output of approximately 1,400 

books per year—in addition to journals, reference materials, and databases—De Gruyter’s compiled catalog exceeds 

65,000 titles. They also offer a program called e-dition, which is essentially e-books on demand. Unlike 

other industries, De Gruyter’s customers are not usually the end users: they sell to university libraries and other 

academic institutions, and it’s the scientists and educators at those universities who actually use the materials. 

CHALLENGES 

For many years, scientific publishing was focused on printed materials, but the last decade has seen an increasing 

demand for digital access. This industry-wide shift has forced De Gruyter to reassess—and redefine—their 

business. “With this change in content output, we’re not really a traditional publisher anymore,” Christian Kohl, 

Director of Information & Publishing Technology, explains. “We’re becoming more of a service provider, and also 

a hosting platform.” And customers’ needs are changing—both in terms of format and timeframe. As Kohl points 

out, they want more granular access to content, and they want it faster. “Purchasing is shifting from ‘just in case’ to 

‘just in time’. We can’t afford to have a production time of several years. It needs to be quick, custom, and flexible.” 

Since 2006, De Gruyter has invested in a wide range of technologies and support staff. With so many different 

types of content and business models, they’ve relied on a variety of legacy databases, websites, and online platforms. 

Not only was this cumbersome and expensive to maintain, the complicated infrastructure prevented them 

from moving forward with new innovations. 

The writing was on the wall: in 2009, De Gruyter realized it was time to simplify. “We needed a new, consolidated 

platform that would bring increased flexibility, lower costs, and more automation,” Kohl says. 

THE SOLUTION 

Kohl and his team began searching for a solution that would support all of their various data types and adapt to 

constantly changing structures. Excellent searching and browsing capabilities were also high on the list. And with 

their limited budget, they needed a turnkey solution that wouldn’t require third-party technologies. 

In November of 2010, De Gruyter chose MarkLogic to consolidate up to ten of their legacy systems into one 

customer-facing application. The new platform would combine all of 

the existing systems on top of a MarkLogic database and search engine. Using an agile development approach, 

they were able to implement new iterations for key features. Just a little over a year later, the new platform was 

launched. 

WHY MARKLOGIC? 

Quicker Response, Higher Revenue: With previous systems, it could take up to six months to add new features or 

changes. With Marklogic ever-increasing requests can be met in a matter of days—or even hours. This has also enabled 

the company to increase acquisitions and partnerships with publishing partners. Reduced time to market: Database 

products and reference works used to take a year to develop and deploy. Now, it’s a matter of days or weeks. 

Seamless Integration & Automation: De Gruyter was able to set up XML feeds to send all data from their ERP system 

- which houses metadata, catalogs, pricing, and other information—directly into MarkLogic. The new platform 

also hooks into the company’s CMS and MAM systems, streamlining the flow of content. Streamlined acquisition 

process: Historically, acquiring more providers and content was a very painful process, particularly for the IT department. 

With the new platform, De Gruyter can ramp up data volume without impacting performance. 

Reduced Costs: With MarkLogic’s more simplistic structure, there is no longer a need to map between the SQL 

database and the application layer—which translates to lower maintenance costs. And by eliminating much of its 

hardware requirements, De Gruyter has cut its hosting costs in half. 

Out-of-the-box Search: With their limited budget, De Gruyter needed a solution that wouldn’t require a third-party 

tool—and MarkLogic delivered. “There’s no need to integrate with the SQL server,” Kohl says. “MarkLogic’s search 

is already powerful enough.” 


45


MARKLOGIC - ELSEVIER 

UNLOCKING THE VALUE OF CONTENT AT ELSEVIER 

INTEGRATING CONTENT TO ENABLE THE RAPID DEVELOPMENT AND 

DELIVERY OF NEW INFORMATION PRODUCTS. 

INDUSTRY OVERVIEW 

The last thirty years have seen a major shift in the production, storage and retrieval of content. Elec- tronic, rather 

than printed, content now powers a new class of products and services, with the Inter- net key to delivery. Driving 

critical activities within companies, it also provides many of their content- based services to customers. Yet this exploding 

volume of content, typically comprising 85% of an enterprise’s information, is fundamentally different from 

the structured data that relational database technology was created to deal with. A cornerstone in most enterprises, 

relational databases function by structuring data and applications into tables. They cannot readily accommodate 

the unstructured content residing in vast reservoirs of Word files, lab reports, data sheets, operating manuals, messages, 

HTML documents, PDFs, Pow- erPoint slides, emails, etc. So organizations wishing to repurpose and realize 

more value from digital content are stymied, since the applications needed to deliver added value to customers 

are difficult and expensive to create. These issues have had even more impact in the publishing industry, where 

content is a company’s greatest asset. And for Elsevier, a leading publisher and information provider for medical, 

academic and health-related organizations, they were particularly challenging. Elsevier supports, and continues 

to enlarge, a digital content repository unsurpassed in its market. Yet despite Elsevier’s significant investments in 

search technology, their users found it increasingly time-consuming to extract the information they needed from 

this mountain of data. Elsevier was unable to quickly create applications that would make extracting content faster 

and easier...until Mark Logic demonstrated a product that could rapidly ingest enormous volumes of content, and 

then execute complex, fine-grained queries against it with lightning speed. 

ELSEVIER’S CHALLENGE 

Reconciling the need for relevancy with the necessity for volume. One of the world’s leading publishers, Elsevier 

prides itself on supplying customers with the information they need to conduct research, perform experiments, 

aid patients, and achieve mission-critical objectives. To this end, Elsevier invested heavily in digitizing its content, 

amassing vast repositories of medical and scientific information, and making it available via a range of online 

database-driven solutions. However, as Chief Technology Officer David Marques points out, users often have little 

time to locate the data most relevant to their work. “If a doctor is at the point of care or a scientist is working in 

the lab on an experiment, they don’t have time to go searching through 10 or 20 possible sources.” Yet as more 

content amassed, its sheer volume meant customers were spending more time refining searches to winnow out 

the content most relevant to their needs. Elsevier’s greatest asset was growing more difficult to deliver with the 

level of granularity required by users. And this, explains Marques, is precisely the kind of value- added service 

Elsevier wished to supply. “We wanted to help customers solve the problems they face in their particular setting... 

By enabling our customers to extract only the pieces of content that matter to them at that moment, and to flexibly 

combine them, Elsevier can provide maximum value per use of content.” To achieve its objective for increased 

customer satisfaction, Elsevier set two goals: quickly transform the content rigidly held in its many separate databases 

into a liquid asset easily tapped by users in any way they desired. And in so doing, establish a common 

platform for developing future products. 

But facing Elsevier were four formidable challenges: 

1. Lack of central repository. Each body of content existed in a separate database – either in a relational database 

format or a proprietary one – with several applications on each database. 

2. Huge range of file formats. Normalizing content was extremely time-consuming. For one application project 

alone, there were 35 different document formats involved. 

3. High cost. New functionality was time-consuming and expensive to build. The complex logic needed to deconstruct 

a document and analyze relationships between documents had to be built application-by-application. Moreover, 

from a performance perspective, forcing this logic into an application was inefficient, compared to leveraging 

a specialized content server that can efficiently retrieve large amounts of information. 

4. Massive amounts of content. The final content repository was estimated to exceed 5 terabytes in size. Included: 

More than five million full-text journal articles across 1,800 journals; over 60 million citations and abstracts (separate 

from the articles); 20,000 in-print books; 9,000 out-of-print books; and thousands of infor- mational pamphlets. 


46


DEFINING REQUIREMENTS 

Preparing the way. 

In an increasingly aggressive industry, Elsevier required shorter delivery cycles for its competitive offerings. So as 

a pioneer in the digital marketplace, they defined the parameters for products that extracted content from authors 

fast and put it online even faster. Equally significant, Elsevier recognized that to give users exactly the information 

they wanted, any new solutions must have the power to dynamically assemble relevant information from across 

multiple sources. Recognizing the potential of tagged search elements, Elsevier started in the year 2000 to redesign 

products along Web services architecture. 

Beginning with Standard Generalized Markup Language (SGML), Elsevier moved forward, keeping pace with the 

evolution of descriptive signature technologies and ultimately investing in the benefits of XML (Extensible Markup 

Language). Of course, such advances helped deliver greater content relevancy to users. But enabling the highest 

degree of granularity meant the structural relationships of tagged content had to be leveraged in a way that allowed 

relevant information deep within documents to be parsed and reassembled into new content. 

Accordingly, the absence of a centralized content repository had to be remedied, since an intelligent terminus 

would be required for all searches – enabling the deconstruction and synthesis of documents into context- specific 

results. This eliminated the deployment of traditional relational database systems, whose concepts and data 

models were conceived in an era of short, highly- structured records of data, and not the unpredictable and timevarying 

structure found in content. 

Instead, the new solution would need to: 

• Exploit the wide variety of unstructured content, rather than be constrained by it. 

• Eliminate format and content-prejudiced conditions for standardization of information. 

• Function without a single, standard, pre-defined schema, and indeed in the presence of many different and 

changing schemas 

• Achieve performance without sacrificing relevance. Both the user interface and the returned results had to operate 

quickly and efficiently, and to deliver the right pieces of information at the right time. 

Roadblocks to rapid product development 

When developing new products, Elsevier had to confront: 

• Difficulty in leveraging and synthesizing information from documents held among a wide range of different databases 

and the applications on each. 

• Lack of a “content common denominator” for normalizing information within applications or databases. 

• Risk of poor ROI due to long and expensive implementation of new functionality and applications. 

• A mountain of disparate content with no existing unifying solution 

PUTTING MARK LOGIC TO THE TEST 

Transforming a mountain of documents into a single, searchable contentbase. 

By the year 2004, Elsevier had reengineered their products along the lines of web service architectures, creating 

an XML repository offering new efficiencies to their IT staff and higher functionality for users. But the apron strings 

of relational database technology still tied the company down to long, expensive product development cycles and 

less than optimal performance. To get reasonable content performance from their database management systems 

they still needed to pre-define schemas and access paths: time-consuming tasks that ultimately limit content ingestion 

and the power of resultant searches. And after intensifying their hunt for new ways to shorten time to market 

and add greater value to their content they found what looked like a per-fect way to leverage their significant investment 

in XML: MarkLogic Server. 

“We offered to show Elsevier how the MarkLogic Server could leverage their investment in XML to deliver on Elsevier’s 

vision,” recalls Mark Logic Co-founder and Chief Technologist Paul Pedersen. “Our promise was simple. 

Hand us any amount of data, as is, from your archives. 

We’ll hand you back an entirely new application based on that content.” And as Pedersen further described to 

Elsevier, “The system lets you reach across large content sets, extract exactly the information that you need, and 

then present it as a new document that was created automatically.” 

Intrigued by the prospect of being able to simply pour existing archives and content into MarkLogic Server and 

receive a fully functional application, Elsevier agreed to the test. And to see just how short a timeline Mark Logic 

could deliver a competitive product in, they made it a demanding one. According to Pedersen, “...Their team 

handed us an entire product line of 20 medical textbooks, each a thousand pages long or more. They didn’t even 

provide the DTDs,” he recalls. “They just said ‘Go.’ So we did, and in about a week we came back to them with a 

fully functional application.” 

Moreover, according to David Marques, the application Mark Logic delivered in just a few days was more flexible 

than anything Elsevier had online at the time. This accomplishment was all the more remarkable considering that 

the 0.5 terabytes of content loaded into MarkLogic Server was comprised of over 35 different formats – a flexibility 

matched only by the level of granularity provided by searches using the resulting application. Im- pressed, Elsevier 

engaged Mark Logic and is using Mark- Logic Server to consolidate all of its archives, rapidly build new applications, 

and create value-added services from its repository. As Marques affirms, “MarkLogic Server will be a core of 

all our major electronic products going forward, since it allows us to even better serve our customers and users.” 

BENEFITS OF THE MARKLOGIC SERVER 

Putting content in its place, fast. 

From Mark Logic, Elsevier found an immediate solution to all the key challenges facing publishers who need to 

hasten the deployment of new, more competitive online products. They are now consolidating all of their content 

archives, rapidly bringing new applications to market and enhancing existing applications with value-added functionality 

that makes every last byte of content available to users in the most relevant way. 

Combining the power of database-style queries against content, with the speed and scalability of search engines, 


47


MarkLogic Server repurposes content on-the-fly, combining information into new content for users seeking answers 

to different questions involving the same subject matter – literally creating new content from old and adding 

value in the process. Massively scalable in both storage and performance, it can manage millions of documents 

and terabytes of content – with no degrada- tion in executing queries and updates. 

A boon to publishers and their customers, Mark Logic revolutionizes search technology by enabling: 

• Consolidation of content archives. MarkLogic integrates content from many sources into a single repository, 

then creates new content by summarizing information across various content categories. 

• High-performance XQuery implementation. A complete XQuery implementation delivers high performance 

against multi-terabyte datasets, thanks to MarkLogic’s search-engine-style indexing mechanisms. 

• Rapid application development, no fixed schemas. MarkLogic does not require schemas or document type definitions 

(DTDs). MarkLogic loads content, as is, and allows you to instantly start building applications that leverage it. 

• Element-level granularity. Using XQuery, MarkLogic Server fulfills searches by reaching deep inside documents 

to identify, analyze, combine, and extract pieces of content exactly relevant to the task of the user, precisely within 

the context in which they’re working. 

• Extreme flexibility. MarkLogic accepts content “as is” from many sources, eliminating the lengthy process of preparing 

content. Rather than having to plan ahead for every possible use of the content, publishers can rely upon 

the flexibility of the technology to evolve applications over time. 

A SINGLE SOLUTION TO MANY BOTTLENECKS 

With Mark Logic, Elsevier has achieved: 

• Consolidation of all content archives into one centralized repository. 

• A high performance platform for multi-terabyte contentbases. 

• Higher efficiency through centralized storage of content and indexing. 

• Element-level search granularity for users. 

• Preparation-free content loading. 

• Speedy application development thanks to the power of XQuery and the elimination of extensive content preparation. 

• Just-in-time delivery of information that is precisely tailored to users’ needs, within the context they’re working in 

and in the form they need. 

BENEFITS TO ELSEVIER’S CUSTOMERS 

The results. 

The power of a database, the speed and flexibility of word and phrase search functionality, the ability to deliver 

it all in a fraction of the time previously necessary... With MarkLogic, Elsevier not only speeds the delivery of new, 

more competitive products, but enables users to get exactly the data they need to complete their tasks 5 to 9 times 

faster than before. 

For example, Elsevier no longer needs to normalize content to transform it into their repository. Now they can build 

directly on the inherent variability of different types of content – slashing time to availability by two-thirds. And, 

says David Marques, the ultimate benefit to users is fantastic granularity: “...When a user has a question, we want 

to reduce the number of search results from 10 possible documents down to two precise sections or paragraphs 

so we deliver just the right bit of content the user needs.” 

But for the Elsevier team, the gratification of providing this kind of added value to users goes beyond feelings of 

pride in their technical accomplishment. As Marques explains, by enabling researchers and medical professionals 

to find fast answers to urgent questions, they 

also help improve treatments and outcomes for patients: “Medical reference books are invaluable resources for 

making a diagnosis, but laboriously searching and cross- referencing a number of different books is an inefficient 

way to do this. The products we build with MarkLogic allow physicians to quickly pull out only the relevant passages 

from across a range of different books, in order to reach an informed diagnosis.” 

And the future for Elsevier and its customers holds even more promise. MarkLogic has dramatically accelerated 

the deployment of products and services, while greatly reducing the costs of content loading and design – translating 

into even faster research cycles and clinical diagnoses, thanks to a new generation of solutions for helping 

professionals find exactly the information they need, when they need it most. 


48


MARKLOGIC - HEALTHCARE.GOV 

MARKLOGIC PROVIDES ACCESS TO HEALTHCARE INSURANCE FOR 

MILLIONS OF AMERICANS MORE THAN EIGHT MILLION APPLICATIONS 

PROCESSED ON HEALTHCARE.GOV 

OVERVIEW 

Following the approval of the Affordable Care Act of 2010, the US Department of Health and Human Services 

(HHS) Centers for Medicare and Medicaid Services (CMS) needed to design, build, and implement a technology 

platform capable of enrolling millions of Americans in new healthcare plans. CMS’s driving vision was to enable 

better access to healthcare for all Americans through smart and efficient tools and systems that would also help 

reduce costs. 

CHALLENGES 

CMS had to develop a Health Insurance Marketplace (HIM) and Data Services Hub (DSH) that would allow millions 

of Americans to shop for insurance, check their eligibility against dozens of federal and commercial data sources, 

and provide a way for state health exchanges to connect. This was the first time the US government would tackle 

an IT project of this kind. 

CMS had to overcome some daunting challenges: 

Strict time constraints. CMS was mandated by ACA to launch on October 1, 2013. 

Stringent security requirements. Whatever solution CMS chose, it would have to provide the transactional consistency, 

reliability, disaster recovery, security, and auditing capabilities required for the federal government. 

Multiple data sources. The system would need to take in a vast array of data from states, health plan providers, 

and government entities to evaluate applicants’ eligibility status, including the Department of Homeland Security; 

the Internal Revenue Service; the Social Security Administration; and Veterans Affairs. 

An unknown data specification. As with most large-scale implementations, when development started, the data 

specification was not yet determined. There were numerous changing factors driven by insurance providers and 

participating states. The database needed to be able to handle constant change and a schema that could evolve. 

Scalability. From the outset, CMS knew the marketplace would serve individuals from as many as 51 jurisdictions 

(the states plus Washington, D.C.). CMS needed a technology that could scale rapidly, on cost-effective commodity 

hardware, to meet any level of demand. 

THE SOLUTION 

CMS concluded that the MarkLogic Enterprise NoSQL database platform provided the scalability and agility required 

to meet an 18-month timeframe from software procurement to launch. 

The teams working on this initiative realized the effort to complete this project would take too long using a traditional 

relational database. 

MarkLogic’s schema-agnostic data model ingests data as-is and adapts to modifications, as new data sources are 

included and as policies or regulations change, to help meet tight deadlines. 

MarkLogic was the only platform able to process massive amounts of poly-schematic information while simultaneously 

offering ACID-compliant transactions. 

WHY MARKLOGIC? 

Faster time to production. MarkLogic helped CMS get the Healthcare.gov site running within 18 months. In less 

than 5 months after the website launched, MarkLogic supported 5,500+ transactions per second (TPS-backend 

transactions to database) to help over 8 million people sign up for health insurance. 

Nearly limitless scalability with record-breaking performance. MarkLogic has supported 160,000 concurrent users 

and delivered over 99.9% availability. More than 99.99% of queries have logged response times of less than 0.1 

seconds, without any data loss or data inconsistencies. 

A seamless online shopping experience for Healthcare.gov users. MarkLogic’s schema- agnostic data model provided 

CMS the ability to manage and integrate data “as is” so data from multiple states, government agencies, 

health plan providers, and personal information from millions of Americans did not have to be recoded. This allowed 

the system to qualify Americans and provide them competitive healthcare coverage and options. 

Confidence to manage and integrate confidential user information. MarkLogic’s enterprise-grade NoSQL database 

platform meant CMS did not have to sacrifice any of the enterprise features expected from a traditional database, 

such as government-grade security, ACID transactions, and HA/DR, and could take full advantage of a NoSQL 

schema-agnostic document model that handled the heterogeneous and unstructured data. 


49


MARKLOGIC - OXFORD UNIVERSITY PRESS 

SCALING THE CONTENT DELIVERY PROCESS: 

THE VIEW FROM OXFORD UNIVERSITY PRESS 

INTRODUCTION 

This case study chronicles one organization’s focus on streamlining its publishing process to facilitate the creation 

and delivery of new products. With the growing use of the Web and other electronic sources for information 

discovery and access, organizations like Oxford University Press are being pressed to deliver content through 

multiple channels. They must also create products that are aimed at specific market segments, often utilizing 

multiple information sources. 

For Oxford University Press, each new online project meant starting from scratch. Building a standard publishing 

platform and using XML for its content format enabled Oxford University Press to quickly produce new products 

in much less time and re-use work from previous projects. This company provides an excellent example of an 

organization that: 

• Continues to introduce new products targeted toward specialized market needs 

• Understands that content for its products can come from multiple information sources, possibly with different 

content structures, characteristics, and attributes 

• Recognizes the inefficiencies of building new workflows and systems for each content product 

• Realizes the value that an XML-based publishing platform can provide 

• Comprehends the importance of content aggregation and searching as core capabilities for building new products 

from the growing base of source information 

To obtain these benefits, Oxford University Press built a publishing platform based on an XML content server 

from Mark Logic that enabled it to work with multiple content structures. To make the platform extensible for future 

needs, Oxford University Press developed an API (application programming interface) that would enable it to work 

with multiple development firms without major changes to the platform. Benefits are typically accrued across a 

range of projects, but Oxford experienced significant results with its very first project. 


Oxford University Press (OUP) has an illustrious history. The company had its origins in the information technology 

revolution of the late fifteenth century, which began with the invention of printing from movable type. The first book 

was printed in Oxford in 1478, only two years after Caxton set up the first printing press in England. 

Despite this early start, Oxford’s printing industry developed in a somewhat haphazard fashion over the next century. 

It consisted of a number of 

short-lived private businesses, some that were patronized by the University. In 1586, the University itself obtained 

a decree from the Star Chamber confirming its privilege to print books. 

This was further enhanced in the Great Charter secured by Archbishop Laud from King Charles I, which entitled 

the University to print “all manner of books.” 

In 1896, Oxford University Press opened an office in New York that followed all of Oxford’s traditions of religious 

and academic publication. OUP USA is currently Oxford University Press’s second major publishing center (after 

Oxford), annually producing nearly 500 titles. 

Since 1896, OUP’s development has been rapid in all areas. Music, journals, and electronic publishing have been 

introduced during the past 75 years, and ELT publishing (which started with books to teach English in Africa and 

India) has grown into a major international business. OUP is now one of the largest publishers in the U.K. and the 

largest university press in the world. 

The project to create a publishing platform for its online content was led by New York-based OUP, Inc. This architecture 

and its resulting benefits would then spread out across Oxford University Press. 

BUSINESS DRIVERS 

Since the onset of internet publishing, the introduction of each new online product (i.e. OED.com, American National 

Biography Online) required Oxford University Press to staff its own project team to create a new platform. 

Apart from shared best practices, therefore, OUP was unable to fully leverage its investments from one product to 

the next. This approach made sense while Oxford University Press was building flagship products like The Oxford 

Dictionary of National Biography, but OUP needed a more effective way to build niche products (i.e. a referencebased 

subscription product for the African American Studies market). This time, Oxford University Press wanted to 

produce a project in a way that would make it easier to handle similar projects in the future. 

Oxford University Press understood that this could be achieved with the creation of a publishing platform. The 

platform needed to be flexible enough to handle varying functional requirements and diverse types of content, but 

scaleable enough to meet the needs of large and small projects. 


50


CHALLENGES 

Oxford University Press made a strategic decision to develop its new platform simultaneously with the first product 

implemented on it. While this added complexity to the project, the company believed that this approach would accomplish 

two goals. First, it would mean that OUP could more quickly realize the fiscal and practical benefits of 

the platform. Second and perhaps more importantly, the platform would have a real-world example against which 

to test itself. 

THE AFRICAN AMERICAN STUDIES CENTER’S REQUIREMENTS 

The Oxford African American Studies Center (AASC), edited by Henry Louis Gates, Jr., was developed to be the 

online authority on the African American experience. To be the preeminent scholarly reference on African American 

studies, the AASC site needed to aggregate and publish a range of content and formats: 

• Core content: Five major Oxford encyclopedias covering all aspects of the African American past, including Encyclopedia 

Africana (5 vol.) and Black Women in America (3 vol.) 

• Additional source content from more than 18 Oxford reference sources, all editorially selected and reviewed 

• Approximately 1,000 images at the product launch, with an ongoing image research program expected to add 

hundreds more images annually 

• 100 primary sources, including the Emancipation Proclamation, Frederick Douglass’s slave 

narratives, and text of speeches. Brief introductory essays accompany each primary source. 

• More than 200 charts, tables, and graphs representing demographic information in areas like history, government 

and politics, business and labor, education, law and crime, and the arts 

• Over 140 thematic maps illustrating demographics and history in a variety of areas 

• A general timeline of African American history, and specific thematic timelines 

• Learning center: Designed for the school market, this will be a growing area that aims to help users explore the 

content with ready reference tools like country profiles, suggested lesson plans by grade level, and study guides 

to match the curriculum 

The AASC needed to support two types of users with different expectations for finding information: 

• The primary users would be librarians, who are knowledge professionals. This class of users would demand 

complex search functionality, including boolean, proximity, field, thesaurus, stemming, and wildcard. 

• Secondary users would be students, who would want simple searching capabilities in the model of Google. 

PLATFORM REQUIREMENTS 

The two guiding principles for developing the platform, according to Alex Humphreys, OUP’s Director of Online 

Engineering, were “flexibility and scalability.” He goes on to say, “These two principles should each be realized in 

the areas of content creation and management, product development, and project management.” 

TABLE 1: PLATFORM REQUIREMENTS 

FLEXIBILITY 

SCALABILITY 

CONTENT 

OUP wanted a model where content could 

be created once, and then used in multiple 

products. At the same time, the platform 

could not define the content format. It 

would need to use and integrate content in 

a variety of formats, from different sources, 

and using different DTDs. 

The platform could not place any constraints 

on the volume of content that could be supported. 

PRODUCT 

It was critical that the platform did not dictate 

product features or capabilities. Instead, 

it needed to be extensible to support 

market-driven needs and requirements. 

For the platform to be successful, the investment 

in features, hardware, and resource 

training needed to be leveraged between 

products. Each new product could not be a 

one-off proposition. 

PROJECT 

The platform needed to provide multiple 

options for integration with other systems 

and capabilities. It needed to enable OUP 

to work with any number of different vendors, 

suiting the vendor selection to the 

specific needs of each new project. 

The platform needed to provide a foundation 

that would enable OUP to work on multiple 

projects simultaneously. This meant limiting 

its dependence on any one vendor by allowing 

multiple vendors to interact with the platform 

using a defined API. 

To ensure longevity and extensibility of the platform, OUP decided that the platform would need to be standardsbased, 

utilizing XML to the greatest extent possible. 


51


STEPS TO SUCCESS 

In March 2005, Oxford University Press selected Mark Logic’s XML content server as the foundation technology 

upon which to build its new product platform. MarkLogic Server would provide three things: 

• A flexible database for the content that OUP would include in AASC and in all future platform-based projects. As 

a database, it was specifically designed for the structured XML documents that constituted OUP’s content. 

• A powerful search engine that would enable customized searching on a per-product basis 

• The ability to use the XQuery language, a W3C standard that OUP considers to be cutting-edge 

Not long after selecting MarkLogic as the basis for its platform, Oxford University Press chose Boston- based Interactive 

Factory (IFactory) to build the platform and the AASC product. Having worked with IFactory on the Oxford 

Dictionary of National Biography (www.oxforddnb.com), OUP was confident in its ability to understand the complex 

requirements of the platform and the product. The design phases of both projects began in June 2005. 

Meanwhile, OUP was assembling the content for the African American Studies Center. The content took a variety 

of paths into the product: 

• The core content from the main African American encyclopedias needed to be tagged into XML. 

• Other content was used from other products such as Oxford Reference Online and Grove Music Online; this 

content required very little work to incorporate. 

• Some content needed to be created specifically for the site. This set included articles and features as well as 

certain metadata regarding the rest of the content on the site. 

By late fall, OUP had solid designs for the product and the platform. The company also had the bulk of the content 

created and detailed plans for the remaining elements. With this, the development phase with IFactory began. 

The platform was released and tested in an Alpha site in January, and a Beta site in March. The AASC product was 

launched in late April, in time to market it for the summer academic library season. 

The teams responsible for the project consisted of a core group of four people from OUP and an additional four 

from IFactory. Those teams expanded, however, to include other people and roles when the project demanded it. 

In all, OUP spent two years on this project. The first year was spent assessing opportunities and needs. Once 

MarkLogic and IFactory were chosen, the site and platform were designed and developed in less than eleven 

months. The schedule was aggressive, but ultimately successful. 

Figure 1: Publishing Platform and AASC Project Timeline 

IMPACT OF THE RESULTS 

The product implemented on the platform looks similar to existing projects that were done the old way. This is a 

testament to the fact that OUP met its goal of not having the platform limit the product’s design or functionality. The 

first reviews of AASC have been extraordinarily positive. 

The impact of the platform will be felt more significantly on future projects. For one thing, the new project team 

now has a resilient new platform on which to work. This should enable OUP to diminish the duration and cost of 

implementing new projects. Under the right circumstances (i.e. in the development of new Studies Centers), the 

time taken to develop new products could drop from 10 – 12 months to 4 – 6 months. 


52


Figure 2: Example from the Oxford African American Studies Center Site 

Going beyond the ability to develop and introduce new products faster and more affordably, Oxford University 

Press is also likely to see: 

• More efficient utilization of technical staff, all trained on and fluent in one platform 

• The ability to introduce new types of functionality and content in new and existing products, and the ability to 

combine various content types in ways that were once impossible 

• Reduced hardware costs through shared servers and better utilization of resources 

• The ability to add delivery channels such as print or even mobile 

• Flexibility in choosing third-party vendors to develop new sites 

As long as it is similar to an existing project—meaning that the content is of a similar structure (DTD) and that the 

functionalities of the Web sites are similar—a new project can be replicated fairly quickly. That is not to say that 

additional costs will not be incurred on future projects. Three things are likely to increase the cost of a new project: 

• New types of content, specifically each new DTD “learned” by the platform. Alex Humphreys, Oxford’s Director 

of Online Engineering, noted that “when and if lexical content is added, the platform would need to be taught how 

to handle it.” 

• New functionality, such as the ability to print to PDF or wiki-based interactivity 

• The need for a new implementation vendor to implement a project. “We understand that there will be a learning 

curve, and therefore additional costs, when each new vendor implements a product using our platform’s API,” 

states Humphreys. “By being able to spread our projects across multiple vendors, we can avoid keeping all of our 

eggs in one basket.” 

Humphreys concludes, “The key value proposition of this solution is flexibility. The platform provides us with the 

flexibility to respond to specific project and product requirements. That could mean launching new products more 

quickly, or it could mean scaling the platform’s hardware to handle a site much larger than AASC. We feel that this 

flexibility gives OUP a real advantage in responding to the rapidly evolving academic publishing marketplace.” 

Oxford University Press has three new products to add to the platform, and many more will follow. 


53


LESSONS LEARNED 

As with any project, a number of valuable lessons were learned by the Oxford University Press team as it developed 

its new platform and rolled out the African American Studies Center. 

Know 

./ 

Understand 

./ 

./ 

Plan 

./ 

your content. In addition to understanding the type of information and its structures, 

one must also understand how the content is interrelated. Possessing a deep understanding 

of the information enables you to fully define the content, its metadata, and its publishing 

requirements. You can then verify that the functionality you have planned properly 

leverages the content’s granularity. The information and relationships play directly into the 

design of the final product. 

that technology is not magic. In the end, technology is not a silver bullet that 

can do everything for you—it is a tool that enables you to speed the development and publishing 

of information. In the end, it will not provide 100% automation, nor will it eliminate 

the need to work directly with the information. If used correctly, however, technology can 

greatly improve the pace and effectiveness of creating and delivering information. 

Utilize an XML architecture to help ensure flexibility. Using XML helps to remove the dependency 

of information on any one particular technology, and this ultimately adds longevity 

to the information and platform. XML-based information can be aggregated with 

other information, automatically processed, and published in a more automated manner. It 

reduces the amount of direct interaction that is necessary to reuse or repurpose the content. 

An XML content server like MarkLogic Server can significantly improve this process. 

for iterations. Functionality, content, and metadata are often intertwined. For instance, 

metadata that was not used in the original content may be core to the online product. 

According to Alex Humphreys, “Iterations are about coordination. By cycling through these 

iterations, we can simultaneously mitigate risk while ensuring that the entire project team 

is working towards the same goal.» 

PRODUCT REFERENCE: MARKLOGIC SERVER 

Mark Logic Corp. helps its customers accelerate the creation of new information products. MarkLogic Server is 

an XML content server that enables organizations to build content applications, or applications that are based on 

content and that support business processes. With MarkLogic Server, companies can deliver products through 

multiple channels, integrate content from different sources, repurpose content into multiple products, build unique 

information products, and discover previously unknown information. MarkLogic has a complete implementation of 

XQuery, the W3C-standard for querying XML, and provides very fast and highly scalable content retrieval. 

San Mateo, California-based Mark Logic is privately-held and backed by Sequoia Capital and Lehman Brothers. 

The company serves large, recognized companies in the publishing industry, public sector, and other industries. 

MARKLOGIC SERVER OVERVIEW 

As MarkLogic Server is an XML content server, it is an ideal platform for content applications. With a native XML 

repository and a complete implementation of XQuery, MarkLogic provides robust support for: 

• Content loading: Content can be loaded in its current format, converted to XML as necessary, and automatically 

indexed for later retrieval. Supporting any number of DTDs or XML schemas, MarkLogic Server is able to make 

sense of a disparate array of content. 

• Query: With full-text and XML indexes accessible via XQuery, MarkLogic Server provides fine-grained search and 

retrieval based on document type, content structure, occurrence, and attributes. 

• Content manipulation: MarkLogic Server provides the means to transform, update, and even assemble new content 

products based on specific needs. 

• Rendering content: MarkLogic Server enables companies to format, publish, and deliver content products. If 

needed, MarkLogic can be integrated with other publishing technologies to facilitate the delivery of content through 

any number of media or channels. 

MarkLogic Server enables organizations with high-volume content needs to automate the processes of content 

integration, content repurposing, content delivery, and custom publishing. 

CONTENT INTEGRATION 

Many organizations have numerous disparate silos of content due to unique project needs, mergers and acquisitions, 

licensing, or changing corporate standards. Much of that content is maintained in different formats. Until the 

content has been integrated, however, its true value cannot be realized. 

MarkLogic Server bypasses the typical content normalization step by importing content “as is.” It uses the power of 

its query system to cut across all of the types and formats in a content base. MarkLogic supports loading, querying, 

manipulating, and rendering content in consistent ways even if there are no common DTDs, XML schemas, 

or formats. Furthermore, MarkLogic Server does not “shred” or “chunk” documents, so there are no problems with 

“round-tripping” documents to and from the content base. No information is ever lost. 

CONTENT REPURPOSING 

Content Publishers often need to repurpose content into multiple products to increase revenues, decrease costs, 

or accelerate time to market. The goal is simple—write once, use many. These organizations want to assemble 

content components to create customized, purpose-built documents and information products. 


54


MarkLogic Server delivers content that is formatted and organized to end-users’ specifications. It can automatically 

create summary documents that extract relevant content across entire collections. MarkLogic is the basis of 

self-service publishing systems that enable customers to assemble their own information collections. Content repurposing 

is vital when multiple variants of a document are drawn from common materials. For example, a section 

of a research article may be combined with different content for Internet portals, print journals, grant applications, 

reference manuals, and textbooks. In another example, a master technical document about an aircraft may be excerpted 

to form manufacturing instructions, maintenance manuals, pilot briefing books, and training presentations. 

CONTENT DELIVERY 

When documents are ready to be published, syndicated, or otherwise delivered, they must go through an output 

formatting and rendering process. Preparing the same content for use in a textbook and a magazine means dealing 

with different document organizations, formats, and layouts. Meanwhile, publishing the same content for a Web 

portal, on-demand PDF, or handheld document reader requires further output rendering. 

MarkLogic Server provides the services needed for delivery of content that is optimized for multiple output formats, 

media, and devices. It also provides a content processing framework that offers custom content processing 

pipelines to coordinate multi-step production processes. The content processing framework has a Web services 

interface for easy integration of third-party tools and applications, enabling MarkLogic Server to be seamlessly 

integrated into existing business processes to create efficient content delivery systems. 

CUSTOM PUBLISHING 

Custom publishing is the on-demand assembly and production of documents from existing content. With a custom 

publishing system, users can build a custom document, book, article, newsletter, or collection of articles simply by 

“snapping” together content components from different sources. 

MarkLogic Server provides the services that enable content to be located, selected, and then assembled into a 

complete book or whatever format is required. 

SEARCH AND DISCOVERY 

Traditional enterprise search engines can often prove useful, especially when you know exactly what you are looking 

for. All too often, however, the potential matches are too numerous to even review. Furthermore, a user may not always 

know what he or she wants to find. MarkLogic Server provides extensive enterprise search capabilities (i.e. phrase, 

Boolean, wildcard, proximity, parametric, range searches) and language processing features (i.e. stemming, thesauri, 

spell checking). All of these features are implemented in a platform that can scale to handle terabytes of content. 

Figure 3: MarkLogic Server vs. Enterprise Search Engine 

INFOTRENDS’ PERSPECTIVE 

The Oxford University Press story is an excellent example of a company that made an infrastructure investment in 

a standardized XML publishing system that enhanced its ability to quickly develop new products while also reducing 

costs. The Mark Logic-based publishing platform enabled OUP to develop new projects in less time than it had 

taken to produce one-off projects. This directly translates into a better utilization of resources, the ability to respond 

more rapidly to changing market conditions, and the flexibility to respond to new requirements and content in the 

future. XML-based publishing solutions are gaining favor as customers and their vendors realize that information 

consistency is critical and metadata is paramount for a wide range of publishing projects. In fact, content- centric 

applications that assemble and distribute content through multiple touchpoints using open standards such as XML 

are no longer in the minority. OUP’s willingness to grapple with its online publishing problem using an XML-based 

publishing approach that is built on MarkLogic Server will enable the company to better serve customers in the 

future as their information needs continue to evolve. 

Mike Maziarka, Craig Cline 


55


MARKLOGIC - PRESS ASSOCIATION 

DATA IN THE NEWS 

MULTIMEDIA CONTENT PROVIDER STREAMLINES DELIVERY WITH A 

CENTRALIZED PLATFORM 


For over 140 years, the Press Association (PA) has served as the UK’s biggest provider of fast, fair, and accurate 

news content. Today, PA Group provides a range of global multimedia content and editorial services, including 

news, sports, data, weather forecasts, images and video as well as more bespoke services. Their diverse customer 

base ranges across media and from small businesses to global corporations and government agencies. 

CHALLENGE 

Originally made up of multiple companies brought together to form PA Group and with such diversification in different 

types of content and services, more technical cohesion and strategy was needed when John O’Donovan joined 

as Director of Architecture & Development. 

“All of the different parts of the business were utilizing different technologies,” he says. “Each of the various types 

of data - images, video, news stories and so on - were built and managed on different systems.” 

PA needed a new, centralized solution that could handle XML, while also merging a large volume of structured 

and unstructured content in a useful and efficient way. O’Donovan and his team knew that traditional databases 

wouldn’t have that capability: “We needed something that could build a single, common platform to align all of our 

diverse and complex content.” 

Speed and efficiency were also key considerations. With previous solutions, the company was spending 70% of 

their time managing and manipulating data before they could get any use out of it. It was important that the new 

platform be fast and flexible. 

SOLUTION 

PA has enjoyed a beneficial relationship with MarkLogic for several years. Most notably, they used MarkLogic to 

facilitate news delivery during the Olympic Games and have rebuilt their central editorial system including certain 

sports news systems using MarkLogic as the common content store. During the Olympics, PA fulfilled over 50 

billion information requests, including competition results, athlete information, news stories and more. MarkLogic 

rose to the challenge, serving up all that data in a 

fast and efficient manner for it to be distributed to many different clients in 26 languages across 40 regional territories. 

“Throughout the whole event, the technology worked exactly the way we wanted it to,” says O’Donovan. 

When considering their key objectives for the new platform, MarkLogic was a natural fit; “The platform aligned 

perfectly with our business strategy and development goals,” O’Donovan says. “They were equipped to deliver a 

central, common database - one system to accommodate all types of data.” 

After a successful launch, the PA team immediately recognized several key benefits. The new system had the flexibility 

and scalability they needed, which will seamlessly accommodate future growth. It also offered a high degree 

of security they were seeking. 

With the new platform, PA is able to manage data issues much more efficiently. As an example, one specific project 

would have taken up to 100 workdays to complete with the old platform; with the MarkLogic solution, it took only 

34 days - a 66% boost in efficiency. “There are fewer restrictions and less complexity in transforming data from 

one format to another,” notes O’Donovan. “We can store and manage data in a way that aligns with how we want 

to present it to customers.” 

Overall, PA feels they are utilizing the new tool to the best of its ability, enabling them to not only deliver their existing 

products, but to also deploy new solutions that were previously too difficult, time-consuming or expensive to 

build. 

SUMMARY 

After successfully launching several key applications, the Press Association has become a huge advocate of Mark- 

Logic. “We’ve converted many people over to their platform,” O’Donovan says. “It’s fun to watch people use it and 

have these ‘Eureka’ moments when they realize how easy it is to do things that used to be so complex.” 

According to O’Donovan, even the most traditional developers become invigorated by MarkLogic’s clever and 

unique way of handling structured and unstructured data. “MarkLogic provides an elegant solution for dealing 

with the complex content issues of the PA.” For this high-volume multimedia content provider, such a capability is 

newsworthy indeed. 


56


MARKLOGIC - REED BUSINESS INFORMATION - 4D CONCEPT 

STREAMLINING PUBLICATION PRODUCTION PROCESSES AT REED 

BUSINESS INFORMATION FRANCE 

CORPORATE OVERVIEW: 

Reed Elsevier is the world’s leading publisher of professional content, with 37,000 employees across 200 offices 

worldwide, accounting for sales of nearly 8 billion euros. Its four principal industry divisions – Sciences & Medical, 

Legal, Education, and Business – produce more than 15,000 professional references, magazines, books, CD- 

ROMs, online information and business intelligence services annually. 

As a subsidiary of Reed Elsevier, Reed Business Informa- tion (RBI) provides business professionals across five 

continents unrivaled access to a wide range of communication and information channels. With offerings from 

magazines to directories, conferences to market research, RBI’s main objective is to become the undeniable 

reference in key business sectors across a diverse range of industries. The company’s vision is that superior information 

and communication products help its customers gain competitive advantage in areas such as commerce, 

marketing and decision support. 

Yet, just as important to its central mission, is to operate as a cost-efficient, high performing organization. When 

assessing any new technology, RBI strikes a constant balance between cost and the potential impact of effective, 

efficient, but substantial investment in new revenue streams. Driving this effort at its core is the utilization of 

the Internet as a key delivery channel. RBI’s portfolio of leading prestige brands comprise powerful products and 

services that, thanks to Mark Logic OEM partner 4Dcon- cept’s XMS product, leverage all forms of new media to 

adapt professional information to specific customer requirements. 

RBI FRANCE FACES PUBLICATION CHALLENGES 

RBI France publishes a number of successful titles including the leading French weekly business magazine Stratégies, 

the monthly Direction(s), the #1 electronics review in Europe EPN, and its sister publications EPN France 

and EDN Europe. Last March RBI acquired Cosmedias, the leading French publisher in the beauty market with 

famous magazines like Cosmétique Mag, ICN and Coiffure de Paris. The office also publishes books, guides, CDs 

and databases in areas of interest as diverse as social services, education, human resources, public policy, selfhelp, 

and legal. 

RBI France was laboring under challenging content transformation and production processes. Such issues have 

even greater negative impact in the publishing industry, where content is a company’s greatest asset. RBI France 

was already familiar with the power of XML to tag and index content, but reusing this content often proved quite 

difficult. Regarding its magazine content, RBI France remained tethered to use of an SQLServer database as its 

content repository. This meant that for reuse purposes, any existing content selected would be exported out into 

XML, reprocessed for publishing, and then new pages exported out of XML again for re-storage in the database. 

This laborious use of XML made the press composition process neither clean nor quick. The constant back and 

forth transformations required to produce new content – first for print production and ultimately to the web – was 

proving too difficult to manage. Waiting for production to get print content first and then load it on the Internet had 

introduced latency into the update process as well. 

It was becoming clear that RBI France’s content production, storage and retrieval processes were interfering with 

fulfilling one of its central missions – understanding and exceeding customer expectations. RBI resells its professional 

content to business partners who aren’t in the publishing business but rather leverage custom, industryspecific 

information published by RBI to better serve their own end customers. RBI France’s partners include 

banks, consumer sites, retail outlets, and technology companies. Because of its sometimes laborious production 

processes, RBI France’s wish to repurpose and realize more value from its digital content as new services was 

stymied, making the creation and delivery of added value to these indispensable partners both difficult and expensive. 

REQUIREMENTS FOR A NATIVE XML 

DATABASE SOLUTION 

Although RBI France’s main technical challenge was in transforming content back and forth from XML, its solution 

requirements did not end simply at a database that could handle XML. It needed to be a fully realized enterprise 

content management system leveraging a single centralized XML repository as the main content source for all 

publishing operations. This required that the content platform selected offer workflow functionality to speed and 

ease production and content management of the French publisher’s books, magazines, websites, applications, 

and partner offerings. The company also wanted to be sure that the solution selected was fully compatible with 

Adobe Framemaker, InDesign and the other design tools already in use and favored by its editors. Finally, RBI was 

seeking a partnership with its supplier that would be long-term and mutually beneficial. 


57


Reed Elsevier, the parent company of RBI, has a stated value that pervades the company system-wide: innovation. 

Management encourages workers to welcome and push change, challenge the status quo, take risks and be 

entrepreneurial. Reed Elsevier’s U.S. and U.K. offices first started working with Mark Logic’s XML server back in 

2006. Certainly, going with a new solution called an XML Database at that time was a new idea and a bold move 

indicative of ‘out-of-the-box’ thinking. By the time their counterparts in France were ready for a similar solution, 

Elsevier’s corporate IT department had already completed 2 projects. The result: MarkLogic had a leg up on the 

competition in solving the problems of RBI France. 

PILOTING MARKLOGIC SPARKS 4DCONCEPT’S XMS, AN EDITORIAL CMS 

After the selection of MarkLogic Server, RBI France launched its implementation project at the end of 2006. It 

started small, with a pilot based on only one of its professional electronics magazines, EPN (Europe-wide edition), 

EPN France, and one of its books, Le Guide Familial – the leading French family law guide used by half of 

the country’s social workers. Why? Because sales efforts were already aligned behind these products, and success 

with their high profile brands could be used as a compelling business case to help IT push a larger goal – the 

ultimate move to a true enterprise-wide editorial content management system. 

To succeed in this challenge, RBI France turned to one of its trusted local IT solution providers, 4Dconcept. 4Dconcept 

would provide critical know-how in multi-channel publication for the press and publishing industries. After 

having learned to integrate Mark Logic in a matter of weeks, 4Dconcept managed the 6-month pilot program to 

a successful conclusion and also set the foundation for the future editorial content management system. This 

solution, called XMS, would drive the production of other RBI France content. 

However, it didn’t take RBI France very long to understand the distinct advantages of an editorial content management 

system relying on a database specialized in handling full XML content. This is how RBI France got 

involved in the development of XMS. XML simply made sense for a wider solution that would anticipate all RBI 

France’s future needs. First, XMS places no limitations on the original structure of the content, meaning it can be 

tagged and indexed from any source just as efficiently. 

RBI France is able to repurpose content without any constraint from the media itself. Changes anywhere, even to 

a single word in a single story, ripple out to be reflected in all citations automatically without IT intervention. 

Finally, editors were able to keep in place all of their preferred publication layout and design tools such as Adobe 

InDesign, Framemaker and Bridge. 

After the pilot project was completed, RBI France conducted three to four months of analysis to measure its success. 

This process yielded some best practices to optimize the massive rollout of XMS across RBI France. EPN 

and Le Guide Familial are not large publications. 

Hence, it was critical that the success of the future XMS be demonstrated and proven in action here before moving 

on to larger, more prestigious brands. 

RBI FRANCE’S USE OF XMS SPURS NEW SERVICES FOR CUSTOMERS 

As a result of the successful implementation of XMS, RBI France was actually able to reverse its original production 

process of new content from web to print, versus print to web. Changing this workflow allows editors 

to publish in XML without media constraint, to launch new material on the web in seconds when ready, and to 

provide new value-added services for customers and partners. The content lives in XML without needless transformations, 

streamlining a process that’s cleaner, quicker and always up-to-date. The print production team now 

consistently leverages the latest information to churn out RBI France’s magazines weekly and monthly, or its new 

book editions on a quarterly basis. 

Because of 4Dconcept and Mark Logic’s success with some of the most high profile brands at RBI France, the 

division was able to rollout a true enterprise-wide editorial content management system – a live, fully functional 

solution with direct connections to and from in-house layout and design tools. Seven different RBI brands now 

have their content fully loaded as XML in XMS, including numerous leaflet books and some of the larger, more 

prestigious magazines published by RBI France such as stratégies. The high level of scalability and reliability of 

XMS ensures work can continue until all of RBI France’s products live in the XML database. The amount of upfront 

index definition completed during XMS’ conception means little additional development investment is necessary to 

integrate new brands or products into XMS quickly and cleanly. 

In summary, RBI France’s investment in XMS is indeed paying off. Streamlined production has lead to the company’s 

ability to repurpose its digital content and to deliver more value offering new resale services to partners. 

Rich XML allows innovative products to be introduced easily and less expensively, whether internal or external. 

One example of dynamically updated custom content resulting in a new service includes the case of one of RBI 

France’s major bank customers. This content resale partner was able to rapidly produce a new audit guide on 

their own website, completely powered by RBI content. Mark Logic and 4Dconcept have thereby helped RBI 

France to fulfill another one of its core corporate objectives: to be highly valued and respected by its customers. 

The official introduction of XMS to the market occurred in October 2008 in Paris. RBI France, 4Dconcept and Mark 

Logic continue to partner for ongoing development and evolution of XMS. 

ABOUT 4DCONCEPT 

4Dconcept provides leading organizations with services to drive, define, design and deploy documentary and 

editorial information systems in the aeronautics, defense, construction, manufacturing, telecommunication, transport, 

publishing, media and administration sectors. 4Dconcept addresses matters such as content and knowledge 

management, editorial content enrichment and publishing, after-sale market and maintenance engineering, and 

cross-media publishing. It offers a range of services to advise customers on best practices, develops custom-made 

solutions, and produces graphical (2D/3D) and text content applications. 4Dconcept also offers a set of modular 

and adaptable turnkey solutions to help customers produce and manage their information in multiple sectors. The 

implementation of technologies such as XML enables 4Dconcept to bring relevant information to the people who 

need it, when they need it. To learn more about 4Dconcept, visit www.4dconcept.fr. 


58


MARKLOGIC - RSC 

BIG DATA AS A SCIENCE UK CHEMISTRY SOCIETY UNLOCKS 170 YEARS’ 

WORTH OF DATA WITH THE POWER AND FLEXIBILITY OF MARKLOGIC 

When the content experts at the Royal Society of Chemistry (RSC) found themselves struggling to manage millions 

of buried data files, they partnered with MarkLogic to build a new solution. Using the MarkLogic Enterprise NoSQL 

database, the RSC has made over a century’s worth of information accessible to entrepreneurs, educators, and 

researchers around the world. 


Founded over 150 years ago in the United Kingdom, the RSC is Europe’s largest organization dedicated to furthering 

awareness of the chemical sciences. With more than 48,000 global members, the RSC is the heir and successor 

of four renowned and long-established chemical science bodies—The Chemical Society, The Society for 

Analytical Chemistry, The Royal Institute of Chemistry, and The Faraday Society. The RSC’s headquarters are in 

London and Cambridge, UK with international offices in the USA, China, Japan, India and Brazil. 

To strengthen knowledge of the profession and science of chemistry, the RSC holds conferences, meetings, and 

public events, and also publishes industry-renowned scientific journals, books and databases. 

Adding to its wealth of content, the RSC recently acquired the rights to The Merck Index. Widely considered as 

the worldwide authority on chemistry information, this renowned reference book has been used by industry professionals 

for over 120 years. 

CHALLENGE 

It’s a tall order to manage a single year’s worth of data—so how about 170 of them? Since the 1840s, the RSC has 

gathered millions of images, science data files and articles from more than 200,000 authors. All of that information 

was stored in a wide range of formats at multiple locations and was growing by the day. 

In 2010, largely due to the huge growth of social media and digital formats, the RSC launched an initiative to make 

its data more accessible, fluid and mobile. 

David Leeming, strategic innovation group solutions manager for RSC, sums up the society’s goal: “We needed an 

integrated repository that would make all of our content accessible online to anyone—from teachers to businesses 

to researchers. The key was finding the right technology.” 

SOLUTION 

After evaluating several major providers, the RSC chose MarkLogic as the best platform for its needs, and built 

three sites on it: 

• RSC Publishing: http://www.rsc.org/publishing 

• Learn Chemistry: http://www.rsc.org/learn-chemistry 

• Chemistry World: http://www.rsc.org/chemistryworld 


59


Given the society’s wide range of information media— books, emails, manuals, tweets, metadata, and more—the 

data does not conform to a single schema, which means a traditional relational database can’t accommodate it. 

MarkLogic’s document-based data model is ideal for varied formats and hierarchical metadata. The RSC can 

simply load its information as-is, without having to conform to a rigid format. 

As Leeming points out, “A book chapter is very different from a journal article. A relational database can’t combine 

the two. MarkLogic is flexible enough to handle all types of unstructured content in a single delivery mechanism, 

from spreadsheets and images to videos and social media comments.” 

MarkLogic offers many key benefits, including the ability to store content as XML documents. The database also 

enables logical associations between different types of content. 

Each image, video, and article is automatically tagged, allowing users to find, understand, and process the information 

they need. As shown in the image above, searching RSC publications is a quick, intuitive process using a 

standard Web browser. 

The new MarkLogic platform will be a significant benefit in the RSC’s acquisition of The Merck Index. “We’re eagerly 

looking forward to developing The Merck Index for the digital future,” says Dr. James Milne, RSC Publishing 

Executive Director. The schema-less MarkLogic database will help to ensure the continued growth of the publication’s 

online format. 

SHARING THE KNOWLEDGE 

With the greater data accessibility afforded by the new MarkLogic database, the RSC’s publishing division has 

become much more productive, publishing more than 20,000 articles in 2011. “We can now publish three times as 

many journals and four times as many articles as we did in 2006, and get them to market faster,” says Leeming. 

“And we have the ability to build new educational programs to spread chemistry knowledge among more people.” 

In addition, since implementing the integrated MarkLogic database, the RSC has seen a 30 percent increase in 

article views, a 70 percent traffic boost on its educational websites, and a spike in research activity in India, China, 

and Brazil. 

Although the integrated data repository has been the biggest game-changer, the MarkLogic technology has enabled 

other opportunities. Leveraging MarkLogic’s Enterprise NoSQL database, the RSC has launched many new 

research journals, mobile applications, social media forums, and applications for children. 

Dr. Robert Parker, RSC Chief Executive, sums up the major role MarkLogic has played in this successful transition. 

“Using MarkLogic’s big data platform has allowed us to open up the world of chemistry to a much wider audience, 

whilst increasing the volume and quality of the research that we publish.” 


60


MARKLOGIC - SPRINGER 

SPRINGER TAKES CONTROL OF ITS ONLINE CONTENT DELIVERY 

SCIENTIFIC PUBLISHER USES MARKLOGIC TO TURN SPRINGERLINK 

INTO THE CORE OF ITS BUSINESS AND IMPROVE PERFORMANCE BY 50% 


For over 160 years, Springer has led the industry in scientific and medical publishing. 

With a staff of 6,000 employees around the world, the company publishes more than 8,000 new book titles each 

year—and that’s just in print. To meet the growing demand for online delivery, Springer also maintains an online 

catalog of more than 169,000 eBooks, and has the world’s largest open access portfolio. 

The company’s content delivery platform, SpringerLink, is the heart of the company’s business, hosting more than 

8.4 million scientific documents including journals, books, series, protocols and reference works. 

CHALLENGES 

Launched in 1996, SpringerLink was one of the first publicly available online content platforms. The site was originally 

used as a home to some of the company’s journals, but as online content became an increasingly important 

part of the company’s business, SpringerLink became the hub for every journal the company published, and later, 

its entire library of books. 

With a massive content library and a shift in revenues from print to electronic, Springer needed a greater level of 

flexibility and control over its online content distribution, which had grown to account for two-thirds of total company 

revenue. The Springer team required: 

• An in-house solution. For the past eight years, Springer had been using a third-party technology provider to power 

SpringerLink. As it evolved into a crucial component of their revenue, the company decided that they didn’t want 

that strategic asset resting on a technology they didn’t own. 

• Rapid deployment. With the end of their outsourced technology contract fast approaching, Springer faced the 

daunting task of completing the project in just 11 months. 

• Fast search. As online content exploded, readers came to expect better functionality from content providers, 

including sub-second search. 

THE SOLUTION 

Springer chose MarkLogic as its new platform because it allowed them to deliver more rich applications to their 

customers so they could create a user experience that went beyond simply delivering a piece of content. It had 

previously built and deployed some high-performing applications using MarkLogic technology, including a tool to 

track the locations of document authors, a search engine for mathematicians, a program that displays snippets 

of scientific language in a publishing context, and SpringerImages, a robust platform that allows users to search 

through the millions of images stored in SpringerLink. 

BENEFITS 

MarkLogic gave Springer an in-house solution that dramatically improved SpringerLink’s performance. MarkLogic 

also helped Springer: 

• Create revenue. SpringerLink has become the core of Springer’s business, generating 95 percent of Springer’s 

online revenue and driving more than 2 million page requests and over a million downloads a day. 

• Increase performance. In fractions of a second, SpringerLink can now analyze hundreds of contracts per customer 

identifying which of the millions of items they can access. During high-traffic periods, the new platform loads 

twice as fast, and runs essential functions up to four times faster. 

• Boost user engagement. Since moving to MarkLogic, the time users spend on SpringerLink has increased by 

one-third, bounce rate has been cut in half, and number of page views grown. 

• Re-build SpringerImages. MarkLogic searches image captions as well as relevant text surrounding the image 

ensuring more robust and accurate results. 

• Fit its agile development process. MarkLogic’s agile approach supports automated tests, continuous integration 

and deployment, and weekly iterations. 

• Simplify architecture. MarkLogic’s built-in powerful search engine helped Springer simplify its architecture and 

allows users to subscribe to their own reusable queries. 

• Support multi-language search. MarkLogic is able to change the search parameters based on the user’s language. 

German-speaking users and English-speaking users will see results tailored to them. 

• Go to market quickly. From three releases each year on the old platform to now weekly releases, Springer is able 

to take new features to market as soon as a business need is identified. 


61


MICROPOLE - L’OBS 

L’OBS : DE NOUVELLES OPPORTUNITÉS GRÂCE AU BIG DATA POUR 

AMÉLIORER L’EXPÉRIENCE DES LECTEURS 

L’OBS (ex-Le Nouvel Observateur), acteur majeur de l’information sur les supports magazine, web et mobile a 

retenu en 2013 Micropole et son agence digitale Wide pour l’accompagner dans la définition et sur la mise en place 

de sa stratégie multicanal personnalisée. 

Avec 8 millions de visiteurs uniques par mois* et plus de 800 000 abonnés, le groupe souhaitait disposer d’une 

connaissance 360° de l’ensemble de son audience afin de lui proposer de nouveaux services individualisés à forte 

valeur ajoutée. 

Dans un contexte de mutation des usages, particulièrement dans le domaine des media et de transformation de 

l’information (volume, vitesse et variété), l’OBS entreprend alors : 

- D’écouter sur tous les points de contact, digitaux ou offline ; 

- D’analyser les données pour mieux connaître et appréhender les centres d’intérêt du lecteur ; 

- De comprendre et d’animer en cross-canal l’ensemble de son lectorat traditionnel et digital. 

Pour atteindre ces objectifs de collecte, d’analyse et d’engagement de la relation client, l’OBS s’appuie sur la 

plateforme Customer Data mise en place par Wide. Cette solution repose sur les principes technologiques du Big 

Data et met à disposition les services métiers en mode SaaS (Software as a Service) de la solution Cloud Digital 

Marketing Optimization de IBM . 

Ainsi, l’OBS est en capacité de proposer un contenu personnalisé en accord avec les préférences de ses lecteurs 

et selon leur historique de navigation, ceci en temps réel. Le groupe est également capable d’adresser des communications 

individualisées (emails, newsletters…) tenant compte de leurs centres d’intérêt. 

Cette stratégie digitale a rapidement porté ses fruits car le nombre d’abonnements à la newsletter a augmenté de 

25% en seulement 6 mois. Le lecteur abonné est alors reconnu et animé par le CRM. 

« Avec IBM et Micropole, nous avons fait le choix de l’ambition et de l’innovation. Grâce aux fonctions avancées 

de cette nouvelle plateforme, nous sommes capables de comprendre les centres d’intérêt d’un internaute, sans 

pour autant connaître son identité, tout en apportant de nouveaux services à forte valeur ajoutée à nos abonnés. 

Plus généralement, ceci nous permet d’offrir à nos lecteurs la possibilité de bénéficier de contenus et de services 

personnalisés en temps réel », a déclaré le Directeur Marketing Digital de L’OBS. 

*Source : Médiamétrie NetRating mai 2013 


62


MICROSOFT - PIER IMPORT 

MICROSOFT - PIER IMPORT 

With over 1,000 stores, Pier 1 Imports aims to be their customers’ neighborhood store for furniture and home décor. 

But the way customers are shopping is different today and Pier 1 Imports recently launched a multi-year, omnichannel 

strategy called “1 Pier 1”, a key goal of which is to understand customers better and serve them with a 

more personalized experience across their multiple interactions and touch points with the Pier 1 brand. 

Pier 1 Imports recently adopted Microsoft Azure Machine Learning to help them predict what their customers might 

like to buy next. Working with Microsoft partner MAX451, they built an Azure ML solution that predicts what a 

customer’s future product preferences might be and how they might like to purchase and receive these products. 

Many Microsoft customers across a broad range of industries are deploying enterprise-grade predictive analytics 

solutions using Azure ML. You too can get started on Azure ML today. 

MICROSOFT - THYSSENKRUPP 

MICROSOFT - THYSSENKRUPP USES PREDICTIVE 

ANALYTICS TO GIVE BURGEONING CITIES A LIFT 

Urban migration is one of the megatrends of our time. A majority of the world’s population now lives in its cities. By 

2050, seven of every ten humans will call a city their home. To make room for billions of urban residents to live, 

work and play, there is only one direction to go – up. 

As one of the world’s leading elevator manufacturers, ThyssenKrupp Elevator maintains over 1.1 million elevators 

worldwide, including those at some of the world’s most iconic buildings such as the new 102-story One World 

Trade Center in New York (featuring the fastest elevators in the western hemisphere) and the Bayshore Hotel in 

Dalian, China. 

ThyssenKrupp wanted to gain a competitive edge by focusing on the one thing that matters most to their customers 

– having elevators run safely and reliability, round the clock. In the words of Andreas Schierenbeck, ThyssenKrupp 

Elevator CEO, “We wanted to go beyond the industry standard of preventative maintenance, to offer predictive and 

even preemptive maintenance, so we can guarantee a higher uptime percentage on our elevators.” 

FIX IT BEFORE IT BREAKS – ‘SMART’ ELEVATORS 

ThyssenKrupp teamed up with Microsoft and CGI to create a connected intelligent system to help raise their elevator 

uptime. Drawing on the potential of the Internet of Things (IoT), the solution securely connects the thousands 

of sensors in ThyssenKrupp’s elevators – sensors that monitor cab speed, door functioning, shaft alignment, motor 

temperature and much more – to the cloud, using Microsoft Azure Intelligent Systems Service (Azure ISS). The 

system pulls all this data into a single integrated real-time dashboard of key performance indicators Using the rich 

data visualization capabilities of Power BI for Office 365, ThyssenKrupp knows precisely which elevator cabs need 

service and when. Microsoft Azure Machine Learning (Azure ML) is used to feed the elevator data into dynamic 

predictive models which then allow elevators to anticipate what specific repairs they need. 

As Dr. Rory Smith, Director of Strategic Development for the Americas at ThyssenKrupp Elevator, sums it up, 

“When the elevator reports that it has a problem, it sends out an error code and the three or four most probable 

causes of that error code. In effect, our field technician is being coached by this expert citizen.” 

In other words, these ‘Smart’ elevators are actually teaching technicians how to fix them, thanks to Azure ML. With 

up to 400 error codes possible on a given elevator, such “coaching” is significantly sharpening efficiency in the field. 


63


MICROSOFT - CARNEGIE 

MICROSOFT - MEET CARNEGIE MELLON’S ENERGY SLEUTHS 

An academic, architect, researcher and activist for energy conservation—Vivian Loftness is a champion of biophilic 

design. Her workspace, surrounded by light and plants, reflects her passion. 

Vivian Loftness is obsessed with sustainability and building performance. Having called many different cities 

around the world home — from her birth city of Stockholm, to early years in Los Angeles and Paris, to study and 

work stints in Boston, Helsinki, New York City, Cologne, Athens, Ottawa and finally, Pittsburgh, where she is a professor 

at Carnegie Mellon’s School of Architecture — Loftness has checked out more than a few buildings close up. 

Loftness’ singular passion is for sustainable architectural design and the need to get buildings in our world to a 

“zero state” where they have the smallest possible energy footprint without sacrificing comfort. This is no small 

feat, and a problem that is technological as much as it is architectural. But advances in technologies such as cloud 

computing, data analytics and services such as Microsoft’s Azure Machine Learning are helping Loftness and two 

researchers at Carnegie Mellon’s Center for Building Performance and Diagnostics slowly crack the code, one 

building at a time, and in ways previously unthinkable. 

THE ‘INTELLIGENT WORKPLACE’ - WHERE THE DATA JOURNEY BEGINS 

The Intelligent Workplace, which sits atop the Margaret Morrison Carnegie Hall, was established in 1997 as the first 

“Living Laboratory” of its kind dedicated to research in building sustainability. 

The Robert L. Preger Intelligent Workplace, which sits atop the stunning Margaret Morrison Carnegie Hall, is where 

Loftness and 30 researchers and graduate students are studying the impact of a variety of factors on the quality 

of built environments. Natural light dominates this space they call “the Living Laboratory,” streaming in through 

skylights and wall after wall of expansive windows that offer sweeping views of the campus grounds. Research 

students occupy open, collaborative workspaces. Unfinished wooden building models sit on work tables which, like 

the rest of the furniture and walls in the lab, are reconfigurable and movable — all in a matter of minutes. Plants 

are everywhere, and if you look closely enough, several are wired with sensors, as are the walls and ceilings of 

this “living” workspace. 

For these researchers, the journey started with really simple questions: How do you give people who work in buildings 

a comfortable environment while using the least possible energy? How do you make people accountable for 

their own energy footprints? And how can technology assist in that journey? 

Senior researchers Bertrand Lasternas and Azizan Aziz work with Loftness, sharing her passion for taking on one 

of the most daunting problems facing our generation — How do you make buildings more energy efficient? The 

statistics are sobering. Nearly 70 percent of all electricity in the United States goes toward building operations — 

heating and cooling systems, lighting, ventilation and plug loads. For these researchers, the journey started with 

really simple questions: How do you give people who work in buildings a comfortable environment while using 

the least possible energy? How do you make people accountable for their own energy footprints? And how can 

technology assist in that journey? 

MAKING SENSE OF BUILDING DATA 

Not unlike a crew of investigators methodically working their way through evidence at a crime scene, these energy 

sleuths have cultivated a healthy respect for data and are capturing it from buildings all across the Carnegie Mellon 

campus. They’re about halfway there, drawing data from 40 buildings, with roughly 25 more to go. 

Data is how buildings reveal their secrets and to miss one key piece could potentially derail an entire investigation. 

“The behaviors of buildings we analyze and the people who occupy them are unique, complex and hard to predict,” 

says Loftness. There are students who leave windows open in their dorm rooms during bitterly cold winters when 

heat is blasting. There are building managers who leave air conditioning systems running during cool summer 

nights. There are offices that enjoy bright daylight but whose staff still leave the lights on all day. And then there 

is the challenge of managing “things”— thermostats, computers, microwaves, elevators — as well as analyzing 

external factors such as day-to-day fluctuations in weather. 

SO MUCH INEFFICIENCY 

Loftness conducts a lecture with graduate students at the Intelligent Workplace. Some of her students assist with 

the data sleuthing activities. 

The large number of variables means one simple thing: Buildings, like those who inhabit them, are living beings. 

What are they telling us? More importantly, are we doing enough to listen? 

“There is no question that we save 30 percent in most buildings through better awareness of where the energy’s 

going, and giving users better controls to adjust for their individual needs while driving down energy usage,” Loftness 

says. 

The stakes are high and so is the urgency. About 40 percent of CO2 emissions globally come from buildings. 

Buildings use technologies and products assembled in hundreds of unique ways, generating literally millions of 


64


variations. Buildings also vary in age, with generations of local architectural adaptations made over time. Then 

there are the occupants — a mix of people with unique activities and comfort thresholds. Understanding how all 

these factors mesh together requires historical data and data analysis. A lot of it. 

These are complex and critical problems we’re trying to solve. And cloud and machine learning technology is 

helping us push boundaries of what is possible in ways I couldn’t have imagined a few years ago. — Azizan Aziz, 

Senior Research Architect 

THE DATA CHALLENGE MEETS THE DATA SLEUTHS 

Making all the captured data from buildings work together is like putting together a massive jigsaw puzzle. Some 

buildings on campus, such as the Gates Center, have hundreds of sensors, and others not so many. These sensors 

are tracking CO2 levels in different rooms, measuring the distribution of temperatures by floor, by room and by 

height, monitoring windows, lighting systems and plug loads. And there’s more: People who work inside make up 

the most significant part of a building’s heartbeat — so user satisfaction data is being added to the mix based on 

occupant surveys in order to have a holistic picture of the indoor environmental quality of the workplace. 

To say it’s a complex task would be putting it lightly. Lasternas and Aziz spend a good deal of time being data 

sleuths, and finding ways to listen to what the buildings are trying to communicate — the story that lives in the data. 

There is a real difference you can make in energy conservation by giving people data that is actionable instead of 

asking them to just do their best — Bertrand Lasternas, Senior Researcher 

When Lasternas came to Carnegie Mellon from France in 2010, he was a physics and chemistry major working 

towards a master’s degree in mechanical engineering and building sciences. Today, he’s an expert in extracting 

data from building management systems and sensors, both to understand how buildings work, as well as to help 

people manage energy more efficiently. 

Recalling challenges from the earlier phases of the research, Lasternas says, “We might have 10 different manufacturers 

of equipment in a single building, and none of them share information. So how do you pull all of that 

together? We wanted to empower people to be more engaged in the living building, more aware of their energy 

usage patterns.” 

With help from Microsoft’s Global ISV partner OSIsoft, Lasternas and Aziz began using their solution, the PI System, 

four years ago. It offered the missing “glue” that helped the team bring data together from various sources, 

“cleanse” it, store it in a common, usable format, and make it ready for historical and real-time analysis. The PI 

System supports more than 400 interfaces that can connect to systems from the many different vendors of building 

systems and controls. 

THE MACHINE LEARNING BREAKTHROUGH 

“We’re not trained data scientists. We went overnight from using complex statistical analysis tools to drag-n-drop 

insights. That’s a breakthrough for the work we do” — Senior Researcher Azizan Aziz 

Having conquered the data integration and storage challenge, the team dove into analysis — a world of massive 

spreadsheets and programming languages such as MATLAB to handle big, iterative computations. It was an 

exercise that very quickly got unwieldy. “We’re not trained data scientists by background, and complex statistical 

packages are outside of our immediate area of expertise,” says Aziz. 

“One of our former students was using MATLAB for analysis,” he recalls. “It took her a long time just to prepare and 

sort the data, and then a single run of analysis took 30-45 minutes. That’s far too long to develop good predictions 

for demand reduction. We really need to do these iterative analyses in real-time.” 

Machine Learning, cloud and data visualization technologies changed the dynamics of their project dramatically. 

“With Azure Machine Learning, the time it took to run a single experiment went from 45 minutes to instantaneous,” 

Aziz says. “It’s really fun to be able to use multiple types of machine learning algorithms and just have the results 

appear immediately. We’re able to play with all the variables and make sense of which ones contribute most to a 

specific change in building conditions.” 

LETTING THE DATA TELL THE STORY 

To let the data tell its own story in a way that is visual and easy to grasp, the Carnegie Mellon researchers build 

“digital dashboards” that make data anomalies much easier to spot. Using these dashboards, they’ve been able to 

solve puzzles in the buildings they’re working on. In one case, Lasternas recalls, “We saw an unusual area of low 

temperature in a building and realized that someone was leaving a window open in the middle of winter, when it 

was minus-eight degrees outside.” 

According to Aziz, when a strange condition is spotted on the dashboard, the solution is often a simple one. “We 

ask people why they have the boiler on when the temperature outside is 85 degrees. Turns out they didn’t know it 

was on, because they don’t have the data presented to them clearly,” he says. 

Having data-based insight on-the-fly is great, but where things get really interesting is with the potential to do predictive 

modeling. This is an area where cloud and machine learning technologies have truly been a game changer. 

Because Carnegie Mellon is collecting and storing real-time and historical data on campus buildings using the PI 

System, they finally have the ability to do predictive analysis using Azure Machine Learning in exciting ways. 

For people who live in buildings and use its systems, providing data alone isn’t enough to change behavior. “People 

need to see the impact of their actions every minute. Digital dashboards often trigger the “aha!” moments.” 

— Lasternas 

One of the team’s early experiments involved trying to figure out the ideal time to ramp up the heating in campus 

buildings to hit 72 degrees at start of business (by 8 a.m.), given predicted variations in outdoor temperature and 

sunshine. Using Azure Machine Learning, they built a model that looked at months of “heat up” data from the building’s 

records and matched that to multi-day external temperatures and anticipated solar radiation. The result? They 

were able to zero in on a custom model for each day to start heating a building at the lowest energy use. 

“As simple as that victory sounds, the implications for energy and dollar savings are simply enormous —especially 

when you scale up,” notes Lasternas. For this group of researchers, the potential to scale up such predictive ca- 


65


pabilities — to forecast factors such as energy demand spikes and equipment failures, to simply and proactively 

give people actionable information at their fingertips — is where their research can have real and broad impact. 

“These are complex and critical problems we’re trying to solve. And cloud and machine learning technology is helping 

us push boundaries of what is possible in ways I couldn’t have imagined a few years ago,” Aziz says. 

AN ENERGY CROSSROADS 

Vivian Loftness checks out a model of a planned second wing to Margaret Morrison called “Invention Works’ where 

Carnegie Mellon inventors from across campus could collaborate to create products and systems that improve our 

environment, our health and our quality of life. 

The journey of these energy crusaders is just picking up steam. Early alliances include partnerships and projects 

with United States Department of Energy and the Department of Defense, OSIsoft, the city of Pittsburgh and PNC 

Bank, one of the largest diversified financial services organizations in the country. 

With the growing commitment to sustainable design initiatives across the public and private sector, Loftness believes 

the energy conservation movement is quickly hitting a tipping point in the U.S. 

“Climate change is a serious challenge and I expect to see energy management in buildings rise from its underchampioned 

status today to the forefront of the energy conservation movement,” Loftness says. “Technology is 

helping us get to better insights, and faster, creating a movement that will ripple across the country in the next few 

years, reshaping how we live, work and play.” 


66


MONGO DB - BOSCH 

BOSCH LEADS THE CHARGE INTO INTERNET OF THINGS 

BETS ON MONGODB FOR BUILDING APPS NEVER BEFORE POSSIBLE 

Things (e.g., devices, assets) are getting more intelligent. And every day, more and more of them are connecting 

to the Internet. This is forming the Internet of Things (IoT). 

There’s no company more connected to this trend than the Bosch Group, a multinational engineering conglomerate 

with nearly 300,000 employees. Known for its appliances in the U.S., Bosch is also the world’s largest automotive 

components manufacturer. From smart power tools and advanced telematics to microelectromechanical systems 

(MEMS), it’s at the forefront of IoT. 

With such a wide-reaching, diverse product base, IoT represents a huge opportunity for the Bosch Group to increase 

efficiency and to develop new business models. It also poses a significant challenge, to design, develop 

and operate innovative software and industry solutions in the IoT. Bosch Software Innovations (Bosch SI) spearheads 

all IoT activities inside the Bosch Group and helps their internal and external customers to be successful in 

the IoT. 

IoT is in its infancy, but growing up fast. By some estimates, 50 billion devices, appliances and systems will be 

connected by 2020. Traditional systems cannot support the volume, speed and complexity of data being generated 

across such a vast spectrum of potential use cases. Bosch SI was looking for an innovative partner to meet the 

challenges of Big Data in IoT. 

IOT DATA MADE VALUABLE 

IoT goes beyond simply connecting assets and devices. It requires creating services that gather data and deliver 

immediate insight. The Bosch IoT Suite and the integrated database from MongoDB make this possible. 

“IoT is the culmination of agility and flexibility on the one side and big data on the other side – and this is where 

MongoDB is of great value to us.” 

Dirk Slama, Bosch Business Development Take, for example, the automotive field data app that Bosch is piloting. 

The app captures data from the vehicle, such as the braking system, power steering and windshield wipers. The 

data can then be used to improve diagnostics for preventative maintenance needs, as well as analyze how components 

are performing in the field. The value isn’t simply in the sensor attached to the electromagnetic components, 

but in how the back-end service is able to improve maintenance and product design processes. 

In another example, an app based on the Bosch SI technology gives aircraft manufactures unprecedented control 

over how operators use highly advanced power tools used to tighten the six million screws, nuts and bolts on an 

airplane -- a mission-critical job with zero room for error. 

The app captures all data transmitted wirelessly, including battery level, operator details and time-series calibration 

readings. If the torque or angle is off by the slightest bit, the app sets off an alarm so the operator can make on-thefly 

adjustments. It manages maintenance schedules, tracks and traces details to prevent loss, and also creates an 

audit trail of tightening processes for compliance with the FAA and other regulatory bodies. By connecting data to 

manufacturing processes in real-time, the app makes that power tool exponentially more powerful. 

In both instances, the Bosch IoT Suite collects data from individual sensors and equipment – the car’s braking 

system, or the wireless tightening tool. MongoDB stores, manages and analyzes all of this event data in real-time. 

MongoDB also stores business rules that trigger alarms and notifications, such as “alert driver when brake pressure 

drops below a certain level” or “send alarm when tool is being used incorrectly.” 

DATA MANAGEMENT REIMAGINED FOR IOT 

The massive volume and increasingly unstructured nature of IoT data has put new demands on Bosch SI’s entire 

technology stack, especially the underlying database. Rigidly defined RDBMS data models have limited use in IoT. 

They lack the flexibility, scale and real-time analytics needed to quickly capture, share, process and analyze IoT data. 

IoT calls for a new mindset, and a new database. MongoDB helped Bosch SI reimagine what’s possible. Here’s how: 

1. Manage complex data types. IoT data arrives at higher speeds, in greater volumes and variability of structure. MongoDB 

can easily handle the full spectrum of data: structured, semi-structured, unstructured. Efficient modeling of data 

using JSON makes it easy to map the information model of the device to its associated document in the database. 

2. Support continuous innovation and business agility. Changes in IoT customer requirements, standards and use 

cases will require frequent data model changes. MongoDB’s dynamic schema supports agile, iterative development 

methodologies and makes it simple to evolve an app. Adding new devices, sensors and assets is straightforward, 

even when you’re dealing with multiple versions in the field concurrently. Instead of wasting time dealing 

with the mismatch between programming language and the database, MongoDB lets developers focus on creating 

rich, functional apps. 

3. Create a unified view. Creating a single view of an asset or customer with a relational database is complicated. 

Source schema changes require additional changes to the single view schema. MongoDB makes it easy to aggregate 

multiple views of related data from different source systems into one unified view. 


67


4. Power operational insight with real-time analysis. Apps handling fast-moving IoT data can’t wait on ETL processes 

to replicate data to a data warehouse. They need to react and respond in real time. MongoDB’s rich indexing 

and querying capabilities – including secondary, geospatial and text search indexes, the Aggregation Framework 

and native MapReduce – allow users to ask complex questions of the data, leading to real-time operational insight 

and business discovery. 

5. Be enterprise-ready. MongoDB complements agility with enterprise-grade availability, security and scalability. 

Zero downtime with replica sets. Proven database security with authentication, authorization, auditing and encryption. 

Cost-effective scale-out across commodity hardware with auto-sharding. As IoT data volumes continue to 

explode, Bosch will be able to efficiently scale without imposing additional complexity on development teams or 

additional cost on the business. 

A BET THAT PAID OFF 

Bosch SI is making a strategic bet on MongoDB to drive innovative apps in every industry where it does business. It 

can improve the retail shopping experience with in-store maps and personalized notifications. Create safer working 

conditions in manufacturing environments. Trace agriculture through the food chain to support farm-to-table initiatives. 

“It’s great to see MongoDB as a stable and growing company that we can strategically bet on” Dirk Slama, Bosch 

Business Development 

The use cases are limitless. And MongoDB makes every single one possible. 

The IoT market is exploding and Bosch is moving quickly. Bosch SI is continuing development on new apps and 

working closely with MongoDB to scale up existing apps – like growing a three million car pilot to a 300 million car 

application. 

With MongoDB, scale-out will be fast, reliable and cost effective. 

As a technology provider, partner and fellow innovator, MongoDB is in lock-step with Bosch SI. Bosch SI is accelerating 

implementation of new IoT apps and business models, ensuring the business units and customers it serves 

don’t miss a beat as new generations of sensors and equipment come online. 

Copyright © MongoDB Inc 2014 

MONGO DB - METLIFE 

RETHINKING THE CUSTOMER EXPERIENCE AT METLIFE: FROM STALLED 

TO SUCCESS IN THREE MONTHS 

Reinventing customer service. In 2011, MetLife’s new executive team knew they had to shake up how the insurance 

giant catered to customers. Because today’s consumers – hyper connected, digitally empowered, information 

savvy – have little patience and even less loyalty. 

MetLife wanted to harness Big Data to create a 360-degree view of its customers so it could know and talk to each 

of its more than 100 million clients as individuals. But the Fortune 50 company had already spent many years trying 

unsuccessfully to develop this kind of centralized system using relational databases. 

Which is why the 145-year old insurer in 2013 turned to MongoDB. Using MongoDB’s technology over just 2 

weeks, MetLife created a working prototype of a new system that pulled together every single relevant piece of 

customer information about each client. 

Three short months later, the finished version of this new system, called the “MetLife Wall,” was in production 

across MetLife’s call centers. The Wall collects vast amounts of structured and unstructured information from 

MetLife’s more than 70 different administrative systems. After many years of trying, MetLife solved one of the 

biggest data challenges dogging companies today. All by using MongoDB’s innovative approach for organizing 

massive amounts of data. 

INSIDE THE METLIFE WALL 

Today, when a customer calls MetLife to ask about a claim, add a new baby to a policy, or dig into coverage details, 

customer representatives use the Wall to pull up every bit of information they need in seconds – name, address, 

policies, and life events. 

Using a touchscreen and a design based on how Facebook dishes up information, The Wall is instantly familiar to 

MetLife’s call center operators. Which means customer reps can quickly and efficiently answer questions, handle 

claims, suggest new services, or offer promotions, while slashing wait and call times. MetLife now understands 

and serves each customer individually. 


68


POWER OF THE FLEXIBLE DATA MODEL 

What sparked this change? We’re all too familiar with typical customer service. Call any business and you enter an 

endless maze where you’re passed around to different people who ask for the same bits of information. 

The culprit is data silos. Like most companies, MetLife has scores of data systems created or acquired over the 

years. MetLife’s systems contain a huge array of structured and unstructured data, including policy and customer 

information and transactional history about everything from claims to payments. Few are connected and many are 

on mainframes with cumbersome interfaces. 

Ripping out its administrative systems and replacing them with one unified system wasn’t an option for MetLife. 

So the company had tried over the years to use relational databases, which require a common schema and strict 

mapping of data sources. Adding each new system was an expensive and time consuming process of changing 

schemas, and extracting, cleansing, and matching data – one that MetLife never won. 

Working with MongoDB, MetLife could finally sidestep this whole exercise. What makes MongoDB different is its 

flexible data model. MongoDB looks at data more naturally, making it easy to evolve schemas in real time. If relational 

databases are like Excel spreadsheets – where data is organized into sheets but where you add a column 

every time you add a field, creating a structured but unwieldy project – MongoDB is a series of Word documents. 

Each entry is a document that can have its own schema. 

FLEXIBLE, SCALABLE, USER FRIENDLY 

MongoDB also makes the most of today’s computing resources, including commodity hardware and cloud infrastructure. 

This helps slash the cost of ownership and lets organizations scale their operations and applications 

quickly. MongoDB’s horizontal scaling via automatic sharding provides reliable partitioning of massive amounts of 

data across multiple servers. And it’s flexible, allowing organizations to leverage multiple data centers and multitemperature 

storage techniques. 

Just as crucial for productivity and agile application development is the ease of use MongoDB provides developers. 

Developers can interact with the database in the same programming language they use to write the application, 

whether Java, Ruby, Python, or something else. Which means they can focus on building apps instead of wrestling 

with ORMs. 

And MongoDB provides a variety of rich features, such as integrated search, geospatial, and native analytics, that 

don’t exist in a traditional database. Giving companies the right resources they need to get projects done quickly. 

A CATALYST FOR INNOVATION 

“MongoDB helped us to deliver that 360 view of the customer in just 90 days. That was really ground-breaking for 

MetLife, ground-breaking for the insurance industry. And it really set an example of the type of company that we 

want to be recognized as.” 

John Bungert, senior architect at MetLife 

Working with MongoDB led not just to The Wall’s success, but a wave of innovation inside MetLife. Harnessing Big 

Data is letting the insurance giant do things it never could do before. 

NOW, METLIFE IS: 

• Rolling out The Wall internationally 

• Developing a version of The Wall for its sales force 

• Creating a real-time analytical system that predicts customer attrition rates, prompting customer reps to offer 


69


alternative products or promotions 

• Considering adding social data and data from mobile apps into The Wall to gain an even better understanding of 

customers, something that’s easy to do with MongoDB. 

With MongoDB, MetLife joined the vanguard of the Big Data revolution. By quickly and successfully cracking one 

of the biggest problems it faced, MetLife changed the expectations of what is possible. 

Copyright © 2014 MongoDB, Inc 

MONGO DB - OTTO 

OTTO REINVENTS E-COMMERCE PERSONALIZATION FOR MORE THAN 

2 MILLION VISITORS PER DAY 

SLASHES SITE CATALOGUE UPDATE TIME FROM 12 HOURS TO 15 MINUTES 

Online retailers have access to troves of data. They know more about their customers than the corner store shopkeeper 

knew decades ago. Smart retailers use that data to give shoppers a highly personalized, painless shopping 

experience. That’s how you attract – and keep – today’s customer. 

OTTO is Germany’s top online retailer for fashion and lifestyle goods; the company turns over more than €2B per 

year and has more than two million daily site visitors. It has long held the customer at the centre of its retail strategy. 

Yet existing systems were slowing it down – loading new catalogue updates for two million products often took all day. 

With a MongoDB-powered catalog, OTTO gets an edge with speed. It’s fast to develop. Fast to load data. And fast 

to personalize a shopping experience for a great number of customers. 

“Personalization based on real-time data is the key success factor for e-commerce sites.” 

Peter Wolter, head of OTTO’s e-commerce Solutions & Technology Division 

PERSONALIZATION MADE FAST 

OTTO’s previous site was static, slow and expensive to change. So was its approach to development. OTTO had 

one big system with one big team. Only small fragments of the site could be changed to personalize the customer 

experience. This prevented it from quickly responding to market changes, such as competitive price fluctuations. It 

also lacked the ability get the most relevant products in front of customers as soon as they hit the site. 

SLOW REACTION TIME IS A CONVERSION KILLER 

The average customer doesn’t stay on an e-commerce web site for very long. OTTO has only 1-2 seconds to access 

customer profiles in real time and decide how to react. 

This is especially challenging with a product catalogue as diverse as OTTO’s. It offers one stop shopping for over 

5,000 brands -- everything from jeans to sofas to stereo systems, each of which has a different set of attributes 

(such as name, colour, size). In addition, product pricing and availability are dynamic, and need to be constantly 

refreshed to maintain competitive advantage. 

Using a relational database to update a site with such variation in products and attributes is painful, often requiring 

reading from dozens of tables to update a single product. Querying is complicated. Scaling is slow and difficult. 

MongoDB’s flexible data model erases that complexity and is well suited to an asset catalogue. OTTO can quickly 

iterate data schema for changes to products, attributes and customer profiles – without taking the database offline 

or affecting performance. Plus, all product information can be read from a single JSON document, allowing for incredibly 

fast reads. Complete insight into customer behaviour hinges on analytics that take advantage of real-time 

data. This is what drives true personalization. 


70


OTTO has scaled up to 800 page impressions per second that generate 10,000 events per second – every click, 

every hover is stored in MongoDB. This rich insight into shopping behaviour enables OTTO to deliver a unique site 

with a personalized set of products, navigation and filters for every customer. 

It can also move incredibly fast. In-memory speed and on-disk capacity have led to dramatically improved site 

response times. In addition, all touch points – browser, mobile, tablet – are integrated, so OTTO can deliver instantaneous 

personalization during each customer’s journey on the site. 

The result is boosted engagement, revenue and a new way to deliver superior customer service. 

DEVELOPMENT AGILITY 

OTTO needed fast results. MongoDB delivered. 

Parallel teams spanning business, project management, and IT all individually chose MongoDB as the best tool to 

quickly and easily achieve results. MongoDB was the go-to preference for every team, even though the business 

problems varied. Today, each team has its own MongoDB installation to get done what it needs to do without any 

architectural governance on top. This is only possible because MongoDB has proven to be easy to use, easy to 

integrate and easy to operate. 

With loosely coupled teams, architecture, and operations, OTTO has removed the bottleneck to deploy and test. 

Teams can easily correct errors and innovate risk-free. Complete autonomy means they move at speeds never 

before possible. This move to agile development wasn’t mandated. It was inspired by MongoDB and driven by the 

teams. Now, both business and IT can produce fast results while staying focused on enterprise operation, scalability, 

request handling, and speed. 

OTTO has successfully bridged two worlds: a lean approach and sustainable enterprise operations. 

“We always want to be at the forefront of an increasingly competitive online trading market,” said Wolter. “We now 

have a modern, digitally-oriented application development environment which allows us to implement our innovative 

ideas as quickly as we create them.” 

In changing its operations, development, technology tools, and the way in which they cooperate, OTTO took a risk. 

But it was a risk worth taking – one that’s paying off for the business and for customers. 

THE ENDLESS AISLE – NOW PERSONALIZED 

New channels. More traffic. An endless aisle of products. E-commerce is booming and OTTO is ready. 

OTTO already has a strong foundation of a 65-year-old trusted brand, loyal customers, and innovative retail strategies. 

Now it has the stable, proven technology architecture and agile development to match – vital pieces that will 

propel it forward in the face of unknown challenges and growing demand. 

Copyright © 2014 MongoDB, Inc. 


71


MONGO DB - WEATHER CHANNEL 

KILLER FEATURES. FAST. THE WEATHER CHANNEL LAUNCHES NEW 

FEATURES IN HOURS, NOT WEEKS 

Weather changes quickly. In its extreme form, it’s volatile, sometimes dangerous and often thrilling. Given its impact 

on lifestyle, people are eager to get their hands on the latest information. They want to know – now – what’s 

happening. 

In 1982, The Weather Channel started a 24x7 television network to meet the demand for non-stop, as-it-happens 

weather reporting. Several years later, they made the natural progression online with weather.com. But because 

the site was built on a cumbersome relational database backend, developing mobile apps was difficult. The Weather 

Channel team needed to iterate more quickly, with responsive apps and a scalable system. For a user base 

of 40 million and quickly growing on smartphones, the Weather Channel brand needed to move beyond a legacy 

relational database approach. 

THE WEATHER CHANNEL TURNED TO MONGODB TO GET KILLER FEATURES OUT TO 

USERS QUICKLY. CHANGES THAT USED TO TAKE WEEKS CAN NOW BE PUSHED OUT 

IN HOURS. 

They’ve replaced high costs and complexity with simplified scale and speed. And now that they’ve modernized on 

a cloud infrastructure, they are transitioning news, lifestyle and some weather content from their digital properties 

to MongoDB. 

With a fleet of apps built on MongoDB, users can personalize their experiences across mobile devices, tablets and 

the website. They can view incredibly fast radar maps and receive severe weather alerts in real-time. 

WHATEVER USERS CLAMOR FOR, THE WEATHER CHANNEL IS READY TO DELIVER. 

“As we work with our user base to figure out killer features, rapid innovation cycles with MongoDB are a real benefit.” 

Luke Kolin, vice president of architecture at The Weather Channel 

SEVERE WEATHER ALERTS, FASTER THAN THE STORM 

Five million users rely on The Weather Channel for the severe weather alert feature. It’s a competitive differentiator 

for the brand, and a must-have feature for many users. 

If the National Weather Service (NWS) issues a storm warning for Cook County, Illinois, for example, The Weather 

Channel has to notify those 125,000 local subscribers as fast as possible. 

With MongoDB, The Weather Channel can quickly distribute those weather alerts to subscribers in affected geographic 

locations in real-time. 

According to Kolin, MongoDB’s secondary indexes and fast ad hoc querying make it the only product that can reliably 

perform that kind of lookup on such a large user base in mere seconds. 


72


SIMPLIFIED SCALE IN THE CLOUD 

Weather is hard to predict. So is the online traffic for weather apps. 

With MongoDB, The Weather Channel doesn’t have to worry about app performance during unpredictable peak times. 

The apps typically handle two million requests per minute, including weather data and social sign-ins. As the user 

base scales, so will MongoDB. With its native scale-out capabilities, MongoDB can support thousands of nodes, 

petabytes of data and hundreds of thousands of ops per second. 

The Weather Channel initially planned to build its own management services for the new cloud infrastructure. 

Instead, they saved significant time and money by taking advantage of MongoDB’s management application, 

MongoDB Management Service (MMS). Built by the same engineers who develop MongoDB, MMS is a cloud 

service that makes it easy to run MongoDB at any scale. Features like performance visualization, custom alerts 

and point-in-time recovery ensure The Weather Channel can mitigate issues before they arise and optimize its 

MongoDB deployment. 

FAST APPS, WITHOUT THE WAIT 

MongoDB met The Weather Channel brand’s needs from day one, with no significant optimization needed. 

“As part of our infrastructure redesign, we needed to ensure that new app development was never waiting on the 

back-end,” said Kolin. 

MongoDB was made for this mission. 

Today, The Weather Channel team can iterate rapidly without worrying about schema changes. They can adapt. 

They can push out changes to users in a fraction of the time. And at much lower cost. 

New features, new devices, new expectations. Users want awesome apps that keep getting better. And now, MongoDB 

helps The Weather Channel deliver. 

Copyright © MongoDB Inc 2014 


73


NEO4J - EBAY 

EBAY NOW CHOISIT NEO4J POUR LA GESTION DU ROUTAGE DE SON 

SERVICE DE LIVRAISON E-COMMERCE 

La société londonienne Shutl était réputée pour l’incroyable rapidité de ses services avant même son acquisition 

par eBay, leader mondial du e-commerce. Depuis sa création en 2009, sa mission est de livrer le plus rapidement 

possible les achats effectués sur Internet à leurs destinataires. Qu’il s’agisse de jouets, de chaussons, de cravates 

ou encore d’iPhones, eBay fait désormais appel à la plateforme nouvelle génération de Shutl pour redéfinir le e- 

commerce en accélérant et en simplifiant la livraison des commandes passées sur Internet ou appareil mobile. 

eBay élimine le plus gros obstacle entre les vendeurs et les acheteurs en ligne en proposant une livraison des 

articles le jour même. Aujourd’hui, la plateforme de Shutl est à la base des opérations du service de livraison locale 

eBay Now dans quatre marchés américains et son extension à 25 grandes villes aux États-Unis et au Royaume- 

Uni est prévue pour la fin 2014. Volker Pacher, développeur senior pour eBay, fait partie de l’équipe principale de 

la plateforme de services chargée de fournir une API aux transporteurs et aux marchands. Les requêtes envoyées 

à l’API ont connu une croissance exponentielle, d’où un allongement des temps de réponse. L’équipe a donc 

entièrement repensé la première plateforme SaaS de Shutl. Volker Pacher savait qu’une base de données orientée 

graphe permettrait de simplifier la modélisation du domaine sans affecter la structure existante. À l’aide de Neo4j 

et d’une structure de graphe sans schéma (schema-less), l’équipe a créé une base de données permettant aux 

requêtes de rester localisées à l’intérieur du graphe, améliorant les performances grâce à la facilité d’expression. 

Comme aime à le dire Volker Pacher : « Notre système fonctionne sur sept lignes de Cypher ». 

La plateforme Shutl orchestre les livraisons entre les boutiques, les coursiers et les acheteurs 24 h/24 et 7 j/7. Les 

envois s’effectuent directement depuis les points de vente. Le service organise la collecte et la livraison des articles 

selon les préférences des clients, généralement dans un délai de deux heures, ou dans une fenêtre de livraison d’une 

heure choisie par les clients. Le résultat : un service innovant qui améliore la qualité de service pour les clients ainsi que 

la producti- vité des partenaires revendeurs et transporteurs. Tous les acteurs sont gagnants : les clients disposent de 

plus de choix pour la livraison, les coursiers ne perdent plus de temps à attendre et les boutiques peuvent proposer des 

services supplé- mentaires à leurs clients sur Internet. Shutl « sauve les petits commerces » dans chaque ville en faisant 

appel à leurs services marchands et de livraison et en leur permettant ainsi de rester compétitifs. 

LE DÉFI 

Le service de livraison le jour même de Shutl s’est développé de manière exponentielle et couvre aujourd’hui 

jusqu’à 85 % du Royaume-Uni. Sa plateforme de services a dû être entièrement repensée afin de prendre en 

charge l’explosion du volume de données et les nouvelles fonctionnalités. Les jointures MySQL utilisées auparavant 

ont créé une base de code trop lente et complexe. Les délais d’exé- cution des requêtes de sélection 

du meilleur coursier étaient tout simplement trop longs et Shutl avait besoin qui permette à son service de rester 

compétitif. Volker Pacher et l’équipe de développement pensaient qu’en ajoutant une base de données orientée 

graphe à l’AOS et à la structure de services, il serait possible de résoudre les problèmes de performances et 

d’évolutivité. L’équipe a choisi Neo4j, la meilleure solution à ses yeux. 

POURQUOI NEO4J? 

Le choix s’est porté sur Neo4j pour sa flexibilité, sa vitesse et sa simplicité d’utilisation. Son modèle de graphe à 

propriétés était parfaitement compatible avec le domaine modélisé. La base de données ne nécessitant pas de 

schéma, cela a simplifié son extensibilité et a permis d’accélérer la phase de développement. Enfin, les limitations 

en termes de rapidité et d’évolutivité de la solution précédente ont été surmontées. « Notre solution Neo4j est 

littéralement des milliers de fois plus rapide que la solution MySQL précédente, avec des requêtes qui nécessitent 

de 10 à 100 fois moins de code. Dans le même temps, Neo4j nous a permis d’ajouter des fonctionnalités jusqu’ici 

impossibles », explique Volker Pacher. Cypher a permis d’exprimer les requêtes sous une forme très compacte et 

intuitive, ce qui a accéléré le développement. L’équipe a pu exploiter le code existant à l’aide d’une bibliothèque 

Ruby pour Neo4j prenant égale- ment en charge Cypher. 

LES AVANTAGES 

Basée sur jRuby, Sinatra, MongoDB et Neo4j, la nouvelle plateforme garantit des transactions rapides avec des 

performances relativement constantes. Par ailleurs, son modèle de données permet aux requêtes de rester localisées 

à l’intérieur de leurs portions respectives du graphe. « Nous avons obtenu des performances constantes pour 

les requêtes en utilisant Neo4j pour créer un graphe qui est son propre index. Cette flexibilité de développement 

est tout simplement unique », explique Volker Pacher. La phase d›implémentation a été réalisée dans les délais 

prévus, en à peine une année. Les requêtes sont désormais simples et rapides. Le résultat est une plateforme 

évolutive capable de prendre en charge le développement de l›entreprise, et notamment la croissance de l›activité 

à laquelle elle doit faire face en tant que plateforme du service eBay Now. 


74


NEO4J - GAMESYS 

GAMESYS MISE LA CROISSANCE DE SA PROCHAINE GÉNÉRATION DE 

JEUX SUR NEO4J, PAR UNE INTÉGRATION SOCIALE AVANCÉE. 

La société Gamesys est l’un des leaders des jeux d’argent en ligne. Elle a été nommée en tant que compagnie 

technologique privée ayant eu la plus forte croissance au Royaume-Uni par le Sunday Times, avec des paris 

d’argent à hauteur de 4,3 milliards de Livres en 2012. Leur produit phare récompensé par un prix, « Jackpotjoy », 

est depuis le principal site en ligne de Bingo et de jeu à gain instan- tané (Instant Win), avec plus de quatre millions 

de joueurs. Gamesys a fait passer sa plate-forme de jeux au niveau supérieur en ajoutant une plate-forme 

sociale basée sur Neo4j pour offrir une intégration à Facebook, un système de gestion des données de référence, 

et bien plus encore. La versatilité de Neo4j a permis à Gamesys d’apporter de nouvelles fonctionnalités en ligne 

facilement, en offrant aux utilisateurs finaux un système très performant et fiable. 

PROBLÈME D’AFFAIRES 

Face au challenge que représente la création d’un nouveau réseau social, Gamesys a considéré les types de bases 

de données disponibles. Après avoir réalisé que les bases de données relationnelles ne sont pas adaptées à 

la gestion une intercon- nexion de données massive; Gamesys a évalué les solutions NoSQL et réalisé rapidement 

que les graphes étaient une solution naturellement adaptée à leur problématique. La maturité de la base de données 

choisie était plus importante que tous les autres facteurs. Si Gamesys pariait son expansion dans l’espace 

social sur une base de données, celle-ci devait être très utilisée, compter un bon service de support, être bien 

documentée, et avoir fait ses preuves dans des déploiements en production multiples et à grande échelle. 

LE CHOIX DE NEO4J 

Les ingénieurs de GameSys ont évalué plusieurs bases de données de graphes. Après avoir inspecté d’autres offres, 

ils ont vite réalisé que Neo4j était de loin la plus mûre. Par rapport à d’autres vendeurs, il est clair que Neo4j 

et Neo Techno- logy étaient le monstre sacré de l’univers des graphes, et un bon investissement à long terme. 

Lors de l’évaluation des bases de données relationnelles, il est devenu clair qu’une base de données de graphes 

était un choix plus avisé et plus sûr pour ce projet. L’un des facteurs les plus importants était la résistance au 

changement. Les données et requêtes étaient clairement adaptées à un graphe, et il était évident que la manipulation 

de données au format tabulaire générerait des coûts signi- ficatifs pour le projet et une augmentation importante 

des temps de traitement. L’avantage majeur était que la base de données graphes répondait aux exigences 

opérationnelles et analytiques environnement technique 

Avant l’introduction de Neo4j, Gamesys utilisait principalement des bases de données relationnelles. Gamesys a 

profité du lancement de son nouveau projet social pour porter un nouveau regard sur les options technologiques. 

Les bases de données de graphes, naturellement adaptées au domaine social sont une technologique qui correspond 

bien mieux cet usage que les bases relationnelles,. 

Gamesys a débuté le projet avec trois groupes d’instances hautement disponibles, un choix adapté à l’évolutivité 

de leurs besoins et à des exigences de disponibilité maximales. Gamesys a également déployé une instance pour 

un projet d’analytique. Gamesys de exécute de cette façon des requêtes temps-réel en direct sur les données sans 

besoin d’un entrepôt de données, ce qui leur permet de découvrir de nouveaux indicateurs et des mesures inédites 

sans délai et sans besoin de pré-calculs. 

CONCLUSION 

Gamesys propose à ses clients une offre sociale compétitive et convaincante en utilisant Neo4j. Les capacités de 

développer rapidement et avec souplesse, ainsi que les coût raisonnable de Neo4j leur a assuré le succès. En 

introduisant une base de données de graphes comme Neo4j dans son architecture, Gamesys a sécurisé sa croissance 

future en terme d’évolutivité et d’extensibilité à un plus grand nombre d’utilisateurs. 


75


NEO4J - GLASSDOOR 

GLASSDOOR ÉTEND SA PLATE-FORME SOCIALE INTÉGRÉE AVEC NEO4J 

LE DÉFI DE GLASSDOOR 

Glassdoor est une communauté en ligne dédiée à l’emploi qui aide les demandeurs d’emploi à prendre des 

décisions professionnelles éclairées et conseille les entreprises afin d’attirer les meilleurs collaborateurs du marché. 

Forte de plus de 20 millions de membres, Glassdoor offre une vision à 360 degrés du travail au sein d’une 

entreprise particulière et à un poste donné grâce aux contributions de ses membres. Sa base de données en 

croissance constante contient désormais plus de 4 millions de publications anonymes : rapports sur les salaires, 

analyses d’entreprises, évaluations de PDG, questions posées en entretien d’embauche et autres enseignements 

sur l’environnement de travail. 

Glassdoor exploite l’idée répandue selon laquelle les réseaux personnels et professionnels permettent 

généralement d’obtenir un emploi, et a lancé une nouvelle initiative afin de se démarquer 

davantage des autres acteurs du marché de l’em ploi en ligne. En effet, elle a créé un système 

appelé InsideConnections permettant aux demandeurs d’emploi d’identifier parmi leurs amis de 

leur réseau Facebook ceux qui travaillent pour des entreprises particulières. 

Lorsque les membres s’inscrivent sur Glassdoor via Facebook, ils doivent fournir des renseignements basiques 

permettant d’améliorer leur expérience sur le site, tels que leurs emplois actuels et pré- cédents ainsi que leur 

formation. En contrepartie, les membres de Glassdoor peuvent découvrir qui, parmi leurs connaissances, travaille 

dans certaines entreprises, et recevoir des recommandations professionnelles davantage personnalisées. 

sélECtion d’unE basE dE donnéEs oriEntéE GraphE 

Glassdoor avait besoin d’une base de données pour gérer les informations fournies par les amis des membres 

et leurs amis, ainsi que les relations avec l’em- ployeur. Il a été convenu qu’une base de données orientée graphe 

constituait la solution parfaite pour obtenir cet ensemble de données connectées. Neo4j, qui s’intègre à sa technologie 

existante, a été désignée comme étant la base de don- nées idéale grâce à sa maturité et ses fonctions 

intégrées. 

ÉCHELLE, CONNEXION ET NEO4J 

Au cours de la première année de lancement d’InsideConnections, Glassdoor a connu une croissance phénoménale. 

Sa base de données sociale en constante évolution a rapidement compté plus de 600 millions de personnes, 

soit plus de la moitié du graphe Facebook. L’installation de Neo4j par Glassdoor a connu une croissance régulière. 

Toutes les données ont été réunies dans un cluster unique (et de grande capacité) haute disponibilité, conçu pour 

s’adapter à des débits élevés de lecture et d’écriture. 

CONCLUSION 

Neo4j constitue la technologie adaptée à la technologie de recherche d’emploi étendue de Glassdoor, et la solution 

idéale pour gérer les données connectées de Glassdoor. Glassdoor, qui compte dans sa base de données plus de 

600 millions de membres qu’elle relie entre eux, détient l’un des plus vastes graphes sociaux du monde, offrant à 

ses membres une portée exceptionnellement étendue. 

Neo4j s’adapte au gigantesque graphe social de Glassdoor en exploitant son affinité naturelle avec les données 

connectées, sa technologie de clustering haute disponibilité et ses fonctionnalités de partition- nement de cache, 

permettant ainsi à Glassdoor d’accroître sereinement sa communauté ainsi que sa popularité. 


76


NEO4J - SNAP INTERACTIVE 

SNAP INTERACTIVE CONQUIERT LE MARCHÉ DE LA RENCONTRE 

EN LIGNE AVEC NEO4J 

La vocation de la société basée à Manhattan SNAP Interactive, Inc. (OTCBB: STVI) est de permettre aux personnes 

d’accéder au 3e degré. Êtes-vous intéressé ? Voici la question posée à tous les utilisateurs de l’application 

Web et mobile de rencontre en ligne AYI (AreYouInterested?). Cette question a fait de SNAP l’un des leaders du 

développement d’applications pour sites Web et plateformes mobiles de réseaux sociaux. 

Depuis 2005, SNAP cherche à améliorer la réussite des rencontres en ligne en mettant des amis en relation et en 

recoupant leurs intérêts. SNAP a choisi d’explorer le filon des données des connexions de 3e degré. Ingénieur 

Big Data chez SNAP, David Fox connaissait les statistiques. « La probabilité qu’une personne se connecte avec 

un ami du 3e degré est presque la même que pour un ami du 2e degré, où ils ont un ami commun », explique-t-il. 

« Il s’agit d’un point essentiel pouvant faire exploser l’engagement et la taille d’un réseau. » Mais ces données sont 

extrêmement difficiles à récupérer avec une base de données relationnelle. 

Le défi de SNAP consistait à représenter les données de type « amis des amis ». L’équipe ne disposait d’aucun 

moyen efficace de trouver les connexions de 3e degré au sein de son immense réseau social, avec plus d’un milliard 

d’individus dans le graphe et plus de 7 milliards de relations. 

David Fox a exploité Neo4j pour modéliser les données entre les utilisateurs amis et créer des connexions de 3e 

degré visibles (c’est-à-dire les amis d’amis ainsi que les amis des amis d’amis) à l’échelle de l’application AYI. Le 

retour s’est avéré colossal. 

Aujourd’hui, AYI est l’une des applications sociales les plus utilisées sur Internet, avec plus de 70 millions 

d’installations, des millions de visiteurs actifs et un par tenariat stratégique avec Match.com. « Nous continuons 

à innover avec Neo4j en exploitant la puissance des traversées multi-saut en temps réel pour gérer le volume de 

données sociales et sommes passés de 7 à 8 milliards de relations », explique David Fox. 

LE DÉFI 

À l›origine, le service de SNAP était basé sur Apache Solr et reliait les amis de 2e degré, présentant les données 

de type « amis des amis ». L›équipe ne parvenait pas à trouver une solution efficace pour rechercher les connexions 

de 3e degré au sein d›un corpus de données comptant plus d›un milliard de nœuds d›individus et plus de 7 

milliards de relations. Après avoir minutieusement exploré et testé MySQL, l›équipe a conclu que cette plateforme 

ne permettait pas de gérer les connexions de 3e degré ni d›autres problèmes complexes. Le temps nécessaire au 

développement et à la maintenance de l›indexation et des jointures aurait été trop important et la solution aurait 

été incapable de gérer le trafic et le volume de données existant. 

David Fox a alors pris la décision de passer à une base de données orientée graphe et a choisi Neo4j, seule et 

unique solution à ses yeux capable de gérer la croissance du service AYI. 


Le choix s’est porté sur Neo4j pour sa flexibilité, sa vitesse et sa sim- plicité d’utilisation. SNAP a ainsi pu proposer 

une offre particulière- ment distinctive en améliorant nettement le nombre de recommandations de rencontres à 

travers l’exploitation des connexions de type 

« amis des amis ». Grâce à Neo4j, le développement a été simplifié. Cypher, le langage de requête de Neo4j, a 

accéléré la phase d’implé- mentation en facilitant grandement le codage. La possibilité d’utiliser Java en natif a 

aidé SNAP à respecter les spécificités en termes de lecture et a offert une vitesse et une flexibilité maximales pour 

optimiser l’importation d’un volume de données considérable. 

LES AVANTAGES 

Le service AYI de SNAP offre aujourd’hui des temps de réponse rapides sur l’un des graphes sociaux les plus 

vastes au monde, comptant plus d’un milliard d’individus, gérant les recommandations de rencontres entre « 

amis d’amis » avec des performances en temps réel constantes. Le choix de Neo4j pour gérer le réseau social de 

SNAP a également permis de réduire sensiblement les délais de développe- ment et le coût global par rapport à 

MySQL. Neo4j a facilité l’ajout de fonctionnalités et permet des requêtes rapides et flexibles. 

Aujourd’hui, 98 % des requêtes sont exécutées plus rapidement que prévu. L’utilisation de Neo4j pour gérer les 

relations « amis d’amis » s’avère plus que payante. « Les utilisateurs vont interagir s’ils voient qu’ils ont un ami 

en commun, la 3e connexion. SNAP révèle les «amis des amis», générant ainsi un nombre d’utilisateurs de plus 

en plus important, ce qui augmente d’autant l’interaction entre les utilisateurs et permet une croissance rapide 

du réseau. Cela représente un engagement colossal, qui a fait augmenter le nombre de relations de 7 à presque 

8 milliards depuis l’implémentation de Neo4j. C’est de bon augure pour notre entreprise », explique David Fox. 


77


À travers Neo4j, SNAP a également gagné une précieuse vue d›ensemble de son réseau d›utilisateurs. 

« Lorsque nous étudions une représentation géospatiale du réseau social générée par des algorithmes, nous 

pouvons voir les connexions qui relient les amis ainsi que leur localisation. Cela nous donne une meilleure vision 

d›ensemble du réseau et permet à SNAP de proposer des fonctionnalités innovantes et d›améliorer le service AYI. 

Nous y voyons de nouvelles méthodes pour améliorer les probabilités d›interaction. Neo4j a fourni à SNAP un 

moteur de base de données évolutif capable de prendre en charge l›expansion de l›entreprise et de l›application 

AYI, s›imposant ainsi en tant que partenaire stratégique incontournable pour d›autres services de rencontre en 

ligne tels que Match.com. 

NEO4J - TELENOR 

AUTORISATION DE RESSOURCES: PROBLÈME RÉSOLU AVEC UNE BASE 

DE DONNÉES DE GRAPHES 

Telenor Norvège est le principal fournisseur de télécommunications et de services de données du pays. Avec plus 

de 3 millions de souscripteurs mobiles, c’est éga- lement le fournisseur numéro un de bande passante de la nation 

et, en tant que partie du Groupe Telenor, l’un des plus grands opérateurs mobiles du monde. 

Les systèmes de Telenor exposent les données du client et du produit à une gamme de canaux différents, avec 

entre autres une solution web en autoservice, où les entreprises clientes peuvent gérer leur propre portefeuille. 

La disponibilité du système et les temps de réponse d’accès et de récupération sont critiques pour la satisfaction 

du client. 

SITUATION 

Derrière le portail d’autogestion en ligne de Telenor, vous trouverez l’intergiciel responsable de la gestion des 

structures d’organisation des clients, des accords, des souscriptions et de l’accès des utilisateurs à leurs souscriptions 

mobiles d’affaires. L’intergiciel est soutenu par Sybase, avec des demandes implémentées en tant que procédures 

stockées. Comme les souscriptions mobiles ont augmenté, en donnant de grands portefeuilles de clients, 

et comme les utilisateurs attendent une ponctualité et des temps de réponse en temps réel des systèmes en ligne, 

le module d’autorisation de ressource existant écrit en SQL n’était plus assez performant. Les autorisations de 

ressources prenaient jusqu’à 20 minutes pour les clients les plus importants et devaient être pré-calculées et 

mises en cache chaque nuit, ce qui causait également l’apparition de données obsolètes. 

Sebastian Verheughe, architecte et développeur de Telenor Mobile Middleware Services, déclare: « En tant que 

fournisseur premium Telco en Norvège, nous avions besoin d’un système fiable pour pourvoir aux besoins de notre 

importante base de données. La base de données Neo4j offre des services de haute performance pour notre 

chaîne de valeur. La solution couvre à la fois les clients entreprises et les résidents, leur structure corporative, les 

souscriptions contenant le numéro de téléphone, le plan de financement et le propriétaire/payeur/utilisateur des 

souscriptions, les comptes de facturation et tout accord d’affaires ou résidentiel offrant des réduc- tions pour tous 

les membres de l’accord. 


La modélisation du graphe de ressources de Neo4j était naturelle étant donné que le domaine modelé était un 

graphe par essence. Neo4j a fourni un accès rapide et sécurisé, et des réponses à des questions importantes, 

comme: À quelles souscriptions peut avoir accès un utilisateur, est-ce que l’utilisateur a accès à une ressource 

donnée, et de quels accords un client fait il partie ? La vitesse et la pré- cision de ces opérations sont critiques, 

parce que les utilisateurs du sys- tème ne peuvent pas accéder à des données tant que le calcul d’autorisation 

n’a pas eu lieu. « Avec des dépendances complexes entre les comptes, les produits et les entreprises, le moteur 

à haute performance de Neo4j offre une flexibilité de représentation des données, avec des caractéristiques qui 

vont au-delà des bases de données relationnelles habituelles ». 

BÉNÉFICES 

En surmontant à la fois les limites de performances et de fiabilité des données du projet précédent, Neo4j a permis 

des performances élevées et une exécution fiable des règles d’autorisation. La transition a eu pour résultat 

non seulement des performances plus importantes, mais aussi un code plus mainten- able, car les règles d’accès 

peuvent être exprimées encore plus facilement dans un graphe. Les temps de réponse ont été réduits à quelques 

secondes, voire millisecondes, dans de nombreux cas, alors qu’ils étaient de plusieurs minutes auparavant. 


78


NEO4J - WALMART 

WALMART S’APPUIE SUR NEO4J POUR OFFRIR À SES CLIENTS LA 

MEILLEURE EXPÉRIENCE WEB PAR LE BIAIS DE RECOMMANDATIONS 

PERSONNELLES PERTINENTES 

Walmart est unique : une entreprise familiale qui en un peu plus de 50 ans est devenue la plus grande société 

anonyme par actions au monde avec plus de 2 millions d’employés et un chiffre d’affaires annuel de 470 milliards 

de dollars1. En ayant su comprendre les besoins de ses clients, Walmart est devenu le plus grand détaillant au 

monde, et la base de données Neo4j représente un atout essentiel pour maintenir cette position. 

Plus de 250 millions de clients se rendent chaque semaine dans l’un des 11 000 magasins Walmart répartis 

sur pas moins de 27 pays et sur son site Web de vente accessible dans 10 pays. Le groupe d’e-commerce brésilien 

de Walmart a choisi Neo4j pour parvenir à comprendre le comportement et les préférences des acheteurs en 

ligne, avec une précision et une vitesse telles qu’il devient possible de proposer des recommandations personnalisées 

en temps réel et ainsi maximiser les bénéfices. 

Marcos Wada, développeur logiciel du service d’e-commerce de Walmart, groupe Brésil, nous en dit plus : « Neo4j 

nous aide à comprendre le comportement de nos clients en ligne et la relation entre nos clients et nos produits. 

Il s’agit de l’outil parfait pour les recommandations de produits en temps réel. » 

LE DÉFI 

Dans sa quête de la meilleure expérience Web pour ses clients, Walmart cherchait à optimiser ses recommandations 

en ligne. De nos jours, les clients s’attendent à des recommandations parfaitement person- nalisées et 

répondent de moins en moins bien aux suggestions universelles. Cela requiert toutefois des bases de données 

capables d’établir des liens entre les don- nées client et produit – complexes et volumineuses – et les données 

connectées en général, dans le but de mieux appréhender les besoins des clients ainsi que les tendances de 

consommation. Walmart s’est rendu compte du défi auquel il faisait face avec la technologie de base de données 

relationnelle traditionnelle. Comme l’explique Marcos : « En raison de la complexité de nos requêtes, une base de 

données relationnelle ne suffisait pas pour satisfaire nos exigences en matière de performance et de simplicité. » 

Pour pallier à ce problème, l’équipe de Marcos a décidé d’utiliser une base de données orientée graphe Neo4j, le 

leader du marché. 

POURQUOI NEO4J ? 

Les bases de données orientées graphe peuvent rapidement interroger l’historique d’achat des clients, ainsi que 

capturer les nouveaux intérêts manifestés par les clients au cours de leur visite sur le site, ce qui s’avère essentiel 

pour proposer des recommandations en temps réel. Faire correspondre les données d’historique et de session de 

cette manière est chose aisée pour les bases de données orientées graphe telles que Neo4j, qui surpassent de 

loin les performances des bases de données relationnelles et NoSQL. Marcos a assisté pour la première fois à une 

démonstration de Neo4j à la conférence QCON de New York en 2012 et a tout de suite compris : 

« Neo4j peut nous permettre de remplacer un processus lourd de traitement par lot par une base de données 

orientée graphe simple et en temps réel. » À partir de là, son équipe a testé la technologie et a obtenu des résultats 

positifs qui l›ont aidé à mûrir sa décision. Son verdict ? « Il est parfaitement adapté à nos besoins. » 

LES AVANTAGES 

Walmart utilise Neo4j pour analyser le comportement des acheteurs en ligne afin de favoriser la montée en gamme 

et les ventes croisées des principales lignes de produits dans les marchés clés. 

Neo4j a été déployé dans son application de marketing de relance, gérée par l’équipe informatique d’e-commerce 

de l’entreprise basée au Brésil. Walmart utilise Neo4j en production depuis début 2013 et est passé à la version 

2.0 cette année. Marcos nous explique les avantages : « Neo4j nous a permis de remplacer un processus par 

lot com- pliqué que nous utilisions pour préparer notre base de données relationnelle par une base de données 

orientée graphe simple et en temps réel. Nous avons pu concevoir un système de recommandation simple et en 

temps réel avec des requêtes à faible latence. » Il conclut : « En tant que leader actuel sur le marché des bases 

de données orientées graphe, Neo4j représente l’outil idéal pour atteindre nos objectifs, notamment grâce à ses 

fonctionnalités métier offrant évolutivité et disponibilité. » 

À PROPOS DE NEO TECHNOLOGY 

Les graphes nous entourent. Neo Technology a joué un rôle prépondérant en rendant la technologie des graphes 

accessible à de nombreuses organisations, comprenant une base globale de 2 000 clients qui ne cesse de croître, 

parmi lesquels Cisco, HP, Accenture, Deutsche Telekom et Telenor. En assistant la production de ses clients depuis 

plus de dix ans, Neo4j s’est imposé comme le leader mondial dans le domaine des bases de données orientées 

graphe, grâce à un large éventail de partenariats et des dizaines de milliers de déploiements couronnés de succès. 


79


SAP - MOBILINK 

LA SOLUTION SAP INFINITEINSIGHT A PERMIS À MOBILINK DE BOOSTER 

DE 380 % LE TAUX DE RÉPONSE DE SES CAMPAGNES 

Société Mobilink | Siège social Islamabad (Pakistan) | Secteur d’activité Télécommunications | Produits et services 

Services de communication fixes et sans fil haut débit – Services de communication de données | Salariés 

7000 | Chiffre d’affaires 1,1 milliard $USD; Rapprocher les personnes à travers des solutions de communication 

innovantes, c’est la solution adoptée par Mobilink pour devenir le principal fournisseur de télécommunications 

du Pakistan. Face à la croissance explosive du marché et à une concurrence féroce, Mobilink avait besoin de se 

protéger contre le taux d’attrition des clients en proposant certains services aux bons clients et au bon moment. 

Pour relever ce défi, Mobilink a dû extraire de la connaissance client de ses 35 millions d’abonnés et de 200.000 

distributeurs présents dans 10.000 villes et villages du Pakistan. 

LES PRIORITÉS DE L’ENTREPRISE 

• Devancer la concurrence à travers une approche « prochaine action ciblée », qui permet de proposer les meilleures 

offres, aux meilleurs clients, au meilleur moment 

• Utiliser les big data et l’analyse prédictive pour renforcer la confiance des clients, les fidéliser, diminuer le taux 

d’attrition toute en maintenant les marges de profit 

LA SOLUTION 

• Après avoir étudié les solutions d’autres fournisseurs telles que SAS et SPSS, a rapidement déployé la solution 

SAP InfiniteInsight pour bénéficier de ses excellentes capacités prédictives, de son interface ergonomique et de 

sa compatibilité avec de nombreuses autres solutions 

• A élaboré des modèles prédictifs, combinés avec des techniques de clustering et d’analyse des big data collectées 

sur les réseaux sociaux pour dégager une connaissance essentielle sur le comportement des clients 

LES PRINCIPAUX AVANTAGES 

• Campagnes mieux ciblées et promotions plus efficaces, ce qui s’est traduit par une utilisation accrue des services 

à valeur ajoutée tels que SMS, sonneries et musique 

• Réduction du taux d’attrition par prédiction puis prévention du comportement des clients 

• Meilleure connaissance des communautés d’intérêt (grandes ou petites), ce qui a permis d’injecter du marketing 

viral dans de nouveaux segments en vue d’acquérir de nouveaux clients et de réduire le taux d’attrition 

8x : Augmentation de l’efficacité des offres de rétention des clients (de 0,5 % à environ 4 %) avec une dépense réduite 

380 % : Augmentation du taux de réponse aux campagnes grâce à l’analyse des réseaux sociaux 



• Élaborer des modèles prédictifs pour faciliter la création d’offres personnalisées, plus rapidement et avec une 

plus grande précision pour plus de 6 millions d’abonnés dans 28 régions 

• Doubler le taux de conversion des campagnes de marketing direct 

LA SOLUTION 

• A déployé la solution SAP InfiniteInsight pour analyse prédictive, y compris segmentation, classification, régression 

et agrégation des données 

• A optimisé ses processus d’analyse du marché à l’échelle de l’entreprise grâce à une équipe analytique centralisée 

chargée de couvrir ses 28 régions 


• Une solution évolutive pour accompagner les besoins à court et long terme, y compris modélisation prédictive 

pour les acquisitions de client, la rétention des clients, l’évaluation des clients sur la durée et le marketing événementiel 

• Analyse précise et rapide de 10 millions d’observations et de 800 variables pour analyser le comportement des 

clients, dont propension à l’achat, risques d’attritions et risques de solvabilité 

14 % : Augmentation du nombre de produits par foyer 

28 % : Réduction du taux d’attrition des clients 

80 % : Réduction du temps de création des modèles 

42x : Rendement plus élevé pour les analystes (de 40 à 1680 modèles prédictifs par an) 

SAP - BELGACOM 

PRÉVOIR DES TENDANCES SUR L’ENSEMBLE DES CANAUX 

D’INTERACTION CLIENT AVEC SAP® INFINITEINSIGHT ® 

Société Groupe Belgacom| Siège social Bruxelles, Belgique | Secteur d’activité Télécommunications| Produits et 

services Services de téléphonie fixe et mobile, de télévision et d’Internet| Salariés 15 859 (2012) | Chiffre d’affaires 

6,4 million d’€ (2012). En matière de services de téléphonie, d’Internet et de télévision, Belgacom est un opérateur de 

télécommunications incontournable en Belgique. En règle générale, il est pourtant difficile de réussir le lancement de 

nouveaux produits sur ce marché hautement compétitif. Avec la solution SAP® InfiniteInsight®, Belgacom a pourtant 

su relever ce challenge en automatisant les outils d’exploration de données (« data mining ») qui permettent de mieux 

comprendre les besoins de chaque client et de déployer ainsi des services et des campagnes personnalisés répondant 

précisément à leurs attentes. Résultat : le taux de satisfaction des clients de Belgacom ne cesse d’augmenter. 

OBJECTIFS 

• Exploiter de précieuses informations cachées sur la clientèle permettant d’augmenter la fidélisation et d’identifier 

de nouvelles perspectives de croissance 

• Améliorer la détection des risques de défection, accélérer le déploiement de modèles prédictifs et identifier les 

sources de revenus potentiels à toutes les étapes de la relation client 

POURQUOI SAP 

• Un savoir-faire et des résultats reconnus dans le secteur des télécommunications 

• Des modèles prédictifs puissants et fiables pour analyser les comportements clients (professionnels et particuliers) 

avec la solution SAP® InfiniteInsight® 

• Une solution flexible et conviviale, au service de statisticiens et d’analystes de gestion qualifiés 

AVANTAGES 

• Un marketing prédictif opérationnel sur tous les canaux d’interaction avec les clients, des centres d’appels 

aux boutiques en ligne 

• Des échanges de qualité optimale d’un bout à l’autre de la relation client permettant de tirer profit d’une mine 

d’informations de grande valeur 

• De nouvelles opportunités de revenu issues de failles ou de lacunes du marché 

• Des taux accrus de satisfaction et de rétention des clients 

• Un meilleur retour sur investissement marketing 

• Un temps de modélisation ramené de plusieurs mois à quelques jours 


81


SAP - BANGLALINK DIGITAL COMMUNICATIONS 

MAINTENIR LE CHIFFRE D’AFFAIRES ET AMÉLIORER L’EXPÉRIENCE CLIENT 

Société Banglalink Digital Communications Ltd. | Siège social Dhaka (Bangladesh) | Secteur d’activité Télécommunications 

| Produits et services Services de télécommunication intégrés (technologies voix, données, mobile traditionnel 

et mobile haut débit, fixe)| Salariés 2500 | Chiffre d’affaires 550 millions $USD : Depuis 2005, Banglalink Digital 

Communications Ltd. se positionne comme l’un des principaux opérateurs de téléphonie mobile du Bangladesh. 

Cette société améliore la vie des citoyens en leur proposant des services de télécommunication à coût modéré. Pour 

faciliter la diffusion de ses solutions de télécommunications mobiles au plus grand nombre, Banglalink a utilisé la 

solution SAP InfiniteInsight. En définissant des modèles prédictifs, Banglalink parvient à conserver d›importants flux 

de chiffre d›affaires en luttant contre le taux d›attrition et à améliorer l’expérience globale de ses clients. 

OBJECTIFS 

• Améliorer les résultats des campagnes de rétention pour lutter contre le taux d’attrition des clients 

• Analyser les big data générées par des sources telles que les enregistrements des centres d’appel, les abonnements 

aux produits, les transactions de vouchers, les conversions de forfaits et les relais cellulaires 

POURQUOI SAP 

• Supporte l’élaboration de modèles prédictifs, même par les utilisateurs ayant peu ou pas d’expérience en informatique 

ou en statistiques 

• Inclut des modèles prédictifs et une architecture de données analytiques. Ces éléments prédéfinis permettent 

de réduire le temps nécessaire pour préparer les données analytiques, élaborer les modèles prédictifs et déployer 

les scores résultants en production 

AVANTAGES 

• A pu définir un modèle capable de détecter plus d’un quart des clients en risque d’attrition, en utilisant seulement 

un échantillon de 10 % des scores les plus élevés 

• A déployé la solution SAP InfiniteInsight en moins de cinq mois 

• A découvert les outils nécessaires pour créer et déployer des modèles de prévision en quelques heures, et non 

en plusieurs semaines ou plusieurs mois 

PLANS FUTURS 

• Intégrer des modèles prédictifs dans le système de gestion des campagnes, de manière à proposer aux abonnés 

la meilleure offre au meilleur moment, dans tous les canaux côté clients 

• Ajouter l’application SAP InfiniteInsight Social pour identifier les influenceurs en vue de les intégrer dans des 

programmes de marketing viral, et pour détecter toute activité frauduleuse chez les clients 

SAP - VODAFONE 

CIBLER LES CLIENTS AVEC DES OFFRES PLUS PERTINENTES 

Société Vodafone Pays-Bas| Siège social Amsterdam (Pays-Bas) | Secteur d’activité Télécommunications | Produits 

et services Services de télécommunication, y compris paiement à la réception pour consommateurs et entreprises, 

paiement fixe, paiement à l’envoi et paiement de machine à machine 

« L›analyse prédictive est importante, car elle permet à une entreprise de tirer le meilleur parti possible de ses 

dépenses marketing. Nous utilisons SAP InfiniteInsight pour que nos offres soient plus pertinentes pour nos clients, et 

pour éviter de les contacter trop souvent. » Viliah Overwater, Analyste senior en modélisation, Vodafone Pays-Bas 


82


SAP - XL 

XL DOUBLE LES RÉSULTATS DE SES CAMPAGNES MARKETING AVEC LA 

SOLUTION SAP® INFINITEINSIGHT® 

Société PT XL Axiata Tbk | Siège social Djakarta (Indonésie) | Secteur d’activité Télécommunications | Produits et 

services Communications mobiles, Internet haut débit, communication de données, services 3G | Salariés 2,000 | 

Chiffre d’affaires 2,1 milliards $USD « Nous avons pu exécuter des campagnes marketing finement ciblées grâce 

aux modèles prédictifs générés par SAP InfiniteInsight. Depuis le déploiement de cette solution, nous avons réduit 

le taux d’attrition de 8,2 % dans tous les domaines et nous avons augmenté notre base de clientèle de près de 25 %. » 

Pradeep Kumar, directeur général de l’analytique client chez PT XL Axiata Tbk 

PRINCIPAUX OBJECTIFS 

• Devancer la concurrence dans un marché concurrentiel et presque saturé 

• Générer des relations plus profitables avec nos clients et améliorer leur rétention et leur fidélisation 

POURQUOI LA SOLUTION SAP® INFINITEINSIGHT® ? 

• La modélisation prédictive permet d’analyser des données sur plus 40 millions d’abonnés et de déterminer certaines 

caractéristiques telles que l’attractivité des produits et les risques de taux d’attrition 

• Plébiscitée par rapport aux solutions concurrentes et traditionnelles de gestion de la rétention et de la fidélisation des 

clients parce qu’elle elle est rapide à déployer, facile à utiliser et qu’elle contribue à l’agilité des opérations marketing 

PRINCIPAUX AVANTAGES 

• Possibilité d’élaborer des modèles prédictifs en quelques heures 

• Utilisation des données d’éligibilité du client, de disponibilité en inventaire et de profitabilité pour prioriser la 

présentation des offres et déployer une approche « prochaine action ciblée » 

• Optimisation des campagnes pour rétention maximale, ventes croisées/ventes de gamme supérieure dans les 

différents canaux marketing, augmentation du chiffre d’affaires et de l’activité des abonnés 

• Identification proactive et ciblage très en amont des clients en risque d’attrition 

200 % : Augmentation du taux de conversion des campagnes 

28 % : Augmentation de la précision des prédictions lors du ciblage des influenceurs sociaux 

66,6 % : Réduction globale du taux d’attrition de 8,2 % et acquisition d’abonnés à plus forte valeur 

25 % : Croissance de la base de clientèle 

102 % : Retour sur investissement 

SAP - AVIVA 

CONNAISSANCE DU CLIENT PAR L’ANALYSE PRÉDICTIVE 

Société Aviva plc | Siège social Londres (Angleterre) | Secteur d’activité Assurance | Produits et services Assurance 

générale, assurance-vie | Clients 31,4 millions, dans plus de 15 pays | Salariés 27.700 (monde) | Bénéfice 

d’exploitation 2,5 milliards €. Aviva protège environ 31 millions de clients dans le monde entier avec ses produits 

d’assurance, d’épargne et d’investissement. Aviva est le plus grand assureur du Royaume-Uni, et également l’un 

des principaux prestataires européens en assurance, assurance-vie et gestion d’actifs. Fermement engagée dans 

le service de ses clients pour proposer des offres plus fortes, plus durables et ayant une incidence positive sur la 

société, Aviva a choisi la solution SAP InfiniteInsight. Ses modèles prédictifs aident Aviva à dégager la connaissance 

nécessaire au ciblage des meilleurs clients avec la meilleure offre et au meilleur moment. 


83


OBJECTIFS 

• Utiliser l’analyse prédictive pour élaborer des modèles de propension décrivant des groupes de clients spécifiques 

plutôt que des modèles génériques portant sur l’ensemble des clients 

• Éviter de contacter les clients trop souvent tout en améliorant les taux de réponse des campagnes 

• Augmenter le retour sur les investissements marketing et améliorer le succès des campagnes en identifiant les 

clients les plus susceptibles de répondre 

POURQUOI SAP 

• Les nombreux graphiques permettent aux experts marketing de visualiser l’impact prévisible des modèles 

• L’automatisation très efficace de la modélisation permet de définir rapidement et facilement une gamme complète 

de modèles 

• L’analyse automatique de la contribution à un modèle de plusieurs centaines de variables remplace l’examen 

visuel d’un nombre limité de variables 

AVANTAGES 

• Taux de réponse aux campagnes plus élevé et plus grande valeur des clients sur la durée grâce à des offres 

mieux personnalisées 

• Augmentation significative du nombre de modèles de propension utilisés dans la société (dont plus de 30 

modèles en production) 

• Possibilité d’utiliser les données les plus récentes pour actualiser les modèles et capturer les dernières tendances 

PLANS FUTURS 

• Améliorer nettement le retour sur les investissements marketing par une modélisation des intentions des clients 

capable de prédire l’impact des initiatives de marketing sur des groupes cibles spécifiques 

• Élaborer des modèles prédictifs pour analyser l’acquisition et la relance des clients 

SAP - ELDORADO 

AMÉLIORATION SPECTACULAIRE DE LA PRÉCISION DES PRÉVISIONS DE 

VENTES AVEC LA SOLUTION SAP INFINITEINSIGHT 

Société Eldorado LLC | Siège social Moscou (Russie) | Secteur d’activité Distribution | Produits et services Électronique 

grand public et appareils électroménagers | Salariés 15.000 | Chiffre d’affaires 2.4 milliards € (2012) 

Pour les produits électroniques, les appliances, les ordinateurs, etc., les Russes plébiscitent Eldorado. Réseau 

fort de 700 magasins et franchises, plus de 30 présences en ligne et 120 points de commande et d’enlèvement, ce 

distributeur russe doit gérer d’importants volumes de données pour améliorer la prévision de ses ventes, exploiter 

un potentiel de chiffre d’affaires insoupçonné et réduire considérablement ses frais d’inventaire. Pour exploiter au 

mieux ses big data grâce à l’analyse prédictive, Eldorado a choisi la solution SAP InfiniteInsight. 

OBJECTIFS 

• Analyser les données stockées dans la solution SAP 360 Customer, générées par plus de 1,5 millions de transactions 

sur les points de vente. Ventes portant sur plus de 420 groupes de produits et plus de 8000 références par mois 

• Améliorer la précision des prévisions pour booster les ventes et réduire le coût des inventaires 

POURQUOI SAP 

• Partenaire technologique de confiance avec une expérience démontrée et des succès dans l’ensemble du secteur 

• Possibilité d’utiliser plus efficacement l’accès en temps réel aux gros volumes de données déjà disponibles avec 

l’application SAP Business Warehouse (avec SAP HANA) et avec l’application SAP Planning for Distribution 

• Facilité d’utilisation, précision des modèles prédictifs et outils automatisés innovants disponibles avec la solution 

SAP InfiniteInsight 

AVANTAGES 

• Élaborer environ 500 modèles prédictifs par mois – une tâche impossible à envisager avec les techniques de 

modélisation traditionnelles qui exigent plusieurs semaines ou plusieurs mois pour définir un seul modèle 

• Création de prévisions pour la planification des assortiments, réapprovisionnement des étagères, analyse des prix et 

des promotions, fusion de magasins, sélection de l’emplacement des magasins et planification des ventes et des achats 

• Précision jusqu’à 82 % des prévisions de ventes, une amélioration de 10 % par rapport aux techniques précédentes 


84


PLANS FUTURS 

• Migrer d’autres applications SAP vers SAP HANA pour tirer pleinement partie du potentiel de la technologie de 

traitement en mémoire 

• Poursuivre l’expansion et faire évoluer les activités de l’entreprise en faisant appel à des systèmes IT performants 

et à l’innovation 

SAP - SAMSE 

OPTIMISER LA PRÉVENTION DES RISQUES, LES INVESTISSEMENTS 

MARKETING ET LA GESTION DES STOCKS AVEC SAP® INFINITEINSIGHT® 

Société Groupe SAMSE | Siège social Grenoble, France | Secteur d’activité Grande distribution | Produits et services 

Distribution de produits et services (matériaux et outils de construction) | Salariés 5,000 | Chiffre d’affaires1,138 

million d’€. Que ce soit pour entreprendre un projet de développement de grande envergure ou rénover son domicile, 

les professionnels comme les bricoleurs du dimanche français font confiance aux outils, matériaux et conseils 

personnalisés que propose le groupe SAMSE. Grâce à la solution 

SAP® InfiniteInsight®, Groupe SAMSE peut développer des modèles prédictifs pour analyser et exploiter les énormes 

masses de données clients recueillies chaque jour. Avec des taux de réponse aux campagnes marketing en 

augmentation de 220 %, Groupe SAMSE propose à ses clients des offres taillées pour leurs besoins. 

OBJECTIFS 

• Optimiser les performances des campagnes marketing, la prévention des risques et la planification des stocks 

pour 25 marques et 290 points de vente 

• Analyser des téraoctets de données issues de plus de 300 000 détenteurs de cartes de fidélité et de 30 000 

entreprises clientes chaque jour 

• Développer une vision globale des relations entre entreprises (B2B) et avec les clients (B2C) et la compléter 

d’analyses approfondies 

• Mettre à jour les modèles prédictifs chaque semaine, plutôt que mensuellement, pour renforcer la fiabilité des prévisions 

POURQUOI SAP 

• Des analyses réutilisables et facilement modifiables avec la solution SAP® InfiniteInsight® 

• Des modèles prédictifs qui facilitent la planification de plus de 75 unités de gestion des stocks de produits et 

l’analyse de la cote de solvabilité pour prévoir le risque de défaut de paiement des clients 

AVANTAGES 

• Des taux de réponse aux campagnes de marketing direct en augmentation de 220 % 

• La mise à jour des modèles prédictifs ramenée de plusieurs mois à une semaine seulement 

• Un équilibre entre une exploration systématique et flexible des données quotidiennes relatives aux marques du 

groupe à l’aide de modèles prédictifs 

• Un système d’alerte précoce pour les projets de construction de particuliers, permettant d’établir des recommandations 

de produits personnalisées quasiment en temps réel sur plusieurs canaux d’interaction avec les clients, 

notamment les magasins, les centres d’appels et les commerciaux 

PLANS FUTURS 

• Attirer toujours plus de clients grâce à une juste appréciation de leurs comportements 

• Poursuivre une stratégie d’optimisation de l’activité en adoptant des technologies de pointe 


85


SAP - HSE24 

INFLUENCER POSITIVEMENT LE COMPORTEMENT D’ACHAT DES 

CONSOMMATEURS AVEC UN LOGICIEL ANALYTIQUE PLUS PERFORMANT 

ET AVEC SAP HANA® 

Société Home Shopping Europe GmbH (HSE24) | Siège social Ismaning (Allemagne) | Secteur d’activité Distribution 

| Produits et services Mode, bijoux, produits de beauté pour la maison | Salariés Environ 2900 (y compris 

centre d’appels externe et personnel logistique) | Visiteurs 515 millions € (2012) 

« Avec SAP HANA, nous avons vu une opportunité d›influencer le comportement d›achat de nos clients et de 

réduire le taux de retour des produits. Chaque année, plus de 11,5 millions de colis HSE24 sont envoyés à 1,5 

millions de clients. Spécialisés dans le VPC, nous estimons que diminuer notre taux de retours de seulement 1 % 

pourrait conduire à une économie à sept chiffres ! » 

Michael Kuenzel, vice-président IT chez Home Shopping Europe GmbH (HSE24) 


• Devenir une entreprise de vente et de service clientèle de classe mondiale 

• Réduire les retours des commandes en VPC 

• Réagir à la demande en temps réel 

LA SOLUTION 

• Déploiement du logiciel SAP® Predictive Analysis et de l’application analytique SAP Audience Discovery and 

Targeting (avec SAP HANA®) • Définition d’un plan de migration de l’application SAP Customer Relationship 

Management à SAP HANA (phase II du projet d’implémentation de SAP HANA) 


• La vue à 360 degrés des informations client permet de définir des campagnes ciblées plus précises et mieux 

ciblées et facilite les interactions avec les clients 

• L’accès instantané à l’ensemble des données client permet aux spécialistes marketing de prendre les mesures 

appropriées pour réduire le taux de retours 

• Les interactions plus riches avec les clients facilitent la définition d’offres pertinentes pour les consommateurs 

et reflètent mieux les exigences uniques de chaque personne - Temps réel : L’agrégation des données fournit une 

vue complète de chaque client - Efficace : Interactions plus puissantes et plus efficaces avec les clients - Ciblé : 

Des campagnes marketing qui mettent l’accent sur des segments spécifiques de clientèle - Pertinent : Des offres 

qui répondent avec une meilleure précision aux demandes de clients 

SAP - MONEXT 

RÉDUIRE LA FRAUDE SUR UN MILLIARD DE TRANSACTIONS 

ÉLECTRONIQUES ANNUELLES AVEC LA SOLUTION SAP® 

INFINITEINSIGHT® 

Société Monext SAS | Siège social Courbevoie, France | Secteur d’activité Banque | Produits et services Solutions 

et services de traitement des paiements et des cartes de paiement | Salariés 480 | Chiffre d’affaires €67 million 

(2011) « SAP InfiniteInsight nous procurera un réel avantage concurrentiel et nous fera ainsi économiser chaque 

année des centaines de millions d’euros. » 

Annabelle Gerard, Analyste de Business Intelligence et de Data Mining, Monext SAS 


86


OBJECTIFS 

• Réduire la fraude électronique pour quelques-uns des principaux e-commerçants, distributeurs et banques européens 

• Remplacer une solution analytique externalisée qui utilisait un modèle générique pour prédire la fraude électronique 

• Diminuer les fausses alertes pour améliorer l’expérience client et réduire les coûts du centre d’appels 

POURQUOI SAP 

• Modélisation prédictive adaptée à chaque fournisseur de carte et type de carte, notamment les cartes de crédit, 

de débit, prépayées, premium, disponible avec la solution SAP® InfiniteInsight®. 

• Formation automatisée pour une modélisation rapide, alliée à une interface puissante et conviviale 

AVANTAGES 

• Un analyste à mi-temps suffit pour créer des modèles personnalisés pour chaque fournisseur et type de carte 

• Résultats fiables obtenus en quelques heures au lieu de plusieurs jours ou semaines 

• Analyse des Big Data collectées sur des centaines de millions de transactions et jusqu’à 500 attributs natifs et 

dérivés utilisés pour évaluer les transactions en quelques millisecondes 

• Économie de centaines de millions d’euros sur les pertes annuelles potentielles de revenus pour les fournisseurs 

de cartes afin de procurer un réel avantage concurrentiel et d’améliorer considérablement l’expérience client 

PROJETS À VENIR 

• Innover davantage pour effectuer des paiements de manière encore plus pratique et sûre sur tous les canaux 

électroniques 

• Continuer à soutenir et à protéger les entreprises et les consommateurs à l’aide de la technologie logicielle SAP 

SAP - AMERICAN AUTOMOBILE ASSOCIATION 

EN ROUTE VERS UNE MEILLEURE COMPRÉHENSION DES CLIENTS 

Société American Automobile Association (AAA) | Siège social Orlando (Floride) | Secteur d’activité Assurance | 

Produits et services Assistance aux automobilistes – Véhicules, voyages et services financiers | Salariés > 40.000 

Sur la route, des millions d’Américains font confiance à l’American Automobile Association (AAA) pour ses services 

d’assistance, d’assurance et de dépannage. Pour optimiser les services des 44 automobile-clubs AAA des États- 

Unis et du Canada, le AAA National Office a créé un « centre d’action » centralisé pour dégager une meilleure 

connaissance des besoins de ses membres. Avec l’analyse prédictive performante proposée par la solution SAP 

InfiniteInsight, AAA peut répondre aux besoins de ses membres au moment précis où ils les expriment. 

SAP - SKYROCK 

MONÉTISER LE RÉSEAU SOCIAL AVEC SAP® INFINITEINSIGHT® 

RECOMMANDATION 

Société Skyrock.com | Siège social Paris | Secteur d’activité Médias| Produits et services Services de partage de 

réseaux sociaux, de blogs et de médias | Salariés 80 | Visiteurs 12 million per month 

En matière de contenu en ligne, les internautes font confiance à leurs amis pour découvrir de nouveaux sujets 

d’intérêt. En mettant gratuitement à disposition de ses membres un espace Web personnalisé pour y créer des 

blogs, ajouter des profils et échanger des messages avec d’autres membres inscrits, Skyrock.com est l’un des 

réseaux sociaux de blogs les plus dynamiques au monde. Toutefois, la société recherchait une solution lui permettant 

de tirer parti de toutes ces données clients et monétiser sa croissance rapide. 


87



• Décrypter les sources de Big Data pour obtenir des prévisions précises et des recommandations personnalisées 

sur les produits, les amis et le contenu 

• Améliorer la fidélité au site et l’engagement social 

• Augmenter le nombre de pages consultées par visite pour proposer des annonces publicitaires payantes plus 

rémunératrices et doper les revenus 

LA SOLUTION 

• Déploiement de l’application SAP® InfiniteInsight® Recommendation, en permettant la segmentation à l’aide de 

l’analyse des réseaux sociaux et les recommandations sociales d’« amis » 

• Lancement d’un projet pilote pour recommander des blogs aux visiteurs et aux membres selon des profils et des 

goûts pour accroître la fidélité au site 


• Possibilité de fournir chaque matin des recommandations d’« amis » pertinentes aux membres du site 

• Meilleure compréhension des utilisateurs, facilitant ainsi l’identification des communautés partageant les 

mêmes centres d’intérêt, des caractéristiques et des comportements, comme les fans de shopping, les amateurs 

d’équitation, les jeunes mamans et les passionnés d’automobile 

20 : Recommandations d’amis pertinentes envoyées chaque matin aux membres du site 

2x : Plus de demandes d’ajout d’ami et augmentation correspondante du taux d’acceptation 


SAP - TIPP24.COM 

MULTIPLICATION PAR 4 DES PERFORMANCES DE SES CAMPAGNES 

MARKETING AVEC SAP® INFINITEINSIGHT® 

Société Tipp24.com | Siège social Londres (Angleterre) | Secteur d’activité Sports et divertissement | Produits et 

services Loteries en ligne 

Pour mieux comprendre ses clients et améliorer la précision de ses activités marketing, Tipp24.com, un des principaux 

intermédiaires de loterie sous licence d’Europe, a opté pour une solution d’analyse prédictive. En faisant 

appel à la solution SAP® InfiniteInsight® pour sa modélisation prédictive, Tipp24 a pu améliorer de 300 % la 

précision de ses ciblages. Ces résultats lui permettent de proposer les meilleures loteries aux joueurs et de leur 

souhaiter Bonne chance ! 

PRINCIPAUX OBJECTIFS 

• Mieux comprendre le client sur la durée pour suivre les clients de grande valeur, augmenter les opportunités de 

vente croisée et de vente de gamme supérieure et réduire l’attrition 

• Collecter des données détaillée sur le comportement des clients pour optimiser les campagnes marketing 

• Mettre à la disposition des activités marketing et des canaux client une solution efficace de modélisation prédictive 

POURQUOI LA SOLUTION SAP® INFINITEINSIGHT® ? 

• Améliorer les performances et l’évolutivité par rapport aux logiciels SAS et SPSS d’IBM 

• Possibilité d’identifier les tendances de comportement des clients en vue d’améliorer leur satisfaction 

• Possibilité de prédire les clients qui risquent de devenir inactifs et les clients inactifs qui sont susceptibles de 

redevenir actifs 


• Optimise les campagnes et le comportement des clients sur la durée dans plusieurs canaux, y compris téléphone, 

marketing direct et mail 

• Permet la gestion proactive des relations avec les clients à grande valeur (existants et potentiels) 

• Réduit le taux d’attrition et augmente la valeur des clients sur la durée 

300 % : Amélioration de la précision de ciblage, y compris identification des joueurs qui seraient les plus intéressés 

par des participations hebdomadaires, mensuelles ou permanentes à certaines loteries 

25 % : Réduction de la taille de l’audience ciblée pour une campagne donnée (grâce à des fonctions analytiques 

plus précises) 

90 % : Réduction du temps nécessaire pour créer et déployer des modèles prédictifs (de plusieurs semaines à 

quelques jours), augmentation de la productivité de l’équipe Analytique 

SAP - KAESER KOMPRESSOREN 

TRANSFORMATION DES ACTIVITÉS AVEC SAP® BUSINESS SUITE 

(ET SAP HANA®) 

Société Kaeser Kompressoren SE | Siège social Cobourg (Allemagne) | Secteur d’activité Machines et équipements 

industriels | Produits et services Systèmes à air comprimé (y compris services de consulting) | Salariés 

4400 | Chiffre d’affaires 600 millions € (2012) | Partenaire SAP® Consulting 

« Nous allons mettre à profit toute la puissance de SAP HANA pour améliorer les processus métier existants, 

déployer des processus entièrement nouveaux et réduire notre TCO. Nous avons pris un excellent 


89


départ avec la migration en douceur et rapide de SAP CRM vers SAP HANA. Cette opération va être 

suivie par le déploiement d›autres applications SAP Business Suite et de solutions personnalisées. » 

Falko Lameter, DSI chez KAESER KOMPRESSOREN 

OBJECTIFS 

• Définir un environnement IT innovant et capable de supporter l’évolution vers un business mode de prestataire 

en solutions 

• Améliorer les processus commerciaux existants et exploiter la puissance des big data et de la maintenance 

prédictive pour devenir plus concurrentiel, plus proactifs et plus à l’écoute des clients 

• Tirer parti de la plate-forme SAP HANA® pour transformer et simplifier le paysage de solutions SAP 

IMPLÉMENTATION TECHNIQUE 

• Migration efficace de l’application SAP Customer Relationship Management (SAP CRM) à SAP HANA en 2,5 

mois – et avec un temps d’arrêt limité à 1,5 jour 

• Excellente collaboration avec SAP pendant toutes les phases du projet 

PLANS FUTURS 

• Déployer des fonctionnalités de maintenance prédictive (solution personnalisée basée sur SAP CRM et SAP 

HANA) pour améliorer le service client 

• Migrer toutes les applications de SAP Business Suite vers SAP HANA (dont SAP ERP, SAP Supply Chain Management 

et SAP Business Warehouse) 

• Déployer SAP CRM (avec SAP HANA) dans le cloud avec d’autres offres cloud telle que la plate-forme de 

logiciels sociaux SAP Jam en vue d’activer une stratégie de relation client (CRM) plus mobile et plus sociale 

SUCCÈS 

SAP CRM (avec SAP HANA) lancé en production sans aucune difficulté 

VITESSE 

Temps de réponse de la base de données x5 plus rapides 

SIMPLICITÉ 

Un environnement IT et des processus métier plus simples et plus agiles 

DURABILITÉ 

Socle pour la maintenance prédictive 

SAP - EBAY 

SYSTÈME DE DÉTECTION DE SIGNAUX PRÉCOCES GRÂCE À L’ANALYSE 

PRÉDICTIVE DE SAP HANA 

Société eBay | Siège social San Jose (Californie) | Secteur d’activité Services spécialisés | Produits et services 

Place de marché en ligne | Salariés 31.500 (2012) | Chiffre d’affaires 14,1 milliards $USD (2012) 

« SAP HANA met toute sa puissance au service de la connaissance. Pour l›utilisateur, il suffit de spécifier des 

indicateurs : il n›a pas à se préoccuper de la qualité des algorithmes, et il peut utiliser facilement le système parce 

que celui-ci est intelligent et configurable. » 

Gagandeep Bawa, responsable Analyse et planification financière (FP&A) pour l’Amérique du Nord chez eBay Inc. 

DÉFIS COMMERCIAUX 

• Améliorer la capacité de séparation des signaux et du « bruit » afin d’identifier les principaux changements subis 

par la place de marché d’eBay 

• Améliorer la prévisibilité et la fiabilité des prévisions portant sur l’économie virtuelle d’eBay 

• Améliorer la connaissance des écarts et de leurs causes 

DÉFIS TECHNIQUES 

• Difficulté à détecter les signaux critiques dans la masse de 100 péta-octets de données stockées dans le data 

warehouse principal d’eBay 

• Processus hautement manuel, exigeant l’intervention des analystes (impossibilité d’appliquer un modèle unique 

aux différents indicateurs) 


90



• Le système de détection automatique des signaux (alimenté par l’analyse prédictive SAP HANA) sélectionne le 

modèle le mieux adapté aux indicateurs de l’utilisateur – ce qui a pour effet d’augmenter la précision des prévisions 

• Un système fiable et évolutif génère un aperçu en temps réel qui permet aux analystes de se concentrer sur les 

tâches stratégiques 

• Une arborescence décisionnelle et la possibilité d’ajuster les scénarios permet à eBay d’adapter le meilleur 

modèle à ses différents types de données 

Détermine avec une précision de 100 % et avec une confiance de 97 % qu’un signal est positif Système de détection 

de signal automatique et précoce avec SAP HANA 


91


SAS - SANTIANE 

LE GROUPE SANTIANE CAPITALISE SUR SA CULTURE DE LA DONNÉE 

AVEC LA DATA VISUALISATION DE SAS 

Le premier courtier en ligne d’assurance-santé adopte SAS® Visual Analytics pour exploiter les grands volumes 

de données dont il dispose et ainsi optimiser ses ventes de contrats santé. 

Société de courtage d’assurance santé pour les particuliers et les entreprises, le Groupe Santiane est devenu en 

moins de 5 ans le premier courtier en ligne en France. Cette forte croissance a nécessité une structuration à la 

hauteur des ambitions de l’entreprise, avec notamment, le développement de ses équipes de direction. Pure player 

de l’assurance santé en ligne et empreint d’une forte culture numérique, Santiane a équipé ses nouvelles équipes 

dirigeantes (générale, financière, commerciale) de l’outil SAS Visual Analytics, pour guider leurs décisions en 

explorant les données sur PC et tablettes. “La grande force de SAS Visual Analytics, c’est son interopérabilité l’outil 

s’est branché naturellement à nos systèmes mais aussi aux données externes issues de Facebook et Google.” 

Alexandre Ginesty, Directeur des Systèmes d’Information 

EMBRASSER L’ENJEU DU BIG DATA 

« Grâce à la puissance de traitement et d›analyse de SAS Visual Analytics, nous puisons dans nos grands volumes 

de données des informations riches et parfois insoupçonnables sur notre portefeuille clients, explique Alexandre 

Ginesty, Directeur des Systèmes d›Information du Groupe Santiane. « Avec notre équipe d’actuaires, nous 

avons notamment pu découvrir de nouvelles variables explicatives sur le comportement de notre portefeuille, par 

exemple sur des éléments en tout début de la chaîne du contrat » 

Le domaine de l’assurance santé induit pour le Groupe Santiane une grande diversité des populations ciblées, et 

bien que très jeune, cette société dispose d’un historique de données très riche, stocké depuis 2007. En tant que 

premier courtier de santé sur Internet, le Groupe est d’autant plus armé pour embrasser l’enjeu du Big Data : des 

données complètes sur les parcours en ligne enrichies de celles issues de Google et Facebook, sur les nouvelles 

acquisitions de contrats et plus globalement la vie des contrats, sans oublier la chaîne de traitement commercial. 

SAS® VISUAL ANALYTICS RÉPOND À UN BESOIN CONSÉQUENT D’ACCÈS À LA DONNÉE 

La stratégie du Groupe Santiane s’est toujours appuyée sur les nouvelles technologies et le passage à la data 

visualisation éclaire aujourd’hui les managers et les rend plus autonomes. Sur iPad ou PC, les utilisateurs peuvent 

élaborer eux-mêmes leurs tableaux de bord et les partager en mode collaboratif. Ainsi, une dizaine de profils 

(sur un effectif total de 250 personnes) utilisent SAS Visual Analytics, essentiellement la Direction Générale. La 

Direction Financière et actuarielle, le Digital Marketing ainsi que les Directions Opérationnelles. Les délégués 

commerciaux de la filiale Néoliane Santé & Prévoyance profitent en particulier de la version tablette pour leurs 

déplacements sur le terrain. 

Des données qui jusque-là étaient inertes, sont aujourd’hui utilisées pour améliorer la construction des produits, 

à la fois dans une meilleure segmentation du risque pour les partenaires, et en adéquation avec les besoins des 

clients. Entièrement numérisé jusqu’à la signature en ligne des contrats d’assurance, le Groupe Santiane optimise 

aujourd’hui la vente de ses contrats santé grâce aux données et grâce à la data visualisation. 

« Nous souhaitions donner les moyens à nos directeurs d’explorer les données sans qu’ils aient nécessairement 

des compétences informatiques particulières, pour ainsi soulager notre R&D sur-sollicitée », ajoute Alexandre 

Ginesty. « La grande force de SAS Visual Analytics, c’est son interopérabilité ; l’outil s’est branché naturellement 

à nos systèmes mais aussi aux données externes issues de Facebook et Google. Nous avons choisi avec SAS 

l’outil de dataviz le plus abouti du marché, sa puissance de calcul in-memory nous permet aujourd’hui d’être plus 

créatifs grâce aux temps de réponse très rapides ». 

L’OFFRE QUICKSTART DE SAS : UNE MISE EN ŒUVRE RAPIDE DE LA SOLUTION 

Parmi les principaux points forts de SAS Visual Analytics, le Groupe Santiane a bénéficié d’un déploiement très 

rapide grâce à l’offre Quickstart de SAS, permettant d’accéder aux premiers tableaux de bord en un temps record. 

L’outil fait en outre gagner du temps en proposant un modèle de données préconçu. 

Pour la filiale Neoliane Santé & Prévoyance, courtier grossiste pour les professionnels, dont les forces commerciales 

ont vocation à développer le réseau de partenaires sur le terrain, les fonctionnalités de géolocalisation 

sont particulièrement intéressantes. L’outil leur donne une meilleure vision sur l’implémentation géographique des 

partenaires, et leur permet de suivre sur iPad leur activité dans une dimension collaborative. 


92


SAS® VISUAL ANALYTICS : VITESSE, AGILITÉ ET MOBILITÉ 

SAS Visual Analytics, la solution phare de SAS dédiée au reporting agile, à l’exploration visuelle et à l’analyse des 

données, est disponible désormais sur des petits serveurs, ouvrant son utilisation aux entreprises de toutes tailles. 

Accédez partout et immédiatement à vos informations. 

Testez gratuitement SAS Visual Analytics en ligne avec des données correspondant à votre secteur d’activité. 

Vos données comme vous ne les avez jamais vues : qu’importent votre secteur d’activité, votre profil ou le volume 

de données à analyser, vous pouvez, avec SAS Visual Analytics, explorer toutes les données pertinentes rapidement 

et aisément. Rejoignez-nous sur nos évènements 

Lancée en 2012, SAS Visual Analytics a déjà été adoptée par plus de 2 600 entreprises dans le monde, dont plus 

de 100 en France. 

GROUPE SANTIANE 

Enjeux 

• Transformer rapidement de gigantesques quantités de données en informations stratégiques 

• Améliorer la construction des produits en adéquation avec les besoins des clients 

• Exploiter les données sans avoir de compétences informatiques particulières avec un modèle de données préconçu 

• La vente des contrats santé est optimisée grâce aux données et à la data visualisation 

• Sur iPad ou PC, les utilisateurs élaborent eux-mêmes leurs tableaux de bord et les partagent en mode collaboratif 

Les résultats présentés dans cet article sont spécifiques à des situations, problématiques métiers et données particulières, 

et aux environnements informatiques décrits. L’expérience de chaque client SAS est unique et dépend 

de variables commerciales et techniques propres, de ce fait les déclarations ci-dessus doivent être considérées 

dans un contexte. Les gains, résultats et performances peuvent varier selon les configurations et conditions de 

chaque client. SAS ne garantit ni ne déclare que chaque client obtiendra des résultats similaires. Les seules 

garanties relatives aux produits et services de SAS sont celles qui sont expressément stipulées dans les garanties 

contractuelles figurant dans l’accord écrit conclu avec SAS pour ces produits et services. Aucune information 

contenue dans le présent document ne peut être interprétée comme constituant une garantie supplémentaire. Les 

clients ont partagé leurs succès avec SAS dans le cadre d’un accord contractuel ou à la suite de la mise en œuvre 

réussie du progiciel SAS. Les noms de marques et de produits sont des marques déposées de leurs sociétés 

respectives. 

SAS - ELFE/INED 

ELFE/INED ÉTUDIE LE DÉVELOPPEMENT DE L’ENFANT 

À L’AIDE DE SAS® VISUAL ANALYTICS 

L’étude scientifique ELFE tire parti de la richesse fonctionnelle de SAS Visual Analytics pour dresser une image 

précise de la situation de l’enfance en France, à travers le regard de multiples chercheurs. 

SAS, leader mondial de la business analytics annonce que l’Institut national d’études démographiques (Ined) a retenu 

sa solution d’exploration et de visualisation des données SAS® Visual Analytics dans le cadre du programme 

ELFE. L’Ined, le plus important institut de recherche démographique au monde, étudie les populations de la France 

et des pays étrangers avec les outils du démographe et les apports des autres disciplines : histoire, géographie, 

sociologie, anthropologie, économie, biologie, épidémiologie. Ses chercheurs travaillent dans des domaines aussi 

divers que la contraception et l’avortement, les migrations, les populations en marge et l’allongement de la durée 

de vie. L’Ined emploie environ 200 personnes, dont 60 chercheurs titulaires, 110 techniciens ou ingénieurs, une 

vingtaine de doctorants, ainsi que des chercheurs associés. 

« Les fonctions analytiques proposées par SAS Visual Analytics sont particulièrement sophistiquées -exploration, 

constitution dynamique de rapports, croisements, etc.- et nous ouvrent de nouvelles perspectives. » 

Ando Rakotonirina, Directeur des systèmes d’information de l’unité de recherche ELFE de l’Ined 

ELFE : Etude Longitudinale Française depuis l’Enfance 

ELFE, l’un des programmes de recherche phares de l’Ined, vise à suivre, pendant 20 ans, 18 300 enfants nés 

en 2011, pour mieux comprendre comment les conditions périnatales et l’environnement dans ses différentes 

dimensions affectent le développement, la santé et la socialisation des enfants, de la période intra-utérine à 

l’adolescence. Le projet est pluridisciplinaire et se construit à partir des propositions de plus de 100 chercheurs 

associés. En tout, plus de 300 équipes de recherche – démographes, économistes, médecins, généticiens, spé- 


93


cialistes de l’environnement, épidémiologistes, etc. – participent à ce programme, soit au total 1500 personnes. 

« Ce programme, de très grande ampleur, doit prendre en compte une quantité dantesque de variables associées 

aux enfants : santé, sciences sociales, environnement, génétique, environnement familial, etc. Il repose sur des 

enquêtes menées chaque année et déclinées en quatre vagues (qui correspondent aux saisons). Les données 

issues de ces enquêtes sont stockées dans un système hautement sécurisé de base de données et décrivent la 

situation de l’enfant à travers des milliers de variables » témoigne Ando Rakotonirina, Directeur des systèmes 

d’information de l’unité de recherche ELFE de l’Ined. « Nous apportons un soin tout particulier aux contrôles qualité 

afin de garantir à nos chercheurs des données cohérentes. Si nous avons réalisé ces contrôles manuellement lors 

des premières enquêtes (maternité et 2 mois), nous avons souhaité industrialiser ce processus particulièrement 

chronophage. » 

Dans le passé, les réponses aux questionnaires étaient stockées dans une solution SAS déployée sur un poste 

autonome (non relié au réseau) et gérées par une personne chargée de réaliser des tests de cohérence et de 

travailler sur la « validité » des données avec des chercheurs affectés à cette étude en leur mettant à disposition 

des informations sous la forme d’extractions. Pour des raisons de confidentialité, les chercheurs ne peuvent pas 

accéder à l’intégralité des données de toutes les enquêtes, des extractions étaient donc nécessaires à chaque 

demande. Ces pré-études de données permettaient de faire des redressements ou corrections éventuelles. Pour 

obtenir une base propre pour une collecte contenant 5 200 variables pour 18 300 individus – pouvant être mise à 

disposition de chercheurs du monde entier – il fallait compter un an et demi. 

FLUIDIFIER CES ÉCHANGES, ACCÉLÉRER LA MISE À DISPOSITION DES DONNÉES 

« Les travaux de contrôle qualité nécessitant de multiples extractions étaient très fastidieux et la transmission 

des données était réalisée via des supports physiques. De nombreux échanges étaient nécessaires avec les 

chercheurs pour déterminer exactement quelles données ils souhaitaient recevoir » poursuit Ando Rakotonirina. « 

Nous cherchions une solution permettant de fluidifier ces échanges, d’accélérer la mise à disposition des données 

et de garantir le principe d›un dépôt unique réclamé par les autorités. Par ailleurs, la future loi sur la protection 

des données scientifiques va dans ce sens (limitation des extractions des données) pour préserver la maîtrise de 

propriété des données des chercheurs. Au vu des volumétries que nous traitons, cette solution devait en outre offrir 

une grande puissance de traitement. » 

Si, au départ, le Pôle SI de ELFE de l’Ined a privilégié des outils open source, il a pris conscience que ceux-ci ne 

répondaient qu’à une partie des objectifs. Une veille a été réalisée sur les outils de SAS et particulièrement SAS 

Visual Analytics (VA). Plusieurs maquettes ont été développées. 

« Nous avons finalement décidé non seulement d’adopter VA, mais également de nous affranchir des anciennes 

solutions sur postes autonomes pour basculer sur SAS Server, puisque nous avions la garantie d’éviter les extractions 

grâce au système de dépôts sécurisés combiné à une gestion personnalisée des accès. Les fonctions 

analytiques proposées par l’outil sont particulièrement sophistiquées (exploration, constitution dynamique de rapports, 

croisements, etc.) et nous ouvrent de nouvelles perspectives » explique Ando Rakotonirina. « Depuis la 

mise en œuvre de VA, le Pôle SI et l’administrateur de données ELFE ont pris en main la solution pour créer des 

rapports et des explorations de base qu’ils ont mis à disposition des chercheurs. Ceci dans un premier temps pour 

améliorer l’adhésion. Dans un deuxième temps, les chercheurs pourront choisir en toute autonomie les données 

sur lesquelles ils travaillent et la manière de les présenter. » 

SAS® VISUAL ANALYTICS, PIÈCE MAÎTRESSE DE L’INFRASTRUCTURE ANALYTIQUE 

DU PROGRAMME ELFE 

En quelques mois, SAS Visual Analytics est devenue une pièce maîtresse de l’infrastructure analytique du programme 

ELFE. Non seulement les multiples extractions ne sont plus nécessaires puisque chaque chercheur 

dispose de droits de consultation personnalisés et d’espaces de travail sécurisés, accessibles via un simple navigateur 

web, mais de plus, l’ensemble des modifications et des mises à jour sont tracées. 

Pour Ando Rakotonirina, le principal objectif du projet a été atteint : « La problématique de sécurité des données 

liée aux extractions a été résolue. Nous respectons les contraintes légales et réglementaires, ce qui est bien sûr 

capital. Mais parallèlement, nous avons gagné en efficacité en termes d’organisation des contrôles qualité : les 

données sont mises à disposition dans SAS VA ce qui évite les nombreux allers-retours entre nos services. Pour 

l’enquête «2 mois», 18 mois ont été nécessaires pour rendre nos données exploitables. Avec VA, ce délai va être 

réduit à 5 mois ! » se réjouit-il. « Parallèlement, VA nous offre une richesse fonctionnelle qui permet de nouvelles 

dimensions d’analyse. Par exemple : nos utilisateurs peuvent, de manière autonome, visualiser dynamiquement la 

répartition des enfants allaités dans chaque département sur une carte. Filtrer les données selon leurs envies et 

obtenir les résultats instantanément. ». 

Avec SAS, Elfe/Ined se déclare parfaitement équipée pour exploiter ses big data : « Les big data sont le carburant 

de la recherche moderne ! Elles sont en train de révolutionner notre profession : auparavant, chacun travaillait 

dans son coin et sur un mode vertical, les chercheurs partageaient difficilement leurs découvertes. Aujourd’hui, 

nous sommes en mesure d’enrichir nos analyses et de susciter la collaboration » conclut Ando Rakotonirina. 

ENJEUX 

• Prendre en compte une quantité dantesque de variables. 

• Fluidifier less échanges entre les chercheurs. 

• Accélérer la mise à disposition des données. 

• Garantir le principe d’un dépôt unique réclamé par les autorités. 


94


SOLUTION 

• SAS Visual Analytics 

BÉNÉFICES 

• VA va réduire de 18 à 5 mois le délai nécessaire pour rendre les données exploitables 

• Les multiples extractions ne sont plus nécessaires (chaque chercheur dispose de droits de consultation personnalisés 

et d’espaces de travail sécurisés, accessibles via un simple navigateur web). 

• L’ensemble des modifications et des mises à jour sont tracées. 

• VA offre une richesse fonctionnelle qui permet de nouvelles dimensions d’analyse. 

• Visualisation dynamique de la répartition des données en toute autonomie. 

• Résultats obtenus instantanés. 

• Exploitation des big data pour enrichir les analyses et susciter la collaboration. 

SAS - UTAC-OTC 

UTAC-OTC : PREMIER TOUR DE PISTE AVEC SAS® VISUAL ANALYTICS 

POUR L’ORGANISME DE SUPERVISION DU CONTROLE TECHNIQUE 

Chaque année, plus de 20 millions de contrôles techniques (100 000 par jour environ) sont centralisés par 

l’Organisme Technique Central (OTC, groupe UTAC/CERAM). 

Pour mieux explorer et exploiter ces données, l’OTC s’est doté en 2013 de SAS® Visual Analytics. Retour sur une 

première année de mise en œuvre, avec les premiers résultats, les premiers enseignements, et les perspectives de 

développement. Mis en place en 1992 pour les véhicules légers, le contrôle technique automobile est aujourd’hui 

assuré par 6 000 installations de contrôle, la plupart appartenant à l’un des cinq grands réseaux opérant sur tout 

le territoire. Depuis l’origine, l’UTAC a été notifié par le ministère des Transports comme Organisme Technique 

Central pour recueillir, aujourd’hui en temps réel, les données issues de chaque contrôle. L’organisme surveille 

les opérateurs et délivre les agréments, s’assure de l’homogénéité des contrôles et tient à jour des informations 

sur l’état du parc automobile français pour adapter et faire évoluer les équipements et les méthodes de contrôle. 

Aujourd’hui, l’OTC dispose de plusieurs bases de données contenant l’ensemble des contrôles techniques depuis 

1992 – soit environ 400 millions de contrôles au total, avec quelque 450 variables relevées ! 

INSTALLATION DE L’OUTIL : UNE FORMATION EXPRESS 

Déjà équipé d’outils SAS pour l’analyse des données, l’OTC a choisi en 2013 de se doter de SAS Visual Analytics. 

« Avec une telle volumétrie, il était impossible d’ignorer la data visualisation... au moins pour voir ! » explique 

Thierry Ageron, responsable Etudes & Productions Statistiques du groupe UTAC/CERAM. L’OTC a donc choisi de 

partir sur une configuration minimale (un serveur de 16 cœurs avec 100 Go de données lues sur disque et 50 Go 

de données en mémoire) pour tester l’exploration de données et les possibilités de l’outil en matière d’édition de 

rapports. Une base de données de 42 Go contenant tous les contrôles effectués depuis 2008 (soit 43 colonnes et 

148 millions de lignes), a ainsi été chargée « in memory ». 

La mise en place de SAS Visual Analytics s’est réalisée en quatre jours : deux jours pour l’installation du produit, 

puis deux jours de formation et de prise en main pour les quatre statisticiens chargés d’explorer l’outil. Travailler 

en amont avec les consultants SAS pour assurer le transfert de compétences constituait pour Thierry Ageron un 

investissement humain essentiel : « on imagine souvent qu’on peut en faire l’économie, on se dit que ‘ça va passer’... 

mais prendre le temps au départ n’est pas un luxe inutile : c’est un vrai facteur de succès ! ». 

ANALYSE EXPLORATOIRE : TRAVAILLER PLUS VITE SUR DE MEILLEURES DONNÉES 

La première étude menée avec « VA » a concerné les temps de contrôle. Avec d’emblée, un atout important : la 

détection très facile des données atypiques (des contrôles inférieurs à 5 minutes, par exemple... voire des durées 

négatives en cas de mauvaise saisie des données), et la possibilité de les éliminer in-memory pour travailler plus 

vite sur une base statistiquement plus fiable. « Nous n’avions pas cette souplesse auparavant ! » note Thierry 

Ageron, qui rappelle qu’outre les études statistiques, les cas les plus étonnants peuvent être transmis aux services 

dépendant du ministère des transports, qui peuvent ainsi « contrôler les contrôleurs ». 

Des premières analyses ont ainsi été réalisées pour comparer les durées moyennes selon les réseaux, l’installation 

de contrôle, le jour de la semaine - ou selon les mois de l’année, avec des changements qui apparaissent clairement 

lors des deux mois d’été... Le bilan ? « SAS Visual Analytics permet de bien voir les tendances générales, 

avec la possibilité de zoomer sur une situation qui semble atypique, et de retourner en un clic à la donnée de base 

pour l’examiner. Ce qui nous prenait beaucoup de temps avant se fait ici très facilement ». Un mode d’exploration 

idéal pour échanger sur nos hypothèses lorsque l’on explore les données à plusieurs. 


95


RAPPORTS : FACILITÉ D’EXPORT ET DIFFUSION MOBILE 

L’échange, c’est ce que permet aussi Visual Analytics avec l’édition de rapports dynamiques, qui peuvent être 

diffusés sur tablette auprès des « clients » de l’OTC : ministère des transports et directions régionales, réseaux 

d’opérateurs, gendarmerie, douanes... Thierry Ageron salue la facilité d’export, reste à voir si la diffusion mobile 

entrera dans la culture de ses interlocuteurs. Jusqu’ici, son équipe en est restée à des premiers tests – pour 

comparer deux centres sur un mois donné, par exemple. « Nous avons déjà plusieurs centaines de rapports sous 

format pdf, explique-t-il. Certains donnent pleine satisfaction à nos clients, il nous faut encore réfléchir avant de 

passer au tout-VA. » 

Le moment est venu en effet pour l’organisme d’étudier l’opportunité d’intégrer plus avant Visual Analytics dans 

les processus de production et de restitution des informations. Restera-t-il un outil parmi d’autres dans l’arsenal 

de l’OTC, ou peut-il à terme remplacer le portail décisionnel actuel ? Une décision à la fois technique, financière 

et culturelle, qui tiendra aussi compte de l’apparition récente du « petit frère » de VA, SAS® Visual Statistics... 

DES PERSPECTIVES MULTIPLES 

En attendant, une autre utilisation de la data visualisation est déjà envisagée, pour étudier les retards de présentation 

des véhicules au contrôle technique. « Pendant longtemps, nous n’avons pu réaliser ces analyses que sur des 

échantillons, et travailler sur la base en frontal était gênant. Aujourd’hui, nous pouvons travailler sur l’exhaustivité 

des données grâce à un ODS dédié. Reste à tester l’analyse avec SAS Visual Analytics, pour voir ce que pourra 

apporter la souplesse de l’outil. » 

Parmi les perspectives se profile aussi l’intégration de données non structurées – en reliant par exemple les informations 

du contrôle technique avec des données d’accidentologie venues de l’extérieur. Mais la route est encore 

longue ! 

ENJEUX 

- Optimiser l’accès à la donnée 

- Améliorer la recherche de données atypiques 

- Produire des statistiques pertinentes et les mettre rapidement à disposition des clients 

SOLUTIONS 

- SAS® Visual Analytics 

« SAS Visual Analytics permet de bien voir les tendances générales, avec la possibilité de retourner en un clic à 

la donnée de base pour l›examiner » 

Thierry Ageron, responsable Etudes & Productions Statistiques du groupe UTAC/CERAM 

SAS - BANK OF AMERICA 

BANK OF AMERICA AVOIDS GRIDLOCK IN CREDIT 

RISK SCORING, FORECASTING 

Modeling portfolio credit risk is a fundamental function in banking today. Loan products, such as lines of credit, 

mortgages and credit cards, entail a high degree of risk for banks, and on a large scale, especially in turbulent 

economic periods -- defaults produce difficult situations and huge implications for both the lender and the borrower. 

Banks regularly employ credit-risk management processes to monitor and assess credit portfolios, to make certain 

estimates, and to understand their risk position and value of assets at any given time. In today’s complex and everchanging 

financial system, powerful, rigorous and accurate credit-risk management processes and technology 

play a critical role in mitigating a lending institution’s exposure. 

“ Without SAS, processing times would be longer, hedging decisions would be delayed and, ultimately, the bank 

would be behind the market.” 

Russell Condrich, Senior Vice President, Corporate Investment Group 

With approximately 59 million consumer and small business relationships, 6,000 retail banking offices and more 

than 18,000 ATMs, Bank of America is among the world’s leading wealth management companies and is a global 

leader in corporate and investment banking and trading across a broad range of asset classes. 

The Corporate Investments Group (CIG) manages Bank of America’s available-for-sale portfolio and is responsible 

for modeling and calculating the probability of default (PD) on the 9.5 million mortgages it services. In addition, 

the group calculates the market value, prepayment speeds and sensitivity to changes in interest rates and hedges 

these risks for the $19 billion mortgage-service-rights asset. Recently, CIG began assisting with the task of forecasting 

loan losses for the bank’s credit card portfolio. 


96


THE NEED FOR SPEED 

CIG had been using analytics from SAS for credit-risk modeling for many years, but with the addition of the creditcard 

loss forecasting responsibility, it was forced to reassess its use of an internal shared-services environment 

to run its modeling and calculation processes. Doing so would help reduce processing time, increase access and 

availability of resources for ad hoc analysis, while ensuring business continuity for this mission-critical function of 

the bank’s business. 

“We needed a solution that addressed today’s business problems, as well as a solution with the flexibility for any 

future business requirements,” says Russell Condrich, Senior Vice President, Corporate Investment Group. “Processing 

large, multi-terabyte datasets in a quick, efficient manner was a key requirement for us and SAS performed 

flawlessly. Without SAS, processing times would be longer, hedging decisions would be delayed and, ultimately, 

the bank would be behind the market.” 

SAS AND IBM SHOW RESULTS 

To meet its performance requirements, the group moved its processing to a dedicated platform comprised of SAS® 

Enterprise Risk Management on SAS® Grid Computing, SAS® Scalable Performance Data Server on a 224 core 

IBM BladeCenter® grid and the IBM’s XIV® Storage System. The initiative has already produced considerable 

results, such as reducing the bank’s probability of default calculation time from 96 hours to just four. Processing 

time for ad hoc jobs has been reduced by 90 percent and, according to the CIG, they are processing at three times 

the speed of the previous environment. 

The platform pulls data from eight systems of record (SOR), amounting to hundreds of millions of records, or 30 

terabytes of source data, and allows the SAS environment to consume 3.9 gigabytes of I/O throughput per second 

from IBM’s XIV storage environment. Approximately 30 users now have unfettered access to the environment, as 

opposed to the shared services environment of the past, in which user time was competitive and response times 

varied dramatically due to the high number of jobs being executed. 

‘UNPARALLELED’ PERFORMANCE 

“We now have an environment that provides users with a robust platform on which to schedule and prioritize jobs, 

based on duration or computational requirements, so that ad hoc usage is not competing with scheduled work,” 

says Stephen Lange, Managing Director, Corporate Investments Group. “This advanced grid platform is giving us 

unparalleled performance. SAS is indispensable for its unique way of handling large data sets.” 

As an example, Lange adds, “we have to score a particular portfolio of 400,000 loans with our suite of models, 

using multiple scenarios, and we need to run it over the 360 months of the mortgages’ life. That process used to 

take three hours, now it takes 10 minutes because of the parallelization capabilities of the grid. The ability to go 

from three hours to 10 minutes on a job demonstrates a tremendous increase in our ability to deliver information 

and make decisions.” 

“The bank has a strong desire to enable loss forecasting as accurately and quickly as possible, right up to the 

senior executive layers of the organization,” says Lange. “The only way we can do that is to have sufficient IT 

resources to score loans and appropriately assess risks. The partnership between SAS, IBM and our internal technology 

group has provided a platform for us to demonstrate risk management leadership.” 

CHALLENGE 

• Reduce processing time for credit-risk modeling, scoring and loss forecasting. 

• Increase ad hoc analysis time while ensuring business continuity and guaranteed “up-time” for these missioncritical 

functions. 

SOLUTION 

• SAS® Enterprise Risk Management 

• SAS® Grid Manager 

• SAS® Scalable Performance Data Server® 

BENEFITS 

• Reduced probability of loan default calculation time from 96 hours to just four. 

• Yields timely decisions around defaults. 

• Reduced its scoring routine of 400,000 loans from three hours to 10 minutes. 

• Helps minimize losses and can handle new growth opportunities for bank’s loan portfolio. 

• Reduced processing time by 90%. 

The results illustrated in this article are specific to the particular situations, business models, data input, and 

computing environments described herein. Each SAS customer’s experience is unique based on business and 

technical variables and all statements must be considered non-typical. Actual savings, results, and performance 

characteristics will vary depending on individual customer configurations and conditions. SAS does not guarantee 

or represent that every customer will achieve similar results. The only warranties for SAS products and services are 

those that are set forth in the express warranty statements in the written agreement for such products and services. 

Nothing herein should be construed as constituting an additional warranty. Customers have shared their successes 

with SAS as part of an agreed-upon contractual exchange or project success summarization following a successful 

implementation of SAS software. Brand and product names are trademarks of their respective companies. 


97


SAS - FRAPORT 

PLOT A COURSE TO REDUCE COSTS 

FRAPORT USES SAS® VISUAL ANALYTICS TO MAKE REAL-TIME OPERATIONAL DECISIONS 

Frankfurt Airport in Germany flies more than 57 million passengers and 2 million metric tons of freight to 113 

countries each year – making it Europe’s third-busiest airport, behind only London Heathrow and Paris-Charles de 

Gaulle. It’s up to transport company Fraport AG to make sure that airport operations can handle so much traffic. 

“ In addition to the extra speed, we’re also looking forward to new opportunities for data exploration and visualization 

with SAS Visual Analytics.” 

Dieter Steinmann, Manager of Information and Communication Services for Business Systems 

Using SAS® High-Performance Analytics and SAS Visual Analytics, Fraport is reducing the cost of operations and 

boosting the performance of decision-support processes. 

“We need to analyze massive quantities of data in real time,” explains Dieter Steinmann, Fraport’s Senior Manager 

of Information and Communication Services. “High-performance analytics is the perfect solution for us. In addition 

to the extra speed, we’re also looking forward to new opportunities for data exploration and visualization with SAS 

Visual Analytics.” 

Migrating from the tried and tested SAS Business Analytics platform to SAS High-Performance Analytics, Fraport 

sets a course toward the most advanced approach to data analysis. Fraport also opted for SAS Visual Analytics, 

which allows users to analyze data quickly and intuitively using a graphical interface. 

Fraport implemented SAS Visual Analytics on a Pivotal DCA (formerly EMC Greenplum DCA), which was optimized 

with SAS for big data analytics. 

“With its decision in favor of big data analytics, Fraport AG is creating a huge competitive advantage for itself. We 

are very pleased that, together with SAS, we can provide the technology basis for this,” declares Sabine Bendiek, 

CEO of EMC Germany. 

CHALLENGE 

Fraport required a solution to reduce operation costs and improve analysis of big data. 

SOLUTION 

• SAS® High-Performance Analytics 

• SAS® Visual Analytics 

BENEFITS 

The airport saves both time and costs by analyzing data efficiently. 











98


SAS - MACY’S 

DO YOU KNOW WHAT’S ‘IN STORE’ FOR YOUR CUSTOMERS? 

MACY’S ENHANCES ITS CUSTOMERS’ ONLINE SHOPPING EXPERIENCE, INCREASES 

OVERALL PROFITABILITY 

After more than 80 years in business, Macy’s Inc. is one of America’s most iconic retailers. With annual revenues 

exceeding $20 billion, Macy’s enjoys a loyal base of customers who come to its stores and shop online each 

day. To continue its legacy of providing stellar customer service and the right selection of products, the retailer’s 

e-commerce division – Macys.com – is using analytical software from SAS to better understand and enhance its 

customers’ online shopping experience, while helping to increase the retailer’s overall profitability. 

To more effectively measure and understand the impact of its online marketing initiatives on Macy’s store sales, 

Macys.com increased its analytical capabilities with SAS® Enterprise Miner, resulting in an e-mail subscription 

churn reduction of 20 percent. It also uses SAS to automate report generation, saving more than $500,000 a year 

in comp analyst time. 

“... they can look at data and spend more time analyzing it and become internal consultants who provide more of 

the insight behind the data.”` 

Kerem Tomak, Vice President of Analytics 

ENDING “ONE SIZE FITS ALL” EMAIL MARKETING 

“We want to understand customer lifetime value,” explains Kerem Tomak, Vice President of Analytics for Macys. 

com. “We want to understand how long our customers have been with us, how often an email from us triggers a 

visit to our site. This helps us better understand who our best customers are and how engaged they are with us. 

(With that knowledge) we can give our valuable customers the right promotions in order to serve them the best 

way possible. 

“Customers share a lot of information with us – their likes and dislikes – and our task is to support them in return 

for their loyalty by providing them with what they want, instantly,’’ adds Tomak. Macys.com uses Hadoop as a data 

platform for SAS Enterprise Miner. 

Initially, Tomak was worried that segmenting customers and sending fewer, but more specific emails would reduce 

traffic to the website. “The general belief was that we had to blast everyone,’’ Tomak said. Today, emails are sent less 

frequently, but with more thought, and the retailer has reduced subscription churn rate by approximately 20 percent. 

TIME SAVINGS, LOWER COSTS 

Tomak’s group is responsible for creating a variety of mission critical reports – some daily, some weekly, others 

monthly – that go to employees in marketing and finance. These data-rich reports were taking analysts four to 

twelve hours to produce – much of it busy work that involved cutting and pasting from Excel spreadsheets. Macys. 

com is now using SAS to automate the reports. “This cuts the time dramatically. It saves us more than $500,000 

a year in terms of comp FTE hours saved – a really big impact,’’ Tomak says, noting that the savings began within 

about three months of installing SAS. 

Now his staff can maximize time spent on providing value-added analyses and insights to provide content, products 

and offers that guarantee a personalized shopping experience for Macys.com customers. 

“Macy’s is a very information-hungry organization, and requests for ad hoc reports come from all over the company. 

These streamlined systems eliminate error, guarantee accuracy and increase the speed with which we can address 

requests,’’ Tomak says. “Each time we use the software, we find new ways of doing things, and we are more 

and more impressed by the speed at which it churns out data and models.” 

MOVING FORWARD 

“With the extra time, the team has moved from being reactionary to proactive, meaning they can examine more 

data, spend quality time analyzing and become internal consultants who provide more insight behind the data,” he 

says. “This will be important to supporting the strategy and driving the next generation of Macy’s.com.” 

As competition increases in the online retailing world, Tomak says there is a push toward generating more accurate, 

real-time decisions about customer preferences. The ability to gain customer insight across channels is a critical 

part of improving customer satisfaction and revenues, and Macys.com uses SAS Enterprise Miner to validate 

and guide the site’s cross- and up-sell offer algorithms. 

Tomak is also training staff on SAS/OR®, business process optimization software, to further optimize the promotions 

that the company sends to clients. “We want to maximize the efficiency in sending these promotions to the 

right customer at the right time.’’ 


99


CHALLENGE 

Macys.com needed enhanced customer insight, online and across channels, to effectively measure and understand 

the impact of its online marketing initiatives on Macy’s store sales. 

SOLUTION 

• SAS® Enterprise Guide® 

• SAS® Enterprise Miner 

• SAS/OR® Software 

BENEFITS 

Increased customer insights; cross-sell and up-sell effectiveness; productivity, revenue and customer satisfaction, 

an approx.20 percent reduction in churn rate and more than $500,000 savings in productivity annually in terms of 

FTE time saved. 

SAS® and Cloudera for big data 

“We chose Cloudera’s Platform for Big Data for its unparalleled Hadoop management and SAS Analytics 

for deep insight into our data. These combined technologies make our customer interactions 

more aligned to their preferences, which leads to improved satisfaction. Ultimately, working 

with these two industry leaders allows my team and me to have more time to focus on more strategic 

initiatives through automated processes instead of manually collating reports for our business stakeholders.” 

Kerem Tomak, Vice President of Analytics, Macys.com 










SAS - NESTLÉ 

HOW TO KEEP FRESH PRODUCTS ON THE SHELVES 

ACCURATE FORECASTING OPTIMIZES CUSTOMER SERVICE, MINIMIZES INVENTORY 

OVERSTOCKS AND LAYS THE GROUNDWORK FOR EFFECTIVE MARKETING AT NESTLÉ 

A billion units roll off Nestlé production lines every single day. This number illustrates the sheer quantity of goods 

produced by the world’s biggest food company. To deliver on its promise of “Good Food, Good Life,” Nestlé has 

brought to market a whopping 10,000 products aimed at improving consumers’ lives with better and healthier foods 

and beverages. 

To ensure the right amounts of those products make it to the shelves and into customers’ hands, Nestlé relies on 

forecasting. After all, even the best marketing promotions can backfire if the shelves are empty when the customers 

show up for their favorite foods. 

It comes as no surprise that Nestlé’s interest in closely managing the supply chain and keeping inventories within 

tight limits is proportionate with the size of its operations. Its sheer size makes planning on a global scale highly 

complex. Product categories, sales regions and an abundance of participating departments combine to weave a 

tangled web. 

It’s also the nature of the food and beverage industry that makes operational planning a challenge. Seasonal influences, 

being dependent on the weather to provide a good harvest, swings in demand, other retail trends and the 

perishable nature of many products make it difficult to plan production and organize logistics. 

“ We’re now able to drill down through customer hierarchies and do things such as integrate the impact of promotions 

and special offers into the statistical models.” 

Marcel Baumgartner, Head of Global Demand Planning Performance and Statistical Forecasting 

TIED DOWN BY CONFLICTING KPIS 

“Supply chain management is a well-established, recognized stream and process at Nestlé,” explains Marcel 

Baumgartner, who leads global demand planning performance and statistical forecasting at Nestlé’s corporate 

headquarters. “Our professionals take care of transportation networks, run efficient warehouses and are the first 

point of contact with customers. One area of focus is planning – or, more precisely, demand and supply planning. 

According to Baumgartner, this process tackles two important metrics: customer service levels and inventory levels. 

One can improve customer service levels – defined as the percentage of complete and on-time deliveries – by 


100


expanding inventories. But that ties up capital, and it’s often difficult to find storage space. The freshness of the 

product suffers as well. 

In this industry, products are processed in very large batches to keep unit prices low, ensure quality and take 

advantage of raw ingredient availability. This make-to-stock production strategy contrasts with the make-to-order 

principle frequently seen in other sectors such as the automobile industry. “To have the right quantity of the right 

products at the right place and time, we rely heavily on being able to predict the orders our customers will place as 

precisely as possible,” says Baumgartner. 

Other business metrics, such as budgets and sales targets, are also important factors. The overarching goal, according 

to Baumgartner, is to be able to “take proactive measures instead of simply reacting.” To accomplish this, 

Nestlé focuses on strong alignment processes, stronger collaboration with customers and the use of the proper 

forecasting methodology. 

STATISTICS VS. INSTINCTS 

There are two main options for generating forecasts. The subjective method is mainly dependent upon on the 

estimation and appraisal of planners based on the experience they draw upon. The statistical method approaches 

the forecasting problem with data. 

Before using SAS, Nestlé was primarily using SAP APO’s underlying forecasting techniques, together with models 

from the open-source statistical software R, integrated into APO. Those forecasts were then revised by the Nestlé 

demand planners. SAS enhances this, and thus complements SAP APO perfectly. 

Statistical forecasting tends to be more reliable if sufficient historical data is available. “But one thing has become 

clear to us — you can’t predict the future with statistics by simply looking at the past. It doesn’t matter how complex 

your models are.” 

So it’s not the statistical methodology that’s the problem for Baumgartner and his team. The critical factor in this 

complex environment is being able to assess the reliability of forecasts. Two elements have attracted the most attention 

within this context: dealing with volatility, and SAS. 

“Predictability of demand for a certain product is highly dependent on that product’s demand volatility,” says Baumgartner. 

“Especially for products that display wide fluctuations in demand, the choice and combination of methods 

is very important. SAS Forecast Server simplifies this task tremendously. 

Of particular importance for demand planning are the so-called “mad bulls,” a term Nestlé uses to characterize 

highly volatile products with high volume. A mad bull can be a product like Nescafé, which normally sells quite 

regularly throughout the year, but whose volumes are pushed through trade promotions. A simple statistical calculation 

is no more useful in generating a demand forecast than the experience of a demand planner for these less 

predictable items. The only way out is to explain the volatility in the past by annotating the history. Baumgartner and 

his team rely on the forecast value added (FVA) methodology as their indicator . The FVA describes the degree to 

which a step in the forecasting process reduces or increases the forecast error. 

MORE KNOWLEDGE, LESS GUESSING 

According to Baumgartner, SAS® Forecast Server is the ideal tool for this scenario. The solution’s scalability allows 

a handful of specialists to cover large geographical regions. And selecting the appropriate statistical models is 

largely automated, which is seen as one of the strongest features of SAS Forecast Server. “At the same time, we’re 

now able to drill down through customer hierarchies and do things such as integrate the impact of promotions and 

special offers into the statistical models.” 

The results paint a clear picture. In a comparison between the conventional forecasting method and SAS Forecast 

Server procedures – for the most part using default settings – the results showed that Nestlé often matches and 

improves its current performance for the predictable part of the portfolio and thus frees up valuable time for demand 

planners to focus on mad bulls. 

Last but not least, Nestlé emphasizes that even a system as sophisticated as SAS Forecast Server cannot replace 

professional demand planners. “Particularly for mad bulls, being connected in the business, with high credibility, 

experience and knowledge is key.” With more time available to tackle the complicated products, planners are able 

to make more successful production decisions. And that means really having enough Nestlé ice cream at the 

beach when those hot summer days finally arrive. . 

CHALLENGE 

Ensure the right amounts of products make it to the shelves and into customers’ hands. Manage supply chain, plan 

operations and organize logistics on a global scale based on a variety of influences and factors. 

SOLUTION 

SAS® Demand-Driven Planning and Optimization 

BENEFITS 

Reliable forecast methods free up time to focus on demand planning for highly volatile products. More successful 

production decisions ensure products are available when customers want them. 

About 

Nestlé 

Nestlé is the world’s biggest food company. More than 330,000 employees work at 469 locations in 86 countries to 

generate annual revenues of more than 90 billion Swiss francs. These sales figures make Nestlé the global market 

leader by a large margin. 






101







SAS - RABOBANK 

HOW DOES YOUR DATA FIT TOGETHER? 

As Manager Concern Controller at Rabobank, John Lambrechts was assigned to implement chain management to 

improve the bank’s ability to quickly gain insights from information coming from its chains or groups and improve 

decision making. The Rabobank Group, a leading global financial services provider serving more than 10 million 

customers and headquartered in The Netherlands, wanted to optimize its operations by improving the financial and 

collaborative alignment across its chains. 

“ We are much more flexible in our ability to provide information and direct our chain managers more effectively. 

Our people have become more engaged because they can quickly see the results of what they do. ” 

John Lambrechts, Manager Concern Control 

Lambrechts explains, “The first step we took to properly set this up, was to look at the data available and to determine 

how this could be viewed. We discovered that there was an enormous amount of data available from all 

groups of the bank’s organizational chain such as departments, business units and local branches. We needed one 

system to integrate and structure all the information efficiently and provide the ability to share results.” 

NEW INSIGHTS 

Lambrechts found data visualization to be the perfect match. 

“Data visualization lets us analyze large amounts of data. The diverse visual options lead us to ask new questions 

that we had not asked before,” said Lambrechts. “We are much more flexible in our ability to provide information 

and direct our chain managers more effectively. Our people have become more engaged because they can quickly 

see the results of what they do.” 

Rabobank developed new cost and chain models with partner Finext and implemented SAS Visual Analytics. “The 

bank also created a new data scientist job function for banking chain specialists. These specialists can probe the 

data more extensively, evaluate cost backgrounds, and establish relationships and causes.” 

Because of the resulting transparency, Rabobank can see exactly who does what within the chain and which areas 

must be tightened to optimize the profit of the chain. And although the solution is scalable to the number of users, 

the banking group is using it in a strictly controlled environment to standardize how information is provided to chain 

managers and organizational leaders. 

POSITIVE OUTCOMES 

“I am extremely proud of what we have achieved so far. We have seen an increase in our managers’ use of chain 

information,” says Lambrechts. 

“Another important outcome has been the removal of boundaries between the chains and the motivation to develop 

new thought processes. In the past, for example, departments would look within to find cost savings. But this type of 

siloed action was sub-optimal and not always in the organization’s best interests. With the knowledge and access to 

all chain information, we are able to let go of old business models and replace them with more dynamic ones.” 

CHALLENGE 

Improving how information is retrieved and shared from all groups within Rabobank’s organizational chains to 

optimize operations and make faster decisions. 

SOLUTION 

SAS® Visual Analytics 

BENEFITS 

• A centralized view of information about the bank’s organizational chains for improved financial and collaborative 

alignment. 

• A dynamic organization where the boundaries between departments and business components are removed and 

chain information is embraced by decision makers. 


102











SAS - TELECOM ITALIA 

VISUALIZING DATA MAKES HEARING IT MUCH EASIER 

To operate in the crowded telecommunications industry, service providers must answer the call for speed and availability 

millions of times each day. To prosper, they have to pick up the phone before it ever rings. 

As Italy’s largest telecommunications provider, and with a notable presence in Latin America, Telecom Italia always 

looks for ways to improve customer experience. That means delivering the reliable service that subscribers expect 

today – and knowing which offers they will expect tomorrow. 

“ We’re very impressed in terms of the usability and flexibility – and time to market, too – of SAS Visual Analytics. ” 

Fabrizio Bellezza, Vice President of National Wholesale Services and Head of Market Development 

LISTEN TO THE DATA 

As part of a program to improve customer experience for its 32 million mobile subscribers, the company had to 

extend and reinforce its ability to monitor network service. To make sense of the enormous amount of unique and 

varied data at its disposal, Telecom Italia turned to SAS for a way to make wise decisions quickly based on up-tothe-minute 

trends. 

“We need to be able to respond quickly with new and improved offerings to our customers, and to analyze the 

impact of these offers for the foreseeable future,” says Fabrizio Bellezza, Vice President of National Wholesale 

Services and Head of Market Development at Telecom Italia. “Analysis that is valuable and makes sense today 

may be irrelevant tomorrow. And we need to see well beyond tomorrow.” 

To understand how it stacks up to the competition, Telecom Italia needed to define and analyze key performance 

indicators for mobile network voice and data traffic. In a fast-changing market filled with devices and applications 

running on different generations of technology, what’s relevant today might not be tomorrow. And beating the competition 

means always knowing the right offer for each customer at the right time. 

THE SOLUTION 

With SAS® Visual Analytics, business executives at Telecom Italia can compare the performance between all 

operators for a key indicator – such as accessibility or percentage of dropped calls – on a single screen for a quick 

overview of pertinent strengths and weaknesses. 

Using SAS, Telecom Italia adds in-memory analytics and advanced data visualization to the provider’s geomarketing 

system, simplifying the decision-support and operational processes that go into technical and commercial 

planning. “SAS Visual Analytics supports us in identifying network shortcomings and making fast improvements,” 

Bellezza says. “It also allows us to calculate the statistical correlations between various KPIs for more effective 

further analysis. 

“SAS Visual Analytics has allowed us to identify profitable areas that we can strengthen in terms of infrastructure 

and services to be marketed.” 

IN-DEPTH ANALYSIS OF KPIS 

A company whose leadership has always understood the role of sophisticated analytics in monitoring network traffic 

and performance, in addition to spotting trends, Telecom Italia has used SAS since the 1990s. 

SAS Visual Analytics allows Telecom Italia to analyze a range of KPIs at different levels of aggregation for both 

voice and data traffic. These can be viewed on a single screen and can include: 

• Accessibility 

• Drop rate 

• Call setup time 

• Data throughput 


103


“This gives us a rapid overview of areas of competitive strengths and weaknesses,” Bellezza says. 

SAS Visual Analytics allows Telecom Italia to analyze coverage of specific areas and identify possible scenarios as 

“make” or “buy,” prioritized by cost and benefit. 

It helps analyze customer behavior and create a predictive model, forecast services and evaluate the profitability 

of a development area after an investment. 

A USER-FRIENDLY FORMAT 

“When initially analyzing data, it’s impossible to predict the questions users may ask – and often even the users 

themselves are unaware of them,” Bellezza says. “SAS Visual Analytics helps us gain insights by simplifying the 

transformation of data and enabling us to put it into a user-friendly format.” 

As a result, decision makers get a more comprehensive understanding of what’s happening in the market, he adds. 

“We’re very impressed in terms of the usability and flexibility – and time to market, too – of SAS Visual Analytics,” 

Bellezza affirms. 

CHALLENGE 

Telecom Italia required a flexible, user-friendly solution for visualizing large amounts of data. 

SOLUTION 

SAS® Visual Analytics 

BENEFITS 

SAS Visual Analytics allowed the company to display data in a user-friendly format. 











104


SENTELIS - ASSURANCE MUTUELLE 

CADRAGE DU SI DIGITAL GROUPE VERS L’ARCHITECTURE 3.0 

CLIENT : Grand groupe d’assurance mutuelle et paritaire de protection sociale - N°1 en retraite complémentaire 

Porteur du Projet : Damien LEPRETRE 

CONTEXTE 

Transformations importantes au sein de l’entreprise : • Rapprochement avec une autre structure 

• Avènement du « monde digital » Ces deux grands défis induisent des effets structurels sur les SI et sur le fonctionnement 

de la DSI, auxquels l’entreprise doit se préparer pour : • Faciliter la convergence vers le futur SI commun 

du groupe (‘best in class’, rationalisation, industrialisation et effets d’échelle,…) • Anticiper et accélérer la « 

digitalisation » du groupe – offres et services, relation client, culture et capacités test & learn, mode Lab, maîtrise 

du capital informationnel interne et externe, agilité / time to market, small apps,… 

OBJECTIFS DE LA MISSION SENTELIS 

L’objectif de la mission a été de construire une vision CONVERGEE CIO/CDO de la Stratégie SI Digitale et de 

l’organisation cible DSI/CDO/Métiers pour une approche conjointe auprès du COMEX 

MÉTHODE : 

La mission a été menée en 4 étapes : • Prise de connaissance afin de s’approprier le contexte SI • Identifier le 

niveau des réflexions digitales et le traduire en « capacités digitales » • Partager, au sein de la DSI, une vision du 

SI Digital et de ses impacts sur le fonctionnement de la DSI • Confronter et faire converger les visions : CIO / SI 

Digital - CDO / Stratégie Digitale de l’Entreprise 


105


SENTELIS - CRÉDIT À LA CONSOMMATION 

CONSTRUCTION DE L’ARCHITECTURE DIGITALE DE RÉFÉRENCE 

(FRANCE, INTERNATIONAL & CORPORATE) 

CLIENT : Grand acteur international du crédit à la consommation 

Porteur du Projet : Jérôme BESSON 

CONTEXTE 

Nouvelle stratégie d’entreprise basée sur 3 piliers : 

• Transformation digitale 

• Simplification et industrialisation des process 

• Augmentation des marges 


L’objectif de la mission a été de définir la nouvelle architecture de référence SI commune à l’ensemble des filiales 

du Groupe pour répondre à la disruption digitale et l’accélération de la transformation de l’entreprise vers le tout 

numérique : 

• Fédération des exigences des différentes entités du groupe : omnicanalité de l’expérience utilisateur, dématérialisation 

étendue des processus métiers, contextualisation et personnalisation à la volée de la proposition de valeur 

client et prescripteur et de l’expérience vécue (interaction, processus & informations), cross-selling/up-selling, 

évolution réglementaire… 

• Définition de la cible d’architecture, des principes directeurs en respect des cadres d’architecture d’entreprise 

• Analyse critique architecturale de l’existant des différentes filiales et maturité de leur SI vis-à-vis de la cible 

• Co-construction avec les différentes DSI filiales des architectures de transition, des trajectoires de transformation 

et d’investissements pour atteindre la cible de référence 

• Fédération du portefeuille des projets des différentes filiales. Identification des projets transformant. Détection 

des synergies transnationales. Animation de la communauté des architectes. Conduite du changement auprès 

des DSI et Directions Métiers, France et International. 

Cette mission a également consisté à conduire des études d’architecture ciblées intégrant la mise en place 

d’une infrastructure fédérée de données (Shared Data Backbone) : Cible d’architecture décisionnelle et cible 

d’architecture du poste de travail des agents commerciaux. 


106


SENTELIS - MUTUELLE D’ASSURANCE 

MISE EN ŒUVRE DE LA FONDATION BIG DATA GROUPE 

CLIENT : Grand groupe français de Mutuelle d’Assurance 

Porteur du Projet : Sébastien LAYER 

CONTEXTE 

Grand programme de transformation – Ambition Client 2020 autour de 4 axes : 

- Valoriser L’ACTIF CLIENT 

- Développer la PROXIMITÉ Digitale 

- Créer l’AGILITE INDUSTRIELLE 

- Fonctionner en ECOSYSTÈME COLLABORATIF 


Mettre en place un socle Big Data INDUSTRIEL CROSS-METIERS pour gagner la bataille des données, la 

bataille de la modernisation digitale et la bataille du lien client 

CAS D’USAGES CIBLES TOTALISANT 15 PROJETS MÉTIERS SUR 2015 

• Analyse réactive (contextualisation temps réel de la relation client sur tous les canaux) 

• Analyse historique du portefeuille client sur l’ensemble des données à disposition (micro-segmentation, qualité et 

évolution de la relation, segmentation comportementale) 

• Analyse prédictive du portefeuille client (détection d’opportunités, prévention des risques) 

NATURE DES DONNÉES TRAITÉES 

Intégration dans un lac de données d’une très grande variété de données représentative du système d’information 

(données transactionnelles, évènementielles, conversationnelles, sociales référentielles, décisionnelles…) pour 

un volume avoisinant plusieurs milliards de données. 

ETAPES MAJEURES ET CALENDRIER DE MISE EN ŒUVRE DE LA FONDATION BIG 

DATA GROUPE: 

• Conduite d’une preuve-de-concept sur un usage emblématique (vision 360° Client) à valeur métier et architecturale, 

basée une infrastructure Commodity Hardware et des composants Open Source de l’écosystème Hadoop 

. Réalisation par une équipe mixe métier-SI en mode agile (Utilisateur métier, Ergonome, Analyste Donnée, Statisticien, 

Architecte Big Data, Développeur Big Data) – 3 mois 

• Choix des composants de la stack Big Data du projet de mise en œuvre – 2 mois 

• Industrialisation d’un core-model groupe multi instancié au niveau des différentes enseignes + déploiement des 

premiers usages en production – 6 mois 

• En parallèle, définition de l’offre de service associée à la fondation Big Data et de l’organisation à mettre en place 

pour en assurer la pérennité et le déploiement dans l’entreprise 

• Enrichissement « versionné » du socle core-model groupe en phase avec les besoins et exigences métiers 

ASPECT NOVATEUR 

Une innovation à plusieurs niveaux : 

• Architecturale, avec la validation de la pertinence du modèle d’architecture 3.0 

• Comportementale, avec le décloisonnement des données entre les métiers, entre monde opérationnel et monde 

analytique 

• Usages 

o Amélioration d’usages existants (ex : vision 360 Client, Contrat) 

o Perspective de nouveaux usages (ex : analyse de la couleur et la teneur de la conversation client, corrélation 

des flux comptables) 

o Capacité d’innovation renforcée (Test & Learn, Data Lab) 

• Technologique, avec la mise en œuvre de solutions innovantes issues des géants de la donnée, permettant de 

motoriser l’architecture 3.0 

VALORISATION OBSERVÉE DE LA DONNÉE 

Le projet a permis d’envisager une exploitation de toutes les données disponibles structurées et non-structurée 

comme jamais auparavant, sans frontière de temps ni d’espace (ex : analyse des commentaires clients dans les 

questionnaires de satisfaction et corrélation avec la notation ; détection de nouvelle segmentation via des algorithmes 

d’analyses non propriétaires). 


107


AUTRES ÉLÉMENTS STRUCTURANTS 

La mise en place du lac de données a été un révélateur et un catalyseur de nouveaux usages pour l’ensemble des 

métiers, encouragés par des coûts et une performance de traitement sans commune mesure avec l’existant. Elle 

ouvre la place, au-delà de l’amélioration de la Business Intelligence et du développement de la Business Analytics, 

au développement de la Data Science pour tirer le maximum de valeur du capital informationnel de l’entreprise. 

Elle a mis en évidence la nécessité d’une gouvernance de la donnée resserrée pour maîtriser l’explosion des données 

et des usages. 

Le lac de données est la première étape vers la construction d’une infrastructure fédérée des données entre 

monde opérationnel et monde analytique (Shared Data Back Bone), dont la frontière disparait. 

SENTELIS - ÉNERGIE 

CADRAGE DE LA 3ÈME PLATEFORME (BIG DATA & DIGITAL READY) 

CLIENT : Un des plus grands groupes mondiaux du secteur de l’énergie 

Porteur du Projet : Jean-Baptiste CECCALDI 

CONTEXTE 

Plusieurs tendances de fond, déjà engagées, révèlent et vont cristalliser les limites des Systèmes d’Informations. 

Ces tendances de fond concernent toutes les Branches, toutes les BU. Elles vont induire de nouvelles exigences 

multi-branches et reflètent les enjeux du digital pour l’entreprise. 

Des expérimentations ont déjà été entamées par les BU pour répondre localement à ces sujets. Mais des stratégies 

ou des choix locaux non encadrés (modèle d’architecture, technologies, recours au cloud,…) peuvent se 

montrer incompatibles avec les enjeux ou créer de nouveaux risques, de nouvelles limites. 

La DSI Corporate souhaite porter les transformations des SI du groupe et de ses pratiques. 


L’objectif de la mission a été de cadrer cette transformation au niveau groupe destinée à proposer à l’ensemble 

des entités et filiales une réponse architecturale et technologique adaptée aux enjeux de partage/maîtrise/exploitation 

de la donnée pour accompagner les évolutions digitales à venir ou déjà engagées par les métiers. 


108


LA DÉMARCHE A ÉTÉ LA SUIVANTE : 

• Définition de la feuille de route globale à 18 mois : cible architecturale et technologique, trajectoire de transformation 

opérationnelle, organisation et cadre de gouvernance, plan de communication et de conduite du changement, 

services à activer, budgets requis… 

• Communication de la vision et de la proposition de la DSI Groupe auprès de la Direction Groupe et des Directions 

des multiples entités 

• Identification des premières cibles d’expérimentations concrètes – nécessaires pour démontrer et convaincre 

rapidement de la pertinence des gènes du modèle « Architecture 3.0 » 

• Préparation des éditeurs/fournisseurs technologiques aux sollicitations à venir 

• Identification des contributions de partenaires clés – en particulier la Production sur les infrastructures et services 

de production 

• Approfondissement avec les BU/BL des cas d’application ou des besoins concrets déjà identifiés 


109


SENTELIS - JEUX EN LIGNE 

CADRAGE DU SOCLE BIG DATA & DES PREMIERS USAGES PILOTES 2015 

CLIENT :Acteur majeur français du jeu 

Porteur du Projet :Jean-Baptiste CECCALDI 

CONTEXTE: 

Le plan stratégique de cette entreprise vise entre autres : 

• A renforcer la connaissance de ses clients et de ses modes relationnels 

• A développer une offre multi canal 

La DSI identifie des axes sur lesquels le SI présente des faiblesses structurelles, en particulier autour de la 

maîtrise et du partage de la donnée 

MISSION DE SENTELIS: 

La mission a permis de délivrer en 6 semaines l’ensemble des éléments permettant de lancer sereinement la 

fabrication : 

• D’un SOCLE ‘Big Data’, garant de l’exigence industrielle en production, regroupant les fonctionnalités requises 

pour supporter les premiers cas d’usage etpermettant de préparer le ‘coup suivant’ 

• Des premiers ‘USAGES’ pilotes, à choisir parmi les projets candidats inscrits au plan 2015, et permettant de 

démontrer rapidement la valeur du modèle tout en maîtrisant les risques opérationnels 

LES LIVRABLES SUIVANTS ONT ÉTÉ PRODUITS : 

• Périmètre fonctionnel des pilotes, les objectifs associés (métiers et DSI) 

• Orientations architecturales et technologiques, l’infrastructure nécessaire 

• Planning de réalisation, échéances de livrables 

• Equipe de réalisation et organisation 

• Coût, prérequis de démarrage, risques majeurs à mettre sous contrôle 

• Cible architecturale à long terme (inscrire les actions court-terme dans la bonne direction) 

LES PROCHAINES ÉTAPES : 

• Lancement de la phase d’industrialisation du socle Big Data et des projets candidats sélectionnés lors du cadrage 

• Identification d’autres cas d’usage et accompagnement des projets pour leur mise en œuvre avec prise en 

compte des évolutions nécessaires du socle 

SENTELIS - EDITEUR SOFTWARE 

PLAN DE TRANSFORMATION D’ENTREPRISE 

CLIENT :Editeur et fournisseur de solutions informatiques mutualisées d’une grande banque internationale Française. 

Porteur du Projet : Jean-Nicolas BIARROTTE-SORIN 

CONTEXTE : 

Plan de transformation à 3 ans autour des axes suivants : 

• Renforcement de la position vis-à-vis des filières à l’international 

• Développement d’un nouveau business model et operating model 

• « Fast IT » 

• Sécurisation des données et applications 

• Poursuite de la stratégie d’industrialisation 


110


OBJECTIF DE LA MISSION SENTELIS : 

La mission a consisté à : 

• Définir les orientations d’architecture 

• Elaborer le plan d’action de transformation 

LES PILIERS MAJEURS DE CETTE NOUVELLE ORIENTATION ARCHITECTURALE SONT : 

• Architecture Data Centric 

• Architecture anywhere, anytime, any devices 

• Mise en place de modèles permettant de déployer de nouvelles solutions transverses de niveau Groupe, en 

s’appuyant sur trois dimensions complémentaires: 

o Une approche socles différenciés, adaptée à la variété des entités, 

o une approche SOA, pour faciliter l’intégration aux paysages locaux et avec le Corporate, 

o une approche Cloud, pour être capable de supporter une variété de stratégie de déploiement (interne, externe, 

hybride), en ligne avec la diversité des entités. 


111



112


SOFT COMPUTING 

BIG DATA : PREMIÈRES LEÇONS APRÈS 3 ANS D’APPLICATIONS 

SUR LE TERRAIN. 

LES ENJEUX 

La révolution numérique qui se déroule sous nos yeux a pour corollaire une explosion des données, encore accentuée 

par le développement des objets connectés et la digitalisation des interactions. Ce déluge de données 

ouvre de nouveaux horizons en matière de connaissance et de dialogue avec les clients. Le marketing devient 

résolument conversationnel, individualisé, contextualisé, mobile, social, temps réel et omnicanal. 

Fort de plus de 30 ans d’expérience en matière de valorisation du Capital Client, Soft Computing, Entreprise de 

Services du Numérique spécialiste en CRM, Big Data et Digital, réunit près de 400 consultants, délivrant des prestations 

de Conseil, de Technologie et de Marketing Services. 

Ainsi, nous accompagnons annonceurs & organisations, désireux de mettre en place des plateformes Big Data et 

omnicanal, à relever les défis opérationnels suivants : 

Comment capter, analyser, exploiter (en temps réel ou non) l’ensemble des données off line et on line pour activer 

une animation visiteur/client rentable, engageante, cohérente sur l’ensemble des points de contacts ? 

Comment réconcilier des données de navigation & « empreintes digitales » (authentifiés ou non) et données du 

CRM tout en garantissant l’unicité, la qualité des données, ainsi que le respect des règles légales locales et/ou 

internationales ? 

Comment créer une infrastructure de données pérenne et agile, fondée à la fois sur la réalité des besoins opérationnels 

d’aujourd’hui et l’esquisse des usages de demain ? 

Comment appréhender les nouvelles technologies émanant à la fois du monde innovant Open Source, des « pureplayers 

» et des éditeurs traditionnels et solides? 

Comment préparer les organisations à la fois dans leur montée en compétence et leur transformation : Data- 

Scientism, Marketing prédictif, Agilité ? 

NOS INTERVENTIONS 

Nous menons plusieurs projets Big Data dans les secteurs de la Banque, le Retail, les Transports, l’énergie et des 

Télécoms. Notre démarche pragmatique, pour maîtriser ces enjeux, guide nos interventions autour de 5 axes : 

Cadrer : Aligner la stratégie, les besoins métiers et SI pour établir une trajectoire de mise en œuvre volontaire face 

aux enjeux de marchés hautement concurrentiels, 

Evaluer : Choisir les solutions technologiques pour répondre aux enjeux métiers & SI puis valider leurs bon fonctionnement 

et potentiel à travers des phases d’expérimentation ou Proof Of Concept, 

Décliner : Mener les chantiers par priorité pour construire une solution pérenne, orientée résultat et génératrice 

d’efficacité opérationnelle, 

Déployer : Piloter toutes les phases projet pour garantir la bonne mise en œuvre et implémentation du nouveau 

dispositif, 

Piloter : Consolider les indicateurs de performance, QOS, QOD et mesurer leurs évolutions dans le temps tout en 

mobilisant les ressources internes et externes au regard des objectifs définis. 

Nos retours d’Expériences : L’accompagnement de l’un des acteurs majeurs de l’énergie en France, dans la mise 

en œuvre d’une DMP (Data Management Platform) a fait ressortir les points clés suivants : 

DÉMARRER PETIT POUR FINIR GRAND : 

Limiter le nombre de données first party en face des millions de lignes clients permet d’intégrer progressivement 

des données complémentaires. Démarrer par des cas d’usages métiers simples et raisonnables permet de valider 

le fonctionnement de la DMP par itération avant d’investir des cas complexes à forte volumétrie 

SOIGNER LA RÉCONCILIATION DES DONNÉES WEB ET CRM : 

Réconcilier les données Web et clients suppose de porter une attention particulière sur la gestion des identifiants 

Internautes (cookies, IP, Mac…) et CRM (email, Id foyer, …). La connexion à l’espace client reste un vecteur privilégié 

et efficace pour rapprocher internaute et client (plus que le clic dans un e-mail par exemple). 

AJUSTER LE DISPOSITIF DE TRAITEMENT AU REGARD DES USAGES : 

Connaissance client, rebond entrant, campagne marketing ne nécessitent pas la même réactivité et le même type 

de réponse. Aussi il est crucial de définir les usages temps réel versus batch à J+1 pour adapter le dispositif aux 

différents besoins métiers L’accompagnement d’un leader du marché des Télécoms dans la mise en place d’un 

socle de connaissance client omnicanal (Big Data) afin de parfaire sa maîtrise des canaux (reporting & dataviz), 

l’analyse comportementale client, puis déclencher des actions personnalisées auprès des visiteurs sur des canaux 

traditionnels (point de vente, service client…) et digitaux (bannière web, selfcare…), nous amène à souligner les 

points suivants : 


113


CONCEVOIR UNE SOLUTION AGILE ET INTEROPÉRABLE 

Ne pas tenter de présumer des usages de la donnée de demain, mais plutôt imaginer le dispositif agile (architecture) 

qui permettra d’absorber rapidement une nouvelle source ou un nouveau format de donnée « sans retour 

arrière » et sans déstabiliser les chaînes d’information critique (ERP, DWH…) 

DIFFUSER EN TEMPS RÉEL LES INDICATEURS À FORTE VALEUR AJOUTÉE 

Se mettre en situation de propager des données client à forte valeur ajoutée en temps réel (tags, éléments de 

parcours ou scores) pour pouvoir demain activer la bonne action (push ou argumentaire de vente) au bon moment 

quel que soit le canal (une poste vendeur ou une bannière web) 

PENSER EXPÉRIENCE CLIENT CROSS CANAL SIMPLE ET ROI DIRECTEMENT 

Expérimenter et driver des premiers développements à partir de use cases simples, réalistes simplifiant une expérience 

cross canal et génératrice d’un ROI rapide 

Laisser place à la découverte des données 

Laisser du temps aux équipes opérationnelles pour s’approprier et « cruncher » des nouveaux univers de données 

(c’est le cas des données de navigation mobile ou selfcare) pour imaginer à la fois de nouveaux modèles statistiques 

prédictifs et de nouveaux processus client. 

En synthèse, les principes mis en œuvre dans les projets de relation clients depuis plusieurs années s’appliquent 

encore aujourd’hui dans cette nouvelle aire du « digital data driven ». Il apparait important de s’ouvrir aux nombreuses 

nouveautés qu’offrent ces perspectives tout en gardant une démarche pragmatique et orientée vers des 

résultats opérationnels tangibles et concrets. 


114


SYNCSORT - SFR 

PROJET HADOOP CHEZ SFR 

EFFICACITÉ ACCRUE GRÂCE AU PROJET HADOOP 

En tant qu’opérateur télécom majeur comptant plus de 21 millions de clients, SFR collecte quotidiennement une 

quantité énorme de données. L’objectif du projet Hadoop chez SFR était en premier lieu de réduire les coûts 

d’exploitation de ces données. Au fur et à mesure que le volume de données augmente, il est de plus en plus 

difficile et coûteux de stocker et traiter les données. En utilisant de façon optimale le cluster Hadoop et les outils 

puissants de tri et ETL de Syncsort, il est possible de limiter l’investissement dans du nouveau hardware. 

UN PROJET QUI NE SE TERMINE JAMAIS 

SFR a décidé de lancer le projet Hadoop à la fin de 2013. Dans une première phase, le choix s’est porté sur la 

distribution Hadoop Cloudera et début 2014, il a été décidé de travailler avec DMX-h de Syncsort pour loader et 

offloader des données à partir du cluster Hadoop. SFR utilisait déjà l’outil ETL DMX de Syncsort pour quatre autres 

projets, pour lesquels il avait fait ses preuves. Les très bonnes performances de DMX-h de Syncsort ont ensuite 

pu être démontrées dans le cadre du Proof of Concept pour le projet Hadoop. “Nous travaillons encore en mode 

batch,” explique François Nguyen, en charge de la division ‘Connaissance Client’ chez SFR. “ Cela implique que 

nous disposons d’une fenêtre de traitement réduite. Nos engagements précédents avec Syncsort se sont révélés 

très efficaces. Leurs capacités de tri n’ont pas d’équivalent sur le marché, et nous sommes très heureux que Syncsort 

soit l’un des véritables innovateurs sur le marché Hadoop. Leur mécanisme de tri est incorporé à la distribution 

Hadoop que nous utilisons. 

Au cours de l’été 2014, les premières sources de données ont été loadées dans le cluster Hadoop, et davantage 

de sources seront ajoutées toutes les deux ou trois semaines. “Il ne s’agit pas d’un projet avec un horizon déterminé, 

nous allons continuer à ajouter des sources de données en permanence,” explique François Nguyen. 

A l’heure actuelle, la division Connaissance Client gère une base de données très volumineuse , qui n’arrête pas 

de croître. Les données traitées dans le cadre du projet Hadoop sont principalement des données structurées mais 

on y retrouve également des données semi-structurées provenant de logs. 

EN PRIMEUR 

Le projet chez SFR est l’une des premières véritables expériences Big Data et Hadoop sur le marché français. Le 

projet permettra à SFR de réaliser des économies, grâce à la performance des solutions implementées. 

DE PREMIERS RÉSULTATS RAPIDES 

L’une des premières réussites du projet a été la capacité à concrétiser les premières étapes dans le délai imparti 

et selon le budget, ce qui est une prouesse compte tenu qu’il s’agit de l’introduction de technologies de pointe. La 

mise en route aussi rapide du projet est principalement due au fait que SFR n’a pas eu à effectuer une phase de 

tuning avant de commencer à utiliser DMX-h pour manipuler les données ni à réaliser de codage supplémentaire. 

Les résultats seront évalués en permanence au fur et à mesure que de nouvelles sources de données s’ajoutent 

au cluster Hadoop. 

L’utilisation des puissantes capacités de tri de Syncsort DMX h n’ont pas rendues nécessaires l’acquisition de 

hardware supplémentaire. 

. 

SYNCSORT - PAGESJAUNES 

SYNCSORT AIDE PAGESJAUNES À TIRER LE MEILLEUR DES BIG DATA 

PagesJaunes, filiale à 100% de Solocal Group (groupe coté sur le marché Euronext Paris), migre sur la plateforme 

Hadoop pour optimiser ses outils d’aide à la décision. L’ETL pour Hadoop de Syncsort est apparu comme la solution 

la plus fiable, tant en termes de volumétrie que de rapidité, pour répondre aux nouveaux besoins business 

dans le contexte d’une transformation numérique qui fait cas d’école aujourd’hui. 


115


PagesJaunes est le leader français de la publicité et de l’information locale sur Internet (pagesjaunes.fr, pagespro. 

com), mobile (sites et applications) et imprimé (l’annuaire PagesJaunes et l’annuaire PagesBlanches). Pages- 

Jaunes est aussi un des leaders des services de renseignements par téléphone et SMS (118008), des petites 

annonces en ligne (annoncesjaunes.fr) et est le premier créateur de site Internet en France. 

En pleine transformation numérique de ses métiers, PagesJaunes est à la recherche de solutions analytiques 

agiles qui permettent à ses équipes commerciales de prendre les bonnes décisions, rapidement. « L’entreprise 

s’est engagée dans une transformation de sa plateforme d’aide à la décision pour sortir de la Business Intelligence 

traditionnelle et tirer réellement des avantages business des Big Data. Notre ambition est de faire parler 

les données, » situe Abed Ajraou, responsable de Domaine Business Intelligence au sein de Business Solutions 

chez PagesJaunes. Il a rejoint l’entreprise il y a un an environ pour mettre en place une stratégie Big Data, dans 

le contexte d’une migration d’une infrastructure base de données IBM avec appliance Netezza vers le framework 

Hadoop. L’objectif est de faire face aux défis techniques en termes de capacité (explosion du volume des données), 

de stockage de données non structurées et de reporting en temps réel. 

SYNCSORT PIONNIER SUR LE MARCHÉ 

« ETL pour Hadoop permet d’optimiser notre informatique décisionnelle, » explique Abed Ajraou. En résumé, 

l’enjeu consiste à mettre à disposition des responsables commerciaux des capacités d’analyse granulaire, leur 

permettant d’optimiser leurs forces de vente par secteur géographique notamment. 

La solution DMX-h fournie par Syncsort est utilisée pour l’extraction, la transformation et le chargement (ETL) sur 

Hadoop, ainsi que pour des fonctions d’exportation et importation de données. « Les échos du marché étaient 

positifs quant aux performances de l’ETL Hadoop de Syncsort. Des progrès considérables ont été réalisés en 2 

ans. Nos tests et notre proof of concept ont également été concluants. Venant du monde du mainframe, le fournisseur 

jouissait déjà d’une réputation de solidité. Ce sont les premiers à fournir ce genre d’outil sur Hadoop.,» 

souligne Abed Ajraou. 

Bien que la vocation première du projet Hadoop chez PagesJaunes ne soit pas de réaliser des économies, mais 

bien d’améliorer la qualité des données et booster ainsi les performances commerciales, le coût abordable de la 

solution Syncsort est également un argument non négligeable : « la solution devrait nous permettre de faire des 

économies substantielles sur les coûts de support logiciel. Nous pourrons faire beaucoup plus avec beaucoup 

moins, » affirme Abed Ajraou. Le déploiement d’applications sur Syncsort DMX-h a démarré début 2015. Un 

premier retour d’expériences est attendu pour mars et sera d’ailleurs partagé à la conférence Big Data de Paris. 

REPORTING FINANCIER EN TEMPS RÉEL 

Une demi-douzaine d’applications web sont progressivement mises en production. Elles visent pour la plupart à 

booster les performances des équipes marketing et ventes en accélérant le reporting financier, le cas échéant sur 

un appareil mobile. Les applications sont en effet conçues selon les principes du ‘responsive design’. « Un point 

central porte sur la possibilité de rafraîchir les chiffres de ventes, toutes les 5 minutes, par produit, par segment, 

par géographie ou par agence. » 

Globalement, les enjeux de performances techniques sont davantage liés à la rapidité des temps de réponse et à 

la granularité des données analysées qu’au volume de données en tant que tel. « Nous parlons de 45 millions de 

lignes de data, ce qui n’est pas si énorme comparé à d’autres implémentations sur Hadoop. La plateforme nous 

permet à l’avenir de gérer de gros volumes de données pouvant atteindre entre 15 et 20 To de données, » poursuit 

Abeb Ajraou. Ce projet Big Data sur Hadoop est emblématique d’une stratégie d’entreprise qui met l’informatique 

au service du business, n’hésitant pas le cas échéant à anticiper les besoins des équipes commerciales et à 

leurs donner des instruments de proactivité. « Ce n’est pas pour rien qu’au sein de PagesJaunes, le département 

‘systèmes d’information » a été rebaptisé ‘Business Solutions’, avec une mission qui va bien au-delà d’un simple 

support opérationnel. Ce type de projet contribue à renforcer la valeur ajoutée de l’informatique auprès de la direction 

générale,» souligne Abed Ajraou. 

SYNCSORT - TÉLÉCOMS, MÉDIAS, ENTERTAINMENT 

COMMENT LIBÉRER LES CAPACITÉS DES BASES DE DONNÉES ET 

RÉDUIRE LES COÛTS AVEC HADOOP 

Profil de l’entreprise : Grand groupe de télécoms, médias et home entertainment. 

PROBLÉMATIQUE 

Acteur majeur du home entertainment, cette entreprise génère et collecte des volumes de données parmi les plus 

importants du marché. Pour cela, elle exploite un data warehouse Netezza de plusieurs pétaoctets dont le volume 

suit chaque année une croissance à deux chiffres. Comptes clients, communications, programmes de fidélisation, 

paramètres de confidentialité, mesures d’audimat… ce data warehouse sous-tend les applications critiques de 

toute l’entreprise. 


116


Au départ, l’entreprise avait choisi d’associer Informatica à du codage SQL manuel pour effectuer ses traitements 

ELT lourds dans la base de données Netezza, y compris des operations courantes comme le tri, l’agrégation et 

la CDC (Change Data Capture). Or, cette approche extrêmement gourmande en capacités Netezza s’est très tôt 

révélée ingérable car très coûteuse en mises à niveau des matériels, logiciels et bases de données. Côté ressources, 

la pression était également énorme car les développeurs ETL devaient consacrer un temps précieux à 

optimiser et maintenir des centaines de lignes de code SQL, ne laissant que très peu de marge à la gestion des 

nouveaux besoins métiers. 

SOLUTION 

Face à la hausse des coûts de ses logiciels de bases de données et ETL, l’entreprise décida de stopper tout investissement 

dans sa plate-forme ETL existante — devenue ni plus ni moins qu’un planificateur de tâches onéreux 

— et d’offloader plus de 500 opérations ELT vers Netezza. 

Pour mettre la solution en place, elle s’est tournée vers Syncsort. Rapide et sécurisé, le logiciel d’entreprise Syncsort 

DMX-h permet aux entreprises de développer des flux de données sophistiqués dans Hadoop, sans aucune 

écriture ni optimisation de code. Syncsort DMX-h s’exécute nativement sur YARN. Contrairement à d’autres solutions, 

ce logiciel ne génère aucun code Java, Pig ou HiveQL et ne nécessite aucune compilation, optimisation ou 

maintenance de code. 

Une fois les objectifs et le cahier des charges connus, Syncsort a proposé à son client une solution d’offload de 

son data warehouse. 

L’une des principales vocations d’Hadoop consiste à prendre le relais de systèmes anciens et coûteux pour le 

stockage et le traitement de données. Or, sans les outils appropriés, l’identification, l’accès et le transfert des 

données vers Hadoop peuvent rapidement se révéler complexes. C’est pourquoi Syncsort offre des outils ciblés 

permettant d’offloader rapidement et efficacement les traitements batch et ELT des data warehouses vers Hadoop. 

Pour l’entreprise, l’adoption d’une solution d’offload Syncsort-Hadoop représentait le meilleur moyen de réduire 

ses coûts et de préparer son infrastructure de gestion des données aux futures initiatives métiers. Ainsi, outre la 

forte preference du client pour l’open source pure, le partenariat étroit entre Syncsort et Hortonworks a favorisé sa 

décision en faveur d’Hortonworks Data Platform comme plate-forme Big Data pour son projet d’offload. 

RÉSULTATS 

En offloadant le data warehouse, la solution Syncsort-Hortonworks est appelée à générer plusieurs millions de 

dollars d’économies sur différents facteurs de coûts dans les années à venir : 

• ’’Matériels et logiciels de bases de données 

• ’’Licences logicielles ETL 

• ’’Maintenance et optimisation des codes SQL 

La pénurie de développeurs Hadoop compétents en Pig, Hive et MapReduce constituait l’un des principaux obstacles 

à l’adoption d’Hadoop dans l’entreprise. Grâce à son interface graphique, Syncsort DMX-h a permis aux 

développeurs d’exploiter leurs compétences ETL existantes pour créer des flux et traitements de données sophistiqués, 

sans aucun codage manuel. Par exemple, il n’a fallu qu’une semaine à un développeur pour transférer une 

opération ELT de 340 lignes SQL vers DMX-h. Cette même opération lui aurait pris entre trois et quatre semaines 

de codage. 

La connectivité complète de DMX-h à Hadoop permet aux équipes informatiques d’extraire et de charger nativement 

les données depuis la plate-forme HDP ou d’exécuter une opération « hors cluster » sur un serveur ETL. 

Par ailleurs, l’intégration étroite de DMX-h à Apache Ambari, au JobTracker d’Hadoop et aux protocoles standards 

de sécurité comme LDAP et Kerberos leur permet de déployer, maintenir, monitorer et sécuriser leur nouvel environnement 

HDP en toute simplicité. 

Enfin, cette nouvelle architecture offre une plate-forme plus flexible, scalable et économique pour le déploiement 

de nouvelles initiatives métiers : collecte et analyse d’un plus grand nombre de données issues des box TV-Internet, 

augmentation des mesures d’audimat et assimilation des données d’activité des internautes. 

L’ENTREPRISE SYNCSORT 

Syncsort propose des logiciels d’entreprise sûrs et performants. Solutions Big Data dans Hadoop ou applications 

Big Iron sur mainframes : quels que soient les enjeux de nos clients, nous intervenons dans le monde entier pour 

accélérer la collecte, le traitement et la diffusion de leurs données, tout en réduisant les coûts et les ressources 

engagés. C’est pourquoi la majorité des entreprises du Fortune 100 font confiance à Syncsort. Utilisés dans plus 

de 85 pays, nos produits vous permettent de réaffecter vos charges coûteuses et inefficaces, d’accélérer les traitements 

dans votre data warehouse et sur votre mainframe, et d’optimiser l’intégration de vos données au Cloud. 

Pour en savoir plus, rendez-vous sur www.syncsort.fr 


117


TABLEAU SOFTWARE - BNP PARIBAS 

LA CONCEPTION DE L’AVENIR DE L’UNE DES PRINCIPALES SOCIÉTÉS DE 

SERVICES FINANCIERS D’EUROPE 

o Partner : BNP Paribas 

o Contact person : Pierre Thebault (BNP Paribas) and Edouard Beaucourt (Tableau Software) 

OBJECTIFS 

Innover pour développer des parts de marché, remporter de nouveaux clients et augmenter la part du portefeuille 

de clients existants. 

PRÉSENTATION: 

Le géant bancaire français a misé sur Tableau pour recueillir et analyser ses données en seulement quelques minutes. 

La division BNP Paribas du Sud-Ouest de la France dispose maintenant de la capacité de visualiser les tendances 

de géocodage utilisées dans le cadre des campagnes commerciales et marketing de la banque. Et l’aperçu 

partagé et détaillé de la performance de 2 000 agences à travers la F contribue à renforcer la compétitivité. 

ASPECTS INNOVANTS 

Pierre Thebault, géoanalyste, est chargé d’analyser et d’identifier les tendances de géocodage au sein d’une région. 

Grâce à Tableau, il traque les opportunités de prospecter de nouveaux clients et de développer de nouvelles 

campagnes marketing extrêmement ciblées : « Tableau est le moyen le plus rapide de passer des données aux 

décisions ». Il est à même de localiser et de visualiser le nombre de prospects dans la région de Toulouse, et de 

les segmenter par revenus, par risques et selon les services financiers de BNP Paribas dont ils disposent déjà. 

S’ils ont souscrit un prêt immobilier, ils constituent un candidat potentiel pour la souscription d’une assurance habitation 

ou d’une carte de crédit. Tableau permet de visualiser l’ensemble des données en quelques secondes, ce 

qui permet son équipe de transmettre ce public cible segmenté aux équipes commerciales internes de la banque 

pour un suivi immédiat. 

BNP Paribas recherche constamment des manières de différencier ses services en offrant une expérience plus 

localisée. Tableau permet à la banque d’étudier la localisation des distributeurs automatiques de billets des concurrents 

et d’identifier les sites potentiels pour de nouveaux distributeurs : « Comparer la localisation de nos clients 

avec la disponibilité du réseau existant de distributeurs automatiques de billets nous permet de cibler de nouveaux 

emplacements de distributeurs », déclare Pierre Thebault. 

Malgré l’expansion des services bancaires en ligne, les français restent attaches aux agences physiques. Tableau 

représente la source primaire pour les rapports sur la performance des 2 000 agences BNP Paribas française. 

Directeurs et responsables partagent un aperçu détaillé de la performance de chacune des agences : chiffre 

d’affaires, rentabilité, personnel, adoption des services bancaires en ligne de la part des clients, etc. « L’accès 

rapide à des données fiables, grâce à Tableau, se traduit par une prise de décision vive et fiable concernant les 

agences », affirme Pierre Thebault. Il poursuit, « Avant Tableau, nous utilisions des feuilles de calcul et une base 

de données Access. Cela nous prenait des heures, des semaines, voire des mois, pour trouver les données 

correctes et les réponses dont nous avions besoin. Désormais, grâce à Tableau, l’intégration homogène et la 

simplicité d’utilisation signifient que nous obtenons les réponses en quelques minutes. Cela rend-il la banque plus 

perspicace ? Oui, sans l’ombre d’un doute. » 

PROCHAINES ÉTAPES 

La majeure partie de l’inspiration pour ce programme couronné de succès appartient à Mydral, le partenaire 

d’exécution de BNP Paribas. La vision, la perspicacité et l’expérience de l’équipe de Mydral ont contribué au 

lancement de Tableau en quelques jours. Mydral a également fourni à BNP Paribas trois jours de formation et de 

transfert des connaissances afin de garantir que l’équipe soit opérationnelle presque immédiatement. 

Ce projet attire désormais l’attention d’autres services de la banque. BNP Paribas déploie actuellement Tableau 

sur les sites régionaux de Paris et Nantes dans le cadre d’un projet de segmentation de la clientèle. Ces données 

sont utilisées pour comprendre les tendances, concevoir de nouvelles campagnes, et maximiser la valeur de BNP 

Paribas tirée des données marketing. 


118


TABLEAU SOFTWARE - CROIX ROUGE 

TABLEAU SOFTWARE AMÉLIORE L’ANALYSE TRANSVERSE ET VISUELLE 

DES INDICATEURS DE LA CROIX ROUGE FRANÇAISE. 

o Partner : Croix Rouge française 

o Contact person : Marie-Ange Tnani (Croix Rouge française) et Edouard Beaucourt (Tableau Software) 

OBJECTIFS : 

La Croix-Rouge française faisait face à un cloisonnement des systèmes d’information, sans vision transversale, 

avec une remontée d’informations irrégulières. L’association souhaitait mettre en place un système d’information 

décisionnel transverse s’appuiant sur une plateforme complète: un outil d’ETL, une base de données et un outil 

de tableaux de bord. 


Association à but non lucratif, la Croix-Rouge française dispense ses services dans les domaines sanitaire, social, 

médico-social, de la formation, et de l’action humanitaire. Près de 54000 bénévoles renforcent les 18112 salariés 

qui sont répartis dans plus de 570 établissements. Au cœur de l’association, les systèmes d’information (SI) 

ont pris une place prépondérante, accompagnant le développement et les besoins des différents métiers de la 

Croix-Rouge française. Quarante-trois personnes travaillent à la Direction des Systèmes d’Information, auxquelles 

s’ajoutent 7 responsables informatiques régionaux. Le budget de la Direction des Systèmes d’Information dépasse 

8 millions d’euros. 

«Les années 2000 ont vu le développement des systèmes d’information dans l’optique d’un meilleur pilotage 

de l’ensemble de l’association» explique Laurent Monnet, Directeur des Systèmes d’Information de la Croix- 

Rouge française, «en suivant une logique d’harmonisation de nos solutions, de rationalisation de nos ressources». 

L’ambition affichée de la Direction des Systèmes d’Information est d’optimiser le pilotage de l’activité de 

l’association. 

« Lors de la construction des SI, nous étions focalisés sur le développement de la partie support et transactionnelle. 

Désormais, l’attente des utilisateurs est forte pour des outils de pilotage. Le moment était venu de réfléchir à 

une architecture décisionnelle» développe Laurent Monnet. La Croix-Rouge française faisait face à un cloisonnement 

des systèmes d’information, sans vision transversale, avec une remontée d’informations irrégulières. 

«Nous souhaitions en complément de notre outil de reporting un outil convivial, intuitif pour les utilisateurs, qui 

permette des représentations graphiques dynamiques, des résultats en temps réel» précise Marie-Ange Tnani, 

Pôle Applications et Développement et Chef de Projet Système d’Information Décisionnel. Aidée par Altic, intégrateur 

de solutions Open Source pour le Décisionnel, le traitement des flux de données et les outils collaboratifs, la 

Direction des Systèmes d’Information a fait le choix de Tableau Software. 

«Spécialiste dans son domaine, Altic a su comprendre nos besoins, dans une vraie logique d’accompagnement, 

en nous orientant vers une architecture complète, performante et évolutive » se satisfait Marie-Ange Tnani, « La 


119


nécessité était forte d’un outil qui permette une grande autonomie des utilisateurs, donc avec une ergonomie 

soignée, une grande facilité d’usage.» Les premiers résultats probants n’ont pas tardés. En l’espace de 2 mois et 

demi, un datawarehouse complet a été construit sur les EHPAD (Établissements d’Hébergement pour Personnes 

Âgées Dépendantes). Cet entrepôt de données comprend 43 indicateurs et 6 sources de données différentes 

(comptabilité, ressources humaines, budget, métier, trésorerie, organisation). 

ASPECTS INNOVANTS: 

« En 3 semaines, avec Tableau, la Croix-Rouge française disposait de son premier tableau de bord. Par expérience, 

il aurait fallu 6 mois pour un tel résultat » insiste Marc Sallières, fondateur d’Altic. Tableau joue un rôle 

majeur d’accélérateur et catalyseur en étant un outil de data visualisation majeur dans une chaine de Business 

Intelligence, qui apporte agilité, souplesse et rapidité dans la restitution de l’information. 

« Tableau nous a permis de donner aux managers des indicateurs pour piloter leur organisation. Les utilisateurs 

découvrent et s’approprient les données » détaille Marie-Ange Tnani. 

« Les résultats tangibles sont immédiats : en cassant les silos, on crée un langage commun autour de la donnée. 

Les utilisateurs se retrouvent autour de définitions. Cela créé un cercle vertueux d’amélioration continue de la 

qualité des données, en mettant en relief les incohérences existantes.» 

Tableau Software offre une représentation géographique 

PROCHAINES ÉTAPES: 

Les premières restitutions graphiques ont conforté la Direction des Systèmes d’Information dans son choix. « Tableau 

offre une vue transverse qui intègre des indicateurs de différentes sources, avec une représentation géographique 

de certains de ces indicateurs » souligne ainsi Marie-Ange Tnani. A terme, la Direction des Systèmes d’Information 

de la Croix-Rouge française vise la fourniture de tableaux de bord pour ses 570 établissements, consultables via le 

reader de Tableau. « Le cout global de la solution, maitrisée, nous autorise cette ambition » conclut Laurent Monnet. 

TABLEAU SOFTWARE - ISCOOL 

EN CINQ ANS, ISCOOL A QUADRUPLÉ SES REVENUS 

GRÂCE À TABLEAU SOFTWARE 

o Partner : IsCool 

o Contact person : Gaëlle Periat (IsCool) et Edouard Beaucourt (Tableau Software) 


Des revenus issus du jeu qui ont quadruplé en cinq ans. Plusieurs teraoctets de Big Data concernant les joueurs ont 

été exploités, afin de permettre une prise de décision agile et efficace. « Des analyses visuelles ont été réalisées 

en quelques minutes, contrairement aux semaines d’attente qui étaient parfois nécessaires avec une précédente 

solution d’informatique décisionnelle. Il ne s’agit que de quelques uns des principaux aspects de l’utilisation que 


120


fait IsCool de la solution d’analyse par virtualisation en temps réel de Tableau Software. En comprenant mieux les 

préférences, les comportements et les besoins des joueurs, cette importante société de jeu européenne fait croître 

en taille et en nombre ses communautés mondiales de joueurs, pour un coût de possession remarquablement bas. 

UN CHEF DE FILE DU MARCHÉ EUROPÉEN DU JEU EN LIGNE 

Chef de file européen dans le secteur du jeu en ligne, IsCool Entertainment réunit 2,8 millions d’utilisateurs sur 

Facebook et d’autres médias, au sein de jeux interactifs comme IsCool, Star Connect et Temple Of Mahjong. L’un 

des catalyseurs du succès de cette société est son utilisation extrêmement précise des outils d’informatique décisionnelle, 

c’est-à-dire une approche rigoureuse de l’analyse des profils des clients, de l’adoption par les utilisateurs 

et des modes de jeu. 

Trois ans auparavant, alors qu’IsCool disposait d’une base de 400 000 utilisateurs et annonçait des bénéfices 

de 3 millions de dollars, cette société parisienne se basait sur une approche simple de l’intégration des données 

et de l’informatique décisionnelle pour guider ses choix. Celle-ci était composée d’outils d’intégration open 

source et d’une solution logicielle commerciale de visualisation décisionnelle. Cependant, les 18 millions d’actions 

aujourd’hui générées quotidiennement par les utilisateurs ainsi que des revenus quadruplés par rapport à 2009 

imposent à cette société de s’axer sur une analyse agile des Big Data. 

« Les données de jeu croissent exponentiellement et évoluent en temps réel », explique Gaëlle Periat, analyste 

numérique chez IsCool. « Nous collectons des données issues des journaux des applications, des publications 

Facebook et des repères analytiques. Il est impératif que ces données soient fournies sans délai aux décideurs 

commerciaux afin qu›ils puissent, en temps opportun, proposer de nouvelles offres aux joueurs, prendre des décisions 

en matière de développement des jeux et conférer aux campagnes publicitaires un impact maximal. » 

IsCool avait également besoin d’une approche flexible concernant la visualisation et la présentation des données. 

Les concepteurs de jeux, par exemple, souhaitaient bénéficier de graphiques visuels et intuitifs, afin de pouvoir 

ajouter de nouvelles fonctionnalités à leurs réalisations actuelles les plus populaires. Les développeurs préféraient 

consulter des rapports générés à partir des fichiers journaux techniques. Les cadres supérieurs d’IsCool nécessitaient 

quant à eux une vision instantanée des prévisions de revenus, des pipelines et des dépenses publicitaires. 

DES RAPPORTS QLIKVIEW PÉRIMÉS DÈS LEUR CRÉATION 

Encore récemment, IsCool était équipée d’un outil QlikView. Selon Gaëlle Periat, la nature fermée de cette technologie 

impliquait la présence permanente d’un analyste qui devait participer à l’intégration des données. « Chaque 

fois qu’un cadre supérieur exigeait un rapport, nous devions mettre en place certains scripts, ce qui retardait inévitablement 

la fourniture des résultats », explique-t-elle. 

Afin de pallier à cette situation, IsCool a adopté en standard une solution d’analyse visuelle en temps réel proposée 

par Tableau. À la pointe de sa catégorie, cette solution d’informatique décisionnelle efficace, rentable et collaborative 

est utilisée par 20 équipes au sein de la société, afin de permettre des prises de décisions ponctuelles 

et fiables. IsCool peut connaître instantanément le nombre d’utilisateurs de ses jeux (trafic), les fonctionnalités 

les plus couramment utilisées, la durée des sessions de jeu, les téléchargements les plus populaires, et bien plus 

encore. 

UNE AUGMENTATION DE 23 % DE L’INTERACTION AVEC LES JOUEURS 

En exploitant les Big Data, l’équipe peut également étudier la corrélation entre la taille d’une communauté de 

joueurs et son niveau d’interaction. Une fois l’une de ces communautés identifiée (qu’il s’agisse d’un simple 

binôme de joueurs ou d’un regroupement de moyenne ou grande envergure), l’équipe peut interagir avec elle de 

façon plus efficace, la fidéliser et la faire croître de façon spectaculaire. 

Des jeux spécifiques passent eux aussi sous le microscope que constitue la génération de rapports. Tableau 

permet de répondre à des questions telles que : « Un jeu est-il trop riche en fonctionnalités ? », « Quelles sont 

les fonctionnalités utilisées par telle catégorie de joueurs ? », et « Comment optimiser l’accès aux fonctionnalités 

? » De plus, IsCool peut désormais établir de façon fiable et rapide les différentes catégories d’utilisateurs, 

caractérisées par leur profil d’interaction et leur utilisation des fonctionnalités. Cette meilleure compréhension de 

l’interaction des utilisateurs avec les jeux IsCool a mené à une augmentation incrémentielle de 23 % de celle-ci, 

pour certaines catégories d’utilisateurs ciblés. 

Dans le même temps, les cadres autorisés d’IsCool reçoivent un rapport quotidien et essentiel de veille commerciale, 

qui comprend les revenus générés la veille classés par catégories, le nombre d’utilisateurs simultanés du 

jour et le nombre de joueurs actifs. « Alors qu’il nous fallait jusqu’à une semaine pour préparer nos rapports dans 

QlikView, nous pouvons maintenant élaborer et partager de nouvelles idées en quelques minutes avec Tableau. » 

PRODUCTIFS EN QUELQUES MINUTES AVEC TABLEAU 

Gaëlle Periat a été convaincue dès le début. « Lorsque j’ai intégré l’équipe d’IsCool, celle-ci m’avait dit : voici 

Tableau, il sera ton meilleur ami. Sur le coup, je n’avais pas pris cette déclaration au sérieux. Mais en quelques 

minutes, j’étais productive. Je pouvais développer de nouveaux rapports en temps réel et mettre en évidence des 

résultats concernant l’expérience de jeu. Je n’aurais jamais pu faire cela auparavant. » 

En transformant IsCool en une organisation de jeu agile et axée sur les données, Tableau a aidé cette société à 

quadrupler ses revenus en cinq ans. « Tableau a permis à IsCool de prendre le contrôle des Big Data et a rendu 

notre processus de prise de décision plus rapide, plus simple et plus efficace. Je doute qu’IsCool aurait pu passer 

de 3 millions de dollars de revenus en 2009 à 13,2 millions de dollars aujourd’hui, sans la visualisation interactive 

des données que nous procure Tableau », ajoute Gaëlle Periat. 

Une autre composante essentielle de ce succès a été l’innovante base de données analytique Actian Vectorwise. 

En remplaçant une plate-forme open source, Vectorwise fournit à IsCool des performances ultra rapides et 

rentables en matière de bases de données et d’informatique décisionnelle. Installée sur des serveurs virtuels pour 

un traitement extrêmement efficace des Big Data, cette solution stocke jusqu’à un teraoctet de données de jeu. 

Vectorwise permet à Gaëlle Periat et ses collaborateurs d’analyser un volume de données plus grand que jamais, 


121


pour une fraction du coût du traitement classique de celles-ci. Elle précise : « En utilisant Vectorwise, IsCool peut 

traiter et exploiter d’énormes quantités de Big Data sur des machines bien plus faiblement dimensionnées. Cette 

rationnalisation permet à notre société d’économiser chaque année plus de 10 000 dollars de matériel. Pour une 

petite entreprise dynamique comme IsCool, il s’agit d’une économie significative. 

Pour Gaëlle Periat, il n’existe qu’une seule façon de résumer la valeur de Tableau. « Chez IsCool, nous pensons 

que Tableau est très cool », conclut-elle. 

TABLEAU SOFTWARE - NOKIA 

L’EXPÉRIENCE UTILISATEUR À LA VITESSE DE LA PENSÉE : NOKIA 

o Partner : Nokia 

o Contact person : Ravi Bandaru (Nokia) et Edouard Beaucourt (Tableau Software) 


L’auteur Robin Bloor est analyste principal chez Bloor Group, une société d’analyse en conseil, recherche et 

technologie ciblant la recherche libre et l’utilisation des médias modernes pour regrouper des informations et 

les redistribuer aux utilisateurs. Pour plus d’informations, consultez les sites www.TheBloorGroup.com et www. 

TheVirtualCircle.com. 

Cet entretien de Bloor Group s’inscrit dans le cadre d’un projet de recherche. 

RÉSUMÉ 

Avant Tableau, Nokia confiait ses rapports et ses analyses de données à des intermédiaires informatiques. Désormais, 

ce sont les utilisateurs qui tiennent les rênes. « L’analyste réalise à présent l’analyse lui-même dans une plus 

grande mesure, sans que le service informatique n’intervienne entre lui et les données. » 

Ravi Bandaru, responsable produit pour la visualisation et l’analyse des données chez Nokia, utilise Tableau depuis 

juillet 2010. Il affirme qu’au sein de cette société, 350 à 400 personnes utilisent Tableau (sous forme bureautique 

ou interactive). Une véritable communauté s’est ainsi formée. 

«Avant, les utilisateurs étaient effrayés à l’idée d’utiliser les outils de solution décisionnelle existants. Ils se reposaient 

alors sur des intermédiaires, comme le personnel informatique, pour s’occuper de leurs données», déclare-t-il. 

L’ANALYSE INTERNE DE LA MÉMOIRE ACCÉLÈRE L’ANALYSE ET REND 

L’EXPLORATION POSSIBLE 

Selon lui, les capacités de mémoire interne de Tableau offrent deux avantages : une interface personnalisable et 

une augmentation de la vitesse des performances des requêtes. 

«L’analyste réalise à présent l’analyse lui-même dans une plus grande mesure, sans que le service informatique 

n’intervienne entre lui et les données», déclare-t-il. «Ces capacités de mémoire interne me permettent d’explorer 

des ensembles de données plus complexes et plus vastes, qui m’étaient auparavant inaccessibles.» 

Nokia utilise Tableau dans le cadre d’analyses marketing et l’a installé sur sa propre base de données. Bandaru 

déclare que les requêtes en direct normalement exécutées dans leur base de données ne donnent pas les temps 

de réponse escomptés, à la différence de celles exécutées dans le moteur de données Tableau, qui apportent une 

réponse instantanée à partir de laquelle il peut travailler. Il ajoute que Tableau est utile dans le cadre des analyses 

ad hoc et que la plupart des analystes actualisent leurs données de façon hebdomadaire. 

Bandaru poursuit en disant qu’il lui arrive de recommander Tableau à certains types d’utilisateurs. Parfois, ce sont 

les utilisateurs eux-mêmes qui viennent à lui pour pouvoir l’utiliser. Toutefois, l’utilisateur final standard auquel il est 

confronté n’est pas intéressé par les analyses, les statistiques ou le langage SQL. 

UTILE POUR TOUS LES UTILISATEURS 

Bandaru déclare : «Si l’utilisateur final est passionné de données ou d’analyses, il adorera utiliser Tableau car ce 

logiciel lui permet d’accéder désormais à de nombreuses sources de données.» Un utilisateur moins expérimenté 

peut l’utiliser simplement comme outil de solution décisionnelle. Il revient ensuite à la direction de proposer des 

formations et d’expliquer que «cet outil permet de générer des travaux complexes, impossibles à réaliser avec 

d’autres outils.» 

Nokia utilise actuellement Tableau Version 6/6.1. Bandaru explique qu’il attend des 

améliorations dans la version 7.0, telles que le partage d’extraits dans les classeurs, permettant ainsi à un extrait 

de faire office de source de données, ou encore le partage d’extraits entre plusieurs utilisateurs du monde entier. 


122


Il déclare que ce type de collaboration rationalisée serait particulièrement utile pour un nouvel employé non familiarisé 

avec le fonctionnement de l’entreprise. De nos jours, affirme-t-il, nous devons encore accéder à la source de 

données d’origine. Mais il serait bénéfique à l’avenir que ce même employé soit capable d’extraire et d’utiliser les 

données créées par n’importe quel service, et ce n’importe où. 

Bandaru essaie de faire en sorte que le produit soit adopté dans une plus grande mesure en proposant des outils 

de collaboration internes, tels que des wikis, des sessions des formations, des documents et des meilleures pratiques. 

LA DIFFÉRENCE QUI FAIT LA DIFFÉRENCE 

Comme l’illustre cette expérience utilisateur de Tableau version 6, Tableau passe du statut d’outil décisionnel dans 

le sens traditionnel du terme à un statut de plate-forme décisionnelle capable de prendre en charge une grande 

partie des besoins de solution décisionnelle d’une entreprise. D’un point de vue technique, la différence se situe au 

niveau de l’architecture. La connexion directe tire profit de sources de données existantes très performantes. De 

plus, le moteur de données de mémoire interne génère d’innombrables possibilités. Grâce aux fonctions de mise 

en mémoire cache et de traitement, les ensembles de données ne doivent pas être nécessairement chargés en 

totalité dans la mémoire pour que l’analyse puisse débuter. 

Mais il est probable que l’utilisateur ne le sache pas ou ne s’en soucie guère. Seules la vitesse et la portée sont 

importantes à leurs yeux. L’analyse peut s’effectuer à la vitesse de la pensée. Il est ainsi possible d’exploiter davantage 

de données sur un matériel plus restreint. On peut parler de véritable analyse ad hoc lorsque l’utilisateur 

n’est pas obligé de déterminer à l’avance les mesures à agréger ou à interroger. L’utilisateur peut explorer les 

données sous toutes ses formes, y entrer dans le détail ou les résumer en catégories. Quasiment tous les types 

de visualisation de données sont regroupés dans cette solution, et capables de traiter des ensembles de données 

volumineux à la vitesse de la pensée. 

TABLEAU SOFTWARE - PHARMASECURE 

PHARMASECURE ENHANCES ITS CUSTOMER VALUE 

PROPOSITION WITH TABLEAU 

o Partner : PharmaSecure 

o Contact person : Abhijit Acharya (PharmaSecure) et Edouard Beaucourt (Tableau Software) 


PharmaSecure, a technology provider for the healthcare industry, recognised that the company’s success was 

underpinned by its ability to understand patient data, derive critical insight and share it with customers regularly. 

Today, Tableau is helping PharmaSecure adopt an insight-driven customer service strategy that has helped the 

company: 

• Cut reporting time by weeks 

• Instill a culture of data-driven decision making in the organisation 

• Add value to stakeholder ecosystem—helping customers understand patient consumption behaviour and enabling 

patients to better depend on medicine 

CREATING A DATA-CENTRIC VALUE SYSTEM FOR CUSTOMERS 

PharmaSecure is a US-based software and technology company working towards improving global public health. 

Its offerings encapsulate a range of solutions that work towards eliminating counterfeit drugs, connecting patients 

with safe medicines, and impacting patient adherence. 

The company works with pharmaceutical companies to print unique, randomly generated codes on medicine packages. 

These identification codes serve two purposes: First, they allow manufacturers to track each strip or blister 

pack and shipping carton they produce. Second, patients can verify the authenticity of their medicine through SMS, 

mobile app or by feeding it on the company website. 

As part of this verification process, PharmaSecure enables access to a mobile health platform, allowing users 

to opt in to customized mobile heath programs. These programs have applications such as reminders to refill 

medicines, dosage checks, providing health tips etc. By creating this valuable ecosystem, PharmaSecure acts a 

facilitating link adding immense value to healthcare users and drug manufacturers. 


123


RECOGNIZING AN OPPORTUNITY 

With the industry-wide transformation in the way healthcare is obtained, delivered and paid for, pharmaceutical 

companies are scouting for tools that can help them decode patients’ behaviour and consumption patterns. 

In the context of this trend, PharmaSecure wanted to gain insights from its growing data repository to help strengthen 

their partnerships with pharmaceutical customers while helping patients manage their diseases better. 

“Data is at the corner stone of our business and we needed to make that our differentiating element. As a company, 

our data volumes, client portfolio and maturity had undergone an evolutionary curve and it was time for us to use 

an effective solution that could generate definable, powerful and intuitive analytics,” says Samit YADAV, Senior 

Director, Technology and Operations, PharmaSecure. 

At first, the team analysed its data through a cumbersome and inefficient process. Team members would dedicate 

time every week to extracting information from different sources, populating Excel sheets with the data and finally, 

deriving graphs to visually represent the findings. To address this challenge, the company wanted an analysis solution 

that would offer a faster, interactive experience. 

USING THE POWER OF SIMPLICITY FOR POWERFUL ANALYTICS 

After a careful evaluation of the players in the visual analytics marketscape, in 2013 PharmaSecure chose Tableau 

software due to its polished and comprehensive offering. 

Today Tableau software is used by most members of PharmaSecure’s Operations team. Typically, PharmaSecure’s 

MySQL and Excel data sources generate transactional databases of 200-500 rows a day, slated to reach 

1000-2000 rows over the next six months. 

Throughout the span of 18 months that the company has used Tableau, they are gaining value by drawing insights 

from an ever increasing quantum of data. Today all internal reports are generated on Tableau with insights extracted 

from data every week and every month. This move to a prescriptive style of analytics triggers faster decision 

making for the company. 

BELIEVING IN DATA ANALYTICS AND ITS INFLUENCE 

Using Tableau, the company has been able to maximise the value from their growing data without having to invest 

any additional resources. 

“Tableau’s power lies in its simplicity and intuitiveness. Putting Tableau over our data integration layer, has given 

us substantially greater insight across the business operations- supply chain, time to market, program enrollment, 

distribution, sales force effectiveness among other aspects,” Abhijit elaborates. 

Going forward, PharmaSecure will also start Tableau deployment with its customers whereby they will be able to 

not only access but build Tableau data charts on their own. 

“The biggest highlight of using Tableau has been that our entire team now truly believes in the power of insightful 

data. Thanks to Tableau, we as an organisation have become a lot more excited about using data in impactful and 

interesting ways for our customers.” 

TABLEAU SOFTWARE - SKYROCK 

SKYROCK.COM S’OFFRE UN OUTIL DÉCISIONNEL 

RAPIDE ET FACILE À UTILISER 

o Partner : Skyrock.com 

o Contact person : Loïc Cadiot, chef de projet chez Skyrock et Edouard Beaucourt (Tableau Software) 

OBJECTIFS: 

Uniformiser les outils décisionnels. En effet, jusqu’à récemment, la réponse de Skyrock consistait à autoriser 

chaque service à utiliser son propre outil décisionnel, au détriment de l’efficacité, de la productivité et de la convivialité. 

Par exemple, les utilisateurs Marketing pour la partie « éditeur » (construisent le site) utilisaient un système, 

tandis que ceux de la régie publicitaire (monétisent le site), en utilisaient un autre pour présenter les impressions 

de page, les visiteurs uniques, le CA généré… etc. Skyrock s’est rendu compte que le choix d’une solution décisionnelle 

standardisée, unique et ultraperformante transformait la capacité de ses utilisateurs à analyser et comprendre 

les données. Cela s’explique par le fait que naturellement, on voit et on comprend plus efficacement les 

données avec des visualisations interactives. Au final, le nouveau système de Skyrock a apporté des réponses aux 

questions, permettant ainsi de faire progresser les audiences web et les revenus publicitaires. 

PRÉSENTATION : 

Skyrock.com est le premier réseau social de blogs français et européen, avec plus de 34 millions de blogs dans 

le monde. « Skyrock doit analyser de grandes quantités de données, et Tableau est une solution ultraperformante 


124


qui facilite grandement le reporting. La production de rapports devient plus ludique et efficace », explique Loïc 

Cadiot, chef de projet chez Skyrock. « Étant donné que nous gagnons du temps sur la collecte et la présentation 

des données, nous pouvons consacrer plus de temps à l’essentiel : l’analyse des données et la prise de décisions 

qui favorisent la progression des audiences et les revenus publicitaires. » 

Le problème : des systèmes informatiques hétérogènes. Comment bénéficier d’un outil décisionnel (business 

intelligence) ultrarapide et facile à utiliser, portant sur les usages des utilisateurs sur les blogs et l’efficacité des 

campagnes publicitaires ? 

ASPECTS INNOVANTS 

Les solutions faciles à utiliser font gagner du temps et améliorent l’analyse. Skyrock utilise une version complète 

de la technologie Tableau afin d’analyser rapidement les usages web et les revenus publicitaires générés par ses 

annonceurs. Les salariés se sont servis de Tableau pour créer des tableaux de bord intuitifs, publier les données 

dans un navigateur et les incorporer dans des e-mails afin qu’elles puissent être partagées par les autres utilisateurs 

de la société. La majorité des employés accède à Tableau à partir d’un navigateur et est capable d’obtenir 

les réponses à ses questions en quelques clics. 

L’un des facteurs clés de la réussite de Tableau est son extrême rapidité et sa facilité d’utilisation. Le déploiement 

de Tableau au sein de Skyrock a été géré en interne, sans soutien d’experts en technologie de l’information, et 

aucune formation formelle n’a été nécessaire. Le personnel s’est formé principalement à l’aide de courtes vidéos 

en ligne. Et les résultats parlent d’eux-mêmes : les rapports sur l’étude des usages web, qui autrefois nécessitaient 

une demi-journée, sont désormais créés en moins de 30 minutes. Par ailleurs, Tableau permet également la 

production de rapports sous différents systèmes d’exploitations, réconciliant les plateformes Windows et Mac – un 

problème auquel la société avait déjà été confrontée auparavant. 


125


TALEND - LENOVO 

LENOVO SÉLECTIONNE TALEND BIG DATA INTEGRATION POUR 

AMÉLIORER ET ACCÉLÉRER SES PRISES DE DÉCISIONS BUSINESS 

TALEND ENTERPRISE BIG DATA ACCROIT CONSIDÉRABLEMENT SON AGILITÉ ET SES 

PERFORMANCES, TOUT EN RÉDUISANT SES COÛTS D’INTÉGRATION 

Talend, le leader mondial des logiciels d’intégration des Big Data, annonce aujourd’hui que Lenovo a sélectionné 

Talend Enterprise Big Data afin de mieux connaître ses clients en analysant des données issus d’un grand nombre 

de points de contact – tiers, API et flux de réseaux sociaux – et en dégageant de ces données une image très 

précise de ses clients. 

N°1 mondial des fabricants de PC et n°4 des constructeurs de smartphones, Lenovo cherchait à rationaliser ses 

processus d’intégration ainsi que le développement de rapports qu’utilise son département marketing pour analyser 

l’efficacité de ses campagnes. L’architecture open source de Talend et son modèle de licence prédictible basé 

sur l’utilisation lui a offert la flexibilité nécessaire pour répondre à ses besoins, tout en garantissant l’évolutivité du 

système d’intégration. 

Grâce à Talend Enterprise Big Data, Lenovo assure l’intégration de ses Big Data à l’aide de près de 300 processus 

exploités simultanément – chiffre qui est voué à croître dans les prochaines années. Parmi les nombreux bénéfices 

obtenus par Lenovo depuis la mise en œuvre de Talend, les réductions de coûts enregistrées représentent environ 

140 000 $ pour les seuls coûts de migration. En outre, Talend a aidé Lenovo à améliorer les performances de son 

reporting, tout en raccourcissant les délais de traitement de plusieurs heures. 

« Nous devons améliorer continuellement les délais d’acquisition des données et la facilité d’utilisation de la plateforme 

de Talend nous permet d’y parvenir » déclare Marc Gallman, Manager of Data Architecture chez Lenovo. 

Ces gains d’efficacité se traduisent au final par l’amélioration et l’accélération des prises de décision, ce qui a un 

impact positif sur les stratégies marketing du constructeur – à la fois localement et mondialement. Avec un accès 

plus fréquent et plus rapide aux données, Lenovo est en mesure d’ajuster rapidement ses campagnes. 

« Si les entreprises exploitent de plus en plus de données, elles continuent à éprouver des difficultés pour les 

analyser, notamment du fait de leur incapacité à intégrer des données issues de systèmes traditionnels, des 

réseaux sociaux et des nombreux systèmes déployés dans le Cloud » commente Mike Sheridan, Executive Vice 

President of Sales, chez Talend. « Nous sommes fiers de voir Lenovo choisir les solutions de Talend et sommes 

impatients de les aider à accéder plus rapidement et plus fréquemment à leurs données pour améliorer les prises 

de décision. » 

TALEND - BUFFALO 

BUFFALO STUDIOS OPTIMISE LA VALEUR DES DONNÉES POUR 

ACCROÎTRE SA COMPÉTITIVITÉ DANS LE SECTEUR DES JEUX SOCIAUX. 

LA SOLUTION DE GESTION BIG DATA TALEND ENTERPRISE CONFÈRE À L’INFRASTRU 

CTURE D’INTÉGRATION DES DONNÉES LA FLEXIBILITÉ DONT ELLE A TANT BESOIN 

Buffalo Studios, une filiale de Caesars Interactive Entertainment (CIE) basée à Santa Monica en Californie, crée 

des jeux de casino en ligne conviviaux et accessibles permettant aux utilisateurs de trouver de nouveaux amis 

grâce au divertissement interactif. Le projet le plus considérable de Buffalo Studios est Bingo Blitz, le jeu de bingo 

en ligne gratuit le plus diffusé dans le monde. 


126


Des millions d’utilisateurs actifs propulsent chaque mois Buffalo Studios au sommet des classements sur Facebook, 

iOS, Android et Kindle. Barry Sohl, le directeur technique chez Buffalo Studios, est bien conscient des immenses 

opportunités d’affaires que génère la notoriété de leurs jeux. Encore faudrait-il savoir comment exploiter 

les données efficacement… 

« De manière générale, le secteur dans lequel nous évoluons fonde sa croissance sur les informations, » commente 

Sohl. « En effet, les informations que nous récoltons déterminent toutes nos décisions au niveau du marketing 

et du développement des produits. C’est grâce à cela que nous sommes toujours en avance sur nos concurrents. 

» 

Dans le cas de Bingo Blitz, Buffalo recueille des données permettant de savoir quelles cartes ont été jouées 

lors de chaque partie, si le joueur fait bingo ou pas, combien de crédits sont gagnés et dépensés, etc. « Chaque 

mouvement des données récupérées est vital. Et nous avons des centaines de points de collecte d’informations 

dans chaque jeu, » remarque Sohl, en ajoutant que l’entreprise traite plus de 100GB de données tous les jours, un 

volume qui devrait augmenter rapidement. 

Mais, bien sûr, il y a un obstacle. Selon Sohl : « Avant que ces données ne deviennent vraiment intéressantes 

pour nous, nous devons les exploiter. Alors seulement pourront-elles se transformer en levier de croissance et en 

avantage concurrentiel. Voilà pourquoi il est indispensable que les informations soient fiables et qu’elles puissent 

être intégrées à l’intérieur de notre Data Warehouse. » 

Élimination des blocages coûteux 

L’intégration de données à l’intérieur du Data Warehouse a toujours représenté un défi à Buffalo, qui utilisait un 

ensemble désordonné de code personnalisé et de scripts Python. Le résultat était bien en-dessous des attentes. 

“Chaque semaine, nous délivrons de nouvelles fonctionnalités pour nos jeux, surtout pour Bingo Blitz. Nous avons 

besoin d’outils spécifiques afin d’analyser leur comportement et identifier les plus performantes d’entre elles, » 

explique Sohl. « Nous voulons savoir qui les utilise et mesurer leur incidence sur l’environnement du jeu. » 

Pourtant, le système d’intégration de données tel qu’il était paramétré chez Buffalo rendait l’ajout de ces nouveaux 

points de mesure extrêmement fastidieux. Comme Sohl l’indique : « Il s’agissait d’une opération manuelle très 

pénible, au point que tout se bloquait au niveau de l’équipe chargée du traitement des données. Des informations 

nouvelles et importantes se retrouvaient coincées dans l’infrastructure et souvent ne passaient même pas la 

phase de l’extraction à partir des fichiers logs bruts. » Ces ralentissements ont hélas conduit l’équipe BI à penser 

que les données n’existaient pas. « Pourtant, nous les récupérions. Simplement, elles n’arrivaient jamais au Data 

Warehouse à cause de la lourdeur du flux, et les événements sur les données ne pouvaient y être ajoutés, » résume 

Sohl. 

Le directeur technique et ses collaborateurs savaient pertinemment qu’ils devaient trouver une solution capable 

d’apporter une plus grande flexibilité au niveau de l’intégration des données, ce qui leur permettrait d’ajouter de 

nouveaux points de mesure, et de repérer les informations cruciales pour une prise de décisions éclairée. 

FLEXIBILITÉ TOTALE : LA RÉPONSE DE TALEND 

Après avoir pris en considération la possibilité de développer en interne en Java pur, Sohl et le service technique 

ont décidé de s’adresser au meilleur éditeur sur le marché capable de répondre à leurs besoins. Talend est ressorti 

de leurs recherches. En effet, précise Sohl, « Nous nous sommes aperçus immédiatement que Talend proposait 

un environnement de développement plus complet et abouti que toutes les solutions faisant l’objet de nos évaluations. 

» Buffalo Studios a alors décidé d’effectuer des essais opérationnels de validation avec Talend et d’autres 

éditeurs. Talend a donné les résultats les plus convaincants. 

Et Sohl de poursuivre : « La solution d’intégration de données de Talend était basée sur Java, et nous avons beaucoup 

apprécié, parce que cela nous permettait de nous appuyer sur les compétences avérées de notre équipe. 

Sans compter qu’elle offrait davantage de flexibilité et qu’elle pouvait être utilisée immédiatement telle quelle, sans 

modifications, conjointement avec notre code Java personnalisé. » 

Après réflexion, Buffalo Studios a donc choisi la solution d’intégration de données Talend, y incorporant quelques 

composants spécifiques en Java, compatibles avec Talend. 

LA MISE EN PLACE 

Buffalo Studios a fait preuve de toute la diligence nécessaire afin de déterminer l’utilisation la plus efficace de 

la solution Talend pour l’intégration des données, et l’implémentation de la version de production s’est faite de 

manière rapide et indolore. 

Avec l’aide d’Artha Data Solutions, un partenaire intégrateur de Talend, Buffalo Studios est passé de la conception 

à l’implémentation du projet en quelques mois à peine. Et, puisqu’aucun de ses collaborateurs n’avait d’expérience 

avec les solutions Talend, l’entreprise a adopté le système de formation en ligne, ce qui a permis à ses ingénieurs 

d’acquérir en très peu de temps toutes les connaissances nécessaires. 

Leads plus faciles à exploiter : analyse des informations plus rapide et plus grande productivité 

Aujourd’hui Buffalo Studios utilise la solution d’intégration Big Data de Talend, et a obtenu la flexibilité qui lui 

manquait auparavant. « Quand nous avons des besoins d’analyse spécifiques, nous pouvons maintenant écrire 

nos propres composants Java et les incorporer à la solution Talend, » explique Sohl. « Et quand il s’agit d’ajouter 

de nouveaux points de mesure des données, nous ne bloquons plus le processus à notre niveau, car nos développeurs 

travaillent simplement avec les outils sans avoir à effectuer manuellement de laborieuses modifications. » 

Ce type de gestion allégée, à son tour, permet à Buffalo Studios d’ajouter de nouveaux points de données chaque 

semaine. D’après Sohl, le problème des blocages au niveau des fichiers logs bruts devrait maintenant être totalement 

résolu. 

Cet avantage revêt une importance capitale pour Buffalo Studios. En effet, si le service technique de Sohl n’arrive 

pas à livrer les informations cruciales à la direction, les décisionnaires restent dans l’incertitude. « Nous avons 

besoin de mesurer la performance de nos fonctionnalités, qu’elle soit bonne ou mauvaise, presque en temps réel. 

Plus l’exploitation des données sera simple pour nous, plus l’équipe BI pourra en tirer parti. Talend nous aide à 


127


optimiser les processus, à améliorer la rapidité et à accroître la valeur que nous pouvons tirer de nos données, » 

précise Sohl. De plus, les ingénieurs de l’équipe technique gagnent en productivité, puisqu’ils n’ont plus de problèmes 

d’intégration à résoudre et peuvent de nouveau se concentrer sur la construction de technologie innovante. 

C’est ce qui assure la croissance et la fidélisation des clients. 

PERSPECTIVES 

Globalement, Buffalo Studios est extrêmement satisfait de sa collaboration avec Talend. 

« Nous portons beaucoup d’intérêt à l’exploration des nombreuses possibilités offertes par Talend en termes de 

qualité des données. Je pense qu’il y aura un vrai potentiel à exploiter en élargissant le savoir-faire de Talend à 

d’autres applications, et que nous pourrons alors bénéficier de nombreux avantages au fur et à mesure que nous 

progresserons, » déclare Sohl. 


128


VELVET - PAIEMENT 

MONÉTISATION DE LA DATA D’UN ACTEUR DE LA CHAÎNE DU PAIEMENT 

DANS LE CADRE D’UNE MISSION D’ÉTUDE D’OPPORTUNITÉ 

Dans le cadre de sa stratégie de développement et de diversification de son offre, un acteur majeur de la chaîne du 

paiement a été accompagné par Velvet pour concevoir des offres de monétisation de son capital data, valorisant 

les volumes considérables de transactions gérées. 

Le projet a consisté dans un premier temps à évaluer l’opportunité d’offres : analyse et diagnostic des data existantes, 

interview de potentiels futurs clients pour évaluer le niveau de demande du marché, benchmark des 

acteurs de l’écosystème de la donnée et SWOT, pour in fine définir 7 offres de services. 

Dans un second temps, il s’est agi de définir un Go To Market : priorisation de 5 offres en fonction de leur complexité 

et revenu, analyse juridique détaillée des offres, design détaillé des offres satisfaisant aux contraintes juridiques 

avec description, pricing, gains totaux (financier et non financier), complexité de mise en marché et illustrations, et 

enfin identification des partenaires potentiels pour leur lancement commercial. 

Cette mission a permis de valider l’intérêt du marché pour plusieurs offres de monétisation de la Big Data transactionnelle 

de cet acteur, avec une valorisation estimée de 5% à 10% de chiffre d’affaires additionnel. 

VELVET - TELECOM 

TRANSFORMATION ET COACHING DES ÉQUIPES BUSINESS 

INTELLIGENCE D’UN OPÉRATEUR TÉLÉCOM DANS L’EXPLOITATION 

OPTIMALE DE SON ENVIRONNEMENT BIG DATA 

Cet opérateur global des Télécoms a investi dans une architecture Big Data, convaincu du levier de performance 

apporté par cette démarche pour l’ensemble de l’organisation, notamment dans un marché ultra concurrentiel. Afin 

d’accompagner sa transformation Big Data, ce dernier a confié à Velvet la réalisation d’une mission de 4 mois de 

formation, coaching et aide à la réalisation de traitements et projets dans le nouvel environnement. 

Cette mission vise deux principaux objectifs : 

- Rendre autonome l’équipe en place dans son activité au quotidien dans l’environnement Big Data 

- Profiter de cette transformation pour optimiser l’efficacité du pôle en retravaillant les modes de fonctionnement 

et pratiques de l’équipe. 

Après une phase de diagnostic de l’existant (sur les plans de l’organisation, des compétences, des relations avec 

les entités Marketing, Commerciale, Relation client, et CRM), l’équipe est montée en compétence grâce à un plan 

de formation constitué des modules suivants : Mise à niveau Java, Concept Big Data et langage, Map Reduce par 

l’exemple, Machine Learning et Scala, Interrogation de données (Hive, Impala, Pig, …), Diverses technologies Big 

Data (Scoope, Flume, …) et Outils de visualisation. 

Afin de mettre en pratique les acquis de ces formations et de valider l’efficacité de l’exploitation de l’environnement 

Big Data, l’équipe a été coachée dans le cadre de la réalisation de projets concrets nourrissant des analyses et 

réflexions autour des problématiques Foyer et Expérience Client. 

Cette équipe est aujourd’hui autonome sur les principales pratiques de traitements Big Data et des premiers gains 

d’efficacité se sont déjà fait ressentir. 

Pour en savoir plus – à propos de Velvet 

Velvet est un cabinet spécialisé en Marketing, Digital, Ventes et Relation Client situé à Paris et Lyon. Il intervient 

sur l’ensemble de la chaîne de valeur client, de la définition de la stratégie à sa mise en œuvre opérationnelle et 

technique, grâce au levier de la Data. 

Velvet propose une approche globale du Big Data, résolument orientée Valeur (IT, Métier, Analytique et Organisation). 


129


YSANCE - ARKENA 

LES ENJEUX D’UNE PLATEFORME BIG DATA TEMPS RÉEL POUR ARKENA 

CONTEXTE 

Arkena, commercialise une plateforme permettant de distribuer des contenus audio et vidéo sur tous les écrans 

(Streaming Web, Mobile, Box, B2B, etc.) 

Ces contenus sont transmis via plusieurs technologies, en particulier un CDN internet qui repose sur de nombreux 

serveurs à travers le monde. Ces serveurs génèrent de très grande quantité de logs, actuellement utilisés pour 

monitorer le CDN, mais aussi pour déterminer la facturation client selon l’usage. 

Avec l’augmentation du nombre des clients et de la volumétrie diffusée, l’architecture en place de collecte et traitement 

de ces logs (Rsyslog, Postgresql, Java), ne permettait plus d’assurer les services attendues (Supervision, 

Alerting, Analyse et facturation). 

Arkena souhaitait donc remplacer ce système par une architecture hautement scalable, facile à maintenir et disposant 

d’un faible TCO. 

ENJEUX TECHNIQUES 

• Collecte et stockage des logs en temps réel (+ de 60 000 logs par seconde) 

• Archivage des logs sur au moins 3 ans 

• Calcul au fil de l’eau de plus de 300 KPI (Mise à jour toutes les minutes) 

• Mise à disposition de ces indicateurs via des appels API REST 

• Garantir que chaque ligne de log sera intégrée une et une seule fois 

• Remplacer Rsyslog par une solution plus fiable pour la collecte et la centralisation des logs depuis 30 datacenters 

et en garantissant l’acquittement de réception de chaque log. 

• Offrir un très haut niveau de disponibilité, des mécanismes de reprises sur erreur et une forte capacité de montée 

en charge 

ARCHITECTURE 

L’architecture mise en place par Ysance est de type “Lambda” et repose sur trois stacks techniques : 

Spark pour les traitements temps réel, MapReduce pour les traitements Batch et Elasticsearch pour la couche 

présentation. 

• Vitesse : La couche temps réels reposent sur Apache Spark, et calculent les KPI sur une fenêtre de temps d’une 

minute (agrégation de 3,6M de logs / mn). L’objectif est d’alimenter au plus vite la couche de restitution avec des 

indicateurs qui ne nécessitent pas de retraiter l’ensemble de l’historique des données. 

• Batch : La couche Batch vise à créer une vision définitive, et si nécessaire corrigée des données traitées par la 

couche de vitesse (en cas d’arrivée trop tardive, de redémarrage du process temps-réel, …), ainsi qu’à calculer les 

KPI nécessitant de traiter un historique de données plus long. (dans le cas de la dimension temps, les aggrégats 

à l’heure, journée, semaine, mois, …) Elle repose sur le moteur MapReduce, au travers de Hive ou de développement 

spécifiques Java. 

• Présentation : La couche de présentation réconcilie les données traitées par la couche vitesse et la couche 

batch, et permet ainsi d’analyser et d’aggréger dans un même dashboard des données issues de Spark et de 

Hive. Cette couche repose sur Elasticsearch, qui offre la possibilité d’appliquer des aggrégats au requêtage, et 

permet ainsi de sommer, de compter distinctement, etc… sur l’ensemble des données, avec des temps de réponse 

inférieurs à la seconde. 

• Transport : La couche transport repose sur Apache Flume. L’objectif est de collecter en streaming l’ensemble 

des lignes de logs vers la plateforme Hadoop, sans provoquer de blocage applicatif. La communication entre les 

agents Flume présents sur les edge et ceux qui écrivent sur le cluster Hadoop est effectuée par appel RPC / Avro. 


130


Cette architecture Lambda permet de traiter un même flux de données de manière synchrone et asynchrone : 

• Calcul temps-réel de certains indicateurs sur une fenêtre temporelle réduite (1 min) avec un débit jusqu’à 60 000 

messages / sec 

• Recalcul batch de l’ensemble des indicateurs à J+1 

• Indicateurs sur une fenêtre plus longue (5mn) 

• Prise en compte des « arrivées tardives » et consolidation des résultats 

• Maintient d’un jeu de résultats unique et accessible 

BÉNÉFICES 

• 2 mois pour la mise en place du projet 

• Plateforme Big Data moderne (Fast Data) et hautement scalable 

• Enrichissement du périmètre fonctionnel actuel avec de nouveaux KPI désormais envisageables avec cette architecture 

• Coût projet réduit notamment grâce à l’usage systématique de solutions Open Source 

YSANCE - ANOVO 

COMMENT ANOVO A BÂTI RAPIDEMENT SON NOUVEAU SI DÉCISIONNEL 

GROUPE GRÂCE AUX SOLUTIONS BIG DATA D’AMAZON WEB SERVICES ? 

ANOVO, leader au niveau européen en prestation de services techniques et logistiques pour les opérateurs télécoms 

et multimédia, est un des principaux acteurs de la gestion durable du cycle de vie des produits électroniques. 

Chaque année, il donne une seconde vie à plus de 20 millions de produits dans le monde entier. 

Elle collabore avec des fabricants, des distributeurs et des opérateurs pour proposer à leurs clients des solutions 

de réparation, de logistique, de régénération et d’extension de garantie. Parmi les produits électroniques qu’elle 

traite, figurent les décodeurs, les set top boxes, les téléphones portables, les modems et les équipements réseaux 

des entreprises. 


131


CONTEXTE 

Dans le cadre de ses activités, Anovo produit et diffuse un ensemble de tableaux de bord et reporting permettant 

à ses clients de suivre et analyser les travaux et services rendus par la société. A cause d’un ensemble de solutions 

BI développées en internes et spécifiques à une usine, un pays ou un service, Anovo souffrait des problèmes 

suivants : 1/ Développements et déploiements sans cadre IT structuré 2/ Absence de mutualisation des besoins et 

donc multiplications des développements spécifiques. En conséquence, la plateforme décisionnelle d’Anovo souffrait 

de rigidité, d’obsolescences et de surcoûts notamment pour faire évoluer et maintenir les rapports existants. 

Pour y remédier, la DSI d’Anovo a sollicité Ysance pour concevoir une nouvelle architecture décisionnelle de type 

Big Data et l’implémenter en s’appuyant sur les solutions de Amazon Web Services et Tableau Software. Les deux 

solutions ont été choisis pour les bénéfices suivants : Rapidité de mise en œuvre, simplicité de déploiement sur un 

ensemble des pays / usines, mutualisation des usages et autonomie des utilisateurs, réduction des coûts de run 

et enfin évolutivité et pérennité. 

ARCHITECTURE 

Après un POC réalisé en début 2014, l’architecture technique qui a été retenue est la suivante : 

• Extraction quotidienne des données utiles directement depuis les systèmes opérationnelles des sites Anovo 

présents dans différents pays 

• Stockage et archivage de ces données dans Amazon S3 

• Contrôles qualités au fil des remontées des données sources (alerting) 

• Chargement en delta des données collectées dans un DWH Redshift 

• Mise à disposition des données dans Tableau Software 

• Création, pour les utilisateurs métiers, des rapports et tableaux de bord nécessaires aux pilotages de leurs activités 

• Diffusion des KPI de suivi de la production, à leurs clients, via Tableau Online 


132


AUTOMATISATION DES CHARGEMENTS : 

Le nombre de tables sources devant être chargées dans le DWH Redshift étant très importants, une procédure 

automatisée écrite en Python permet de convertir automatiquement les DDL source (SQL Server) en DDL RedShift 

• Angleterre: 1300 tables en production 

• France : 750 tables en production 

• Prochains pays : Chili, Pérou, Espagne 

• 40 à 60 JH de développement par pays 

Avec sa nouvelle plateforme BI mixant Cloud et Big Data, Anovo dispose d’un environnement décisionnel unique, 

évolutif, peu couteux et très scalable, consolidant les données de toutes ses entités à travers le monde et garantissant 

agilité et rapidité pour intégrer de nouvelles sources et permettre aux métiers de produire simplement de 

nouveaux rapports et tableaux de bord pour leurs besoins et ceux de leurs clients. 


133

REX

Create successful ePaper yourself

Delete template?

Save as template?