24.11.2015 Views

REX

BD16_REX

BD16_REX

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Retours d’expériences Big Data en entreprise<br />

SYNCSORT - SFR<br />

PROJET HADOOP CHEZ SFR<br />

EFFICACITÉ ACCRUE GRÂCE AU PROJET HADOOP<br />

En tant qu’opérateur télécom majeur comptant plus de 21 millions de clients, SFR collecte quotidiennement une<br />

quantité énorme de données. L’objectif du projet Hadoop chez SFR était en premier lieu de réduire les coûts<br />

d’exploitation de ces données. Au fur et à mesure que le volume de données augmente, il est de plus en plus<br />

difficile et coûteux de stocker et traiter les données. En utilisant de façon optimale le cluster Hadoop et les outils<br />

puissants de tri et ETL de Syncsort, il est possible de limiter l’investissement dans du nouveau hardware.<br />

UN PROJET QUI NE SE TERMINE JAMAIS<br />

SFR a décidé de lancer le projet Hadoop à la fin de 2013. Dans une première phase, le choix s’est porté sur la<br />

distribution Hadoop Cloudera et début 2014, il a été décidé de travailler avec DMX-h de Syncsort pour loader et<br />

offloader des données à partir du cluster Hadoop. SFR utilisait déjà l’outil ETL DMX de Syncsort pour quatre autres<br />

projets, pour lesquels il avait fait ses preuves. Les très bonnes performances de DMX-h de Syncsort ont ensuite<br />

pu être démontrées dans le cadre du Proof of Concept pour le projet Hadoop. “Nous travaillons encore en mode<br />

batch,” explique François Nguyen, en charge de la division ‘Connaissance Client’ chez SFR. “ Cela implique que<br />

nous disposons d’une fenêtre de traitement réduite. Nos engagements précédents avec Syncsort se sont révélés<br />

très efficaces. Leurs capacités de tri n’ont pas d’équivalent sur le marché, et nous sommes très heureux que Syncsort<br />

soit l’un des véritables innovateurs sur le marché Hadoop. Leur mécanisme de tri est incorporé à la distribution<br />

Hadoop que nous utilisons.<br />

Au cours de l’été 2014, les premières sources de données ont été loadées dans le cluster Hadoop, et davantage<br />

de sources seront ajoutées toutes les deux ou trois semaines. “Il ne s’agit pas d’un projet avec un horizon déterminé,<br />

nous allons continuer à ajouter des sources de données en permanence,” explique François Nguyen.<br />

A l’heure actuelle, la division Connaissance Client gère une base de données très volumineuse , qui n’arrête pas<br />

de croître. Les données traitées dans le cadre du projet Hadoop sont principalement des données structurées mais<br />

on y retrouve également des données semi-structurées provenant de logs.<br />

EN PRIMEUR<br />

Le projet chez SFR est l’une des premières véritables expériences Big Data et Hadoop sur le marché français. Le<br />

projet permettra à SFR de réaliser des économies, grâce à la performance des solutions implementées.<br />

DE PREMIERS RÉSULTATS RAPIDES<br />

L’une des premières réussites du projet a été la capacité à concrétiser les premières étapes dans le délai imparti<br />

et selon le budget, ce qui est une prouesse compte tenu qu’il s’agit de l’introduction de technologies de pointe. La<br />

mise en route aussi rapide du projet est principalement due au fait que SFR n’a pas eu à effectuer une phase de<br />

tuning avant de commencer à utiliser DMX-h pour manipuler les données ni à réaliser de codage supplémentaire.<br />

Les résultats seront évalués en permanence au fur et à mesure que de nouvelles sources de données s’ajoutent<br />

au cluster Hadoop.<br />

L’utilisation des puissantes capacités de tri de Syncsort DMX h n’ont pas rendues nécessaires l’acquisition de<br />

hardware supplémentaire.<br />

.<br />

SYNCSORT - PAGESJAUNES<br />

SYNCSORT AIDE PAGESJAUNES À TIRER LE MEILLEUR DES BIG DATA<br />

PagesJaunes, filiale à 100% de Solocal Group (groupe coté sur le marché Euronext Paris), migre sur la plateforme<br />

Hadoop pour optimiser ses outils d’aide à la décision. L’ETL pour Hadoop de Syncsort est apparu comme la solution<br />

la plus fiable, tant en termes de volumétrie que de rapidité, pour répondre aux nouveaux besoins business<br />

dans le contexte d’une transformation numérique qui fait cas d’école aujourd’hui.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

115

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!