24.11.2015 Views

REX

BD16_REX

BD16_REX

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Retours d’expériences Big Data en entreprise<br />

cialistes de l’environnement, épidémiologistes, etc. – participent à ce programme, soit au total 1500 personnes.<br />

« Ce programme, de très grande ampleur, doit prendre en compte une quantité dantesque de variables associées<br />

aux enfants : santé, sciences sociales, environnement, génétique, environnement familial, etc. Il repose sur des<br />

enquêtes menées chaque année et déclinées en quatre vagues (qui correspondent aux saisons). Les données<br />

issues de ces enquêtes sont stockées dans un système hautement sécurisé de base de données et décrivent la<br />

situation de l’enfant à travers des milliers de variables » témoigne Ando Rakotonirina, Directeur des systèmes<br />

d’information de l’unité de recherche ELFE de l’Ined. « Nous apportons un soin tout particulier aux contrôles qualité<br />

afin de garantir à nos chercheurs des données cohérentes. Si nous avons réalisé ces contrôles manuellement lors<br />

des premières enquêtes (maternité et 2 mois), nous avons souhaité industrialiser ce processus particulièrement<br />

chronophage. »<br />

Dans le passé, les réponses aux questionnaires étaient stockées dans une solution SAS déployée sur un poste<br />

autonome (non relié au réseau) et gérées par une personne chargée de réaliser des tests de cohérence et de<br />

travailler sur la « validité » des données avec des chercheurs affectés à cette étude en leur mettant à disposition<br />

des informations sous la forme d’extractions. Pour des raisons de confidentialité, les chercheurs ne peuvent pas<br />

accéder à l’intégralité des données de toutes les enquêtes, des extractions étaient donc nécessaires à chaque<br />

demande. Ces pré-études de données permettaient de faire des redressements ou corrections éventuelles. Pour<br />

obtenir une base propre pour une collecte contenant 5 200 variables pour 18 300 individus – pouvant être mise à<br />

disposition de chercheurs du monde entier – il fallait compter un an et demi.<br />

FLUIDIFIER CES ÉCHANGES, ACCÉLÉRER LA MISE À DISPOSITION DES DONNÉES<br />

« Les travaux de contrôle qualité nécessitant de multiples extractions étaient très fastidieux et la transmission<br />

des données était réalisée via des supports physiques. De nombreux échanges étaient nécessaires avec les<br />

chercheurs pour déterminer exactement quelles données ils souhaitaient recevoir » poursuit Ando Rakotonirina. «<br />

Nous cherchions une solution permettant de fluidifier ces échanges, d’accélérer la mise à disposition des données<br />

et de garantir le principe d›un dépôt unique réclamé par les autorités. Par ailleurs, la future loi sur la protection<br />

des données scientifiques va dans ce sens (limitation des extractions des données) pour préserver la maîtrise de<br />

propriété des données des chercheurs. Au vu des volumétries que nous traitons, cette solution devait en outre offrir<br />

une grande puissance de traitement. »<br />

Si, au départ, le Pôle SI de ELFE de l’Ined a privilégié des outils open source, il a pris conscience que ceux-ci ne<br />

répondaient qu’à une partie des objectifs. Une veille a été réalisée sur les outils de SAS et particulièrement SAS<br />

Visual Analytics (VA). Plusieurs maquettes ont été développées.<br />

« Nous avons finalement décidé non seulement d’adopter VA, mais également de nous affranchir des anciennes<br />

solutions sur postes autonomes pour basculer sur SAS Server, puisque nous avions la garantie d’éviter les extractions<br />

grâce au système de dépôts sécurisés combiné à une gestion personnalisée des accès. Les fonctions<br />

analytiques proposées par l’outil sont particulièrement sophistiquées (exploration, constitution dynamique de rapports,<br />

croisements, etc.) et nous ouvrent de nouvelles perspectives » explique Ando Rakotonirina. « Depuis la<br />

mise en œuvre de VA, le Pôle SI et l’administrateur de données ELFE ont pris en main la solution pour créer des<br />

rapports et des explorations de base qu’ils ont mis à disposition des chercheurs. Ceci dans un premier temps pour<br />

améliorer l’adhésion. Dans un deuxième temps, les chercheurs pourront choisir en toute autonomie les données<br />

sur lesquelles ils travaillent et la manière de les présenter. »<br />

SAS® VISUAL ANALYTICS, PIÈCE MAÎTRESSE DE L’INFRASTRUCTURE ANALYTIQUE<br />

DU PROGRAMME ELFE<br />

En quelques mois, SAS Visual Analytics est devenue une pièce maîtresse de l’infrastructure analytique du programme<br />

ELFE. Non seulement les multiples extractions ne sont plus nécessaires puisque chaque chercheur<br />

dispose de droits de consultation personnalisés et d’espaces de travail sécurisés, accessibles via un simple navigateur<br />

web, mais de plus, l’ensemble des modifications et des mises à jour sont tracées.<br />

Pour Ando Rakotonirina, le principal objectif du projet a été atteint : « La problématique de sécurité des données<br />

liée aux extractions a été résolue. Nous respectons les contraintes légales et réglementaires, ce qui est bien sûr<br />

capital. Mais parallèlement, nous avons gagné en efficacité en termes d’organisation des contrôles qualité : les<br />

données sont mises à disposition dans SAS VA ce qui évite les nombreux allers-retours entre nos services. Pour<br />

l’enquête «2 mois», 18 mois ont été nécessaires pour rendre nos données exploitables. Avec VA, ce délai va être<br />

réduit à 5 mois ! » se réjouit-il. « Parallèlement, VA nous offre une richesse fonctionnelle qui permet de nouvelles<br />

dimensions d’analyse. Par exemple : nos utilisateurs peuvent, de manière autonome, visualiser dynamiquement la<br />

répartition des enfants allaités dans chaque département sur une carte. Filtrer les données selon leurs envies et<br />

obtenir les résultats instantanément. ».<br />

Avec SAS, Elfe/Ined se déclare parfaitement équipée pour exploiter ses big data : « Les big data sont le carburant<br />

de la recherche moderne ! Elles sont en train de révolutionner notre profession : auparavant, chacun travaillait<br />

dans son coin et sur un mode vertical, les chercheurs partageaient difficilement leurs découvertes. Aujourd’hui,<br />

nous sommes en mesure d’enrichir nos analyses et de susciter la collaboration » conclut Ando Rakotonirina.<br />

ENJEUX<br />

• Prendre en compte une quantité dantesque de variables.<br />

• Fluidifier less échanges entre les chercheurs.<br />

• Accélérer la mise à disposition des données.<br />

• Garantir le principe d’un dépôt unique réclamé par les autorités.<br />

Document réalisé par la Société Corp Events - Janvier 2015<br />

94

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!