REX
BD16_REX
BD16_REX
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Retours d’expériences Big Data en entreprise<br />
cialistes de l’environnement, épidémiologistes, etc. – participent à ce programme, soit au total 1500 personnes.<br />
« Ce programme, de très grande ampleur, doit prendre en compte une quantité dantesque de variables associées<br />
aux enfants : santé, sciences sociales, environnement, génétique, environnement familial, etc. Il repose sur des<br />
enquêtes menées chaque année et déclinées en quatre vagues (qui correspondent aux saisons). Les données<br />
issues de ces enquêtes sont stockées dans un système hautement sécurisé de base de données et décrivent la<br />
situation de l’enfant à travers des milliers de variables » témoigne Ando Rakotonirina, Directeur des systèmes<br />
d’information de l’unité de recherche ELFE de l’Ined. « Nous apportons un soin tout particulier aux contrôles qualité<br />
afin de garantir à nos chercheurs des données cohérentes. Si nous avons réalisé ces contrôles manuellement lors<br />
des premières enquêtes (maternité et 2 mois), nous avons souhaité industrialiser ce processus particulièrement<br />
chronophage. »<br />
Dans le passé, les réponses aux questionnaires étaient stockées dans une solution SAS déployée sur un poste<br />
autonome (non relié au réseau) et gérées par une personne chargée de réaliser des tests de cohérence et de<br />
travailler sur la « validité » des données avec des chercheurs affectés à cette étude en leur mettant à disposition<br />
des informations sous la forme d’extractions. Pour des raisons de confidentialité, les chercheurs ne peuvent pas<br />
accéder à l’intégralité des données de toutes les enquêtes, des extractions étaient donc nécessaires à chaque<br />
demande. Ces pré-études de données permettaient de faire des redressements ou corrections éventuelles. Pour<br />
obtenir une base propre pour une collecte contenant 5 200 variables pour 18 300 individus – pouvant être mise à<br />
disposition de chercheurs du monde entier – il fallait compter un an et demi.<br />
FLUIDIFIER CES ÉCHANGES, ACCÉLÉRER LA MISE À DISPOSITION DES DONNÉES<br />
« Les travaux de contrôle qualité nécessitant de multiples extractions étaient très fastidieux et la transmission<br />
des données était réalisée via des supports physiques. De nombreux échanges étaient nécessaires avec les<br />
chercheurs pour déterminer exactement quelles données ils souhaitaient recevoir » poursuit Ando Rakotonirina. «<br />
Nous cherchions une solution permettant de fluidifier ces échanges, d’accélérer la mise à disposition des données<br />
et de garantir le principe d›un dépôt unique réclamé par les autorités. Par ailleurs, la future loi sur la protection<br />
des données scientifiques va dans ce sens (limitation des extractions des données) pour préserver la maîtrise de<br />
propriété des données des chercheurs. Au vu des volumétries que nous traitons, cette solution devait en outre offrir<br />
une grande puissance de traitement. »<br />
Si, au départ, le Pôle SI de ELFE de l’Ined a privilégié des outils open source, il a pris conscience que ceux-ci ne<br />
répondaient qu’à une partie des objectifs. Une veille a été réalisée sur les outils de SAS et particulièrement SAS<br />
Visual Analytics (VA). Plusieurs maquettes ont été développées.<br />
« Nous avons finalement décidé non seulement d’adopter VA, mais également de nous affranchir des anciennes<br />
solutions sur postes autonomes pour basculer sur SAS Server, puisque nous avions la garantie d’éviter les extractions<br />
grâce au système de dépôts sécurisés combiné à une gestion personnalisée des accès. Les fonctions<br />
analytiques proposées par l’outil sont particulièrement sophistiquées (exploration, constitution dynamique de rapports,<br />
croisements, etc.) et nous ouvrent de nouvelles perspectives » explique Ando Rakotonirina. « Depuis la<br />
mise en œuvre de VA, le Pôle SI et l’administrateur de données ELFE ont pris en main la solution pour créer des<br />
rapports et des explorations de base qu’ils ont mis à disposition des chercheurs. Ceci dans un premier temps pour<br />
améliorer l’adhésion. Dans un deuxième temps, les chercheurs pourront choisir en toute autonomie les données<br />
sur lesquelles ils travaillent et la manière de les présenter. »<br />
SAS® VISUAL ANALYTICS, PIÈCE MAÎTRESSE DE L’INFRASTRUCTURE ANALYTIQUE<br />
DU PROGRAMME ELFE<br />
En quelques mois, SAS Visual Analytics est devenue une pièce maîtresse de l’infrastructure analytique du programme<br />
ELFE. Non seulement les multiples extractions ne sont plus nécessaires puisque chaque chercheur<br />
dispose de droits de consultation personnalisés et d’espaces de travail sécurisés, accessibles via un simple navigateur<br />
web, mais de plus, l’ensemble des modifications et des mises à jour sont tracées.<br />
Pour Ando Rakotonirina, le principal objectif du projet a été atteint : « La problématique de sécurité des données<br />
liée aux extractions a été résolue. Nous respectons les contraintes légales et réglementaires, ce qui est bien sûr<br />
capital. Mais parallèlement, nous avons gagné en efficacité en termes d’organisation des contrôles qualité : les<br />
données sont mises à disposition dans SAS VA ce qui évite les nombreux allers-retours entre nos services. Pour<br />
l’enquête «2 mois», 18 mois ont été nécessaires pour rendre nos données exploitables. Avec VA, ce délai va être<br />
réduit à 5 mois ! » se réjouit-il. « Parallèlement, VA nous offre une richesse fonctionnelle qui permet de nouvelles<br />
dimensions d’analyse. Par exemple : nos utilisateurs peuvent, de manière autonome, visualiser dynamiquement la<br />
répartition des enfants allaités dans chaque département sur une carte. Filtrer les données selon leurs envies et<br />
obtenir les résultats instantanément. ».<br />
Avec SAS, Elfe/Ined se déclare parfaitement équipée pour exploiter ses big data : « Les big data sont le carburant<br />
de la recherche moderne ! Elles sont en train de révolutionner notre profession : auparavant, chacun travaillait<br />
dans son coin et sur un mode vertical, les chercheurs partageaient difficilement leurs découvertes. Aujourd’hui,<br />
nous sommes en mesure d’enrichir nos analyses et de susciter la collaboration » conclut Ando Rakotonirina.<br />
ENJEUX<br />
• Prendre en compte une quantité dantesque de variables.<br />
• Fluidifier less échanges entre les chercheurs.<br />
• Accélérer la mise à disposition des données.<br />
• Garantir le principe d’un dépôt unique réclamé par les autorités.<br />
Document réalisé par la Société Corp Events - Janvier 2015<br />
94