Y-a-t-il le feu au Data lake ?

Nos clients nous posent régulièrement la question de savoir s’ils doivent intégrer un Data Lake dans leur système d’information. La réponse la plus juste serait plutôt de les questionner sur l’objectif à atteindre et sur la maturité de leurs infrastructures déjà en place.

Faisons ensemble un tour d’horizon de ce concept et voyons s’il est urgent… de se jeter à l’eau.

Introduction

Si un jour vous vous êtes demandé où est la source des données que vous exploitez pour pouvoir la réutiliser, ou bien comment utiliser une même source mais pour 2 projets différents, c’est qu’un Data Lake est la notion qui vous a manqué pour répondre rapidement.

Plutôt que d’énumérer les applications possibles, je répondrais aux principales questions que l’on peut se poser au sujet du Data Lake : « Qu’est ce que c’est ? », « Datalake ou Datawarehouse ? », « Comment démarrer ? » et « Quelles sont les technologies référentes sur le sujet ?».

Un des tests de l’autorité est d’identifier un problème avant qu’il ne devienne une urgence.”

De Arnold H. Glasgow

 

Qu’est-ce-que c’est ?

Il faut voir un Data Lake comme un grand répertoire de données. Elles sont brutes, dans leurs formats natifs, et hétérogènes car provenant d’un maximum de sources tant à l’intérieur qu’à l’extérieur de l’entreprise.

C’est la base du concept : toujours avoir la vision d’origine pour ensuite y appliquer l’interrogation désirée. Les données sont donc conservées sans filtre pour être utilisées de multiples façons ou bien parfois pas du tout. C’est l’approche « Schema On Read » (schéma en lecture) où une structure de lecture ne s’applique qu’aux données qui seront exploitées.

Lorsqu’il importe les données, le Data Lake les associe à des identificateurs et des balises de métadonnées (Meta data) pour une récupération plus rapide. C’est une approche ELT (Extract-Load-Transform) plutôt qu’ETL (Extract-Transform-Load).

Un Data Lake à le potentiel de centraliser toutes les données de l’entreprise, qu’elles soient structurées, semi-structurées et non structurées.

Exemples :

  1. Structurées : Base de données relationnelles
  2. Semi-structurées : Fichiers XML
  3. Non structurées : Fichiers Word, PDF, logs, texte…

Les données non structurées représentent 80% de toutes les données informatiques.

 

Attention à la précipitation : la gouvernance des données

Par-dessus la notion de Data Lake, il faut rajouter un management clair des données avec une stratégie de gouvernance et une maintenance continue. Sans cela le volume de données peut rendre l’ensemble inutilisable, encombrant et coûteux. On appelle cette dérive le « data swamps » (marécage de données).

Qu’est-ce que la stratégie de gouvernance ?

Elle est le fait d’apporter au système d’information de l’entreprise tout un environnement cohérent et communicant avec des outils hétérogène.

Les 4 commandements de la gouvernance :

  1. Assurer la sécurité et la qualité des données.
  2. Organiser les données : classement et langage métier commun.
  3. Faciliter l’accès aux données : libre-service, tendre vers une recherche en langage naturel.
  4. Agir au service des métiers : accélérer la transformation digitale.

 

Pourquoi le Data Lake émerge face au Datawarehouse classique ?

Les deux solutions sont des référentiels de stockage qui consolident les gisements de données de l’entreprise. La première chose qui distingue un Data Lake est qu’il n’a pas d’objectif spécifique. Il se doit d’ouvrir des possibilités et non d’être construit aux fins d’un besoin d’analyse particulier. Un entrepôt de données se base en revanche sur un modèle de données structuré qui, bien que neutre, a le but final de fournir des rapports sur un jeux de données spécifique.

On peut résumer les caractéristiques ainsi :

 

Data Lake Datawarehouse
Design

 

Le stockage des données étant brut, la création est simple et l’accès immédiat. L’initialisation de l’entrepôt de données peut se révéler long et complexe en fonction l’objectif recherché.
Architecture Schéma en lecture et défini lors de l’utilisation.

Il en résulte une flexibilité dans l’extraction finale.

 

Schéma en écriture car défini dès la création.

Rigidité de l’analyse lié au scope sélectionné.

 

Accessibilité Complexe.

Un Data Analyst connaissant les différents types de données intégrées est nécessaire.

 

Simplifié.

Un utilisateur avec peu de notion technique peut utiliser un Datawarehouse rapidement.

 

Il faut voir en pratique un Data Lake comme une approche en self-service des données pour des applications en aval qui pourraient ultérieurement s’en remettre à un Datawarehouse pour des analyses spécifiques au domaine applicatif ou élargies à une plateforme regroupant plusieurs applications.

Comment commencer rapidement ?

Un Data Lake est composé de deux éléments : le stockage et le traitement.

A partir de là, plusieurs configurations sont possibles. Conserver l’ensemble sur site, migrer dans le cloud voir dans plusieurs clouds (infrastructure multi-clouds) ou bien une migration partielle en gardant seulement certains éléments stratégiques sur site.

L’analyse des paramètres du Data Lake à mettre en place est d’une importance capitale pour évaluer le meilleures option d’implémentation.

Les offres des fournisseurs Cloud peuvent être difficile à évaluer et amener à des estimations de gain complexe.

Les principaux éléments à connaitre avant de commencer sont :

  • L’espace de stockage nécessaire.
  • Le volume de données en entrée et en sortie du système Data Lake.
  • La compatibilité des différents outils qui dialogueront avec le système.

 

 

On Premise

Cloud

Avantages

 

·      Les données sensibles restent sur site

·      La maîtrise des technologies utilisées et des cycles de mise à jour

 

·      Rapidité de mise en place

·      Évolutivité rapide du stockage ou des capacités de traitement

·      Mises à jour automatiques

·      Coût estimé moins élevé

 

 

On comprend donc que le Cloud permet un démarrage plus rapide car l’infrastructure est déportée et offre une évolutivité à la demande. Une solution sur site nécessiterait une mobilisation des ressources plus longue et coûteuses.

Comment Synchrotech peut vous aider ?

Chez Synchrotech, Data Lake et Datawarehouse sont des outils qui nous permettent d’aider nos clients qui veulent stimuler leur compétitivité, améliorer leur efficacité opérationnelle et piloter leur performance en analysant et exploitant leurs données.

En effet les différents départements métiers sont demandeur d’accès toujours plus rapide et plus simples aux données de l’entreprise ainsi qu’aux sources externes afin de créer de la valeur au travers de leurs analyses et du Machine Learning.

C’est ainsi que nous aidons les fonctions Corporate de l’entreprise à travers un consulting hybride qui délivre du conseil aux directions, des projets analytiques aux managers métiers, des solutions technologiques et des services Data aux départements informatiques et analytiques.

Si vous rencontrez également ce besoin grandissant d’accès rapide à vos données, n’hésitez pas à nous contacter pour en discuter avec nos équipes.

 

À propos de l’auteur :

Alexandre Mazzotti  a plus de 10 années d’expériences professionnelles dans la Business Intelligence et Master Data Management, incluant 5 années en tant que Business et Data Analyst / Chef de projet.  Ces expériences lui ont permis d’acquérir de bonnes connaissances en développement et dans la mise en place de solutions dans le domaine de la Data.