Tout savoir sur les Data Lake : leur utilité, avantages et meilleures pratiques pour stocker et gérer des données massives efficacement. Optimisez votre infrastructure de données avec cet article.
18/11/2022
TOUT SAVOIR SUR LES DATA LAKE : Avantages, Fonctionnalités et Meilleures Pratiques
9 minutes de lecture
Table des matières
Un projet ? Une question ?
Contactez nos experts sans plus attendre
Et si la donnée était la nouvelle richesse du XXIème siècle ? Après l’or noir, c’est l’or numérique qui a été rapidement exploité par de nombreuses entreprises qui ont connu, grâce à lui, une croissance exponentielle.
Mais comme toute richesse, la donnée se cultive, doit être entretenue et stockée pour ensuite être utilisée de façon efficace.
Mais avec le nombre toujours plus conséquent de données échangées et créées et surtout les problématiques de sécurité et de vie privée, il est de plus en plus complexe de trouver le moyen idéal pour avoir accès à ces données.
Si pendant longtemps la tendance était à la mise en place d’un Data Warehouse, c’est aujourd’hui le Data Lake qui fait parler de lui. Retour sur cette innovation qui aidera à coup sûr votre entreprise.
Qu’est-ce qu’une Donnée / une Data ?
En informatique, contrairement à ce que l’on pense, une donnée n’est pas une information mais plutôt la représentation de cette information. En effet, une donnée ne deviendra information que lorsqu’elle sera placée dans un contexte.
Par exemple, le chiffre 10 est une donnée. Ce chiffre peut être placé dans différents contextes et devenir une vraie information : 10 ans, 10 degrés, 10 produits encore en stock…
C’est un peu la matière brute de l’information adaptée aux machines. L’intégrité de la donnée est composée en code binaire, soit une succession de 1 et de 0. Les données peuvent être échangées, conservées, supprimées…
Aujourd’hui, tout est donnée : votre adresse mail, la recherche que vous avez effectué hier sur Google et même cet article. En effet, la donnée informatique qui est sous forme de code pour la machine peut être présentée sous forme de texte, de son, d’image etc…
On distingue plusieurs types de données :
- Primaires VS secondaires : les données primaires sont les données brutes, c’est à dire qu’elles n’ont subi ni traitement ni modification à l’inverse des données secondaires
- Structurées VS non structurées : les données structurées vont être les données qui vont facilement pouvoir être analyser du fait de leur forme. Il est souvent possible de les organiser et de les classer dans des feuilles de calcul (textes, dates…). A l’inverse, les données non structurées sont des données qui sont difficilement analysables étant donné leur nature. On trouvera dans cette catégorie les images, les vidéos…
Ne confondez plus Big Data, Data Warehouse (entrepôt de données) et Data Lake
Le Big Data
Chaque seconde, 29.000 Go de données sont échangés dans le monde. Et ce chiffre ne cesse d’augmenter ces dernières années. Cette quantité incroyable de données massives ou mégadonnées est appelée depuis quelques années le Big Data. Certains experts mettent en avant trois caractéristiques essentielles :
- Volume : on connaît tous les unités de mesure “traditionnelles” de données telles que le kilooctet, le mégaoctet voire le téraoctet en entreprise. Mais avec le Big Data, les futurs serveurs devront avoir la capacité de traiter des volumes de données qui vont se mesurer en exaoctets (10 puissance 18) et même zettaoctets (10 puissance 21)
- Vélocité : l’un des enjeux majeurs de l’accès et de l’échange des données est l’instantanéité. On souhaite aujourd’hui tout avoir tout de suite et ne pas avoir à patienter. Il s’agit donc d’être toujours plus rapide et même d’anticiper les différentes demandes
- Variété : qu’elle soit structurée ou non structurée, la donnée demande à être traitée et la variété du type de donnée induit logiquement une variété de traitement mais aussi des questions autour de la gestion et du contrôle de l’ensemble des données reçues
Toutes ces données sont conservées et stockées dans des serveurs qui sont regroupés dans des Data Centers. Aujourd’hui, le plus grand Data Center, propriété de China Telecom, occupe une surface de plus de 1 million de km2 pour 1,2 millions de serveurs.
Les Data Warehouse ou entrepôts de données
Si les Data Centers regroupent aussi les données des entreprises, ces dernières peuvent aussi posséder un Data Warehouse.
Il s’agit donc d’un espace de stockage unifié pour toutes les données provenant de l’ensemble des systèmes d’une organisation. Il peut prendre la forme d’un serveur physique ou être stocké dans le Cloud.
Les données stockées dans les entrepôts de données ont une finalité et peuvent être facilement utilisées notamment pour réaliser des reporting. On y stocke donc des données secondaires.
L’architecture d’un Data Warehouse est simple et se compose :
- D’une structure basique qui met à disposition l’ensemble des données pour que les utilisateurs puissent y avoir accès et les utiliser
- D’une zone d’essai qui permet de nettoyer les données avant que ces dernières ne soient stockées dans la structure basique. C’est ce qu’on appelle le Data Cleansing.
- D’un système Data marts qui permet de séparer les données selon les processus métiers ou départements (vente, marketing…). Cela permet que celles-ci soient accessibles plus rapidement. Cela renforce également la sécurité puisque les utilisateurs ne peuvent avoir accès qu’aux seules données dont ils ont besoin.
Un ODS (Operational Data store soit une base de données) peut également être mis en place pour stocker des données hétérogènes qui seront par la suite traitées avant d’être intégrées dans le Data Warehouse.
Les Data Lake
Enfin, on parle de plus en plus ces derniers temps des Data Lake ou lac de données. Il s’agit tout simplement d’un espace de stockage alternatif au Data Warehouse qui va permettre de stocker tout type de données.
Ainsi, un data lake ne sera pas destiné aux utilisateurs finaux mais aux data analysts qui devront analyser les données brutes pour les rendre compréhensibles et utilisables.
Nous allons entrer un peu plus dans le détail pour comprendre ses enjeux.
Les Data Lake en détail
Comme nous l’avons dit plus haut, le nombre de données échangées ne cesse de croître année après année dans notre société mais également dans le monde professionnel et dans les entreprises.
Outre la multitude de sources, c’est aussi la diversité des structures qui peut rendre complexe leur échange et leur analyse au sein de l’organisation.
Les origines des lacs de données
Le terme a été employé pour la première fois en 2010 par James Dixon qui reprochait au Data Warehouse et surtout au Data Mart d’être notamment trop restreint en termes de taille.
Il comparait d’ailleurs le Data Mart à une bouteille d’eau permettant la consommation facile. Pour continuer dans le domaine aquatique, il a donc évoqué un lac à l’état plus naturel qui possède différentes sources
"Si vous considérez un Data Mart comme un magasin vendant de l'eau en bouteille, nettoyée, conditionnée et structurée pour une consommation facile, le Data Lake est un grand plan d'eau dans un état plus naturel. Le contenu du flux du lac de données provient d'une source pour remplir le lac et divers utilisateurs du lac peuvent venir l'examiner, plonger dedans ou prendre des échantillons."
James Dixon (traduit de l'anglais)
Très rapidement, les grandes entreprises (dont les GAFAM alors en pleine croissance) ont adopté ces grands lacs de données. Mais toutes les mises en place ne sont pas soldées par des réussites, certains allant jusqu’à transformer ces lacs en marais : les Data Swamp.
Sans organisation et réelle structure, tous les Data Lake peuvent se transformer en Data Swamp, espace dans lequel se retrouve tout type de données sans réflexion derrière. On pourrait presque dire qu’il s’agit d’un lac laissé à l’abandon.
Comment éviter le data swamp ?
Il est essentiel de fixer un cadre de gouvernance. Cette gouvernance a trois caractéristiques :
- Situer la donnée et pouvoir accéder à l’information nécessaire dans le bon format. Elle doit être sécurisée et être au bon format selon l’utilisation que l’on va en avoir. On doit ainsi connaître son processus de transformation
- L’info a une durée de vie utile. Il faudra donc s’assurer de la supprimer quand on en a plus besoin
- Les données doivent être orchestrées. On parle d’orchestration lorsque les données sont configurées, gérées et coordonnées de façon simple et surtout automatisées. Contrairement à l’automatisation qui ne concerne qu’une tâche spécifique, l’orchestration est un processus un peu plus complexe et concerne souvent plusieurs systèmes.
Quelles sont les Caractéristiques Générales du Data Lake ?
Les données présentes dans le Data Lake sont des données qui seront potentiellement utiles dans le futur sans que l’on ne connaisse encore la finalité et l’utilisation que l’on va en avoir.
Il y a donc derrière cette technologie le concept de liberté de stocker n’importe quel type de données. Mais pour être considéré comme un Data Lake, il faut respecter trois caractéristiques clés :
- Un espace unique de stockage
- Une fonctionnalité d’orchestration
- Des applications ou flux permettant d’agir sur les données
Le lac de données va être très utile pour les entreprises que l’on appelle Data driven. Celles-ci fonctionnent autour des données qu’elles récupèrent. Ainsi, la plupart des décisions prises se font en fonction de ces dernières.
Il est donc indispensable de posséder les bonnes structures et les bonnes architectures afin que leur analyse soit efficace.
Quels sont les Composants Clefs de l’Architecture des Data Lake ?
Un Data Lake ne se met pas en place au hasard : il répond à des besoins métiers.
La première étape va donc être d’analyser ces besoins. Il faudra donc définir des objectifs en adoptant une double vision : savoir ce que l’on veut à court et moyen / long terme mais également par quoi commencer pour atteindre ces objectifs.
De là, il est plus facile de mettre en avant les possibles obstacles et donc de mettre en place les outils nécessaires pour les anticiper et les surmonter.
Il est également obligatoire d’avoir conscience des données que l’on possède avec notamment les problématiques de disponibilité et de qualité. De tout ce travail découle de nombreux outils comme une matrice de priorisation ou encore une roadmap business.
Puis vient le choix d’une architecture pragmatique, soit une architecture qui répond aux besoins présents et qui pourra potentiellement évoluer pour répondre à des besoins futurs.
Au sein de toute architecture de Data Lake, on peut compter cinq composantes clefs :
L’ingestion de données : un système capable d’ingérer des données multisources et multiformats (pages web, applications, systèmes IoT…). Il doit donc être flexible pour pouvoir s’exécuter sous différentes formes (en temps réel, en une fois ou par lots…)
Quels sont les avantages du data lake ?
Une base de schema-on-read : les données n’ont pas besoin d’avoir un format spécifique lors de l’ingestion car il n’y a pas de traitement mais une simple lecture à cette étape.
Comme un data lake n’a pas de réelle structure, il est donc flexible et s’adapte facilement aux changements comme à l’intégration de nouvelles données.
Un espace de stockage adapté pour tous les types de données et qui rompt avec les traditionnels silos. Les données n’ont pas besoin d’être traitées au préalable et l’ingestion se fait beaucoup plus rapidement que dans les Data Warehouse par exemple.
Centralisation des données : toutes les données de l’entreprise se trouvent dans un seul et même système ce qui facilite leur recherche ou encore leur comparaison.
Que choisir entre Data lake On-Premise ou Cloud ?
Lorsque l’on parlait de stockage de données, nous sommes restés pendant très longtemps avec l’image de ces grands couloirs composés d’armoires de serveurs dans lesquelles étaient conservés les données.
Mais aujourd’hui, la technologie Cloud permet de délocaliser ce stockage vers une entreprise proposant un service Cloud.
Les contraintes et avantages sont au final les mêmes que pour n’importe quel autre système. Ainsi, un Data Lake physique demandera de l’espace, du matériel, des compétences mais aussi un certain coût pour l’ensemble de la maintenance.
Pour un Data Lake sur le Cloud, les coûts matériels ne sont pas à la charge des entreprises. Néanmoins, il faudra faire attention aux coûts de stockage qui peuvent être élevés selon la quantité de données possédées. On retrouve les mêmes concurrents que sur le Cloud classique à savoir AWS, Azure et Google Cloud.
Découvrir plus d’articles VASPP


Réussir sa Migration SAP S4/HANA
Apprenez à réussir la migration vers SAP S/4 HANA avec cet article qui vous présente les étapes clés, les meilleures pratiques et les stratégies pour


Maitrisez vos Données avec SAP Analytics Cloud
SAP Analytics Cloud peut aider votre entreprise à maîtriser ses données et optimiser ses performances grâce à ses fonctionnalités clés d’analyse en temps réel et


Tout Savoir sur SAP S/4HANA : Fonctionnalités, Avantages et Mise En Place
Notre article met en avant les fonctionnalités avancées de S/4 HANA, un ERP innovant et intelligent. En l’intégrant à votre entreprise, vous pouvez bénéficier d’une