Data Lake et Azure Data Lake Storage Gen2 : comprendre la différence et leur lien
Dans l’univers des données, Data Lake et ADLS Gen2 sont deux notions clés. Nous les définissons simplement et montrons leur lien pour mieux comprendre comment bâtir une plateforme de données moderne sur Azure.
Data Lake :

Un lac de données est une plateforme de stockage capable d’absorber de très grands volumes de données dans leur état natif, pour des usages variés.
Alimenté par de multiples sources, il accueille des données structurées (tables relationnelles), semi-structurées (JSON, XML, journaux) et non structurées (images, audio, vidéo).
Les données y sont conservées telles quelles, et les transformations ne sont appliquées qu’au moment de l’analyse : c’est le principe du schéma en lecture (schema-on-read).
Plutôt que de forcer les données à entrer dans un modèle prédéfini, le data lake les stocke dans leur format brut, généralement sous forme de fichiers ou d’objets BLOB*.Cela permet de conserver les données dans leur intégrité et de les exploiter facilement par la suite.
BLOB (Binary Large Object) * : c’est-à-dire un objet binaire volumineux.
En pratique, un BLOB est un fichier de données (texte, image, vidéo, document, dataset, etc.) stocké dans le service Azure Blob Storage. C’est la brique de base du stockage dans Azure : tout ce que tu enregistres dans un conteneur est un BLOB.

Azure Data Lake Storage Gen2 (ADLS Gen2) :

Azure Data Lake Storage Gen2 (ADLS Gen2) est le service Azure qui met en œuvre concrètement le concept de Data Lake.
Il permet de stocker, organiser et analyser de très grands volumes de données dans leur format natif, tout en bénéficiant des capacités du cloud Azure en matière de performance, sécurité et évolutivité.
ADLS Gen2 repose sur Azure Blob Storage, la technologie de stockage d’objets d’Azure, à laquelle il ajoute des fonctionnalités spécifiques aux besoins analytiques et big data.
On peut donc le voir comme une évolution de Blob Storage, adaptée au traitement massif de données.
Organisation du stockage dans ADLS Gen2 :
Dans ADLS Gen2, les données sont regroupées dans des conteneurs. Pense-les comme de grands dossiers dans ton compte de stockage Azure : chaque conteneur rassemble des fichiers/objets BLOB (bruts, transformés ou prêts à l’analyse) et peut contenir des dossiers et sous-dossiers. Cette organisation permet de séparer par domaine métier, environnement (dev, test, prod) ou niveau de traitement (raw, curated, gold). Fidèle au schéma en lecture, les données restent dans leur format d’origine et ne sont structurées qu’au moment de l’analyse.

Laisser un commentaire
Il n'y a pas de commentaires pour le moment. Soyez le premier à participer !