Les méthodes d’ingestion de données dans Fabric : Pipeline

Temps de lecture : 2 minutes

Pipelines : l’orchestrateur d’ingestion et de traitements de Fabric

Les Pipelines apportent, au sein de Fabric, les capacités d’ingestion et d’orchestration d’Azure Data Factory.
Un pipeline est un flux de travail data qui orchestré et automatise des processus ETL/ELT (planification, dépendances, conditions, notifications) en enchaînant des activités (Dataflows Gen2, Notebooks Spark, T-SQL…).

Avantages

Orchestration complète des tâches de données (ingestion, transformation, chargement).
Supporte des dépendances entre activités.
Permet des exécutions planifiées, manuelles ou déclenchées par évènements.
Intègre Dataflows Gen2 et d’autres activités (copie de données, exécution Spark, etc.).
Offre un suivi via le hub de monitoring intégré.

Limites

Les pipelines orchestrent, ils ne calculent pas, utilise les pipelines pour enchaîner les étapes. Pour transformer les données, passe par Notebooks Spark, Warehouse (T-SQL) ou Dataflows Gen2. Le pipeline ne remplace pas ces moteurs.
Pas de temps réel strict :
Déclenchements à l’horaire ou sur événement : oui.
Latence sub-seconde : non.
Pour le streaming et la télémétrie en direct, utilise Real-Time Intelligence (Eventstreams).
Overhead d’orchestration (coûts et latences)
Chaque activité ajoute un peu de temps et de coût.
Bonnes pratiques : regrouper les micro-tâches, exécuter la logique au plus près des données (Spark/SQL), limiter les copies et privilégier les Shortcuts OneLake.

Laisser un commentaire

Il n'y a pas de commentaires pour le moment. Soyez le premier à participer !

Annuler la réponse

Vous devez vous connecter pour publier un commentaire.