Les méthodes d’ingestion de données dans Fabric : Pipeline
Temps de lecture : 2 minutes
Pipelines : l’orchestrateur d’ingestion et de traitements de Fabric
Les Pipelines apportent, au sein de Fabric, les capacités d’ingestion et d’orchestration d’Azure Data Factory.
Un pipeline est un flux de travail data qui orchestré et automatise des processus ETL/ELT (planification, dépendances, conditions, notifications) en enchaînant des activités (Dataflows Gen2, Notebooks Spark, T-SQL…).
Avantages
- Orchestration complète des tâches de données (ingestion, transformation, chargement).
- Supporte des dépendances entre activités.
- Permet des exécutions planifiées, manuelles ou déclenchées par évènements.
- Intègre Dataflows Gen2 et d’autres activités (copie de données, exécution Spark, etc.).
- Offre un suivi via le hub de monitoring intégré.
Limites
- Les pipelines orchestrent, ils ne calculent pas, utilise les pipelines pour enchaîner les étapes. Pour transformer les données, passe par Notebooks Spark, Warehouse (T-SQL) ou Dataflows Gen2. Le pipeline ne remplace pas ces moteurs.
- Pas de temps réel strict :
Déclenchements à l’horaire ou sur événement : oui.
Latence sub-seconde : non.
Pour le streaming et la télémétrie en direct, utilise Real-Time Intelligence (Eventstreams). - Overhead d’orchestration (coûts et latences)
Chaque activité ajoute un peu de temps et de coût.
Bonnes pratiques : regrouper les micro-tâches, exécuter la logique au plus près des données (Spark/SQL), limiter les copies et privilégier les Shortcuts OneLake.
Laisser un commentaire
Il n'y a pas de commentaires pour le moment. Soyez le premier à participer !