Retour

Ingestion dans Fabric : toutes les options, quand choisir quoi ?

Temps de lecture : 3 minutes

Des Raccoucis (Shortcuts) au temps réel (Eventstreams), en passant par l’ETL (Pipelines) et le sans-code (Dataflows)

MéthodeCe que c’estQuand l’utiliser (exemples)AvantagesLimites / À éviter si…
Raccourcis (Shortcuts) OneLakePointeur vers des données existantes (sans copie).Réutiliser un dataset déjà stocké (OneLake/ADLS/S3/GCS), partage inter-workspaces/tenants.Zéro duplication, disponibilité immédiate, gouvernance d’origine conservée .Aucune transformation ni isolement de charge ; dépend des performances de la source et des coûts réseau.
Mirroring (Zero-ETL)Réplication continue via capture des changements (Change Data Capture) d’une base opérationnelle vers OneLake..ERP/CRM vers OneLake en continu pour la BI ; réduire la charge sur la base opérationnelleDonnées à jour sans construire de pipelines ; tables Delta prêtes côté Fabric.Sources supportées uniquement ; faibles possibilités d’évolution du schéma ; synchronisation initiale coûteuse en réseau.
Dataflows Gen2 (Power Query)Ingestion et préparation sans codeSaaS/Excel/SharePoint, nettoyage simple en libre-service.Démarrage rapide, interface connue, rafraîchissement incrémental possible.Chaînes complexes ou volumes élevés → préférer Pipelines / Spark.
Pipelines (Data Factory)Orchestration de traitements planifiés (copier → transformer → charger).Traitements récurrents avec dépendances, contrôles qualité, horaires & délais garantis.Dépendances, alertes, reprise, mapping, nombreux connecteurs.Surdimensionné pour une petite retouche.
Notebooks / Spark JobsIngestion/transformations en code (PySpark, SparkSQL).Gros volumes de fichiers, logique avancée, ML/feature engineering.Puissant, évolutif, prêt pour la mise en production via tâches planifiées.Nécessite des compétences de développement
Ingestion vers WarehouseT-SQL (COPY INTO) ou Pipelines vers tables du Warehouse ; flux temps réel possibles selon scénarios.Reporting certifié, règles SQL natives, charges contrôlées.Environnement SQL , sécurité détaillée, performant pour les tableaux de bord d’entrepriseMoins adapté pour fichiers bruts très variés (préparer d’abord dans le Lakehouse) .
Ingestion temps réel (Eventstreams / KQL)Capture de flux (IoT, logs), distribution vers KQL DB, Lakehouse ou Warehouse.Tableaux de bord en temps réel, alertes, métriques techniques .Faible latence, règles d’enrichissement à la volée.Inutile si une mise à jour quotidienne suffit ; coûteux si non filtré en amont.
Passerelles (Data Gateway)Pont sécurisé vers on-premises.Accéder à des BDD/ fichiers internes depuis Dataflows, Pipelines, Warehouse.Indispensable pour on-premises ; gouvernance centralisée.Charge d’administration additionnelle (redondance, maintenance)
Copilot (Fabric)Aide IA pour créer des connecteurs/étapes (Dataflows/Pipelines/SQL).Démarrage rapide, génération de requêtes/transformations.Accélère le design, pédagogie pour non-tech.Doit être relu/validé ; ne remplace pas la gouvernance.
Apache Airflow (interopérabilité)Orchestration externe ; déclenche Fabric (APIs) ou écrit dans OneLakeSi Airflow est déjà standard interne, pilotage multi-plateformes.Évite le double outillage côté Fabric ; s’intègre à l’existant.Monitoring réparti ; compétences Airflow requises.

Laisser un commentaire

Il n'y a pas de commentaires pour le moment. Soyez le premier à participer !