Ingestion dans Fabric : toutes les options, quand choisir quoi ?

Temps de lecture : 3 minutes

Des Raccoucis (Shortcuts) au temps réel (Eventstreams), en passant par l’ETL (Pipelines) et le sans-code (Dataflows)

Méthode	Ce que c’est	Quand l’utiliser (exemples)	Avantages	Limites / À éviter si…
Raccourcis (Shortcuts) OneLake	Pointeur vers des données existantes (sans copie).	Réutiliser un dataset déjà stocké (OneLake/ADLS/S3/GCS), partage inter-workspaces/tenants.	Zéro duplication, disponibilité immédiate, gouvernance d’origine conservée .	Aucune transformation ni isolement de charge ; dépend des performances de la source et des coûts réseau.
Mirroring (Zero-ETL)	Réplication continue via capture des changements (Change Data Capture) d’une base opérationnelle vers OneLake..	ERP/CRM vers OneLake en continu pour la BI ; réduire la charge sur la base opérationnelle	Données à jour sans construire de pipelines ; tables Delta prêtes côté Fabric.	Sources supportées uniquement ; faibles possibilités d’évolution du schéma ; synchronisation initiale coûteuse en réseau.
Dataflows Gen2 (Power Query)	Ingestion et préparation sans code	SaaS/Excel/SharePoint, nettoyage simple en libre-service.	Démarrage rapide, interface connue, rafraîchissement incrémental possible.	Chaînes complexes ou volumes élevés → préférer Pipelines / Spark.
Pipelines (Data Factory)	Orchestration de traitements planifiés (copier → transformer → charger).	Traitements récurrents avec dépendances, contrôles qualité, horaires & délais garantis.	Dépendances, alertes, reprise, mapping, nombreux connecteurs.	Surdimensionné pour une petite retouche.
Notebooks / Spark Jobs	Ingestion/transformations en code (PySpark, SparkSQL).	Gros volumes de fichiers, logique avancée, ML/feature engineering.	Puissant, évolutif, prêt pour la mise en production via tâches planifiées.	Nécessite des compétences de développement
Ingestion vers Warehouse	T-SQL (COPY INTO) ou Pipelines vers tables du Warehouse ; flux temps réel possibles selon scénarios.	Reporting certifié, règles SQL natives, charges contrôlées.	Environnement SQL , sécurité détaillée, performant pour les tableaux de bord d’entreprise	Moins adapté pour fichiers bruts très variés (préparer d’abord dans le Lakehouse) .
Ingestion temps réel (Eventstreams / KQL)	Capture de flux (IoT, logs), distribution vers KQL DB, Lakehouse ou Warehouse.	Tableaux de bord en temps réel, alertes, métriques techniques .	Faible latence, règles d’enrichissement à la volée.	Inutile si une mise à jour quotidienne suffit ; coûteux si non filtré en amont.
Passerelles (Data Gateway)	Pont sécurisé vers on-premises.	Accéder à des BDD/ fichiers internes depuis Dataflows, Pipelines, Warehouse.	Indispensable pour on-premises ; gouvernance centralisée.	Charge d’administration additionnelle (redondance, maintenance)
Copilot (Fabric)	Aide IA pour créer des connecteurs/étapes (Dataflows/Pipelines/SQL).	Démarrage rapide, génération de requêtes/transformations.	Accélère le design, pédagogie pour non-tech.	Doit être relu/validé ; ne remplace pas la gouvernance.
Apache Airflow (interopérabilité)	Orchestration externe ; déclenche Fabric (APIs) ou écrit dans OneLake	Si Airflow est déjà standard interne, pilotage multi-plateformes.	Évite le double outillage côté Fabric ; s’intègre à l’existant.	Monitoring réparti ; compétences Airflow requises.

Laisser un commentaire

Il n'y a pas de commentaires pour le moment. Soyez le premier à participer !

Annuler la réponse

Vous devez vous connecter pour publier un commentaire.