Ingestion dans Fabric : toutes les options, quand choisir quoi ?
Temps de lecture : 3 minutes
Des Raccoucis (Shortcuts) au temps réel (Eventstreams), en passant par l’ETL (Pipelines) et le sans-code (Dataflows)
| Méthode | Ce que c’est | Quand l’utiliser (exemples) | Avantages | Limites / À éviter si… |
| Raccourcis (Shortcuts) OneLake | Pointeur vers des données existantes (sans copie). | Réutiliser un dataset déjà stocké (OneLake/ADLS/S3/GCS), partage inter-workspaces/tenants. | Zéro duplication, disponibilité immédiate, gouvernance d’origine conservée . | Aucune transformation ni isolement de charge ; dépend des performances de la source et des coûts réseau. |
| Mirroring (Zero-ETL) | Réplication continue via capture des changements (Change Data Capture) d’une base opérationnelle vers OneLake.. | ERP/CRM vers OneLake en continu pour la BI ; réduire la charge sur la base opérationnelle | Données à jour sans construire de pipelines ; tables Delta prêtes côté Fabric. | Sources supportées uniquement ; faibles possibilités d’évolution du schéma ; synchronisation initiale coûteuse en réseau. |
| Dataflows Gen2 (Power Query) | Ingestion et préparation sans code | SaaS/Excel/SharePoint, nettoyage simple en libre-service. | Démarrage rapide, interface connue, rafraîchissement incrémental possible. | Chaînes complexes ou volumes élevés → préférer Pipelines / Spark. |
| Pipelines (Data Factory) | Orchestration de traitements planifiés (copier → transformer → charger). | Traitements récurrents avec dépendances, contrôles qualité, horaires & délais garantis. | Dépendances, alertes, reprise, mapping, nombreux connecteurs. | Surdimensionné pour une petite retouche. |
| Notebooks / Spark Jobs | Ingestion/transformations en code (PySpark, SparkSQL). | Gros volumes de fichiers, logique avancée, ML/feature engineering. | Puissant, évolutif, prêt pour la mise en production via tâches planifiées. | Nécessite des compétences de développement |
| Ingestion vers Warehouse | T-SQL (COPY INTO) ou Pipelines vers tables du Warehouse ; flux temps réel possibles selon scénarios. | Reporting certifié, règles SQL natives, charges contrôlées. | Environnement SQL , sécurité détaillée, performant pour les tableaux de bord d’entreprise | Moins adapté pour fichiers bruts très variés (préparer d’abord dans le Lakehouse) . |
| Ingestion temps réel (Eventstreams / KQL) | Capture de flux (IoT, logs), distribution vers KQL DB, Lakehouse ou Warehouse. | Tableaux de bord en temps réel, alertes, métriques techniques . | Faible latence, règles d’enrichissement à la volée. | Inutile si une mise à jour quotidienne suffit ; coûteux si non filtré en amont. |
| Passerelles (Data Gateway) | Pont sécurisé vers on-premises. | Accéder à des BDD/ fichiers internes depuis Dataflows, Pipelines, Warehouse. | Indispensable pour on-premises ; gouvernance centralisée. | Charge d’administration additionnelle (redondance, maintenance) |
| Copilot (Fabric) | Aide IA pour créer des connecteurs/étapes (Dataflows/Pipelines/SQL). | Démarrage rapide, génération de requêtes/transformations. | Accélère le design, pédagogie pour non-tech. | Doit être relu/validé ; ne remplace pas la gouvernance. |
| Apache Airflow (interopérabilité) | Orchestration externe ; déclenche Fabric (APIs) ou écrit dans OneLake | Si Airflow est déjà standard interne, pilotage multi-plateformes. | Évite le double outillage côté Fabric ; s’intègre à l’existant. | Monitoring réparti ; compétences Airflow requises. |
Laisser un commentaire
Il n'y a pas de commentaires pour le moment. Soyez le premier à participer !