Accès & Ingestion dans Fabric : Mirroring vs Shortcuts
Mirroring
Réplication automatique et continue d’une base de données source (Azure SQL, Snowflake, Cosmos DB) vers OneLake en format Delta. Le système capture les modifications en temps réel via CDC intégré et maintient une copie synchronisée sans configuration ETL manuelle.
CDC (Change Data Capture) : Technologie qui surveille et capture automatiquement toutes les modifications de données (INSERT, UPDATE, DELETE) à partir des journaux transactionnels de la base source.
Cas d’usage : Synchroniser quotidiennement l’intégralité d’une base ERP (SAP, Business Central) vers Fabric pour alimenter un entrepôt de données analytique. Les modifications effectuées dans l’ERP (nouvelles commandes, mises à jour clients, modifications stocks) sont automatiquement répliquées dans OneLake sans intervention manuelle, permettant des analyses temps réel sur Power BI.
Shortcuts (Raccourcis)
Liens virtuels vers des données stockées ailleurs (OneLake, ADLS, S3, Google Cloud) sans copie ni duplication. Fonctionnent comme des pointeurs permettant d’accéder aux données à leur emplacement d’origine tout en les rendant disponibles dans ton Lakehouse Fabric.
Cas d’usage : Partager des données de référence (calendrier, nomenclatures produits, hiérarchies organisationnelles) entre plusieurs équipes ou workspaces sans dupliquer le stockage. Une équipe Finance maintient les données dans son Lakehouse, et les équipes Marketing et Ventes y accèdent via shortcuts pour leurs analyses respectives, garantissant une source unique de vérité sans multiplication des copies.
Répliquer une base ou référencer les données sans copie ?
| Critère | Mirroring (Zero-ETL) | Raccourcis (Shortcuts OneLake) |
| Rôle | Répliquer en continu une base opérationnelle prise en charge vers OneLake. | Accéder sans copier à des données déjà stockées (OneLake/ADLS/S3/GCS, autres workspaces/tenants). |
| Transformations | Limitées : reproduction à l’identique de la structure. | Aucune transformation : accès en lecture à la source. |
| Planification | Continu (CDC) : chargement initial puis capture des changements. | Aucune planification : la latence des données dépend de la source. |
| Volumes & performance | Permet de découpler la BI de la source et d’absorber la charge analytique. | Mise à disposition rapide ; les performances dépendent de la source et du réseau. |
| Suivi & alertes | État de réplication et erreurs visibles ; relance possible. | Peu / pas d’exécutions à surveiller (pas de run), suivi via usages/lineage. |
| Déploiement & changements | Rapide si source supportée ; schéma calqué sur la base. | Très simple : création/suppression de raccourci ; pas de mapping. |
| Sécurité & gouvernance | Données répliquées → contrôle côté OneLake (sécurité, partage). | Hérite des droits de la source ; partage inter-workspaces/tenants. |
| Coût & exploitation | Stockage supplémentaire pour le miroir + opérations de réplication. | Zéro duplication (coût stockage nul) ; possibles coûts d’accès/egress à la source. |
| Cas d’usage typiques | Pilotage en temps réel (CRM/ERP), déporter la charge analytique, BI opérationnelle. | Partage sans doublons, multi-cloud (S3/ADLS/GCS), réutiliser un jeu déjà gouverné. |
| À éviter | Source non supportée**, besoin de restructurer fortement le schéma. | Besoin d’isoler la charge, de transformer ou d’exécutions garanties dans les temps côté Fabric. |
| Exemple | Réplication SQL Server → OneLake → Power BI (Direct Lake). | Raccourci vers un bucket S3 consommé directement dans un Lakehouse. |
Laisser un commentaire
Il n'y a pas de commentaires pour le moment. Soyez le premier à participer !