🎯 Situation
Un client évaluant Microsoft Fabric a demandé : 'On utilise le Lakehouse ou l'Entrepôt de données ?' Les deux apparaissaient dans le workspace Fabric. Les deux stockaient des données tabulaires. Les deux se connectaient à Power BI. Leur data engineer avait utilisé Azure Synapse (un entrepôt) pendant des années. Leur data scientist connaissait les notebooks Spark (un pattern lakehouse). Chacun pensait que l'outil de l'autre était la bonne réponse pour Fabric.
⚠️ Challenge
🟡 Lakehouse — fichiers et code en premier
- Stocke les données comme des fichiers Delta Lake sur OneLake — format ouvert, accessible depuis Spark, Python et SQL
- Interface principale : notebooks Spark et point de terminaison SQL Analytics
- Gère les données structurées ET non structurées (fichiers, JSON, images, CSV bruts)
- Idéal pour : data engineering, entraînement de modèles ML, ingestion de données multi-format
- L'équipe qui l'utilise : data engineers et data scientists qui écrivent Python/Spark
📊 Entrepôt de données — SQL et structure en premier
- Stocke les données en format colonnaire avec enforcement strict du schéma
- Interface principale : T-SQL — familier pour tout développeur SQL ou analyste BI
- Gère uniquement les données tabulaires structurées — pas de fichiers bruts, pas de formats semi-structurés
- Idéal pour : reporting BI, analytique gouvernée, données déjà propres et structurées
- L'équipe qui l'utilise : développeurs BI, analystes SQL, créateurs de rapports Power BI
🔍 Analyse
Le cadre de décision pratique :
- Vos utilisateurs principaux écrivent Python/Spark → Lakehouse
- Vos utilisateurs principaux écrivent SQL → Entrepôt
- Vous avez des données brutes non traitées (fichiers d'APIs, exports, IoT) → Lakehouse pour ingérer, puis exposer optionnellement via le point SQL
- Vos données sont déjà propres et structurées (depuis un ERP, CRM ou base existante) → Entrepôt directement
- Vous avez besoin de ML ou d'analytique avancée → Lakehouse
- Vous avez besoin d'un reporting gouverné et de dashboards Power BI → Entrepôt
✓️ Bonne pratique
Quand commencer avec l'Entrepôt (plus simple) :
- Votre équipe connaît SQL et ne veut pas apprendre Spark
- Vos données arrivent déjà propres depuis une ou deux sources structurées
- Power BI est votre principal consommateur des données
- Vous remplacez une base Azure SQL par une solution native Fabric
Quand commencer avec le Lakehouse (plus puissant) :
- Vous avez des sources de données brutes diverses qui nécessitent un nettoyage Python avant d'être interrogeables
- Vous avez besoin de workflows ML ou data science en parallèle du BI
- Votre équipe data comprend des ingénieurs à l'aise avec Spark et les notebooks
- Vous construisez un pipeline multi-niveaux (Bronze/Silver/Gold)
💡 Synthèse
Le Lakehouse et l'Entrepôt sont tous deux puissants. Aucun n'est universellement meilleur. Le Lakehouse est une plateforme de data engineering. L'Entrepôt est une plateforme d'analytique gouvernée. Si votre équipe est principalement SQL et BI — commencez avec l'Entrepôt. Si elle comprend des data engineers ou data scientists — commencez avec le Lakehouse, et exposez les données à Power BI via le point SQL ou un Entrepôt en aval.
👉 Le Lakehouse est pour les data engineers. L'Entrepôt est pour les analystes data.
La plupart des équipes ont besoin des deux — et Fabric les fait travailler ensemble.