Les Data Warehouses, les Datamarts et Data Lakes constituent les éléments incontournables des écosystèmes de données modernes. Ils forment une suite d'outils et de technologies utilisés pour rendre les données provenant de sources disparates disponibles sur une plate-forme unique.
💡 Je vous invite à lire ou relire mon article précédent : Data Warehouse vs Data Lake vs Data Mart : le guide - Définition pour bien appréhender ces concepts.
Dans cet article, nous allons voir comment les activités d’intégration de données qui sont une condition préalable à l'analyse s’articulent entre Data Warehouse, Data Lake et Datamart.
C'est l'approche la plus simple de l'intégration des données, et celle qui est communément recommandée pour la plupart des organisations. Elle consiste à utiliser un entrepôt de données comme référentiel de données.
L’écosystème de données comprend les composants suivants :
Les Datamarts sont des sous-ensembles du Data Warehouse. Bien que les Datamarts tels que définis traditionnellement soient obsolètes, il est toujours possible d'utiliser des vues virtuelles et/ou des vues matérialisées pour diviser les données en modèles pour des équipes et des unités commerciales spécifiques.
Un écosystème comprenant des datamarts ressemblerait à ceci :
Les Datalakes peuvent être utilisés comme référentiel central pour les données structurées et non structurées. Cela implique cependant généralement le sacrifice d’une structure relationnelle. Bien que cet écosystème de données soit possible, il n'est pas recommandé. Cela s’explique par le fait que les outils de business intelligence (BI) actuels prennent généralement en charge l'accès aux Data Warehouses (données structurées), et pas encore aux Datalakes (données non-structurées).
Un outil de reporting et de tableau de bord BI alimenté depuis un Datalake est susceptible d'être une solution personnalisée créée par une équipe de data scientists et d'ingénieur de données, avec un coût plus élevé associé :
Un lac de données peut également être utilisé comme environnement de préparation (staging) pour les data warehouses :
Si votre organisation est particulièrement étendue, complexe et qu’elle stocke beaucoup de données non structurées, cela peut justifier de combiner tous les types de technologies :
Votre configuration dépendra surtout de votre cas d'utilisation, de la taille et de la composition de votre entreprise et des compétences de vos analystes et ingénieurs.
Dans la majeur partie des cas, il est recommandé de simplement commencer par un Data Warehouse. En effet, celui-ci reste le bloc central des différentes configurations que nous avons parcouru. Il vous permettra ainsi de garder une option pour des évolutions futures sans nécessité de revoir l’ensemble de l’écosystème.