Ce blog couvrira de manière globale :
(a) Qu'est-ce que l'entreposage de données
(b) Approches de modélisation des données pour l'entrepôt de données
(c) Entrepôt de données sur AWS, et enfin
(d) Entreposage de données pour réduire la charge opérationnelle à l'aide du service géré.
Comprenons du point de vue d'un profane “ Qu'est - ce qu'un entrepôt de données ”
Selon Wikipédia , un entrepôt de données (DW ou DWH), également connu sous le nom d'entrepôt de données d'entreprise (EDW), est un système utilisé pour le reporting et l'analyse des données et est considéré comme un élément essentiel de la business intelligence . Les entrepôts de données sont des référentiels centraux de données intégrées provenant d'une ou plusieurs sources disparates. Ils stockent les données actuelles et historiques en un seul endroit qui est utilisé pour créer des rapports analytiques pour les travailleurs de toute l'entreprise. Ceci est bénéfique pour les entreprises car cela leur permet d’interroger et de tirer des enseignements de leurs données et de prendre des décisions.
En termes simples, il s’agit de l’art de collecter, de stocker et de fournir efficacement des informations (business intelligence) pour aider une entreprise à devenir une organisation axée sur les données. Dans un certain sens, il s'agit d'une autre base de données de transactions, mais optimisée pour les charges de travail analytiques.
Selon le diagramme ci-dessus, les données sont collectées à partir de la source, transformées par utilisation (ETL/ELT) et stockées dans DWH/Data Mart et Insights exposées via des outils de business intelligence.
Tout semblait simple à l'époque de la configuration sur site, lorsque ELT (ETL vs ELT), Cloud DWH (AWS Redshift, Google Big Query, Snowflake, Databricks) et d'autres solutions de données gérées étaient inexistantes, ce qui a récemment été simplifié et mis à l'échelle. la portée de DWH. Dans ce blog, comprenons chaque aspect un par un.
Par souci de simplicité, partons du principe qu'il n'existe pas de calcul et de stockage infinis et que le système transactionnel ne peut pas traiter efficacement les requêtes analytiques. C'est là qu'il fallait un moyen efficace pour concevoir un entrepôt de données qui soit optimal en termes de stockage, gère efficacement les requêtes analytiques (Slicing/dicing/Cube, etc.) et fournisse la latence requise.
Pour tout cela, deux modèles de conception théorique pour la conception de Datawarehouse sont apparus :
(a) Bill Inmon – Approche descendante (EDW) et
(b) Ralph Kimball – Approche ascendante (Data Mart).
L'approche d'Inmon consiste à construire de manière centralisée à l'échelle mondiale et à prendre en compte une construction lente, tandis que la méthode de Kimball consiste à créer un magasin de données indépendant par silo et à se connecter plus tard. Ne nous penchons pas sur quel modèle est le meilleur ou lequel choisir. Dans mon cas, en un mot, les deux modèles fonctionnent et cela dépend totalement du cas d'utilisation et de la maturité de l'organisation. Un autre point clé de cette conception est la « représentation des données », la modélisation dimensionnelle utilisant un schéma en étoile, un schéma en flocon de neige ou un hybride d'étoile et de flocon de neige qui est un pivot clé d'une interrogation et d'une dimensionnalité plus rapides.
Le seul point clé à retenir est que, malgré une logistique infinie, une bonne conception de Datawarehouse peut résoudre un problème multidimensionnel. Alors mieux vaut ne pas l’ignorer.
La prochaine étape dans la création d'un DW est la plate-forme de choix qui peut varier de sur site (Teradata, IBM DB2, Oracle, etc.) à Cloud DW (Snowflake, Redshift, BigQuery, etc.). Construire un entrepôt de données traditionnel est complexe, et la gestion et la maintenance continues peuvent être difficiles et coûteuses. Dans la section suivante, nous verrons comment construire avec AWS Redshift (aucun argument si le sur site est meilleur ou le Cloud ou quel cloud DWH est le meilleur).
Amazon Redshift est un entrepôt de données d'entreprise à l'échelle du pétaoctet entièrement géré qui offre des performances exceptionnelles pour les requêtes d'analyse, simples à utiliser et rentables. Amazon Redshift réduit la surcharge opérationnelle requise avec les entrepôts de données traditionnels en automatisant des tâches telles que l'application de correctifs, les sauvegardes et le provisionnement du matériel. Vous pouvez configurer un cluster Amazon Redshift dans lequel vous pouvez personnaliser l'infrastructure et les performances de base de votre entrepôt de données. Amazon Redshift fournit également une configuration Redshift Spectrum, Datashare, Redshift ML et sans serveur qui vous permet d'utiliser le cluster Amazon Redshift au-delà de DWH.
La manière de configurer,
Jusqu'à présent, il est logique d'utiliser Cloud DWH, mais comment cela s'intègre-t-il dans la solution DWH + Data Lake/Managed Services for Data ? L'image ci-dessous explique comment les Data Lakes et les Data Warehouses fonctionnent ensemble de manière transparente. AWS RDS sert de source de données, fournissant une solution rentable et durable, qui alimente Amazon S3 . Les données sont ensuite transformées à l'aide de processus ETL et intégrées dans Redshift. Des services AWS supplémentaires tels qu'Athena, Glue, Spectrum, Lake Formation et d'autres jouent un rôle crucial pour combler le fossé afin de créer une solution de données complète.
En conclusion, ce blog couvre les principes fondamentaux du Data Warehousing et approfondit l'approche de mise en œuvre à la fois théoriquement et en mettant l'accent sur la pile technologique. Nous obtenons également une vue d'ensemble de la manière dont il s'intègre parfaitement dans le paysage plus large des solutions de données.