Ce blog couvrira de manière globale :  (a) Qu'est-ce que l'entreposage de données  (b) Approches de modélisation des données pour l'entrepôt de données  (c) Entrepôt de données sur AWS, et enfin  (d) Entreposage de données pour réduire la charge opérationnelle à l'aide du service géré.  Comprenons du point de vue d'un profane “   ” Qu'est - ce qu'un entrepôt de données  Selon    Wikipédia , un entrepôt de données (DW ou DWH), également connu sous le nom d'entrepôt de données d'entreprise (EDW), est un système utilisé pour le reporting et l'analyse des données et est considéré comme un élément essentiel de   . Les entrepôts de données sont des référentiels centraux de données intégrées provenant d'une ou plusieurs sources disparates. Ils stockent les données actuelles et historiques en un seul endroit qui est utilisé pour créer des rapports analytiques pour les travailleurs de toute l'entreprise. Ceci est bénéfique pour les entreprises car cela leur permet d’interroger et de tirer des enseignements de leurs données et de prendre des décisions. la business intelligence  En termes simples, il s’agit de l’art de collecter, de stocker et de fournir efficacement des informations (business intelligence) pour aider une entreprise à devenir une organisation axée sur les données. Dans un certain sens, il s'agit d'une autre base de données de transactions, mais optimisée pour les charges de travail analytiques.   Selon le diagramme ci-dessus, les données sont collectées à partir de la source, transformées par utilisation (ETL/ELT) et stockées dans DWH/Data Mart et Insights exposées via des outils de business intelligence.  Tout semblait simple à l'époque de la configuration sur site, lorsque ELT (ETL vs ELT), Cloud DWH (AWS Redshift, Google Big Query, Snowflake, Databricks) et d'autres solutions de données gérées étaient inexistantes, ce qui a récemment été simplifié et mis à l'échelle. la portée de DWH. Dans ce blog, comprenons chaque aspect un par un.  Par souci de simplicité, partons du principe qu'il n'existe pas de calcul et de stockage infinis et que le système transactionnel ne peut pas traiter efficacement les requêtes analytiques. C'est là qu'il fallait un moyen efficace pour concevoir un entrepôt de données qui soit optimal en termes de stockage, gère efficacement les requêtes analytiques (Slicing/dicing/Cube, etc.) et fournisse la latence requise.  Pour tout cela, deux modèles de conception théorique pour   sont apparus : la conception de Datawarehouse  (a) Bill Inmon – Approche descendante (EDW) et  (b) Ralph Kimball – Approche ascendante (Data Mart).  L'approche d'Inmon consiste à construire de manière centralisée à l'échelle mondiale et à prendre en compte une construction lente, tandis que la méthode de Kimball consiste à créer un magasin de données indépendant par silo et à se connecter plus tard. Ne nous penchons pas sur quel modèle est le meilleur ou lequel choisir. Dans mon cas, en un mot, les deux modèles fonctionnent et cela dépend totalement du cas d'utilisation et de la maturité de l'organisation. Un autre point clé de cette conception est la « représentation des données », la modélisation dimensionnelle utilisant un schéma en étoile, un schéma en flocon de neige ou un hybride d'étoile et de flocon de neige qui est un pivot clé d'une interrogation et d'une dimensionnalité plus rapides.   Le seul point clé à retenir est que, malgré une logistique infinie, une bonne conception de Datawarehouse peut résoudre un problème multidimensionnel. Alors mieux vaut ne pas l’ignorer.  La prochaine étape dans   est la plate-forme de choix qui peut varier de sur site (Teradata, IBM DB2, Oracle, etc.) à Cloud DW (Snowflake, Redshift, BigQuery, etc.). Construire un entrepôt de données traditionnel est complexe, et la gestion et la maintenance continues peuvent être difficiles et coûteuses. Dans la section suivante, nous verrons comment construire avec AWS Redshift (aucun argument si le sur site est meilleur ou le Cloud ou quel cloud DWH est le meilleur). la création d'un DW  Amazon Redshift est un entrepôt de données d'entreprise à l'échelle du pétaoctet entièrement géré qui offre des performances exceptionnelles pour les requêtes d'analyse, simples à utiliser et rentables. Amazon Redshift réduit la surcharge opérationnelle requise avec les entrepôts de données traditionnels en automatisant des tâches telles que l'application de correctifs, les sauvegardes et le provisionnement du matériel. Vous pouvez configurer un cluster Amazon Redshift dans lequel vous pouvez personnaliser l'infrastructure et les performances de base de votre entrepôt de données. Amazon Redshift fournit également une configuration Redshift Spectrum, Datashare, Redshift ML et sans serveur qui vous permet d'utiliser le cluster Amazon Redshift au-delà de DWH.  La manière de configurer,  Définir les services à exploiter pour la collecte de données (AWS DMS, DynamoDB, EMR, Glue, Kinesis, S3, SSH Host, etc.)  Définir un mode d'interaction (Outils d'analyse de requêtes et Interfaces de gestion)  Comprendre l'architecture Redshift MPP (distribuée, sans partage)  Lancez le cluster (DC2, DS2 ou RA3) avec la taille des données, la croissance, les nœuds et les performances des requêtes requises  Concevoir un schéma de base de données selon le cas d'utilisation ou l'implémentation DWH avec le type de données requis, le type de schéma, la compression, le tampon, l'encodage  Chargement de données en utilisant COPY pour différents types de fichiers, INSERT pour une modification minimale et ANALYZE & VACUUM pour la maintenance  Effectuer l'optimisation des requêtes et l'amélioration des performances  Tirez parti de S3 en utilisant Spectrum pour la table externe et le partage de données pour une copie zéro  Utilisez Redshift ML pour des informations approfondies  Tirez parti des outils AWS Quicksight for BI pour obtenir des informations.  Jusqu'à présent, il est logique d'utiliser Cloud DWH, mais   ? L'image ci-dessous explique comment les Data Lakes et les Data Warehouses fonctionnent ensemble de manière transparente. AWS RDS sert de source de données, fournissant une solution rentable et durable, qui alimente   . Les données sont ensuite transformées à l'aide de processus ETL et intégrées dans Redshift. Des services AWS supplémentaires tels qu'Athena, Glue, Spectrum, Lake Formation et d'autres jouent un rôle crucial pour combler le fossé afin de créer une solution de données complète.  comment cela s'intègre-t-il dans la solution DWH + Data Lake/Managed Services for Data Amazon S3  En conclusion, ce blog couvre les principes fondamentaux du Data Warehousing et approfondit l'approche de mise en œuvre à la fois théoriquement et en mettant l'accent sur la pile technologique. Nous obtenons également une vue d'ensemble de la manière dont il s'intègre parfaitement dans le paysage plus large des solutions de données.

Read My Stories

Cet audio est produit dans la langue originale de l'histoire !

Comprendre le fonctionnement de l'entreposage de données sur AWS

About Author

COMMENTAIRES

ÉTIQUETTES

CET ARTICLE A ÉTÉ PARU DANS

Related Stories

Croissance des crypto-monnaies : créer des profils d'utilisateurs efficaces

Le modèle Bitcoin UTXO, alimentant un écosystème unique

Des forums aux flux : comment les algorithmes des réseaux sociaux façonnent l'interaction numérique

Le guide complet pour réussir une migration vers le cloud : stratégies et bonnes pratiques

Croissance des crypto-monnaies : créer des profils d'utilisateurs efficaces

Le modèle Bitcoin UTXO, alimentant un écosystème unique

Des forums aux flux : comment les algorithmes des réseaux sociaux façonnent l'interaction numérique

Le guide complet pour réussir une migration vers le cloud : stratégies et bonnes pratiques

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps