Blog này sẽ bao gồm một cách tổng thể:  (a) Kho dữ liệu là gì  (b) Các phương pháp mô hình hóa dữ liệu cho Kho dữ liệu  (c) Kho dữ liệu trên AWS và cuối cùng là  (d) Lưu trữ dữ liệu để giảm tải hoạt động bằng Dịch vụ được quản lý.  Hãy hiểu từ góc nhìn của một người bình dân “   ” Kho dữ liệu là gì  Theo    Wikipedia - kho dữ liệu (DW hoặc DWH), còn được gọi là kho dữ liệu doanh nghiệp (EDW), là một hệ thống được sử dụng để báo cáo và phân tích dữ liệu và được coi là thành phần cốt lõi của   . Kho dữ liệu là kho lưu trữ trung tâm của dữ liệu tích hợp từ một hoặc nhiều nguồn khác nhau. Họ lưu trữ dữ liệu hiện tại và lịch sử ở một nơi duy nhất được sử dụng để tạo báo cáo phân tích cho nhân viên trong toàn doanh nghiệp. Điều này có lợi cho các công ty vì nó cho phép họ thẩm vấn và rút ra những hiểu biết sâu sắc từ dữ liệu của họ và đưa ra quyết định. kinh doanh thông minh  Về cơ bản, đó là nghệ thuật thu thập, lưu trữ và cung cấp hiệu quả những hiểu biết sâu sắc (thông tin kinh doanh) để giúp doanh nghiệp trở thành một tổ chức dựa trên dữ liệu. Theo một nghĩa nào đó, đó là một cơ sở dữ liệu giao dịch khác nhưng được tối ưu hóa cho khối lượng công việc phân tích.   Theo sơ đồ trên, dữ liệu được thu thập từ nguồn, chuyển đổi theo mức sử dụng (ETL/ELT) và được lưu trữ trong DWH/Data mart và Thông tin chi tiết được hiển thị thông qua các công cụ nghiệp vụ thông minh.  Tất cả đều trông đơn giản vào thời thiết lập tại chỗ khi ELT (ETL so với ELT), Cloud DWH (AWS Redshift, Google Big Query, Snowflake, Databricks) và các giải pháp Dữ liệu được quản lý khác không tồn tại, gần đây đã được đơn giản hóa và thu nhỏ tầm với của DWH. Trong blog này, chúng ta hãy hiểu từng khía cạnh một.  Để đơn giản, hãy sử dụng tiền đề rằng không có khả năng tính toán và lưu trữ vô hạn và hệ thống giao dịch không thể xử lý các truy vấn phân tích một cách hiệu quả. Đây là lúc cần có một cách hiệu quả để thiết kế kho dữ liệu có khả năng lưu trữ tối ưu, xử lý hiệu quả các truy vấn phân tích (Cắt/cắt hạt/Khối, v.v.) và cung cấp độ trễ cần thiết.  Đối với tất cả những điều này, hai mô hình thiết kế lý thuyết cho   đã được đưa ra bởi: thiết kế Datawarehouse  (a) Bill Inmon – Cách tiếp cận từ trên xuống (EDW) và  (b) Ralph Kimball – Cách tiếp cận từ dưới lên (Data mart).  Cách tiếp cận của Inmon là xây dựng tập trung ở quy mô toàn cầu và xây dựng chậm trong khi cách của Kimball là tạo ra một trung tâm dữ liệu độc lập bằng silo và kết nối với nhau sau đó. Chúng ta đừng đi sâu vào mô hình nào là tốt nhất hoặc nên chọn mô hình nào. Trong trường hợp của tôi, tóm lại, cả hai mô hình đều hoạt động và nó hoàn toàn phụ thuộc vào trường hợp sử dụng và mức độ trưởng thành của tổ chức. Một điểm quan trọng khác trong thiết kế này là “Biểu diễn dữ liệu”, mô hình hóa thứ nguyên bằng cách sử dụng Lược đồ hình sao, Lược đồ bông tuyết hoặc Sự kết hợp giữa Sao và bông tuyết, đây là điểm mấu chốt của truy vấn và chiều nhanh hơn.   Bài học rút ra quan trọng duy nhất là mặc dù hậu cần vô hạn nhưng một thiết kế Datawarehouse tốt có thể giải quyết được vấn đề đa chiều. Vì vậy, tốt hơn hết là đừng bỏ qua nó.  Bước tiếp theo trong   là nền tảng được lựa chọn có thể thay đổi từ tại chỗ (Teradata, IBM DB2, Oracle, v.v.) đến Cloud DW (Snowflake, Redshift, BigQuery, v.v.). Việc xây dựng kho dữ liệu truyền thống rất phức tạp và việc quản lý cũng như bảo trì liên tục có thể gặp nhiều thách thức và tốn kém. Trong phần tiếp theo, chúng ta sẽ đi sâu vào cách xây dựng bằng AWS Redshift (không cần bàn cãi liệu tại chỗ tốt hơn hay Đám mây hay DWH đám mây nào tốt hơn). Xây dựng DW  Amazon Redshift là kho dữ liệu cấp doanh nghiệp có quy mô petabyte được quản lý toàn phần, cung cấp hiệu suất vượt trội cho các truy vấn phân tích, sử dụng đơn giản và tiết kiệm chi phí. Amazon Redshift giảm chi phí hoạt động cần thiết với kho dữ liệu truyền thống bằng cách tự động hóa các tác vụ như vá lỗi, sao lưu và cung cấp phần cứng. Bạn có thể đặt cấu hình cụm Amazon Redshift nơi bạn có thể tùy chỉnh cơ sở hạ tầng và đường cơ sở hiệu suất cho kho dữ liệu của mình. Amazon Redshift cũng cung cấp thiết lập Redshift Spectrum, Datashare, Redshift ML và Serverless cho phép bạn sử dụng cụm Amazon Redshift ngoài DWH.  Cách để thiết lập,  Xác định những dịch vụ nào cần tận dụng để thu thập dữ liệu (AWS DMS, DynamoDB, EMR, Glue, Kinesis, S3, SSH Host, v.v.)  Xác định cách tương tác (Công cụ phân tích truy vấn và Giao diện quản lý)  Hiểu kiến trúc Redshift MPP (Phân tán, không chia sẻ gì)  Cụm khởi chạy (DC2, DS2 hoặc RA3) với kích thước dữ liệu, tốc độ tăng trưởng, nút và hiệu suất truy vấn được yêu cầu  Thiết kế lược đồ cơ sở dữ liệu theo trường hợp sử dụng hoặc triển khai DWH với Loại dữ liệu, loại lược đồ, nén, bộ đệm, mã hóa được yêu cầu  Tải dữ liệu bằng cách sử dụng COPY cho các loại tệp khác nhau, INSERT để thay đổi tối thiểu và PHÂN TÍCH & VACUUM để bảo trì  Thực hiện tối ưu hóa truy vấn và nâng cao hiệu suất  Tận dụng S3 bằng Spectrum cho bảng bên ngoài và Chia sẻ dữ liệu để không sao chép  Sử dụng Redshift ML để có thông tin chuyên sâu  Tận dụng công cụ AWS Quicksight cho BI để hiểu rõ hơn.  Cho đến nay, việc sử dụng Cloud DWH là hợp lý nhưng   ? Hình ảnh bên dưới giải thích cách Hồ dữ liệu và Kho dữ liệu hoạt động liền mạch với nhau. AWS RDS đóng vai trò là nguồn dữ liệu, cung cấp giải pháp bền bỉ và tiết kiệm chi phí, được đưa vào   . Sau đó, dữ liệu được chuyển đổi bằng quy trình ETL và được đưa vào Redshift. Các dịch vụ AWS bổ sung như Athena, Glue, Spectrum, Lake Formation và các dịch vụ khác đóng vai trò quan trọng trong việc thu hẹp khoảng cách để tạo ra Giải pháp dữ liệu toàn diện.  điều này phù hợp như thế nào trong Sơ đồ lớn về giải pháp DWH + Data Lake/Dịch vụ được quản lý cho dữ liệu Amazon S3  Tóm lại, blog này trình bày các nguyên tắc cơ bản về Kho dữ liệu, đi sâu vào cách tiếp cận triển khai cả về mặt lý thuyết và tập trung vào nền tảng công nghệ. Chúng tôi cũng có được cái nhìn toàn cảnh về cách nó tích hợp liền mạch vào bối cảnh rộng hơn của các giải pháp dữ liệu.

Read My Stories

Nghe bài viết này bằng Tiếng Anh, đọc bởi robot thông minh của HackerNoon

Tìm hiểu cách hoạt động của kho dữ liệu trên AWS

About Author

BÌNH LUẬN

chuyên mục

BÀI VIẾT NÀY CŨNG CÓ MẶT TẠI

Related Stories

94 Stories To Learn About John Locke

128 Stories To Learn About Charles Dickens

72 Stories To Learn About The Essays Of Adam Smith

85 Stories To Learn About Travel

94 Stories To Learn About John Locke

128 Stories To Learn About Charles Dickens

72 Stories To Learn About The Essays Of Adam Smith

85 Stories To Learn About Travel

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps