paint-brush
Sử dụng các bảng bên ngoài để lưu trữ và truy vấn dữ liệu trên MinIO với SQL Server 2022từ tác giả@minio
8,347 lượt đọc
8,347 lượt đọc

Sử dụng các bảng bên ngoài để lưu trữ và truy vấn dữ liệu trên MinIO với SQL Server 2022

từ tác giả MinIONaN2023/07/24
Read on Terminal Reader
Read this story w/o Javascript

dài quá đọc không nổi

Với Microsoft SQL Server 2022, bộ nhớ đối tượng trở thành công dân hạng nhất thông qua một kỹ thuật gọi là bảng bên ngoài. Có hai phần. Đầu tiên, một đầu nối S3. Thứ hai, các cải tiến đối với khung ảo hóa dữ liệu Polybase. Với sự bổ sung này, giờ đây các doanh nghiệp có thể truy vấn các kho đối tượng khổng lồ bằng SQL Server 2022 - bất cứ nơi nào các kho đối tượng đó tồn tại. Tính năng mới giải quyết hai thách thức chính của khách hàng - cách truy cập dữ liệu tại chỗ và không phải học ngôn ngữ mới. Với MinIO, dữ liệu có thể ở mọi nơi - cơ sở hạ tầng đám mây công cộng, đám mây riêng, bản phân phối Kubernetes, biên.
featured image - Sử dụng các bảng bên ngoài để lưu trữ và truy vấn dữ liệu trên MinIO với SQL Server 2022
MinIO HackerNoon profile picture
0-item

Dữ liệu là một chuyện, cái nhìn sâu sắc là một chuyện khác. Có nhiều cách để rút ra cái nhìn sâu sắc từ thông tin - và phạm vi đó đi kèm với sự đánh đổi. Nếu bạn coi đây là một kim tự tháp, thì bạn có AI ở trên cùng, ML ngay bên dưới, phân tích nâng cao bên dưới và SQL làm nền tảng. Đây là một hình ảnh đơn giản hóa, nhưng đại diện cho phân tích trong doanh nghiệp.



Thách thức là tài năng AI/ML thực sự khó kiếm. Đây không nhất thiết phải là tin mới, nhưng nó được kết tinh trong các cuộc trò chuyện với các đồng nghiệp, những người chịu trách nhiệm chạy phân tích cho một số công ty lớn nhất trong danh sách Fortune 500. Mặc dù AI và ML hứa hẹn sẽ cung cấp một số hiểu biết sâu sắc nhất về dữ liệu, nhưng việc thiết lập và tận dụng các quy trình ML này đòi hỏi khả năng khoa học dữ liệu rất phức tạp. Trong nhiều trường hợp, đây là những dự án có phạm vi dài, mất hàng tháng nếu không muốn nói là hàng năm để hoàn thành và có thể yêu cầu đào tạo lại đội ngũ nhân viên hiện có để tìm hiểu các mô hình khoa học dữ liệu mới này.


Mặt khác, các kỹ năng SQL có ở mọi nơi trong tổ chức và là ngôn ngữ chung của dữ liệu. Đó là cách thế giới nói chuyện với cơ sở dữ liệu. Đó là lý do tại sao 95% trong số Fortune 500 chạy SQL Server của Microsoft. Có thể không có công nghệ dữ liệu phổ biến hơn trong doanh nghiệp.


Với Microsoft SQL Server 2022 , lưu trữ đối tượng trở thành công dân hạng nhất thông qua một kỹ thuật gọi là bảng bên ngoài. Có hai phần. Đầu tiên, một đầu nối S3. Thứ hai, các cải tiến đối với khung ảo hóa dữ liệu Polybase.


Với sự bổ sung này, giờ đây các doanh nghiệp có thể truy vấn các kho đối tượng khổng lồ bằng SQL Server 2022 - bất cứ nơi nào các kho đối tượng đó tồn tại. Tính năng mới giải quyết hai thách thức chính của khách hàng - cách truy cập dữ liệu tại chỗ và không phải học ngôn ngữ mới.


Với MinIO, dữ liệu có thể ở mọi nơi - cơ sở hạ tầng đám mây công cộng, đám mây riêng, bản phân phối Kubernetes, biên.


Hãy tìm hiểu sâu hơn một chút.

Truy cập dữ liệu ở mọi nơi với sự kết hợp giữa Minio và Microsoft SQL Server 2022

Microsoft SQL Server 2022 có hai tính năng chính mà người dùng MinIO có thể tận dụng.

Đầu tiên, nó cho phép quản trị viên cơ sở dữ liệu sao lưu và khôi phục dữ liệu vào bất kỳ môi trường đám mây nào bằng API S3. Thứ hai, SQL Server 2022 mở rộng chức năng bảng bên ngoài ban đầu được giới thiệu trong SQL Server 2016.


Các bảng bên ngoài cho phép người dùng chạy các truy vấn đối với dữ liệu không được lưu trữ trực tiếp trong SQL Server. Điều đó giải phóng người dùng để có sự linh hoạt về kiến trúc để chạy SQL Server ở nơi họ muốn và lưu trữ dữ liệu của họ ở đâu và theo cách họ muốn, trong khi vẫn giữ được khả năng truy vấn dữ liệu đó mà không cần di chuyển dữ liệu đó. Chức năng bảng bên ngoài mới hiện cho phép nó tiếp cận tất cả các định dạng tệp thường được hỗ trợ cùng với bộ lưu trữ hướng đối tượng Parquet và S3.


Điều này sẽ mở rộng đáng kể lượng dữ liệu mà máy chủ SQL có thể truy vấn.


Ví dụ: EnterpriseCo có thể đang chạy SQL Server trong Azure. Trước đây, họ đã chuyển dữ liệu vào máy chủ Azure/SQL để thực hiện các truy vấn của mình. Giờ đây, EnterpriseCo có thể truy cập dữ liệu đó tại chỗ mà không cần phải di chuyển dữ liệu đi bất kỳ đâu. Điều này có nghĩa là những truy vấn đó có thể chạy đối với bộ dữ liệu có kích thước PB.


Các lựa chọn kiến trúc trở nên gần như vô tận. Chạy SQL Server tại chỗ và truy cập dữ liệu trên đám mây. Chạy SQL Server tại chỗ và truy cập dữ liệu trong đám mây riêng. Chạy SQL Server trên đám mây và truy cập dữ liệu ở rìa. Xây dựng hệ thống phân tích có khả năng chịu lỗi với khả năng sao chép nhiều đám mây, đang hoạt động bằng cách sử dụng MinIO và SQL Server. Cân nhắc chính là hiệu suất và những cân nhắc này được xác định bởi các vị trí tương đối của Máy chủ SQL và dữ liệu.


Bí quyết là tối ưu hóa việc triển khai. Tất cả các cửa hàng đối tượng sẽ được hưởng lợi từ tính năng bảng bên ngoài, nhưng lợi ích của MinIO không tương xứng. Lý do rất đơn giản, trong một thế giới nơi dữ liệu doanh nghiệp được phân phối trên nhiều đám mây, tính nhất quán rất quan trọng. MinIO có thể đóng vai trò là kho dữ liệu trên đám mây công cộng, đám mây riêng và biên. Vì lớp dữ liệu nhất quán nên bảo mật, quản lý truy cập, khả năng phục hồi và quản lý vòng đời cũng nhất quán. Hiệu suất có thể nhất quán hoặc có thể được sắp xếp theo nhu cầu của doanh nghiệp - trong khi mọi thứ khác vẫn giữ nguyên.


Cơ chế để thực hiện điều này trong SQL Server 2022 là thông qua tính năng ảo hóa dữ liệu được gọi là Polybase.


Polybase cho phép người dùng truy vấn dữ liệu bằng Transact-SQL trực tiếp từ không chỉ SQL Server mà hầu hết các cài đặt cơ sở dữ liệu khác (như Oracle, Teradata, MongoDB, v.v.) và bây giờ là API S3. MinIO cung cấp khả năng duy nhất để truy cập tất cả các môi trường đám mây hyperscaler. Sự kết hợp của cả hai (SQL Server 2022 và MinIO) cho phép doanh nghiệp truy cập dữ liệu và thu thập thông tin chuyên sâu từ các kho chứa dữ liệu mà cho đến nay vẫn được phân đoạn và khó kết hợp.


Một tính năng chính của PolyBase là khả năng cho phép dữ liệu ở lại vị trí và định dạng ban đầu của nó. Dữ liệu bên ngoài có thể được truy vấn tại chỗ giống như bất kỳ bảng nào khác trong SQL Server. Kịch bản này giảm thiểu nhu cầu di chuyển dữ liệu và sao chép dữ liệu. Một trong những vấn đề lớn nhất mà sao chép dữ liệu đưa ra là đối chiếu, doanh nghiệp lãng phí hàng nghìn giờ làm việc và tính toán năng lượng đối chiếu dữ liệu trên cơ sở hàng đêm.


SQL Server 2022 cho phép sao chép dữ liệu liên tục vào và từ đám mây, hỗ trợ khả năng khôi phục sau thảm họa. Sự kết hợp với MinIO cho phép dữ liệu nhanh nằm trên các công cụ dữ liệu nhanh dựa trên NVMe và xếp nó vào bất kỳ số bậc chậm nào. Các thành phần này đang chạy song song để cho phép bạn đọc, viết và xử lý dữ liệu lớn bằng thư viện Transact-SQL hoặc Spark, cho phép bạn dễ dàng kết hợp và phân tích dữ liệu quan hệ có giá trị cao của mình với dữ liệu lớn khối lượng lớn không liên quan.


Ngoài ra, SQL Server 2022 tích hợp với Active Directory và bao gồm kiểm soát truy cập dựa trên vai trò để đáp ứng nhu cầu bảo mật và tuân thủ của doanh nghiệp.

Tại sao điều này quan trọng

Không thể phóng đại tầm quan trọng của việc bổ sung các bảng bên ngoài.


Đầu tiên, đó là bằng chứng nữa cho thấy lưu trữ đối tượng đã trở thành lưu trữ chính khi nói đến cơ sở hạ tầng dữ liệu. Đám đông SAN/NAS không thích thông báo này nhưng cứ sau mỗi tuần trôi qua, một cơ sở dữ liệu hoặc thành phần dữ liệu chính khác sẽ bật lưu trữ đối tượng theo cách thức công dân hạng nhất. Không có nhiều khoản giữ lại và những khoản đang nắm giữ ngày nay trông khá thích hợp.


Thứ hai, điều này cho phép các truy vấn SQL được thực thi đối với các tập dữ liệu lớn hơn bao giờ hết. Đổi lại, điều đó tạo ra khả năng tạo ra nhiều giá trị hơn từ dữ liệu hiện có và giá trị mới từ dữ liệu đuôi dài hoặc dữ liệu “tối”. Các kho lưu trữ SAN/NAS thường gặp khó khăn ở một vài PB. Hãy tưởng tượng chạy một truy vấn đối với 10 hoặc 100 PB? Đó là trên bàn vào thời điểm này.


Thứ ba, điều này củng cố thêm câu chuyện phân tách thế hệ thứ hai mà chúng ta đã thấy trong vài năm nay. Thế hệ đầu tiên là sự tách biệt giữa lưu trữ và tính toán. Thế hệ thứ hai, song song, là lớp ứng dụng phân tích (SQL hoặc Splunk hoặc Vertica) phân tách chức năng truy vấn khỏi chức năng lưu trữ. Thành thật mà nói, điều này có ở khắp mọi nơi và mang lại lợi ích tốt nhất cho người chơi truy vấn, người chơi lưu trữ và khách hàng. Điều đó có nghĩa là khách hàng sẽ xây dựng các ngăn xếp riêng biệt, tốt nhất cho các nhu cầu cụ thể trong trường hợp sử dụng của họ. Nó sẽ nhấn mạnh hiệu suất, khả năng phục hồi, bảo mật, tính nguyên bản của đám mây, khả năng mở rộng về phía lưu trữ - điều này sẽ yêu cầu giải pháp được xác định bằng phần mềm.


Thứ tư, điều này đáp ứng nhu cầu của khách hàng về đa đám mây. Khách hàng không muốn chạy SQL Server 2022 ở một nơi - họ muốn chạy nó ở bất cứ nơi nào có dữ liệu của họ. Việc bổ sung các bảng bên ngoài (và MinIO với tư cách là đối tác) đáp ứng nhu cầu đó. Tại chỗ. Kiểm tra. xanh. Kiểm tra. Mọi phân phối đám mây công cộng và Kubernetes khác. Kiểm tra.


Đây là thời điểm bước ngoặt cho SQL Server và cho MinIO. Chúng tôi sẽ trở thành cửa hàng đối tượng truy cập vì tất cả các lý do đã nêu ở trên và điều đó sẽ mở rộng khả năng thâm nhập sâu rộng vốn đã có của chúng tôi vào các tài khoản F500.

Ví dụ về trường hợp sử dụng của khách hàng

Chúng tôi không thể đi vào quá nhiều chi tiết ở giai đoạn này - nhưng chúng tôi có một số khách hàng đang háo hức chờ đợi Thời hạn truy cập sớm để bắt đầu xây dựng vào ngày GA tháng 11.


Ví dụ: một trong những ngân hàng trong danh sách Fortune100 mà chúng tôi hợp tác lưu trữ một lượng lớn dữ liệu hành vi của khách hàng trên các cụm lưu trữ S3. Để chạy các truy vấn SQL đơn giản nhằm thúc đẩy trí thông minh cơ bản từ dữ liệu này, trước đây họ đã sử dụng các kỹ thuật để nhập các phần của dữ liệu này vào cơ sở dữ liệu nhất định và sau đó chạy các truy vấn đối với dữ liệu đó. Khách hàng này đang đăng ký chương trình truy cập sớm của Microsoft để họ có thể chạy các truy vấn đối với dữ liệu của mình mà không cần phải sao chép nó vào các phiên bản cơ sở dữ liệu mới. Điều này sẽ giúp họ tiết kiệm đáng kể thời gian và vấn đề đau đầu về đối chiếu dữ liệu mà hầu hết các ngân hàng cần giải quyết. Hơn nữa, nếu ngân hàng này quyết định sử dụng các kỹ thuật máy học để thu hút những hiểu biết tinh vi hơn từ dữ liệu này, thì họ sẽ có khả năng tận dụng các nền tảng MLOps có thể dễ dàng mở rộng quy mô trên các cụm Kubernetes cùng với triển khai ban đầu của họ.


Trong một ví dụ khác, chúng tôi có một khách hàng bán lẻ lớn cần đưa thông tin từ các hệ thống điểm bán hàng phân tán vào kho dữ liệu tập trung sử dụng MinIO làm nền tảng lưu trữ đối tượng cho tất cả hoạt động hàng đêm. Các tệp có thể ở định dạng sàn gỗ hoặc csv và được chuyển vào bộ chứa. Trước đây, các nhóm phân tích kinh doanh cần nhập dữ liệu này vào môi trường Máy chủ SQL của họ để chạy phân tích hàng loạt trên dữ liệu này. Tuy nhiên, với sự ra đời của SQL Server 2022, các máy khách như máy khách này sẽ có khả năng trực tiếp chạy phân tích đối với dữ liệu nằm trong bộ chứa S3 trên MinIO. Điều này sẽ không chỉ giúp họ tiết kiệm thời gian mà còn tiết kiệm cho họ chi phí liên quan đến sao chép và đối chiếu dữ liệu. Điều quan trọng không kém là nhà bán lẻ (bất kỳ doanh nghiệp nào về vấn đề đó) sẽ có thể tận dụng các quy trình AI/ML để rút ra những hiểu biết sâu sắc hơn trực tiếp từ dữ liệu này. Trong trường hợp của Microsoft, nhà bán lẻ đã cung cấp tích hợp với Azure Synapse để thúc đẩy các quy trình ML chuyên sâu. Các phương pháp khác để thúc đẩy mức độ hiểu biết sâu sắc này có thể tận dụng TensorFlow, Kubeflow và Pytorch, tất cả đều có tích hợp hạng nhất với MinIO.

những gì mong đợi

Với thông báo ngày hôm nay, cửa sổ Truy cập sớm đã mở. Có một vài thứ không có trong bản phát hành này (ví dụ như khắc phục thảm họa) nhưng những thứ đó sẽ sớm sẵn sàng.


Dự kiến sẽ phát hành rộng rãi vào tháng 11 nhưng chúng tôi khuyến khích tất cả các khách hàng doanh nghiệp của mình bắt đầu ngay bây giờ. Nó sẽ giúp định cỡ để đáp ứng các yêu cầu của khối lượng công việc cụ thể. Một số khách hàng sẽ phát triển lớn, những người khác sẽ giữ nó trong hàng trăm TB. Điều quan trọng là được cấu hình đúng, cả hai sẽ chạy nhanh.

Cái gì tiếp theo

Chúng tôi sẽ tổ chức hội thảo trên web với Hugo Queiroz trên DevOps.com vào ngày 12 tháng 7. Điều này sẽ cung cấp tổng quan về đề xuất giá trị chung và cơ hội để thực hành và xem chính xác cách định cấu hình SQL Server 2022 để mở rộng quy mô với bên ngoài. những cái bàn. Đăng ký sẽ được mở trong thời gian ngắn.


Trong thời gian tạm thời, vui lòng liên hệ qua [email protected] hoặc tham gia với chúng tôi trên kênh Slack nếu bạn có bất kỳ câu hỏi nào.


Cũng được xuất bản ở đây .