paint-brush
Xu hướng tương tác trong các định dạng bảng mở có ý nghĩa gì đối với Kiến trúc dữ liệu doanh nghiệptừ tác giả@minio
987 lượt đọc
987 lượt đọc

Xu hướng tương tác trong các định dạng bảng mở có ý nghĩa gì đối với Kiến trúc dữ liệu doanh nghiệp

từ tác giả MinIO6m2024/02/16
Read on Terminal Reader

dài quá đọc không nổi

Sự kết hợp của các định dạng bảng mở, ngăn xếp dữ liệu hiện đại và mô hình vận hành đám mây biểu thị một kỷ nguyên biến đổi trong quản lý dữ liệu.
featured image - Xu hướng tương tác trong các định dạng bảng mở có ý nghĩa gì đối với Kiến trúc dữ liệu doanh nghiệp
MinIO HackerNoon profile picture


Mùa hè này, cả Databricks và Apache Iceberg đều triển khai các cải tiến cho định dạng bảng mở của họ. Databricks đã công bố Hồ Delta 3.0 có thể đọc và ghi dữ liệu vào tất cả các định dạng bảng mở phổ biến nhất: Bảng Delta, Iceberg và Apache Hudi. Định dạng phổ quát Delta (UniForm) làm cho các định dạng bảng mở có thể tương tác được, tránh nhu cầu tạo và lưu trữ thêm các bản sao dữ liệu ở định dạng này hoặc định dạng kia. Các nhóm dữ liệu sử dụng các công cụ truy vấn hiện có như DuckDB , Dremio và những người khác truy vấn các tệp Iceberg hoặc Hudi có thể đọc trực tiếp các bảng Delta mà không cần chuyển đổi.


Cùng lúc đó, Iceberg đã công bố một loạt hỗ trợ mới cho các công cụ truy vấn và nền tảng bao gồm Bông tuyết , AWS Athena , Apache Doris và StarRocks. Với những thông báo này từ Databricks và Iceberg, khả năng tương tác đi đôi với khả năng di chuyển dữ liệu. Các định dạng bảng mở theo thiết kế thúc đẩy khái niệm rằng bạn sẽ có thể truy cập, kiểm soát, chia sẻ và vận hành trên dữ liệu của mình bằng bất kỳ công cụ nào bạn muốn, ở bất cứ đâu bạn muốn, cho dù đó là trên đám mây công cộng, đám mây riêng tư của bạn, trên -edge, hoặc trên kim loại trần.

Hiểu các định dạng bảng mở

Hãy đặt những thông báo này vào bối cảnh. Các định dạng bảng mở cho phép các hồ dữ liệu đạt được các tiêu chuẩn về hiệu suất và tuân thủ mà trước đây chỉ có thể đạt được bằng các kho dữ liệu hoặc cơ sở dữ liệu truyền thống, trong khi vẫn duy trì tính linh hoạt của môi trường hồ dữ liệu.


Có ba định dạng bảng mở chính:


Tảng băng trôi ban đầu được Netflix thiết kế đặc biệt để xử lý khối lượng dữ liệu đáng kể trong các hồ dữ liệu. Định dạng bảng mở này có các tính năng đặc biệt như du hành thời gian, tiến hóa lược đồ động và tiến hóa phân vùng. Những khả năng này làm cho nó mang tính cách mạng, cho phép các công cụ truy vấn hoạt động đồng thời và an toàn trên cùng một tập dữ liệu.


Hồ đồng bằng là một khung lưu trữ nguồn mở trong kiến trúc Lakehouse hỗ trợ các hồ dữ liệu trên bộ lưu trữ đối tượng như MinIO. Nó đảm bảo các giao dịch ACID, xử lý siêu dữ liệu có thể mở rộng và xử lý thống nhất cho Apache Spark, mang lại độ tin cậy và khả năng mở rộng. Delta Lake có thể xử lý các thách thức về hiệu suất và độ chính xác của khối lượng công việc Spark phức tạp, đặc biệt là trong điều kiện đồng thời nặng, với các hoạt động cập nhật và siêu dữ liệu phi nguyên tử gây ra tắc nghẽn đáng kể.


Hồ Đề bắt nguồn từ hệ sinh thái Hadoop và mục đích chính của Hudi là giảm độ trễ trong quá trình nhập dữ liệu truyền phát, cung cấp các tính năng như bảng, giao dịch, cập nhật/xóa, lập chỉ mục nâng cao và khả năng tương thích với nhiều triển khai lưu trữ khác nhau, bao gồm lưu trữ đối tượng gốc trên đám mây như MinIO.


Phần lớn đã được viết về việc lựa chọn giữa các định dạng khác nhau, trong đó một số khẳng định có thể lên tới Tương đương chức năng 80% trong số ba định dạng Bảng mở chính. Sự kết hợp những điểm khác biệt này có ý nghĩa dựa trên môi trường có khả năng tương tác trong đó các định dạng bảng mở này đã được tạo ra và tiếp tục phát triển. Những người tạo ra các định dạng này ưu tiên khả năng hơn các quan niệm truyền thống về việc kiểm soát hoạt động và khóa nhà cung cấp.

Định dạng bảng mở như một phần của ngăn xếp dữ liệu hiện đại

Ngay cả trước những thông báo gần đây này, các định dạng bảng mở đã trở thành một phần không thể thiếu trong thiết kế hồ dữ liệu hiện đại. Và ngược lại, các hồ dữ liệu đã trở thành một phần không thể thiếu trong kho dữ liệu hiện đại. Mới đây sự khảo sát qua Dremio nhận thấy rằng 70% số người được hỏi nói rằng hơn một nửa số phân tích của họ đang hoặc sẽ nằm trong hồ dữ liệu trong vòng ba năm. Việc áp dụng rộng rãi này biểu thị sự thay đổi mô hình trong cách các tổ chức cấu trúc và quản lý dữ liệu của họ, nhấn mạnh vào khả năng tương tác, tính linh hoạt và hiệu suất.


Thực sự không có gì ngạc nhiên khi các hồ dữ liệu gốc trên nền tảng đám mây cũng như các thành phần và công nghệ của chúng như định dạng bảng mở đã trở thành trung tâm trong ngăn xếp dữ liệu hiện đại. Điều này hoàn toàn trái ngược với phần cứng và phần mềm kế thừa nguyên khối, truyền thống được bán sỉ cho các tổ chức với hy vọng đưa cụm từ 'công nghệ đám mây' vào các hệ thống cũ kỹ của họ. Trở thành nền tảng đám mây không chỉ đơn thuần là thêm một API – ngăn xếp dữ liệu hiện đại là một tập hợp các công cụ mô-đun và chuyên biệt được thiết kế riêng cho các khía cạnh xử lý dữ liệu khác nhau. Nó được xây dựng để có khả năng thích ứng, được sinh ra trên nền tảng đám mây và tuân thủ các tiêu chuẩn hiệu suất cao. Các tính năng giúp ngăn xếp dữ liệu hiện đại trở thành lựa chọn hấp dẫn cho các tổ chức. Tính mô-đun của ngăn xếp cung cấp nhiều tùy chọn, cho phép các tổ chức tạo ra cơ sở hạ tầng dữ liệu riêng phù hợp với nhu cầu cụ thể của họ, thúc đẩy tính linh hoạt trong bối cảnh dữ liệu không ngừng phát triển.


Mặc dù phạm vi tùy chọn liên tục phát triển này, vẫn có những đặc điểm xác định xuyên suốt các thành phần của ngăn xếp:


  • Cloud-Native: Ngăn xếp dữ liệu hiện đại được thiết kế để mở rộng quy mô liền mạch trên các môi trường đám mây đa dạng, đảm bảo khả năng tương thích với nhiều đám mây để ngăn chặn sự khóa chặt của nhà cung cấp.


  • Hiệu suất được tối ưu hóa: Được thiết kế để mang lại hiệu quả, ngăn xếp kết hợp các thành phần áp dụng cách tiếp cận và thiết kế ưu tiên phần mềm để mang lại hiệu suất.


  • Khả năng tương thích API RESTful: Ngăn xếp thiết lập một khung giao tiếp được tiêu chuẩn hóa giữa các thành phần của nó. Điều này thúc đẩy khả năng tương tác và hỗ trợ việc tạo ra các dịch vụ vi mô.


  • Lưu trữ và điện toán phân tách: Ngăn xếp cho phép mở rộng quy mô độc lập các tài nguyên tính toán và dung lượng lưu trữ. Cách tiếp cận này tối ưu hóa hiệu quả chi phí và nâng cao hiệu suất tổng thể bằng cách cho phép từng khía cạnh mở rộng quy mô theo nhu cầu cụ thể.


  • Cam kết về tính mở: Ngoài việc hỗ trợ các định dạng bảng mở, ngăn xếp dữ liệu hiện đại còn bao gồm tính mở dưới dạng các giải pháp nguồn mở. Cam kết này loại bỏ các kho chứa độc quyền và giảm thiểu sự ràng buộc của nhà cung cấp, thúc đẩy sự hợp tác, đổi mới và cải thiện khả năng truy cập dữ liệu. Sự cống hiến cho tính mở sẽ củng cố khả năng thích ứng của ngăn xếp trên nhiều nền tảng và công cụ khác nhau, đảm bảo tính toàn diện.

Khả năng di chuyển dữ liệu và khả năng tương tác như một tiêu chuẩn kinh doanh


Thực sự nắm bắt được khả năng di chuyển và tương tác dữ liệu có nghĩa là có thể tạo và truy cập dữ liệu mọi lúc mọi nơi. Cách tiếp cận này tạo điều kiện linh hoạt, cho phép các tổ chức khai thác khả năng của các công cụ đa dạng mà không bị ràng buộc bởi khóa nhà cung cấp hoặc kho dữ liệu. Mục tiêu là cho phép truy cập dữ liệu trên toàn cầu, thúc đẩy hệ sinh thái dữ liệu linh hoạt và dễ thích ứng hơn trong các tổ chức.


Hiểu rằng đám mây với tư cách là một mô hình hoạt động được xây dựng dựa trên các nguyên tắc của công nghệ gốc đám mây chứ không phải dựa trên một vị trí cụ thể là điều quan trọng để đạt được tính di động của dữ liệu. Một số tổ chức đấu tranh trong nỗ lực này và cố gắng mua đường vào đám mây với một chi phí rất lớn. Thực tế là mặc dù việc áp dụng đám mây mang đến cơ hội cho các công ty trung bình tăng lợi nhuận từ 20 đến 30% , tác động thực sự và tiết kiệm chi phí thực sự đến từ việc áp dụng mô hình vận hành đám mây trên cơ sở hạ tầng tư nhân.


Nhiều tổ chức lâu đời đang tích cực áp dụng triết lý này, lựa chọn chuyển khối lượng công việc từ đám mây về nước và đạt được mức tiết kiệm chi phí đáng kể, với các công ty như X.com , 37Signals và một công ty bảo mật doanh nghiệp lớn tiết kiệm trung bình 60% từ đám mây thoát ra. Mô hình vận hành đám mây cho phép những ý tưởng dường như trái ngược nhau cùng tồn tại: các công ty có thể hưởng lợi từ việc chuyển sang đám mây chuyển khối lượng công việc về nước. Yếu tố quyết định chính là việc áp dụng mô hình vận hành đám mây, thay đổi căn bản cách các tổ chức tiếp cận cơ sở hạ tầng, phát triển và hiệu quả kỹ thuật. Mô hình này tối ưu hóa để mang lại tính linh hoạt, hiệu quả và thành công lâu dài – dù là trên đám mây công cộng hay xa hơn – và phù hợp chính xác với khái niệm ngăn xếp dữ liệu hiện đại, cho phép khả năng di chuyển và tương tác dữ liệu với các định dạng bảng mở.

Phần kết luận

Những bước tiến gần đây về định dạng bảng mở của Databricks, Apache Iceberg và Hudi đánh dấu thời điểm then chốt trong quản lý dữ liệu. Khả năng tương thích phổ quát của Delta Lake 3.0 và hỗ trợ mở rộng cho Apache Iceberg thể hiện cam kết của cả các công ty cơ sở hạ tầng dữ liệu và những người triển khai thực tế về khả năng di chuyển và tương tác dữ liệu liền mạch.


Những phát triển này phù hợp với tính mô-đun vốn có của ngăn xếp dữ liệu hiện đại, trong đó các định dạng bảng mở đóng vai trò trung tâm trong việc đạt được các tiêu chuẩn về hiệu suất và tuân thủ. Sự thay đổi này không bị cô lập mà giao thoa với mô hình vận hành đám mây. Ngoài sức hấp dẫn của đám mây công cộng, tác động thực sự và tiết kiệm chi phí còn xuất hiện khi áp dụng mô hình vận hành đám mây trên cơ sở hạ tầng tư nhân.


Sự kết hợp của các định dạng bảng mở, ngăn xếp dữ liệu hiện đại và mô hình vận hành đám mây biểu thị một kỷ nguyên biến đổi trong quản lý dữ liệu. Cách tiếp cận này đảm bảo khả năng thích ứng trên nhiều môi trường khác nhau, dù là công khai hay riêng tư, tại chỗ. Đối với những người điều hướng phức tạp về kiến trúc hồ dữ liệu, nhóm của chúng tôi tại MinIO sẵn sàng hỗ trợ. Hãy tham gia cùng chúng tôi tại [email protected] hoặc trên chùng xuống kênh thảo luận cộng tác khi bạn bắt tay vào hành trình dữ liệu của mình.