paint-brush
Tích hợp Apache Druid và Apache Superset với MinIOtừ tác giả@minio
8,812 lượt đọc
8,812 lượt đọc

Tích hợp Apache Druid và Apache Superset với MinIO

từ tác giả MinIO12m2023/08/23
Read on Terminal Reader

dài quá đọc không nổi

Hãy sẵn sàng để ngạc nhiên về tốc độ bạn có thể xây dựng ngăn xếp phân tích và trực quan hóa hiệu suất cao bằng các sản phẩm nguồn mở.
featured image - Tích hợp Apache Druid và Apache Superset với MinIO
MinIO HackerNoon profile picture
0-item
1-item
2-item

Hoạt động kinh doanh ngày nay đòi hỏi dữ liệu chính xác và kịp thời để đưa ra quyết định. Các ứng dụng và bảng điều khiển dựa trên dữ liệu được xây dựng trên dữ liệu chuỗi thời gian đều có ở mọi doanh nghiệp. Phần lớn dữ liệu kinh doanh là chuỗi thời gian - từ số liệu hệ thống và ứng dụng đến thời tiết, giá cổ phiếu, đo từ xa mạng, cảm biến IoT, tất cả đều dựa vào phân tích và trực quan hóa chuỗi thời gian phức tạp để cung cấp thông tin chi tiết về doanh nghiệp.


Có nhiều cơ sở dữ liệu được xây dựng cho loại phân tích này, chẳng hạn như Clickhouse (để biết thêm về Clickhouse và MinIO, hãy xem Tích hợp ClickHouse với MinIO ), Snowflake, TimeStream và RedShift của Amazon và Apache Druid. Một quy trình công việc điển hình bao gồm việc thu thập dữ liệu, có thể được truyền trực tuyến trong thời gian thực hoặc được lấy từ hồ dữ liệu, chuyển đổi và nhập dữ liệu vào cơ sở dữ liệu, sau đó xây dựng các ứng dụng và bảng thông tin bằng cách sử dụng các truy vấn SQL chạy trên cơ sở dữ liệu.


Bài đăng trên blog này tập trung vào Apache Druid , cụ thể là cách chạy Druid với MinIO dưới dạng bộ lưu trữ sâu. Chúng ta sẽ đi vào chi tiết hơn ở phần sau, nhưng tóm lại, Druid lưu dữ liệu vào bộ lưu trữ sâu S3 và hoán đổi dữ liệu vào và ra khỏi bộ nhớ cục bộ nếu cần khi chạy truy vấn. Chúng tôi sẽ cài đặt MinIO, cài đặt Druid, chỉnh sửa một số tệp cấu hình để yêu cầu Druid sử dụng MinIO, sau đó nhập dữ liệu demo và trực quan hóa nó bằng Apache Superset .


Hãy sẵn sàng để ngạc nhiên về tốc độ bạn có thể xây dựng ngăn xếp phân tích và trực quan hóa hiệu suất cao bằng các sản phẩm nguồn mở.


Ngăn xếp phân tích và trực quan hóa

Tổng quan về Druid

Druid là một trong những kho lưu trữ dữ liệu nhanh nhất hiện nay - nó được xây dựng để kết hợp các ưu điểm của kho dữ liệu, cơ sở dữ liệu chuỗi thời gian và hệ thống tìm kiếm. Druid đạt được phản hồi truy vấn cực kỳ nhanh chóng bằng cách kết hợp các đặc điểm chính của ba hệ thống này vào lớp nhập, định dạng lưu trữ, lớp truy vấn và kiến trúc cốt lõi. Druid thường được triển khai cùng với các công nghệ nguồn mở khác như Apache Kafka, Apache Flink và nằm giữa lớp lưu trữ hoặc xử lý và người dùng cuối, đóng vai trò là lớp truy vấn cho khối lượng công việc phân tích. Để tìm hiểu thêm về cách hoạt động của Druid, vui lòng xem Apache Druid 101 .


Druid có nguồn gốc từ đám mây và dựa trên kiến trúc dựa trên microservice. Mỗi dịch vụ cốt lõi trong Druid (nhập, truy vấn, phối hợp) có thể được triển khai và mở rộng quy mô độc lập trong vùng chứa hoặc trên phần cứng thông thường. Ngoài ra, các dịch vụ Druid có thể bị lỗi và khởi động lại hoặc được cập nhật một cách độc lập mà không ảnh hưởng đến các dịch vụ khác.


Druid có một số loại quy trình:


  • Các quy trình điều phối quản lý tính khả dụng của dữ liệu trên cụm.

  • Các quy trình Overlord kiểm soát việc phân công khối lượng công việc nhập dữ liệu.

  • Quy trình môi giới xử lý các truy vấn từ khách hàng bên ngoài.

  • Các quy trình của bộ định tuyến là tùy chọn; họ định tuyến các yêu cầu đến Nhà môi giới, Điều phối viên và Lãnh chúa.

  • Quá trình lịch sử lưu trữ dữ liệu có thể truy vấn.

  • MiddleManager xử lý dữ liệu nhập vào.

    Các quy trình này thường được triển khai theo nhóm trên ba loại máy chủ hoặc nút khác nhau:


  • Bậc thầy : Chạy các quy trình Điều phối viên và Overlord, quản lý tính khả dụng và nhập dữ liệu.
  • Truy vấn : Chạy các quy trình Nhà môi giới và Bộ định tuyến tùy chọn, xử lý các truy vấn từ máy khách bên ngoài.
  • Dữ liệu : Chạy các quy trình Lịch sử và Trình quản lý trung gian, thực thi khối lượng công việc nhập và lưu trữ tất cả dữ liệu có thể truy vấn.


Các loại quy trình của Druid


Druid có ba phần phụ thuộc chính bên ngoài: bộ lưu trữ sâu, bộ lưu trữ siêu dữ liệu và ZooKeeper. Tóm lại, siêu dữ liệu được sử dụng để theo dõi thông tin tác vụ và việc sử dụng phân đoạn và thường được xử lý bởi PostgreSQL hoặc MySQL. Zookeeper được sử dụng để khám phá và điều phối dịch vụ nội bộ.


Vì đây là blog MinIO nên chúng tôi sẽ tập trung vào lưu trữ sâu. Bộ nhớ sâu là một hệ thống tệp dùng chung có thể truy cập được bởi mọi máy chủ Druid, nơi dữ liệu được lưu trữ sau khi được nhập. Trong triển khai một máy chủ, đây chỉ đơn giản là một ổ đĩa cục bộ. Trong triển khai theo cụm, bộ lưu trữ sâu sẽ có dạng kho lưu trữ đối tượng phân tán như S3 hoặc MinIO, HDFS hoặc hệ thống tệp gắn trên mạng.


Deep storage là cách Druid chuyển dữ liệu giữa các tiến trình và sao lưu dữ liệu. Druid lưu trữ dữ liệu trong các tập tin được gọi là phân đoạn. Có một ánh xạ nội bộ kéo các phân đoạn từ bộ nhớ sâu vào bộ nhớ đệm trên các ổ đĩa cục bộ và trong bộ nhớ. Để giảm thiểu độ trễ, các truy vấn chạy theo phân đoạn cục bộ chứ không chạy theo phân đoạn được lưu trữ trong bộ lưu trữ sâu. Bộ lưu trữ sâu mang lại thiết kế linh hoạt, có khả năng chịu lỗi của Druid. Druid mang lại độ bền bằng cách khởi động từ bộ lưu trữ sâu trong trường hợp nút dữ liệu ngừng hoạt động và hoạt động trở lại. Một lưu ý là bạn sẽ cần có đủ dung lượng trống trên các nút dữ liệu và trong bộ lưu trữ sâu cho dữ liệu bạn muốn làm việc trong Druid.


Druid sử dụng API S3 để lưu trữ đối tượng để lưu trữ sâu. Việc sử dụng bộ lưu trữ đối tượng tương thích với API S3 như MinIO cho phép bạn tự do chạy Druid ở mọi nơi, đây là điều bạn có thể muốn thực hiện để cải thiện hiệu suất và tính bảo mật. MinIO là một bộ lưu trữ sâu tuyệt vời dành cho Druid vì nó có khả năng tương thích tuyệt vời với S3, hiệu suất đáp ứng các yêu cầu về OLAP thời gian thực và có lẽ trên hết là khả năng mang lại hiệu suất trên quy mô lớn. MinIO cũng cung cấp khả năng bảo vệ dữ liệu cần thiết và quản lý vòng đời .


Bạn có thể chạy Druid, MinIO và Superset trực tiếp trên Linux hoặc trong các vùng chứa trên Docker hoặc Kubernetes. Hiện đã có một số tài nguyên tuyệt vời hướng dẫn bạn cách thiết lập và chạy Druid, vì vậy nếu vì lý do nào đó, bài đăng trên blog này không làm bạn hài lòng, hãy xem Apache Druid Quickstart cho Linux, Docker · Apache Druid cho Docker và Clustered Apache Druid® trên máy tính xách tay của bạn dành cho Kubernetes.

Đang cài đặt MinIO

Nếu bạn chưa chạy MinIO thì đây là hướng dẫn cài đặt . Quá trình này được mô tả kỹ lưỡng trong Hướng dẫn khởi động nhanh MinIO .


Ví dụ: trên Linux, hãy tải xuống MinIO và chạy nó (bạn có thể thoải mái thay đổi mật khẩu gốc - và ghi nhớ nó):


 wget https://dl.min.io/server/minio/release/linux-amd64/minio chmod +x minio MINIO_ROOT_USER=admin MINIO_ROOT_PASSWORD=password ./minio server /mnt/data --console-address ":9001"


Khởi chạy trình duyệt và kết nối với Máy chủ MinIO tại http://<your-IP-address>:9000 bằng người dùng root và mật khẩu mà bạn đã cấu hình trước đó.


Lần đầu đăng nhập, bạn sẽ được đưa đến trang Bucket.


Trang nhóm


Tạo xô druidbucket .


Tạo nhóm


Trong thế giới thực, bạn có thể muốn bảo mật quyền truy cập vào dữ liệu Druid của mình, nhưng chúng tôi không phải làm điều đó trong phòng thí nghiệm của mình. Bạn sẽ tạo một tài khoản dịch vụ (trong menu Nhận dạng), chỉnh sửa chính sách người dùng để chỉ cho phép truy cập vào druidbucket và trong cấu hình Druid bên dưới, hãy sử dụng khóa truy cập và khóa bí mật của tài khoản dịch vụ.

Cài đặt Druid

Cách dễ nhất để lái thử Druid là thông qua Docker. Làm theo hướng dẫn của Docker · Apache Druid và sử dụng docker-compose.yaml này. Điều này tạo ra một vùng chứa cho mỗi dịch vụ Druid, cũng như Zookeeper và PostgresSQL. Phương pháp này sử dụng tệp môi trường để chỉ định cấu hình Druid. Tải tệp này xuống nơi bạn đã lưu các thùng chứa của Druid. Đối với hướng dẫn bên dưới (Định cấu hình Druid cho MinIO), bạn có thể chỉnh sửa tệp môi trường để chuyển các biến sang tệp cấu hình Druid tiêu chuẩn hoặc chỉnh sửa tệp cấu hình trực tiếp trong vùng chứa.


Bắt đầu Druid với docker-compose up . Khi cụm xuất hiện, hãy mở trình duyệt và điều hướng đến http://localhost:8888 để sử dụng bảng điều khiển Druid.


Cài đặt Druid

Định cấu hình Druid cho MinIO

Bây giờ là lúc cấu hình Druid để sử dụng MinIO cho bộ nhớ sâu. Trong bước này, bạn sẽ cần chỉnh sửa các tệp cấu hình Druid (hoặc các tệp môi trường Docker như mô tả ở trên) để tham chiếu MinIO rồi khởi động lại Druid. Quá trình này được mô tả đầy đủ trong Cách định cấu hình Druid để sử dụng Minio làm bộ lưu trữ sâu - DZone Big Data và chúng tôi sẽ đưa phiên bản viết tắt vào đây để tham khảo nhanh.


Tùy thuộc vào cách bạn đã cài đặt Druid, Trong tệp conf/druid/_common/common.runtime.properties , hãy thêm "druid-s3-extensions" vào druid.extensions.loadList . Thêm tiện ích mở rộng theo tên, trong dấu ngoặc kép và phân tách bằng dấu phẩy, ví dụ:


 druid.extensions.loadList=["druid-parser-route", "druid-s3-extensions"]


Theo bài viết được tham chiếu ở trên, tiện ích mở rộng S3 để lưu trữ sâu phụ thuộc vào jet3t dưới mui xe. Bạn cần tạo tệp jets3t.properties trên đường dẫn lớp. Trong ví dụ này, chúng ta sẽ tạo một jets3t.properties mới bên trong thư mục conf/druid/_common với nội dung sau:


 s3service.s3-endpoint=localhost s3service.s3-endpoint-http-port=9000 s3service.disable-dns-buckets=true s3service.https-only=false


Bây giờ, hãy nhận xét các cấu hình cho bộ nhớ cục bộ trong phần “Bộ nhớ sâu” và thêm các giá trị thích hợp cho Minio. Trong trường hợp của tôi, tôi đang chạy MinIO trên cùng một máy với Druid nên URL điểm cuối S3 bao gồm localhost và một cổng. Nếu bạn đang chạy trên một máy khác hoặc trong một vùng chứa, bạn sẽ cần thay đổi dòng này để giải quyết MinIO trong môi trường của mình.


Sau này, phần “Bộ nhớ sâu” sẽ trông như sau:


 # # Deep storage # # For local disk (only viable in a cluster if this is a network mount): # druid.storage.type=local # druid.storage.storageDirectory=var/druid/segments # For HDFS: # druid.storage.type=hdfs # druid.storage.storageDirectory=/druid/segments # For S3: druid.storage.type=s3 druid.storage.bucket=druidbucket druid.storage.baseKey=druid/segments druid.s3.accessKey= <insert your MinIO accessKey> druid.s3.secretKey= <insert your MinIO secretKey> druid.s3.protocol=http druid.s3.enabePathStyleAccess=true druid.s3.endpoint.signingRegion=us-east-1 druid.s3.endpoint.url=http://localhost:9000/


Chúng tôi cũng sẽ định cấu hình Druid để lưu trữ nhật ký dịch vụ lập chỉ mục trong Minio. Đó là một cách tốt để lưu trữ mọi thứ ở một nơi để dễ tìm thấy hơn - Druid đủ phức tạp mà không cần phải tìm kiếm nhật ký ở nhiều vị trí. Cập nhật phần “Nhật ký dịch vụ lập chỉ mục” với các giá trị thích hợp trong conf/druid/_common/common.runtime.properties .


Sau đó, phần “Nhật ký dịch vụ lập chỉ mục” sẽ có dạng:


 # Indexing service logs # For local disk (only viable in a cluster if this is a network mount): # druid.indexer.logs.type=file # druid.indexer.logs.directory=var/druid/indexing-logs # For HDFS: # druid.indexer.logs.type=hdfs # druid.indexer.logs.directory=/druid/indexing-logs # For S3: druid.indexer.logs.type=s3 druid.indexer.logs.s3Bucket=druidbucket druid.indexer.logs.s3Prefix=druid/indexing-logs


ĐƯỢC RỒI! Điều đó bao gồm tất cả những thay đổi về cấu hình đối với Druid. Lưu tệp và khởi động lại cụm của bạn. Khi làm việc với Druid, bạn sẽ thấy các phân đoạn và chỉ mục được ghi vào druidbucket .

Cài đặt Superset Apache

Apache Superset là một công cụ trực quan hóa mạnh mẽ thường được sử dụng với Druid. Superset là một ứng dụng thông minh kinh doanh dựa trên nền tảng đám mây, nhanh, nhẹ, có nhiều tính năng và trên hết là miễn phí! Giao diện trực quan của Superset giúp việc tạo bảng điều khiển tương tác tương đối dễ dàng. Superset cung cấp hỗ trợ vượt trội cho hầu hết các cơ sở dữ liệu SQL. Superset tích hợp với các chương trình phụ trợ xác thực như cơ sở dữ liệu, OpenID, LDAP và OAuth để bảo mật trực quan hóa.


Là phần mềm dựa trên nền tảng đám mây, Superset có khả năng mở rộng và tính sẵn sàng cao. Nó được thiết kế để mở rộng quy mô ra các môi trường phân tán, rộng lớn.


Chúng tôi quan tâm đến việc bắt đầu với Superset hơn là mở rộng quy mô sản xuất, vì vậy, chúng tôi sẽ thực hiện cài đặt đơn giản nhất có thể bằng cách sử dụng Docker Compose . Đây là cách nhanh nhất để dùng thử Superset trên Linux hoặc Mac OSX.


Nếu bạn chưa cài đặt Docker, vui lòng làm theo hướng dẫn của Docker . Khi bạn đã cài đặt Docker, vui lòng cài đặt Docker Compose .


Mở một cửa sổ terminal và sao chép repo Superset:


 $ git clone https://github.com/apache/superset.git


Điều này sẽ tạo một thư mục superset trong thư mục hiện tại của bạn. Điều hướng đến thư mục đó và chạy các lệnh sau (có thể mất vài phút để hoàn thành):


 $ docker-compose -f docker-compose-non-dev.yml pull $ docker-compose -f docker-compose-non-dev.yml up


Bạn sẽ thấy rất nhiều văn bản khởi tạo được chuyển qua thiết bị đầu cuối của mình. Superset đã sẵn sàng khi bạn thấy một cái gì đó như thế này:


 superset_app | Loaded your LOCAL configuration at [/app/docker/pythonpath_dev/superset_config.py] superset_app | 127.0.0.1 - - [12/May/2022:23:59:35 +0000] "GET /health HTTP/1.1" 200 2 "-" "curl/7.74.0"


Mở trình duyệt và điều hướng đến http://localhost:8088 để truy cập Superset. Đăng nhập bằng tên người dùng mặc định “admin” và mật khẩu “admin”.


Sau khi đăng nhập vào Superset, bạn phải kết nối nó với Druid. Ở trên cùng bên phải, nhấp vào “+” để thêm cơ sở dữ liệu.


Kết nối với Druid


Từ danh sách thả xuống, chọn Apache Druid. Sau đó đặt tên cho kết nối và nhập thông tin sau trong SQLALCHEMY URI, đảm bảo cập nhật địa chỉ IP hoặc thay thế bằng localhost nếu cần. Nếu chúng tôi đã bảo vệ API Druid bằng cách yêu cầu xác thực, chúng tôi cũng sẽ nhập tên người dùng và mật khẩu.


 druid://10.0.0.10:8888/druid/v2/sql


Kiểm tra kết nối để đảm bảo nó hoạt động và sau đó nhấp vào Kết thúc.


Kiểm tra kết nối


Woo-hoo! Bây giờ bạn có Druid, MinIO và Superset đang chạy trong môi trường của mình.


Với bộ ba Druid, SuperSet và MinIO, chúng ta có thể có cái nhìn đầy đủ và kịp thời về dữ liệu thời gian thực. Có nhiều tổ chức đã xây dựng các ứng dụng ổ dữ liệu quy mô web dựa trên sự kết hợp này để phân tích luồng nhấp chuột (phân tích trang web và thiết bị di động), phân tích rủi ro/lừa đảo, phân tích đo từ xa mạng (giám sát hiệu suất mạng), phân tích chuỗi cung ứng (số liệu sản xuất) và các chỉ số hiệu suất ứng dụng.


Ngăn xếp phân tích và trực quan hóa trên nền tảng đám mây này rất linh hoạt và có thể mở rộng, đồng thời có khả năng mở rộng và hoạt động hiệu quả để bạn có thể xây dựng các ứng dụng làm hài lòng người dùng của mình. Cung cấp cho họ khả năng giám sát, phân tích và trực quan hóa dữ liệu theo thời gian thực. Hãy để họ chia nhỏ, lọc và nhóm theo bất kỳ tổ hợp cột nào để họ có thể đưa ra quyết định cuối cùng dựa trên dữ liệu định hướng hành động theo tốc độ mà doanh nghiệp yêu cầu.

Để tất cả chúng cùng nhau

Để thể hiện một chút chức năng mà chúng tôi đã xây dựng, chúng tôi sẽ tải tệp dữ liệu hướng dẫn về các chỉnh sửa trên Wikipedia theo thời gian vào Druid và sau đó trực quan hóa các chỉnh sửa trong SuperSet. Hãy nhớ rằng, điều này được MinIO hỗ trợ dưới dạng bộ lưu trữ sâu. Các chỉnh sửa Wikipedia được trình bày chi tiết hơn trong Khởi động nhanh · Apache Druid .

Ăn vào Druid

Druid tải dữ liệu bằng cách gửi thông số tác vụ nhập dưới dạng JSON tới máy chủ Overlord. Bạn có thể xây dựng thông số truyền dẫn bằng GUI web hoặc tự viết và lên lịch. Sau khi xây dựng và điều chỉnh thông số truyền dẫn, bạn có thể sử dụng lại JSON để không phải lặp lại thao tác đó. Trong sản xuất, các nhóm thường xuyên lên lịch và tự động hóa quá trình nhập.


Mở trình duyệt và tải giao diện web Druid tại http://localhost:8888 .


Đang tải giao diện web Druid


Ở đầu cửa sổ, nhấp vào Tải dữ liệu. Từ đây, chọn Dữ liệu mẫu, sau đó chọn Chỉnh sửa Wikipedia từ menu thả xuống bên phải và nhấp vào nút Tải ví dụ màu xanh lam.


Đang tải dữ liệu


GUI web sẽ hướng dẫn bạn cách xây dựng thông số truyền dẫn sẽ đọc dữ liệu từ một nguồn và lưu trữ dữ liệu đó trong các phân đoạn trên bộ lưu trữ sâu. Quá trình nhập dựa trên dấu thời gian dùng để phân vùng và sắp xếp dữ liệu, trong khi dữ liệu được lưu trữ dưới dạng cột thứ nguyên và chỉ số. Để biết thêm thông tin về cách tối ưu hóa hiệu suất khi nhập, vui lòng xem Lập mô hình dữ liệu và Hiệu suất truy vấn trong Apache Druid .


Với dữ liệu hướng dẫn, chúng ta chỉ cần nhấp qua quy trình nhập để chấp nhận các giá trị mặc định hoặc nhấp vào Chỉnh sửa thông số JSON rồi nhấp vào Gửi. Nếu bạn muốn (hoặc cần), bạn có thể xem tệp thô dưới dạng JSON và phân tích cú pháp nó. Druid tạo cột thời gian riêng có tên __time để sắp xếp và phân đoạn dữ liệu. Bởi vì thời gian rất quan trọng đối với Druid nên nó rất giỏi trong việc tìm ra cách xử lý dấu thời gian bất kể định dạng của chúng. Ngoài ra, chúng ta có thể chuyển đổi dữ liệu và tối ưu hóa hiệu suất truy vấn bằng cách phân vùng dữ liệu và định cỡ các phân đoạn. Cuối cùng, bạn có thể điều chỉnh công việc nhập về mặt luồng và mức sử dụng bộ nhớ, sau đó lên lịch và chạy công việc đó.


Điều chỉnh công việc nhập


GUI gửi cho bạn để xem Nhiệm vụ:


Xem nhiệm vụ


Đây là một công việc nhập rất nhỏ nên nó kết thúc gần như ngay lập tức.


Từ đây, bạn có thể chạy truy vấn dữ liệu trong Druid và nhận được phản hồi nhanh như chớp. Bạn có thể chạy truy vấn thông qua GUI web hoặc API. Druid nhận thấy mình đứng sau nhiều bảng điều khiển vì khả năng cung cấp hiệu suất truy vấn tuyệt vời trên lượng dữ liệu khổng lồ trên quy mô lớn.


Sử dụng truy vấn đối với dữ liệu

Trực quan hóa trong Superset

Quay lại trình duyệt mà bạn đã đăng nhập vào Superset và một lần nữa nhấp vào dấu “+” ở phía trên bên phải màn hình chính. Sau đó nhấp vào Biểu đồ.


Trực quan hóa trong Superset


Chúng tôi có thể chạy các truy vấn SQL riêng lẻ ở cuối màn hình. Trang tổng quan là các nhóm truy vấn riêng lẻ. Phản hồi cho các truy vấn lặp đi lặp lại được lưu vào bộ nhớ đệm trong Superset để cải thiện hiệu suất.


Chọn tập dữ liệu druid.wikipedia rồi chọn hình ảnh trực quan. Superset bao gồm một số trực quan hóa chuỗi thời gian. Chúng ta sẽ chọn Biểu đồ chuỗi thời gian và sau đó nhấp vào Biểu đồ mới.


Tạo biểu đồ mới


Ban đầu, bạn sẽ không thấy bất kỳ kết quả nào, nhưng đừng để điều đó đánh lừa bạn. Trước tiên, hãy xóa Phạm vi thời gian bằng cách đặt thành “không có bộ lọc”. Time Grain được đặt quá cao ở “ngày”, vì vậy hãy thay đổi thành “5 phút”. Chúng tôi hiện đang xem biểu đồ về số lần chỉnh sửa Wikipedia diễn ra trong khoảng thời gian 5 phút trong dữ liệu mẫu của chúng tôi.


Sự miêu tả dữ liệu


Bạn có thể lọc và nhóm các kết quả bằng Superset. Để lưu biểu đồ, hãy nhấp vào Lưu ở đầu màn hình, sau đó đặt tên cho biểu đồ và lưu lại.


Lọc và nhóm kết quả bằng Superset


Đến bây giờ, bạn đã học được các bước cơ bản để cài đặt Druid và MinIO, nhập tập dữ liệu đầu tiên và tạo biểu đồ Superset đầu tiên của bạn. Bước tiếp theo hữu ích có thể là tìm hiểu thêm về Khám phá dữ liệu trong Superset .

Phân tích có thể mở rộng quy mô lớn

Trong bài đăng blog này, chúng tôi đã giới thiệu một nhóm ứng dụng gốc đám mây: Apache Druid để phân tích, Apache Superset để trực quan hóa và MinIO cho bộ lưu trữ sâu S3. Bản demo đơn giản này là bước khởi đầu của việc xây dựng ngăn xếp trực quan và phân tích gốc trên nền tảng đám mây và có thể được mở rộng bằng Apache Spark cho ML hoặc Jupyter cho khoa học dữ liệu.


Cảm ơn bạn đã đọc qua bản demo này. Nếu bạn có bất kỳ câu hỏi nào, vui lòng gửi email cho chúng tôi theo địa chỉ [email protected] hoặc tham gia kênh Slack MinIO và hỏi.


Cũng được xuất bản ở đây .