Thế giới dữ liệu đã thay đổi đáng kể trong thập kỷ qua. Cơ sở dữ liệu truyền thống, được thiết kế để lưu trữ thông tin ở định dạng có cấu trúc, đã phát triển thành kho dữ liệu phi cấu trúc khổng lồ đặt trên nhiều máy chủ ở các vị trí khác nhau. Cách đây không lâu, chúng ta đã quen với việc nhìn thấy các hệ thống nguyên khối bị thống trị bởi những người khổng lồ như Oracle và IBM. Nếu bạn là nhà phân tích hoặc người dùng doanh nghiệp cần quyền truy cập vào loại dữ liệu này — còn ai thì không? —Điều đó có nghĩa là các hệ thống chuyển động chậm cực kỳ khó quản lý.
Sự phức tạp ngày càng tăng của các hệ thống cuối cùng đã thúc đẩy nhu cầu về các phần mềm hiện đại có thể giúp các tổ chức chạy các ứng dụng phức tạp trong khi vẫn quản lý để tiết kiệm chi phí. Phong trào mã nguồn mở đã giúp thực hiện điều này, bằng cách giảm đáng kể chi phí ghép các ứng dụng phức tạp lại với nhau như Elastic Search để tìm kiếm toàn văn và PyTorch để lập mô hình. Đóng gói và hoạt động mạnh mẽ của phần mềm đã cải thiện khả năng sử dụng, tính ổn định và tính kinh tế của hệ thống.
Ngăn xếp dữ liệu hiện đại (MDS), đã được chứng kiến rất nhiều trong thập kỷ qua, được xây dựng dựa trên phong trào mã nguồn mở và là một tập hợp các ý tưởng, công cụ và phương pháp luận nhằm xây dựng ngăn xếp dữ liệu doanh nghiệp.
Trong những năm 2010, chúng tôi đã chứng kiến sự áp dụng nhanh chóng của các công cụ nguồn mở trong MDS. Tuy nhiên, đăng thành công ban đầu của họ, rất nhiều sáng kiến của các tổ chức xung quanh những sáng kiến này đã gặp phải thách thức khi mở rộng quy mô:
Điểm # 1 và # 2 đã đóng một vai trò quan trọng trong việc gia tăng mức độ căng thẳng trong ngành, và cũng hạn chế tài năng sẵn có để áp dụng và sử dụng công nghệ. Chúng tôi đã thấy xu hướng tương tự trong không gian DevOps, với việc nguồn cung cấp tài năng của nhà phát triển không đáp ứng được nhu cầu về các dịch vụ kỹ thuật số mới. Tyler Jewell của Dell Capital đã khá lên tiếng về vấn đề này - điều đã dẫn đến tình trạng kiệt sức cao và thời gian làm việc trung bình của một nhà phát triển chuyên nghiệp là dưới 20 năm. Gần đây, anh ấy đã đăng một chủ đề trong đó anh ấy đã đi sâu vào sự phức tạp trong bối cảnh do nhà phát triển dẫn dắt và chúng tôi không thể không nhận thấy một số điểm tương đồng giữa những gì anh ấy tuyên bố và không gian MLOps.
Điểm # 3 và # 4 nêu bật hoàn cảnh của những người làm dữ liệu ngày nay – nếu giải quyết vấn đề là không đủ, họ sẽ dành nhiều thời gian hơn để cố gắng tìm ra “cách” họ có thể tiến hành và giải quyết vấn đề mà không thể suy nghĩ nhiều về điều gì cần được thực hiện, hoặc kết quả mong đợi.
Chúng tôi đang thấy sự thay đổi trong các công cụ dữ liệu được các tổ chức sử dụng, do sự công nhận ngày càng tăng khiến nhiều người trong số họ không có lựa chọn nào khác ngoài việc dựa vào các nhà cung cấp bên thứ ba cho nhu cầu cơ sở hạ tầng của họ. Điều này không chỉ do hạn chế về ngân sách mà còn do các ràng buộc khác, chẳng hạn như bảo mật dữ liệu và xuất xứ.
Ngoài ra, nhu cầu ngày càng tăng đối với các quy trình tự động cho phép các doanh nghiệp dễ dàng di chuyển khối lượng công việc từ nhà cung cấp này sang nhà cung cấp khác mà không làm gián đoạn hoạt động hoặc gây ra thời gian chết. Chúng tôi đang thấy tác động của những điều này trong các ngành như dịch vụ tài chính, nơi quản lý dữ liệu thường rất quan trọng để thành công (ví dụ: các tổ chức xếp hạng tín dụng).
Kết quả của tất cả những điều này cũng như những thách thức được liệt kê ở trên, đã có một số sự phát triển trong cộng đồng:
Việc hợp nhất các công cụ và nền tảng, phát triển nền tảng đơn giản hơn và sử dụng các dịch vụ được quản lý đang diễn ra trong toàn ngành. Điều này xuất phát từ nhu cầu của các doanh nghiệp để đối phó với sự phức tạp. Đây là thời điểm thú vị để trở thành một phần của không gian này, và tôi rất nóng lòng được xem phong cảnh phát triển như thế nào trong suốt cả năm.
Tại Scribble Data, (công ty mà tôi đồng sáng lập), chúng tôi nhận thức sâu sắc về sự phát triển này khi nó đang diễn ra. Chúng tôi tập trung vào một vấn đề cụ thể - kỹ thuật tính năng cho các trường hợp sử dụng khoa học dữ liệu và phân tích nâng cao. Không gian vấn đề này đã phát triển đều đặn về mức độ quan trọng và đã phát triển theo những cách phù hợp với những điểm trên. Với sự kết hợp công nghệ phù hợp và trọng tâm giải pháp, có thể điều chỉnh giá trị sản phẩm cho các trường hợp sử dụng, đồng thời đạt được thời gian định giá trị (TTV) nhanh hơn gấp 5 lần cho mỗi trường hợp sử dụng.
Cũng được xuất bản tại đây