paint-brush
Sự phức tạp ngày càng tăng của cơ sở hạ tầng dữ liệu: Hàm ý về chi phí và con đường phía trướctừ tác giả@pingaliscribble
598 lượt đọc
598 lượt đọc

Sự phức tạp ngày càng tăng của cơ sở hạ tầng dữ liệu: Hàm ý về chi phí và con đường phía trước

từ tác giả Venkata Pingali5m2022/08/04
Read on Terminal Reader
Read this story w/o Javascript

dài quá đọc không nổi

Sẽ không thể hiểu được toàn cảnh cơ sở hạ tầng dữ liệu hiện tại nếu không đi sâu hơn vào hành trình của nó từ cơ sở dữ liệu truyền thống đến Ngăn xếp dữ liệu hiện đại (MDS) như nó tồn tại ngày nay, cũng như những thách thức, sự phức tạp và những thay đổi nhanh chóng trong quá trình này. Trong bài viết này, chúng ta xem xét MDS ra đời như thế nào và thách thức mở rộng quy mô như thế nào – với tình trạng quá tải về nhận thức, đường cong học tập dốc và mức độ kiệt sức cao mà nó gây ra giữa các nhóm dữ liệu. Chúng tôi cũng xem xét điều này đang dẫn đến việc hợp nhất các công cụ và nền tảng như thế nào, phát triển nền tảng đơn giản hơn, cũng như các phương pháp luận mới hơn tập trung hơn vào việc xây dựng lòng tin, gắn kết với kết quả và đơn giản là loại bỏ tiếng ồn tạo ra do quá nhiều công cụ được giới thiệu mỗi ngày.

Companies Mentioned

Mention Thumbnail
Mention Thumbnail

Coin Mentioned

Mention Thumbnail
featured image - Sự phức tạp ngày càng tăng của cơ sở hạ tầng dữ liệu: Hàm ý về chi phí và con đường phía trước
Venkata Pingali HackerNoon profile picture


Thế giới dữ liệu đã thay đổi đáng kể trong thập kỷ qua. Cơ sở dữ liệu truyền thống, được thiết kế để lưu trữ thông tin ở định dạng có cấu trúc, đã phát triển thành kho dữ liệu phi cấu trúc khổng lồ đặt trên nhiều máy chủ ở các vị trí khác nhau. Cách đây không lâu, chúng ta đã quen với việc nhìn thấy các hệ thống nguyên khối bị thống trị bởi những người khổng lồ như Oracle và IBM. Nếu bạn là nhà phân tích hoặc người dùng doanh nghiệp cần quyền truy cập vào loại dữ liệu này — còn ai thì không? —Điều đó có nghĩa là các hệ thống chuyển động chậm cực kỳ khó quản lý.

Sự ra đời của một ngăn xếp phần mềm mới

Sự phức tạp ngày càng tăng của các hệ thống cuối cùng đã thúc đẩy nhu cầu về các phần mềm hiện đại có thể giúp các tổ chức chạy các ứng dụng phức tạp trong khi vẫn quản lý để tiết kiệm chi phí. Phong trào mã nguồn mở đã giúp thực hiện điều này, bằng cách giảm đáng kể chi phí ghép các ứng dụng phức tạp lại với nhau như Elastic Search để tìm kiếm toàn văn và PyTorch để lập mô hình. Đóng gói và hoạt động mạnh mẽ của phần mềm đã cải thiện khả năng sử dụng, tính ổn định và tính kinh tế của hệ thống.


Ngăn xếp dữ liệu hiện đại (MDS), đã được chứng kiến ​​rất nhiều trong thập kỷ qua, được xây dựng dựa trên phong trào mã nguồn mở và là một tập hợp các ý tưởng, công cụ và phương pháp luận nhằm xây dựng ngăn xếp dữ liệu doanh nghiệp.

Những thách thức trong việc mở rộng MDS

Trong những năm 2010, chúng tôi đã chứng kiến ​​sự áp dụng nhanh chóng của các công cụ nguồn mở trong MDS. Tuy nhiên, đăng thành công ban đầu của họ, rất nhiều sáng kiến ​​của các tổ chức xung quanh những sáng kiến ​​này đã gặp phải thách thức khi mở rộng quy mô:


  1. Quá tải về nhận thức do số lượng công cụ, cấu hình, phương pháp luận và tương tác mà các tổ chức và nhóm phải theo kịp là quá tải, dẫn đến tình trạng kiệt sức và tỷ lệ hao mòn nhân tài cao.
  2. Đường cong học tập liên quan đến những công nghệ này cực kỳ dốc. Người ta phải hiểu rằng hầu hết các công cụ mã nguồn mở này được xây dựng tại các tổ chức phức tạp như Netflix, Google và Uber và không nhất thiết phải phù hợp với nhu cầu của các tổ chức có quy mô triển khai nhỏ hơn - một phần nhỏ của quy mô.
  3. Tốc độ đổi mới trong không gian cũng có nghĩa là tuổi thọ của các công nghệ mới hơn sẽ ngắn hơn . Với tốc độ mà các công cụ mới hơn, tốt hơn, nhanh hơn, hiệu quả hơn được đưa vào hiện trường, các kỹ sư phải học hỏi và mở rộng nhanh chóng.
  4. Cộng đồng khoa học dữ liệu là một cộng đồng có nhiều quan điểm trái ngược nhau, dẫn đến sự thiếu rõ ràng về cách tiếp cận mà một người cần áp dụng (điều gì tốt nhất cho doanh nghiệp của họ). Thông thường, cách duy nhất để vượt qua thách thức này là xây dựng, việc này không chỉ tốn kém mà còn tốn thời gian.
  5. Nếu bạn đã theo dõi các chu kỳ cường điệu hóa như Gartner, có lẽ không có gì ngạc nhiên khi bạn biết rằng các khoản đầu tư công nghệ có ngày kết thúc (đến nhanh hơn nhiều so với cách đây một thập kỷ). Các công nghệ như Hadoop, NoSQL và Deep Learning được coi là “hot” cách đây không lâu đã vượt qua đỉnh cao của chu kỳ cường điệu Gartner.


Điểm # 1 và # 2 đã đóng một vai trò quan trọng trong việc gia tăng mức độ căng thẳng trong ngành, và cũng hạn chế tài năng sẵn có để áp dụng và sử dụng công nghệ. Chúng tôi đã thấy xu hướng tương tự trong không gian DevOps, với việc nguồn cung cấp tài năng của nhà phát triển không đáp ứng được nhu cầu về các dịch vụ kỹ thuật số mới. Tyler Jewell của Dell Capital đã khá lên tiếng về vấn đề này - điều đã dẫn đến tình trạng kiệt sức cao và thời gian làm việc trung bình của một nhà phát triển chuyên nghiệp là dưới 20 năm. Gần đây, anh ấy đã đăng một chủ đề trong đó anh ấy đã đi sâu vào sự phức tạp trong bối cảnh do nhà phát triển dẫn dắt và chúng tôi không thể không nhận thấy một số điểm tương đồng giữa những gì anh ấy tuyên bố và không gian MLOps.


(Nguồn: https://www.linkedin.com/feed/update/urn:li:share:6951971587176734720/)


Điểm # 3 và # 4 nêu bật hoàn cảnh của những người làm dữ liệu ngày nay – nếu giải quyết vấn đề là không đủ, họ sẽ dành nhiều thời gian hơn để cố gắng tìm ra “cách” họ có thể tiến hành và giải quyết vấn đề mà không thể suy nghĩ nhiều về điều gì cần được thực hiện, hoặc kết quả mong đợi.

Một sự thay đổi đang đến…

Chúng tôi đang thấy sự thay đổi trong các công cụ dữ liệu được các tổ chức sử dụng, do sự công nhận ngày càng tăng khiến nhiều người trong số họ không có lựa chọn nào khác ngoài việc dựa vào các nhà cung cấp bên thứ ba cho nhu cầu cơ sở hạ tầng của họ. Điều này không chỉ do hạn chế về ngân sách mà còn do các ràng buộc khác, chẳng hạn như bảo mật dữ liệu và xuất xứ.

Ngoài ra, nhu cầu ngày càng tăng đối với các quy trình tự động cho phép các doanh nghiệp dễ dàng di chuyển khối lượng công việc từ nhà cung cấp này sang nhà cung cấp khác mà không làm gián đoạn hoạt động hoặc gây ra thời gian chết. Chúng tôi đang thấy tác động của những điều này trong các ngành như dịch vụ tài chính, nơi quản lý dữ liệu thường rất quan trọng để thành công (ví dụ: các tổ chức xếp hạng tín dụng).

Kết quả của tất cả những điều này cũng như những thách thức được liệt kê ở trên, đã có một số sự phát triển trong cộng đồng:


  1. Các tổ chức ngày càng nhấn mạnh sự cần thiết phải xây dựng lòng tin vào dữ liệu của họ , làm nảy sinh các công cụ tập trung vào chất lượng dữ liệu và quản trị dữ liệu.
  2. Ngày càng có nhiều sự chú trọng vào các sáng kiến ​​về Học máy và Khoa học dữ liệu gắn liền với kết quả và các mô hình kinh doanh phù hợp rõ ràng với các trường hợp sử dụng kinh doanh cụ thể .
  3. Chi phí và độ phức tạp ngày càng tăng dẫn đến việc hợp nhất thông qua các phần mở rộng, mua lại và tích hợp tính năng. Snowflake, chẳng hạn, đang nhanh chóng phát triển danh sách các đối tác của mình để trở thành một ngăn xếp ứng dụng phân tích đầy đủ.
  4. Xem xét việc triển khai mô hình sau phức tạp, chúng ta đang thấy sự xuất hiện của các công cụ như NannyML , giúp ước tính hiệu suất mô hình, phát hiện độ lệch và cải thiện mô hình trong quá trình sản xuất thông qua triển khai lặp đi lặp lại. Chúng tôi coi đây là một cách để các doanh nghiệp thu hẹp vòng lặp giữa doanh nghiệp, dữ liệu và mô hình.
  5. Một tổ chức mới, Liên minh cơ sở hạ tầng AI , đã xuất hiện để tập hợp các khối xây dựng cần thiết cho các ứng dụng Trí tuệ nhân tạo. Họ đã và đang làm việc để xây dựng một Canonical Stack cho Machine Learning , nhằm mục đích làm giảm tiếng ồn tạo ra do sự ra đời của rất nhiều công cụ được cho là “mới nhất và tốt nhất”, đồng thời giúp các công ty phi công nghệ thăng cấp nhanh chóng .
  6. Định nghĩa của MDS đang được mở rộng để bao gồm các sản phẩm dữ liệu, ứng dụng và các yếu tố khác. Điều này đang làm cho MDS đầy đủ. Các sản phẩm và dịch vụ mới đang xuất hiện phân chia không gian dựa trên người dùng mục tiêu (ví dụ: các nhà khoa học dữ liệu so với các nhà phân tích), kỹ năng sẵn có và thời gian để đạt được kết quả.
  7. Cơ sở người dùng MDS đang mở rộng để bao gồm các nhóm phân tích và người dùng doanh nghiệp. Điều này dẫn đến cải thiện trải nghiệm người dùng, giao diện mã thấp và tự động hóa.
  8. Và cuối cùng, chúng ta đang thấy sự xuất hiện của các phương pháp tiếp cận như “ Ngăn xếp hậu hiện đại ”, về cơ bản là giải cấu trúc của MDS và ngăn xếp MLOps. Những cách tiếp cận này nhấn mạnh sự phù hợp đối với doanh nghiệp cũng như mức tiêu thụ cuối cùng của các tính năng được tạo ra để tạo ra giá trị kinh doanh.


Điều này có nghĩa là gì

Việc hợp nhất các công cụ và nền tảng, phát triển nền tảng đơn giản hơn và sử dụng các dịch vụ được quản lý đang diễn ra trong toàn ngành. Điều này xuất phát từ nhu cầu của các doanh nghiệp để đối phó với sự phức tạp. Đây là thời điểm thú vị để trở thành một phần của không gian này, và tôi rất nóng lòng được xem phong cảnh phát triển như thế nào trong suốt cả năm.


Tại Scribble Data, (công ty mà tôi đồng sáng lập), chúng tôi nhận thức sâu sắc về sự phát triển này khi nó đang diễn ra. Chúng tôi tập trung vào một vấn đề cụ thể - kỹ thuật tính năng cho các trường hợp sử dụng khoa học dữ liệu và phân tích nâng cao. Không gian vấn đề này đã phát triển đều đặn về mức độ quan trọng và đã phát triển theo những cách phù hợp với những điểm trên. Với sự kết hợp công nghệ phù hợp và trọng tâm giải pháp, có thể điều chỉnh giá trị sản phẩm cho các trường hợp sử dụng, đồng thời đạt được thời gian định giá trị (TTV) nhanh hơn gấp 5 lần cho mỗi trường hợp sử dụng.


Cũng được xuất bản tại đây