paint-brush
Tại sao rất nhiều sáng kiến AI thất bạiby@datastax
1,254
1,254

Tại sao rất nhiều sáng kiến AI thất bại

DataStax6m2023/04/26
Read on Terminal Reader

Tại sao đối với hầu hết các tổ chức, việc xây dựng các ứng dụng AI thành công lại là một thách thức lớn? Nó có thể được chia thành ba rào cản lớn: Dữ liệu sai, cơ sở hạ tầng sai, sai thời điểm.
featured image - Tại sao rất nhiều sáng kiến AI thất bại
DataStax HackerNoon profile picture
0-item

Bạn đang tìm trên iPhone của mình một bức ảnh cụ thể của bạn mình, được chụp cách đây vài năm. Có hàng nghìn hình ảnh để tìm kiếm, nhưng ứng dụng Ảnh của Apple sẽ chọn đúng người, và nhanh chóng, trong vài giây, bạn sẽ tìm thấy bức ảnh mà mình đang tìm kiếm.


Có rất nhiều công việc đằng sau hậu trường để biến điều này thành hiện thực, bao gồm nhận dạng khuôn mặt, phân tích hình ảnh và gắn thẻ tự động, kết hợp với nhau để tiết kiệm công sức bằng cách đưa ra suy luận về những gì cần thiết hoặc mong muốn, sau đó hành động dựa trên những suy luận đó trong thời gian thực.


Các công ty như Apple — và cả Google, FedEx, Uber, Netflix — đã dành nhiều năm để xây dựng các hệ thống và kiến trúc cho phép trải nghiệm người dùng trở nên dễ dàng hơn, cá nhân hóa hơn và trực quan hơn. Trong một số trường hợp, trí tuệ nhân tạo cho phép đưa ra các quyết định quan trọng gần như ngay lập tức hoặc các dự đoán xảy ra trong thời gian thực, giúp doanh nghiệp cải thiện kết quả ngay lập tức.


Điều này không bị mất trong thế giới rộng lớn hơn của các doanh nghiệp: Theo một Khảo sát Deloitte 2022 , 94% các nhà lãnh đạo doanh nghiệp nói rằng AI rất quan trọng để thành công.


Vậy tại sao đối với hầu hết các tổ chức, việc xây dựng các ứng dụng AI thành công lại là một thách thức lớn? Nó có thể được chia thành ba rào cản lớn: Dữ liệu sai, cơ sở hạ tầng sai, sai thời điểm.

Rào cản để thành công AI

Theo Mckinsey , 56% công ty đã áp dụng AI, nhưng, như Accenture lưu ý trong một báo cáo , chỉ 12% thành công trong việc đạt được tốc độ tăng trưởng vượt trội và chuyển đổi kinh doanh nhờ AI.


Nhiều trở ngại cản trở việc xây dựng thành công AI thành các ứng dụng thời gian thực, nhưng hầu hết đều liên quan đến một yếu tố trung tâm: dữ liệu.


Nhiều hệ thống ML/AI truyền thống và kết quả mà chúng tạo ra, dựa vào kho dữ liệu và xử lý hàng loạt. Kết quả: cần phải có một loạt công nghệ, chuyển động và biến đổi dữ liệu phức tạp để “đưa” dữ liệu lịch sử này đến các hệ thống máy học.


Dữ liệu được đưa vào mô hình ML được gọi là các tính năng (các thuộc tính có thể đo lường được có thể được sử dụng để phân tích), thường dựa trên dữ liệu được lưu trữ trong cơ sở dữ liệu ứng dụng hoặc được ghi vào tệp nhật ký. Chúng thường yêu cầu các phép biến đổi, chẳng hạn như giá trị chia tỷ lệ hoặc tính toán dựa trên các bản ghi trước đó (ví dụ: đường trung bình động tại thời điểm bản ghi được tạo).


Điều này thường làm chậm luồng dữ liệu từ đầu vào đến quyết định rồi đến đầu ra, dẫn đến bỏ lỡ các cơ hội có thể dẫn đến việc khách hàng rời bỏ hoặc các mẫu mối đe dọa an ninh mạng được công nhận sẽ không bị phát hiện và không được giảm nhẹ. Những thách thức có thể được tóm tắt là có các bộ dữ liệu không phù hợp, được hỗ trợ bởi cơ sở hạ tầng không phù hợp di chuyển quá chậm.

Dữ liệu sai…

Do khối lượng dữ liệu khổng lồ (và các chi phí liên quan), nó phải được tổng hợp để dễ vận chuyển và sẵn có. Nói một cách đơn giản, dữ liệu được tổng hợp hoặc biến đổi quá mức sẽ ngăn các tổ chức dễ dàng xác định các hành động phù hợp trong thời gian thực và làm giảm khả năng đạt được kết quả mong muốn, cho dù đó là sản phẩm được đề xuất, lộ trình phân phối gói hàng được cập nhật hay cài đặt được điều chỉnh trên máy trong nhà máy . Điều này làm chậm khả năng của tổ chức trong việc tìm câu trả lời cho các câu hỏi mới, dự đoán kết quả hoặc thích ứng với bối cảnh phát triển nhanh chóng.


Các nhà khoa học dữ liệu buộc phải sử dụng các bộ dữ liệu chi tiết thô sẽ đưa ra các dự đoán mơ hồ, do đó, không dẫn đến tác động kinh doanh như mong đợi, đặc biệt là trong các bối cảnh rời rạc như phiên khách hàng. Chúng cũng có thể không được biết khi ứng dụng được định cấu hình lại hoặc nguồn dữ liệu phát triển, dẫn đến các sự kiện thiết yếu không cung cấp tính năng. Dữ liệu bị thiếu này dẫn đến việc ra quyết định không đầy đủ thông tin khi chọn mô hình. Điều này dẫn đến hiệu suất dự đoán kém chính xác hơn hoặc tệ hơn là các mô hình sử dụng dữ liệu sai có thể dẫn đến các quyết định sai lầm.


Cuối cùng, tập hợp tập trung vào việc tạo ra các tính năng hiện có. Kỹ thuật tính năng mới — xử lý dữ liệu cần thiết để chọn và đào tạo mô hình — yêu cầu quay lại dữ liệu thô cho các tập hợp khác nhau. Quá trình xử lý bổ sung này làm chậm đáng kể công việc của các nhà khoa học dữ liệu, kéo dài quá trình thử nghiệm.

… trong cơ sở hạ tầng sai…

Thách thức thứ hai liên quan đến cơ sở hạ tầng ML hiện tại cung cấp năng lượng cho các sáng kiến AI và việc chúng không có khả năng xử lý bộ dữ liệu trên quy mô lớn. Chất lượng của các mô hình và kết quả của chúng tăng lên cùng với khối lượng dữ liệu sự kiện được nhập. Các tổ chức thường cần xử lý khối lượng lớn các sự kiện mà cơ sở hạ tầng cũ không thể xử lý được.


Chuỗi các mô hình đào tạo và phục vụ chúng để chạy suy luận trở nên phức tạp, đặc biệt là khi nó yêu cầu chuyển động dữ liệu giữa mỗi mô hình. Việc cố gắng xử lý quy mô cần thiết cho các dự đoán chất lượng cao sẽ đẩy các kiến trúc truyền thống đến điểm phá vỡ của chúng. Nó cũng rất chậm, không đáng tin cậy và tốn kém. Tất cả những điều này đe dọa giá trị và tác động của các ứng dụng đang ngày càng trở nên quan trọng.

… vào lúc sai thời điểm

Một trở ngại khác phát sinh từ việc xử lý dữ liệu quá muộn để tạo ra bất kỳ tác động đáng kể nào. Các kiến trúc hiện tại yêu cầu xử lý dữ liệu thông qua nhiều hệ thống để phục vụ một mô hình và điều này gây ra độ trễ ảnh hưởng đến các sáng kiến AI theo nhiều cách khác nhau:


  • Đầu ra của mô hình không thể thay đổi tiến trình của một tình huống đang phát triển. Ví dụ: nó đề xuất một ưu đãi dành cho khách hàng tại thời điểm tỷ lệ chuyển đổi giảm và khách hàng có thể đã mua thứ khác.

  • Thời gian cần thiết để phục vụ các mô hình và nhận được kết quả không phù hợp với mong đợi của trải nghiệm kỹ thuật số hoặc quy trình tự động. Đôi khi, có thể mất nhiều ngày trước khi dữ liệu sẵn sàng để xử lý. Trong các thị trường cạnh tranh cao, dữ liệu cũ này tốt nhất là không liên quan và tệ nhất là nguy hiểm (hãy xem xét một ứng dụng đi chung xe áp dụng giá tăng đột biến trong thời kỳ khủng hoảng hoặc thảm họa).

  • Các nhà khoa học dữ liệu không có quyền truy cập vào dữ liệu mới nhất. Điều này có thể ảnh hưởng đến kết quả của các mô hình và có thể yêu cầu các nhà khoa học dữ liệu dành thời gian quý báu để tìm kiếm các điểm hoặc nguồn dữ liệu bổ sung.


Nhiều cơ sở hạ tầng ML hiện tại không thể phục vụ các ứng dụng vì chúng quá đắt, quá phức tạp và quá chậm. Và, những thay đổi về quy định cuối cùng có thể yêu cầu các tổ chức cung cấp giải thích chi tiết hơn về cách các mô hình được đào tạo và lý do tại sao họ đi đến một quyết định cụ thể. Mức độ hiển thị này là không thể với các kiến trúc hiện tại do quá trình xử lý, tổng hợp và nhiều công cụ liên quan.


Vấn đề với nhiều cơ sở hạ tầng nằm ở hành trình mà dữ liệu phải đi đến ứng dụng do AI điều khiển. Câu trả lời cho vấn đề, nói một cách đơn giản, là làm ngược lại.

Đưa AI vào dữ liệu

Các nhà lãnh đạo như các công ty được đề cập ở đầu bài viết này đã thành công nhờ tổng hợp lượng lớn dữ liệu thời gian thực từ khách hàng, thiết bị, cảm biến hoặc đối tác khi dữ liệu đó di chuyển qua các ứng dụng của họ. Dữ liệu này lần lượt được sử dụng để đào tạo và phục vụ các mô hình của họ. Các công ty này hành động dựa trên dữ liệu này ngay lập tức, phục vụ hàng triệu khách hàng trong thời gian thực.


Một phần quan trọng khác trong thành công của các nhà lãnh đạo là việc họ thu thập tất cả dữ liệu ở cấp độ chi tiết nhất — dưới dạng các sự kiện được đánh dấu thời gian. Điều này có nghĩa là họ không có nhiều dữ liệu; họ cũng có thể hiểu những gì đã xảy ra và khi nào nó xảy ra, theo thời gian.


Các doanh nghiệp hàng đầu như Netflix, FedEx và Uber “mang AI đến nơi có dữ liệu” để họ có thể đưa ra suy luận nơi ứng dụng tồn tại. Nói cách khác, họ nhúng các mô hình ML vào các ứng dụng của mình, tổng hợp các sự kiện trong thời gian thực thông qua các dịch vụ phát trực tuyến và hiển thị dữ liệu này cho các mô hình ML. Và họ có một cơ sở dữ liệu (trong trường hợp của ba nhà lãnh đạo được đề cập ở trên, đó là cơ sở dữ liệu NoQuery mã nguồn mở, thông lượng cao Apache Cassandra ) có thể lưu trữ khối lượng lớn dữ liệu sự kiện.


Với nền tảng dữ liệu thống nhất phù hợp, các sáng kiến ML có cơ sở hạ tầng phù hợp và dữ liệu phù hợp. Các kỹ sư dữ liệu và nhà khoa học dữ liệu có thể “thoát ra khỏi silo của họ” và điều chỉnh các quy trình của họ về kỹ thuật tính năng, thử nghiệm mô hình, đào tạo và suy luận để dự đoán sức mạnh. Mặc dù các quy trình này vẫn yêu cầu nhiều công cụ, nhưng tất cả chúng đều hoạt động trên cùng một nền tảng dữ liệu.


Được hỗ trợ bởi lượng dữ liệu sự kiện khổng lồ để phục vụ các mô hình và ứng dụng, các ứng dụng thành công nhất do AI cung cấp sẽ phân biệt và dẫn đầu bằng cách không ngừng cải thiện trải nghiệm mà chúng cung cấp cho người dùng cuối. Khả năng phục vụ hàng triệu khách hàng và ngày càng trở nên thông minh hơn của họ cho phép họ xác định thị trường mà họ tham gia.


Tìm hiểu cách DataStax kích hoạt AI thời gian thực



của Ed Anuff.


Ed là giám đốc sản phẩm tại DataStax. Ông có hơn 25 năm kinh nghiệm với tư cách là nhà lãnh đạo sản phẩm và công nghệ tại các công ty như Google, Apigee, Six Apart, Vignette, Epicentric và Wired.



Cũng được xuất bản ở đây .