Một vài tháng trước, có một tuyên bố rằng  sẽ chiếm lĩnh lĩnh vực này. Các chuyên gia trích dẫn một  điều đó nói rằng gã khổng lồ tìm kiếm đã mất lợi thế cạnh tranh trong lĩnh vực AI tổng quát vì các mô hình nguồn mở.   mô hình trí tuệ nhân tạo tổng hợp mã nguồn mở   bản ghi nhớ Google bị rò rỉ  Đối số đi một cái gì đó như thế này:  Các thuật toán học máy nguồn mở đã vượt quá khả năng của các thuật toán độc quyền.  Khi sử dụng thuật toán mã nguồn mở để huấn luyện  trên các tập dữ liệu nguồn mở, hiệu suất của các mô hình “nền tảng” khá tốt đối với điểm chuẩn.   người mẫu  Việc sử dụng các kỹ thuật như “tinh chỉnh” (quá trình kết hợp dữ liệu của bạn với dữ liệu nguồn mở) để xây dựng một mô hình giúp loại bỏ nhu cầu sử dụng các bộ dữ liệu độc quyền của Big Tech.  Do đó, các mô hình độc quyền đã chết.  Sau đó  đã xảy ra.  , một công cụ tìm kiếm AI tổng quát được xây dựng trên tập dữ liệu độc quyền của chính nó, đã nhận được  . Tính năng được trích dẫn nhiều nhất là khả năng kết hợp dữ liệu thời gian thực vào mô hình của nó.   Google I/O 2023   Google Bard   đánh giá tích cực  Chúng ta hãy xem tại sao các mô hình độc quyền sẽ đóng một vai trò có giá trị trong tương lai với phân tích về lập luận ở trên:    Đúng. Bản ghi nhớ nội bộ của Google thảo luận về cách hiệu suất và sự đổi mới của các thuật toán của cộng đồng nguồn mở đã làm lu mờ tốc độ phát triển của chính nó. Các thuật toán học máy nguồn mở có vượt quá khả năng của các thuật toán độc quyền không?    Cẩn thận với điểm chuẩn. Nếu mục tiêu của mô hình chỉ là hiểu tiếng Anh, thì việc sử dụng kho dữ liệu nguồn mở là tốt. Nhưng điều gì sẽ xảy ra nếu mô hình của bạn có thể hưởng lợi từ dữ liệu “thời gian thực”— giống như cách người dùng hưởng lợi từ tìm kiếm dữ liệu thời gian thực của Bard? Sau đó, điểm chuẩn sẽ cần là khả năng hiểu tiếng Anh   hiểu các sự kiện gần đây trên thế giới. Khi sử dụng các thuật toán nguồn mở để đào tạo các mô hình trên các tập dữ liệu nguồn mở, hiệu suất của các mô hình “nền tảng” có tốt đối với điểm chuẩn không? và    Một lần nữa, người dùng của bạn quan tâm đến điều gì? Bộ dữ liệu độc quyền của bạn có thể mang lại TẤT CẢ bối cảnh thời gian thực mà bạn cần không? Các kỹ thuật như “tinh chỉnh” để xây dựng một mô hình có làm giảm nhu cầu sử dụng các bộ dữ liệu độc quyền của Big Tech không?    Không quá nhanh … Vì vậy, các mô hình nền tảng độc quyền có thực sự chết?  Chi phí thành công của AI sáng tạo  Hóa ra việc truy cập dữ liệu thời gian thực để xây dựng mô hình rất tốn kém. Google chi hàng tỷ đô la để xây dựng cơ sở hạ tầng nhằm lập chỉ mục web theo thời gian thực để xây dựng các mô hình chung của họ và bạn có thể đặt cược rằng nó sẽ thuộc sở hữu độc quyền.  Hãy lấy ví dụ về hai chatbot du lịch của hãng hàng không được xây dựng dựa trên hai mô hình nền tảng khác nhau; một chatbot là mã nguồn mở và một là độc quyền với dữ liệu thời gian thực. Chatbot du lịch được “tinh chỉnh” với bộ dữ liệu thông tin chuyến bay độc quyền để đề xuất các chuyến bay nên thực hiện. Trong nhiều trường hợp, cả hai chatbot sẽ đưa ra cùng một câu trả lời. Tuy nhiên, nếu một cơn bão lớn tấn công sân bay, chatbot được xây dựng với dữ liệu thời gian thực độc quyền sẽ cung cấp thông tin chuyến bay để tránh các chuyến bay bị ảnh hưởng bởi cơn bão. Điều này là vô giá đối với người dùng và do đó cũng sẽ có giá trị đối với các nhà phát triển.  Tương lai của các mô hình AI nền tảng  Vì vậy, điều này có nghĩa là mọi trường hợp sử dụng AI tổng quát đều cần một mô hình nền tảng được xây dựng từ dữ liệu thời gian thực độc quyền? Không, nhưng có những lý do khác tại sao cần có một mô hình nền tảng độc quyền:  Bộ dữ liệu độc quyền của bên thứ nhất Hãy xem xét ví dụ sau: Google Bard tận dụng toàn bộ YouTube để tạo mô hình nền tảng. Nếu trường hợp sử dụng AI tổng quát của bạn có thể hưởng lợi từ lượng thông tin và kiến thức khổng lồ được tải lên YouTube, thì bạn có thể muốn sử dụng một mô hình nền tảng của Google.  Bộ dữ liệu cá nhân hóa Khi một mô hình nền tảng được đào tạo với dữ liệu được cá nhân hóa, mô hình đó (còn gọi là mạng thần kinh) sẽ có các khía cạnh của thông tin cá nhân trong đó. Việc sử dụng các mô hình này để suy luận có thể được thực hiện theo cách không làm rò rỉ thông tin cá nhân, nhưng nếu toàn bộ mô hình được xuất, thì có thể trích xuất thông tin cá nhân của những người dùng cụ thể bằng cách xem các tham số của mô hình. Bất chấp những tiến bộ trong học tập liên kết, không có cách nào hoàn hảo để cho phép xuất mô hình mà không gây nguy hiểm cho quyền riêng tư.  Vậy các mô hình nền tảng trong tương lai trông như thế nào? Có lẽ một cái gì đó như thế này:  Các thuật toán sẽ là mã nguồn mở  Các bộ dữ liệu sẽ là độc quyền trong một số trường hợp, do chi phí duy trì bộ dữ liệu thời gian thực và cá nhân hóa, và nguồn mở trong các trường hợp khác.  Giả sử đây là kiến trúc phổ biến, những tác động phụ là gì?  Các doanh nghiệp đang tìm cách xây dựng AI tổng quát có thể sẽ cần dựa vào các mô hình nền tảng từ các công ty lớn có sổ séc để duy trì cơ sở hạ tầng dữ liệu thời gian thực của riêng họ và các mô hình nền tảng nguồn mở cho các trường hợp sử dụng khác  Tập dữ liệu độc quyền mà các doanh nghiệp dựa vào cũng sẽ ngày càng theo thời gian thực. Dự kiến dữ liệu đó sẽ nằm trong cơ sở dữ liệu thời gian thực NoSQL như Apache Cassandra, được truyền trực tiếp vào các cửa hàng tính năng bằng các công nghệ như Apache Pulsar.  Đối với các mục đích thực tế, suy luận mô hình có thể sẽ xảy ra tại các trung tâm dữ liệu thuộc sở hữu của các nhà cung cấp mô hình nền tảng như AWS, Microsoft và Google. Điều này có nghĩa là các công cụ siêu tốc có thể sẽ tăng tầm quan trọng trong thời đại của AI. Suy luận mô hình dựa trên các mô hình nguồn mở cơ bản có thể được thực hiện trong trung tâm dữ liệu của khách hàng.  Các hiệu ứng phụ đối với DataStax (chủ nhân của tôi) cũng rất quan trọng. Với tư cách là nhà cung cấp dịch vụ quản lý dữ liệu, khoản đầu tư của chúng tôi vào việc cung cấp dịch vụ trên đám mây thông qua   , nằm trên các đám mây chính của AWS, Microsoft và Google, có thể sẽ tăng lên khi AI tổng quát trở nên phổ biến hơn trong doanh nghiệp. DataStax Astra DB  Mặc dù chúng tôi khuyến khích và hỗ trợ việc sử dụng các mô hình nền tảng nguồn mở từ các công ty như  , chúng tôi cũng đang thiết lập quan hệ đối tác AI mạnh mẽ với ba nhà cung cấp đám mây lớn. Quan trọng nhất, chúng tôi đang sử dụng quy trình đóng góp của cộng đồng cho các tính năng ngược dòng cho Cassandra, chẳng hạn như   để đảm bảo rằng các công ty có thể tạo bộ dữ liệu thực của riêng họ cho AI thời gian thực.   ÔmKhuôn Mặt tìm kiếm véc tơ   Bởi Alan Hồ, DataStax  Cũng được xuất bản   . ở đây

The is an opinion piece based on the author’s POV and does not necessarily reflect the views of HackerNoon.

DataStax Astra DB is the vector database for getting GenAI apps into production, fast. Try it for free today!

DataStax

Nghe bài viết này bằng Tiếng Anh, đọc bởi robot thông minh của HackerNoon

Các mô hình AI độc quyền đã chết - hay là chúng?

About Author

BÌNH LUẬN

chuyên mục

BÀI VIẾT NÀY CŨNG CÓ MẶT TẠI

Related Stories

85 Stories To Learn About Productivity Hacks

72 Stories To Learn About Adam Smith

94 Stories To Learn About John Locke

128 Stories To Learn About Charles Dickens

85 Stories To Learn About Productivity Hacks

72 Stories To Learn About Adam Smith

94 Stories To Learn About John Locke

128 Stories To Learn About Charles Dickens

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps