Hiện tại, những người chơi chủ chốt trong AI có thể được chia thành hai nhóm chính: những người ủng hộ AI nguồn mở và những người ủng hộ AI đóng.
Điều thú vị là, một trong những người ủng hộ AI đóng lớn nhất chính là OpenAI, vốn không phát hành mã nguồn của các mô hình của mình mà chỉ cung cấp quyền truy cập vào chúng. Họ thường cho rằng sẽ quá nguy hiểm nếu công bố những mô hình này nên việc kiểm soát tập trung là cần thiết, giống như với năng lượng hạt nhân. Rõ ràng lập luận này có cơ sở nhưng không khó để nhận thấy lợi ích kinh doanh đằng sau quyết định này. Nếu mã nguồn của ChatGPT được cung cấp cho tất cả mọi người thì ai sẽ trả tiền cho dịch vụ này?!
Ngược lại, những người ủng hộ AI nguồn mở, chẳng hạn như Meta (Facebook), tin rằng AI đóng cản trở sự tiến bộ và AI nguồn mở là hướng đi đúng đắn. Tất nhiên, cũng đáng để xem xét các khía cạnh kinh doanh ở đây. Đối với Meta, mô hình AI không phải là sản phẩm chính. Đối với họ, AI chỉ là một công cụ và việc chia sẻ mô hình không gây bất lợi cho doanh nghiệp. Ngược lại, nó mang lại lợi thế kinh doanh vì Meta sau này có thể tận dụng sự phát triển của cộng đồng. Tuy nhiên, cũng có một vấn đề nhỏ với mô hình này. Nó không thực sự là nguồn mở.
Một mô hình AI về cơ bản là một phương trình toán học khổng lồ với các tham số có thể điều chỉnh được. Các thông số này được thiết lập trong quá trình đào tạo. Bất cứ khi nào một công ty nói về AI nguồn mở, điều đó có nghĩa là các tham số này được cung cấp truy cập miễn phí để bất kỳ ai cũng có thể chạy mô hình trên máy của họ. Nhưng nó không phải là nguồn mở hoàn toàn!
Trong trường hợp AI, đào tạo tương tự như xây dựng các chương trình truyền thống. Dựa trên điều này, các tham số mô hình đại diện cho tệp nhị phân. Vì vậy, khi Meta, X (Twitter) hoặc các công ty khác mở nguồn mô hình của họ, họ thực sự chỉ đang đưa ra kết quả.
Vì vậy, những gì chúng tôi nhận được là tham số hóa của kiến trúc cố định. Nếu chúng tôi muốn thay đổi hoặc cải thiện bất kỳ điều gì trong kiến trúc, chẳng hạn như sử dụng kiến trúc Mamba thay vì kiến trúc Transformer, chúng tôi sẽ cần đào tạo lại mô hình, điều mà chúng tôi không thể thực hiện nếu không có tập huấn luyện. Vì vậy, những mô hình này chỉ có thể tinh chỉnh chứ không thể phát triển thêm.
Cái gọi là mô hình nguồn mở không thực sự là nguồn mở vì kiến trúc đã cố định. Những mô hình này chỉ có thể được tinh chỉnh chứ không thể phát triển thêm vì điều đó cũng đòi hỏi phải có tập huấn luyện. AI nguồn mở thực sự bao gồm cả mô hình và tập huấn luyện!
Các mô hình AI “nguồn mở” thường là sản phẩm của các công ty lớn. Điều này có thể hiểu được, vì việc đào tạo một mô hình lớn đòi hỏi năng lực tính toán rất lớn và do đó tốn rất nhiều tiền. Chỉ các công ty lớn mới có nguồn lực như vậy, đó là lý do tại sao việc phát triển AI được tập trung hóa.
Giống như công nghệ blockchain dưới dạng Bitcoin đã tạo ra khả năng phân cấp tiền, nó cũng cho phép chúng ta tạo ra AI nguồn mở thực sự thuộc sở hữu của cộng đồng thay vì một công ty.
Bài viết này là một khái niệm về cách có thể phát triển một AI hướng tới cộng đồng, nguồn mở thực sự như vậy bằng cách sử dụng công nghệ blockchain.
Như tôi đã đề cập trước đó, nền tảng của AI nguồn mở thực sự là một tập dữ liệu mở. Tập dữ liệu thực sự là tài nguyên có giá trị nhất. Ví dụ: trong trường hợp ChatGPT, mô hình ngôn ngữ đã được đào tạo trên cơ sở dữ liệu có sẵn công khai (ví dụ: Thu thập thông tin chung) và sau đó được tinh chỉnh với sự hỗ trợ của con người (RLHF) trong giai đoạn tiếp theo. Việc tinh chỉnh này cực kỳ tốn kém do sử dụng sức lao động của con người, nhưng chính điều đó đã mang lại sức mạnh cho ChatGPT. Bản thân kiến trúc này (có lẽ) là một máy biến áp thông thường hoặc một phiên bản sửa đổi của nó, Hỗn hợp các chuyên gia, có nghĩa là nhiều máy biến áp song song. Điểm mấu chốt là kiến trúc không có gì đặc biệt. Điều làm cho ChatGPT (và mọi mô hình khác) trở nên độc đáo là tập dữ liệu tốt. Đây chính là điều mang lại sức mạnh cho mô hình.
Một tập dữ liệu đào tạo AI thường có kích thước vài terabyte và những gì có thể hoặc không thể được đưa vào tập dữ liệu đó có thể khác nhau tùy theo nhóm và văn hóa. Việc lựa chọn dữ liệu là rất quan trọng, vì nó sẽ quyết định, ví dụ, “tính cách” của một mô hình ngôn ngữ lớn. Một số vụ bê bối lớn đã nổ ra vì các mô hình AI của các công ty lớn (Google, Microsoft, v.v.) hành xử theo cách phân biệt chủng tộc. Điều này là do việc lựa chọn tập dữ liệu không đúng. Vì các yêu cầu đối với tập dữ liệu có thể khác nhau tùy theo nền văn hóa nên có thể cần phải phân nhánh nhiều lần. Các giải pháp lưu trữ phi tập trung, hướng đến nội dung như IPFS hoặc Ethereum Swarm là lý tưởng để lưu trữ các tập dữ liệu lớn có nhiều phiên bản, đa nhánh như vậy. Các giải pháp lưu trữ này hoạt động tương tự như hệ thống kiểm soát phiên bản GIT, trong đó các tệp riêng lẻ có thể được xử lý bằng hàm băm được tạo từ nội dung. Trong các hệ thống như vậy, việc phân nhánh có thể được tạo ra với chi phí thấp vì chỉ cần lưu trữ những thay đổi và phần chung của hai bộ dữ liệu được lưu trữ trong một phiên bản duy nhất.
Khi có bộ dữ liệu phù hợp, chúng ta có thể tiến hành đào tạo mô hình.
Như đã đề cập trong phần giới thiệu, mô hình AI về cơ bản là một phương trình toán học khổng lồ với nhiều tham số miễn phí. Nói chung, mô hình càng có nhiều tham số rảnh thì càng 'thông minh' hơn, vì vậy số lượng tham số thường được ghi rõ trong tên của mô hình. Ví dụ: mô hình llma-2-7b có nghĩa là kiến trúc mô hình là llma-2 và có 7 tỷ tham số. Trong quá trình đào tạo, các tham số này được đặt bằng cách sử dụng tập dữ liệu để mô hình cung cấp đầu ra được chỉ định cho đầu vào nhất định. Lan truyền ngược được sử dụng để huấn luyện nhằm tìm ra các tham số phù hợp nhất với sự trợ giúp của đạo hàm riêng.
Trong quá trình đào tạo, tập dữ liệu được chia thành các đợt. Trong mỗi bước, một lô nhất định cung cấp các tham số đầu vào và đầu ra, đồng thời sử dụng phương pháp lan truyền ngược để tính toán cách sửa đổi các tham số của mô hình nhằm tính toán chính xác đầu ra đã cho từ đầu vào đã cho. Quá trình này phải được lặp lại nhiều lần trên tập dữ liệu đã cho cho đến khi mô hình đạt được độ chính xác mong muốn. Độ chính xác có thể được kiểm tra bằng tập dữ liệu thử nghiệm.
Các công ty lớn tiến hành đào tạo trên các cụm GPU lớn vì việc đào tạo đòi hỏi khả năng tính toán rất lớn. Trong một hệ thống phi tập trung, một thách thức nữa là các nút riêng lẻ không đáng tin cậy và luôn có chi phí liên quan đến sự không đáng tin cậy! Sự không đáng tin cậy này là lý do tại sao Bitcoin có mức tiêu thụ năng lượng bằng một quốc gia nhỏ. Bitcoin sử dụng sự đồng thuận của Proof of Work, trong đó khả năng tính toán thay thế độ tin cậy. Thay vì tin tưởng các nút riêng lẻ, chúng tôi tin tưởng rằng các nút có mục đích tốt sẽ sở hữu nhiều khả năng tính toán hơn các nút độc hại trong mạng. May mắn thay, có các cơ chế đồng thuận khác, chẳng hạn như Bằng chứng cổ phần được Ethereum sử dụng, trong đó tiền đặt cược đảm bảo độ tin cậy của chúng tôi thay vì khả năng tính toán. Trong trường hợp này, không cần công suất tính toán lớn, dẫn đến nhu cầu năng lượng và tác động môi trường thấp hơn đáng kể.
Trong đào tạo phi tập trung, cần có một số cơ chế để thay thế sự tin cậy giữa nút đào tạo và người yêu cầu. Một giải pháp khả thi là nút đào tạo tạo nhật ký của toàn bộ quá trình đào tạo và bên thứ ba, nút xác thực, kiểm tra ngẫu nhiên nhật ký tại một số điểm nhất định. Nếu nút xác nhận thấy việc đào tạo đạt yêu cầu thì nút đào tạo sẽ nhận được khoản thanh toán được đề xuất. Người xác thực không thể kiểm tra toàn bộ nhật ký vì điều đó có nghĩa là phải thực hiện lại tất cả các tính toán và các yêu cầu tính toán của quá trình xác thực sẽ tương đương với yêu cầu tính toán của quá trình đào tạo.
Một lựa chọn khác là giải pháp lạc quan, trong đó chúng tôi giả định rằng nút đã thực hiện tính toán chính xác và đưa ra một khoảng thời gian thử thách trong đó bất kỳ ai cũng có thể chứng minh điều ngược lại. Trong trường hợp này, nút thực hiện tính toán sẽ đặt cược số tiền lớn hơn (tiền phạt) và nút yêu cầu tính toán cũng đặt cược một số tiền (phần thưởng). Nút thực hiện tính toán và sau đó công bố kết quả. Tiếp theo là thời gian thử thách (ví dụ: 1 ngày). Nếu ai đó tìm thấy lỗi trong quá trình tính toán bằng các kiểm tra ngẫu nhiên trong khoảng thời gian này và xuất bản nó, họ sẽ nhận được hình phạt do nút máy tính đặt ra và người yêu cầu sẽ nhận lại phần thưởng của họ. Nếu không ai có thể chứng minh rằng tính toán không chính xác trong thời gian thử thách thì nút tính toán sẽ nhận được phần thưởng.
Có một biến thể của bằng chứng không có kiến thức được gọi là zkSNARK, cũng phù hợp để xác minh rằng ai đó đã thực hiện tính toán. Ưu điểm chính của phương pháp này là việc xác minh có thể được thực hiện với chi phí thấp, nhưng việc tạo ra bằng chứng là một nhiệm vụ tính toán chuyên sâu. Vì phương pháp này rất tốn kém ngay cả đối với các phép tính đơn giản hơn nên nó sẽ đòi hỏi nhiều tài nguyên tính toán hơn cho việc đào tạo AI so với chính việc đào tạo, vì vậy hiện tại chúng tôi có thể không thể sử dụng nó cho mục đích này. Tuy nhiên, zkML là một lĩnh vực nghiên cứu tích cực và có thể hình dung rằng trong tương lai, bên thứ ba có thể được thay thế bằng một hợp đồng thông minh xác minh SNARK.
Từ những điều trên, rõ ràng là có một số giải pháp để xác minh tính toán. Dựa trên những điều này, hãy xem hệ thống hỗ trợ đào tạo phi tập trung dựa trên blockchain của chúng tôi sẽ được xây dựng như thế nào.
Trong hệ thống này, bộ dữ liệu được cộng đồng sở hữu thông qua DAO. DAO quyết định dữ liệu nào có thể được đưa vào tập dữ liệu. Nếu một nhóm thành viên không đồng ý với quyết định này, họ có thể tách khỏi DAO và thành lập một DAO mới, nơi họ phân nhánh tập dữ liệu hiện có và tiếp tục xây dựng nó một cách độc lập. Do đó, DAO được phân nhánh cùng với tập dữ liệu. Vì tập dữ liệu được lưu trữ trong bộ lưu trữ phi tập trung có địa chỉ nội dung (ví dụ: Ethereum Swarm), nên việc phân tách không tốn kém. Việc lưu trữ dữ liệu được tài trợ bởi cộng đồng.
Quá trình đào tạo cũng được kiểm soát bởi DAO. Thông qua DAO, các nút đào tạo muốn bán năng lực tính toán dự phòng của mình có thể đăng ký. Để đăng ký, họ phải đặt cọc vào một hợp đồng thông minh. Nếu một nút cố gắng gian lận trong quá trình tính toán, nút đó sẽ mất số tiền đặt cược này.
Người yêu cầu chọn tập dữ liệu và mô hình họ muốn đào tạo, sau đó đưa ra phần thưởng. Ưu đãi này được công khai nên bất kỳ nút đào tạo nào cũng có thể đăng ký để thực hiện nhiệm vụ. Nút đào tạo tạo ra một bản ghi đầy đủ về quá trình đào tạo, trong đó mỗi mục nhập tương ứng với quá trình đào tạo của một đợt. Mục nhập bao gồm đầu vào, đầu ra, ma trận trọng số và tất cả các tham số có liên quan (ví dụ: hạt giống ngẫu nhiên được lớp loại bỏ sử dụng để chọn dữ liệu bị loại bỏ). Do đó, toàn bộ tính toán có thể được sao chép dựa trên nhật ký.
Như đã đề cập trước đó, một số phương pháp có thể được sử dụng để xác minh tính toán. Đơn giản nhất là cách tiếp cận lạc quan. Trong trường hợp này, người yêu cầu đặt phần thưởng vào hợp đồng thông minh và nút đào tạo sẽ xuất bản nhật ký đào tạo. Sau khi xuất bản, có một khung thời gian cụ thể (ví dụ: 1 ngày) để xác minh tính toán. Nếu trong thời gian này, người yêu cầu hoặc bất kỳ ai khác gửi bằng chứng cho thấy một bước cụ thể không chính xác, nút đào tạo sẽ mất cổ phần và người yêu cầu sẽ nhận lại phần thưởng. Trong trường hợp này, nút gửi bằng chứng chính xác sẽ nhận được tiền đặt cọc, khuyến khích mọi người xác thực các tính toán. Nếu không có ai gửi bằng chứng đó, nút đào tạo sẽ nhận được phần thưởng sau khi hết thời gian.
Tóm lại, đây là cách hệ thống hoạt động. Tất nhiên, một số câu hỏi phát sinh.
Mô hình kinh doanh của hệ thống giống với hầu hết các giải pháp nguồn mở và miễn phí, chẳng hạn như mô hình kinh doanh Linux. Nếu một công ty cần một mô hình và không gặp vấn đề gì với việc nó là nguồn mở và miễn phí, thì việc đầu tư vào mô hình này sẽ hiệu quả hơn nhiều so với việc đào tạo mô hình của chính công ty đó. Hãy tưởng tượng rằng 10 công ty cần cùng một mô hình ngôn ngữ. Nếu họ không ngại việc mô hình mở, sẽ tiết kiệm hơn nhiều nếu mỗi người trả 1/10 chi phí đào tạo thay vì mỗi người trả toàn bộ số tiền. Điều tương tự cũng áp dụng cho các tập dữ liệu làm cơ sở cho việc đào tạo. Các chiến dịch gây quỹ cộng đồng thậm chí có thể được tạo cho các mô hình đào tạo, nơi những người dùng mô hình trong tương lai có thể đóng góp vào sự phát triển của nó.
Vì giá cả trong một hệ thống như vậy được thị trường điều tiết nên rất khó để đưa ra câu trả lời dứt khoát cho vấn đề này. Nó phụ thuộc vào khả năng tính toán miễn phí có sẵn cho người dùng. Chúng tôi đã thấy sức mạnh của cộng đồng với Bitcoin. Khả năng tính toán của mạng Bitcoin vượt qua bất kỳ siêu máy tính nào. Các nhà cung cấp đám mây cần tạo ra lợi nhuận, trong khi ở một hệ thống phi tập trung như thế này, người dùng sẽ cung cấp khả năng tính toán dự phòng của họ. Ví dụ: ai đó có PC chơi game mạnh mẽ có thể cung cấp dung lượng dự phòng khi họ không chơi. Trong trường hợp này, nếu dịch vụ tạo ra nhiều hơn một chút so với năng lượng sử dụng thì nó đã có giá trị đối với người dùng. Ngoài ra, trên thế giới còn rất nhiều năng lượng lãng phí không thể tận dụng được bằng các phương tiện truyền thống. Một ví dụ về điều này là năng lượng nhiệt được tạo ra bởi núi lửa. Những địa điểm này thường không có lưới điện được thiết lập nên không phù hợp để tạo ra điện có thể sử dụng được. Đã có những công ty khởi nghiệp sử dụng năng lượng này để khai thác Bitcoin. Tại sao không sử dụng nó để 'khai thác trí tuệ'? Vì năng lượng trong trường hợp này hầu như miễn phí nên chỉ cần trang trải chi phí cho phần cứng. Vì vậy, rõ ràng là có nhiều yếu tố có thể khiến việc đào tạo trong một hệ thống phi tập trung như vậy rẻ hơn nhiều so với trên đám mây.
Trong trường hợp chạy các mô hình AI, quyền riêng tư là vấn đề rất quan trọng. Các nhà cung cấp dịch vụ lớn đương nhiên đảm bảo rằng họ xử lý dữ liệu của chúng tôi một cách bảo mật, nhưng chúng tôi có thể chắc chắn rằng không ai nghe lén cuộc trò chuyện của chúng tôi với ChatGPT không? Có các phương pháp (ví dụ: mã hóa đồng cấu) cho phép máy chủ thực hiện tính toán trên dữ liệu được mã hóa, nhưng chúng có chi phí cao. Giải pháp an toàn nhất là chạy các mô hình cục bộ. May mắn thay, phần cứng ngày càng mạnh hơn và đã có những giải pháp phần cứng chuyên dụng để chạy AI. Bản thân các mô hình cũng đang được cải thiện đáng kể. Nghiên cứu cho thấy rằng trong nhiều trường hợp, hiệu suất không giảm nhiều ngay cả sau khi lượng tử hóa, ngay cả trong những trường hợp cực đoan khi chỉ sử dụng 1,5 bit để biểu thị trọng số. Giải pháp thứ hai này đặc biệt hứa hẹn vì nó loại bỏ phép nhân, đây là hoạt động tốn kém nhất. Như vậy, trong tương lai, nhờ sự phát triển của mô hình và phần cứng, nhiều khả năng chúng ta sẽ chạy được những mô hình vượt trình độ con người tại địa phương. Hơn nữa, chúng ta có thể tùy chỉnh các mô hình này theo ý thích của mình bằng các giải pháp như LoRA.
Một hướng rất hứa hẹn khác là thế hệ tăng cường truy xuất (RAG). Điều này có nghĩa là 'kiến thức từ vựng' được lưu trữ trong cơ sở dữ liệu vectơ và mô hình ngôn ngữ của chúng tôi thu thập ngữ cảnh thích hợp từ cơ sở dữ liệu này cho câu hỏi nhất định. Điều này rất giống với cách con người chúng ta hoạt động. Rõ ràng là không ai có thể ghi nhớ toàn bộ từ vựng. Khi được hỏi một câu hỏi, chỉ cần biết tìm những kiến thức cần thiết ở đâu là đủ. Bằng cách đọc và giải thích các mục liên quan, chúng tôi có thể đưa ra câu trả lời mạch lạc. Giải pháp này có nhiều ưu điểm. Một mặt, một mô hình nhỏ hơn là đủ, dễ chạy cục bộ hơn, mặt khác, ảo giác, một vấn đề lớn với các mô hình ngôn ngữ, có thể được giảm thiểu. Ngoài ra, kiến thức của mô hình có thể dễ dàng mở rộng mà không cần đào tạo lại, chỉ bằng cách thêm kiến thức mới vào cơ sở dữ liệu vectơ. Ethereum Swarm là một giải pháp lý tưởng để tạo cơ sở dữ liệu vector như vậy, vì nó không chỉ là một công cụ lưu trữ phi tập trung mà còn là một giải pháp truyền thông. Ví dụ: nhắn tin nhóm có thể được triển khai trên Swarm, cho phép tạo cơ sở dữ liệu vectơ phân tán đơn giản. Nút xuất bản truy vấn tìm kiếm và các nút khác phản hồi bằng cách trả về kiến thức liên quan.
Ý tưởng về LLM OS bắt nguồn từ Andrej Karpathy, được anh đăng trên Twitter. LLM OS là một hệ điều hành giả định xoay quanh một mô hình ngôn ngữ lớn. Trong hệ thống phân tán dựa trên blockchain của chúng tôi, chúng tôi có thể coi đây là một tác nhân chạy trên nút của người dùng. Tác nhân này có thể giao tiếp với các tác nhân khác và các công cụ Phần mềm 1.0 truyền thống. Chúng có thể bao gồm máy tính, trình thông dịch Python hoặc thậm chí điều khiển robot vật lý, ô tô hoặc nhà thông minh. Trong hệ thống của chúng tôi, hệ thống tệp được đại diện bởi Swarm và cơ sở dữ liệu vectơ được tạo trên Swarm, nơi có thể truy cập được kiến thức chung. Toàn bộ hệ thống (tập thể các tác nhân) có thể được xem như một dạng trí tuệ tập thể.
Tôi tin rằng trong tương lai, trí tuệ nhân tạo sẽ trở thành một phần trong cuộc sống hàng ngày của chúng ta, toàn diện hơn nhiều so với hiện tại. AI sẽ trở thành một phần của chúng ta! Thay vì điện thoại di động, chúng ta sẽ đeo kính thông minh có camera ghi lại mọi thứ và micro có thể nghe được mọi thứ. Chúng tôi sẽ đối thoại liên tục với các mô hình ngôn ngữ đang chạy tại địa phương của chúng tôi và các tác nhân khác, những mô hình này sẽ thích ứng với nhu cầu của chúng tôi theo thời gian thông qua việc tinh chỉnh. Nhưng những tác nhân này sẽ không chỉ liên lạc với chúng ta mà còn với nhau, liên tục sử dụng kiến thức tập thể do toàn bộ cộng đồng tạo ra. Hệ thống này sẽ tổ chức nhân loại thành một dạng trí tuệ tập thể, đây là một điều rất quan trọng. Việc trí tuệ tập thể này trở thành tài sản của một công ty hoặc tổ chức là không thể chấp nhận được. Đó là lý do tại sao chúng ta cần những hệ thống được nêu ở trên hoặc những hệ thống tương tự!