Hãy sẵn sàng cho một trận động đất AI! Một nhóm các nhà nghiên cứu UCLA ( @zxche n, @Yihe__Deng , @HuizhuoY , @Kaixuan_Ji_19, @QuanquanGu ) đã bỏ một số chìa khóa chính cho AGI. Đó không chỉ là mã cho AI có vẻ giống con người một cách nghiêm túc, mà họ còn sử dụng mã nguồn mở toàn bộ.
Giờ đây, bạn có thể phát triển LLM tốt hơn mà không cần cung cấp cho nó hàng tấn dữ liệu mới do con người chú thích.
Đầu tiên, hãy tập trung vào yếu tố thay đổi cuộc chơi ở đây: mô hình tự học ngôn ngữ.
Phương pháp này cho phép một mô hình ngôn ngữ tự dạy, ngày càng trở nên tốt hơn mà không cần lượng lớn dữ liệu mới được quản lý từ bên ngoài.
Tôi đã chuyển sang chế độ tìm hiểu sâu hoàn toàn – đọc bài viết của họ (" Tinh chỉnh tự phát chuyển đổi mô hình ngôn ngữ yếu thành mô hình ngôn ngữ mạnh "), tìm kiếm thông tin chuyên sâu trên các diễn đàn như HackerNews , X và Reddit với Google Gemini Ultra và GPT-4 Turbo – và khái niệm cốt lõi của SPIN đã đánh bật những ẩn dụ yêu thích công nghệ của tôi:
Hãy tưởng tượng bắt đầu với một mô hình ngôn ngữ đã thành thạo các kỹ năng cơ bản (giả sử nghi thức đàm thoại). Với SPIN, mô hình tạo ra 'các cuộc trò chuyện' nội bộ, xây dựng tập dữ liệu từ những gì nó đã biết.
Mở rộng kiến thức ngay lập tức!
Bước hai liên quan đến việc đưa ra một mô hình mới và giao cho nó một nhiệm vụ: phát hiện sự khác biệt giữa các cuộc trò chuyện do máy tạo ra và giao tiếp thực sự của con người. Điều này buộc mô hình ban đầu phải cải tiến trò chơi của mình, ngày càng giống con người hơn trong mọi phản ứng để tránh bị phát hiện.
Đây là nơi mọi thứ trở nên thú vị. Họ bắt đầu với zephyr-7b-sft-full (đã được tinh chỉnh với UltraChat corpus ). SPIN đã triển khai một hệ thống đào tạo lặp lại với mô hình cơ sở này, cải thiện nó theo cấp số nhân mà không cần dựa vào hàng tấn dữ liệu mới được tạo từ bên ngoài.
Chúng tôi thường nghĩ rằng học máy, đặc biệt đối với những mô hình ngôn ngữ khổng lồ này, đòi hỏi một lượng lớn dữ liệu được dán nhãn và quản lý cẩn thận. Các phương pháp Tối ưu hóa ưu tiên trực tiếp (DPO) liên quan đến việc con người tỉ mỉ đánh giá các phản ứng AI với nhau để đào tạo. Việc này không chỉ tốn nhiều công sức mà còn khiến chi phí tăng cao khi số lượng dữ liệu tăng lên.
Tối ưu hóa tùy chọn trực tiếp (DTO) là một phương pháp đào tạo trong đó mô hình được tinh chỉnh bằng cách sử dụng tập dữ liệu về tùy chọn, thường liên quan đến các phán đoán của con người để quyết định phản hồi nào do mô hình tạo ra được ưu tiên hơn. Phương pháp này yêu cầu thu thập dữ liệu mới trong đó mỗi phần được gắn nhãn dựa trên các tùy chọn này, việc này có thể tốn nhiều tài nguyên.
Ngược lại, SPIN sử dụng tính năng tự phát lặp lại , giúp giảm đáng kể nhu cầu về dữ liệu mới.
Ở lần lặp đầu tiên, hiệu suất của SPIN đã vượt trội so với DPO trong hầu hết các trường hợp , làm nổi bật tính hiệu quả và hiệu quả của nó trong việc tận dụng dữ liệu hiện có để nâng cao hiệu suất mô hình.
SPIN thể hiện sức mạnh của mình bằng cách đạt được hiệu suất ngang bằng với các mô hình được đào tạo trên các bộ dữ liệu mở rộng hơn . Quá trình đào tạo lặp đi lặp lại , nâng cao hiệu suất của mô hình qua nhiều lần lặp lại một cách có phương pháp, cho thấy những cải tiến đáng kể , đặc biệt là trên các điểm chuẩn đầy thách thức như TruthfulQA và GSM8k.
Vì vậy, SPIN vượt trội hơn các phương pháp đào tạo thông thường, bao gồm DPO, bằng cách tận dụng hiệu quả các bộ dữ liệu tổng hợp được tạo thông qua quá trình tự phát mà không cần thêm dữ liệu do con người chú thích.
SPIN ném một quả bóng theo đường cong nhờ khả năng tự chơi của nó.
Hãy nghĩ về nó giống như một mô hình ngôn ngữ đấu tranh với chính nó trong một võ đài quyền anh ngôn ngữ, với mỗi hiệp dạy cho nó những thủ thuật mới.
Hiệu quả dữ liệu của SPIN bỏ qua nhu cầu về bộ dữ liệu mới do con người chú thích.
Nhưng quan trọng hơn, nó tăng tốc vòng lặp cải tiến , làm cho mô hình ngày càng thành thạo trong việc tạo ra văn bản giống con người .
SPIN dường như không chỉ phù hợp với các mô hình được đào tạo trên các bộ dữ liệu bên ngoài lớn hơn mà khả năng lặp lại của nó còn mang lại lợi ích nhất quán vì về cơ bản nó nghiên cứu đầu ra của chính nó.
Thật choáng váng phải không?
Người đồng sáng lập Nous Research @Teknium1 có lý. Những mô hình ngôn ngữ lớn này không trở nên thông minh hơn một cách miễn phí. Việc đào tạo lại lặp đi lặp lại với SPIN liên quan đến quy trình Tinh chỉnh có giám sát (SFT) tốn kém mỗi lần.
Tuy nhiên, anh ấy cũng đề cập rằng "Tôi nghĩ nó đáng giá!". Ngoài ra, lợi ích lâu dài của việc tiến hóa nhanh hơn và có khả năng ít phụ thuộc hơn vào dữ liệu do con người chú thích sẽ lớn hơn khoản đầu tư ban đầu? Đó là câu hỏi thú vị!
Mới hôm qua, Quanquan Gu , phó giáo sư khoa học máy tính tại UCLA và giám đốc nghiên cứu AI tại ByteDance, đã thông báo rằng giờ đây bất kỳ ai cũng có thể sử dụng mô hình và tập dữ liệu SPIN . Điều này không chỉ có nghĩa là mã và bộ dữ liệu mà còn là các mô hình được đào tạo trước để khởi động hành trình AI của riêng bạn.
SPIN phản ánh quá trình suy nghĩ của con người.
Bằng cách tạo ra văn bản có cảm giác giống con người, SPIN gợi ý các yếu tố lý luận cơ bản mà AI trong tương lai có thể làm được. Bạn biết một số đầu ra LLM có cảm giác như robot như thế nào phải không? Chà, SPIN thì khác. Nó thực sự phản ánh cách con người suy nghĩ. Cách viết có cảm giác rất tự nhiên, giống như một cái nhìn thoáng qua về cách AI trong tương lai có thể tự suy luận.
Đây không chỉ là làm cho chatbot nghe hay hơn.
Đó là việc tạo ra một kiểu tư duy kỹ thuật số hoạt động giống như của chúng ta. Loại AI đó sẽ linh hoạt hơn rất nhiều và có khả năng hiểu biết thực sự.
Mặc dù SPIN là một bước tiến lớn trong việc làm cho các mô hình ngôn ngữ nghe tự nhiên hơn nhưng bạn rất dễ bị phấn khích và đánh giá quá cao ý nghĩa của nó .
Văn bản mà nó tạo ra rất ấn tượng (bạn có thể xem cơ sở dữ liệu), nhưng điều quan trọng cần nhớ là AI chưa có khả năng suy luận độc lập thực sự.
Mặc dù SPIN không phải là AGI thực sự, nhưng cách nó bắt chước chữ viết giống con người thể hiện những tiến bộ ấn tượng trong cách AI có thể xử lý và sử dụng ngôn ngữ trong tương lai.
Mặc dù vậy, nó gợi ý những khả năng đáng kinh ngạc về cách AI và ngôn ngữ có thể phát triển trong tương lai (nếu bạn nhớ rằng chúng ta đang ở giai đoạn đầu của môn khúc côn cầu, thì tương lai không xa hôm nay...)
Hiệu ứng gợn sóng sẽ rất lớn và đây là thẻ truy cập của bạn:
Tóm lại, phương pháp lặp đi lặp lại, tự cải thiện của nó là một tiến bộ đáng kể trong việc tạo ra LLM có thể tham gia vào hoạt động giao tiếp thực sự giống con người.
Được chia sẻ lần đầu trên tài khoản X của tôi.