Tác giả:  (1) Rafael Rafailo, Đại học Stanford và Đóng góp ngang nhau; nhiều tác giả trẻ hơn được liệt kê trước đó;  (2) Archit Sharma, Đại học Stanford và Đóng góp ngang nhau; nhiều tác giả trẻ hơn được liệt kê trước đó;  (3) Eric Mitchel, Đại học Stanford và Đóng góp ngang nhau; nhiều tác giả trẻ hơn được liệt kê trước đó;  (4) Stefano Ermon, CZ Biohub;  (5) Christopher D. Manning, Đại học Stanford;  (6) Chelsea Finn, Đại học Stanford.  Bảng liên kết   Tóm tắt và 1. Giới thiệu   2 Công trình liên quan   3 Phần mở đầu   4 Tối ưu hóa sở thích trực tiếp   5 Phân tích lý thuyết của DPO   6 Thí nghiệm   7 Thảo luận, Lời cảm ơn và Tài liệu tham khảo   Đóng góp của tác giả  Một phép suy diễn toán học   A.1 Đưa ra giá trị tối ưu của mục tiêu tối đa hóa phần thưởng bị ràng buộc bởi KL   A.2 Suy ra Mục tiêu DPO Theo Mô hình Bradley-Terry   A.3 Suy ra Mục tiêu DPO Theo Mô hình Plackett-Luce   A.4 Đạo hàm Gradient của Mục tiêu DPO và A.5 Chứng minh Bổ đề 1 và 2   A.6 Chứng minh Định lý 1   B Chi tiết triển khai DPO và siêu tham số   C Chi tiết thêm về Thiết lập thử nghiệm và C.1 Chi tiết về thử nghiệm tình cảm IMDb và cơ sở   C.2 GPT-4 nhắc nhở để tính toán tóm tắt và tỷ lệ thắng cuộc đối thoại   C.3 Đường cơ sở không chắc chắn  D Kết quả thực nghiệm bổ sung   D.1 Hiệu suất của đường cơ sở N tốt nhất cho nhiều phản hồi mẫu và đánh giá GPT-4 khác nhau   D.3 Chi tiết nghiên cứu trên người  Tóm tắt  Trong khi các mô hình ngôn ngữ không giám sát quy mô lớn (LM) học được kiến thức rộng về thế giới và một số kỹ năng lý luận, thì việc đạt được khả năng kiểm soát chính xác hành vi của chúng lại khó khăn do bản chất hoàn toàn không giám sát của quá trình đào tạo. Các phương pháp hiện có để đạt được khả năng điều khiển như vậy thu thập các nhãn của con người về chất lượng tương đối của các thế hệ mô hình và tinh chỉnh LM không giám sát để phù hợp với các sở thích này, thường với việc học tăng cường từ phản hồi của con người (RLHF). Tuy nhiên, RLHF là một quy trình phức tạp và thường không ổn định, trước tiên là lắp một mô hình phần thưởng phản ánh sở thích của con người, sau đó tinh chỉnh LM không giám sát lớn bằng cách sử dụng học tăng cường để tối đa hóa phần thưởng ước tính này mà không trôi quá xa so với mô hình ban đầu. Trong bài báo này, chúng tôi giới thiệu một tham số hóa mới của mô hình phần thưởng trong RLHF cho phép trích xuất chính sách tối ưu tương ứng ở dạng đóng, cho phép chúng tôi giải quyết vấn đề RLHF tiêu chuẩn chỉ với một tổn thất phân loại đơn giản. Thuật toán kết quả, mà chúng tôi gọi là Tối ưu hóa sở thích trực tiếp (DPO), ổn định, hiệu suất cao và nhẹ về mặt tính toán, loại bỏ nhu cầu lấy mẫu từ LM trong quá trình tinh chỉnh hoặc thực hiện điều chỉnh siêu tham số đáng kể. Các thí nghiệm của chúng tôi cho thấy DPO có thể tinh chỉnh LM để phù hợp với sở thích của con người cũng như hoặc tốt hơn các phương pháp hiện có. Đáng chú ý, tinh chỉnh bằng DPO vượt trội hơn RLHF dựa trên PPO về khả năng kiểm soát cảm xúc của các thế hệ và phù hợp hoặc cải thiện chất lượng phản hồi trong tóm tắt và đối thoại một lượt trong khi đơn giản hơn đáng kể để triển khai và đào tạo.  1 Giới thiệu  Các mô hình ngôn ngữ không giám sát lớn (LM) được đào tạo trên các tập dữ liệu rất lớn có được khả năng đáng ngạc nhiên [11, 7, 40, 8]. Tuy nhiên, các mô hình này được đào tạo trên dữ liệu do con người tạo ra với nhiều mục tiêu, ưu tiên và kỹ năng khác nhau. Một số mục tiêu và kỹ năng này có thể không mong muốn bắt chước; ví dụ, trong khi chúng ta có thể muốn trợ lý mã hóa AI của mình hiểu các lỗi lập trình phổ biến để sửa chúng, tuy nhiên, khi tạo mã, chúng ta muốn thiên vị mô hình của mình về khả năng mã hóa chất lượng cao (có khả năng hiếm) có trong dữ liệu đào tạo của nó. Tương tự như vậy, chúng ta có thể muốn mô hình ngôn ngữ của mình nhận thức được một quan niệm sai lầm phổ biến mà 50% mọi người tin tưởng, nhưng chúng ta chắc chắn không muốn mô hình tuyên bố quan niệm sai lầm này là đúng trong 50% các truy vấn về nó! Nói cách khác, việc lựa chọn các phản hồi và hành vi mong muốn của mô hình từ kiến thức và khả năng rất rộng của nó là rất quan trọng để xây dựng các hệ thống AI an toàn, hiệu suất cao và có thể kiểm soát được [26]. Trong khi các phương pháp hiện có thường điều khiển LM để phù hợp với sở thích của con người bằng cách sử dụng học tăng cường (RL),   chúng tôi sẽ chứng minh rằng mục tiêu dựa trên RL được sử dụng bởi các phương pháp hiện tại có thể được tối ưu hóa chính xác bằng một mục tiêu entropy chéo nhị phân đơn giản, giúp đơn giản hóa đáng kể quy trình học sở thích.  Ở cấp độ cao, các phương pháp hiện có truyền các hành vi mong muốn vào một mô hình ngôn ngữ bằng cách sử dụng các tập hợp sở thích của con người được quản lý đại diện cho các loại hành vi mà con người thấy an toàn và hữu ích. Giai đoạn học sở thích này diễn ra sau giai đoạn đầu của quá trình đào tạo trước không giám sát quy mô lớn trên một tập dữ liệu văn bản lớn. Trong khi cách tiếp cận trực tiếp nhất để học sở thích là điều chỉnh có giám sát đối với các cuộc biểu tình của con người về các phản hồi chất lượng cao, thì lớp phương pháp thành công nhất là học tăng cường từ phản hồi của con người (hoặc AI) (RLHF/RLAIF; [12, 2]). Các phương pháp RLHF phù hợp với một mô hình phần thưởng với một tập dữ liệu về sở thích của con người và sau đó sử dụng RL để tối ưu hóa chính sách của mô hình ngôn ngữ để tạo ra các phản hồi được chỉ định phần thưởng cao mà không trôi quá xa so với mô hình ban đầu. Trong khi RLHF tạo ra các mô hình có khả năng đàm thoại và mã hóa ấn tượng, thì đường ống RLHF phức tạp hơn đáng kể so với học có giám sát, bao gồm đào tạo nhiều LM và lấy mẫu từ chính sách LM trong vòng lặp đào tạo, gây ra chi phí tính toán đáng kể.  Trong bài báo này, chúng tôi trình bày cách tối ưu hóa trực tiếp một mô hình ngôn ngữ để tuân thủ sở thích của con người, mà không cần mô hình phần thưởng rõ ràng hoặc học tăng cường. Chúng tôi đề xuất Tối ưu hóa sở thích trực tiếp (DPO), một thuật toán tối ưu hóa ngầm cùng một mục tiêu như các thuật toán RLHF hiện có (tối đa hóa phần thưởng với ràng buộc phân kỳ KL) nhưng dễ triển khai và dễ đào tạo. Theo trực giác, bản cập nhật DPO làm tăng xác suất logarit tương đối của các phản hồi được ưa thích so với không được ưa thích, nhưng nó kết hợp trọng số tầm quan trọng động, theo ví dụ để ngăn ngừa sự thoái hóa mô hình mà chúng tôi thấy xảy ra với mục tiêu tỷ lệ xác suất ngây thơ. Giống như các thuật toán hiện có, DPO dựa trên một mô hình sở thích lý thuyết (chẳng hạn như mô hình Bradley-Terry; [5]) để đo mức độ phù hợp của một hàm phần thưởng nhất định với dữ liệu sở thích thực nghiệm. Tuy nhiên, trong khi các phương pháp hiện có sử dụng mô hình sở thích để xác định mất sở thích để đào tạo mô hình phần thưởng và sau đó đào tạo chính sách tối ưu hóa mô hình phần thưởng đã học, DPO sử dụng sự thay đổi các biến để xác định mất sở thích như một hàm của chính sách trực tiếp. Với tập dữ liệu về sở thích của con người so với phản ứng của mô hình, DPO có thể tối ưu hóa chính sách bằng cách sử dụng mục tiêu entropy chéo nhị phân đơn giản, tạo ra chính sách tối ưu cho hàm phần thưởng ngầm phù hợp với dữ liệu sở thích.  Đóng góp chính của chúng tôi là Direct Preference Optimization (DPO), một thuật toán không cần RL đơn giản để đào tạo các mô hình ngôn ngữ từ sở thích. Các thí nghiệm của chúng tôi cho thấy DPO ít nhất cũng hiệu quả như các phương pháp hiện có, bao gồm RLHF dựa trên PPO, để học từ sở thích trong các tác vụ như điều chế tình cảm, tóm tắt và đối thoại, sử dụng các mô hình ngôn ngữ có tối đa 6B tham số.  Bài báo này   theo giấy phép CC BY-NC-ND 4.0 DEED. có sẵn trên arxiv

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

AI Models on HackerNoon

Nghe bài viết này bằng Tiếng Anh, đọc bởi robot thông minh của HackerNoon

Tối ưu hóa sở thích trực tiếp: Mô hình ngôn ngữ của bạn thực chất là một mô hình phần thưởng

About Author

BÌNH LUẬN

chuyên mục

BÀI VIẾT NÀY CŨNG CÓ MẶT TẠI

Related Stories

223 Stories To Learn About Science

128 Stories To Learn About Charles Dickens

189 Stories To Learn About Reading Books

184 Stories To Learn About Psychology

223 Stories To Learn About Science

128 Stories To Learn About Charles Dickens

189 Stories To Learn About Reading Books

184 Stories To Learn About Psychology

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps