paint-brush
Tối ưu hóa sở thích trực tiếp: Mô hình ngôn ngữ của bạn thực chất là một mô hình phần thưởngtừ tác giả@textmodels
234 lượt đọc

Tối ưu hóa sở thích trực tiếp: Mô hình ngôn ngữ của bạn thực chất là một mô hình phần thưởng

từ tác giả Writings, Papers and Blogs on Text Models5m2024/08/25
Read on Terminal Reader

dài quá đọc không nổi

Tối ưu hóa sở thích trực tiếp (DPO) giới thiệu một giải pháp thay thế đơn giản và ổn định hơn cho việc học tăng cường để căn chỉnh các mô hình ngôn ngữ với sở thích của con người. Bằng cách loại bỏ nhu cầu về mô hình phần thưởng và các quy trình đào tạo phức tạp, DPO cung cấp khả năng tinh chỉnh hiệu quả, phù hợp hoặc vượt trội hơn hiệu suất của các phương pháp hiện có như RLHF dựa trên PPO, đặc biệt là trong các tác vụ điều chế tình cảm, tóm tắt và đối thoại.
featured image - Tối ưu hóa sở thích trực tiếp: Mô hình ngôn ngữ của bạn thực chất là một mô hình phần thưởng
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

Tác giả:

(1) Rafael Rafailo, Đại học Stanford và Đóng góp ngang nhau; nhiều tác giả trẻ hơn được liệt kê trước đó;

(2) Archit Sharma, Đại học Stanford và Đóng góp ngang nhau; nhiều tác giả trẻ hơn được liệt kê trước đó;

(3) Eric Mitchel, Đại học Stanford và Đóng góp ngang nhau; nhiều tác giả trẻ hơn được liệt kê trước đó;

(4) Stefano Ermon, CZ Biohub;

(5) Christopher D. Manning, Đại học Stanford;

(6) Chelsea Finn, Đại học Stanford.

Bảng liên kết

Tóm tắt và 1. Giới thiệu

2 Công trình liên quan

3 Phần mở đầu

4 Tối ưu hóa sở thích trực tiếp

5 Phân tích lý thuyết của DPO

6 Thí nghiệm

7 Thảo luận, Lời cảm ơn và Tài liệu tham khảo

Đóng góp của tác giả


Một phép suy diễn toán học

A.1 Đưa ra giá trị tối ưu của mục tiêu tối đa hóa phần thưởng bị ràng buộc bởi KL

A.2 Suy ra Mục tiêu DPO Theo Mô hình Bradley-Terry

A.3 Suy ra Mục tiêu DPO Theo Mô hình Plackett-Luce

A.4 Đạo hàm Gradient của Mục tiêu DPO và A.5 Chứng minh Bổ đề 1 và 2

A.6 Chứng minh Định lý 1


B Chi tiết triển khai DPO và siêu tham số


C Chi tiết thêm về Thiết lập thử nghiệm và C.1 Chi tiết về thử nghiệm tình cảm IMDb và cơ sở

C.2 GPT-4 nhắc nhở để tính toán tóm tắt và tỷ lệ thắng cuộc đối thoại

C.3 Đường cơ sở không chắc chắn


D Kết quả thực nghiệm bổ sung

D.1 Hiệu suất của đường cơ sở N tốt nhất cho nhiều phản hồi mẫu và đánh giá GPT-4 khác nhau

D.3 Chi tiết nghiên cứu trên người

Tóm tắt

Trong khi các mô hình ngôn ngữ không giám sát quy mô lớn (LM) học được kiến thức rộng về thế giới và một số kỹ năng lý luận, thì việc đạt được khả năng kiểm soát chính xác hành vi của chúng lại khó khăn do bản chất hoàn toàn không giám sát của quá trình đào tạo. Các phương pháp hiện có để đạt được khả năng điều khiển như vậy thu thập các nhãn của con người về chất lượng tương đối của các thế hệ mô hình và tinh chỉnh LM không giám sát để phù hợp với các sở thích này, thường với việc học tăng cường từ phản hồi của con người (RLHF). Tuy nhiên, RLHF là một quy trình phức tạp và thường không ổn định, trước tiên là lắp một mô hình phần thưởng phản ánh sở thích của con người, sau đó tinh chỉnh LM không giám sát lớn bằng cách sử dụng học tăng cường để tối đa hóa phần thưởng ước tính này mà không trôi quá xa so với mô hình ban đầu. Trong bài báo này, chúng tôi giới thiệu một tham số hóa mới của mô hình phần thưởng trong RLHF cho phép trích xuất chính sách tối ưu tương ứng ở dạng đóng, cho phép chúng tôi giải quyết vấn đề RLHF tiêu chuẩn chỉ với một tổn thất phân loại đơn giản. Thuật toán kết quả, mà chúng tôi gọi là Tối ưu hóa sở thích trực tiếp (DPO), ổn định, hiệu suất cao và nhẹ về mặt tính toán, loại bỏ nhu cầu lấy mẫu từ LM trong quá trình tinh chỉnh hoặc thực hiện điều chỉnh siêu tham số đáng kể. Các thí nghiệm của chúng tôi cho thấy DPO có thể tinh chỉnh LM để phù hợp với sở thích của con người cũng như hoặc tốt hơn các phương pháp hiện có. Đáng chú ý, tinh chỉnh bằng DPO vượt trội hơn RLHF dựa trên PPO về khả năng kiểm soát cảm xúc của các thế hệ và phù hợp hoặc cải thiện chất lượng phản hồi trong tóm tắt và đối thoại một lượt trong khi đơn giản hơn đáng kể để triển khai và đào tạo.

1 Giới thiệu

Các mô hình ngôn ngữ không giám sát lớn (LM) được đào tạo trên các tập dữ liệu rất lớn có được khả năng đáng ngạc nhiên [11, 7, 40, 8]. Tuy nhiên, các mô hình này được đào tạo trên dữ liệu do con người tạo ra với nhiều mục tiêu, ưu tiên và kỹ năng khác nhau. Một số mục tiêu và kỹ năng này có thể không mong muốn bắt chước; ví dụ, trong khi chúng ta có thể muốn trợ lý mã hóa AI của mình hiểu các lỗi lập trình phổ biến để sửa chúng, tuy nhiên, khi tạo mã, chúng ta muốn thiên vị mô hình của mình về khả năng mã hóa chất lượng cao (có khả năng hiếm) có trong dữ liệu đào tạo của nó. Tương tự như vậy, chúng ta có thể muốn mô hình ngôn ngữ của mình nhận thức được một quan niệm sai lầm phổ biến mà 50% mọi người tin tưởng, nhưng chúng ta chắc chắn không muốn mô hình tuyên bố quan niệm sai lầm này là đúng trong 50% các truy vấn về nó! Nói cách khác, việc lựa chọn các phản hồi và hành vi mong muốn của mô hình từ kiến thức và khả năng rất rộng của nó là rất quan trọng để xây dựng các hệ thống AI an toàn, hiệu suất cao và có thể kiểm soát được [26]. Trong khi các phương pháp hiện có thường điều khiển LM để phù hợp với sở thích của con người bằng cách sử dụng học tăng cường (RL),


Hình 1: DPO tối ưu hóa cho sở thích của con người trong khi tránh học tăng cường. Các phương pháp hiện có để tinh chỉnh các mô hình ngôn ngữ với phản hồi của con người trước tiên phù hợp với một mô hình phần thưởng cho một tập dữ liệu gồm các lời nhắc và sở thích của con người qua các cặp phản hồi, sau đó sử dụng RL để tìm ra một chính sách tối đa hóa phần thưởng đã học. Ngược lại, DPO trực tiếp tối ưu hóa cho chính sách thỏa mãn tốt nhất các sở thích với một mục tiêu phân loại đơn giản, phù hợp với một mô hình phần thưởng ngầm định có thể trích xuất chính sách tối ưu tương ứng ở dạng đóng.


chúng tôi sẽ chứng minh rằng mục tiêu dựa trên RL được sử dụng bởi các phương pháp hiện tại có thể được tối ưu hóa chính xác bằng một mục tiêu entropy chéo nhị phân đơn giản, giúp đơn giản hóa đáng kể quy trình học sở thích.


Ở cấp độ cao, các phương pháp hiện có truyền các hành vi mong muốn vào một mô hình ngôn ngữ bằng cách sử dụng các tập hợp sở thích của con người được quản lý đại diện cho các loại hành vi mà con người thấy an toàn và hữu ích. Giai đoạn học sở thích này diễn ra sau giai đoạn đầu của quá trình đào tạo trước không giám sát quy mô lớn trên một tập dữ liệu văn bản lớn. Trong khi cách tiếp cận trực tiếp nhất để học sở thích là điều chỉnh có giám sát đối với các cuộc biểu tình của con người về các phản hồi chất lượng cao, thì lớp phương pháp thành công nhất là học tăng cường từ phản hồi của con người (hoặc AI) (RLHF/RLAIF; [12, 2]). Các phương pháp RLHF phù hợp với một mô hình phần thưởng với một tập dữ liệu về sở thích của con người và sau đó sử dụng RL để tối ưu hóa chính sách của mô hình ngôn ngữ để tạo ra các phản hồi được chỉ định phần thưởng cao mà không trôi quá xa so với mô hình ban đầu. Trong khi RLHF tạo ra các mô hình có khả năng đàm thoại và mã hóa ấn tượng, thì đường ống RLHF phức tạp hơn đáng kể so với học có giám sát, bao gồm đào tạo nhiều LM và lấy mẫu từ chính sách LM trong vòng lặp đào tạo, gây ra chi phí tính toán đáng kể.


Trong bài báo này, chúng tôi trình bày cách tối ưu hóa trực tiếp một mô hình ngôn ngữ để tuân thủ sở thích của con người, mà không cần mô hình phần thưởng rõ ràng hoặc học tăng cường. Chúng tôi đề xuất Tối ưu hóa sở thích trực tiếp (DPO), một thuật toán tối ưu hóa ngầm cùng một mục tiêu như các thuật toán RLHF hiện có (tối đa hóa phần thưởng với ràng buộc phân kỳ KL) nhưng dễ triển khai và dễ đào tạo. Theo trực giác, bản cập nhật DPO làm tăng xác suất logarit tương đối của các phản hồi được ưa thích so với không được ưa thích, nhưng nó kết hợp trọng số tầm quan trọng động, theo ví dụ để ngăn ngừa sự thoái hóa mô hình mà chúng tôi thấy xảy ra với mục tiêu tỷ lệ xác suất ngây thơ. Giống như các thuật toán hiện có, DPO dựa trên một mô hình sở thích lý thuyết (chẳng hạn như mô hình Bradley-Terry; [5]) để đo mức độ phù hợp của một hàm phần thưởng nhất định với dữ liệu sở thích thực nghiệm. Tuy nhiên, trong khi các phương pháp hiện có sử dụng mô hình sở thích để xác định mất sở thích để đào tạo mô hình phần thưởng và sau đó đào tạo chính sách tối ưu hóa mô hình phần thưởng đã học, DPO sử dụng sự thay đổi các biến để xác định mất sở thích như một hàm của chính sách trực tiếp. Với tập dữ liệu về sở thích của con người so với phản ứng của mô hình, DPO có thể tối ưu hóa chính sách bằng cách sử dụng mục tiêu entropy chéo nhị phân đơn giản, tạo ra chính sách tối ưu cho hàm phần thưởng ngầm phù hợp với dữ liệu sở thích.


Đóng góp chính của chúng tôi là Direct Preference Optimization (DPO), một thuật toán không cần RL đơn giản để đào tạo các mô hình ngôn ngữ từ sở thích. Các thí nghiệm của chúng tôi cho thấy DPO ít nhất cũng hiệu quả như các phương pháp hiện có, bao gồm RLHF dựa trên PPO, để học từ sở thích trong các tác vụ như điều chế tình cảm, tóm tắt và đối thoại, sử dụng các mô hình ngôn ngữ có tối đa 6B tham số.


Bài báo này có sẵn trên arxiv theo giấy phép CC BY-NC-ND 4.0 DEED.