The FeedbackLoop offers premium product management education, research papers, and certifications. Start building today!
tác giả:
(1) Nathan Lambert, Viện AI Allen;
(2) Roberto Calandra, TU Dresden.
Hiểu sự không phù hợp mục tiêu
Lời cảm ơn và tài liệu tham khảo
Học tăng cường từ phản hồi của con người (RLHF) đã nổi lên như một kỹ thuật mạnh mẽ giúp làm cho các mô hình ngôn ngữ lớn (LLM) dễ dàng nhắc nhở hơn và có khả năng cao hơn trong các môi trường phức tạp. Về cốt lõi, RLHF đang cung cấp một bộ công cụ mới để tối ưu hóa LLM ngoài dự đoán mã thông báo tiếp theo, cho phép tích hợp các mục tiêu đào tạo định tính. Sự cố gắng kết hợp giữa sở thích của người dùng và hiệu suất tiếp theo, xảy ra trong mô hình phần thưởng đã học, dẫn đến bối cảnh tối ưu hóa trong đó các số liệu đào tạo và đánh giá có thể xuất hiện tương quan với nhau. Mối tương quan rõ ràng có thể dẫn đến những hành vi và câu chuyện không mong muốn về “quá nhiều RLHF”. Trong RLHF, các thách thức xuất hiện do các mô-đun phụ sau không nhất quán với nhau: đào tạo mô hình khen thưởng, đào tạo mô hình chính sách và đánh giá mô hình chính sách. Sự không khớp này dẫn đến các mô hình đôi khi tránh yêu cầu của người dùng thông qua cờ an toàn sai, khó điều hướng theo đặc điểm dự định hoặc luôn trả lời theo một phong cách cụ thể. Khi việc đánh giá mô hình trò chuyện ngày càng trở nên đa sắc thái, sự phụ thuộc vào mối liên hệ được nhận thức giữa điểm số của mô hình khen thưởng và hiệu suất tiếp theo sẽ dẫn đến vấn đề không khớp khách quan. Trong bài viết này, chúng tôi minh họa nguyên nhân của vấn đề này, xem xét tài liệu liên quan từ học tập tăng cường dựa trên mô hình và thảo luận về các giải pháp liên quan để khuyến khích nghiên cứu sâu hơn. Bằng cách giải quyết sự không phù hợp khách quan trong RLHF, LLM trong tương lai sẽ được điều chỉnh chính xác hơn theo hướng dẫn của người dùng để đảm bảo an toàn và hữu ích
Học tăng cường từ phản hồi của con người (RLHF) là một công cụ mạnh mẽ để tích hợp các phong cách và giá trị định tính vào các mô hình học máy lớn (Bai và cộng sự, 2022; Christiano và cộng sự, 2017; Ouyang và cộng sự, 2022). RLHF đã được phổ biến nhờ việc sử dụng nó để tích hợp các giá trị con người vào các mô hình ngôn ngữ lớn (LLM) để sắp xếp các công cụ trò chuyện (Schulman, Zoph, Kim, v.v., 2022). Khi làm như vậy, RLHF đã trở thành một kỹ thuật quan trọng trong quá trình tạo ra các mô hình đáp ứng yêu cầu của người dùng tốt hơn, thường được gọi là mô hình điều chỉnh hướng dẫn, khả năng điều khiển, mô hình trò chuyện, v.v. Các phương pháp RLHF thường hoạt động theo quy trình hai bước sau đào tạo mô hình ngôn ngữ cơ sở, đầu tiên họ học mô hình sở thích của con người hoạt động như một hàm khen thưởng và thứ hai, họ sử dụng mô hình này trong vòng tối ưu hóa học tăng cường (RL). Trong quy trình RLHF, hai bước này thường được thực hiện độc lập, với mô hình phần thưởng chính xác được đào tạo dựa trên dữ liệu ưu tiên của con người và sau đó trình tối ưu hóa RL được sử dụng để trích xuất thông tin tối đa vào mô hình trò chuyện. Một thách thức chung của các LLM hiện đại được đào tạo bằng RLHF là khó khăn trong việc trích xuất các hành vi dự định từ mô hình. Đôi khi, mô hình từ chối các yêu cầu vô hại vì lý do an toàn và những lúc khác, chúng cần điều chỉnh kịp thời một cách thông minh để có được hiệu suất đầy đủ.
Trong bài viết này, chúng tôi trình bày chi tiết một thách thức cơ bản trong các chương trình học tập RLHF hiện đại: vấn đề không phù hợp khách quan. Trong RLHF, ba phần quan trọng của quá trình đào tạo được tách rời về mặt số lượng: thiết kế các số liệu đánh giá, đào tạo mô hình khen thưởng và đào tạo mô hình tạo ra. Sự không phù hợp này giữa mô hình khen thưởng và đào tạo RL được hiển thị trong Hình 1, tuy nhiên vẫn tồn tại các mối liên kết khác giữa mục tiêu đánh giá và mô phỏng các giá trị con người. Cụ thể, có nhiều cách để điều chỉnh tốt hơn việc đào tạo mô hình khen thưởng cho phù hợp với tài liệu về định lượng ưu tiên (Lambert, Gilbert, & Zick, 2023) và những thách thức tối ưu hóa cơ bản cần được giải quyết trong thực tiễn RLHF (Casper và cộng sự, 2023). ChatGPT, mô hình phổ biến nhất được đào tạo với RLHF, cho thấy những dấu hiệu hạn chế này thông qua các vấn đề như tính dài dòng, sự nghi ngờ bản thân và từ chối câu hỏi, các cụm từ lặp đi lặp lại, phòng ngừa rủi ro, v.v. (Schulman, 2023). Những đặc điểm của việc tối ưu hóa quá mức này là kết quả của vấn đề mục tiêu proxy tinh vi mà sự không khớp mục tiêu cung cấp một khuôn khổ để nghiên cứu và giải quyết – mô hình phần thưởng gán giá trị vượt quá cho các cụm từ không đóng góp cho lợi ích của người dùng mà trình tối ưu hóa RL khai thác, chẳng hạn như cờ an toàn. Mặt khác, các thiết lập đào tạo hiện tại chưa hoàn toàn phù hợp với các công cụ đánh giá vì các mô hình RLHF vẫn cần các kỹ thuật nhắc nhở phức tạp như “tư duy từng bước” (J. Wei và cộng sự, 2022) hoặc “hít một hơi thật sâu”. ” (Yang và cộng sự, 2023) để đạt hiệu suất tối đa. Việc giải quyết sự không phù hợp về mặt mục tiêu sẽ loại bỏ nhu cầu về các kỹ thuật tiên tiến này và giảm khả năng LLM bị từ chối ngoài phạm vi.
Cụm từ mục tiêu không khớp bắt nguồn từ học tăng cường dựa trên mô hình (MBRL), trong đó một tác nhân học lặp đi lặp lại một mô hình động lực mà sau này nó sử dụng để giải quyết một nhiệm vụ điều khiển (Lambert, Amos, Yadan, & Calandra, 2020; R. Wei, Lambert, McDonald, Garcia, & Calandra, 2023). Trong bối cảnh này, sự không phù hợp nằm ở việc học một mô hình động lực chính xác hơn là một mô hình được tối ưu hóa để đạt được phần thưởng nhiệm vụ cao. Trong RLHF, vấn đề có liên quan nhưng phức tạp hơn, vì mô hình phần thưởng được tối ưu hóa cho dữ liệu ưu tiên hơn là phân phối kín, không phù hợp với người dùng cuối. Thứ hai, nhiệm vụ tạo ngôn ngữ mở ít cụ thể hơn đối với khái niệm phần thưởng so với chính sách kiểm soát RL. Vì những lý do này, như chúng tôi khám phá trong bài viết này, vấn đề không phù hợp khách quan mang nhiều sắc thái và quan trọng hơn đối với RLHF.
Trong bài viết này, chúng tôi có ba đóng góp:
• Giải thích rõ ràng nguồn gốc và các biểu hiện tiềm ẩn của sự không phù hợp khách quan trong LLM được điều chỉnh bằng trò chuyện,
• Kết nối công việc liên quan từ tài liệu NLP và RL xung quanh sự không phù hợp về mặt mục tiêu,
• Đề xuất các hướng nghiên cứu nhằm giải quyết những bất cập và thúc đẩy thực hành RLHF tốt hơn.
Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0.
Mức trần liên kết: Sự không phù hợp khách quan trong việc học tăng cường từ phản hồi của con người | HackerNoon