Tối ưu hóa tùy chọn trực tiếp (DPO) là một kỹ thuật tinh chỉnh mới đã trở nên phổ biến do tính đơn giản và dễ thực hiện của nó. Nó đã nổi lên như một giải pháp thay thế trực tiếp cho (RLHF) để tinh chỉnh mô hình ngôn ngữ lớn (LLM) để phù hợp với sở thích của con người nhờ vào tính ổn định, hiệu suất và tính chất nhẹ của tính toán, loại bỏ nhu cầu lấy mẫu từ LM trong quá trình tinh chỉnh. DPO có thể đạt được mức hiệu suất bằng hoặc tốt hơn các phương pháp hiện có. việc học tăng cường từ phản hồi của con người Không giống như các phương pháp hiện có liên quan đến việc tận dụng RLHF, DPO điều chỉnh lại quy trình căn chỉnh ngôn ngữ dưới dạng một hàm mất mát đơn giản có thể được tối ưu hóa trực tiếp bằng cách sử dụng tập dữ liệu tùy chọn {(x,yw,yl)}, trong đó: • x là dấu nhắc • yw là phương pháp ưa thích • yl là một phương thức bị từ chối Không giống như RLHF yêu cầu lấy mẫu phản hồi từ mô hình ngôn ngữ trong quá trình tối ưu hóa, trong DPO, phản hồi không cần phải lấy mẫu từ LM đang được tối ưu hóa. DPO hoạt động như thế nào? Quá trình làm việc của DPO có thể được chia thành hai bước. Trong bước này, mô hình được tinh chỉnh trên dữ liệu liên quan. Tinh chỉnh có giám sát (SFT): Mô hình được tinh chỉnh dựa trên dữ liệu sở thích có nguồn gốc lý tưởng từ cùng một phân phối như các ví dụ SFT. Tìm hiểu sở thích: Không giống như RLHF, trong đó mô hình phần thưởng được đào tạo trước tiên để tối ưu hóa chính sách, DPO trực tiếp bổ sung thông tin ưu tiên vào quy trình tối ưu hóa mà không cần bước trung gian là đào tạo mô hình phần thưởng. DPO sử dụng LLM làm mô hình khen thưởng và sử dụng mục tiêu entropy chéo nhị phân để tối ưu hóa chính sách, tận dụng dữ liệu ưu tiên của con người để xác định phản hồi nào được ưu tiên và phản hồi nào không. Chính sách được điều chỉnh dựa trên các phản hồi ưa thích để tăng hiệu suất. Tinh chỉnh được giám sát Chúng tôi hỗ trợ bạn phát triển các ứng dụng Generative AI cho LLM để chúng linh hoạt và thích ứng với các trường hợp sử dụng cụ thể. Điều này liên quan đến việc cung cấp dữ liệu hoặc ví dụ cho mô hình để tìm hiểu và điều chỉnh, do đó chúng tôi cung cấp các giải pháp kỹ thuật nhanh chóng để thiết kế, thử nghiệm, triển khai và đưa ra lời nhắc. Cogito. Trong tinh chỉnh có giám sát (SFT), cung cấp ánh xạ rõ ràng giữa đầu vào cụ thể và đầu ra mong muốn. Tinh chỉnh có giám sát, đặc biệt là với việc học theo sở thích, được sử dụng để định hình hoặc điều chỉnh kết quả đầu ra của mô hình cho phù hợp với các tiêu chí do con người xác định, đảm bảo rằng chúng phù hợp chặt chẽ với các yêu cầu cụ thể. LLM được đào tạo trên các bộ dữ liệu được gắn nhãn Dữ liệu ưu tiên trong NLP Dữ liệu ưu tiên đề cập đến một tập hợp các tùy chọn hoặc lựa chọn thay thế được lựa chọn cẩn thận liên quan đến một lời nhắc cụ thể. Người chú thích đánh giá các tùy chọn này theo các nguyên tắc nhất định. Quá trình tổng thể nhằm mục đích xếp hạng các tùy chọn này từ mức độ ưu tiên cao nhất đến mức độ ít được ưu tiên nhất dựa trên sở thích của con người. Việc xếp hạng sau đó được sử dụng để tinh chỉnh các mô hình nhằm tạo ra kết quả đầu ra phù hợp với mong đợi của con người. Cách tạo dữ liệu ưu tiên Lựa chọn nhanh chóng Lời nhắc là nền tảng của dữ liệu ưu tiên. Có một số cách chọn lời nhắc — một số chọn một bộ được xác định trước, trong khi những cách khác sử dụng mẫu để tạo lời nhắc một cách linh hoạt hoặc chọn kết hợp các lời nhắc được xác định trước với các lời nhắc ngẫu nhiên được lấy từ cơ sở dữ liệu. Lựa chọn phản hồi Bước tiếp theo là xác định đầu ra để đáp ứng lời nhắc. Những phản hồi này có thể được tạo ra từ một phiên bản đã được huấn luyện tốt của một mô hình hoặc các điểm kiểm tra khác nhau trong quá trình phát triển mô hình. Không phải tất cả các câu trả lời được tạo ra đều giống nhau, thứ hạng của các câu trả lời có thể khác nhau. Trong hệ thống xếp hạng nhị phân, mỗi câu trả lời được phân loại đơn giản là "tốt nhất" hoặc "tệ nhất", trong khi hệ thống xếp hạng chi tiết chỉ định điểm (ví dụ: 1-5) cho mỗi câu trả lời, cho phép đánh giá chi tiết và sắc thái hơn. Nguyên tắc chú thích Nguyên tắc chú thích là cần thiết để đảm bảo rằng hệ thống xếp hạng được tiêu chuẩn hóa nhằm giảm thiểu những thành kiến và cách diễn giải riêng lẻ. Lợi ích của DPO DPO có nhiều ưu điểm hơn RLHF như sau: Đơn giản và dễ thực hiện Không giống như quy trình thu thập phản hồi chi tiết, tối ưu hóa chính sách phức tạp và đào tạo mô hình khen thưởng, DPO tích hợp trực tiếp sở thích của con người vào vòng đào tạo. Cách tiếp cận này không chỉ loại bỏ sự phức tạp liên quan đến quy trình mà còn phù hợp hơn với các hệ thống đào tạo trước và tinh chỉnh tiêu chuẩn. Hơn nữa, DPO không liên quan đến việc điều hướng sự phức tạp của việc xây dựng và điều chỉnh các chức năng khen thưởng. RLHF nhiều lớp bao gồm Không cần đào tạo mô hình phần thưởng DPO loại bỏ nhu cầu đào tạo một mô hình phần thưởng bổ sung, tiết kiệm tài nguyên tính toán và loại bỏ các thách thức liên quan đến độ chính xác và bảo trì mô hình phần thưởng. Phát triển một mô hình khen thưởng hiệu quả giúp diễn giải phản hồi của con người thành tín hiệu hữu ích cho AI là một nhiệm vụ phức tạp. Nó đòi hỏi nỗ lực đáng kể và cần cập nhật thường xuyên để phản ánh chính xác sở thích đang phát triển của con người. DPO bỏ qua hoàn toàn bước này bằng cách tận dụng trực tiếp dữ liệu ưu tiên để cải tiến mô hình. Hiệu suất vượt trội DPO có thể tốt hoặc thậm chí tốt hơn các phương pháp khác, như RLHF (Học tăng cường từ phản hồi của con người) và PPO (Tối ưu hóa chính sách gần nhất), để cải thiện hiệu suất của các mô hình ngôn ngữ lớn theo một nghiên cứu có tiêu đề . Tối ưu hóa ưu tiên trực tiếp: Mô hình ngôn ngữ của bạn là Bí mật một mô hình phần thưởng Phần kết luận Tối ưu hóa hiệu suất trực tiếp là một kỹ thuật tinh chỉnh ổn định và hiệu quả, không yêu cầu quá nhiều tài nguyên tính toán. Không giống như RLHF, DPO không cần mô hình phần thưởng phức tạp và lấy mẫu từ mô hình ngôn ngữ trong quá trình tinh chỉnh. Nó không chỉ là một thuật toán mới mà còn là yếu tố thay đổi cuộc chơi trong việc tinh chỉnh, đơn giản hóa và nâng cao quá trình xây dựng các mô hình ngôn ngữ để hiểu rõ hơn và phục vụ nhu cầu của con người.