저자:
(1) Rafael Rafailo, Stanford University 및 동등한 기여; 앞서 나열된 더 많은 젊은 저자;
(2) Archit Sharma, Stanford University 및 동등한 기여; 앞서 나열된 더 많은 젊은 저자;
(3) Eric Mitchel, Stanford University 및 동등한 기여; 앞서 나열된 더 많은 젊은 저자;
(4) Stefano Ermon, CZ Biohub;
(5) 크리스토퍼 D. 매닝, 스탠포드 대학교;
(6) 첼시 핀, 스탠포드 대학교.
수학적 파생
A.2 Bradley-Terry 모델에 따른 DPO 목표 도출
A.3 Plackett-Luce 모델에 따른 DPO 목표 도출
A.4 DPO 목적함수의 기울기 도출 및 A.5 보조정리 1과 2의 증명
C 실험 설정에 대한 추가 세부 사항 및 C.1 IMDb 감정 실험 및 기준 세부 사항
C.2 요약 및 대화 승률 계산을 위한 GPT-4 프롬프트
D 추가 경험적 결과
D.1 다양한 N 및 D.2 샘플 응답 및 GPT-4 판단에 대한 Best of N 기준의 성능
대규모 비지도 언어 모델(LM)은 광범위한 세계 지식과 일부 추론 기술을 학습하지만, 훈련의 완전한 비지도 특성으로 인해 행동을 정확하게 제어하는 것이 어렵습니다. 이러한 조종성을 얻기 위한 기존 방법은 모델 세대의 상대적 품질에 대한 인간 레이블을 수집하고 비지도 LM을 미세 조정하여 이러한 선호도에 맞게 조정하는데, 종종 인간 피드백(RLHF)을 통한 강화 학습을 사용합니다. 그러나 RLHF는 복잡하고 종종 불안정한 절차로, 먼저 인간의 선호도를 반영하는 보상 모델을 맞춘 다음 강화 학습을 사용하여 대규모 비지도 LM을 미세 조정하여 원래 모델에서 너무 벗어나지 않고 이 추정 보상을 최대화합니다. 이 논문에서는 RLHF에서 보상 모델의 새로운 매개변수화를 소개하여 폐쇄된 형태로 해당 최적 정책을 추출할 수 있게 함으로써 간단한 분류 손실만으로 표준 RLHF 문제를 해결할 수 있습니다. 직접 선호도 최적화(DPO)라고 부르는 결과 알고리즘은 안정적이고 성능이 뛰어나며 계산적으로 가벼워 미세 조정 중이나 중요한 하이퍼파라미터 조정을 수행하는 동안 LM에서 샘플링할 필요가 없습니다. 실험 결과 DPO는 기존 방법만큼 또는 그보다 더 잘 LM을 미세 조정하여 인간의 선호도에 맞출 수 있습니다. 특히 DPO를 사용한 미세 조정은 세대의 감정을 제어하는 능력에서 PPO 기반 RLHF를 능가하고 요약 및 단일 턴 대화에서 응답 품질을 일치시키거나 개선하는 반면 구현 및 훈련이 훨씬 간단합니다.
매우 큰 데이터 세트에서 학습된 대규모 비지도 언어 모델(LM)은 놀라운 역량을 획득합니다[11, 7, 40, 8]. 그러나 이러한 모델은 다양한 목표, 우선순위 및 기술 세트를 가진 인간이 생성한 데이터에서 학습됩니다. 이러한 목표와 기술 세트 중 일부는 모방하기에 바람직하지 않을 수 있습니다. 예를 들어, AI 코딩 어시스턴트가 일반적인 프로그래밍 실수를 이해하여 수정하기를 원할 수 있지만, 그럼에도 불구하고 코드를 생성할 때 모델을 훈련 데이터에 있는(잠재적으로 드문) 고품질 코딩 능력에 편향시키고 싶을 수 있습니다. 마찬가지로 언어 모델이 50%의 사람들이 믿는 일반적인 오해를 인식하기를 원할 수 있지만, 모델이 이에 대한 질의의 50%에서 이 오해가 사실이라고 주장하기를 원하지는 않습니다! 다시 말해, 매우 광범위한 지식과 능력에서 모델의 원하는 응답과 행동을 선택하는 것은 안전하고 성능이 뛰어나며 제어 가능한 AI 시스템을 구축하는 데 중요합니다[26]. 기존 방법은 일반적으로 강화 학습(RL)을 사용하여 LM이 인간의 선호도와 일치하도록 조정하지만,
기존 방법에서 사용되는 RL 기반 목적은 간단한 이진 교차 엔트로피 목적으로 정확하게 최적화될 수 있으며, 이를 통해 선호도 학습 파이프라인을 크게 단순화할 수 있음을 보일 것입니다.
높은 수준에서, 기존 방법은 인간이 안전하고 도움이 된다고 생각하는 행동 유형을 나타내는 큐레이트된 인간 선호도 세트를 사용하여 언어 모델에 원하는 행동을 주입합니다. 이 선호도 학습 단계는 대규모 텍스트 데이터 세트에 대한 대규모 비지도 사전 학습의 초기 단계 이후에 발생합니다. 선호도 학습에 대한 가장 간단한 접근 방식은 고품질 응답에 대한 인간 시연에 대한 지도 미세 조정인 반면, 가장 성공적인 방법 클래스는 인간(또는 AI) 피드백(RLHF/RLAIF; [12, 2])을 통한 강화 학습입니다. RLHF 방법은 보상 모델을 인간 선호도 데이터 세트에 맞춘 다음 RL을 사용하여 언어 모델 정책을 최적화하여 원래 모델에서 지나치게 벗어나지 않고 높은 보상이 할당된 응답을 생성합니다. RLHF는 인상적인 대화 및 코딩 능력을 가진 모델을 생성하지만 RLHF 파이프라인은 지도 학습보다 상당히 복잡하여 여러 LM을 훈련하고 훈련 루프에서 LM 정책에서 샘플링하여 상당한 계산 비용이 발생합니다.
이 논문에서는 명시적 보상 모델링이나 강화 학습 없이 인간의 선호도를 따르도록 언어 모델을 직접 최적화하는 방법을 보여줍니다. 기존 RLHF 알고리즘(KL-발산 제약이 있는 보상 극대화)과 동일한 목적을 암묵적으로 최적화하지만 구현이 간단하고 학습하기 쉬운 알고리즘인 직접 선호도 최적화(DPO)를 제안합니다. 직관적으로 DPO 업데이트는 선호되는 응답과 선호되지 않는 응답의 상대적 로그 확률을 증가시키지만, 순진한 확률 비율 목표에서 발생하는 모델 퇴화를 방지하는 동적 예제별 중요도 가중치를 통합합니다. 기존 알고리즘과 마찬가지로 DPO는 주어진 보상 함수가 경험적 선호도 데이터와 얼마나 잘 일치하는지 측정하는 이론적 선호도 모델(예: Bradley-Terry 모델 [5])에 의존합니다. 그러나 기존 방법은 선호도 모델을 사용하여 보상 모델을 학습한 다음 학습된 보상 모델을 최적화하는 정책을 학습하기 위한 선호도 손실을 정의하는 반면, DPO는 변수 변경을 사용하여 정책의 함수로 선호도 손실을 직접 정의합니다. 모델 반응에 대한 인간의 선호도 데이터 세트가 주어지면 DPO는 간단한 이진 교차 엔트로피 목적을 사용하여 정책을 최적화하고 선호도 데이터에 적합한 암묵적 보상 함수에 대한 최적의 정책을 생성할 수 있습니다.
우리의 주요 기여는 선호도에서 언어 모델을 훈련하기 위한 간단한 RL-free 알고리즘인 Direct Preference Optimization(DPO)입니다. 우리의 실험은 DPO가 최대 6B 매개변수가 있는 언어 모델을 사용하여 감정 변조, 요약 및 대화와 같은 작업에서 선호도로부터 학습하는 데 PPO 기반 RLHF를 포함한 기존 방법만큼 효과적이라는 것을 보여줍니다.
이 논문은 CC BY-NC-ND 4.0 DEED 라이선스에 따라 arxiv에서 볼 수 있습니다.