Autoren:
(1) Rafael Rafailo, Stanford University und gleicher Beitrag; jüngere Autoren sind bereits aufgeführt;
(2) Archit Sharma, Stanford University und gleicher Beitrag; jüngere Autoren sind bereits früher aufgeführt;
(3) Eric Mitchel, Stanford University und gleicher Beitrag; weitere Nachwuchsautoren sind bereits aufgeführt;
(4) Stefano Ermon, CZ Biohub;
(5) Christopher D. Manning, Stanford University;
(6) Chelsea Finn, Stanford University.
Zusammenfassung und 1. Einleitung
4 Direkte Präferenzoptimierung
5 Theoretische Analyse des DPO
7 Diskussion, Danksagungen und Referenzen
A Mathematische Herleitungen
A.1 Ableitung des Optimums des KL-beschränkten Belohnungsmaximierungsziels
A.2 Ableitung des DPO-Ziels nach dem Bradley-Terry-Modell
A.3 Ableitung des DPO-Ziels nach dem Plackett-Luce-Modell
A.4 Ableitung des Gradienten des DPO-Ziels und A.5 Beweis von Lemma 1 und 2
B DPO-Implementierungsdetails und Hyperparameter
C Weitere Details zum Versuchsaufbau und C.1 IMDb Sentiment Experiment und Baseline Details
C.2 GPT-4-Eingabeaufforderungen zur Berechnung von Zusammenfassungs- und Dialoggewinnraten
C.3 Unwahrscheinlichkeits-Basislinie
D Weitere empirische Ergebnisse
D.3 Einzelheiten der Humanstudie
Selbstüberwachte Sprachmodelle mit zunehmendem Maßstab lernen, einige Aufgaben ohne Vorgabe [31] oder mit wenigen Eingabeaufforderungen [6, 25, 11] zu erledigen. Ihre Leistung bei nachgelagerten Aufgaben und die Übereinstimmung mit der Benutzerabsicht können jedoch durch Feinabstimmung von Datensätzen mit Anweisungen und von Menschen geschriebenen Vervollständigungen [23, 36, 13, 39] erheblich verbessert werden. Dieses Verfahren der „Anweisungsabstimmung“ ermöglicht es LLMs, Anweisungen außerhalb des Anweisungsabstimmungssatzes zu verallgemeinern und ihre Benutzerfreundlichkeit allgemein zu verbessern [13]. Trotz des Erfolgs der Anweisungsabstimmung sind relative menschliche Urteile über die Antwortqualität oft leichter zu erfassen als Expertendemonstrationen. Daher wurden in nachfolgenden Arbeiten LLMs mit Datensätzen menschlicher Präferenzen feinabgestimmt und die Kompetenz beim Übersetzen [18], Zusammenfassen [38, 49], Geschichtenerzählen [49] und Befolgen von Anweisungen [26, 32] verbessert. Diese Methoden optimieren zunächst eine Belohnungsfunktion eines neuronalen Netzwerks auf Kompatibilität mit dem Datensatz von Präferenzen unter einem Präferenzmodell wie dem Bradley-Terry-Modell [5] und optimieren dann ein Sprachmodell, um die gegebene Belohnung unter Verwendung von Algorithmen des bestärkenden Lernens zu maximieren, üblicherweise REINFORCE [45], proximale Policy-Optimierung (PPO; [37]) oder Varianten [32]. Ein eng verwandter Arbeitsbereich nutzt LLMs, die auf Anweisungen mit menschlichem Feedback optimiert sind, um zusätzliche synthetische Präferenzdaten für gezielte Attribute wie Sicherheit oder Harmlosigkeit zu generieren [2], wobei nur eine schwache menschliche Aufsicht in Form einer Textrubrik für die Anmerkungen des LLMs verwendet wird. Diese Methoden stellen eine Konvergenz zweier Arbeitsgebiete dar: ein Arbeitsgebiet über das Training von Sprachmodellen mit bestärkendem Lernen für verschiedene Zielsetzungen [33, 27, 46] und ein weiteres Arbeitsgebiet über allgemeine Methoden zum Lernen aus menschlichen Präferenzen [12, 19]. Obwohl die Verwendung relativer menschlicher Präferenzen attraktiv ist, bleibt die Feinabstimmung großer Sprachmodelle mit bestärkendem Lernen eine große praktische Herausforderung; Diese Arbeit bietet einen theoretisch fundierten Ansatz zur Optimierung relativer Präferenzen ohne RL.
Außerhalb des Sprachkontexts wurde das Lernen von Strategien aus Präferenzen sowohl im Banditen- als auch im Verstärkungslernen untersucht, und es wurden mehrere Ansätze vorgeschlagen. Kontextuelles Banditenlernen unter Verwendung von Präferenzen oder Rangfolgen von Aktionen anstelle von Belohnungen wird als kontextueller Duellbandit (CDB; [48, 14]) bezeichnet. In Ermangelung absoluter Belohnungen ersetzt die theoretische Analyse von CDBs das Konzept einer optimalen Strategie durch einen Von-Neumann-Gewinner, eine Strategie, deren erwartete Gewinnrate gegen jede andere Strategie mindestens 50 % beträgt [14]. Im CDB-Umfeld werden Präferenzbezeichnungen jedoch online vergeben, während wir beim Lernen aus menschlichen Präferenzen normalerweise aus einer festen Menge offline mit Präferenzen annotierter Aktionspaare lernen [47]. In ähnlicher Weise lernt das präferenzbasierte RL (PbRL) aus binären Präferenzen, die von einer unbekannten „Bewertungsfunktion“ generiert werden, anstelle von Belohnungen [9, 35]. Es gibt verschiedene Algorithmen für PbRL, darunter auch Methoden, die Off-Policy-Präferenzdaten wiederverwenden können. Im Allgemeinen wird dabei jedoch zunächst die latente Bewertungsfunktion (also das Belohnungsmodell) explizit geschätzt und anschließend optimiert [16, 9, 12, 34, 19]. Wir präsentieren stattdessen einen einstufigen Policy-Learning-Ansatz, der eine Policy direkt optimiert, um Präferenzen zu erfüllen.
Dieses Dokument ist auf arxiv unter der Lizenz CC BY-NC-ND 4.0 DEED verfügbar .