paint-brush
Direkte Präferenzoptimierung: Ihr Sprachmodell ist insgeheim ein Belohnungsmodellvon@textmodels
234 Lesungen

Direkte Präferenzoptimierung: Ihr Sprachmodell ist insgeheim ein Belohnungsmodell

Zu lang; Lesen

Direct Preference Optimization (DPO) stellt eine einfachere, stabile Alternative zum Reinforcement Learning dar, um Sprachmodelle an menschliche Vorlieben anzupassen. Da keine Belohnungsmodellierung und keine komplexen Trainingsverfahren erforderlich sind, bietet DPO eine effiziente Feinabstimmung, die die Leistung bestehender Methoden wie PPO-basiertem RLHF erreicht oder übertrifft, insbesondere bei Sentimentmodulation, Zusammenfassung und Dialogaufgaben.
featured image - Direkte Präferenzoptimierung: Ihr Sprachmodell ist insgeheim ein Belohnungsmodell
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

Autoren:

(1) Rafael Rafailo, Stanford University und gleicher Beitrag; jüngere Autoren sind bereits aufgeführt;

(2) Archit Sharma, Stanford University und gleicher Beitrag; jüngere Autoren sind bereits früher aufgeführt;

(3) Eric Mitchel, Stanford University und gleicher Beitrag; weitere Nachwuchsautoren sind bereits aufgeführt;

(4) Stefano Ermon, CZ Biohub;

(5) Christopher D. Manning, Stanford University;

(6) Chelsea Finn, Stanford University.

Linktabelle

Zusammenfassung und 1. Einleitung

2 Verwandte Arbeiten

3 Vorbemerkungen

4 Direkte Präferenzoptimierung

5 Theoretische Analyse des DPO

6 Versuche

7 Diskussion, Danksagungen und Referenzen

Autorenbeiträge


A Mathematische Herleitungen

A.1 Ableitung des Optimums des KL-beschränkten Belohnungsmaximierungsziels

A.2 Ableitung des DPO-Ziels nach dem Bradley-Terry-Modell

A.3 Ableitung des DPO-Ziels nach dem Plackett-Luce-Modell

A.4 Ableitung des Gradienten des DPO-Ziels und A.5 Beweis von Lemma 1 und 2

A.6 Beweis von Theorem 1


B DPO-Implementierungsdetails und Hyperparameter


C Weitere Details zum Versuchsaufbau und C.1 IMDb Sentiment Experiment und Baseline Details

C.2 GPT-4-Eingabeaufforderungen zur Berechnung von Zusammenfassungs- und Dialoggewinnraten

C.3 Unwahrscheinlichkeits-Basislinie


D Weitere empirische Ergebnisse

D.1 Leistung der Best-of-N-Basislinie für verschiedene N und D.2 Beispielantworten und GPT-4-Beurteilungen

D.3 Einzelheiten der Humanstudie

Abstrakt

Während große, unbeaufsichtigte Sprachmodelle (LMs) ein breites Weltwissen und einige Denkfähigkeiten erlernen, ist es aufgrund der völlig unbeaufsichtigten Natur ihres Trainings schwierig, ihr Verhalten präzise zu steuern. Bestehende Methoden zum Erreichen einer solchen Steuerbarkeit sammeln menschliche Bezeichnungen der relativen Qualität von Modellgenerationen und optimieren das unbeaufsichtigte LM, um es an diese Präferenzen anzupassen, oft mit Verstärkungslernen aus menschlichem Feedback (RLHF). RLHF ist jedoch ein komplexes und oft instabiles Verfahren, bei dem zunächst ein Belohnungsmodell angepasst wird, das die menschlichen Präferenzen widerspiegelt, und dann das große, unbeaufsichtigte LM mithilfe von Verstärkungslernen feinabgestimmt wird, um diese geschätzte Belohnung zu maximieren, ohne zu weit vom ursprünglichen Modell abzuweichen. In diesem Artikel stellen wir eine neue Parametrisierung des Belohnungsmodells in RLHF vor, die die Extraktion der entsprechenden optimalen Richtlinie in geschlossener Form ermöglicht, wodurch wir das Standard-RLHF-Problem mit nur einem einfachen Klassifizierungsverlust lösen können. Der resultierende Algorithmus, den wir Direct Preference Optimization (DPO) nennen, ist stabil, leistungsfähig und rechenarm, sodass während der Feinabstimmung keine Stichproben aus dem LM entnommen oder eine signifikante Hyperparameterabstimmung durchgeführt werden muss. Unsere Experimente zeigen, dass DPO LMs genauso gut oder besser feinabstimmen kann als bestehende Methoden, um sie an menschliche Vorlieben anzupassen. Insbesondere übertrifft die Feinabstimmung mit DPO die PPO-basierte RLHF in der Fähigkeit, die Stimmung von Generationen zu steuern, und erreicht oder verbessert die Antwortqualität bei Zusammenfassungen und Single-Turn-Dialogen, während sie wesentlich einfacher zu implementieren und zu trainieren ist.

1 Einleitung

Große, unbeaufsichtigte Sprachmodelle (LMs), die auf sehr großen Datensätzen trainiert werden, erlangen überraschende Fähigkeiten [11, 7, 40, 8]. Diese Modelle werden jedoch auf Daten trainiert, die von Menschen mit einer Vielzahl von Zielen, Prioritäten und Fähigkeiten generiert werden. Einige dieser Ziele und Fähigkeiten sind möglicherweise nicht wünschenswert zu imitieren; wir möchten beispielsweise, dass unser KI-Codierungsassistent häufige Programmierfehler versteht, um sie zu korrigieren, aber dennoch möchten wir bei der Generierung von Code unser Modell auf die (möglicherweise seltenen) hochwertigen Codierfähigkeiten ausrichten, die in seinen Trainingsdaten vorhanden sind. Ebenso möchten wir vielleicht, dass unser Sprachmodell sich eines häufigen Missverständnisses bewusst ist, an das 50 % der Menschen glauben, aber wir möchten sicherlich nicht, dass das Modell dieses Missverständnis in 50 % der Anfragen dazu als wahr behauptet! Mit anderen Worten: Die Auswahl der gewünschten Antworten und Verhaltensweisen des Modells aus seinem sehr breiten Wissen und seinen Fähigkeiten ist entscheidend für den Aufbau von KI-Systemen, die sicher, leistungsfähig und kontrollierbar sind [26]. Während bestehende Methoden LMs normalerweise mithilfe von Reinforcement Learning (RL) so steuern, dass sie den menschlichen Vorlieben entsprechen,


Abbildung 1: DPO optimiert für menschliche Präferenzen und vermeidet dabei bestärkendes Lernen. Bestehende Methoden zur Feinabstimmung von Sprachmodellen mit menschlichem Feedback passen zunächst ein Belohnungsmodell an einen Datensatz von Eingabeaufforderungen und menschlichen Präferenzen über Antwortpaare an und verwenden dann RL, um eine Richtlinie zu finden, die die erlernte Belohnung maximiert. Im Gegensatz dazu optimiert DPO direkt für die Richtlinie, die die Präferenzen mit einem einfachen Klassifizierungsziel am besten erfüllt, und passt ein implizites Belohnungsmodell an, dessen entsprechende optimale Richtlinie in geschlossener Form extrahiert werden kann.


Wir werden zeigen, dass das RL-basierte Ziel, das von bestehenden Methoden verwendet wird, mit einem einfachen binären Kreuzentropieziel exakt optimiert werden kann, was die Pipeline zum Präferenzlernen erheblich vereinfacht.


Auf einer hohen Ebene prägen bestehende Methoden die gewünschten Verhaltensweisen in ein Sprachmodell ein, indem sie kuratierte Sätze menschlicher Präferenzen verwenden, die die Verhaltensweisen darstellen, die Menschen als sicher und hilfreich empfinden. Diese Phase des Präferenzlernens erfolgt nach einer ersten Phase des groß angelegten, unbeaufsichtigten Vortrainings anhand eines großen Textdatensatzes. Während der direkteste Ansatz zum Präferenzlernen die überwachte Feinabstimmung anhand menschlicher Demonstrationen qualitativ hochwertiger Antworten ist, ist die erfolgreichste Methodenklasse das bestärkende Lernen aus menschlichem (oder KI-)Feedback (RLHF/RLAIF; [12, 2]). RLHF-Methoden passen ein Belohnungsmodell an einen Datensatz menschlicher Präferenzen an und verwenden dann RL, um eine Sprachmodellrichtlinie zu optimieren, um Antworten mit hoher Belohnung zu erzeugen, ohne übermäßig weit vom ursprünglichen Modell abzuweichen. Während RLHF Modelle mit beeindruckenden Konversations- und Codierfähigkeiten erzeugt, ist die RLHF-Pipeline erheblich komplexer als überwachtes Lernen, da mehrere LMs trainiert und während der Trainingsschleife aus der LM-Richtlinie abgetastet werden müssen, was erhebliche Rechenkosten verursacht.


In diesem Artikel zeigen wir, wie man ein Sprachmodell direkt optimieren kann, um menschlichen Präferenzen zu entsprechen, ohne explizite Belohnungsmodellierung oder Verstärkungslernen. Wir schlagen Direct Preference Optimization (DPO) vor, einen Algorithmus, der implizit dasselbe Ziel wie bestehende RLHF-Algorithmen optimiert (Belohnungsmaximierung mit einer KL-Divergenzbeschränkung), aber einfach zu implementieren und unkompliziert zu trainieren ist. Intuitiv erhöht das DPO-Update die relative Log-Wahrscheinlichkeit von bevorzugten gegenüber nicht bevorzugten Antworten, enthält jedoch ein dynamisches, pro Beispiel festgelegtes Wichtigkeitsgewicht, das die Modelldegeneration verhindert, die wir bei einem naiven Wahrscheinlichkeitsverhältnisziel feststellen. Wie bestehende Algorithmen basiert DPO auf einem theoretischen Präferenzmodell (wie dem Bradley-Terry-Modell; [5]), das misst, wie gut eine bestimmte Belohnungsfunktion mit empirischen Präferenzdaten übereinstimmt. Während bestehende Methoden jedoch das Präferenzmodell verwenden, um einen Präferenzverlust zu definieren, um ein Belohnungsmodell zu trainieren und dann eine Richtlinie zu trainieren, die das erlernte Belohnungsmodell optimiert, verwendet DPO eine Änderung der Variablen, um den Präferenzverlust direkt als Funktion der Richtlinie zu definieren. Ausgehend von einem Datensatz menschlicher Präferenzen gegenüber Modellreaktionen kann DPO daher eine Richtlinie mithilfe eines einfachen binären Kreuzentropieziels optimieren und die optimale Richtlinie für eine implizite Belohnungsfunktion erstellen, die zu den Präferenzdaten passt.


Unser Hauptbeitrag ist Direct Preference Optimization (DPO), ein einfacher RL-freier Algorithmus zum Trainieren von Sprachmodellen anhand von Präferenzen. Unsere Experimente zeigen, dass DPO beim Lernen anhand von Präferenzen bei Aufgaben wie Stimmungsmodulation, Zusammenfassung und Dialog unter Verwendung von Sprachmodellen mit bis zu 6 Milliarden Parametern mindestens so effektiv ist wie bestehende Methoden, einschließlich PPO-basiertem RLHF.