Autoren:  (1) Rafael Rafailo, Stanford University und gleicher Beitrag; jüngere Autoren sind bereits aufgeführt;  (2) Archit Sharma, Stanford University und gleicher Beitrag; jüngere Autoren sind bereits früher aufgeführt;  (3) Eric Mitchel, Stanford University und gleicher Beitrag; weitere Nachwuchsautoren sind bereits aufgeführt;  (4) Stefano Ermon, CZ Biohub;  (5) Christopher D. Manning, Stanford University;  (6) Chelsea Finn, Stanford University.  Linktabelle   Zusammenfassung und 1. Einleitung   2 Verwandte Arbeiten   3 Vorbemerkungen   4 Direkte Präferenzoptimierung   5 Theoretische Analyse des DPO   6 Versuche   7 Diskussion, Danksagungen und Referenzen   Autorenbeiträge  A Mathematische Herleitungen   A.1 Ableitung des Optimums des KL-beschränkten Belohnungsmaximierungsziels   A.2 Ableitung des DPO-Ziels nach dem Bradley-Terry-Modell   A.3 Ableitung des DPO-Ziels nach dem Plackett-Luce-Modell   A.4 Ableitung des Gradienten des DPO-Ziels und A.5 Beweis von Lemma 1 und 2   A.6 Beweis von Theorem 1   B DPO-Implementierungsdetails und Hyperparameter   C Weitere Details zum Versuchsaufbau und C.1 IMDb Sentiment Experiment und Baseline Details   C.2 GPT-4-Eingabeaufforderungen zur Berechnung von Zusammenfassungs- und Dialoggewinnraten   C.3 Unwahrscheinlichkeits-Basislinie  D Weitere empirische Ergebnisse   D.1 Leistung der Best-of-N-Basislinie für verschiedene N und D.2 Beispielantworten und GPT-4-Beurteilungen   D.3 Einzelheiten der Humanstudie  2 Verwandte Arbeiten  Selbstüberwachte Sprachmodelle mit zunehmendem Maßstab lernen, einige Aufgaben ohne Vorgabe [31] oder mit wenigen Eingabeaufforderungen [6, 25, 11] zu erledigen. Ihre Leistung bei nachgelagerten Aufgaben und die Übereinstimmung mit der Benutzerabsicht können jedoch durch Feinabstimmung von Datensätzen mit Anweisungen und von Menschen geschriebenen Vervollständigungen [23, 36, 13, 39] erheblich verbessert werden. Dieses Verfahren der „Anweisungsabstimmung“ ermöglicht es LLMs, Anweisungen außerhalb des Anweisungsabstimmungssatzes zu verallgemeinern und ihre Benutzerfreundlichkeit allgemein zu verbessern [13]. Trotz des Erfolgs der Anweisungsabstimmung sind relative menschliche Urteile über die Antwortqualität oft leichter zu erfassen als Expertendemonstrationen. Daher wurden in nachfolgenden Arbeiten LLMs mit Datensätzen menschlicher Präferenzen feinabgestimmt und die Kompetenz beim Übersetzen [18], Zusammenfassen [38, 49], Geschichtenerzählen [49] und Befolgen von Anweisungen [26, 32] verbessert. Diese Methoden optimieren zunächst eine Belohnungsfunktion eines neuronalen Netzwerks auf Kompatibilität mit dem Datensatz von Präferenzen unter einem Präferenzmodell wie dem Bradley-Terry-Modell [5] und optimieren dann ein Sprachmodell, um die gegebene Belohnung unter Verwendung von Algorithmen des bestärkenden Lernens zu maximieren, üblicherweise REINFORCE [45], proximale Policy-Optimierung (PPO; [37]) oder Varianten [32]. Ein eng verwandter Arbeitsbereich nutzt LLMs, die auf Anweisungen mit menschlichem Feedback optimiert sind, um zusätzliche synthetische Präferenzdaten für gezielte Attribute wie Sicherheit oder Harmlosigkeit zu generieren [2], wobei nur eine schwache menschliche Aufsicht in Form einer Textrubrik für die Anmerkungen des LLMs verwendet wird. Diese Methoden stellen eine Konvergenz zweier Arbeitsgebiete dar: ein Arbeitsgebiet über das Training von Sprachmodellen mit bestärkendem Lernen für verschiedene Zielsetzungen [33, 27, 46] und ein weiteres Arbeitsgebiet über allgemeine Methoden zum Lernen aus menschlichen Präferenzen [12, 19]. Obwohl die Verwendung relativer menschlicher Präferenzen attraktiv ist, bleibt die Feinabstimmung großer Sprachmodelle mit bestärkendem Lernen eine große praktische Herausforderung; Diese Arbeit bietet einen theoretisch fundierten Ansatz zur Optimierung relativer Präferenzen ohne RL.  Außerhalb des Sprachkontexts wurde das Lernen von Strategien aus Präferenzen sowohl im Banditen- als auch im Verstärkungslernen untersucht, und es wurden mehrere Ansätze vorgeschlagen. Kontextuelles Banditenlernen unter Verwendung von Präferenzen oder Rangfolgen von Aktionen anstelle von Belohnungen wird als kontextueller Duellbandit (CDB; [48, 14]) bezeichnet. In Ermangelung absoluter Belohnungen ersetzt die theoretische Analyse von CDBs das Konzept einer optimalen Strategie durch einen Von-Neumann-Gewinner, eine Strategie, deren erwartete Gewinnrate gegen jede andere Strategie mindestens 50 % beträgt [14]. Im CDB-Umfeld werden Präferenzbezeichnungen jedoch online vergeben, während wir beim Lernen aus menschlichen Präferenzen normalerweise aus einer festen Menge offline mit Präferenzen annotierter Aktionspaare lernen [47]. In ähnlicher Weise lernt das präferenzbasierte RL (PbRL) aus binären Präferenzen, die von einer unbekannten „Bewertungsfunktion“ generiert werden, anstelle von Belohnungen [9, 35]. Es gibt verschiedene Algorithmen für PbRL, darunter auch Methoden, die Off-Policy-Präferenzdaten wiederverwenden können. Im Allgemeinen wird dabei jedoch zunächst die latente Bewertungsfunktion (also das Belohnungsmodell) explizit geschätzt und anschließend optimiert [16, 9, 12, 34, 19]. Wir präsentieren stattdessen einen einstufigen Policy-Learning-Ansatz, der eine Policy direkt optimiert, um Präferenzen zu erfüllen.  Dieses Dokument ist   . auf arxiv unter der Lizenz CC BY-NC-ND 4.0 DEED verfügbar

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

AI Models on HackerNoon

Dieses Audio ist in der Originalsprache der Geschichte produziert!

Vereinfachung des KI-Trainings: Direkte Präferenzoptimierung vs. traditionelles RL

About Author

KOMMENTARE

Hängeetiketten

DIESER ARTIKEL WURDE VORGESTELLT IN

Related Stories

HackerNoon Decoded: The Top 10 Countries Where HackerNoon Is the Most Active

HackerNoon Decoded 2024: Celebrating Our Cybersecurity Community!

HackerNoon Decoded 2024: Celebrating Our Management Community!

Genuine Content Creation in the Age of AI: Why Startups Need Quality Content

HackerNoon Decoded: The Top 10 Countries Where HackerNoon Is the Most Active

HackerNoon Decoded 2024: Celebrating Our Cybersecurity Community!

HackerNoon Decoded 2024: Celebrating Our Management Community!

Genuine Content Creation in the Age of AI: Why Startups Need Quality Content

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps