Autoren:
(1) Nathan Lambert, Allen Institute for AI;
(2) Roberto Calandra, TU Dresden.
Zusammenfassung und Einführung
Reinforcement Learning from Human Feedback (RLHF) hat sich zu einer leistungsstarken Technik entwickelt, um große Sprachmodelle (LLMs) leichter ansprechbar und in komplexen Umgebungen leistungsfähiger zu machen. Im Kern stellt RLHF ein neues Toolkit zur Optimierung von LLMs außer der Next-Token-Vorhersage bereit, das die Integration qualitativer Trainingsziele ermöglicht. Der versuchte Abgleich zwischen Benutzerpräferenzen und nachgelagerter Leistung, der in einem erlernten Belohnungsmodell erfolgt, führt zu einer Optimierungslandschaft, in der Trainings- und Bewertungsmetriken korreliert erscheinen können. Der scheinbare Zusammenhang kann zu unerwartetem Verhalten und Geschichten über „zu viel RLHF“ führen. Bei RLHF treten Herausforderungen auf, weil die folgenden Untermodule nicht miteinander konsistent sind: das Training des Belohnungsmodells, das Training des Richtlinienmodells und die Bewertung des Richtlinienmodells. Diese Nichtübereinstimmung führt dazu, dass Modelle manchmal Benutzeranfragen durch falsche Sicherheitsflaggen vermeiden, sich nur schwer auf eine beabsichtigte Eigenschaft lenken lassen oder immer in einem bestimmten Stil antworten. Da die Bewertung des Chat-Modells immer differenzierter wird, ist die Abhängigkeit von einem wahrgenommenen Zusammenhang zwischen der Bewertung des Belohnungsmodells und der nachgelagerten Leistung die Ursache für das Problem der objektiven Diskrepanz. In diesem Artikel veranschaulichen wir die Ursache dieses Problems, überprüfen relevante Literatur zum modellbasierten Reinforcement Learning und diskutieren relevante Lösungen, um weitere Forschung anzuregen. Durch die Beseitigung objektiver Diskrepanzen im RLHF werden die LLMs der Zukunft im Hinblick auf Sicherheit und Nützlichkeit präziser auf Benutzeranweisungen abgestimmt
Reinforcement Learning from Human Feedback (RLHF) ist ein leistungsstarkes Werkzeug zur Integration qualitativer Stile und Werte in große Modelle des maschinellen Lernens (Bai et al., 2022; Christiano et al., 2017; Ouyang et al., 2022). RLHF wurde durch seine Verwendung zur Integration menschlicher Werte in große Sprachmodelle (LLMs) zur Ausrichtung von Chat-Tools populär gemacht (Schulman, Zoph, Kim & mehr, 2022). Auf diese Weise ist RLHF zu einer wichtigen Technik geworden, um Modelle besser in der Lage zu machen, auf Benutzeranfragen zu reagieren. Dies wird oft als anweisungsgesteuerte Modelle, Steuerbarkeitsmodelle, Chat-Modelle usw. bezeichnet Beim Training eines Basissprachmodells lernen sie zunächst ein Modell menschlicher Präferenzen, das als Belohnungsfunktion fungiert, und verwenden dieses Modell anschließend in einer Optimierungsschleife für Reinforcement Learning (RL). Im RLHF-Prozess werden diese beiden Schritte oft unabhängig voneinander ausgeführt, wobei ein genaues Belohnungsmodell auf menschlichen Präferenzdaten trainiert wird und dann der RL-Optimierer verwendet wird, um maximale Informationen in das Chat-Modell zu extrahieren. Eine häufige Herausforderung moderner LLMs, die mit RLHF trainiert werden, besteht darin, dass es schwierig ist, beabsichtigte Verhaltensweisen aus dem Modell zu extrahieren. Manchmal lehnen die Modelle harmlose Anfragen aus Sicherheitsgründen ab und ein anderes Mal benötigen sie eine clevere, schnelle Abstimmung, um die volle Leistung zu erzielen.
In diesem Artikel gehen wir detailliert auf eine grundlegende Herausforderung moderner RLHF-Lernprogramme ein: das Problem der objektiven Nichtübereinstimmung. In RLHF sind drei wichtige Teile des Trainings numerisch entkoppelt: der Entwurf von Bewertungsmetriken, das Training eines Belohnungsmodells und das Training des generierenden Modells. Dieses Missverhältnis zwischen dem Belohnungsmodell und dem RL-Training wird in Abb. 1 veranschaulicht, es bestehen jedoch andere Verbindungen zwischen den Zielen der Bewertung und der Simulation menschlicher Werte. Insbesondere gibt es viele Möglichkeiten, das Belohnungsmodelltraining besser an die Literatur zur Präferenzquantifizierung anzupassen (Lambert, Gilbert & Zick, 2023) und grundlegende Optimierungsherausforderungen müssen in RLHF-Praktiken gelöst werden (Casper et al., 2023). ChatGPT, das beliebteste mit RLHF trainierte Modell, zeigt Anzeichen dieser Einschränkung durch Probleme wie Ausführlichkeit, Selbstzweifel und Fragenverweigerung, wiederholte Phrasen, Absicherung und mehr (Schulman, 2023). Diese Merkmale der Überoptimierung sind Ergebnisse des subtilen Proxy-Zielproblems, dessen objektive Nichtübereinstimmung einen Rahmen für die Untersuchung und Lösung bietet – das Belohnungsmodell schreibt Phrasen, die nicht zum Benutzernutzen beitragen, einen übermäßigen Wert zu, den der RL-Optimierer ausnutzt, wie z. B. Sicherheitsflaggen. Einerseits sind die aktuellen Trainingsaufbauten nicht vollständig auf Bewertungstools abgestimmt, da die RLHF-Modelle immer noch ausgefeilte Aufforderungstechniken wie „Schritt für Schritt denken“ (J. Wei et al., 2022) oder „Tief durchatmen“ erfordern “ (Yang et al., 2023), um maximale Leistung zu erreichen. Durch die Beseitigung objektiver Diskrepanzen werden diese fortschrittlichen Techniken überflüssig und die Wahrscheinlichkeit von Ablehnungen außerhalb des Geltungsbereichs eines LLM verringert.
Der Ausdruck „objektive Nichtübereinstimmung“ stammt aus dem modellbasierten Verstärkungslernen (MBRL), bei dem ein Agent iterativ ein Dynamikmodell lernt, das er später zur Lösung einer Kontrollaufgabe verwendet (Lambert, Amos, Yadan & Calandra, 2020; R. Wei, Lambert, McDonald, Garcia und Calandra, 2023). In diesem Zusammenhang besteht die Diskrepanz zwischen dem Erlernen eines genauen Dynamikmodells und nicht eines, das für eine hohe Aufgabenbelohnung optimiert ist. Bei RLHF ist das Problem ähnlich, jedoch mit zusätzlicher Komplexität, da das Belohnungsmodell für Präferenzdaten gegenüber einer geschlossenen Verteilung optimiert ist, die nicht mit den Endbenutzern übereinstimmt. Zweitens ist die Aufgabe der ergebnisoffenen Sprachgenerierung weniger spezifisch für den Begriff der Belohnung als die der RL-Kontrollrichtlinien. Aus diesen Gründen ist das Problem der objektiven Diskrepanz, wie wir in diesem Artikel untersuchen, für RLHF nuancierter und entscheidender.
In diesem Positionspapier leisten wir drei Beiträge:
• Erklären Sie klar und deutlich die Ursprünge und möglichen Erscheinungsformen objektiver Diskrepanzen in chatgesteuerten LLMs.
• Verknüpfen Sie verwandte Arbeiten aus der NLP- und RL-Literatur zum Thema objektive Diskrepanz.
• Schlagen Sie Studienrichtungen vor, um das Missverhältnis zu beseitigen und bessere RLHF-Praktiken zu fördern.
Dieses Dokument ist auf arxiv unter der CC 4.0-Lizenz verfügbar .