Direct Preference Optimization (DPO) ist eine neuartige Feinabstimmungstechnik, die aufgrund ihrer Einfachheit und einfachen Implementierung populär geworden ist. Es hat sich als direkte Alternative zum (RLHF) für die Feinabstimmung großer Sprachmodelle (LLM) herausgestellt, um es an menschliche Vorlieben anzupassen, was auf seine Stabilität, Leistung und rechnerische Leichtigkeit zurückzuführen ist, wodurch die Notwendigkeit einer Stichprobenerhebung aus dem System entfällt LM während der Feinabstimmung. DPO kann ein Leistungsniveau erreichen, das genauso gut oder sogar besser ist als bestehende Methoden. Reinforcement Learning from Human Feedback Im Gegensatz zu bestehenden Methoden, die die Nutzung von RLHF beinhalten, formuliert DPO den Sprachausrichtungsprozess als einfache Verlustfunktion um, die direkt mithilfe eines Datensatzes von Präferenzen {(x,yw,yl)} optimiert werden kann, wobei: • x ist eine Eingabeaufforderung • yw ist eine bevorzugte Methode • yl ist eine abgelehnte Methode Im Gegensatz zu RLHF, bei dem während des Optimierungsprozesses Antworten aus einem Sprachmodell abgetastet werden müssen, müssen die Antworten bei DPO nicht aus dem zu optimierenden LM abgetastet werden. Wie funktioniert der DSB? Der Arbeitsprozess des Datenschutzbeauftragten kann in zwei Schritte unterteilt werden. In diesem Schritt wird das Modell anhand der relevanten Daten verfeinert. Supervised Fine-Tuning (SFT): Das Modell ist auf Präferenzdaten abgestimmt, die idealerweise aus derselben Verteilung wie die SFT-Beispiele stammen. Präferenzlernen: Im Gegensatz zu RLHF, bei dem zunächst ein Belohnungsmodell zur Richtlinienoptimierung trainiert wird, fügt DPO Präferenzinformationen direkt in den Optimierungsprozess ein, ohne den Zwischenschritt des Trainierens eines Belohnungsmodells. DPO verwendet LLM als Belohnungsmodell und verwendet ein binäres Kreuzentropieziel, um die Richtlinie zu optimieren. Dabei werden menschliche Präferenzdaten genutzt, um zu ermitteln, welche Antworten bevorzugt werden und welche nicht. Die Richtlinie wird basierend auf den bevorzugten Reaktionen angepasst, um ihre Leistung zu steigern. Überwachte Feinabstimmung Wir unterstützen Sie bei der Entwicklung generativer KI-Anwendungen für LLMs, damit diese vielseitig und an spezifische Anwendungsfälle anpassbar sind. Dazu gehört die Bereitstellung von Daten oder Beispielen für das Modell zum Lernen und Anpassen. Daher bieten wir prompte Engineering-Lösungen für Design, Tests, Bereitstellung und Bereitstellung von Prompts. Cogito. Bei der überwachten Feinabstimmung (Supervised Fine-Tuning, SFT) , die eine klare Zuordnung zwischen spezifischen Eingaben und gewünschten Ausgaben ermöglichen. Überwachte Feinabstimmung, insbesondere beim Präferenzlernen, wird eingesetzt, um die Ergebnisse des Modells so zu formen oder anzupassen, dass sie den von Menschen definierten Kriterien entsprechen, um sicherzustellen, dass sie eng mit den spezifischen Anforderungen übereinstimmen. wird LLM anhand gekennzeichneter Datensätze trainiert Präferenzdaten im NLP Präferenzdaten beziehen sich auf einen sorgfältig ausgewählten Satz von Optionen oder Alternativen zu einer bestimmten Eingabeaufforderung. Annotatoren bewerten diese Optionen gemäß bestimmten Richtlinien. Der Gesamtprozess zielt darauf ab, diese Optionen auf der Grundlage menschlicher Präferenzen von den am meisten bevorzugten bis zu den am wenigsten bevorzugten zu ordnen. Das Ranking wird dann zur Feinabstimmung von Modellen verwendet, um Ergebnisse zu generieren, die den menschlichen Erwartungen entsprechen. So erstellen Sie Präferenzdaten Schnelle Auswahl Die Eingabeaufforderung ist der Eckpfeiler der Präferenzdaten. Es gibt mehrere Möglichkeiten, Eingabeaufforderungen auszuwählen – einige wählen einen vordefinierten Satz, während andere Vorlagen verwenden, um Eingabeaufforderungen dynamisch zu generieren, oder sich für eine Kombination vordefinierter Eingabeaufforderungen mit zufälligen Eingabeaufforderungen aus der Datenbank entscheiden. Antwortauswahl Der nächste Schritt besteht darin, die Ausgabe als Reaktion auf die Eingabeaufforderung zu bestimmen. Diese Antworten können aus einer gut trainierten Version eines Modells oder verschiedenen Prüfpunkten in der Modellentwicklung generiert werden. Nicht alle generierten Antworten sind gleich, die Reihenfolge der Antworten kann variieren. Im binären Ranking-System wird jede Antwort einfach als „beste“ oder „schlechteste“ kategorisiert, während ein granulares Ranking-System jeder Antwort eine Punktzahl (z. B. 1-5) zuweist, was eine detailliertere und differenziertere Bewertung ermöglicht. Anmerkungsrichtlinien Anmerkungsrichtlinien sind unerlässlich, um sicherzustellen, dass die Ranking-Systeme standardisiert sind, um individuelle Vorurteile und Interpretationen zu minimieren. Vorteile von DPO DPO hat gegenüber RLHF viele Vorteile: Einfachheit und einfache Implementierung Im Gegensatz zum vielschichtigen Prozess von , integriert DPO menschliche Präferenzen direkt in die Trainingsschleife. Dieser Ansatz eliminiert nicht nur die mit dem Prozess verbundene Komplexität, sondern passt sich auch besser an die Standardsysteme der Vorschulung und Feinabstimmung an. Darüber hinaus geht es bei DPO nicht darum, sich mit den Feinheiten der Konstruktion und Anpassung von Belohnungsfunktionen auseinanderzusetzen. RLHF, der das Sammeln detaillierter Rückmeldungen, die Optimierung komplexer Richtlinien und das Training von Belohnungsmodellen umfasst Es ist keine Schulung zum Belohnungsmodell erforderlich DPO macht das Trainieren eines zusätzlichen Belohnungsmodells überflüssig, spart Rechenressourcen und beseitigt die Herausforderungen, die mit der Genauigkeit und Wartung des Belohnungsmodells verbunden sind. Die Entwicklung eines effizienten Belohnungsmodells, das menschliches Feedback in umsetzbare Signale für die KI interpretiert, ist eine komplexe Aufgabe. Es erfordert erheblichen Aufwand und erfordert regelmäßige Aktualisierungen, um die sich entwickelnden menschlichen Vorlieben genau widerzuspiegeln. DPO umgeht diesen Schritt vollständig, indem es Präferenzdaten direkt zur Modellverbesserung nutzt. Überlegene Leistung Laut einer Studie mit dem Titel kann DPO genauso gut oder sogar besser sein als andere Methoden wie RLHF (Reinforcement Learning from Human Feedback) und PPO (Proximal Policy Optimization), um die Leistung großer Sprachmodelle zu verbessern . „Direct Preference Optimization: Your Language Model is“ Insgeheim ein Belohnungsmodell Abschluss Die direkte Leistungsoptimierung ist eine stabile und effiziente Feinabstimmungstechnik, die keine übermäßigen Rechenressourcen erfordert. Im Gegensatz zu RLHF benötigt DPO bei der Feinabstimmung kein komplexes Belohnungsmodell und keine Stichproben aus dem Sprachmodell. Dabei handelt es sich nicht nur um einen neuen Algorithmus, sondern um einen Game Changer in der Feinabstimmung, Vereinfachung und Verbesserung von KI-Modellen beim Aufbau von Sprachmodellen, die menschliche Bedürfnisse besser verstehen und auf sie eingehen.