Auteurs:  (1) Rafael Rafailo, Université de Stanford et contribution égale ; auteurs plus juniors mentionnés précédemment ;  (2) Archit Sharma, Université de Stanford et contribution égale ; auteurs plus juniors mentionnés précédemment ;  (3) Eric Mitchel, Université de Stanford et contribution égale ; auteurs plus juniors mentionnés précédemment ;  (4) Stefano Ermon, CZ Biohub;  (5) Christopher D. Manning, Université de Stanford;  (6) Chelsea Finn, Université de Stanford.  Table des liens   Résumé et 1. Introduction   2 Travaux connexes   3 préliminaires   4 Optimisation des préférences directes   5 Analyse théorique du DPO   6 expériences   7 Discussion, remerciements et références   Contributions des auteurs  Une dérivation mathématique   A.1 Dérivation de l'optimum de l'objectif de maximisation de la récompense sous contrainte KL   A.2 Détermination de l'objectif du DPO selon le modèle Bradley-Terry   A.3 Dérivation de l'objectif du DPO selon le modèle Plackett-Luce   A.4 Dérivation du gradient de l'objectif DPO et A.5 Preuve des lemmes 1 et 2   A.6 Preuve du théorème 1   Détails de mise en œuvre et hyperparamètres de B DPO   C Plus de détails sur le dispositif expérimental et C.1 Expérience sur le sentiment IMDb et détails de base   C.2 Invites GPT-4 pour calculer les taux de synthèse et de gain de dialogue   C.3 Référence d'improbabilité  D Résultats empiriques supplémentaires   D.1 Performances de la meilleure base de référence N pour divers échantillons N et D.2 Réponses des échantillons et jugements GPT-4   D.3 Détails de l’étude humaine  Abstrait  Alors que les modèles de langage non supervisés à grande échelle (LM) acquièrent une connaissance générale du monde et certaines compétences de raisonnement, il est difficile d'obtenir un contrôle précis de leur comportement en raison de la nature totalement non supervisée de leur formation. Les méthodes existantes pour obtenir une telle maniabilité collectent des étiquettes humaines sur la qualité relative des générations de modèles et affinent le LM non supervisé pour l'aligner sur ces préférences, souvent avec l'apprentissage par renforcement à partir du retour d'information humain (RLHF). Cependant, le RLHF est une procédure complexe et souvent instable, qui consiste d'abord à adapter un modèle de récompense qui reflète les préférences humaines, puis à affiner le grand LM non supervisé à l'aide de l'apprentissage par renforcement pour maximiser cette récompense estimée sans trop s'éloigner du modèle d'origine. Dans cet article, nous introduisons une nouvelle paramétrisation du modèle de récompense dans le RLHF qui permet d'extraire la politique optimale correspondante sous forme fermée, ce qui nous permet de résoudre le problème RLHF standard avec seulement une simple perte de classification. L'algorithme résultant, que nous appelons Optimisation directe des préférences (DPO), est stable, performant et léger en termes de calcul, éliminant le besoin d'échantillonnage à partir du LM lors du réglage fin ou de l'exécution d'un réglage important des hyperparamètres. Nos expériences montrent que DPO peut affiner les LM pour les aligner sur les préférences humaines aussi bien, voire mieux que les méthodes existantes. Notamment, le réglage fin avec DPO dépasse le RLHF basé sur PPO en termes de capacité à contrôler le sentiment des générations, et correspond ou améliore la qualité de la réponse dans le résumé et le dialogue à tour unique tout en étant sensiblement plus simple à mettre en œuvre et à former.  1 Introduction  Les grands modèles de langage non supervisés (LM) formés sur de très grands ensembles de données acquièrent des capacités surprenantes [11, 7, 40, 8]. Cependant, ces modèles sont formés sur des données générées par des humains ayant une grande variété d'objectifs, de priorités et de compétences. Certains de ces objectifs et compétences peuvent ne pas être souhaitables à imiter ; par exemple, alors que nous pouvons vouloir que notre assistant de codage IA comprenne les erreurs de programmation courantes afin de les corriger, néanmoins, lors de la génération de code, nous aimerions biaiser notre modèle vers la capacité de codage de haute qualité (potentiellement rare) présente dans ses données de formation. De même, nous pouvons vouloir que notre modèle de langage soit conscient d'une idée fausse courante à laquelle 50 % des personnes croient, mais nous ne voulons certainement pas que le modèle prétende que cette idée fausse est vraie dans 50 % des requêtes à son sujet ! En d'autres termes, sélectionner les réponses et le comportement souhaités du modèle à partir de ses connaissances et capacités très étendues est essentiel pour construire des systèmes d'IA sûrs, performants et contrôlables [26]. Alors que les méthodes existantes orientent généralement les LM vers les préférences humaines en utilisant l’apprentissage par renforcement (RL),   nous montrerons que l'objectif basé sur RL utilisé par les méthodes existantes peut être optimisé exactement avec un simple objectif d'entropie croisée binaire, simplifiant considérablement le pipeline d'apprentissage des préférences.  À un niveau élevé, les méthodes existantes inculquent les comportements souhaités dans un modèle de langage en utilisant des ensembles organisés de préférences humaines représentant les types de comportements que les humains trouvent sûrs et utiles. Cette étape d'apprentissage des préférences se produit après une étape initiale de pré-entraînement non supervisé à grande échelle sur un grand ensemble de données textuelles. Alors que l'approche la plus simple de l'apprentissage des préférences est le réglage fin supervisé sur des démonstrations humaines de réponses de haute qualité, la classe de méthodes la plus réussie est l'apprentissage par renforcement à partir de commentaires humains (ou IA) (RLHF/RLAIF ; [12, 2]). Les méthodes RLHF ajustent un modèle de récompense à un ensemble de données de préférences humaines, puis utilisent RLHF pour optimiser une politique de modèle de langage afin de produire des réponses attribuées à une récompense élevée sans s'éloigner excessivement du modèle d'origine. Alors que RLHF produit des modèles avec des capacités de conversation et de codage impressionnantes, le pipeline RLHF est considérablement plus complexe que l'apprentissage supervisé, impliquant la formation de plusieurs LM et l'échantillonnage de la politique LM dans la boucle de formation, ce qui entraîne des coûts de calcul importants.  Dans cet article, nous montrons comment optimiser directement un modèle de langage pour qu'il adhère aux préférences humaines, sans modélisation explicite de récompense ou apprentissage par renforcement. Nous proposons l'optimisation directe des préférences (DPO), un algorithme qui optimise implicitement le même objectif que les algorithmes RLHF existants (maximisation de la récompense avec une contrainte de divergence KL) mais qui est simple à mettre en œuvre et simple à entraîner. Intuitivement, la mise à jour DPO augmente la probabilité relative du logarithme des réponses préférées par rapport aux réponses défavorisées, mais elle intègre une pondération d'importance dynamique par exemple qui empêche la dégénérescence du modèle que nous constatons avec un objectif de rapport de probabilité naïf. Comme les algorithmes existants, DPO s'appuie sur un modèle de préférence théorique (tel que le modèle Bradley-Terry ; [5]) qui mesure dans quelle mesure une fonction de récompense donnée s'aligne sur les données de préférence empiriques. Cependant, alors que les méthodes existantes utilisent le modèle de préférence pour définir une perte de préférence afin d'entraîner un modèle de récompense, puis une politique qui optimise le modèle de récompense appris, DPO utilise un changement de variables pour définir la perte de préférence en fonction de la politique directement. Étant donné un ensemble de données de préférences humaines sur les réponses du modèle, DPO peut donc optimiser une politique à l'aide d'un simple objectif d'entropie croisée binaire, produisant la politique optimale pour une fonction de récompense implicite adaptée aux données de préférence.  Notre principale contribution est l'optimisation directe des préférences (DPO), un algorithme simple sans RL pour l'apprentissage des modèles linguistiques à partir des préférences. Nos expériences montrent que DPO est au moins aussi efficace que les méthodes existantes, y compris RLHF basé sur PPO, pour l'apprentissage à partir des préférences dans des tâches telles que la modulation des sentiments, le résumé et le dialogue, en utilisant des modèles linguistiques avec jusqu'à 6B paramètres.  Cet article est   sous licence CC BY-NC-ND 4.0 DEED. disponible sur arxiv

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

AI Models on HackerNoon

Cet audio est produit dans la langue originale de l'histoire !

Optimisation des préférences directes : votre modèle linguistique est secrètement un modèle de récompense

About Author

COMMENTAIRES

ÉTIQUETTES

CET ARTICLE A ÉTÉ PARU DANS

Related Stories

Le modèle Bitcoin UTXO, alimentant un écosystème unique

Vous voulez gagner un concours d’écriture HackerNoon ? Voici ce que recommandent les gagnants du concours #crypto-api

Télégramme : le pont de Crypto Island vers le continent

Créer des produits cryptographiques centrés sur l'utilisateur : l'importance des retours clients

Le modèle Bitcoin UTXO, alimentant un écosystème unique

Vous voulez gagner un concours d’écriture HackerNoon ? Voici ce que recommandent les gagnants du concours #crypto-api

Télégramme : le pont de Crypto Island vers le continent

Créer des produits cryptographiques centrés sur l'utilisateur : l'importance des retours clients

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps