paint-brush
Simplification de la formation de l'IA : optimisation directe des préférences par rapport au RL traditionnelpar@textmodels

Simplification de la formation de l'IA : optimisation directe des préférences par rapport au RL traditionnel

Trop long; Pour lire

Cette section passe en revue les travaux existants sur le réglage fin des modèles linguistiques, en se concentrant sur des méthodes telles que le réglage des instructions et l'apprentissage par renforcement basé sur les préférences (RL). Alors que les méthodes traditionnelles s'appuient sur des algorithmes RL complexes, cet article présente une nouvelle approche, l'optimisation directe des préférences, qui optimise les modèles linguistiques en utilisant directement les préférences humaines, sans nécessiter d'apprentissage par renforcement ou de modélisation des récompenses. Cela simplifie le processus et améliore l'alignement du modèle avec l'intention humaine dans des tâches telles que la traduction, le résumé et le dialogue.
featured image - Simplification de la formation de l'IA : optimisation directe des préférences par rapport au RL traditionnel
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

Auteurs:

(1) Rafael Rafailo, Université de Stanford et contribution égale ; auteurs plus juniors mentionnés précédemment ;

(2) Archit Sharma, Université de Stanford et contribution égale ; auteurs plus juniors mentionnés précédemment ;

(3) Eric Mitchel, Université de Stanford et contribution égale ; auteurs plus juniors mentionnés précédemment ;

(4) Stefano Ermon, CZ Biohub;

(5) Christopher D. Manning, Université de Stanford;

(6) Chelsea Finn, Université de Stanford.

Table des liens

Résumé et 1. Introduction

2 Travaux connexes

3 préliminaires

4 Optimisation des préférences directes

5 Analyse théorique du DPO

6 expériences

7 Discussion, remerciements et références

Contributions des auteurs


Une dérivation mathématique

A.1 Dérivation de l'optimum de l'objectif de maximisation de la récompense sous contrainte KL

A.2 Détermination de l'objectif du DPO selon le modèle Bradley-Terry

A.3 Dérivation de l'objectif du DPO selon le modèle Plackett-Luce

A.4 Dérivation du gradient de l'objectif DPO et A.5 Preuve des lemmes 1 et 2

A.6 Preuve du théorème 1


Détails de mise en œuvre et hyperparamètres de B DPO


C Plus de détails sur le dispositif expérimental et C.1 Expérience sur le sentiment IMDb et détails de base

C.2 Invites GPT-4 pour calculer les taux de synthèse et de gain de dialogue

C.3 Référence d'improbabilité


D Résultats empiriques supplémentaires

D.1 Performances de la meilleure base de référence N pour divers échantillons N et D.2 Réponses des échantillons et jugements GPT-4

D.3 Détails de l’étude humaine

2 Travaux connexes

Les modèles de langage auto-supervisés d'échelle croissante apprennent à accomplir certaines tâches sans intervention [31] ou avec des invites à intervention peu fréquente [6, 25, 11]. Cependant, leurs performances sur les tâches en aval et leur alignement avec l'intention de l'utilisateur peuvent être considérablement améliorés par un réglage fin sur des ensembles de données d'instructions et de complétions écrites par l'homme [23, 36, 13, 39]. Cette procédure de « réglage des instructions » permet aux LLM de généraliser à des instructions en dehors de l'ensemble de réglage des instructions et d'augmenter généralement leur utilisabilité [13]. Malgré le succès du réglage des instructions, les jugements humains relatifs de la qualité des réponses sont souvent plus faciles à recueillir que les démonstrations d'experts, et ainsi les travaux ultérieurs ont affiné les LLM avec des ensembles de données de préférences humaines, améliorant ainsi la maîtrise de la traduction [18], du résumé [38, 49], de la narration [49] et du suivi des instructions [26, 32]. Ces méthodes optimisent d'abord une fonction de récompense d'un réseau neuronal pour la compatibilité avec l'ensemble de données de préférences sous un modèle de préférence tel que le modèle Bradley-Terry [5], puis affinent un modèle de langage pour maximiser la récompense donnée en utilisant des algorithmes d'apprentissage par renforcement, généralement REINFORCE [45], l'optimisation de la politique proximale (PPO ; [37]), ou des variantes [32]. Un domaine de travail étroitement lié exploite les LLM affinés pour le suivi des instructions avec un retour d'information humain pour générer des données de préférence synthétiques supplémentaires pour des attributs ciblés tels que la sécurité ou l'innocuité [2], en utilisant uniquement une faible supervision humaine sous la forme d'une rubrique de texte pour les annotations du LLM. Ces méthodes représentent une convergence de deux corpus de travail : un corpus de travail sur la formation de modèles de langage avec l'apprentissage par renforcement pour une variété d'objectifs [33, 27, 46] et un autre corpus de travail sur les méthodes générales d'apprentissage à partir des préférences humaines [12, 19]. Malgré l'attrait de l'utilisation des préférences humaines relatives, le réglage fin de grands modèles de langage avec l'apprentissage par renforcement reste un défi pratique majeur ; ce travail fournit une approche théoriquement justifiée pour optimiser les préférences relatives sans RL.


En dehors du contexte du langage, les politiques d'apprentissage à partir des préférences ont été étudiées dans des contextes d'apprentissage par bandit et par renforcement, et plusieurs approches ont été proposées. L'apprentissage par bandit contextuel utilisant des préférences ou des classements d'actions, plutôt que des récompenses, est connu sous le nom de bandit de duel contextuel (CDB ; [48, 14]). En l'absence de récompenses absolues, l'analyse théorique des CDB remplace la notion de politique optimale par un gagnant de von Neumann, une politique dont le taux de victoire attendu contre toute autre politique est d'au moins 50 % [14]. Cependant, dans le cadre du CDB, les étiquettes de préférence sont données en ligne, tandis que dans l'apprentissage à partir des préférences humaines, nous apprenons généralement à partir d'un lot fixe de paires d'actions annotées par des préférences hors ligne [47]. De même, l'apprentissage par renforcement basé sur les préférences (PbRL) apprend à partir de préférences binaires générées par une fonction de « notation » inconnue plutôt que de récompenses [9, 35]. Il existe plusieurs algorithmes pour PbRL, notamment des méthodes qui peuvent réutiliser des données de préférences hors politique, mais qui impliquent généralement d'abord l'estimation explicite de la fonction de notation latente (c'est-à-dire le modèle de récompense) et son optimisation ultérieure [16, 9, 12, 34, 19]. Nous présentons plutôt une approche d'apprentissage de politique en une seule étape qui optimise directement une politique pour satisfaire les préférences.


Cet article est disponible sur arxiv sous licence CC BY-NC-ND 4.0 DEED.