paint-brush
Le plafond d’alignement : inadéquation des objectifs dans l’apprentissage par renforcement à partir de la rétroaction humainepar@feedbackloop
369 lectures
369 lectures

Le plafond d’alignement : inadéquation des objectifs dans l’apprentissage par renforcement à partir de la rétroaction humaine

Trop long; Pour lire

Découvrez les défis liés à l'inadéquation des objectifs dans RLHF pour les grands modèles de langage, affectant l'alignement entre les modèles de récompense et les performances en aval. Cet article explore les origines, les manifestations et les solutions potentielles pour résoudre ce problème, en reliant les connaissances de la littérature PNL et RL. Obtenez des informations sur la promotion de meilleures pratiques RLHF pour des modèles linguistiques plus efficaces et adaptés aux utilisateurs.
featured image - Le plafond d’alignement : inadéquation des objectifs dans l’apprentissage par renforcement à partir de la rétroaction humaine
The FeedbackLoop: #1 in PM Education HackerNoon profile picture

Auteurs:

(1) Nathan Lambert, Institut Allen pour l'IA ;

(2) Roberto Calandra, TU Dresde.

Tableau des liens

Résumé et introduction

Travaux connexes

Arrière-plan

Comprendre l'inadéquation des objectifs

Discussions

Conclusion

Remerciements et références

ABSTRAIT

L'apprentissage par renforcement à partir de la rétroaction humaine (RLHF) est apparu comme une technique puissante pour rendre les grands modèles de langage (LLM) plus faciles à utiliser et plus performants dans des contextes complexes. RLHF fournit essentiellement une nouvelle boîte à outils pour optimiser les LLM autres que la prédiction du prochain jeton, permettant l'intégration d'objectifs de formation qualitatifs. La tentative de correspondance entre les préférences de l'utilisateur et les performances en aval, qui se produit dans un modèle de récompense appris, aboutit à un paysage d'optimisation dans lequel les mesures de formation et d'évaluation peuvent apparaître corrélées. La corrélation apparente peut conduire à des comportements inattendus et à des histoires de « trop de RLHF ». Dans RLHF, des défis apparaissent parce que les sous-modules suivants ne sont pas cohérents les uns avec les autres : la formation sur le modèle de récompense, la formation sur le modèle de politique et l'évaluation du modèle de politique. Cette inadéquation se traduit par des modèles qui évitent parfois les demandes des utilisateurs grâce à de faux signaux de sécurité, sont difficiles à orienter vers une caractéristique souhaitée ou répondent toujours dans un style spécifique. À mesure que l’évaluation du modèle de chat devient de plus en plus nuancée, le recours à un lien perçu entre le score du modèle de récompense et les performances en aval est à l’origine du problème d’inadéquation objective. Dans cet article, nous illustrons la cause de ce problème, en passant en revue la littérature pertinente sur l'apprentissage par renforcement basé sur un modèle, et discutons des solutions pertinentes pour encourager des recherches plus approfondies. En résolvant l'inadéquation des objectifs dans RLHF, les LLM du futur seront plus précisément alignés sur les instructions d'utilisation pour la sécurité et l'utilité.

1. Introduction

L'apprentissage par renforcement à partir de la rétroaction humaine (RLHF) est un outil puissant pour intégrer des styles et des valeurs qualitatifs dans de grands modèles d'apprentissage automatique (Bai et al., 2022 ; Christiano et al., 2017 ; Ouyang et al., 2022). Le RLHF a été popularisé grâce à son utilisation pour intégrer les valeurs humaines dans les grands modèles linguistiques (LLM) pour aligner les outils de chat (Schulman, Zoph, Kim et plus, 2022). Ce faisant, le RLHF est devenu une technique importante dans le processus de création de modèles capables de mieux répondre aux demandes des utilisateurs, souvent appelés instructions optimisées, orientabilité, modèles de discussion, etc. Les méthodes RLHF fonctionnent généralement en deux étapes suivant le formation d'un modèle de langage de base, ils apprennent d'abord un modèle de préférences humaines qui agit comme une fonction de récompense, et ensuite ils utilisent ce modèle dans une boucle d'optimisation d'apprentissage par renforcement (RL). Dans le processus RLHF, ces deux étapes sont souvent exécutées indépendamment, avec un modèle de récompense précis formé sur les données de préférences humaines, puis l'optimiseur RL est utilisé pour extraire un maximum d'informations dans le modèle de discussion. Un défi commun aux LLM modernes formés avec RLHF réside dans les difficultés à extraire les comportements prévus du modèle. Parfois, les modèles refusent des demandes bénignes pour des raisons de sécurité et d'autres fois, ils nécessitent un réglage rapide et intelligent pour extraire toutes les performances.


Dans cet article, nous détaillons un défi fondamental dans les programmes d'apprentissage RLHF modernes : le problème de l'inadéquation objective. Dans RLHF, trois parties importantes de la formation sont numériquement découplées : la conception de métriques d'évaluation, la formation d'un modèle de récompense et la formation du modèle générateur. Cette inadéquation entre le modèle de récompense et la formation RL est visualisée sur la figure 1, mais d'autres liens existent entre les objectifs de l'évaluation et la simulation des valeurs humaines. Plus précisément, il existe de nombreuses voies pour mieux aligner la formation sur les modèles de récompense avec la littérature sur la quantification des préférences (Lambert, Gilbert et Zick, 2023) et les défis fondamentaux d'optimisation doivent être résolus dans les pratiques RLHF (Casper et al., 2023). ChatGPT, le modèle le plus populaire formé avec RLHF, montre cette limitation à travers des problèmes tels que la verbosité, le doute de soi et les refus de questions, les phrases répétées, la couverture, etc. (Schulman, 2023). Ces caractéristiques de suroptimisation sont le résultat du subtil problème d'objectif proxy que l'inadéquation des objectifs fournit un cadre pour étudier et résoudre - le modèle de récompense attribue une valeur excessive aux phrases qui ne contribuent pas au bénéfice de l'utilisateur, que l'optimiseur RL exploite, comme les indicateurs de sécurité. D'un autre côté, les dispositifs de formation actuels ne sont pas entièrement alignés sur les outils d'évaluation car les modèles RLHF nécessitent encore des techniques d'incitation sophistiquées telles que « penser étape par étape » (J. Wei et al., 2022) ou « respirer profondément. » (Yang et al., 2023) pour atteindre des performances maximales. Résoudre l'inadéquation des objectifs supprimera le besoin de ces techniques avancées et réduira la probabilité de refus hors du champ d'application d'un LLM.


Figure 1 : Une illustration de l'endroit où le problème d'inadéquation des objectifs apparaît dans la phase d'optimisation RL du RLHF. L'amismatch se produit lorsque le score du modèle de récompense est supposé être corrélé à d'autres évaluations en aval.


L'expression inadéquation d'objectifs provient de l'apprentissage par renforcement basé sur un modèle (MBRL), dans lequel un agent apprend de manière itérative un modèle dynamique qu'il utilise ensuite pour résoudre une tâche de contrôle (Lambert, Amos, Yadan et Calandra, 2020 ; R. Wei, Lambert, McDonald, Garcia et Calandra, 2023). Dans ce contexte, le décalage se situe entre l’apprentissage d’un modèle dynamique précis plutôt que celui optimisé pour une récompense de tâche élevée. Dans RLHF, le problème est lié, mais avec une complexité supplémentaire, car le modèle de récompense est optimisé pour les données de préférence par rapport à une distribution fermée, qui ne correspond pas aux utilisateurs finaux. Deuxièmement, la tâche de génération d’un langage ouvert est moins spécifique à une notion de récompense que celle des politiques de contrôle RL. Pour ces raisons, comme nous l’expliquons dans cet article, la question de l’inadéquation des objectifs est plus nuancée et plus critique pour le RLHF.


Dans cette prise de position, nous apportons trois contributions :


• Expliquer clairement les origines et les manifestations potentielles de l'inadéquation des objectifs dans les LLM optimisés par chat,


• Connecter les travaux connexes de la littérature PNL et RL autour de l'inadéquation des objectifs,


• Proposer des orientations d'étude pour résoudre l'inadéquation et favoriser de meilleures pratiques RLHF.


Cet article est disponible sur arxiv sous licence CC 4.0.