Auteurs:  (1) Nathan Lambert, Institut Allen pour l'IA ;  (2) Roberto Calandra, TU Dresde.  Tableau des liens   Résumé et introduction   Travaux connexes   Arrière-plan   Comprendre l'inadéquation des objectifs   Discussions   Conclusion   Remerciements et références  ABSTRAIT  L'apprentissage par renforcement à partir de la rétroaction humaine (RLHF) est apparu comme une technique puissante pour rendre les grands modèles de langage (LLM) plus faciles à utiliser et plus performants dans des contextes complexes. RLHF fournit essentiellement une nouvelle boîte à outils pour optimiser les LLM autres que la prédiction du prochain jeton, permettant l'intégration d'objectifs de formation qualitatifs. La tentative de correspondance entre les préférences de l'utilisateur et les performances en aval, qui se produit dans un modèle de récompense appris, aboutit à un paysage d'optimisation dans lequel les mesures de formation et d'évaluation peuvent apparaître corrélées. La corrélation apparente peut conduire à des comportements inattendus et à des histoires de « trop de RLHF ». Dans RLHF, des défis apparaissent parce que les sous-modules suivants ne sont pas cohérents les uns avec les autres : la formation sur le modèle de récompense, la formation sur le modèle de politique et l'évaluation du modèle de politique. Cette inadéquation se traduit par des modèles qui évitent parfois les demandes des utilisateurs grâce à de faux signaux de sécurité, sont difficiles à orienter vers une caractéristique souhaitée ou répondent toujours dans un style spécifique. À mesure que l’évaluation du modèle de chat devient de plus en plus nuancée, le recours à un lien perçu entre le score du modèle de récompense et les performances en aval est à l’origine du problème d’inadéquation objective. Dans cet article, nous illustrons la cause de ce problème, en passant en revue la littérature pertinente sur l'apprentissage par renforcement basé sur un modèle, et discutons des solutions pertinentes pour encourager des recherches plus approfondies. En résolvant l'inadéquation des objectifs dans RLHF, les LLM du futur seront plus précisément alignés sur les instructions d'utilisation pour la sécurité et l'utilité.  1. Introduction  L'apprentissage par renforcement à partir de la rétroaction humaine (RLHF) est un outil puissant pour intégrer des styles et des valeurs qualitatifs dans de grands modèles d'apprentissage automatique (Bai et al., 2022 ; Christiano et al., 2017 ; Ouyang et al., 2022). Le RLHF a été popularisé grâce à son utilisation pour intégrer les valeurs humaines dans les grands modèles linguistiques (LLM) pour aligner les outils de chat (Schulman, Zoph, Kim et plus, 2022). Ce faisant, le RLHF est devenu une technique importante dans le processus de création de modèles capables de mieux répondre aux demandes des utilisateurs, souvent appelés instructions optimisées, orientabilité, modèles de discussion, etc. Les méthodes RLHF fonctionnent généralement en deux étapes suivant le formation d'un modèle de langage de base, ils apprennent d'abord un modèle de préférences humaines qui agit comme une fonction de récompense, et ensuite ils utilisent ce modèle dans une boucle d'optimisation d'apprentissage par renforcement (RL). Dans le processus RLHF, ces deux étapes sont souvent exécutées indépendamment, avec un modèle de récompense précis formé sur les données de préférences humaines, puis l'optimiseur RL est utilisé pour extraire un maximum d'informations dans le modèle de discussion. Un défi commun aux LLM modernes formés avec RLHF réside dans les difficultés à extraire les comportements prévus du modèle. Parfois, les modèles refusent des demandes bénignes pour des raisons de sécurité et d'autres fois, ils nécessitent un réglage rapide et intelligent pour extraire toutes les performances.  Dans cet article, nous détaillons un défi fondamental dans les programmes d'apprentissage RLHF modernes : le problème de l'inadéquation objective. Dans RLHF, trois parties importantes de la formation sont numériquement découplées : la conception de métriques d'évaluation, la formation d'un modèle de récompense et la formation du modèle générateur. Cette inadéquation entre le modèle de récompense et la formation RL est visualisée sur la figure 1, mais d'autres liens existent entre les objectifs de l'évaluation et la simulation des valeurs humaines. Plus précisément, il existe de nombreuses voies pour mieux aligner la formation sur les modèles de récompense avec la littérature sur la quantification des préférences (Lambert, Gilbert et Zick, 2023) et les défis fondamentaux d'optimisation doivent être résolus dans les pratiques RLHF (Casper et al., 2023). ChatGPT, le modèle le plus populaire formé avec RLHF, montre cette limitation à travers des problèmes tels que la verbosité, le doute de soi et les refus de questions, les phrases répétées, la couverture, etc. (Schulman, 2023). Ces caractéristiques de suroptimisation sont le résultat du subtil problème d'objectif proxy que l'inadéquation des objectifs fournit un cadre pour étudier et résoudre - le modèle de récompense attribue une valeur excessive aux phrases qui ne contribuent pas au bénéfice de l'utilisateur, que l'optimiseur RL exploite, comme les indicateurs de sécurité. D'un autre côté, les dispositifs de formation actuels ne sont pas entièrement alignés sur les outils d'évaluation car les modèles RLHF nécessitent encore des techniques d'incitation sophistiquées telles que « penser étape par étape » (J. Wei et al., 2022) ou « respirer profondément. » (Yang et al., 2023) pour atteindre des performances maximales. Résoudre l'inadéquation des objectifs supprimera le besoin de ces techniques avancées et réduira la probabilité de refus hors du champ d'application d'un LLM.   L'expression inadéquation d'objectifs provient de l'apprentissage par renforcement basé sur un modèle (MBRL), dans lequel un agent apprend de manière itérative un modèle dynamique qu'il utilise ensuite pour résoudre une tâche de contrôle (Lambert, Amos, Yadan et Calandra, 2020 ; R. Wei, Lambert, McDonald, Garcia et Calandra, 2023). Dans ce contexte, le décalage se situe entre l’apprentissage d’un modèle dynamique précis plutôt que celui optimisé pour une récompense de tâche élevée. Dans RLHF, le problème est lié, mais avec une complexité supplémentaire, car le modèle de récompense est optimisé pour les données de préférence par rapport à une distribution fermée, qui ne correspond pas aux utilisateurs finaux. Deuxièmement, la tâche de génération d’un langage ouvert est moins spécifique à une notion de récompense que celle des politiques de contrôle RL. Pour ces raisons, comme nous l’expliquons dans cet article, la question de l’inadéquation des objectifs est plus nuancée et plus critique pour le RLHF.  Dans cette prise de position, nous apportons trois contributions :  • Expliquer clairement les origines et les manifestations potentielles de l'inadéquation des objectifs dans les LLM optimisés par chat,  • Connecter les travaux connexes de la littérature PNL et RL autour de l'inadéquation des objectifs,  • Proposer des orientations d'étude pour résoudre l'inadéquation et favoriser de meilleures pratiques RLHF.  Cet article est   sous licence CC 4.0. disponible sur arxiv

FeedbackLoop.TECH

Read My Stories

The FeedbackLoop offers premium product management education, research papers, and certifications. Start building today!

FeedbackLoop

Cet audio est produit dans la langue originale de l'histoire !

Le plafond d’alignement : inadéquation des objectifs dans l’apprentissage par renforcement à partir de la rétroaction humaine

About Author

COMMENTAIRES

ÉTIQUETTES

CET ARTICLE A ÉTÉ PARU DANS

Related Stories

Naviguer sur les eaux : développer des applications RAG de qualité production avec des lacs de données

HackerNoon Decoded: The Top 10 Countries Where HackerNoon Is the Most Active

Le guide complet pour réussir une migration vers le cloud : stratégies et bonnes pratiques

Croissance des crypto-monnaies : créer des profils d'utilisateurs efficaces

Naviguer sur les eaux : développer des applications RAG de qualité production avec des lacs de données

HackerNoon Decoded: The Top 10 Countries Where HackerNoon Is the Most Active

Le guide complet pour réussir une migration vers le cloud : stratégies et bonnes pratiques

Croissance des crypto-monnaies : créer des profils d'utilisateurs efficaces

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps