L'optimisation directe des préférences (DPO) est une nouvelle technique de réglage fin qui est devenue populaire en raison de sa simplicité et de sa facilité de mise en œuvre. Il est apparu comme une alternative directe à (RLHF) pour le réglage fin du grand modèle de langage (LLM) afin de s'aligner sur les préférences humaines en raison de sa stabilité, de ses performances et de sa nature légère de calcul, éliminant ainsi le besoin d'échantillonnage à partir du LM pendant le réglage fin. Le DPO peut atteindre des niveaux de performance aussi bons, voire meilleurs, que les méthodes existantes. l'apprentissage par renforcement à partir de la rétroaction humaine Contrairement aux méthodes existantes qui impliquent l'exploitation du RLHF, DPO recadre le processus d'alignement du langage comme une simple fonction de perte qui peut être directement optimisée à l'aide d'un ensemble de données de préférences {(x, yw, yl)}, où : • x est une invite • yw est une méthode privilégiée • yl est une méthode rejetée Contrairement au RLHF qui nécessite que les réponses soient échantillonnées à partir d'un modèle de langage pendant le processus d'optimisation, dans DPO, les réponses n'ont pas besoin d'être échantillonnées à partir du LM en cours d'optimisation. Comment fonctionne le DPO ? Le processus de travail du DPO peut être divisé en deux étapes. dans cette étape, le modèle est affiné sur les données pertinentes. Ajustement fin supervisé (SFT) : le modèle est affiné sur des données de préférences provenant idéalement de la même distribution que les exemples SFT. Apprentissage des préférences : Contrairement au RLHF, dans lequel un modèle de récompense est d'abord formé pour l'optimisation des politiques, DPO ajoute directement des informations sur les préférences dans le processus d'optimisation sans l'étape intermédiaire de formation d'un modèle de récompense. DPO utilise LLM comme modèle de récompense et emploie un objectif d'entropie croisée binaire pour optimiser la politique, en exploitant les données de préférences humaines pour identifier quelles réponses sont préférées et lesquelles ne le sont pas. La politique est ajustée en fonction des réponses privilégiées pour améliorer ses performances. Mise au point supervisée Nous vous aidons à développer des applications d'IA générative pour les LLM afin qu'elles soient polyvalentes et adaptatives à des cas d'utilisation spécifiques. Cela implique de fournir des données ou des exemples au modèle pour apprendre et s'adapter, c'est pourquoi nous proposons des solutions d'ingénierie rapides pour la conception, les tests, le déploiement et la livraison des invites. Cogito. Dans le cadre du réglage fin supervisé (SFT), qui fournissent une cartographie claire entre les entrées spécifiques et les sorties souhaitées. Un réglage fin supervisé, en particulier avec l'apprentissage des préférences, est utilisé pour façonner ou ajuster les résultats du modèle afin qu'ils correspondent aux critères définis par les humains, garantissant qu'ils s'alignent étroitement sur les exigences spécifiques. LLM est formé sur des ensembles de données étiquetés Données de préférence en PNL Les données de préférence font référence à un ensemble d'options ou d'alternatives soigneusement choisies concernant une invite spécifique. Les annotateurs évaluent ces options conformément à certaines directives. Le processus global vise à classer ces options de la plus préférée à la moins préférée en fonction des préférences humaines. Le classement est ensuite utilisé pour affiner les modèles afin de générer des résultats conformes aux attentes humaines. Comment créer des données de préférence Sélection rapide L'invite est la pierre angulaire des données de préférence. Il existe plusieurs façons de sélectionner des invites : certaines choisissent un ensemble prédéfini, tandis que d'autres utilisent des modèles pour générer des invites de manière dynamique ou optent pour une combinaison d'invites prédéfinies avec des invites aléatoires extraites de la base de données. Sélection de la réponse L'étape suivante consiste à déterminer le résultat en réponse à l'invite. Ces réponses peuvent être générées à partir d'une version bien entraînée d'un modèle ou de divers points de contrôle dans le développement du modèle. Toutes les réponses générées ne sont pas identiques, le classement des réponses peut varier. Dans le système de classement binaire, chaque réponse est simplement classée comme « meilleure » ou « pire », tandis qu'un système de classement granulaire attribue un score (par exemple, 1 à 5) à chaque réponse, permettant une évaluation plus détaillée et nuancée. Directives d'annotation Les directives d'annotation sont essentielles pour garantir que les systèmes de classement sont standardisés afin de minimiser les préjugés et les interprétations individuels. Avantages du DPO Le DPO présente de nombreux avantages par rapport au RLHF comme suit : Simplicité et facilité de mise en œuvre Contrairement au processus à plusieurs niveaux du la collecte de commentaires détaillés, l'optimisation de politiques complexes et la formation de modèles de récompense, DPO intègre directement les préférences humaines dans la boucle de formation. Cette approche élimine non seulement la complexité associée au processus, mais s'aligne également mieux sur les systèmes standard de pré-formation et de réglage fin. De plus, DPO n’implique pas de naviguer dans les subtilités de la construction et de l’ajustement des fonctions de récompense. RLHF qui implique Pas besoin de formation sur le modèle de récompense DPO élimine le besoin de former un modèle de récompense supplémentaire, économisant ainsi les ressources informatiques et supprimant les défis associés à la précision et à la maintenance du modèle de récompense. Développer un modèle de récompense efficace qui interprète les commentaires humains en signaux exploitables pour l’IA est une tâche complexe. Cela nécessite des efforts considérables et des mises à jour régulières pour refléter avec précision l’évolution des préférences humaines. DPO contourne entièrement cette étape en exploitant directement les données de préférences pour améliorer le modèle. Une performance supérieure Le DPO peut être aussi efficace, voire meilleur, que d'autres méthodes, comme le RLHF (Reinforcement Learning from Human Feedback) et le PPO (Proximal Policy Optimization), pour améliorer les performances des grands modèles de langage, selon une recherche intitulée . Direct Preference Optimization : Your Language Model is Secrètement un modèle de récompense Conclusion L'optimisation directe des performances est une technique de réglage fin stable et efficace qui ne nécessite pas de ressources de calcul excessives. Contrairement à RLHF, DPO n'a pas besoin d'un modèle de récompense complexe ni d'un échantillonnage du modèle de langage lors du réglage fin. Il ne s’agit pas seulement d’un nouvel algorithme, mais d’un changement de jeu dans l’affinage, la simplification et l’amélioration du modèle d’IA du processus de création de modèles de langage qui comprennent mieux et répondent aux besoins humains.