Autores:  (1) Rafael Rafailo, Universidade de Stanford e contribuição igual; mais autores juniores listados anteriormente;  (2) Archit Sharma, Universidade de Stanford e contribuição igual; autores mais juniores listados anteriormente;  (3) Eric Mitchel, Universidade de Stanford e contribuição igual; mais autores juniores listados anteriormente;  (4) Stefano Ermon, CZ Biohub;  (5) Christopher D. Manning, Universidade de Stanford;  (6) Chelsea Finn, Universidade de Stanford.  Tabela de Links   Resumo e 1. Introdução   2 Trabalhos relacionados   3 Preliminares   4 Otimização de Preferência Direta   5 Análise teórica do DPO   6 Experimentos   7 Discussão, Agradecimentos e Referências   Contribuições do autor  Derivações Matemáticas   A.1 Derivando o Ótimo do Objetivo de Maximização da Recompensa Restrita de KL   A.2 Derivando o objetivo do DPO sob o modelo Bradley-Terry   A.3 Derivando o Objetivo do DPO sob o Modelo Plackett-Luce   A.4 Derivando o Gradiente do Objetivo DPO e A.5 Prova do Lema 1 e 2   A.6 Prova do Teorema 1   Detalhes de implementação e hiperparâmetros do B DPO   C Mais detalhes sobre a configuração experimental e C.1 IMDb Sentiment Experiment e detalhes da linha de base   C.2 GPT-4 solicita para calcular taxas de vitória de resumo e diálogo   C.3 Linha de base de improbabilidade  D Resultados empíricos adicionais   D.1 Desempenho da melhor linha de base de N para várias respostas de amostra de N e D.2 e julgamentos do GPT-4   D.3 Detalhes do estudo humano  Resumo  Enquanto modelos de linguagem não supervisionados (LMs) em larga escala aprendem amplo conhecimento do mundo e algumas habilidades de raciocínio, alcançar controle preciso de seu comportamento é difícil devido à natureza completamente não supervisionada de seu treinamento. Os métodos existentes para obter tal dirigibilidade coletam rótulos humanos da qualidade relativa das gerações de modelos e ajustam o LM não supervisionado para se alinhar a essas preferências, geralmente com aprendizado por reforço do feedback humano (RLHF). No entanto, o RLHF é um procedimento complexo e frequentemente instável, primeiro ajustando um modelo de recompensa que reflete as preferências humanas e, em seguida, ajustando o grande LM não supervisionado usando aprendizado por reforço para maximizar essa recompensa estimada sem se afastar muito do modelo original. Neste artigo, apresentamos uma nova parametrização do modelo de recompensa em RLHF que permite a extração da política ótima correspondente em forma fechada, permitindo-nos resolver o problema RLHF padrão com apenas uma perda de classificação simples. O algoritmo resultante, que chamamos de Direct Preference Optimization (DPO), é estável, performático e computacionalmente leve, eliminando a necessidade de amostragem do LM durante o ajuste fino ou a execução de ajuste significativo de hiperparâmetros. Nossos experimentos mostram que o DPO pode ajustar LMs para se alinharem às preferências humanas tão bem quanto ou melhor do que os métodos existentes. Notavelmente, o ajuste fino com DPO excede o RLHF baseado em PPO na capacidade de controlar o sentimento de gerações e corresponde ou melhora a qualidade da resposta em sumarização e diálogo de turno único, sendo substancialmente mais simples de implementar e treinar.  1 Introdução  Grandes modelos de linguagem não supervisionados (LMs) treinados em conjuntos de dados muito grandes adquirem capacidades surpreendentes [11, 7, 40, 8]. No entanto, esses modelos são treinados em dados gerados por humanos com uma ampla variedade de objetivos, prioridades e conjuntos de habilidades. Alguns desses objetivos e conjuntos de habilidades podem não ser desejáveis de imitar; por exemplo, embora possamos querer que nosso assistente de codificação de IA entenda erros comuns de programação para corrigi-los, no entanto, ao gerar código, gostaríamos de enviesar nosso modelo em direção à capacidade de codificação de alta qualidade (potencialmente rara) presente em seus dados de treinamento. Da mesma forma, podemos querer que nosso modelo de linguagem esteja ciente de um equívoco comum acreditado por 50% das pessoas, mas certamente não queremos que o modelo alegue que esse equívoco é verdadeiro em 50% das consultas sobre ele! Em outras palavras, selecionar as respostas e o comportamento desejados do modelo a partir de seu amplo conhecimento e habilidades é crucial para construir sistemas de IA que sejam seguros, performáticos e controláveis [26]. Embora os métodos existentes normalmente orientem os LMs para corresponder às preferências humanas usando aprendizagem por reforço (RL),   mostraremos que o objetivo baseado em RL usado pelos métodos existentes pode ser otimizado exatamente com um objetivo simples de entropia cruzada binária, simplificando bastante o pipeline de aprendizado de preferências.  Em um alto nível, os métodos existentes instilam os comportamentos desejados em um modelo de linguagem usando conjuntos selecionados de preferências humanas representando os tipos de comportamentos que os humanos consideram seguros e úteis. Este estágio de aprendizado de preferência ocorre após um estágio inicial de pré-treinamento não supervisionado em larga escala em um grande conjunto de dados de texto. Enquanto a abordagem mais direta para o aprendizado de preferência é o ajuste fino supervisionado em demonstrações humanas de respostas de alta qualidade, a classe de métodos mais bem-sucedida é o aprendizado por reforço a partir do feedback humano (ou IA) (RLHF/RLAIF; [12, 2]). Os métodos RLHF ajustam um modelo de recompensa a um conjunto de dados de preferências humanas e então usam RL para otimizar uma política de modelo de linguagem para produzir respostas atribuídas a alta recompensa sem se afastar excessivamente do modelo original. Enquanto RLHF produz modelos com habilidades de conversação e codificação impressionantes, o pipeline RLHF é consideravelmente mais complexo do que o aprendizado supervisionado, envolvendo o treinamento de vários LMs e amostragem da política de LM no loop de treinamento, incorrendo em custos computacionais significativos.  Neste artigo, mostramos como otimizar diretamente um modelo de linguagem para aderir às preferências humanas, sem modelagem de recompensa explícita ou aprendizado por reforço. Propomos a Otimização de Preferência Direta (DPO), um algoritmo que otimiza implicitamente o mesmo objetivo que os algoritmos RLHF existentes (maximização de recompensa com uma restrição de divergência KL), mas é simples de implementar e direto de treinar. Intuitivamente, a atualização do DPO aumenta a probabilidade de log relativa de respostas preferidas para não preferidas, mas incorpora um peso de importância dinâmico por exemplo que previne a degeneração do modelo que descobrimos que ocorre com um objetivo de razão de probabilidade ingênuo. Como os algoritmos existentes, o DPO depende de um modelo de preferência teórica (como o modelo Bradley-Terry; [5]) que mede o quão bem uma dada função de recompensa se alinha com dados de preferência empírica. No entanto, enquanto os métodos existentes usam o modelo de preferência para definir uma perda de preferência para treinar um modelo de recompensa e então treinar uma política que otimiza o modelo de recompensa aprendido, o DPO usa uma mudança de variáveis para definir a perda de preferência como uma função da política diretamente. Dado um conjunto de dados de preferências humanas sobre respostas de modelos, o DPO pode, portanto, otimizar uma política usando um objetivo simples de entropia cruzada binária, produzindo a política ótima para uma função de recompensa implícita ajustada aos dados de preferência.  Nossa principal contribuição é a Direct Preference Optimization (DPO), um algoritmo simples sem RL para treinar modelos de linguagem a partir de preferências. Nossos experimentos mostram que o DPO é pelo menos tão eficaz quanto os métodos existentes, incluindo RLHF baseado em PPO, para aprender a partir de preferências em tarefas como modulação de sentimento, sumarização e diálogo, usando modelos de linguagem com até 6B parâmetros.  Este artigo está   sob a licença CC BY-NC-ND 4.0 DEED. disponível no arxiv

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

AI Models on HackerNoon

Este áudio é produzido no idioma original da história!

Otimização de Preferência Direta: Seu Modelo de Linguagem é Secretamente um Modelo de Recompensa

About Author

COMENTARIOS

Rótulos

ESTE ARTIGO FOI APRESENTADO EM

Related Stories

Navegando pelas águas: desenvolvendo aplicações RAG de nível de produção com data lakes

Quer ganhar um concurso de redação do HackerNoon? Aqui está o que os vencedores do concurso #crypto-api recomendam

Vazamento do prompt do sistema Claude Sonnet 3.5: uma análise forense

Toque para ganhar: Telegram pode integrar os próximos 10 bilhões de usuários criptográficos antes de Solana

Navegando pelas águas: desenvolvendo aplicações RAG de nível de produção com data lakes

Quer ganhar um concurso de redação do HackerNoon? Aqui está o que os vencedores do concurso #crypto-api recomendam

Vazamento do prompt do sistema Claude Sonnet 3.5: uma análise forense

Toque para ganhar: Telegram pode integrar os próximos 10 bilhões de usuários criptográficos antes de Solana

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps