paint-brush
Otimização de Preferência Direta: Seu Modelo de Linguagem é Secretamente um Modelo de Recompensapor@textmodels
209 leituras

Otimização de Preferência Direta: Seu Modelo de Linguagem é Secretamente um Modelo de Recompensa

Muito longo; Para ler

Direct Preference Optimization (DPO) introduz uma alternativa mais simples e estável ao aprendizado por reforço para alinhar modelos de linguagem com preferências humanas. Ao eliminar a necessidade de modelagem de recompensa e procedimentos complexos de treinamento, o DPO oferece ajuste fino eficiente que corresponde ou excede o desempenho de métodos existentes como RLHF baseado em PPO, particularmente em tarefas de modulação de sentimento, sumarização e diálogo.
featured image - Otimização de Preferência Direta: Seu Modelo de Linguagem é Secretamente um Modelo de Recompensa
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

Autores:

(1) Rafael Rafailo, Universidade de Stanford e contribuição igual; mais autores juniores listados anteriormente;

(2) Archit Sharma, Universidade de Stanford e contribuição igual; autores mais juniores listados anteriormente;

(3) Eric Mitchel, Universidade de Stanford e contribuição igual; mais autores juniores listados anteriormente;

(4) Stefano Ermon, CZ Biohub;

(5) Christopher D. Manning, Universidade de Stanford;

(6) Chelsea Finn, Universidade de Stanford.

Tabela de Links

Resumo e 1. Introdução

2 Trabalhos relacionados

3 Preliminares

4 Otimização de Preferência Direta

5 Análise teórica do DPO

6 Experimentos

7 Discussão, Agradecimentos e Referências

Contribuições do autor


Derivações Matemáticas

A.1 Derivando o Ótimo do Objetivo de Maximização da Recompensa Restrita de KL

A.2 Derivando o objetivo do DPO sob o modelo Bradley-Terry

A.3 Derivando o Objetivo do DPO sob o Modelo Plackett-Luce

A.4 Derivando o Gradiente do Objetivo DPO e A.5 Prova do Lema 1 e 2

A.6 Prova do Teorema 1


Detalhes de implementação e hiperparâmetros do B DPO


C Mais detalhes sobre a configuração experimental e C.1 IMDb Sentiment Experiment e detalhes da linha de base

C.2 GPT-4 solicita para calcular taxas de vitória de resumo e diálogo

C.3 Linha de base de improbabilidade


D Resultados empíricos adicionais

D.1 Desempenho da melhor linha de base de N para várias respostas de amostra de N e D.2 e julgamentos do GPT-4

D.3 Detalhes do estudo humano

Resumo

Enquanto modelos de linguagem não supervisionados (LMs) em larga escala aprendem amplo conhecimento do mundo e algumas habilidades de raciocínio, alcançar controle preciso de seu comportamento é difícil devido à natureza completamente não supervisionada de seu treinamento. Os métodos existentes para obter tal dirigibilidade coletam rótulos humanos da qualidade relativa das gerações de modelos e ajustam o LM não supervisionado para se alinhar a essas preferências, geralmente com aprendizado por reforço do feedback humano (RLHF). No entanto, o RLHF é um procedimento complexo e frequentemente instável, primeiro ajustando um modelo de recompensa que reflete as preferências humanas e, em seguida, ajustando o grande LM não supervisionado usando aprendizado por reforço para maximizar essa recompensa estimada sem se afastar muito do modelo original. Neste artigo, apresentamos uma nova parametrização do modelo de recompensa em RLHF que permite a extração da política ótima correspondente em forma fechada, permitindo-nos resolver o problema RLHF padrão com apenas uma perda de classificação simples. O algoritmo resultante, que chamamos de Direct Preference Optimization (DPO), é estável, performático e computacionalmente leve, eliminando a necessidade de amostragem do LM durante o ajuste fino ou a execução de ajuste significativo de hiperparâmetros. Nossos experimentos mostram que o DPO pode ajustar LMs para se alinharem às preferências humanas tão bem quanto ou melhor do que os métodos existentes. Notavelmente, o ajuste fino com DPO excede o RLHF baseado em PPO na capacidade de controlar o sentimento de gerações e corresponde ou melhora a qualidade da resposta em sumarização e diálogo de turno único, sendo substancialmente mais simples de implementar e treinar.

1 Introdução

Grandes modelos de linguagem não supervisionados (LMs) treinados em conjuntos de dados muito grandes adquirem capacidades surpreendentes [11, 7, 40, 8]. No entanto, esses modelos são treinados em dados gerados por humanos com uma ampla variedade de objetivos, prioridades e conjuntos de habilidades. Alguns desses objetivos e conjuntos de habilidades podem não ser desejáveis de imitar; por exemplo, embora possamos querer que nosso assistente de codificação de IA entenda erros comuns de programação para corrigi-los, no entanto, ao gerar código, gostaríamos de enviesar nosso modelo em direção à capacidade de codificação de alta qualidade (potencialmente rara) presente em seus dados de treinamento. Da mesma forma, podemos querer que nosso modelo de linguagem esteja ciente de um equívoco comum acreditado por 50% das pessoas, mas certamente não queremos que o modelo alegue que esse equívoco é verdadeiro em 50% das consultas sobre ele! Em outras palavras, selecionar as respostas e o comportamento desejados do modelo a partir de seu amplo conhecimento e habilidades é crucial para construir sistemas de IA que sejam seguros, performáticos e controláveis [26]. Embora os métodos existentes normalmente orientem os LMs para corresponder às preferências humanas usando aprendizagem por reforço (RL),


Figura 1: O DPO otimiza para preferências humanas enquanto evita o aprendizado por reforço. Os métodos existentes para ajuste fino de modelos de linguagem com feedback humano primeiro ajustam um modelo de recompensa a um conjunto de dados de prompts e preferências humanas sobre pares de respostas e, em seguida, usam RL para encontrar uma política que maximize a recompensa aprendida. Em contraste, o DPO otimiza diretamente para a política que melhor satisfaz as preferências com um objetivo de classificação simples, ajustando um modelo de recompensa implícito cuja política ótima correspondente pode ser extraída em forma fechada.


mostraremos que o objetivo baseado em RL usado pelos métodos existentes pode ser otimizado exatamente com um objetivo simples de entropia cruzada binária, simplificando bastante o pipeline de aprendizado de preferências.


Em um alto nível, os métodos existentes instilam os comportamentos desejados em um modelo de linguagem usando conjuntos selecionados de preferências humanas representando os tipos de comportamentos que os humanos consideram seguros e úteis. Este estágio de aprendizado de preferência ocorre após um estágio inicial de pré-treinamento não supervisionado em larga escala em um grande conjunto de dados de texto. Enquanto a abordagem mais direta para o aprendizado de preferência é o ajuste fino supervisionado em demonstrações humanas de respostas de alta qualidade, a classe de métodos mais bem-sucedida é o aprendizado por reforço a partir do feedback humano (ou IA) (RLHF/RLAIF; [12, 2]). Os métodos RLHF ajustam um modelo de recompensa a um conjunto de dados de preferências humanas e então usam RL para otimizar uma política de modelo de linguagem para produzir respostas atribuídas a alta recompensa sem se afastar excessivamente do modelo original. Enquanto RLHF produz modelos com habilidades de conversação e codificação impressionantes, o pipeline RLHF é consideravelmente mais complexo do que o aprendizado supervisionado, envolvendo o treinamento de vários LMs e amostragem da política de LM no loop de treinamento, incorrendo em custos computacionais significativos.


Neste artigo, mostramos como otimizar diretamente um modelo de linguagem para aderir às preferências humanas, sem modelagem de recompensa explícita ou aprendizado por reforço. Propomos a Otimização de Preferência Direta (DPO), um algoritmo que otimiza implicitamente o mesmo objetivo que os algoritmos RLHF existentes (maximização de recompensa com uma restrição de divergência KL), mas é simples de implementar e direto de treinar. Intuitivamente, a atualização do DPO aumenta a probabilidade de log relativa de respostas preferidas para não preferidas, mas incorpora um peso de importância dinâmico por exemplo que previne a degeneração do modelo que descobrimos que ocorre com um objetivo de razão de probabilidade ingênuo. Como os algoritmos existentes, o DPO depende de um modelo de preferência teórica (como o modelo Bradley-Terry; [5]) que mede o quão bem uma dada função de recompensa se alinha com dados de preferência empírica. No entanto, enquanto os métodos existentes usam o modelo de preferência para definir uma perda de preferência para treinar um modelo de recompensa e então treinar uma política que otimiza o modelo de recompensa aprendido, o DPO usa uma mudança de variáveis para definir a perda de preferência como uma função da política diretamente. Dado um conjunto de dados de preferências humanas sobre respostas de modelos, o DPO pode, portanto, otimizar uma política usando um objetivo simples de entropia cruzada binária, produzindo a política ótima para uma função de recompensa implícita ajustada aos dados de preferência.


Nossa principal contribuição é a Direct Preference Optimization (DPO), um algoritmo simples sem RL para treinar modelos de linguagem a partir de preferências. Nossos experimentos mostram que o DPO é pelo menos tão eficaz quanto os métodos existentes, incluindo RLHF baseado em PPO, para aprender a partir de preferências em tarefas como modulação de sentimento, sumarização e diálogo, usando modelos de linguagem com até 6B parâmetros.


Este artigo está disponível no arxiv sob a licença CC BY-NC-ND 4.0 DEED.