Autores:
(1) Rafael Rafailo, Universidade de Stanford e contribuição igual; mais autores juniores listados anteriormente;
(2) Archit Sharma, Universidade de Stanford e contribuição igual; autores mais juniores listados anteriormente;
(3) Eric Mitchel, Universidade de Stanford e contribuição igual; mais autores juniores listados anteriormente;
(4) Stefano Ermon, CZ Biohub;
(5) Christopher D. Manning, Universidade de Stanford;
(6) Chelsea Finn, Universidade de Stanford.
4 Otimização de Preferência Direta
7 Discussão, Agradecimentos e Referências
Derivações Matemáticas
A.1 Derivando o Ótimo do Objetivo de Maximização da Recompensa Restrita de KL
A.2 Derivando o objetivo do DPO sob o modelo Bradley-Terry
A.3 Derivando o Objetivo do DPO sob o Modelo Plackett-Luce
A.4 Derivando o Gradiente do Objetivo DPO e A.5 Prova do Lema 1 e 2
Detalhes de implementação e hiperparâmetros do B DPO
C.2 GPT-4 solicita para calcular taxas de vitória de resumo e diálogo
C.3 Linha de base de improbabilidade
D Resultados empíricos adicionais
Modelos de linguagem autossupervisionados de escala crescente aprendem a completar algumas tarefas de zero-shot [31] ou com prompts de few-shot [6, 25, 11]. No entanto, seu desempenho em tarefas posteriores e alinhamento com a intenção do usuário podem ser significativamente melhorados por meio de ajustes finos em conjuntos de dados de instruções e conclusões escritas por humanos [23, 36, 13, 39]. Este procedimento de 'ajuste de instruções' permite que os LLMs generalizem para instruções fora do conjunto de ajustes de instruções e geralmente aumentem sua usabilidade [13]. Apesar do sucesso do ajuste de instruções, julgamentos humanos relativos de qualidade de resposta são frequentemente mais fáceis de coletar do que demonstrações de especialistas e, portanto, trabalhos subsequentes ajustaram os LLMs com conjuntos de dados de preferências humanas, melhorando a proficiência em tradução [18], resumo [38, 49], narrativa [49] e acompanhamento de instruções [26, 32]. Esses métodos primeiro otimizam uma função de recompensa de rede neural para compatibilidade com o conjunto de dados de preferências sob um modelo de preferência, como o modelo Bradley-Terry [5], então ajustam um modelo de linguagem para maximizar a recompensa dada usando algoritmos de aprendizado por reforço, comumente REINFORCE [45], otimização de política proximal (PPO; [37]) ou variantes [32]. Uma linha de trabalho intimamente relacionada alavanca LLMs ajustados para instruções seguindo com feedback humano para gerar dados de preferência sintéticos adicionais para atributos direcionados, como segurança ou inocuidade [2], usando apenas supervisão fraca de humanos na forma de uma rubrica de texto para as anotações do LLM. Esses métodos representam uma convergência de dois corpos de trabalho: um corpo de trabalho sobre treinamento de modelos de linguagem com aprendizado por reforço para uma variedade de objetivos [33, 27, 46] e outro corpo de trabalho sobre métodos gerais para aprendizado de preferências humanas [12, 19]. Apesar do apelo de usar preferências humanas relativas, o ajuste fino de grandes modelos de linguagem com aprendizado por reforço continua sendo um grande desafio prático; este trabalho fornece uma abordagem teoricamente justificada para otimizar preferências relativas sem RL.
Fora do contexto da linguagem, políticas de aprendizagem a partir de preferências foram estudadas em configurações de aprendizagem de bandido e de reforço, e várias abordagens foram propostas. A aprendizagem de bandido contextual usando preferências ou classificações de ações, em vez de recompensas, é conhecida como bandido de duelo contextual (CDB; [48, 14]). Na ausência de recompensas absolutas, a análise teórica de CDBs substitui a noção de uma política ótima por um vencedor de von Neumann, uma política cuja taxa de vitória esperada contra qualquer outra política é de pelo menos 50% [14]. No entanto, na configuração de CDB, rótulos de preferência são dados online, enquanto no aprendizado de preferências humanas, normalmente aprendemos com um lote fixo de pares de ações anotados de preferência offline [47]. Da mesma forma, a RL baseada em preferência (PbRL) aprende com preferências binárias geradas por uma função de 'pontuação' desconhecida em vez de recompensas [9, 35]. Existem vários algoritmos para PbRL, incluindo métodos que podem reutilizar dados de preferência fora da política, mas geralmente envolvem primeiro estimar explicitamente a função de pontuação latente (ou seja, o modelo de recompensa) e subsequentemente otimizá-la [16, 9, 12, 34, 19]. Em vez disso, apresentamos uma abordagem de aprendizagem de política de estágio único que otimiza diretamente uma política para satisfazer as preferências.
Este artigo está disponível no arxiv sob a licença CC BY-NC-ND 4.0 DEED.