Autores:  (1) Rafael Rafailo, Universidade de Stanford e contribuição igual; mais autores juniores listados anteriormente;  (2) Archit Sharma, Universidade de Stanford e contribuição igual; autores mais juniores listados anteriormente;  (3) Eric Mitchel, Universidade de Stanford e contribuição igual; mais autores juniores listados anteriormente;  (4) Stefano Ermon, CZ Biohub;  (5) Christopher D. Manning, Universidade de Stanford;  (6) Chelsea Finn, Universidade de Stanford.  Tabela de Links   Resumo e 1. Introdução   2 Trabalhos relacionados   3 Preliminares   4 Otimização de Preferência Direta   5 Análise teórica do DPO   6 Experimentos   7 Discussão, Agradecimentos e Referências   Contribuições do autor  Derivações Matemáticas   A.1 Derivando o Ótimo do Objetivo de Maximização da Recompensa Restrita de KL   A.2 Derivando o objetivo do DPO sob o modelo Bradley-Terry   A.3 Derivando o Objetivo do DPO sob o Modelo Plackett-Luce   A.4 Derivando o Gradiente do Objetivo DPO e A.5 Prova do Lema 1 e 2   A.6 Prova do Teorema 1   Detalhes de implementação e hiperparâmetros do B DPO   C Mais detalhes sobre a configuração experimental e C.1 IMDb Sentiment Experiment e detalhes da linha de base   C.2 GPT-4 solicita para calcular taxas de vitória de resumo e diálogo   C.3 Linha de base de improbabilidade  D Resultados empíricos adicionais   D.1 Desempenho da melhor linha de base de N para várias respostas de amostra de N e D.2 e julgamentos do GPT-4   D.3 Detalhes do estudo humano  2 Trabalhos relacionados  Modelos de linguagem autossupervisionados de escala crescente aprendem a completar algumas tarefas de zero-shot [31] ou com prompts de few-shot [6, 25, 11]. No entanto, seu desempenho em tarefas posteriores e alinhamento com a intenção do usuário podem ser significativamente melhorados por meio de ajustes finos em conjuntos de dados de instruções e conclusões escritas por humanos [23, 36, 13, 39]. Este procedimento de 'ajuste de instruções' permite que os LLMs generalizem para instruções fora do conjunto de ajustes de instruções e geralmente aumentem sua usabilidade [13]. Apesar do sucesso do ajuste de instruções, julgamentos humanos relativos de qualidade de resposta são frequentemente mais fáceis de coletar do que demonstrações de especialistas e, portanto, trabalhos subsequentes ajustaram os LLMs com conjuntos de dados de preferências humanas, melhorando a proficiência em tradução [18], resumo [38, 49], narrativa [49] e acompanhamento de instruções [26, 32]. Esses métodos primeiro otimizam uma função de recompensa de rede neural para compatibilidade com o conjunto de dados de preferências sob um modelo de preferência, como o modelo Bradley-Terry [5], então ajustam um modelo de linguagem para maximizar a recompensa dada usando algoritmos de aprendizado por reforço, comumente REINFORCE [45], otimização de política proximal (PPO; [37]) ou variantes [32]. Uma linha de trabalho intimamente relacionada alavanca LLMs ajustados para instruções seguindo com feedback humano para gerar dados de preferência sintéticos adicionais para atributos direcionados, como segurança ou inocuidade [2], usando apenas supervisão fraca de humanos na forma de uma rubrica de texto para as anotações do LLM. Esses métodos representam uma convergência de dois corpos de trabalho: um corpo de trabalho sobre treinamento de modelos de linguagem com aprendizado por reforço para uma variedade de objetivos [33, 27, 46] e outro corpo de trabalho sobre métodos gerais para aprendizado de preferências humanas [12, 19]. Apesar do apelo de usar preferências humanas relativas, o ajuste fino de grandes modelos de linguagem com aprendizado por reforço continua sendo um grande desafio prático; este trabalho fornece uma abordagem teoricamente justificada para otimizar preferências relativas sem RL.  Fora do contexto da linguagem, políticas de aprendizagem a partir de preferências foram estudadas em configurações de aprendizagem de bandido e de reforço, e várias abordagens foram propostas. A aprendizagem de bandido contextual usando preferências ou classificações de ações, em vez de recompensas, é conhecida como bandido de duelo contextual (CDB; [48, 14]). Na ausência de recompensas absolutas, a análise teórica de CDBs substitui a noção de uma política ótima por um vencedor de von Neumann, uma política cuja taxa de vitória esperada contra qualquer outra política é de pelo menos 50% [14]. No entanto, na configuração de CDB, rótulos de preferência são dados online, enquanto no aprendizado de preferências humanas, normalmente aprendemos com um lote fixo de pares de ações anotados de preferência offline [47]. Da mesma forma, a RL baseada em preferência (PbRL) aprende com preferências binárias geradas por uma função de 'pontuação' desconhecida em vez de recompensas [9, 35]. Existem vários algoritmos para PbRL, incluindo métodos que podem reutilizar dados de preferência fora da política, mas geralmente envolvem primeiro estimar explicitamente a função de pontuação latente (ou seja, o modelo de recompensa) e subsequentemente otimizá-la [16, 9, 12, 34, 19]. Em vez disso, apresentamos uma abordagem de aprendizagem de política de estágio único que otimiza diretamente uma política para satisfazer as preferências.  Este artigo está   sob a licença CC BY-NC-ND 4.0 DEED. disponível no arxiv

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

AI Models on HackerNoon

Este áudio é produzido no idioma original da história!

Simplificando o treinamento de IA: otimização de preferência direta versus RL tradicional

About Author

COMENTARIOS

Rótulos

ESTE ARTIGO FOI APRESENTADO EM

Related Stories

Navegando pelas águas: desenvolvendo aplicações RAG de nível de produção com data lakes

Vazamento do prompt do sistema Claude Sonnet 3.5: uma análise forense

Telegram: a ponte da Crypto Island para o continente

Como melhorar seu fluxo de trabalho em 10 vezes: 17 aplicativos essenciais

Navegando pelas águas: desenvolvendo aplicações RAG de nível de produção com data lakes

Vazamento do prompt do sistema Claude Sonnet 3.5: uma análise forense

Telegram: a ponte da Crypto Island para o continente

Como melhorar seu fluxo de trabalho em 10 vezes: 17 aplicativos essenciais

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps