paint-brush
O Teto de Alinhamento: Incompatibilidade de Objetivos na Aprendizagem por Reforço a partir do Feedback Humanopor@feedbackloop
370 leituras
370 leituras

O Teto de Alinhamento: Incompatibilidade de Objetivos na Aprendizagem por Reforço a partir do Feedback Humano

Muito longo; Para ler

Descubra os desafios da incompatibilidade de objetivos no RLHF para grandes modelos de linguagem, afetando o alinhamento entre os modelos de recompensa e o desempenho downstream. Este artigo explora as origens, manifestações e soluções potenciais para resolver esse problema, conectando insights da literatura de PNL e VR. Obtenha insights sobre como promover melhores práticas de RLHF para modelos de linguagem mais eficazes e alinhados ao usuário.
featured image - O Teto de Alinhamento: Incompatibilidade de Objetivos na Aprendizagem por Reforço a partir do Feedback Humano
The FeedbackLoop: #1 in PM Education HackerNoon profile picture

Autores:

(1) Nathan Lambert, Instituto Allen de IA;

(2) Roberto Calandra, TU Dresden.

Tabela de links

Resumo e introdução

Trabalho relatado

Fundo

Compreendendo a incompatibilidade de objetivos

Discussões

Conclusão

Agradecimentos e Referências

ABSTRATO

A aprendizagem por reforço a partir de feedback humano (RLHF) emergiu como uma técnica poderosa para tornar grandes modelos de linguagem (LLMs) mais fáceis de serem solicitados e mais capazes em ambientes complexos. A RLHF está basicamente fornecendo um novo kit de ferramentas para otimizar LLMs além da previsão do próximo token, permitindo a integração de objetivos de treinamento qualitativos. A tentativa de correspondência entre as preferências do usuário e o desempenho posterior, que acontece em um modelo de recompensa aprendido, resulta em um cenário de otimização onde as métricas de treinamento e avaliação podem parecer correlacionadas. A aparente correlação pode levar a comportamentos inesperados e histórias de “muito RLHF”. No RLHF, surgem desafios porque os seguintes submódulos não são consistentes entre si: a formação do modelo de recompensa, a formação do modelo de políticas e a avaliação do modelo de políticas. Essa incompatibilidade resulta em modelos que às vezes evitam solicitações do usuário por meio de falsos sinalizadores de segurança, são difíceis de direcionar para uma característica pretendida ou sempre respondem em um estilo específico. À medida que a avaliação do modelo de chat se torna cada vez mais sutil, a confiança em uma ligação percebida entre a pontuação do modelo de recompensa e o desempenho downstream impulsiona o problema de incompatibilidade objetiva. Neste artigo, ilustramos a causa deste problema, revisando a literatura relevante da aprendizagem por reforço baseada em modelos, e discutimos soluções relevantes para incentivar novas pesquisas. Ao resolver a incompatibilidade de objetivos no RLHF, os LLMs do futuro estarão alinhados com mais precisão às instruções do usuário, tanto para segurança quanto para utilidade

1. Introdução

A aprendizagem por reforço a partir do feedback humano (RLHF) é uma ferramenta poderosa para integrar estilos e valores qualitativos em grandes modelos de aprendizagem de máquina (Bai et al., 2022; Christiano et al., 2017; Ouyang et al., 2022). O RLHF foi popularizado com seu uso para integrar valores humanos em grandes modelos de linguagem (LLMs) para alinhar ferramentas de chat (Schulman, Zoph, Kim, & more, 2022). Ao fazer isso, o RLHF tornou-se uma técnica importante no processo de tornar os modelos melhores para responder às solicitações do usuário, muitas vezes chamados de modelos de ajuste de instrução, dirigibilidade, chat, etc. Os métodos RLHF normalmente operam em um processo de duas etapas seguindo o treinamento de um modelo de linguagem base, primeiro eles aprendem um modelo de preferências humanas que atua como uma função de recompensa e, em segundo lugar, usam esse modelo dentro de um ciclo de otimização de aprendizagem por reforço (RL). No processo RLHF, essas duas etapas são frequentemente executadas de forma independente, com um modelo de recompensa preciso sendo treinado em dados de preferência humana e, em seguida, o otimizador RL é usado para extrair o máximo de informações para o modelo de chat. Um desafio comum dos LLMs modernos treinados com RLHF são as dificuldades em extrair os comportamentos pretendidos do modelo. Às vezes, os modelos recusam solicitações benignas por motivos de segurança e outras vezes precisam de um ajuste rápido e inteligente para extrair o desempenho total.


Neste artigo, detalhamos um desafio fundamental nos esquemas modernos de aprendizagem RLHF: a questão da incompatibilidade objetiva. No RLHF, três partes importantes do treinamento são numericamente dissociadas: o desenho das métricas de avaliação, o treinamento de um modelo de recompensa e o treinamento do modelo gerador. Essa incompatibilidade entre o modelo de recompensa e o treinamento RL é visualizada na Figura 1, porém existem outras ligações entre os objetivos de avaliação e simulação de valores humanos. Especificamente, existem muitos caminhos para alinhar melhor o treinamento do modelo de recompensa com a literatura em quantificação de preferências (Lambert, Gilbert, & Zick, 2023) e desafios fundamentais de otimização precisam ser resolvidos nas práticas RLHF (Casper et al., 2023). ChatGPT, o modelo mais popular treinado com RLHF, mostra sinais dessa limitação por meio de questões como verbosidade, dúvidas e recusas de perguntas, frases repetidas, cobertura e muito mais (Schulman, 2023). Essas características de superotimização são resultados do problema sutil do objetivo proxy, cuja incompatibilidade de objetivos fornece uma estrutura para estudo e solução – o modelo de recompensa atribui valor excessivo a frases que não contribuem para o benefício do usuário, que o otimizador RL explora, como sinalizadores de segurança. Por outro lado, as configurações de treinamento atuais não estão totalmente alinhadas com as ferramentas de avaliação porque os modelos RLHF ainda precisam de técnicas sofisticadas de estímulo, como “pensar passo a passo” (J. Wei et al., 2022) ou “respirar fundo ”(Yang et al., 2023) para atingir o desempenho máximo. A resolução da incompatibilidade de objectivos eliminará a necessidade destas técnicas avançadas e reduzirá a probabilidade de recusas fora do âmbito de um LLM.


Figura 1: Uma ilustração de onde surge o problema de incompatibilidade de objetivos na fase de otimização de RL do RLHF. A incompatibilidade ocorre quando se presume que a pontuação do modelo de recompensa está correlacionada com outras avaliações posteriores


A frase incompatibilidade de objetivos origina-se da aprendizagem por reforço baseada em modelo (MBRL), onde um agente aprende iterativamente um modelo dinâmico que posteriormente usa para resolver uma tarefa de controle (Lambert, Amos, Yadan, & Calandra, 2020; R. Wei, Lambert, McDonald, Garcia e Calandra, 2023). Neste contexto, a incompatibilidade está entre aprender um modelo dinâmico preciso, em vez de um que seja otimizado para uma alta recompensa de tarefa. No RLHF, o problema está relacionado, mas com complexidade adicional, pois o modelo de recompensa é otimizado para dados de preferência em vez de uma distribuição fechada, que não corresponde aos utilizadores finais. Em segundo lugar, a tarefa de geração de linguagem aberta é menos específica para uma noção de recompensa do que a das políticas de controlo de RL. Por estas razões, como exploramos neste artigo, a questão da incompatibilidade objetiva é mais matizada e crítica para o RLHF.


Neste documento de posicionamento, fazemos três contribuições:


• Explicar claramente as origens e possíveis manifestações da incompatibilidade de objetivos em LLMs sintonizados por chat,


• Conectar trabalhos relacionados da literatura de PNL e RL em torno da incompatibilidade de objetivos,


• Propor orientações de estudo para resolver a incompatibilidade e promover melhores práticas de RLHF.


Este artigo está disponível no arxiv sob licença CC 4.0.