A Otimização de Preferência Direta (DPO) é uma nova técnica de ajuste fino que se tornou popular devido à sua simplicidade e facilidade de implementação. Ele surgiu como uma alternativa direta ao (RLHF) para o ajuste fino do modelo de linguagem grande (LLM) para se alinhar às preferências humanas atribuíveis à sua estabilidade, desempenho e natureza computacional leve, eliminando a necessidade de amostragem do LM durante o ajuste fino. O DPO pode atingir níveis de desempenho iguais ou melhores que os métodos existentes. aprendizado por reforço a partir de feedback humano Ao contrário dos métodos existentes que envolvem o aproveitamento do RLHF, o DPO reformula o processo de alinhamento da linguagem como uma função de perda simples que pode ser otimizada diretamente usando um conjunto de dados de preferências {(x,yw,yl)}, onde: • x é um prompt • yw é um método preferido • yl é um método rejeitado Ao contrário do RLHF, que exige que as respostas sejam amostradas de um modelo de linguagem durante o processo de otimização, no DPO, as respostas não precisam ser amostradas do LM que está sendo otimizado. Como funciona o DPO? O processo de trabalho do DPO pode ser dividido em duas etapas. Nesta etapa, o modelo é ajustado com base nos dados relevantes. Ajuste fino supervisionado (SFT): o modelo é ajustado com base em dados de preferência, idealmente provenientes da mesma distribuição dos exemplos SFT. Aprendizagem de preferência: Ao contrário do RLHF, no qual um modelo de recompensa é treinado primeiro para otimização de políticas, o DPO adiciona diretamente informações de preferência ao processo de otimização, sem a etapa intermediária de treinar um modelo de recompensa. O DPO usa o LLM como modelo de recompensa e emprega um objetivo de entropia cruzada binária para otimizar a política, aproveitando os dados de preferência humana para identificar quais respostas são preferidas e quais não são. A política é ajustada com base nas respostas preferidas para impulsionar o seu desempenho. Ajuste fino supervisionado Ajudamos você no desenvolvimento de aplicativos de IA generativa para LLMs para que sejam versáteis e adaptáveis a casos de uso específicos. Isso envolve fornecer dados ou exemplos para o modelo aprender e se adaptar, por isso oferecemos soluções de engenharia imediatas para design, teste, implantação e entrega de prompts. Cogito. No ajuste fino supervisionado (SFT), que fornecem um mapeamento claro entre entradas específicas e saídas desejadas. O ajuste fino supervisionado, especialmente com aprendizagem preferencial, é empregado para moldar ou ajustar os resultados do modelo para atender aos critérios definidos por humanos, garantindo que eles estejam alinhados com requisitos específicos. o LLM é treinado em conjuntos de dados rotulados Dados de preferência em PNL Os dados de preferência referem-se a um conjunto cuidadosamente escolhido de opções ou alternativas relativas a um prompt específico. Os anotadores avaliam essas opções de acordo com determinadas diretrizes. O processo geral visa classificar essas opções da mais preferida para a menos preferida, com base nas preferências humanas. A classificação é então usada para ajustar modelos para gerar resultados alinhados com as expectativas humanas. Como criar dados de preferência Seleção imediata O prompt é a base dos dados de preferência. Existem várias maneiras de selecionar prompts — alguns escolhem um conjunto predefinido, enquanto outros usam modelos para gerar prompts dinamicamente ou optam por uma combinação de prompts predefinidos com prompts aleatórios retirados do banco de dados. Seleção de Resposta A próxima etapa é determinar a saída em resposta ao prompt. Essas respostas podem ser geradas a partir de uma versão bem treinada de um modelo ou de vários pontos de verificação no desenvolvimento do modelo. Nem todas as respostas geradas são iguais; a classificação das respostas pode variar. No sistema de classificação binária, cada resposta é simplesmente categorizada como “melhor” ou “pior”, enquanto um sistema de classificação granular atribui uma pontuação (por exemplo, 1-5) a cada resposta, permitindo uma avaliação mais detalhada e diferenciada. Diretrizes de anotação As diretrizes de anotação são essenciais para garantir que os sistemas de classificação sejam padronizados para minimizar preconceitos e interpretações individuais. Benefícios do DPO O DPO tem muitas vantagens sobre o RLHF, como segue: Simplicidade e facilidade de implementação Ao contrário do processo multicamadas do a recolha de feedback detalhado, a optimização de políticas complexas e a formação de modelos de recompensa, o DPO integra directamente a preferência humana no ciclo de formação. Esta abordagem não apenas elimina a complexidade associada ao processo, mas também se alinha melhor com os sistemas padrão de pré-treinamento e ajuste fino. Além disso, o DPO não envolve navegar pelas complexidades da construção e do ajuste das funções de recompensa. RLHF que envolve Não há necessidade de treinamento de modelo de recompensa O DPO elimina a necessidade de treinar um modelo de recompensa adicional, economizando recursos computacionais e eliminando os desafios associados à precisão e manutenção do modelo de recompensa. Desenvolver um modelo de recompensa eficiente que interprete o feedback humano em sinais acionáveis para IA é uma tarefa complexa. Requer um esforço substancial e necessita de atualizações regulares para refletir com precisão a evolução das preferências humanas. O DPO ignora totalmente essa etapa aproveitando diretamente os dados de preferência para melhorar o modelo. Performance superior O DPO pode ser tão bom ou até melhor que outros métodos, como RLHF (Reinforcement Learning from Human Feedback) e PPO (Proximal Policy Optimization), para melhorar o desempenho de grandes modelos de linguagem, de acordo com uma pesquisa intitulada . Direct Preference Optimization: Your Language Model is Secretamente, um modelo de recompensa Conclusão A otimização direta de desempenho é uma técnica de ajuste fino estável e eficiente que não requer recursos computacionais excessivos. Ao contrário do RLHF, o DPO não precisa de um modelo de recompensa complexo e de amostragem do modelo de linguagem durante o ajuste fino. Não é apenas um novo algoritmo, mas uma virada de jogo no modelo de IA, ajustando, simplificando e aprimorando o processo de construção de modelos de linguagem que melhor compreendem e atendem às necessidades humanas.