A Otimização de Preferência Direta (DPO) é uma nova técnica de ajuste fino que se tornou popular devido à sua simplicidade e facilidade de implementação. Ele surgiu como uma alternativa direta ao   (RLHF) para o ajuste fino do modelo de linguagem grande (LLM) para se alinhar às preferências humanas atribuíveis à sua estabilidade, desempenho e natureza computacional leve, eliminando a necessidade de amostragem do LM durante o ajuste fino. O DPO pode atingir níveis de desempenho iguais ou melhores que os métodos existentes. aprendizado por reforço a partir de feedback humano  Ao contrário dos métodos existentes que envolvem o aproveitamento do RLHF, o DPO reformula o processo de alinhamento da linguagem como uma função de perda simples que pode ser otimizada diretamente usando um conjunto de dados de preferências {(x,yw,yl)}, onde:  • x é um prompt  • yw é um método preferido  • yl é um método rejeitado  Ao contrário do RLHF, que exige que as respostas sejam amostradas de um modelo de linguagem durante o processo de otimização, no DPO, as respostas não precisam ser amostradas do LM que está sendo otimizado.  Como funciona o DPO?  O processo de trabalho do DPO pode ser dividido em duas etapas.    Nesta etapa, o modelo é ajustado com base nos dados relevantes. Ajuste fino supervisionado (SFT):    o modelo é ajustado com base em dados de preferência, idealmente provenientes da mesma distribuição dos exemplos SFT.  Aprendizagem de preferência:  Ao contrário do RLHF, no qual um modelo de recompensa é treinado primeiro para otimização de políticas, o DPO adiciona diretamente informações de preferência ao processo de otimização, sem a etapa intermediária de treinar um modelo de recompensa.  O DPO usa o LLM como modelo de recompensa e emprega um objetivo de entropia cruzada binária para otimizar a política, aproveitando os dados de preferência humana para identificar quais respostas são preferidas e quais não são. A política é ajustada com base nas respostas preferidas para impulsionar o seu desempenho.  Ajuste fino supervisionado  Ajudamos você no desenvolvimento de aplicativos de IA generativa para LLMs para que sejam versáteis e adaptáveis a casos de uso específicos. Isso envolve fornecer dados ou exemplos para o modelo aprender e se adaptar, por isso oferecemos soluções de engenharia imediatas para design, teste, implantação e entrega de prompts. Cogito.  No ajuste fino supervisionado (SFT),   que fornecem um mapeamento claro entre entradas específicas e saídas desejadas. O ajuste fino supervisionado, especialmente com aprendizagem preferencial, é empregado para moldar ou ajustar os resultados do modelo para atender aos critérios definidos por humanos, garantindo que eles estejam alinhados com requisitos específicos. o LLM é treinado em conjuntos de dados rotulados  Dados de preferência em PNL  Os dados de preferência referem-se a um conjunto cuidadosamente escolhido de opções ou alternativas relativas a um prompt específico. Os anotadores avaliam essas opções de acordo com determinadas diretrizes. O processo geral visa classificar essas opções da mais preferida para a menos preferida, com base nas preferências humanas. A classificação é então usada para ajustar modelos para gerar resultados alinhados com as expectativas humanas.  Como criar dados de preferência   Seleção imediata  O prompt é a base dos dados de preferência. Existem várias maneiras de selecionar prompts — alguns escolhem um conjunto predefinido, enquanto outros usam modelos para gerar prompts dinamicamente ou optam por uma combinação de prompts predefinidos com prompts aleatórios retirados do banco de dados.   Seleção de Resposta  A próxima etapa é determinar a saída em resposta ao prompt. Essas respostas podem ser geradas a partir de uma versão bem treinada de um modelo ou de vários pontos de verificação no desenvolvimento do modelo. Nem todas as respostas geradas são iguais; a classificação das respostas pode variar. No sistema de classificação binária, cada resposta é simplesmente categorizada como “melhor” ou “pior”, enquanto um sistema de classificação granular atribui uma pontuação (por exemplo, 1-5) a cada resposta, permitindo uma avaliação mais detalhada e diferenciada.   Diretrizes de anotação  As diretrizes de anotação são essenciais para garantir que os sistemas de classificação sejam padronizados para minimizar preconceitos e interpretações individuais.   Benefícios do DPO   O DPO tem muitas vantagens sobre o RLHF, como segue:   Simplicidade e facilidade de implementação  Ao contrário do processo multicamadas do   a recolha de feedback detalhado, a optimização de políticas complexas e a formação de modelos de recompensa, o DPO integra directamente a preferência humana no ciclo de formação. Esta abordagem não apenas elimina a complexidade associada ao processo, mas também se alinha melhor com os sistemas padrão de pré-treinamento e ajuste fino. Além disso, o DPO não envolve navegar pelas complexidades da construção e do ajuste das funções de recompensa. RLHF que envolve   Não há necessidade de treinamento de modelo de recompensa  O DPO elimina a necessidade de treinar um modelo de recompensa adicional, economizando recursos computacionais e eliminando os desafios associados à precisão e manutenção do modelo de recompensa. Desenvolver um modelo de recompensa eficiente que interprete o feedback humano em sinais acionáveis para IA é uma tarefa complexa. Requer um esforço substancial e necessita de atualizações regulares para refletir com precisão a evolução das preferências humanas. O DPO ignora totalmente essa etapa aproveitando diretamente os dados de preferência para melhorar o modelo.   Performance superior  O DPO pode ser tão bom ou até melhor que outros métodos, como RLHF (Reinforcement Learning from Human Feedback) e PPO (Proximal Policy Optimization), para melhorar o desempenho de grandes modelos de linguagem, de acordo com uma pesquisa intitulada   . Direct Preference Optimization: Your Language Model is Secretamente, um modelo de recompensa   Conclusão  A otimização direta de desempenho é uma técnica de ajuste fino estável e eficiente que não requer recursos computacionais excessivos. Ao contrário do RLHF, o DPO não precisa de um modelo de recompensa complexo e de amostragem do modelo de linguagem durante o ajuste fino.  Não é apenas um novo algoritmo, mas uma virada de jogo no modelo de IA, ajustando, simplificando e aprimorando o processo de construção de modelos de linguagem que melhor compreendem e atendem às necessidades humanas.

This story will praise and/or roast a product, company, service, game, or anything else people like to review on the Internet.

The is an opinion piece based on the author’s POV and does not necessarily reflect the views of HackerNoon.

Digital Marketing

Read My Stories

Este áudio é produzido no idioma original da história!

Otimização de preferência direta (DPO): simplificando o ajuste fino de IA para preferências humanas

About Author

COMENTARIOS

Rótulos

ESTE ARTIGO FOI APRESENTADO EM

Related Stories

Crescimento de Criptomoedas: Criando Personas de Usuários Eficazes

Aumente sua produtividade com estas 18 ferramentas para desenvolvedores 🚀🔥

State of the Noonion: A New Era For Brands and Writers

Telegram: a ponte da Crypto Island para o continente

Crescimento de Criptomoedas: Criando Personas de Usuários Eficazes

Aumente sua produtividade com estas 18 ferramentas para desenvolvedores 🚀🔥

State of the Noonion: A New Era For Brands and Writers

Telegram: a ponte da Crypto Island para o continente

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps