Prepare-se para um terremoto de IA! Uma equipe de pesquisadores da UCLA (   n,   ,   ,     ) lançou algumas chaves importantes para AGI. Não é apenas o código para uma IA que parece realmente humana, mas eles também abriram o código-fonte de tudo. @zxche @Yihe__Deng @HuizhuoY @Kaixuan_Ji_19, @QuanquanGu  Agora você pode desenvolver LLMs melhores sem precisar alimentá-los com toneladas de novos dados anotados por humanos.   Primeiro, vamos nos concentrar na mudança de jogo aqui: um modelo de linguagem autodidata.  Esse método permite que um modelo de linguagem   tornando-se cada vez melhor sem grandes quantidades de dados novos e selecionados externamente. aprenda sozinho,  Apresentando o SPIN: Self-Play Fine-Tuning converte modelos de linguagem fraca em modelos de linguagem forte  Entrei no modo de aprofundamento completo - li o artigo deles ("   "), vasculhei os insights em fóruns como   ,   e   com Google Gemini Ultra e GPT-4 Turbo – e o conceito central do SPIN surpreendeu meus amantes metafóricos da tecnologia: Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models HackerNews X Reddit  O truque do 'parceiro de conversa'  Imagine começar com um modelo de linguagem que domina habilidades básicas (digamos, etiqueta de conversação). Com o SPIN, o modelo   construindo um conjunto de dados a partir do que já conhece. gera “conversas” internas,   Expansão instantânea do conhecimento!  O segundo passo envolve lançar um novo modelo e atribuir-lhe uma tarefa: identificar a diferença entre   e comunicação humana genuína. Isso força o modelo original a melhorar seu jogo, tornando-se cada vez mais   a cada resposta para evitar a detecção. chats gerados por máquina humano  É aqui que as coisas ficam interessantes. Eles começaram com   (já ajustado com   ). A SPIN lançou um sistema de treinamento iterativo com este modelo básico, melhorando-o exponencialmente sem depender de toneladas de novos dados criados externamente. zephyr-7b-sft-full o corpus UltraChat  SPIN vs. treinamento tradicional de IA (DPO): um novo campeão?  Geralmente pensamos que o aprendizado de máquina, especialmente para esses enormes modelos de linguagem, requer muitos dados cuidadosamente selecionados e rotulados. Os métodos   envolvem humanos classificando meticulosamente as respostas de IA entre si para treinamento. Isso não é apenas trabalhoso, mas também aumenta os custos à medida que o conjunto de dados cresce. de otimização de preferência direta (DPO)  A Otimização de Preferência Direta (DTO) é um método de treinamento em que um modelo é ajustado usando um conjunto de dados de preferências, geralmente envolvendo julgamentos humanos que decidem quais das respostas geradas pelo modelo são preferidas. Este método requer a coleta de novos dados, onde cada peça é rotulada com base nessas preferências, o que pode consumir muitos recursos.  Em contraste, o SPIN utiliza   , reduzindo significativamente a necessidade de novos dados. a reprodução automática iterativa  Na primeira iteração,   , destacando a sua eficiência e eficácia no aproveitamento dos dados existentes para melhorar o desempenho do modelo.  o desempenho do SPIN já excede o do DPO na maioria dos casos  O SPIN mostra sua força ao alcançar   . O processo de   melhora metodicamente o desempenho do modelo em várias iterações,   , especialmente em benchmarks desafiadores como TruthfulQA e GSM8k.  desempenho equivalente com modelos treinados em conjuntos de dados mais extensos treinamento iterativo apresentando melhorias substanciais  Assim, o SPIN supera os métodos de treinamento convencionais, incluindo o DPO, ao aproveitar com eficiência conjuntos de dados sintéticos gerados por meio da reprodução automática, sem a necessidade de dados adicionais anotados por humanos.  Quais são os pontos fortes e os custos da SPIN?  SPIN lança uma bola curva com sua dinâmica de jogo automático.  Pense nisso como um modelo de linguagem lutando consigo mesmo em um ringue de boxe linguístico, com cada rodada ensinando novos truques.  A eficiência dos dados do SPIN ignora a necessidade de novos conjuntos de dados anotados por humanos.  Mas o mais importante é que   ,   . acelera o ciclo de melhoria tornando o modelo cada vez mais apto a gerar texto semelhante ao humano  O SPIN não apenas parece corresponder a modelos treinados em conjuntos de dados externos maiores, mas seu poder iterativo significa ganhos consistentes, pois estuda essencialmente seus próprios resultados.  Alucinante, certo?  Ok, vamos conversar sobre o elefante na sala – COST  O cofundador da Nous Research   tem razão. Esses grandes modelos de linguagem não ficam mais inteligentes de graça. O retreinamento iterativo com SPIN envolve sempre o caro processo de ajuste fino supervisionado (SFT). , @Teknium1,  Porém, ele também menciona que “acho que vale a pena!”. Além disso, os benefícios a longo prazo de uma evolução mais rápida e potencialmente menos dependência de dados anotados por humanos superam o investimento inicial? Essa é a pergunta emocionante!  ESTRONDO! É hora da IA de código aberto  Ainda ontem,   , professor associado de ciência da computação na UCLA e diretor de pesquisa de IA da ByteDance, anunciou que   . Isso não significa apenas código e conjuntos de dados, mas modelos pré-treinados para iniciar suas próprias jornadas de IA. Quanquan Gu agora qualquer pessoa pode usar o modelo e conjunto de dados SPIN   SPIN reflete os processos de pensamento humano.  Ao gerar um texto que parece humano, o SPIN sugere os elementos fundamentais do raciocínio que a IA do futuro poderia fazer. Você sabe como algumas saídas do LLM parecem robóticas, certo? Bem, SPIN é diferente. Na verdade, reflete a maneira como os humanos pensam. A maneira como escreve parece tão natural que é como uma espiada em como a IA do futuro poderá raciocinar por si mesma.  Não se trata apenas de fazer com que os chatbots pareçam mais agradáveis.    Trata-se de criar um tipo de pensamento digital que funcione como o nosso. Esse tipo de IA seria muito mais flexível e capaz de uma compreensão real.  Embora o SPIN seja um grande avanço no sentido de tornar os modelos de linguagem mais naturais,   . é fácil ficar entusiasmado e superestimar o que isso significa  O texto que produz é impressionante (você pode dar uma olhada no banco de dados), mas é importante lembrar que a IA ainda não tem capacidade para um raciocínio verdadeiramente independente.  Embora SPIN não seja   verdadeiro, a forma como ele imita a escrita humana demonstra avanços impressionantes em como a IA poderia processar e usar a linguagem no futuro. AGI  Mesmo assim, sugere possibilidades surpreendentes de como a IA e a linguagem poderão desenvolver-se no futuro (se nos lembrarmos que estamos no início do taco de hóquei, o futuro não está longe de hoje...)  Os efeitos cascata serão enormes e aqui está o seu passe de acesso:  Código: Disponível no   :  GitHub https://github.com/uclaml/SPIN  Dados: hospedado no   , o conjunto de dados é facilmente acessível para aqueles ansiosos por aplicar metodologias SPIN:  Hugging Face https://huggingface.co/collections/UCLA-AGI/datasets-spin-65c3624e98d4b589bbc76f3a…  Modelos: modelos pré-treinados também estão disponíveis, oferecendo uma vantagem inicial para experimentar modelos de linguagem aprimorados por SPIN:  https://huggingface.co/collections/UCLA-AGI/zephyr-7b-sft-full-spin-65c361dfca65637272a02c40…  Página do projeto: Para insights abrangentes e mais informações, a página do projeto é um recurso inestimável:  https://uclaml.github.io/SPIN/  Resumindo, sua metodologia iterativa e de autoaperfeiçoamento é um avanço significativo na criação de um LLM que pode se envolver em uma comunicação genuinamente humana.  Originalmente compartilhado em minha  conta X.

Let's connect and explore together!

Read My Stories

Este áudio é produzido no idioma original da história!

Projeto AGI? SPIN de código aberto para pesquisadores da UCLA - um modelo de linguagem que se aprimora automaticamente

About Author

COMENTARIOS

Rótulos

ESTE ARTIGO FOI APRESENTADO EM

Related Stories

Valhalla de Floki se junta como patrocinador associado da viagem da Índia ao Sri Lanka

Vazamento do prompt do sistema Claude Sonnet 3.5: uma análise forense

Crescimento de Criptomoedas: Criando Personas de Usuários Eficazes

Liberando o poder da IA. Uma revisão sistemática de técnicas de ponta: resumo e introdução

Valhalla de Floki se junta como patrocinador associado da viagem da Índia ao Sri Lanka

Vazamento do prompt do sistema Claude Sonnet 3.5: uma análise forense

Crescimento de Criptomoedas: Criando Personas de Usuários Eficazes

Liberando o poder da IA. Uma revisão sistemática de técnicas de ponta: resumo e introdução

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps