O processo de treinar um modelo com novos conhecimentos específicos, como documentos internos da empresa ou uma tarefa complexa de raciocínio, é notoriamente caro, demorado e cheio de armadilhas.Queremos modelos menores e mais eficientes que possam dominar um domínio sem o orçamento de computação de um gigante da tecnologia. A ideia central por trás de tornar os modelos menores mais inteligentes é um conceito chamado "destilação".Neste processo, um modelo "aluno" menor aprende de um modelo "professor" maior e mais capaz.O aluno não apenas aprende de um livro estático de exemplos; ele aprende a imitar o processo de pensamento do professor. Até agora, no entanto, os engenheiros enfrentaram um compromisso frustrante.Uma abordagem, a aprendizagem de reforço na política (RL), força o aluno a aprender com seus próprios erros, o que é relevante, mas dolorosamente lento.A destilação alternativa, fora da política, é muito mais rápida, mas perigosamente defeituosa; o aluno aprende com os exemplos ideais do professor, que muitas vezes ocorrem em contextos que o aluno nunca encontrará sozinho, causando erros a se misturar. Uma técnica poderosa chamada "destilação em política" combina o melhor dos dois mundos. Ao ter um modelo de professor fornecendo feedback denso, token-by-token sobre as próprias tentativas do modelo do aluno, podemos alcançar avanços na eficiência e capacidade de treinamento. Aqui estão as quatro mais surpreendentes e impactantes tomadas desta abordagem. Um loop de feedback mais inteligente torna o treinamento de IA até 100x mais barato A diferença fundamental entre Reinforcement Learning (RL) e Destilação reside na densidade do feedback. O RL on-policy é como aprender xadrez só sendo dito se você ganhou ou perdeu no final de um jogo.O feedback está diretamente relacionado com suas ações, mas é escasso.Você sabe que você perdeu, mas você não sabe se foi por causa de sua abertura, um erro no meio do jogo, ou um final fraco. Você observa movimentos brilhantes, mas eles são feitos em posições de mesa complexas que você, como um novato, raramente vai encontrar-se em. A destilação on-policy fornece o melhor de ambos os mundos.É como ter um treinador especializado que avalia cada um dos seus movimentos em seus próprios jogos, dizendo-lhe se um movimento foi um "erro", "inexatidão" ou "brilhante". Este loop de feedback mais inteligente tem um impacto enorme na eficiência.Em uma comparação direta de volta para trás, onde um modelo de aluno aprendeu de um professor treinado via RL, a destilação on-policy permitiu que o aluno alcançasse o nível de desempenho do professor 7-10 vezes mais rápido em termos de passos de gradiente. A razão para esta aceleração dramática é que a destilação on-policy fornece mais informações úteis (mais "bits por episódio") para o modelo aprender com. Como esse feedback denso e de nível de token reduz o ruído de gradiente, permite o treinamento com contextos mais curtos e tamanhos de lote menores e mais eficientes, reduzindo ainda mais o custo computacional geral. Você Pode Curar “AI Amnésia” Ao Ensinar Novo Conhecimento Quando você toma um modelo pré-treinado e o ajusta a novas informações especializadas (como a base de conhecimento interna da sua empresa), muitas vezes degrada ou esquece completamente suas habilidades originais de propósito geral, como a capacidade de seguir instruções. Os pesquisadores começaram com o modelo Qwen3-8B, que tinha uma forte pontuação de seguimento de instruções de 85%. Seu conhecimento sobre os documentos melhorou significativamente (de 18% a 36% em uma avaliação de QA). No entanto, sua habilidade de seguir instruções degradou-se gravemente, caindo de 85% para 79%. A solução foi uma breve fase de destilação on-policy após o ajuste inicial. Usando a versão original do modelo como o professor, os pesquisadores puderam restaurar o comportamento perdido. O desempenho seguindo as instruções foi quase totalmente recuperado, saltando de volta para 83%. Crucialmente, isso aconteceu sem perder o conhecimento recém-adquirido.Na verdade, a pontuação de conhecimento até melhorou ligeiramente para 41%. Esta descoberta é uma mudança de jogo para "aprendizagem contínua", ou seja, a capacidade de atualizar modelos com novas informações ao longo do tempo, sem ter que realizar re-treinamento caro e em grande escala a partir do zero. Uma IA pode dominar uma habilidade de raciocínio a partir de apenas um exemplo Na maioria dos métodos de treinamento de IA, o treinamento repetido de um modelo com exatamente a mesma indicação é uma receita para o fracasso; o modelo simplesmente memoriza a resposta em vez de aprender a habilidade subjacente. Os pesquisadores treinaram um modelo de estudante em uma tarefa de raciocínio matemático usando apenas uma única mensagem escolhida aleatoriamente. O resultado notável transforma a sabedoria convencional em sua cabeça: o modelo de estudante foi capaz de corresponder aproximadamente ao desempenho do modelo de professor especializado no benchmark de matemática AIME '24, apesar de apenas ter visto esse um problema. Isso funciona porque a destilação on-policy ensina o modelo a aproximar todo o processo de pensamento do professor; sua distribuição de probabilidade completa para o que o próximo melhor token deve ser em cada passo, em vez de apenas memorizar uma resposta final. Por que "prática" em suas próprias amostras pode tornar uma IA estúpida Parece lógico que se um modelo produz uma saída de alta qualidade, você poderia alimentar essa saída de volta em seus dados de treinamento para reforçar o bom comportamento. Quando eles treinaram um modelo usando um conjunto de dados composto de suas próprias amostras, seu desempenho em uma avaliação seguindo instruções realmente degradou. A razão técnica para esta falha é sutil, mas crítica. Enquanto o conjunto de dados das saídas próprias do modelo pode ser perfeitamente on-policy em média, cada lote finito de dados exibe uma distribuição ligeiramente diferente. Treinamento nestes lote faz com que a política interna do modelo se afaste de seu estado original. Este processo transforma o treinamento em suas próprias amostras em uma forma de treinamento off-policy ao longo do tempo, levando ao mesmo erro de composição e divergência visto em outros métodos defeituosos. Em contraste, a destilação on-policy é completamente estável neste cenário de autodestilação. Como o modelo do professor permanece um alvo fixo e consistente, o aluno pode convergir robustamente no comportamento desejado sem degradar. Isto consolida ainda mais a destilação on-policy como uma ferramenta superior e mais confiável para o refinamento do comportamento e aprendizado contínuo. O futuro da IA é menor, mais rápido e mais pessoal A destilação on-policy é mais do que apenas outra técnica de treinamento; é uma mudança fundamental na forma como criamos IA especializada e especializada. Ao combinar a relevância direta da aprendizagem de suas próprias ações com a incrível eficiência de feedback denso, token-by-token, resolve alguns dos maiores desafios na IA aplicada. Os benefícios são claros: enormes poupanças de computação, uma cura para o esquecimento catastrófico e eficiência de dados incrível.Esta é uma tecnologia de capacitação chave que reduz a barreira de entrada, desbloqueando a capacidade de mais equipes para construir e manter modelos personalizados que possuam conhecimento de domínio profundo sem sacrificar capacidades centrais.Esta democratização da IA especializada alimentará novos modelos de negócios e criará vantagens competitivas anteriormente reservadas para laboratórios de fronteira. Sobre o Podcast: Sobre o Podcast: Apple: aqui Spotify: aqui aqui aqui