I grandi modelli linguistici (LLM) sono incredibilmente potenti generali, ma trasformarli in esperti specializzati è una sfida importante.Il processo di formazione di un modello su nuove conoscenze specifiche come documenti interni aziendali o un compito di ragionamento complesso è notoriamente costoso, a lungo termine e pieno di trappole.Vogliamo modelli più piccoli ed efficienti che possano padroneggiare un dominio senza il budget di calcolo di un gigante tecnologico. L'idea principale di rendere i modelli più piccoli più intelligenti è un concetto chiamato "distillazione". In questo processo, un modello "studente" più piccolo impara da un modello "insegnante" più grande e più capace. Lo studente non impara solo da un manuale statico di esempi; impara a imitare il processo di pensiero dell'insegnante. Fino ad ora, tuttavia, gli ingegneri hanno affrontato un frustrante compromesso. Un approccio, l'apprendimento di rinforzo sulla politica (RL), costringe lo studente a imparare dai propri errori, che è rilevante ma dolorosamente lento. L'alternativa, la distillazione fuori dalla politica, è molto più veloce ma pericolosamente difettosa; lo studente impara dagli esempi ideali dell'insegnante, che spesso si verificano in contesti che lo studente non incontrerà mai da solo, causando errori da comporre. Una potente tecnica chiamata "distillazione on-policy" combina il meglio di entrambi i mondi. Avendo un modello di insegnante che fornisce un feedback denso, token-by-token sui tentativi del modello dello studente, possiamo raggiungere dei progressi nell'efficienza e nella capacità di formazione. Ecco i quattro risultati più sorprendenti e di impatto da questo approccio. Un ciclo di feedback più intelligente rende la formazione AI fino a 100x più economica La differenza fondamentale tra Reinforcement Learning (RL) e Distillazione sta nella densità del feedback. La RL on-policy è come imparare a giocare a scacchi solo dicendoti se hai vinto o perso alla fine di una partita.Il feedback è direttamente correlato alle tue azioni, ma è scarsa.Sai che hai perso, ma non sai se è stato a causa della tua apertura, di un errore a metà partita o di un finale debole. La distillazione off-policy è come guardare un gioco del grande maestro. osservi movimenti brillanti, ma sono fatti in posizioni di tavolo complesse che tu, come principiante, raramente ti troverai. La distillazione on-policy fornisce il meglio di entrambi i mondi. È come avere un allenatore esperto che valuta ogni singolo movimento nei tuoi giochi, dicendoti se un movimento è stato un "errore", "inaccuratezza" o "brillante". Questo ciclo di feedback più intelligente ha un impatto enorme sull'efficienza. In un confronto diretto tra gli studenti, in cui un modello di studente ha imparato da un insegnante addestrato tramite RL, la distillazione on-policy ha permesso allo studente di raggiungere il livello di prestazioni dell'insegnante 7-10 volte più velocemente in termini di passi di gradimento. La ragione di questa accelerazione drammatica è che la distillazione on-policy fornisce più informazioni utili (più "bit per episodio") per il modello da imparare.Poiché questo feedback denso a livello di token riduce il rumore dei gradienti, consente la formazione con contesti più brevi e dimensioni di lotto più piccole ed efficienti, riducendo ulteriormente il costo complessivo del calcolo. Si può curare “AI Amnesia” quando si insegna nuove conoscenze Quando prendi un modello pre-addestrato e lo raffini su nuove informazioni specializzate (come la base di conoscenze interna della tua azienda), spesso degrada o dimentica completamente le sue abilità originali, di scopo generale, come la capacità di seguire le istruzioni. I ricercatori hanno iniziato con il modello Qwen3-8B, che aveva un forte punteggio di seguimento delle istruzioni dell'85%. La sua conoscenza dei documenti è migliorata significativamente (dal 18% al 36% su una valutazione QA). Tuttavia, la sua capacità di seguire le istruzioni si è deteriorata pesantemente, cadendo dall'85% al 79%. La soluzione è stata una breve fase di distillazione on-policy dopo il fine-tuning iniziale. Utilizzando la versione originale del modello come insegnante, i ricercatori sono stati in grado di ripristinare il comportamento perso. Le prestazioni seguendo le istruzioni sono state quasi completamente ripristinate, salendo fino all'83%. In effetti, il punteggio delle conoscenze è persino migliorato leggermente al 41%. Questa scoperta è un cambiatore di gioco per "apprendimento continuo", cioè la capacità di aggiornare i modelli con nuove informazioni nel tempo senza dover eseguire costosi, ri-allenamenti su larga scala da zero. Un AI può padroneggiare una capacità di ragionamento da un solo esempio Nella maggior parte dei metodi di formazione AI, l'addestramento ripetuto di un modello sulla stessa istanza è una ricetta per il fallimento; il modello memorizza semplicemente la risposta piuttosto che imparare l'abilità sottostante. I ricercatori hanno addestrato un modello di studente su un compito di ragionamento matematico utilizzando solo un singolo prompt scelto casualmente. Il risultato notevole ruota la saggezza convenzionale sulla testa: il modello studentesco è stato in grado di corrispondere approssimativamente alle prestazioni del modello di insegnante esperto sul benchmark matematico AIME'24, nonostante abbia mai visto solo quel problema. Questo funziona perché la distillazione on-policy insegna al modello a approssimare l'intero processo di pensiero dell'insegnante; la sua distribuzione di probabilità completa per ciò che il prossimo miglior token dovrebbe essere a ogni passo, piuttosto che semplicemente memorizzare una risposta finale. Perché "la pratica" sui propri campioni può rendere un'IA stupida Sembra logico che se un modello produce un output di alta qualità, si potrebbe alimentare quel output di nuovo nei suoi dati di formazione per rafforzare il buon comportamento. Questo metodo, noto come fine-tuning supervisionato (SFT) sui dati sulla politica, è come avere il modello "pratiche" sul suo lavoro migliore. Ma i ricercatori hanno scoperto che il contrario era vero.Quando hanno addestrato un modello utilizzando un set di dati composto da campioni propri, le sue prestazioni su una valutazione seguente le istruzioni sono effettivamente degradate. La ragione tecnica di questo fallimento è sottile ma critica. Mentre il set di dati delle proprie uscite del modello potrebbe essere perfettamente on-policy in media, ogni lotto finito di dati mostra una distribuzione leggermente diversa. La formazione su questi lotti provoca la politica interna del modello a scorrere lontano dal suo stato originale. Questo processo trasforma la formazione sui propri campioni in una forma di formazione off-policy nel tempo, portando allo stesso errore di composizione e divergenza visti in altri metodi difettosi. In contrasto, la distillazione on-policy è completamente stabile in questo scenario di autodistillazione. Poiché il modello dell'insegnante rimane un obiettivo fisso e coerente, lo studente può convergere in modo robusto sul comportamento desiderato senza degradarlo. Il futuro dell'IA è più piccolo, più veloce e più personale La distillazione on-policy è più di un'altra tecnica di formazione; è un cambiamento fondamentale nel modo in cui creiamo l'IA specializzata e esperta. Combinando la rilevanza diretta dell'apprendimento dalle proprie azioni con l'incredibile efficienza di feedback densi, token-by-token, risolve alcune delle più grandi sfide nell'IA applicata. I vantaggi sono chiari: massicci risparmi computazionali, una cura per l'oblio catastrofico e un'efficienza dei dati incredibile.Questa è una tecnologia chiave che consente di abbassare la barriera all'ingresso, sbloccando la possibilità per più squadre di costruire e mantenere modelli personalizzati che possiedono profonda conoscenza del dominio senza sacrificare le capacità di base.Questa democratizzazione dell'IA esperta alimenterà nuovi modelli di business e creerà vantaggi competitivi precedentemente riservati ai laboratori di frontiera. Il podcast: Il podcast: Apple: qui Spotify: qui qui qui