Grote Taalmodelle (LLM's) is ongelooflik kragtige algemene, maar om hulle in gespecialiseerde kundiges te transformeer, is 'n groot uitdaging. Die proses van die opleiding van 'n model op nuwe, spesifieke kennis soos interne maatskappy dokumente of 'n komplekse redewerk taak is berugte duur, tydroeiend, en vol vette. Ons wil kleiner, meer doeltreffende modelle wat 'n domein sonder die berekening begroting van 'n tegnologie reus kan beheer. Die kernidee agter die maak van kleiner modelle slimmer is 'n konsep genaamd "destilleer." In hierdie proses leer 'n kleiner "student" model van 'n groter, meer bekwaam "leraar" model. Tot dusver het ingenieurs egter 'n frustrerende kompromie gekonfronteer. Een benadering, on-policy versterking leer (RL), dwing die student om uit sy eie foute te leer, wat relevant is, maar pynlik stadig. Die alternatiewe, off-policy destilleer, is baie vinniger, maar gevaarlik foute; die student leer uit die onderwyser se ideale voorbeelde, wat dikwels voorkom in kontekste wat die student nooit op sy eie sal ontmoet nie, wat foute veroorsaak om te samestel. 'N kragtige tegniek genaamd "on-policy destilleer" kombineer die beste van beide wêrelde. Deur 'n onderwysermodel dik, token-by-token-feedback op die studentmodel se eie pogings te gee, kan ons deurbrake in opleiding doeltreffendheid en vermoë bereik. Hier is die vier mees verrassende en impaklike takeaways van hierdie benadering. 'N Smarter Feedback Loop maak AI-opleiding tot 100x goedkoper Die fundamentele verskil tussen versterkende leer (RL) en destilleer lê in die dichtheid van die terugvoer. On-policy RL is soos om skaak te leer deur slegs te word vertel of jy aan die einde van 'n wedstryd gewen of verloor het. Die terugvoer is direk verband hou met jou optrede, maar dit is skaars. U waarneem briljante bewegings, maar hulle word in komplekse bordposisies gemaak wat u, as 'n beginner, selde jouself sal vind. On-policy destilleer bied die beste van beide wêrelde.Dit is soos om 'n deskundige afrigter te hê wat elke enkele van jou bewegings in jou eie speletjies beoordeel en jou vertel of 'n beweging 'n "misverstandige", "onnauwkeurigheid" of "briljante" was. Hierdie slimmer terugvoer loop het 'n massiewe impak op doeltreffendheid. In 'n direkte terug-tot-terug vergelyking waar 'n studentmodel geleer het van 'n onderwyser wat via RL opgelei is, het on-policy destilleer die student toelaat om die onderwyser se prestasie vlak 7-10 keer vinniger te bereik in terme van gradient stappe. Die rede vir hierdie dramatiese versneling is dat on-policy destilleer meer nuttige inligting bied (meer "bits per episode") vir die model om van te leer. Jy Kan "AI Amnesia" Genes As Jy Nuwe Wetenskap Onderrig Wanneer jy 'n vooraf opgeleide model neem en dit op nuwe, gespesialiseerde inligting (soos jou maatskappy se interne kennisbasis) verlig, verval dit dikwels of vergeet dit heeltemal sy oorspronklike, algemene doelvaardighede, soos die vermoë om instruksies te volg. Oorweeg 'n eksperiment om 'n "interne assistent" te skep. navorsers het met die Qwen3-8B-model begin, wat 'n sterk instruksies-volg-score van 85% gehad het. Sy kennis van die dokumente het aansienlik verbeter (van 18% tot 36% op 'n QA-beoordeling). Maar sy onderrig-volgende vaardigheid het ernstig afgedaal, van 85% af tot 79%. Die oplossing was 'n kort fase van on-policy destilleer na die aanvanklike fine-tuning.Door die gebruik van die oorspronklike weergawe van die model as die onderwyser, kon navorsers die verlore gedrag herstel. Instruksies-volgprestasie was byna ten volle herstel, spring terug tot 83%. Belangriker, dit het gebeur sonder om die nuut verkry kennis te verloor. Hierdie bevinding is 'n spelveranderer vir "continuele leer", aka die vermoë om modelle met nuwe inligting met verloop van tyd te actualiseer sonder om duur, volwaardige heropleiding van die grond af uit te voer. 'N AI kan 'n redevaardingsvaardigheid beheer van net een voorbeeld In die meeste AI-opleidingsmetodes is herhaaldelike opleiding van 'n model op presies dieselfde oproep 'n resep vir mislukking; die model memoriseer eenvoudig die antwoord eerder as om die onderliggende vaardigheid te leer. Die navorsers het 'n studentmodel op 'n wiskundige redewerk taak opgelei met behulp van slegs 'n enkele, ewekansig gekies oproep. Die merkwaardige resultaat draai konvensionele wysheid op sy kop: die studentmodel kon ongeveer ooreenstem met die prestasie van die kundige onderwysermodel op die AIME'24-matematiese benchmark, ten spyte van slegs die een probleem wat ooit gesien is. Dit werk omdat on-policy destillasie die model leer om die hele denkeproses van die onderwyser te benader; sy volle waarskynlikheidsverdeling vir wat die volgende beste token by elke stap moet wees, eerder as om net 'n finale antwoord te onthou. Hoekom "oefening" op sy eie monsters 'n AI Dumber kan maak Dit lyk logies dat as 'n model 'n hoë gehalte uitvoer produseer, kan jy daardie uitvoer terugvoer in sy opleiding data om goeie gedrag te versterk. Maar navorsers het bevind dat die teenoorgestelde waar is.Wanneer hulle 'n model met behulp van 'n dataset wat uit sy eie monsters samestel, opgelei het, het sy prestasie op 'n instruksiesvolgende evaluering eintlik afgebreek. Die tegniese rede vir hierdie mislukking is subtiel, maar kritiek. Terwyl die dataset van die model se eie outputs gemiddeld perfek op beleid kan wees, wys elke eindige batch van data 'n liggend verskillende verspreiding. Opleiding op hierdie batches veroorsaak dat die model se interne beleid van sy oorspronklike toestand afdryf. Hierdie proses verander opleiding op sy eie monsters in 'n vorm van off-policy opleiding na verloop van tyd, wat lei tot dieselfde samestelingsfout en divergensies wat in ander gebrekkige metodes gesien word. In teenstelling, on-policy destilleer is heeltemal stabiel in hierdie self-destilleer scenario. Omdat die onderwyser model bly 'n vaste, konsekwente doelwit, kan die student sterk konvergereer op die gewenste gedrag sonder om te verval. Die toekoms van AI is kleiner, vinniger en meer persoonlik On-policy destilleer is meer as net 'n ander opleiding tegniek; dit is 'n fundamentele verskuiwing in hoe ons gespecialiseerde, kundige AI skep. Die voordele is duidelik: massiewe rekenaarsbesparing, 'n genesing vir katastrofiese vergeet, en ongelooflike data-doeltreffendheid.Dit is 'n sleutelvermoëerende tegnologie wat die hindernis vir toegang verlaag, wat die vermoë ontgrendel vir meer span om aangepaste modelle te bou en te handhaaf wat diep domeinkennis besit sonder om kern vermoëns te offer. Hierdie demokratisering van kundige AI sal nuwe besigheidsmodelle voed en kompetitiewe voordele skep wat voorheen vir grenslaboratories gereserveer is. Die Podcast: Die Podcast: Apple: hier Spotify: hier hier hier