Lielo valodu modeļi (LLM) ir neticami spēcīgi ģenerālisti, bet to pārveidošana par specializētiem ekspertiem ir liels izaicinājums. Process, kā apmācīt modeli uz jaunām, specifiskām zināšanām, piemēram, iekšējiem uzņēmuma dokumentiem vai sarežģītam pamatojuma uzdevumam, ir notoriski dārgs, laikietilpīgs un pilns ar slazdiem. Galvenā ideja par to, kā padarīt mazākus modeļus gudrākus, ir koncepcija, ko sauc par "destilāciju". Šajā procesā mazāks "studentu" modelis mācās no lielāka, spējīgāka "skolotāja" modeļa.Students ne tikai mācās no statiskas mācību grāmatas ar piemēriem; tas iemācās imitēt skolotāja domāšanas procesu. Līdz šim, tomēr, inženieri ir saskārušies ar neapmierinošu kompromisu. Viena pieeja, uz politikas pastiprināšanas mācīšanās (RL), liek studentam mācīties no savām kļūdām, kas ir svarīga, bet sāpīgi lēna. alternatīva, ārpus politikas destilācija, ir daudz ātrāka, bet bīstami kļūdaina; students mācās no skolotāja ideālajiem piemēriem, kas bieži notiek apstākļos, kuros students nekad nesaskarsies pats, izraisot kļūdas. Spēcīga tehnika, ko sauc par "on-policy destilāciju", apvieno labāko no abām pasaulēm. Ar skolotāja modeli, kas sniedz blīvu, token-by-token atgriezenisko saiti par studenta modeļa pašu mēģinājumiem, mēs varam sasniegt sasniegumus apmācības efektivitātes un spējas. Gudrāks atgriezeniskās saites loks padara AI apmācību līdz pat 100x lētāku Galvenā atšķirība starp Reinforcement Learning (RL) un Destilāciju ir atgriezeniskās saites blīvums. On-policy RL ir kā mācīties šahu, tikai pateicoties tam, vai jūs uzvarējāt vai zaudējāt spēles beigās. atgriezeniskā saite ir tieši saistīta ar jūsu darbībām, bet tā ir reti. Jūs zināt, ka esat zaudējis, bet jūs nezināt, vai tas bija jūsu atvēršanas, vidusspēles kļūdas vai vāja beigas dēļ. Jūs novērojat izcili kustības, bet tās tiek veiktas sarežģītās padomes pozīcijās, kuras jūs, kā iesācējs, reti atradīsiet. atgriezeniskā saite ir blīva, bet konteksts bieži vien nav svarīgs jūsu paša mācīšanās ceļam. On-policy destilācija nodrošina labāko no abām pasaulēm. tas ir tāpat kā ar ekspertu treneri, kurš novērtē katru jūsu kustību savās spēlēs, stāstot jums, vai kustība bija "nepareiza", "nepareiza" vai "brīnišķīga". atgriezeniskā saite ir gan blīva, gan pilnīgi atbilstoša jūsu pašreizējam prasmju līmenim. Šis gudrāks atgriezeniskās saites sloksne ir milzīga ietekme uz efektivitāti. Tiešā atpakaļ-atpakaļ salīdzinājumā, kur skolēnu modelis mācījās no skolotāja, kas apmācīts, izmantojot RL, on-policy destilācija ļāva studentam sasniegt skolotāja veiktspējas līmeni 7-10 reizes ātrāk, runājot par gradientu soļiem. Šī dramatiska paātrinājuma iemesls ir tas, ka on-policy destilācija sniedz vairāk noderīgas informācijas (vairāk "bitu uz epizodi"), lai modelis varētu mācīties no. Tā kā šī blīva, žetonu līmeņa atgriezeniskā saite samazina gradientu troksni, tas ļauj apmācīt ar īsākiem kontekstiem un mazākiem, efektīvākiem partiju izmēriem, vēl vairāk samazinot kopējās aprēķina izmaksas. Jūs varat izārstēt "AI amnēziju", mācot jaunas zināšanas Kad jūs lietojat iepriekš apmācītu modeli un pielāgojat to jaunai, specializētai informācijai (piemēram, jūsu uzņēmuma iekšējai zināšanu bāzei), tā bieži degradē vai pilnībā aizmirst par sākotnējām, vispārējām prasmēm, piemēram, spēju sekot instrukcijām. Apsveriet eksperimentu, lai izveidotu "iekšējo palīgu." Pētnieki sāka ar Qwen3-8B modeli, kuram bija spēcīgs instrukciju sekošanas rezultāts 85%. Viņa zināšanas par dokumentiem ievērojami uzlabojās (no 18% līdz 36% QA novērtējumā). Tomēr viņa prasmes sekot instrukcijām slikti samazinājās, samazinoties no 85% līdz 79%. Risinājums bija īss distilācijas posms pēc sākotnējās izlīdzināšanas. Izmantojot sākotnējo modeļa versiju kā skolotāju, pētnieki varēja atjaunot zaudēto uzvedību. Pēc instrukcijām veiktspēja tika gandrīz pilnībā atjaunota, palielinoties līdz 83%. Galvenais, ka tas notika, nezaudējot nesen iegūtās zināšanas.Patiesībā zināšanu rezultāts pat nedaudz uzlabojās līdz 41%. Šis atklājums ir spēļu mainītājs "pastāvīgajai mācīšanai", kas pazīstama kā spēja atjaunināt modeļus ar jaunu informāciju laika gaitā, bez nepieciešamības veikt dārgu, pilna mēroga pārkvalifikāciju no nulles. AI var apgūt pamatojuma prasmi tikai no viena piemēra Lielākajā daļā AI apmācības metožu, atkārtoti apmācot modeli uz tieši tā paša pamudinājuma ir recepte neveiksmei; modelis vienkārši atceras atbildi, nevis iemācās pamatprasmi. Pētnieki apmācīja studentu modeli par matemātisko pamatojumu uzdevumu, izmantojot tikai vienu, nejauši izvēlētu uzaicinājumu. viņi apmācīja šo vienu uzaicinājumu 20 secīgiem soļiem, katrs ar 256 ieviešanas partiju, radot 5,120 kopējās mācīšanās secības. Nozīmīgs rezultāts pārvērš parasto gudrību galvā: studentu modelis varēja aptuveni atbilst ekspertu skolotāja modelim AIME'24 matemātikas kritērijā, neskatoties tikai uz to, ka viņš kādreiz ir redzējis šo vienu problēmu. Tas darbojas, jo on-policy destilācija māca modeli, lai tuvinātu skolotāja visu domāšanas procesu; tā pilna varbūtības sadalījums par to, kas nākamajam labākajam žetonam vajadzētu būt katrā posmā, nevis tikai atcerēties galīgo atbildi. Kāpēc "praktizēšana" uz saviem paraugiem var padarīt AI stulbu Šķiet loģiski, ka, ja modelis rada augstas kvalitātes izeju, jūs varat ievadīt šo izeju atpakaļ tās apmācības datiem, lai nostiprinātu labu uzvedību. Kad viņi apmācīja modeli, izmantojot datu kopu, kas sastāv no saviem paraugiem, tā veiktspēja pēc instrukciju novērtēšanas faktiski pasliktinājās. Šīs neveiksmes tehniskais iemesls ir smalks, bet kritisks. Kaut arī modeļa paša izejas datu kopums vidēji var būt pilnīgi uz politikas pamata, katrai datu partijai ir nedaudz atšķirīgs sadalījums. Apmācība par šīm partijām izraisa modeļa iekšējo politiku, kas novirzās prom no tā sākotnējā stāvokļa. Šis process laika gaitā pārvērš apmācību par saviem paraugiem par ārpus politikas apmācību, izraisot to pašu kompozīcijas kļūdu un atšķirības, kas redzamas citās nepilnīgās metodēs. Tā kā skolotāja modelis joprojām ir fiksēts, konsekvents mērķis, students var stingri konverģēt uz vēlamo uzvedību bez degradācijas. AI nākotne ir mazāka, ātrāka un personiskāka On-policy destilācija ir vairāk nekā tikai vēl viena apmācības tehnika; tā ir fundamentāla pārmaiņa, kā mēs izveidojam specializētu, ekspertu AI. Apvienojot tiešo nozīmi mācīties no savām darbībām ar neticamo efektivitāti blīvu, token-by-token atgriezenisko saiti, tas atrisina dažas no lielākajām problēmām pielietotā AI. Priekšrocības ir acīmredzamas: masveida aprēķinu ietaupījumi, izārstēt katastrofālu aizmirstību un neticami datu efektivitāti.Tas ir galvenais ļauj tehnoloģija, kas pazemina šķērsli ieceļošanai, atbloķējot iespēju vairākām komandām veidot un uzturēt pielāgotus modeļus, kuriem ir dziļas domēna zināšanas, nezaudējot galvenās spējas.Šī ekspertu AI demokratizācija veicinās jaunus uzņēmējdarbības modeļus un radīs konkurētspējīgas priekšrocības, kas iepriekš bija rezervētas robežu laboratorijām. Podkasta vēsture: Podkasta vēsture: Apple: šeit Spotify: šeit Šeit Šeit