Suuret kielimallit (LLM) ovat uskomattoman voimakkaita yleisiä, mutta niiden muuttaminen erikoistuneiksi asiantuntijoiksi on suuri haaste. Mallin kouluttaminen uuteen, erityiseen tietoon, kuten yrityksen sisäisiin asiakirjoihin tai monimutkaiseen päättelytehtävään, on tunnetusti kallista, aikaa vievää ja täynnä ansoja. Haluamme pienempiä, tehokkaampia malleja, jotka voivat hallita verkkotunnusta ilman teknisen jättiläisen laskennallista budjettia. Pienempien mallien älykkäämmäksi tekemisen ydinidea on käsite, jota kutsutaan "tistillaatioksi". Tässä prosessissa pienempi "opiskelijamalli" oppii suuremmasta, kykenevämmästä "opettajan" mallista. Opiskelija ei vain opi staattisesta esimerkkikirjasta; se oppii jäljittelemään opettajan ajatteluprosessia. Toinen lähestymistapa, poliittinen vahvistusoppiminen (RL), pakottaa opiskelijan oppimaan omista virheistään, mikä on merkityksellistä, mutta tuskallisesti hidasta. Vaihtoehtoinen, poliittinen tislaus, on paljon nopeampi, mutta vaarallisesti puutteellinen; opiskelija oppii opettajan ihanteellisista esimerkeistä, jotka usein tapahtuvat tilanteissa, joissa opiskelija ei koskaan kohtaa itseään, mikä aiheuttaa virheitä. Tehokas tekniikka, jota kutsutaan "politiikassa tapahtuvaksi tislaukseksi", yhdistää molempien maailmojen parhaat puolet. Kun opettajan malli antaa tiheää, token-by-token-palautetta opiskelijamallin omista yrityksistä, voimme saavuttaa läpimurtoja koulutuksen tehokkuudessa ja kyvyssä. Älykkäämpi palautesuihku tekee AI-koulutuksesta jopa 100 kertaa halvempaa Perustavanlaatuinen ero vahvistusoppimisen (RL) ja tislauksen välillä on palautteen tiheydessä. On-policy RL on kuin oppiminen shakkia vain kertomalla, jos olet voittanut tai hävinnyt ottelun lopussa. Palaute liittyy suoraan toimiisi, mutta se on harvinaista. Tiedät, että olet hävinnyt, mutta et tiedä, onko se johtui avaamisesta, keskipelin virheestä tai heikosta loppupelistä. Huomaat loistavia liikkeitä, mutta ne tehdään monimutkaisissa lautapaikoissa, joissa sinä, aloittelijana, harvoin löydät itsesi. On-policy tislausta tarjoaa parasta molemmista maailmoista.Se on kuin on asiantuntija valmentaja, joka arvioi jokaisen liikkeesi omissa peleissä, kertomalla sinulle, onko liike ollut "virheellinen", "epätarkkuus" tai "loistava." Tämä älykkäämpi palautesuihke vaikuttaa merkittävästi tehokkuuteen. Suorassa taaksepäin -vertailussa, jossa opiskelijamalli oppii opettajalta, joka on koulutettu RL: n kautta, poliittinen tislaaminen antoi opiskelijalle mahdollisuuden saavuttaa opettajan suorituskyvyn taso 7-10 kertaa nopeammin gradienttivaiheiden osalta. Tämän dramaattisen kiihtyvyyden syynä on se, että poliittinen tislaus tarjoaa enemmän hyödyllistä tietoa (enemmän "bittejä per episodi") mallille oppia.Koska tämä tiheä, tokenitasoinen palaute vähentää gradien melua, se mahdollistaa koulutuksen lyhyemmillä konteksteilla ja pienemmillä, tehokkaammilla erän kokoilla, mikä vähentää edelleen kokonaiskustannuksia. Voit parantaa "AI-amnesiaa" opettamalla uutta tietoa Kun otat ennalta koulutetun mallin ja hienosäädät sen uuteen, erikoistuneeseen tietoon (kuten yrityksesi sisäiseen tietopohjaan), se usein heikentää tai unohtaa kokonaan alkuperäiset, yleiset taidot, kuten kyky noudattaa ohjeita. Harkitse kokeilua luoda "sisäinen avustaja." Tutkijat alkoivat Qwen3-8B-mallilla, jolla oli vahva ohjeiden noudattamista koskeva pisteet 85%. Hänen tietämyksensä asiakirjoista parani merkittävästi (QA-arvioinnissa 18 prosentista 36 prosenttiin). Kuitenkin sen opetuksen jälkeinen taito heikkeni huomattavasti, laski 85 prosentista 79 prosenttiin. Ratkaisu oli lyhyt vaihe poliittisesta tislauksesta alkuperäisen hienosäädön jälkeen.Käyttämällä mallin alkuperäistä versiota opettajana tutkijat pystyivät palauttamaan kadonneen käyttäytymisen.Tulokset olivat voimakkaita: Ohjeiden mukainen suorituskyky oli lähes täysin palautunut, hyppäämällä takaisin 83 prosenttiin. Tärkeintä on, että tämä tapahtui menettämättä äskettäin hankittua tietoa. Itse asiassa tietopiste jopa parani hieman 41 prosenttiin. Tämä löytö on pelimuuttaja "jatkuvalle oppimiselle", eli kyvystä päivittää malleja uusilla tiedoilla ajan myötä ilman, että tarvitaan kalliita, täysimittaisia uudelleenkoulutuksia tyhjästä. AI voi hallita ajattelutaitoa vain yhdestä esimerkistä Useimmissa AI-koulutusmenetelmissä mallin kouluttaminen toistuvasti täsmälleen samalla ohjeella on resepti epäonnistumiselle; malli yksinkertaisesti muistaa vastauksen sen sijaan, että oppii taustalla olevan taidon. Tutkijat kouluttivat opiskelijamallin matemaattiseen päättelytehtävään käyttämällä vain yhtä, satunnaisesti valittua käskyä. Merkittävä tulos kääntää perinteisen viisauden päähän: opiskelijamalli pystyi vastaamaan suunnilleen asiantuntija-opettajan mallin suorituskykyä AIME'24: n matemaattisessa vertailuarvossa, vaikka hän oli nähnyt vain yhden ongelman. Tämä toimii, koska poliittinen tislaus opettaa mallia lähentämään opettajan koko ajatteluprosessia; sen täysi todennäköisyysjakelu siitä, mitä seuraava paras token pitäisi olla jokaisessa vaiheessa, sen sijaan, että vain muistettaisiin lopullinen vastaus. Miksi "harjoittelu" omilla näytteillä voi tehdä AI: n tyhmäksi Näyttää loogiselta, että jos malli tuottaa laadukasta tuotantoa, voit syöttää tuon tuotannon takaisin koulutustietoihinsa vahvistaaksesi hyvää käyttäytymistä.Tämä menetelmä, joka tunnetaan valvotuksi hienosäädökseksi (SFT) politiikassa olevista tiedoista, on kuin malli "käytäntö" omassa parhaassa työssään. Mutta tutkijat havaitsivat päinvastaisen olevan totta.Kun he kouluttivat mallia käyttämällä sen omista näytteistä koostuvaa tietokokonaisuutta, sen suorituskyky ohjeiden mukaisessa arvioinnissa todella heikkeni. Tekninen syy tähän epäonnistumiseen on hienovarainen, mutta kriittinen. Vaikka mallin omien tuotantojen tietokokonaisuus voi olla täysin poliittinen keskimäärin, jokainen lopullinen tietopaketti osoittaa hieman erilaisen jakautumisen. Näiden erien koulutus aiheuttaa mallin sisäisen politiikan siirtymisen pois alkuperäisestä tilasta. Tämä prosessi muuttaa omien näytteiden koulutuksen muodoksi poliittisen koulutuksen muodossa ajan myötä, mikä johtaa samaan yhdistelmävirheeseen ja erimielisyyksiin, joita havaitaan muissa viallisissa menetelmissä. Sitä vastoin poliittinen tislaus on täysin vakaa tässä itse tislausskenaariossa. Koska opettajan malli pysyy kiinteänä, johdonmukaisena tavoitteena, opiskelija voi vakaasti lähestyä toivottua käyttäytymistä ilman heikentymistä.Tämä lisää poliittista tislausta ylemmäksi ja luotettavammaksi välineeksi käyttäytymisen parantamiseksi ja jatkuvassa oppimisessa. AI:n tulevaisuus on pienempi, nopeampi ja henkilökohtaisempi On-policy tislaaminen on enemmän kuin vain toinen koulutustekniikka; se on perustavanlaatuinen muutos siinä, miten luomme erikoistunutta, asiantuntevaa AI: ta. Yhdistämällä oppimisen suora merkitys omasta toiminnasta uskomattoman tehokkaan tiheän, token-by-token-palautteen kanssa se ratkaisee joitakin suurimpia haasteita sovelletussa AI: ssa. Hyödyt ovat selkeät: massiiviset laskennalliset säästöt, parannuskeino katastrofaaliselle unohdukselle ja uskomaton datatehokkuus.Tämä on avainteknologia, joka mahdollistaa pääsyn esteen alentamisen, avaamalla kyvyn useammille tiimille rakentaa ja ylläpitää räätälöityjä malleja, joilla on syvällistä verkkotunnusta tietoa uhraamatta ydinominaisuuksia. Tässä podcast: Tässä podcast: Apple: Täältä Spotify: Täällä Täällä Täällä