Великі мовні моделі (LLM) є неймовірно потужними генералістами, але перетворення їх в спеціалізованих експертів є великим викликом. Процес навчання моделі на нових, специфічних знаннях, таких як внутрішні документи компанії або складне завдання міркування, є відомим дорогим, тривалим і наповненим пастками. Ми хочемо менших, більш ефективних моделей, які можуть освоїти домен без обчислювального бюджету технологічного гіганта. Основна ідея, що стоїть за тим, щоб зробити менші моделі розумнішими, - це концепція під назвою "дестиляція".У цьому процесі менша модель "студента" вчиться від більшої, більш здатної моделі "викладача".Студент не тільки вчиться з статичної підручниці з прикладів; він вчиться імітувати процес мислення вчителя. До теперішнього часу, однак, інженери зіткнулися з розчаровуючим компромісом. Один підхід, навчання з політиками (RL), змушує студента вчитися на власних помилках, що є актуальним, але болісно повільним. Альтернативна, позаполітична дистиляція, набагато швидше, але небезпечно дефектна; студент вчиться на ідеальних прикладах вчителя, які часто відбуваються в контекстах, в яких студент ніколи не зіткнеться самостійно, викликаючи помилки. Потужна техніка під назвою "дестиляція на політиці" поєднує в собі найкраще з обох світів. Завдяки тому, що модель вчителя надає щільну, токен-по-токен відгук про власні спроби моделі студента, ми можемо досягти проривів у ефективності та можливостях навчання. Ось чотири найбільш дивовижні та впливові підходи з цього підходу. Розумний ланцюг зворотного зв'язку робить навчання AI до 100 разів дешевше Основна різниця між Reinforcement Learning (RL) і Destillation полягає в щільності зворотного зв'язку. On-policy RL схожий на вивчення шахів, коли вам розповідають тільки про те, чи виграли або програли в кінці матчу.Відгуки безпосередньо пов'язані з вашими діями, але це рідко.Ви знаєте, що ви програли, але не знаєте, чи це було через ваше відкриття, помилку в середині гри, або слабкий кінець гри. Ви спостерігаєте блискучі рухи, але вони робляться в складних позиціях, які ви, як новачок, рідко знайдете себе в. Відгуки густі, але контекст часто не має відношення до вашого власного шляху навчання. Це схоже на те, що у вас є експерт-тренер, який оцінює кожен з ваших ходів у ваших власних іграх, розповідаючи вам, чи був ход "помилковим", "неточністю" або "блискучим". У прямому порівнянні назад-назад, де студентська модель дізналася від вчителя, навченого через RL, дестиляція на політиці дозволила студенту досягти рівня продуктивності вчителя в 7-10 разів швидше з точки зору градусних кроків. це перекладається на приголомшливе 50-100-кратне поліпшення кумулятивної обчислювальної ефективності. Причина цього драматичного прискорення полягає в тому, що дестиляція на політиці забезпечує більше корисної інформації (більше "біт на епізод") для моделі, щоб дізнатися з. Оскільки ця щільна зворотна інформація на рівні токенів зменшує шум, це дозволяє тренуватися з коротшими контекстами і меншими, більш ефективними розмірами партій, ще більше скорочуючи загальні обчислювальні витрати. Ви можете вилікувати "AI амнезію" при навчанні нових знань Коли ви приймаєте заздалегідь підготовлену модель і налагоджуєте її на нову, спеціалізовану інформацію (наприклад, внутрішню базу знань вашої компанії), вона часто деградує або повністю забуває про свої оригінальні навички загального призначення, такі як здатність дотримуватися інструкцій. Розглянемо експеримент, щоб створити «внутрішнього помічника».Дослідники почали з моделі Qwen3-8B, яка мала сильний результат, що слідував інструкції 85%.Після тонкого налаштування його на 70-30 суміш внутрішніх документів компанії і загальних даних чату: Його знання про документи значно покращилися (з 18% до 36% за оцінкою QA). Однак його вміння слідувати інструкції погано погіршилося, знизившись з 85% до 79%. Рішення було короткою фазою дестиляції після початкового тонкого налаштування.Використовуючи оригінальну версію моделі як вчителя, дослідники могли відновити втрачену поведінку.Результати були потужними: Використання інструкції було майже повністю відновлено, повернувшись до 83%. Найважливіше, що це сталося без втрати новостворених знань.Насправді, оцінка знань навіть трохи покращилася до 41%. Цей висновок є гра-змінником для "постійного навчання", а також здатність оновлювати моделі з новою інформацією з часом без необхідності виконувати дорогі, повномасштабні перепідготовки з нуля. AI може освоїти навички міркування з одного прикладу У більшості методів навчання AI, повторне навчання моделі на точно тій же поштовху є рецептом для невдачі; модель просто запам'ятовує відповідь, а не вивчає основні навички. Дослідники навчили студентську модель математичного міркування за завданням, використовуючи тільки один, випадково обраний поклик. Дивовижний результат повертає традиційну мудрість на голову: студентська модель змогла приблизно збігатися з продуктивністю експертної моделі вчителів на математичному еталоні AIME'24, незважаючи на те, що бачила тільки одну проблему. Це працює тому, що дестиляція на політиці вчить модель приблизити весь процес мислення вчителя; його повний розподіл ймовірності для того, що наступний кращий токен повинен бути на кожному кроці, а не просто запам'ятовувати остаточну відповідь. Чому "практика" на власних зразках може зробити AI дурним Здається логічним, що якщо модель виробляє високоякісний вихід, ви можете повернути цей вихід у свої дані навчання, щоб підкріпити хорошу поведінку.Цей метод, відомий як наглядове тонке налаштування (SFT) на дані політики, схожий на те, що модель "практикує" на своїй найкращій роботі. Коли дослідники тренували модель, використовуючи набір даних, що складається з її власних зразків, її продуктивність на оцінці за інструкцією насправді деградувалася. Технічна причина цієї невдачі є тонкою, але критичною. Хоча набір даних власних вихідних моделей може бути в середньому цілком на політиці, кожна кінцева партія даних демонструє дещо інший розподіл. Навчання на цих партіях викликає внутрішню політику моделі, щоб відволіктися від її початкового стану. Цей процес перетворює навчання на власні зразки в форму позаполітичного навчання з часом, що призводить до того ж складання помилок і розбіжностей, що спостерігаються в інших дефектних методах. На відміну від цього, дестиляція на політиці є абсолютно стабільною в цьому сценарії самодестиляції. Оскільки модель вчителя залишається фіксованою, послідовною ціллю, студент може міцно конвергувати на бажану поведінку без деградації. Майбутнє штучного інтелекту стане меншим, швидшим і більш персональним On-policy дистиляція - це більше, ніж просто інша техніка навчання; це фундаментальний зміст у тому, як ми створюємо спеціалізований, експертний AI. Об'єднуючи безпосередню актуальність навчання з власних дій з неймовірною ефективністю щільної, токен-по-токен зворотного зв'язку, це вирішує деякі з найбільших проблем в прикладному AI. Переваги очевидні: масивні обчислювальні заощадження, ліки від катастрофічного забуття та неймовірна ефективність даних.Це ключова технологія, що дозволяє знизити бар'єр до входу, розблокуючи можливість для більшої кількості команд створювати та підтримувати індивідуальні моделі, які володіють глибокими знаннями домену, не жертвуючи основними можливостями. Про Podcast: Про Podcast: Apple: тут Spotify: тут Тут Тут