Böyük dil modelləri (LLM) inanılmaz qüvvətli generalistlərdir, lakin onları xüsusiyyətli ekspertlərə dönüştürmək böyük çətinlikdir. yeni, spesifik bilgiyə bənzər bir model öyrənmək prosesi, ya da kompüterin içi dokumentları, ya da kompleks bir dəlil işinin çox ucuzdur, vaxt çəkən və düşmənlərlə doludır. Biz daha kiçik, daha effektiv modellər istəyirik ki, bir texnologiya böyükünün kompüter bütçəsi olmadan bir domene sahib olunsun. Bu prosesdə, daha kiçik bir “öğrenci” modeli daha böyük, daha yetkin bir “öğrenci” modeli ilə öyrənir. VVD - Hollandiyada futbolçu bu adla tanımır, orada VVD daha çox mərkəz-sağı təmsilən edən siyasi partiyanın adının qısaltması kimi bilinir - artıq sorğu-suala ehtiyacı olmayan ulduzdu. VVD - Hollandiyada futbolçu bu adla tanımır, orada VVD daha çox mərkəz-sağı təmsilən edən siyasi partiyanın adının qısaltması kimi bilinir - artıq sorğu-suala ehtiyacı olmayan ulduzdu. “Smart Feedback Loop” “AI Training”u 100 dəfə ucuzlaşdırır “Reflection Learning” (RL) və “Destillation” arasındakı əsas fərq geri bildirimin hündürlüyündədir. “On-policy RL” futbolu oynamağa bənzəyir, ancaq oynadığın oyunun sonunda qazandığın və ya qazandığın barədə danışmaqla. “feedback” sizin əməllərinizlə doğrudan bağlıdır, lakin azdır. Siyasi distilasiya böyük bir oyun izləmək kimidir.Siz brilliant hərəkətləri gözləyirsiniz, lakin onlar kompleks boru pozisyonlarında aparılırlar ki, yenilikçi kimi, özünüzü çox az tapa biləcəksiniz. On-policy destilasiya hər iki dünyanın ən yaxşıını verir.Bu, öz oyunlarınızda hər bir hareketinizi qiymətləndirən bir ekspert antrenora sahib olmaq kimi, bir hareketin "bağışlı", "fəsasızlıq" və ya "brillant" olduğunu söyləyir. Bu daha smart feedback qolu effektivliyə böyük bir təsir göstərir. RL vasitəsilə öyrənilən bir öğretmendən öyrənilən bir öğrenci modelinin doğrudan geri-göhrə qarşılaşmasında, on-policy destilasiya öğrencinin gradiyent adımları baxımından 7-10 dəfə daha sürətlə öğretmenin performans düyməsinə çatmasına imkan verir. VVD - Hollandiyada futbolçu bu adla tanımır, orada VVD daha çox mərkəz-sağı təmsilən edən siyasi partiyanın adının qısaltması kimi bilinir - artıq sorğu-suala ehtiyacı olmayan ulduzdu. “Amnestiya”ya yeni fikirlər öyrətmək lazımdır İT-də yayılan və frustrant problem “katastrofik unutmaq”dır.Öz-çoxlu bir modeli qəbul etdikdə və onu yeni, xüsusiyyətli məlumatlara (şirkətin içi bilgi bazası kimi) düzəltdikdə, o, sıklıqla öz orijinal, general-çoxlu xüsusiyyətlərini, bəlkə talimatları izləmə yetkisini azaldır və ya tamamilə unutur. Araşdırmacılar Qwen3-8B modeli ilə başlayıb, bu modelin 85% -lik güclü instruksiyaların izlənməsinə səbəb olmuşdu. Onun dokumentlar haqqında bilinc çox yaxşılaşdı (18% -dən 36% QA qiymətləndirilir). Bununla birlikte, onun instruksiya izləmək yetirişi ağır düşdü, 85% -dən 79% -ə düşdü. VVD - Hollandiyada futbolçu bu adla tanımır, orada VVD daha çox mərkəz-sağı təmsilən edən siyasi partiyanın adının qısaltması kimi bilinir - artıq sorğu-suala ehtiyacı olmayan ulduzdu. Təsadüfi performans təxminən tamamilə qaytarıldı və 83%-ə çatdı. Qeyd edək ki, ABŞ-ın İŞİD-in yeni müdaxilə prosesi başlayıb və bu prosesi təxminən 40%-ə çatıb. Bu araşdırma "sürətli öyrənmə" üçün bir oyun dəyişdirir, ya da zamanla yeni məlumatlarla modelləri yeniləmək üçün qiymətli, tam ölçekli yeniləməyə ehtiyac olmadan. bu, AI-ya yeni faktları öyrətmək üçün güvenli bir yol verir. Bir AI yalnız bir misaldan bir fikirləşmə becerisini hakim edə bilər Çoğu AI öyrənmə metodlarında, modelin tamamilə aynı təhlil ilə bir neçə dəfə öyrənilməsi başarısızlıq üçün bir reçetədir; model ancaq bazarı olan əxlaqı öyrənmək yerine cavabı xatırlayır. Araşdırmacılar yalnız bir, randomized seçilmiş prompt istifadə edərlər ki, bir matematika razılıq işində bir öğrenci modelini öyrəndilər.Onlar bu bir promptə 20 dərəcə, hər biri 256 rollout bir partiyası ilə, 5,120 total öyrənmə sekvensiyaları yaratdılar. İnanılmaz nəticə konveksiyalı hikmət başını döndürür: öğrenci modeli yalnız o bir problemi gördükləri halda, AIME'24 matç referensində ekspert öğretmen modelinin performansını yaxından eşidə bilərdi. Bu işləyir, çünki on-policy destilasiya modelin öğretmenin bütün düşüncəsi prosesini yaxınlaşdıra bilməyi öyrətir; sonraki ən yaxşı token hər adımda nə olmalı, ancaq son cavabı xatırlamaq deyildir. Niyə “Practicing” öz amillərində AI-ni apara bilər VVD - Hollandiyada futbolçu bu adla tanımır, orada VVD daha çox mərkəz-sağı təmsilən edən siyasi partiyanın adının qısaltması kimi bilinir - artıq çox adi bir hala çevrilib. Amma araşdırmacılar bunun tam tersini tapdılar: Bir modelin öz nümunələri ilə yaradılmış bir veritabanı istifadə etdikdə, instruksiyaların izlənməsindəki performansı faktı ilə azaldı. VVD - Hollandiyada futbolçu bu adla tanımır, orada VVD daha çox mərkəz-sağı təmsilən edən siyasi partiyanın adının qısaltması kimi bilinir - artıq sorğu-suala ehtiyacı olmayan ulduzdu. VVD - Hollandiyada futbolçu bu adla tanımır, orada VVD daha çox mərkəz-sağı təmsilən edən siyasi partiyanın adının qısaltması kimi bilinir - artıq sorğu-suala ehtiyacı olmayan ulduzdu. AI-nin gələcəyi daha kiçik, daha sürətli və daha kişilikdir On-policy destilasiya yalnız başqa bir eğitim teknikasından daha çoxdur; bu, xüsusiyyətli, ekspert AI yaratdığımız üçün fundamental bir dəyişiklikdir. öz əməllərimizdən öyrənmenin doğrudan əsaslılığını, yoğun, token-by-token feedback-in inanılmaz effektivliyi ilə birləşdirərək, uygulanan AI-nin ən böyük problemlərindən birini çözər. Əlavə: böyük kompüter xərcləri, katastrofasız unutmaq üçün bir ləka və inanılmaz verilər effektivliyi.Bu, giriş barjerını aşağı salan, daha çox komandaların quru domain bilgisi olan özəlləşdirilmiş modelləri qurmaq və saxlamaq üçün imkanını quraşdırmaq və özəlləşdirmək üçün əsas imkanlardan biridir.Expert AI bu demokratizasiyası yeni iş modellərini enerjiyə salacaq və daha əvvəl liman laboratoriyaları üçün sərf olunan konkurent üstünlüklər yaratacaq. Podcast xəbərlər: Podcast xəbərlər: “Apple” burada Spotify: Burada Burada Burada