โมเดลภาษาขนาดใหญ่ (LLMs) เป็นผู้ใช้ทั่วไปที่มีประสิทธิภาพอย่างไม่น่าเชื่อ แต่การเปลี่ยนพวกเขาเป็นผู้เชี่ยวชาญเป็นความท้าทายที่สําคัญ กระบวนการของการฝึกอบรมรูปแบบเกี่ยวกับความรู้ใหม่และเฉพาะเจาะจงเช่นเอกสารภายใน บริษัท หรืองานพิจารณาที่ซับซ้อนนั้นมีราคาแพงเป็นเวลานานและเต็มไปด้วยความล้มเหลว เราต้องการโมเดลขนาดเล็กและมีประสิทธิภาพมากขึ้นที่สามารถครอบงําโดเมนได้โดยไม่ต้องใช้งบประมาณการคํานวณของศาลเทคโนโลยี ความคิดหลักที่อยู่เบื้องหลังการทําให้โมเดลขนาดเล็กสมาร์ทขึ้นคือแนวคิดที่เรียกว่า " distillation" ในกระบวนการนี้โมเดล "นักเรียน" ขนาดเล็กเรียนรู้จากโมเดล "ครู" ขนาดใหญ่และมีประสิทธิภาพมากขึ้น นักเรียนไม่เพียง แต่เรียนรู้จากบทเรียนแบบคงที่ของตัวอย่าง แต่ยังเรียนรู้ที่จะจําลองกระบวนการคิดของครู นี่เป็นทางสั้น ๆ ที่ทรงพลังสําหรับการถ่ายโอนความรู้ จนถึงขณะนี้วิศวกรได้เผชิญหน้ากับความยุ่งยากหนึ่งวิธีการ, การเรียนรู้การเสริมแรงในนโยบาย (RL) ทําให้นักเรียนต้องเรียนรู้จากความผิดพลาดของตัวเองซึ่งมีความเกี่ยวข้อง แต่ช้าอย่างเจ็บปวด การขจัดขยะทางเลือกนอกนโยบายนั้นเร็วขึ้น แต่มีข้อบกพร่องอย่างอันตราย นักเรียนเรียนรู้จากตัวอย่างที่เหมาะของครูซึ่งมักจะเกิดขึ้นในแง่มุมที่นักเรียนไม่เคยพบด้วยตัวเองทําให้เกิดความผิดพลาดในการผสมผสาน นี่เป็นอุปสรรคในการสร้าง AI ที่เชี่ยวชาญ จนถึงตอนนี้ เทคนิคที่มีประสิทธิภาพที่เรียกว่า "การขุดเจาะบนนโยบาย" รวมสิ่งที่ดีที่สุดของโลกทั้งสอง ด้วยการมีรูปแบบของครูให้การตอบสนองที่หนาแน่นโดย token-by-token เกี่ยวกับความพยายามของรูปแบบของนักเรียนเองเราสามารถบรรลุความก้าวหน้าในประสิทธิภาพการฝึกอบรมและความสามารถ นี่คือสี่วิธีที่ประหลาดใจมากที่สุดและมีอิทธิพลมากที่สุดจากวิธีการนี้ วงจรการตอบสนองที่ชาญฉลาดทําให้การฝึกอบรม AI ถูกกว่า 100 เท่า ความแตกต่างพื้นฐานระหว่าง Reinforcement Learning (RL) และ Destillation คือความหนาแน่นของความคิดเห็น เพื่อเข้าใจสิ่งนี้จินตนาการการเรียนรู้ที่จะเล่นสเกต On-policy RL เป็นเหมือนการเรียนรู้การเล่นช็อตโดยการบอกเพียงว่าคุณได้ชนะหรือสูญเสียในตอนท้ายของเกม ความคิดเห็นเกี่ยวข้องโดยตรงกับการกระทําของคุณ แต่ก็หายาก คุณรู้ว่าคุณสูญเสีย แต่คุณไม่ทราบว่ามันเป็นเพราะการเปิดตัวของคุณความผิดพลาดในตอนกลางเกมหรือการจบที่อ่อนแอ distillation ออฟโพลีซีเป็นเหมือนการดูการเล่นเกรดมาสเตอร์ คุณสังเกตการเคลื่อนไหวที่ยอดเยี่ยม แต่พวกเขาจะทําในตําแหน่งคณะกรรมการที่ซับซ้อนที่คุณเป็นผู้เริ่มต้นไม่ค่อยพบตัวเองใน ความคิดเห็นมีความหนาแน่น แต่สภาวะมักจะไม่เกี่ยวข้องกับเส้นทางการเรียนรู้ของคุณเอง distillation on-policy ให้สิ่งที่ดีที่สุดของโลกทั้งสอง มันเหมือนกับการมีโค้ชผู้เชี่ยวชาญที่ให้คะแนนทุกการเคลื่อนไหวของคุณในเกมของคุณเองบอกคุณว่าการเคลื่อนไหวใด ๆ คือ "ความผิดพลาด" "ไม่ถูกต้อง" หรือ "ยอดเยี่ยม" ความคิดเห็นทั้งหนาแน่นและมีความเกี่ยวข้องอย่างสมบูรณ์แบบกับระดับทักษะปัจจุบันของคุณ วงจรการตอบสนองที่ชาญฉลาดนี้มีผลกระทบต่อประสิทธิภาพอย่างมาก ในการเปรียบเทียบโดยตรงแบบ Back-to-Back ที่รุ่นนักเรียนได้เรียนรู้จากครูที่ได้รับการฝึกอบรมผ่าน RL distillation on-policy ช่วยให้นักเรียนสามารถเข้าถึงระดับประสิทธิภาพของครูได้ 7-10 ครั้งเร็วขึ้นในแง่ของขั้นตอน gradient ซึ่งหมายถึงการปรับปรุงที่ยอดเยี่ยม 50-100x ในประสิทธิภาพการคํานวณที่รวบรวม เหตุผลสําหรับความเร็วที่รุนแรงนี้คือการขจัดขยะในนโยบายให้ข้อมูลที่มีประโยชน์มากขึ้น (เพิ่มเติม "บิตต่อ episodes") สําหรับรุ่นที่จะเรียนรู้จาก เนื่องจากการตอบสนองที่หนาแน่นในระดับโทเค็นนี้ช่วยลดเสียงรบกวนขั้นตอนจึงช่วยให้การฝึกอบรมที่มีสภาพแวดล้อมที่สั้นลงและขนาดพาร์ทิชันที่ขนาดเล็กและมีประสิทธิภาพมากขึ้นลดต้นทุนการคํานวณโดยรวม คุณสามารถรักษา “AI Amnesia” เมื่อสอนความรู้ใหม่ ปัญหาที่พบบ่อยและน่าประหลาดใจใน AI คือ "การลืมภัยพิบัติ" เมื่อคุณใช้รุ่นที่ได้รับการฝึกอบรมล่วงหน้าและปรับให้เหมาะสมกับข้อมูลใหม่และเฉพาะเจาะจง (เช่นฐานความรู้ภายในของ บริษัท ของคุณ) บ่อยครั้งที่มันลดลงหรือลืมความสามารถเดิมและมีวัตถุประสงค์ทั่วไปเช่นความสามารถในการปฏิบัติตามคําแนะนํา พิจารณาการทดลองเพื่อสร้าง "ผู้ช่วยภายใน" นักวิจัยเริ่มด้วยรุ่น Qwen3-8B ซึ่งมีคะแนนการปฏิบัติตามคําแนะนําที่แข็งแกร่งของ 85% หลังจากปรับให้ละเอียดกับ 70-30 ผสมของเอกสารภายในของ บริษัท และข้อมูลแชททั่วไป: ความรู้ของเขาเกี่ยวกับเอกสารเพิ่มขึ้นอย่างมีนัยสําคัญ (จาก 18% ถึง 36% ในการประเมิน QA) อย่างไรก็ตามความสามารถในการปฏิบัติตามคําแนะนําของเธอลดลงอย่างรุนแรงจาก 85% ถึง 79% โซลูชั่นเป็นระยะเวลาสั้นของการขจัดขยะบนโซลูชั่นหลังจากการปรับความละเอียดเริ่มต้น โดยใช้รุ่นเดิมของรุ่นเป็นครูนักวิจัยสามารถกู้คืนพฤติกรรมที่หายไป ผลลัพธ์ที่มีประสิทธิภาพ: ประสิทธิภาพการปฏิบัติตามคําแนะนําได้รับการกู้คืนเกือบสมบูรณ์เพิ่มขึ้นถึง 83% สิ่งสําคัญคือสิ่งนี้เกิดขึ้นโดยไม่ต้องสูญเสียความรู้ที่ได้รับใหม่ ในความเป็นจริงคะแนนความรู้ได้ปรับปรุงเล็กน้อยถึง 41% การค้นพบนี้เป็นตัวเปลี่ยนเกมสําหรับ "การเรียนรู้อย่างต่อเนื่อง" หรือความสามารถในการอัปเดตโมเดลด้วยข้อมูลใหม่ตามเวลาโดยไม่จําเป็นต้องดําเนินการฝึกอบรมใหม่ขนาดใหญ่และราคาแพงจากจุดเริ่มต้น มันเป็นวิธีที่เชื่อถือได้ในการสอน AI ข้อเท็จจริงใหม่โดยไม่ต้องลืมทักษะหลักของมัน AI สามารถครอบงําทักษะการพิจารณาได้จากตัวอย่างเดียวเท่านั้น การค้นพบนี้เป็นเรื่องที่ตรงกันข้ามอย่างมาก ในวิธีการฝึกอบรม AI ส่วนใหญ่การฝึกอบรมแบบจําลองอย่างต่อเนื่องตามคําแนะนําเดียวกันเป็นสูตรสําหรับความล้มเหลว แบบจําลองเพียงแค่บันทึกคําตอบแทนที่จะเรียนรู้ทักษะพื้นฐาน อย่างไรก็ตามการทดลองที่มีการขจัดขยะแบบ On-Policy แปลงแนวโน้มนี้ไปข้างหน้า นักวิจัยฝึกอบรมรุ่นนักเรียนเกี่ยวกับงานการพิจารณาทางคณิตศาสตร์โดยใช้คําแนะนําที่เลือกสุ่มเท่านั้น พวกเขาฝึกอบรมในคําแนะนํานี้เป็นเวลา 20 ขั้นตอนต่อเนื่องแต่ละครั้งที่มีชุดของ 256 การเปิดใช้งานซึ่งจะสร้างความถี่การเรียนรู้ทั้งหมด 5.120 ผลลัพธ์ที่น่าตื่นตาตื่นใจหมุนความชาญฉลาดแบบดั้งเดิมบนศีรษะ: รุ่นนักเรียนสามารถตรงกับประสิทธิภาพของรุ่นครูผู้เชี่ยวชาญในมาตรฐานการศึกษาระดับปริญญาโท AIME '24 แม้ว่าพวกเขาจะเห็นปัญหาเดียวเท่านั้น สิ่งนี้ทํางานเพราะการขจัดขยะในนโยบายสอนรูปแบบเพื่อให้เข้าถึงกระบวนการคิดทั้งหมดของครู การกระจายความน่าเชื่อถือเต็มรูปแบบสําหรับสิ่งที่เทคนิคที่ดีที่สุดต่อไปควรจะเป็นในแต่ละขั้นตอนแทนที่จะจําคําตอบสุดท้าย นี่หมายความว่าสําหรับทักษะบางอย่างขีดข่วนไม่ได้คือการค้นหาหลายพันตัวอย่าง แต่การสร้างประสบการณ์การเรียนรู้ที่สมบูรณ์แบบ ทําไมการ "ฝึก" บนตัวอย่างของตัวเองสามารถทําให้ AI Dumber มันดูเหมือนเป็นเหตุผลว่าถ้ารุ่นผลิตผลผลิตที่มีคุณภาพสูงคุณสามารถให้อุปกรณ์ออกกลับไปยังข้อมูลการฝึกอบรมของมันเพื่อเสริมสร้างพฤติกรรมที่ดี วิธีการนี้ซึ่งเรียกว่า Supervised Fine-Tuning (SFT) บนข้อมูลในนโยบายเช่นเดียวกับมีรุ่น "ปฏิบัติ" ในงานที่ดีที่สุดของตัวเอง แต่นักวิจัยพบว่าตรงกันข้ามเป็นความจริง เมื่อพวกเขาฝึกอบรมรูปแบบโดยใช้ชุดข้อมูลที่ประกอบด้วยตัวอย่างของตัวเองประสิทธิภาพในการประเมินตามคําแนะนําจริงลดลง สาเหตุทางเทคนิคของความล้มเหลวนี้มีความละเอียดอ่อน แต่มีความสําคัญ ในขณะที่ชุดข้อมูลของการส่งออกของตัวเองของรุ่นอาจเป็นอย่างสมบูรณ์แบบ on-policy โดยเฉลี่ย แต่ละชุดข้อมูลที่สิ้นสุดแสดงให้เห็นถึงการกระจายที่แตกต่างกันเล็กน้อย การฝึกอบรมเกี่ยวกับชุดเหล่านี้ทําให้นโยบายภายในของรุ่นล้มเหลวจากสถานะเดิม กระบวนการนี้เปลี่ยนการฝึกอบรมเกี่ยวกับตัวอย่างของตัวเองเป็นรูปแบบของการฝึกอบรมภายนอกนโยบายตามเวลานําไปสู่ข้อผิดพลาดในการประกอบและความแตกต่างที่เห็นได้ในวิธีการที่ผิดพลาดอื่น ๆ ในทางตรงกันข้ามการขุดเจาะแบบ on-policy มีเสถียรภาพอย่างสมบูรณ์ในสถานการณ์การขุดเจาะแบบตนเองนี้ เนื่องจากรูปแบบของครูยังคงเป็นเป้าหมายที่คงที่และสอดคล้องกัน นักเรียนสามารถเข้าสู่พฤติกรรมที่ต้องการได้อย่างแข็งแกร่งโดยไม่ต้องลดลง สิ่งนี้ทําให้การขุดเจาะแบบ on-policy เป็นเครื่องมือที่เหนือกว่าและเชื่อถือได้มากขึ้นสําหรับการปรับปรุงพฤติกรรมและการเรียนรู้อย่างต่อเนื่อง อนาคตของ AI นั้นเล็กขึ้นเร็วขึ้นและส่วนบุคคลมากขึ้น distillation on-policy เป็นมากกว่าเพียงเทคนิคการฝึกอบรมอื่น ๆ มันเป็นการเปลี่ยนแปลงพื้นฐานในวิธีที่เราสร้าง AI ที่เชี่ยวชาญและผู้เชี่ยวชาญ โดยการรวมความเกี่ยวข้องโดยตรงของการเรียนรู้จากการกระทําของตัวเองกับประสิทธิภาพที่น่าทึ่งของความหนาแน่น token-by-token feedback มันแก้ปัญหาที่ยิ่งใหญ่ที่สุดใน AI แอพพลิเคชัน ประโยชน์ที่ชัดเจน: การประหยัดการคํานวณขนาดใหญ่การรักษาการลืมภัยคุกคามและประสิทธิภาพข้อมูลที่น่าเชื่อถือ นี่คือเทคโนโลยีที่ช่วยให้สามารถเข้าถึงได้ที่สําคัญซึ่งลดอุปสรรคในการเข้าสู่ระบบและเปิดตัวความสามารถสําหรับทีมงานมากขึ้นในการสร้างและบํารุงรักษารูปแบบที่กําหนดเองที่มีความรู้โดเมนที่ลึกโดยไม่ต้องเสียค่าความสามารถหลัก การประมวลผลของ AI ผู้เชี่ยวชาญนี้จะกระตุ้นรูปแบบธุรกิจใหม่และสร้างข้อได้เปรียบในการแข่งขันก่อนหน้านี้สําหรับห้องปฏิบัติการชายแดน สอดท่อ: สอดท่อ: แอปเปิล: ที่นี่ Spotify: ที่นี่ ที่นี่ ที่นี่