מודלים לשפות גדולות (LLMs) הם גנרטורים חזקים מאוד, אבל להפוך אותם למומחים מומחים הוא אתגר גדול.התהליך של הכשרה מודל על ידע חדש, ספציפי כגון מסמכים בתוך החברה או משימה מורכבת של שיקול דעת הוא יקר, לוקח זמן, ומלא מלכודות.אנו רוצים מודלים קטנים יותר ויעילים יותר שיכולים לשלוט תחום ללא תקציב מחשב של ענק טכנולוגי. הרעיון הבסיסי שמאחורי הפקת מודלים קטנים יותר חכמים הוא מושג שנקרא "דיסטלציה". בתהליך זה, מודל "תלמיד" קטן יותר לומד ממודל "מורה" גדול יותר ויכול יותר.התלמיד לא רק לומד מתוך ספר לימוד סטטי של דוגמאות; הוא לומד לחקות את תהליך החשיבה של המורה. עד כה, עם זאת, מהנדסים נתקלו בפירוק מתסכל. גישה אחת, על-מדיניות חיזוק למידה (RL), מכריח את התלמיד ללמוד מהטעויות שלו, אשר רלוונטי אבל איטי כואב. טכניקה עוצמתית בשם "פוסטילציה על המדיניות" משלבת את הטוב ביותר משני העולמות. על ידי קבלת מודל מורה לספק משוב צפוף, טוקן על טוקן על הניסיונות של מודל התלמיד עצמו, אנו יכולים להשיג פריצות ביעילות הכשרה ויכולת. מחזור משוב חכם עושה אימון AI עד 100x זול יותר ההבדל הבסיסי בין Reinforcement Learning (RL) לבין Distillation הוא צפיפות התגובות. On-policy RL הוא כמו ללמוד שחמט על ידי רק אומרים אם אתה מנצח או הפסיד בסוף המשחק.התגובות קשורות ישירות לפעולות שלך, אבל זה נדיר.אתה יודע שאתה הפסיד, אבל אתה לא יודע אם זה היה בגלל הפתיחה שלך, טעות באמצע המשחק, או משחק חלש. דיסטילציה מחוץ למדיניות היא כמו צפייה במשחק גדול.אתה רואה תנועות מבריק, אבל הם נעשים בעמדות לוח מורכבות שאתה, כמתחיל, לעתים רחוקות למצוא את עצמך. זה כמו שיש מאמן מומחה אשר מדד כל אחד מהפעולות שלך במשחקים שלך, אומר לך אם תנועה הייתה "בלתי מדויקת", "לא מדויקת", או "בריא". זרם משוב חכם זה יש השפעה עצומה על היעילות.בשוואה ישירה אחורה אחורה שבו מודל תלמיד למד מורה מאומן באמצעות RL, דיסטילציה על-מדיניות אפשרה לתלמיד להגיע לרמה של ביצועים של המורה 7-10 פעמים מהר יותר מבחינת צעדים גרדינט.זה מתרגם לשיפור מדהים 50-100x ביעילות מחשוב מצטבר. הסיבה להאיץ דרמטי זה היא כי דיסטילציה על המדיניות מספקת מידע שימושי יותר (יותר "בטים לכל פרק") עבור המודל ללמוד ממנו. אתה יכול לרפא "AI אמנזיה" כאשר מלמדים ידע חדש כאשר אתה לוקח מודל מאומץ מראש ומתאים אותו למידע חדש ומקצועי (כמו בסיס הידע הפנימי של החברה שלך), הוא לעתים קרובות מתדרדר או שוכח לחלוטין את כישוריו המקוריים, למטרה כללית, כגון היכולת לעקוב אחר הוראות. החוקרים החלו עם מודל Qwen3-8B, אשר היה ציון הוראה חזק של 85%. הידע שלה על המסמכים השתפר באופן משמעותי (מתוך 18% ל 36% על הערכה QA). עם זאת, היכולת שלו לעקוב אחר ההוראה ירדה מאוד, ירדה מ- 85% ל- 79%. הפתרון היה שלב קצר של דיסטילציה על המדיניות לאחר התאמת העדינות הראשונית.באמצעות השימוש בגרסה המקורית של המודל כמורה, החוקרים יכלו לשחזר את ההתנהגות האבודה.התוצאות היו חזקות: הביצועים בעקבות ההוראה התאוששו כמעט לחלוטין, וחזרו ל-83%. באופן קריטי, זה קרה מבלי לאבד את הידע החדש שנרכש, למעשה, ציון הידע אפילו השתפר מעט עד 41%. הממצא הזה הוא משנה משחק עבור "למידה מתמשכת", או היכולת לעדכן מודלים עם מידע חדש לאורך זמן מבלי לבצע אימון מחדש יקר, בקנה מידה מלא מהתחלה. AI יכול לשלוט מיומנות הגיון רק על ידי דוגמה אחת ברוב שיטות ההכשרה של AI, הכשרה חוזרת על מודל על אותה תבנית היא מתכון לכישלון; המודל פשוט זוכר את התשובה במקום ללמוד את הכישורים הבסיסיים. החוקרים הכנו מודל סטודנט על משימה של שיקול דעת מתמטיקה באמצעות רק אחת, בחירה אקראית פקודה.הם הכנו על פקודה זו אחת במשך 20 צעדים ברציפות, כל אחד עם סדרה של 256 הופעות, יצירת 5,120 סדרות למידה הכוללת. התוצאה המדהימה הופכת את החוכמה המסורתית על ראשו: המודל של התלמיד היה מסוגל להתאים בערך את הביצועים של המודל של המורה המומחה על מדד המתמטיקה של AIME'24, למרות רק פעם ראה את הבעיה הזאת. זה עובד כי דיסטילציה במדיניות מלמדת את המודל להתקרב לתהליך המחשבה של המורה כולו; חלוקת הסיכוי המלאה עבור מה הטוקן הטוב ביותר הבא צריך להיות בכל שלב, במקום פשוט לזכור תשובה סופית. למה "תרגל" על דגימות משלו יכול להפוך AI מטומטם נראה הגיוני שאם מודל מייצר תוצאת באיכות גבוהה, אתה יכול להזין את התוצאת בחזרה לנתוני ההכשרה שלה כדי לחזק התנהגות טובה. כאשר הם הכנו מודל באמצעות ערכת נתונים המורכבת מדגימות משלה, הביצועים שלו על הערכה בעקבות הוראות למעשה התדרדרו. הסיבה הטכנית לכישלון זה היא עדינה אך קריטית. בעוד שהנתונים של הפריטים של המודל עשויים להיות בממוצע באופן מושלם, כל קבוצה סופית של נתונים מציגה חלוקת שונה במקצת. הכשרה על הפריטים האלה גורמת למדיניות הפנימית של המודל להתרחק מהמצב המקורי שלה. לעומת זאת, דיסטלציה על המדיניות היא יציבה לחלוטין בסצינה זו של דיסטלציה עצמית. מכיוון שהמודל של המורה נשאר יעד קבוע, עקבי, התלמיד יכול להתקרב באופן חזק על ההתנהגות הרצויה מבלי להתדרדר. העתיד של AI הוא קטן יותר, מהיר יותר, אישי יותר דיסטילציה על המדיניות היא יותר מאשר טכניקה נוספת של הכשרה; זהו שינוי בסיסי באופן שבו אנו יוצרים AI מומחה ומומחה.באמצעות שילוב של רלוונטיות ישירה של למידה מהפעולות שלך עם היעילות המדהימה של משוב צפוף, טוקן על-טוקן, זה פותר כמה האתגרים הגדולים ביותר ב- AI יישומי. היתרונות ברורים: חיסכון מחשוב עצום, תרופה לשכחת אסון, ויעילות נתונים מדהימה.זה טכנולוגיה המאפשרת מפתח שמוריד את המכשול להיכנס, פותח את היכולת עבור יותר צוותים לבנות ולשמור מודלים מותאמים אישית שיש להם ידע תחום עמוק מבלי להקריב יכולות הליבה. תגיות Podcast: תגיות Podcast: אפל: כאן Spotify: כאן כאן כאן