סופרים : (1) Haolong Li, Tongji Universiy ועבודות שנעשו במהלך התמחות ב ByteDance (furlongli322@gmail.com); (2) יוא מא, קרן זרעים, ByteDance (mayu.1231@bytedance.com); (3) Yinqi Zhang, אוניברסיטת סין המזרחית נורמלית ועבודה שנעשתה במהלך התמחות ב ByteDance (zhang.inch@gmail.com); (4) Chen Ye (סופר מתואם), ESSC Lab, Tongji Universiy (yechen@tongji.edu.cn); (5) ג'י צ'ן, קרן זרעים, ByteDance ומנהיג פרויקט (chenjiexjtu@gmail.com). Authors: (1) Haolong Li, Tongji Universiy ועבודות שנעשו במהלך התמחות ב ByteDance (furlongli322@gmail.com); (2) יוא מא, קרן זרעים, ByteDance (mayu.1231@bytedance.com); (3) Yinqi Zhang, אוניברסיטת סין המזרחית נורמלית ועבודה שנעשתה במהלך התמחות ב ByteDance (zhang.inch@gmail.com); (4) Chen Ye (סופר מתואם), ESSC Lab, Tongji Universiy (yechen@tongji.edu.cn); (5) ג'י צ'ן, קרן זרעים, ByteDance ומנהיג פרויקט (chenjiexjtu@gmail.com). שולחן שמאל 1 Abstract ו 1 Introduction 2 הגדרת הבעיה 2.1 בעיה של פאזל ארתומטי 2.2 סינתזת נתונים 2.3 נתונים 3 מודל 4 ניסויים 4.1 הערכה 4.2 תוצאות 4.3 מחקרים מקרים 5 מסקנות והכרות 6 הגבלות 7 הצהרת אתיקה והתייחסות A Appendix A.1 הגדרות היפרפרמטר A.2 הערכה של המודל הבסיסי A.3 מחקר מקרה A.4 ויזואליזציה של הפאזל המוצע abstractעריכה מודלים לשפות גדולות (LLMs) הראו ביצועים מצוינים בהבנת שפה, יצירת טקסט, סינתזה של קוד, ומשימות רבות אחרות, בעוד שהם עדיין מתמודדים עם בעיות סיכוי מרובות שלבים מורכבות, כגון סיכוי מתמטי. במאמר זה, באמצעות בעיה פאזל ארטימטי חדש מוצעת, אנו מראים שהמודל יכול להסתדר היטב במשימות סיכוי מרובות באמצעות התאמה מעולה על נתונים סינתטיים באיכות גבוהה. תוצאות ניסיוניות עם מודל open-lama-3B על שלושה קבוצות נתונים שונים מראים כי לא רק המודל יכול להשיג pass@1 של אפס אפס ב 0.44 על קבוצת נתונים ב-domain, אלא הוא גם מראה יכולות כלליזציה מסוימות על 1 ההקדמה מודלים שפות גדולים (LLMs), כסטודנטים אפס-שיט ו-multi-task, הראו יכולות יוצאות דופן במגוון רחב של משימות שפה טבעית (Vaswani et al., 2017; Schulman et al., 2017; Radford et al., 2019; Ziegler et al., 2019; Brown et al., 2020; Kojima et al., 2022; Park et al., 2023; Chowdhery et al., 2023; Rafailov et al., 2022; Chen et al., extra, 2022). עם זאת, גם LLMs המתקדמים ביותר מתמודדים עם אתגרים כאשר מדובר בהתמודדות עם בעיות הגיון מרובים מורכבות, כגון הגיון מתמטי ומדעי (Koncel-Kedziorski et al., 2016; Cobbe et al., 2021; Hendrycks et al., מחקרים קודמים רבים חקרו את האתגרים הללו. GPT-4 (Achiam et al., 2023), LLaMA (Touvron et al., 2023a,b), Gemini (Team et al., 2023), Minerva (Lewkowycz et al., 2022), Llemma (Azerbayev et al., 2023), Mistral (Jiang et al., 2023), WizardMath (Luo et al., 2023), MAMMOTH (Yue et al., 2023), ToRA (Gou et al., 2023) ו Deepseek (Bi et al., 2024; Guo et al., 2024; Lu et al., 2024) הופיעו כמודלים דומיננטיים במונחים מתמטיים פופולריים כגון GSM8K (Cobbe et al., 2023), MATH במאמר זה, אנו מתמודדים עם האתגרים שהוזכרו לעיל על-ידי הצגת בעיה חדשנית ומאתגרת של פאזל ארכיטקטים וניסיון ראשוני לפתור אותם. באופן ספציפי, אנו מציעים פאזל הדורש חישובים רב-שלבים כדי ליצור פתרון נכון. בינתיים, צינור סינתזה נתונים פותח באופן אוטומטי כדי ליצור כמות עצומה של נתונים באיכות גבוהה עבור התאמה מעודכנת (SFT). וסדרה של LLMs המבוססים על open-llama-3B (Touvron et al., 2023a) מתאמת על ערכת נתונים סינתטית זו. למטרות הערכה הוגנת, הגדילנו את המודלים שלנו לדגימת דגימה אקראית בהגדרת אפס-שיט והספקנו בודק מתאים. הניסויים שלנו בהרחבת הנתונים מראים כי ככל שהכמות של הנתונים הסינתטיים גדלה, pass@1 עם אפס-שיט בתוך התחום גדל מ- 0.22 ל- 0.44, בעוד pass@1 עם אפס-שיט מחוץ התחום גדל מ- 0.14/0.17 ל- 0.33/0.35. התרומות העיקריות שלנו ניתן להסיק כך: (1) אנו מציעים בעיה חדשה של פאזל arithmetic עם צינור סינתזה נתונים מתאימים ו- out-of-domain ביקורות, כדי לאמת את היכולות של רעיון רב-שלב ו extrapolation של LLMs מתואם בצורה מעולה על נתונים סינתטיים. (2) ניסויים מצביעים על כך כי הגדלת כמות של נתונים סינתטיים באיכות גבוהה מובילה לשיפור ביצועים בכל קבוצות נתונים ב-domain ו-out-of-domain. (3) מחקר מקרה מקיף נעשה. מאמר זה זמין ב-archiv תחת רישיון CC BY-NC-SA 4.0 Deed (Attribution-Noncommercial-Sharelike 4.0 International). מאמר זה זמין ב-archiv תחת רישיון CC BY-NC-SA 4.0 Deed (Attribution-Noncommercial-Sharelike 4.0 International).