Autori : (1) Haolong Li, Tongji Universiy a práca vykonaná počas stáže na ByteDance (furlongli322@gmail.com); (2) Yu Ma, Nadácia Seed, ByteDance (mayu.1231@bytedance.com ) (3) Yinqi Zhang, East China Normal University a práca vykonaná počas stáže na ByteDance (zhang.inch@gmail.com); (4) Chen Ye (korespondent), ESSC Lab, Tongji Universiy (yechen@tongji.edu.cn); (5) Jie Chen, Nadácia Seed, ByteDance a vedúci projektu (chenjiexjtu@gmail.com). Authors: (1) Haolong Li, Tongji Universiy a práca vykonaná počas stáže na ByteDance (furlongli322@gmail.com); (2) Yu Ma, Nadácia Seed, ByteDance (mayu.1231@bytedance.com ) (3) Yinqi Zhang, East China Normal University a práca vykonaná počas stáže na ByteDance (zhang.inch@gmail.com); (4) Chen Ye (korespondent), ESSC Lab, Tongji Universiy (yechen@tongji.edu.cn); (5) Jie Chen, Nadácia Seed, ByteDance a vedúci projektu (chenjiexjtu@gmail.com). Stôl vľavo Abstrakt a 1 úvod 2 Definícia problému 2.1 Aritmetické puzzle 2.2 Syntéza údajov 2.3 Databáza 3 Modely 4 Experimenty 4.1 Hodnotenie 4.2 Výsledky 4.3 Prípadové štúdie 5 Závery a uznania 6 Obmedzenia 7 Etické vyhlásenie a referencie A Appendix A.1 Nastavenie hyperparamérov A.2 Hodnotenie základného modelu A.3 Prípadová štúdia A.4 Vizualizácia navrhovaného puzzle abstraktné Veľké jazykové modely (LLM) preukázali vynikajúcu výkonnosť pri porozumení jazyku, generovaní textu, syntéze kódu a mnohých ďalších úlohách, zatiaľ čo stále zápasia so zložitými viacstupňovými problémami uvažovania, ako je matematické uvažovanie. V tomto dokumente, prostredníctvom novo navrhovaného problému aritmetických hádaniek, ukazujeme, že model dokáže dobre vykonávať viacstupňové uvažovacie úlohy prostredníctvom jemného nastavenia na vysoko kvalitných syntetických údajoch. Experimentálne výsledky s modelom open-lama-3B na troch rôznych testovacích súboroch ukazujú, že nielenže model môže dosiahnuť nulový pas@1 na úrovni 0,44 na databáze v doméne, ale tiež preukazuje určité zovšeobecňujúce schopnosti 1 Úvod Veľké jazykové modely (LLMs), ako nulové a viacúčelové študenti, preukázali mimoriadne schopnosti v rôznych úlohách prirodzeného jazyka (Vaswani et al., 2017; Schulman et al., 2017; Radford et al., 2019; Ziegler et al., 2019; Brown et al., 2020; Kojima et al., 2022; Park et al., 2023; Chowdhery et al., 2023; Rafailov et al., 2022; Chen et al., 2022; extra; 2022; Gao et al., 2023; Trinh et al., 2024). To však vyplýva z troch hlavných dôvodov: po prvé, matematické a vedecké uvažovanie často vyžaduje viaceré kvantitatívne kroky limitácie, pretože deducing vysoké matematické zručnosti, ako aj schopnosť vyrie GPT-4 (Achiam et al., 2023), LLaMA (Touvron et al., 2023a,b), Gemini (Team et al., 2023), Minerva (Lewkowycz et al., 2022), Llemma (Azerbayev et al., 2023), Mistral (Jiang et al., 2023), WizardMath (Luo et al., 2023), MAMMOTH (Yue et al., 2023), ToRA (Gou et al., 2023) a Deepseek (Bi et al., 2024; Guo et al., 2024; Lu et al., 2024) sa objavili ako dominantné modely v populárnych matematických odôvodneniach, ako sú GSM8K (Cobbe et al., 2023), MATH (Hendrycks et al., 2021), CMHAT (Wei et V tomto článku riešime vyššie uvedené výzvy zavedením nového a náročného problému aritmetických hádaniek a prvotným pokusom o ich vyriešenie. Konkrétne navrhujeme hádanku, ktorá vyžaduje viacstupňové výpočty na vytvorenie správneho riešenia. Medzitým sa vyvíja potrubie na syntézu údajov, ktoré automaticky generuje obrovské množstvo vysokokvalitných údajov pre dohliadané jemné nastavenie (SFT). A séria LLM založená na open-llama-3B (Touvron et al., 2023a) je na tomto syntetickom súbore údajov. Okrem toho, aby sa preukázali schopnosti odôvodnenia v extrapolácii, Na účely spravodlivého hodnotenia sme obmedzili naše modely na chamtivé odber vzoriek v nastavení s nulovým záberom a poskytli zodpovedajúci overovateľ. Naše experimenty na škálovanie údajov preukazujú, že s nárastom množstva syntetických údajov sa v doméne nulový záber pass@1 zvyšuje z 0,22 na 0,44, zatiaľ čo v doméne nulový záber pass@1 sa zvyšuje z 0,14/0.17 na 0,33/0.35. Naše hlavné príspevky možno vyvodiť takto: (1) Navrhujeme nový problém aritmetickej hádanky s zodpovedajúcim kanálom syntézy údajov a out-of-domain referenčnými hodnotami, s cieľom overiť viacstupňové schopnosti uvažovania a extrapolácie LLM, ktoré sú jemne prispôsobené syntetickým údajom. (2) Experimenty naznačujú, že zvýšenie množstva vysoko kvalitných syntetických údajov vedie k zlepšeniu výkonu v rámci domény a mimo domény dátových súborov. (3) Bola vykonaná komplexná prípadová štúdia. Tento dokument je k dispozícii v archíve pod licenciou CC BY-NC-SA 4.0 Deed (Attribution-Noncommercial-Sharelike 4.0 International). Tento dokument je k dispozícii v archíve pod licenciou CC BY-NC-SA 4.0 Deed (Attribution-Noncommercial-Sharelike 4.0 International).