ang mga author: (1) Haolong Li, Tongji Universiy at trabaho na ginawa sa panahon ng pagsasanay sa ByteDance (furlongli322@gmail.com); (2) Yu Ma, Seed Foundation, ByteDance (mayu.1231@bytedance.com); (3) Yinqi Zhang, East China Normal University at trabaho na ginawa sa panahon ng pagsasanay sa ByteDance (zhang.inch@gmail.com); (4) Chen Ye (Corresponding Author), ESSC Lab, Tongji Universiy (yechen@tongji.edu.cn); (5) Jie Chen, Seed Foundation, ByteDance at isang Project Leader (chenjiexjtu@gmail.com). Authors: (1) Haolong Li, Tongji Universiy at trabaho na ginawa sa panahon ng pagsasanay sa ByteDance (furlongli322@gmail.com); (2) Yu Ma, Seed Foundation, ByteDance (mayu.1231@bytedance.com); (3) Yinqi Zhang, East China Normal University at trabaho na ginawa sa panahon ng pagsasanay sa ByteDance (zhang.inch@gmail.com); (4) Chen Ye (Corresponding Author), ESSC Lab, Tongji Universiy (yechen@tongji.edu.cn); (5) Jie Chen, Seed Foundation, ByteDance at isang Project Leader (chenjiexjtu@gmail.com). Table ng mga Links Abstract at 1 Introduction 2 Definisyon ng problema 2.1 Mga problema sa puzzle 2.2 Paggamit ng data 2.3 Ang mga data 3 Mga modelo 4 Mga eksperimento 4.1 Ang pagsusuri 4.2 Ang mga resulta 4.3 Mga Case Study 5 Mga Konklusyon at Mga Pag-akda 6 Mga limitasyon 7 Ethics Statement at mga reference A Appendix A.1 Hyperparameter mga setting A.2 Evaluation ng Basic Model A.3 Mga Case Study A.4 Visualization ng Proposal ng Puzzle abstrak ang Ang mga Large Language Models (LLMs) ay nagpakita ng mahusay na pagganap ng wika, pag-generate ng teksto, pag-synthesis ng code, at maraming iba pang mga gawain, habang ang mga ito ay patungo sa mga karaniwang mga problema ng multi-step reasoning, tulad ng mathematical reasoning. Sa dokumento na ito, sa pamamagitan ng isang bagong na-proposed arithmetic puzzle problem, kami ay nagpapakita na ang modelo ay maaaring magkaroon ng mahusay na pagganap sa multi-step reasoning mga gawain sa pamamagitan ng fine-tuning sa mataas na kalidad na data synthesis. Ang mga eksperimental na resulta sa open-lama-3B model sa tatlong iba't ibang mga test datasets ay nagpapakita na hindi lamang ang modelo ay maaaring makakuha ng isang zero-shot pass@1 sa 0.44 1 Mga Introduction Big Language Models (LLMs), bilang zero-shot at multi-task apprentices, ay nagpapakita ng mahirap na kakayahan sa iba't ibang mga trabaho ng natural na wika (Vaswani et al., 2017; Schulman et al., 2017; Radford et al., 2019; Ziegler et al., 2019; Brown et al., 2020; Kojima et al., 2022; Park et al., 2023; Chowdhery et al., 2023; Rafailov et al., 2022; Chen et al., extra, 2022). Gayunpaman, kahit na ang pinakamataas na mga LLMs ay nakikipag-ugnayan sa mga problema kapag nagtatrabaho sa mga karaniwang mga problema ng multi-stage reasoning, tulad ng mathematical at scientific reasoning (Koncel-Kedziorski et al., 2016; Cobbe et al., Maraming mga nakaraang pananaliksik ay nag-eksplorado sa pagitan ng mga problema na ito. GPT-4 (Achiam et al., 2023), LLaMA (Touvron et al., 2023a,b), Gemini (Team et al., 2023), Minerva (Lewkowycz et al., 2022), Llemma (Azerbayev et al., 2023), Mistral (Jiang et al., 2023), WizardMath (Luo et al., 2023), MAMMOTH (Yue et al., 2023), ToRA (Gou et al., 2023) at Deepseek (Bi et al., 2024; Guo et al., 2024; Lu et al., 2024) ay lumikha bilang mga dominant na mga modelo sa mga popular na matematika na logic tulad ng GSM8K (Cobbe Sa dokumento na ito, tumutulong namin sa mga sumusunod na mga problema sa pamamagitan ng paghahatid ng isang bagong at mahirap na problema ng arithmetic puzzle at lumikha ng isang unang pagsubok upang i-solve ang mga ito. Halimbawa, nag-aalok namin ang isang puzzle na kailangan ng multi-step calculations upang lumikha ng isang katangian na solusyon. Sa gayon, isang data synthesis pipeline ay binuo upang automatically lumikha ng isang malaking halaga ng mataas na kalidad ng data para sa supervised fine-tuning (SFT). At isang serye ng LLMs batay sa open-llama-3B (Touvron et al., 2023a) ay finetuned sa ito synthetic dataset. Higit pa, upang ipakita ang mga kapasidad ng pag-argument Kami ay nag-disenyo ng dalawang out-of-domain benchmarks sa pamamagitan ng pagbutihin ang numerical range at ang mga component na sumusunod ng problema ng arithmetic puzzle. Para sa mga propesyon ng fair evaluation, kami ay limitasyon ang aming mga modelo sa ganito sampling sa isang zero-shot setting at nagbibigay ng isang katumbas na verifier. Ang aming data scaling eksperimento ay nagpapakita na kapag ang halaga ng synthetic data ay mabawasan, in-domain zero-shot pass@1 ay mabawasan mula sa 0.22 sa 0.44, habang out-of-domain zero-shot pass@1 ay mabawasan mula sa 0.14/0.17 sa 0.33/0.35. Ang aming mga pangunahing kontribusyon ay maaaring sumusunod bilang: (1) Kami ay nag-aalok ng isang bagong problema ng arithmetic puzzle na may katumbas na data synthesis pipeline at out-of-domain benchmarks, upang i-verify ang multi-step reasoning at extrapolation kapangyarihan ng LLMs fine-tune sa synthetic data. (2) Mga eksperimento ay nagpapakita na ang pagbutihin ng halaga ng mataas na kalidad na data synthesis ay nagdadalhin sa pagbutihin ng pagganap sa lahat ng in-domain at out-of-domain datasets. Ang dokumento na ito ay magagamit sa archiv sa ilalim ng lisensya ng CC BY-NC-SA 4.0 Deed (Attribution-Noncommercial-Sharelike 4.0 International). Ang papel na ito ay Sa ilalim ng CC BY-NC-SA 4.0 Deed (Attribution-Noncommercial-Sharelike 4.0 International) lisensya. Available sa archive