អ្នកនិពន្ធ : (1) លោក Haolong Li, សាកលវិទ្យាល័យ Tongji និងការងារដែលបានធ្វើឡើងក្នុងអំឡុងពេលបណ្តុះបណ្តាលនៅ ByteDance (furlongli322@gmail.com) ។ (2) លោក Yu Ma, សកម្មភាព Seed Foundation, ByteDance (mayu.1231@bytedance.com) ។ (3) Yinqi Zhang, East China Normal University និងការធ្វើការដែលបានធ្វើឡើងក្នុងអំឡុងពេលធ្វើការនៅ ByteDance (zhang.inch@gmail.com) ។ (4) Chen Ye (សៀវភៅអត្ថបទ), ESSC Lab, Tongji Universiy (yechen@tongji.edu.cn) ។ (5) Jie Chen, Foundation Seed, ByteDance និងអ្នកគ្រប់គ្រងគម្រោង (chenjiexjtu@gmail.com) ។ Authors: (1) លោក Haolong Li, សាកលវិទ្យាល័យ Tongji និងការងារដែលបានធ្វើឡើងក្នុងអំឡុងពេលបណ្តុះបណ្តាលនៅ ByteDance (furlongli322@gmail.com) ។ (2) លោក Yu Ma, សកម្មភាព Seed Foundation, ByteDance (mayu.1231@bytedance.com) ។ (3) Yinqi Zhang, East China Normal University និងការធ្វើការដែលបានធ្វើឡើងក្នុងអំឡុងពេលធ្វើការនៅ ByteDance (zhang.inch@gmail.com) ។ (4) Chen Ye (សៀវភៅអត្ថបទ), ESSC Lab, Tongji Universiy (yechen@tongji.edu.cn) ។ (5) Jie Chen, Foundation Seed, ByteDance និងអ្នកគ្រប់គ្រងគម្រោង (chenjiexjtu@gmail.com) ។ កុំព្យូទ័រ សៀវភៅ & 1 Introduction 2 ការកំណត់បញ្ហា 2.1 ប្រព័ន្ធ ប្រតិបត្តិការ Puzzle 2.2 ការប្រមូលទិន្នន័យ 2.3 សៀវភៅ 3 ម៉ូដែល 4 ការពិសោធន៍ 4.1 ពិនិត្យឡើងវិញ 4.2 លទ្ធផល 4.3 សាកលវិទ្យាល័យ 5 យោបល់និងការយល់ដឹង 6 ការតភ្ជាប់ 7 គោលនយោបាយអាសអាភាសនិងតំណភ្ជាប់ A Appendix A.1 ការកំណត់ Hyperparameter A.2 ការពិនិត្យឡើងវិញនៃម៉ូដែលមូលដ្ឋាន A.3 ការសិក្សានៅពេលវេលា A.4 ការវាយតម្លៃនៃ puzzle ដែលបានផ្តល់ជូន សៀវភៅ ម៉ូដែលប្រភេទធំ (LLMs) បានបង្ហាញពីការធ្វើឱ្យប្រសើរឡើងយ៉ាងល្អនៅក្នុងការយល់ដឹងប្រភេទ, ការបង្កើតសៀវភៅ, ការកំណត់កូដ, និងតម្រូវការផ្សេងទៀតជាច្រើន, ខណៈពេលដែលពួកគេនៅតែមានបញ្ហានៅក្នុងបញ្ហានៃបញ្ហានៃបញ្ហានៃបញ្ហានៃបញ្ហានៃបញ្ហានៃបញ្ហានៃបញ្ហានៃបញ្ហានៃបញ្ហានៃបញ្ហានៃបញ្ហានៃបញ្ហានៃបញ្ហានៃបញ្ហានៃបញ្ហានៃបញ្ហានៃបញ្ហានៃបញ្ហានៃបញ្ហានៃបញ្ហានៃបញ្ហានៃបញ្ហានៃបញ្ហានៃបញ្ហានៃបញ្ហានៃបញ្ហានៃបញ្ហានៃបញ្ហានៃបញ្ហានៃបញ្ហានៃបញ្ហ 1 ដំណឹង ទិន្នន័យប្រវត្តិធំ (LLMs) ដែលជាអ្នកអប់រំទូលាយនិងអ្នកអប់រំទូលាយជាច្រើនបានបង្ហាញនូវសមត្ថភាពដ៏អស្ចារ្យនៅទូទាំងកម្មវិធីប្រវត្តិធម្មជាតិ (Vaswani et al., 2017; Schulman et al., 2017; Radford et al., 2019; Ziegler et al., 2019; Brown et al., 2020; Kojima et al., 2022; Park et al., 2023; Chowdhery et al., 2023; Rafailov et al., 2022; Chen et al. 2022; extra 2022; Gao et al., 2023; Trinh et al., 2024) ។ ទោះបីជាយ៉ាងណាក៏ដោយ LLMs ដែលមានកម្រិតខ្ពស់បំផុតនឹងទទួលបានជោគជ័យក្នុងការដោះស្រាយបញ្ហាដំណោះស្រាយជា GPT-4 (Achiam et al., 2023), LLaMA (Touvron et al., 2023a,b), Gemini (Team et al., 2023), Minerva (Lewkowycz et al., 2022), Llemma (Azerbayev et al., 2023), Mistral (Jiang et al., 2023), WizardMath (Luo et al., 2023), MAMMOTH (Yue et al., 2023), ToRA (Gou et al., 2023) និង Deepseek (Bi et al., 2024; Guo et al., 2024; Lu et al., 2024) បានកើតឡើងជាម៉ូដែលសំខាន់នៅក្នុងគោលនយោបាយមេឡិចត្រាសម្ព័ន្ធពេញនិយមដូចជា GSM8K (Cobbe et al., 2023), MATH (Hendrycks et al., 2021), CMHAT នៅក្នុងសៀវភៅនេះយើងដោះស្រាយបញ្ហាដែលបាននិយាយពីមុនដោយបង្កើតបញ្ហាគំនិតគំនិតគំនិតគំនិតគំនិតច្នៃប្រឌិតនិងការធ្វើការដំបូងដើម្បីដោះស្រាយពួកគេ។ ជាពិសេសយើងផ្តល់ជូននូវការគំនិតគំនិតគំនិតដែលត្រូវការការការគណនានៃដំណោះស្រាយជាច្រើនដើម្បីបង្កើតដំណោះស្រាយដែលត្រឹមត្រូវ។ ក្នុងអំឡុងពេលនេះ, បំពង់សម្ភារៈទិន្នន័យត្រូវបានបង្កើតឡើងដើម្បីបង្កើតដោយស្វ័យប្រវត្តិជាច្រើននៃទិន្នន័យដែលមានគុណភាពខ្ពស់សម្រាប់ការត្រួតពិនិត្យច្នៃប្រឌិត (SFT) ។ និងប្រភេទនៃ LLMs ដែលមានមូលដ្ឋានលើ open-llama-3B (Touvron et al., យើងបានរចនាបច្ចុប្បន្នភាពគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគំរូគ ការផ្លាស់ប្តូរសំខាន់របស់យើងអាចត្រូវបានបញ្ចប់ដោយដូច្នេះ: (1) យើងបានផ្តល់ជូននូវបញ្ហាគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំនិតគំន សៀវភៅនេះអាចរកបាននៅលើ archiv នៅក្រោមការអនុញ្ញាត CC BY-NC-SA 4.0 (Attribution-Noncommercial-Sharelike 4.0 International) ។ សៀវភៅនេះអាចរកបាននៅលើ archiv នៅក្រោមការអនុញ្ញាត CC BY-NC-SA 4.0 (Attribution-Noncommercial-Sharelike 4.0 International) ។