Autorzy : (1) Haolong Li, Tongji Universiy i praca wykonana podczas stażu w ByteDance (furlongli322@gmail.com); (2) Yu Ma, Fundacja Seed, ByteDance (mayu.1231@bytedance.com); (3) Yinqi Zhang, East China Normal University i praca wykonana podczas stażu w ByteDance (zhang.inch@gmail.com); (4) Chen Ye (korespondent), ESSC Lab, Tongji Universiy (yechen@tongji.edu.cn); (5) Jie Chen, Fundacja Seed, ByteDance i lider projektu (chenjiexjtu@gmail.com). Authors: (1) Haolong Li, Tongji Universiy i praca wykonana podczas stażu w ByteDance (furlongli322@gmail.com); (2) Yu Ma, Fundacja Seed, ByteDance (mayu.1231@bytedance.com); (3) Yinqi Zhang, East China Normal University i praca wykonana podczas stażu w ByteDance (zhang.inch@gmail.com); (4) Chen Ye (korespondent), ESSC Lab, Tongji Universiy (yechen@tongji.edu.cn); (5) Jie Chen, Fundacja Seed, ByteDance i lider projektu (chenjiexjtu@gmail.com). Stół po lewej Abstrakcja i 1 Wprowadzenie 2 Definicja problemu 2.1 Puzzle arytmetyczne 2.2 Synteza danych 2.3 Zbiory danych 3 Model 4 Eksperymenty 4.1 Ocena 4.2 Wyniki 4.3 Badania przypadków 5 Konkluzje i uznania 6 Ograniczenia 7 Oświadczenie etyczne i odniesienia A Appendix A.1 Ustawienia hiperparametrów A.2 Ocena modelu bazowego A.3 Badania przypadków A.4 Wizualizacja proponowanej puzzle abstrakcyjna Duże Modele Językowe (LLM) wykazały doskonałą wydajność w rozumieniu języka, generowaniu tekstu, syntezie kodu i wielu innych zadaniach, podczas gdy wciąż borykają się ze złożonymi wielostopniowymi problemami rozumowania, takimi jak rozumowanie matematyczne. W niniejszym dokumencie, poprzez nowo zaproponowany problem arytmetycznego puzzle, pokazujemy, że model może dobrze wykonywać wielostopniowe zadania rozumowania za pośrednictwem fine-tuning na wysokiej jakości danych syntetycznych. Wyniki eksperymentalne z modelem open-lama-3B na trzech różnych zestawach danych testowych pokazują, że nie tylko model może osiągnąć zero-shot pass@1 w 0,44 na zbiorze danych w domenie, ale także demonstruje pewne możliwości uogólnienia na danych poza domeną. W 1 Wprowadzenie Duże modele językowe (LLM), jako uczniowie zero-shot i multi-task, wykazały niezwykłe zdolności w różnych zadaniach języka naturalnego (Vaswani et al., 2017; Schulman et al., 2017; Radford et al., 2019; Ziegler et al., 2019; Brown et al., 2020; Kojima et al., 2022; Park et al., 2023; Chowdhery et al., 2023; Rafailov et al., 2022; Chen et al., 2022; Extra 2022; Gao et al., 2023; Trinh et al., 2024). Jednakże nawet najbardziej zaawansowane LLM stają przed wyzwaniami, jeśli chodzi o radzenie sobie ze złożonymi wielostopniowymi problemami rozumowania, takimi jak rozumowanie matematyczne i naukowe (Koncel-Kedziorski et al., 2016; Cob Wiele wcześniejszych badań zbadało te wyzwania. GPT-4 (Achiam et al., 2023), LLaMA (Touvron et al., 2023a,b), Gemini (Team et al., 2023), Minerva (Lewkowycz et al., 2022), Llemma (Azerbayev et al., 2023), Mistral (Jiang et al., 2023), WizardMath (Luo et al., 2023), MAMMOTH (Yue et al., 2023), ToRA (Gou et al., 2023) i Deepseek (Bi et al., 2024; Guo et al., 2024; Lu et al., 2024) pojawiły się jako dominujące modele w popularnych motywach matematycznych, takich jak GSM8K (Cobbe et al., 2023), MATH (Hendrycks et W tym artykule rozwiązujemy wyżej wymienione wyzwania, wprowadzając nowy i trudny problem arytmetycznych zagadek i podejmując początkową próbę ich rozwiązania. W szczególności proponujemy zagadkę, która wymaga wielostopniowych obliczeń, aby wygenerować poprawne rozwiązanie. Tymczasem rurociąg syntezy danych został opracowany, aby automatycznie wygenerować ogromną ilość danych o wysokiej jakości do nadzorowanego fine-tuning (SFT). A seria LLM opartych na open-llama-3B (Touvron et al., 2023a) są wyrafinowane na tym syntetycznym zestawie danych. Ponadto, aby wykazać zdolności rozumowania w ekstrapolacji, W celu sprawiedliwej oceny ograniczyliśmy nasze modele do chciwego pobierania próbek w ustawieniu zero-shot i dostarczyliśmy odpowiedni weryfikator. Nasze eksperymenty w zakresie skalowania danych pokazują, że w miarę wzrostu ilości danych syntetycznych, wewnętrzny zero-shot pass@1 wzrasta z 0,22 do 0,44, podczas gdy pozadomainowy zero-shot pass@1 wzrasta z 0,14/0.17 do 0,33/0.35. Nasze główne wkłady można uzupełnić w następujący sposób: (1) Proponujemy nowy problem arytmetycznych zagadek z odpowiednią rurociągiem syntezy danych i kryteriami referencyjnymi poza domeną, aby zweryfikować możliwości wielostopniowego rozumowania i ekstrapolacji LLM dostosowanych do danych syntetycznych. (2) Eksperymenty wskazują, że zwiększenie ilości wysokiej jakości syntetycznych danych prowadzi do poprawy wydajności w zakresie zbiorów danych w domenie i poza domeną. (3) Przeprowadzono kompleksowe badanie przypadku. Niniejszy dokument jest dostępny w archiwum na podstawie licencji CC BY-NC-SA 4.0 Deed (Attribution-Noncommercial-Sharelike 4.0 International). Niniejszy dokument jest dostępny w archiwum na podstawie licencji CC BY-NC-SA 4.0 Deed (Attribution-Noncommercial-Sharelike 4.0 International).