著者: (1) Haolong Li、Tongji Universiy、ByteDanceでのインターンシップ期間中の仕事(furlongli322@gmail.com) (2) Yu Ma, Seed Foundation, ByteDance(mayu.1231@bytedance.com) (3) Yinqi Zhang, East China Normal University and work done during internship at ByteDance (zhang.inch@gmail.com); (4) Chen Ye(著者) ESSC Lab, Tongji Universiy (yechen@tongji.edu.cn) (5) Jie Chen, Seed Foundation, ByteDance and a Project Leader (chenjiexjtu@gmail.com) Authors: (1) Haolong Li、Tongji Universiy、ByteDanceでのインターンシップ期間中の仕事(furlongli322@gmail.com) (2) Yu Ma, Seed Foundation, ByteDance(mayu.1231@bytedance.com) (3) Yinqi Zhang, East China Normal University and work done during internship at ByteDance (zhang.inch@gmail.com); (4) Chen Ye(著者) ESSC Lab, Tongji Universiy (yechen@tongji.edu.cn) (5) Jie Chen, Seed Foundation, ByteDance and a Project Leader (chenjiexjtu@gmail.com) 左のテーブル 抽象と1 Introduction 2 問題の定義 2.1 数値パズル問題 2.2 データの合成 2.3 データセット 3 モデル 4 実験 4.1 評価 4.2 結果 4.3 ケーススタディ 5 結論と認定 6 制限 7 倫理宣言と参照 A Appendix A.1 ハイパーパラメータ設定 A.2 ベースモデルの評価 A3 ケーススタディ A.4 提案されたパズルの視覚化 抽象 大型言語モデル(LLMs)は、言語理解、テキスト生成、コード合成、その他の多くのタスクで優れたパフォーマンスを示している一方で、数学推理などの複雑な複数のステップの推理問題に苦労している。この論文では、新しく提案された数値パズル問題を通じて、このモデルは、高品質の合成データにフィンタウンニングを介して、複数のステップの推理タスクで優れたパフォーマンスを発揮することができることを示しています。この論文では、このモデルは、ドメイン内のデータセットでゼロショットパス@1 を 0.44 で達成できるだけでなく、ドメイン外のデータセットで特定の一般化能力を示しています。具体的には、この論文は、ゼロ・ドメ 1 導入 大規模な言語モデル(LLMs)は、ゼロショットおよびマルチタスクの学習者として、さまざまな自然言語のタスク(Vaswani et al., 2017; Schulman et al., 2017; Radford et al., 2019; Ziegler et al., 2019; Brown et al., 2020; Kojima et al., 2022; Park et al., 2023; Chowdhery et al., 2023; Rafailov et al., 2022; Chen et al., 2024)を通じて非凡な能力を示しています。しかし、最も先進的なLLMは、数学的および科学的推理(Koncel-Kedziorski et al., 2016; Cobbe et al., 2021; Hendrycks et al., 2021; Wei et al., 2022; Chen et al., extra 2022; Gao et al., 2023; GPT-4 (Achiam et al., 2023), LLaMA (Touvron et al., 2023a,b), Gemini (Team et al., 2023), Minerva (Lewkowycz et al., 2022), Llemma (Azerbayev et al., 2023), Mistral (Jiang et al., 2023), WizardMath (Luo et al., 2023), MAMMOTH (Yue et al., 2023), ToRA (Gou et al., 2023)とDeepseek (Bi et al., 2024; Guo et al., 2024; Lu et al., 2024)は、GSM8K (Cobbe et al., 2023), MATH (Hendrycks et al., 2021), CMHAT (Wei et al., 2023), extraHAT (Wei et al., 2023)とAGIE この論文では、新たな挑戦的な数値パズル問題を導入し、それらを解決する最初の試みを試みることによって、上記の課題に対処します。具体的には、正しい解決策を生成するために複数のステップ計算が必要なパズルを提案します。その間に、データ合成パイプラインが自動的に監督された細かい調節(SFT)のための大量の高品質のデータを生成するために開発されています。また、オープンラマ3B(Touvron et al., 2023a)に基づくLLMのシリーズは、この合成データセットに細かい調節されています。 我々は、数値範囲と数値パズル問題の構成要素を拡張する形で2つのオフドメインベンチマークを設計しました。公正な評価の目的のために、我々は、我々のモデルをゼロショット設定で貪欲なサンプル化に制限し、適切な検証者を提供しました。我々のデータスケーリング実験は、合成データの量が増加するにつれて、ドメイン内のゼロショットpass@1は0.22から0.44に増加し、オフドメインのゼロショットpass@1は0.14/0.17から0.33/0.3に増加することを示しています。 私たちの主要な貢献は、以下のように結論づけることができます:(1)私たちは、合成データに精密にカスタマイズされたLLMの複数のステップの推論とエクストラポレーション能力を検証するために、データ合成パイプラインとドメイン外のベンチマークとの新しい数値パズル問題を提案します。 この論文は、CC BY-NC-SA 4.0 Deed (Attribution-Noncommercial-Sharelike 4.0 International) ライセンスの下で archiv で利用できます。 この論文は、CC BY-NC-SA 4.0 Deed (Attribution-Noncommercial-Sharelike 4.0 International) ライセンスの下で archiv で利用できます。