Yazarlar : (1) Haolong Li, Tongji Universiy ve ByteDance staj sırasında yapılan çalışmalar (furlongli322@gmail.com); (2) Yu Ma, Seed Vakfı, ByteDance (mayu.1231@bytedance.com ) (3) Yinqi Zhang, Doğu Çin Normal Üniversitesi ve ByteDance staj sırasında yapılan çalışmalar (zhang.inch@gmail.com); (4) Chen Ye (Yönetici Yazar), ESSC Lab, Tongji Universiy (yechen@tongji.edu.cn) (5) Jie Chen, Seed Vakfı, ByteDance ve bir Proje Lider (chenjiexjtu@gmail.com). Authors: (1) Haolong Li, Tongji Universiy ve ByteDance staj sırasında yapılan çalışmalar (furlongli322@gmail.com); (2) Yu Ma, Seed Vakfı, ByteDance (mayu.1231@bytedance.com ) (3) Yinqi Zhang, Doğu Çin Normal Üniversitesi ve ByteDance staj sırasında yapılan çalışmalar (zhang.inch@gmail.com); (4) Chen Ye (Yönetici Yazar), ESSC Lab, Tongji Universiy (yechen@tongji.edu.cn) (5) Jie Chen, Seed Vakfı, ByteDance ve bir Proje Lider (chenjiexjtu@gmail.com). Masanın sol tarafı Abstract ve 1 Giriş 2 Problem Tanımları 2.1 Aritmetik bulmaca sorunu 2.2 Bilgi toplama 2.3 Veritabanı 3 model 4 Deneyler 4.1 Değerlendirme 4.2 Sonuçlar 4.3 Vaka Çalışmaları 5 Sonuçlar ve itiraflar 6 Sınırlamalar 7 Etik Açıklama ve Referanslar A Appendix A.1 Hiperparametre ayarları A.2 Temel Modelin Değerlendirilmesi A.3 Araştırma A.4 Önerilen bulmaca görselleştirme abstraklık Large Language Models (LLMs) dil anlayışı, metin üretimi, kod sentezi ve diğer birçok görevde mükemmel performans gösterdi, ancak hala matematiksel düşünme gibi karmaşık çok adımlı düşünme sorunları ile uğraşıyorlar. Bu makalede, yeni önerilen bir aritmetik bulmaca sorunu ile, modelin yüksek kaliteli sentetik veriler üzerinde ince ayarlama yoluyla çok adımlı düşünme görevlerinde iyi performans gösterdiğini gösteriyoruz. Bu makalede, yalnızca modelin alan içi veritabanında 0.44'te 0-shot pass@1'a ulaşabildiğini gösteriyor, aynı zamanda alan dışındaki veritabanında bazı genelleşme yeteneklerini de gösteriyor. Özellikle, bu makalede, sayı aralığını ve aritmetik bulmaca bileşenlerini ayrı ayrı genişleterek iki alan dışındaki 1 Giriş Büyük Dil Modelleri (LLM'ler), sıfır atış ve çok görev öğrencileri olarak, çeşitli doğal dil görevlerinde olağanüstü yetenekleri göstermiştir (Vaswani et al., 2017; Schulman et al., 2017; Radford et al., 2019; Ziegler et al., 2019; Brown et al., 2020; Kojima et al., 2022; Park et al., 2023; Chowdhery et al., 2023; Rafailov et al., 2022; Chen et al., extra, 2022). Bununla birlikte, en gelişmiş LLM'ler karmaşık çok adımlı düşünce sorunlarını ele alırken bile zorluklarla karşı karşıya. Bu üç ana nedenden kaynaklanmaktadır: İlk olarak, matematiksel düşünce çoğunlukla yüksek derecelendirme matematiksel adımları gerektirir, çünkü matematiksel yetenekleri, tek bir düşünceyi çözmek için GPT-4 (Achiam et al., 2023), LLaMA (Touvron et al., 2023a,b), Gemini (Team et al., 2023), Minerva (Lewkowycz et al., 2022), Llemma (Azerbayev et al., 2023), Mistral (Jiang et al., 2023), WizardMath (Luo et al., 2023), MAMMOTH (Yue et al., 2023), ToRA (Gou et al., 2023) ve Deepseek (Bi et al., 2024; Guo et al., 2024; Lu et al., 2024) GSM8K (Cobbe et al., 2023), MATH (Hendrycks et al., 2021), CMHAT (Wei et al., 2023) ve AGIE (Zvalhong et al., 2023). Bu makalede, yukarıda bahsettiğimiz zorlukları yeni ve zorlu bir aritmetik bulmaca sorunu ile ele alarak ve bunları çözmek için bir ilk girişim yaparak ele alacağız. Özellikle, doğru bir çözüm üretmek için çok adımlı hesaplamalar gerektiren bir bulmaca öneriyoruz. Bu arada, yüksek kaliteli verilerin büyük bir miktarını otomatik olarak oluşturmak için bir veri sentez boru hattı geliştirildi (SFT). Ve açık lama-3B (Touvron et al., 2023a) temelinde bir dizi LLM bu sentetik veritabanına düzgün bir şekilde ayarlandı. Ayrıca, ekstrapolasyonda mantıksal yeteneklerini göstermek için, Aritmetik bulmaca sorununun sayısal aralığını ve bileşenlerini genişletme biçiminde iki alan dışındaki benchmark tasarladık. Adil değerlendirme amacıyla, modellerimizi sıfır çekim ayarında açgözlü örneklemeye sınırlandırdık ve ilgili bir doğrulayıcı sağladık. Veri ölçeklendirme deneylerimiz, sentetik verilerin miktarının arttıkça, alan içindeki sıfır çekim pass@1'in 0.22'den 0.44'e, alan dışındaki sıfır çekim pass@1'in 0.14/0.17'den 0.33/0.3'e yükseldiğini göstermektedir. Önemli katkılarımız aşağıdakilerle sonuçlanabilir: (1) Yeni bir aritmetik bulmaca sorunu sunuyoruz, ilgili veri sentez boru hattı ve alan dışındaki referanslar ile, LLM'lerin sentetik veriler üzerine düzgün ayarlanmış çok adımlı düşünme ve ekstrapolasyon yeteneklerini doğrulamak için. (2) Deneyler, yüksek kaliteli sentetik verilerin miktarını arttırmanın alan içi ve alan dışındaki veri setlerinde performans artışlarına yol açtığını göstermektedir. (3) kapsamlı bir vaka çalışması gerçekleştirildi. Bu makale CC BY-NC-SA 4.0 Deed (Attribution-Noncommercial-Sharelike 4.0 International) lisansı altında mevcuttur. Bu kağıt CC BY-NC-SA 4.0 Deed (Attribution-Noncommercial-Sharelike 4.0 International) lisansı altında. Arşivde kullanılabilir