Os autores: (1) Haolong Li, Tongji Universiy e trabalho feito durante o estágio na ByteDance (furlongli322@gmail.com); (2) Yu Ma, Fundação Seed, ByteDance (mayu.1231@bytedance.com); (3) Yinqi Zhang, Universidade Normal da China Oriental e trabalho realizado durante o estágio na ByteDance (zhang.inch@gmail.com); (4) Chen Ye (autor correspondente), ESSC Lab, Tongji Universiy (yechen@tongji.edu.cn); (5) Jie Chen, Fundação Seed, ByteDance e um Líder de Projeto (chenjiexjtu@gmail.com). Authors: (1) Haolong Li, Tongji Universiy e trabalho feito durante o estágio na ByteDance (furlongli322@gmail.com); (2) Yu Ma, Fundação Seed, ByteDance (mayu.1231@bytedance.com); (3) Yinqi Zhang, Universidade Normal da China Oriental e trabalho realizado durante o estágio na ByteDance (zhang.inch@gmail.com); (4) Chen Ye (autor correspondente), ESSC Lab, Tongji Universiy (yechen@tongji.edu.cn); (5) Jie Chen, Fundação Seed, ByteDance e um Líder de Projeto (chenjiexjtu@gmail.com). Mesa da Esquerda Abstract e 1 Introdução 2 Definição do problema 2.1 Problema de quebra-cabeça aritmética 2.2 Síntese de dados 2.3 Conjunto de dados 3 Modelo 4 Experimentos 4.1 Avaliação 4.2 Resultados 4.3 Estudos de caso 5 Conclusões e reconhecimentos 6 Limitações 7 Declaração de Ética e Referências A Appendix A.1 Configuração de hiperparâmetros A.2 Avaliação do modelo de base A.3 Estudo de Caso A.4 Visualização do puzzle proposto Abstração Grandes Modelos de Linguagem (LLMs) demonstraram um excelente desempenho em compreensão de linguagem, geração de texto, síntese de código e muitas outras tarefas, enquanto ainda lutam com problemas complexos de raciocínio multi-passo, como raciocínio matemático. Neste artigo, através de um novo problema de quebra-cabeça aritmética, mostramos que o modelo pode desempenhar bem em tarefas de raciocínio multi-passo por meio de ajustes finos em dados sintéticos de alta qualidade. Resultados experimentais com o modelo open-lama-3B em três conjuntos de dados de teste diferentes mostram que não só o modelo pode alcançar um zero-shot pass@1 em 0,44 no conjunto de dados no domínio, mas também demonstra certas capacidades de generalização nos conjuntos de dados fora do 1 Introdução Grandes Modelos de Idiomas (LLMs), como aprendizes de zero-shot e multi-task, mostraram capacidades extraordinárias em uma variedade de tarefas de linguagem natural (Vaswani et al., 2017; Schulman et al., 2017; Radford et al., 2019; Ziegler et al., 2019; Brown et al., 2020; Kojima et al., 2022; Park et al., 2023; Chowdhery et al., 2023; Rafailov et al., 2022; Chen et al., 2022; extra; Gao et al., 2023; Trinh et al., 2024). No entanto, mesmo os LLMs mais avançados enfrentam desafios quando se trata de resolver problemas complexos de raciocínio multi-passo, como raciocínio matemático e científico (Koncel-Kedziorski et al., 2016; Cobbe Muitas pesquisas anteriores exploraram esses desafios. GPT-4 (Achiam et al., 2023), LLaMA (Touvron et al., 2023a,b), Gemini (Team et al., 2023), Minerva (Lewkowycz et al., 2022), Llemma (Azerbayev et al., 2023), Mistral (Jiang et al., 2023), WizardMath (Luo et al., 2023), MAMMOTH (Yue et al., 2023), ToRA (Gou et al., 2023) e Deepseek (Bi et al., 2024; Guo et al., 2024; Lu et al., 2024) emergiram como modelos dominantes em raciocínios matemáticos populares como GSM8K (Cobbe et al., 2023), MATH (Hendrycks et al., 2021), CMH Neste artigo, abordamos os desafios acima mencionados, introduzindo um novo e desafiador problema de quebra-cabeça aritmética e fazendo uma tentativa inicial de resolvê-los. Especificamente, propomos um quebra-cabeça que precisa de cálculos em múltiplos passos para gerar uma solução correta. Enquanto isso, um tubo de síntese de dados é desenvolvido para gerar automaticamente uma grande quantidade de dados de alta qualidade para o ajuste fino supervisionado (SFT). E uma série de LLMs baseados em open-llama-3B (Touvron et al., 2023a) são refinados sobre este conjunto de dados sintéticos. Além disso, para demonstrar as habilidades de raciocínio na extrapolação, Projetamos dois benchmarks fora do domínio na forma de estender a faixa numérica e os componentes compostos do problema do quebra-cabeça aritmético. Para efeitos de avaliação justa, limitamos nossos modelos à amostragem gananciosa em uma configuração de zero-shot e fornecemos um verificador correspondente. Nossos experimentos de escala de dados demonstram que à medida que a quantidade de dados sintéticos cresce, o pass@1 de zero-shot no domínio aumenta de 0,22 para 0,44, enquanto o pass@1 de zero-shot fora do domínio aumenta de 0,14/0.17 para 0,33/0.35. Nossas principais contribuições podem ser concluídas como: (1) Proporcionamos um novo problema de quebra-cabeça aritmética com pipeline de síntese de dados correspondente e benchmarks fora do domínio, para verificar as capacidades de raciocínio e extrapolação de múltiplos passos dos LLMs finamente ajustados a dados sintéticos. (2) Experimentos indicam que aumentar a quantidade de dados sintéticos de alta qualidade leva a melhorias de desempenho em conjuntos de dados dentro e fora do domínio. (3) Um estudo de caso abrangente foi realizado. Este artigo está disponível em arquivo sob a licença CC BY-NC-SA 4.0 Deed (Attribution-Noncommercial-Sharelike 4.0 International). Este documento é Licença CC BY-NC-SA 4.0 Deed (Attribution-Noncommercial-Sharelike 4.0 International) Disponível em Arquivo