Los autores: (1) Haolong Li, Tongji Universiy y trabajo realizado durante el período de prácticas en ByteDance (furlongli322@gmail.com); (2) Yu Ma, Fundación Seed, ByteDance (mayu.1231@bytedance.com); (3) Yinqi Zhang, Universidad Normal de China Oriental y trabajo realizado durante el período de prácticas en ByteDance (zhang.inch@gmail.com); (4) Chen Ye (Autor Correspondente), ESSC Lab, Tongji Universiy (yechen@tongji.edu.cn); (5) Jie Chen, Fundación Seed, ByteDance y un Líder de Proyecto (chenjiexjtu@gmail.com). Authors: (1) Haolong Li, Tongji Universiy y trabajo realizado durante el período de prácticas en ByteDance (furlongli322@gmail.com); (2) Yu Ma, Fundación Seed, ByteDance (mayu.1231@bytedance.com); (3) Yinqi Zhang, Universidad Normal de China Oriental y trabajo realizado durante el período de prácticas en ByteDance (zhang.inch@gmail.com); (4) Chen Ye (Autor Correspondente), ESSC Lab, Tongji Universiy (yechen@tongji.edu.cn); (5) Jie Chen, Fundación Seed, ByteDance y un Líder de Proyecto (chenjiexjtu@gmail.com). Mesa de la izquierda Abstracto y 1 Introducción 2 Definición del problema 2.1 Problema de puzzle aritmético 2.2 Síntesis de datos 2.3 Datos 3 Modelos 4 Experimentos 4.1 Evaluación 4.2 Resultados 4.3 Estudios de caso 5 Conclusiones y reconocimientos 6 Limitaciones 7 Declaración de ética y referencias A Appendix A.1 Configuración de hiperparámetros A.2 Evaluación del modelo base A.3 Estudio de casos A.4 Visualización del puzzle propuesto Abstracción Los grandes modelos de lenguaje (LLMs) han demostrado un excelente rendimiento en el entendimiento del lenguaje, la generación de texto, la síntesis de código y muchas otras tareas, mientras que todavía luchan con complejos problemas de razonamiento multipaso, como el razonamiento matemático. En este artículo, a través de un nuevo problema de puzzle aritmético propuesto, mostramos que el modelo puede desempeñar bien en tareas de razonamiento multipaso a través de ajustes finos en datos sintéticos de alta calidad. En concreto, los resultados experimentales con el modelo open-lama-3B en tres diferentes conjuntos de datos de prueba muestran que no solo el modelo puede alcanzar un paso cero a 0.44 en el conjunto de datos de dominio, sino que también demuestra ciertas capacidades de generalización en los conjuntos de datos 1 Introducción Los grandes modelos de lenguas (LLMs), como aprendices de tiro cero y multi-task, han demostrado extraordinarias capacidades en una variedad de tareas de lengua natural (Vaswani et al., 2017; Schulman et al., 2017; Radford et al., 2019; Ziegler et al., 2019; Brown et al., 2020; Kojima et al., 2022; Park et al., 2023; Chowdhery et al., 2023; Rafailov et al., 2022; Chen et al., 2022; extra; Gao et al., 2023; Trinh et al., 2024). Sin embargo, incluso los LLMs más avanzados se enfrentan a desafíos cuando se trata de abordar complejos problemas de razonamiento multi-paso, como el razonamiento matemático y científico (Koncel-Kedziorski et al., 2016; Cobbe et al GPT-4 (Achiam et al., 2023), LLaMA (Touvron et al., 2023a,b), Gemini (Team et al., 2023), Minerva (Lewkowycz et al., 2022), Llemma (Azerbayev et al., 2023), Mistral (Jiang et al., 2023), WizardMath (Luo et al., 2023), MAMMOTH (Yue et al., 2023), ToRA (Gou et al., 2023) y Deepseek (Bi et al., 2024; Guo et al., 2024; Lu et al., 2024) han surgido como modelos dominantes en razonamientos matemáticos populares como GSM8K (Cobbe et al., 2023), MATH (Hendrycks et al., 2021), CMHAT (Wei et al., 2023) y AGIE En este artículo, abordamos los desafíos antes mencionados introduciendo un nuevo y desafiante problema de rompecabezas aritméticos y haciendo un intento inicial para resolverlos. En concreto, proponemos un rompecabezas que necesita cálculos en múltiples pasos para generar una solución correcta. Mientras tanto, se desarrolla una tubería de síntesis de datos para generar automáticamente una gran cantidad de datos de alta calidad para el ajuste fino supervisado (SFT). Y una serie de LLMs basados en open-llama-3B (Touvron et al., 2023a) se ajustan a este conjunto de datos sintéticos. Además, para demostrar las capacidades de razonamiento en extrapolación, Hemos diseñado dos benchmarks fuera del dominio en forma de ampliar el rango numérico y los componentes del problema del rompecabezas aritmético. Para fines de evaluación justa, hemos restringido nuestros modelos a la muestreo codiciosa en una configuración de cero disparo y hemos proporcionado un verificador correspondiente. Nuestros experimentos de escala de datos demuestran que a medida que crece la cantidad de datos sintéticos, el pass@1 de disparo cero en el dominio aumenta de 0,22 a 0,44 mientras que el pass@1 de disparo cero fuera del dominio aumenta de 0,14/0.17 a 0,33/0.35. Nuestras contribuciones principales se pueden concluir como: (1) Proponemos un nuevo problema de rompecabezas aritméticos con la tubería de síntesis de datos correspondiente y los parámetros de referencia fuera del dominio, para verificar las capacidades de razonamiento y extrapolación en múltiples pasos de los LLMs ajustados a los datos sintéticos. (2) Los experimentos indican que aumentar la cantidad de datos sintéticos de alta calidad conduce a mejoras de rendimiento en los conjuntos de datos dentro y fuera del dominio. (3) Se ha realizado un estudio de caso completo. Este artículo está disponible en archivo bajo la licencia CC BY-NC-SA 4.0 Deed (Attribution-Noncommercial-Sharelike 4.0 International). Este documento es bajo la licencia CC BY-NC-SA 4.0 Deed (Attribution-Noncommercial-Sharelike 4.0 International). Disponible en Archivo