数学推理长期以来一直是人工智能的一个具有挑战性的前沿领域。尽管GPT-3和 ChatGPT 等语言模型在许多语言任务上取得了令人印象深刻的表现,但它们仍然难以准确解决复杂的大学水平数学问题。掌握复杂的数学推理能力可以解锁人工智能在科学、工程、金融等不同领域的应用。
近期,清华大学和微软的研究人员在强化大型语言模型的数学推理能力方面取得了重大进展。他们的关键技术创新(
让我们看看它是如何工作的!
现有模型可以很好地处理数值计算和基本代数等任务。然而,涉及多步推理、符号操作和抽象概念的复杂数学问题解决仍然存在问题。
例如,模型通常无法解决需要识别变量、建立方程组以及以数学方式形式化文本中口头描述的关系的代数应用题。由于需要空间推理技能,几何学提出了挑战。高中和大学的数学练习还引入了证明、积分、矩阵等概念,这些概念与现有的语言模型相混淆。
研究人员将这些困难归因于两个主要因素:
缺乏抽象推理能力:当今的语言模型主要是在互联网文本语料库上进行训练的。虽然这教授了语言技能,但它并没有提供数学推理所需的结构化知识和逻辑。
无法执行符号计算:语言缺乏操作数学符号所需的严谨性和精确性。模型可能在每个步骤中犯一些小错误,这些错误会在多步骤问题上累积。
为了应对这些挑战,研究人员提出教授语言模型以他们称之为“工具集成推理”的格式进行推理。关键的创新是将模型生成的自然语言原理与调用外部数学工具的代码交织在一起。
例如,给定一个复杂的代数文字问题,模型可能首先用文字描述方法,然后使用 SymPy 编写一个 Python 程序以符号方式建立方程组,执行它以获得解决方案,最后口头解释结果。
这通过数学工具的精度和计算能力补充了语言模型在高级推理和规划方面的优势。他们预计这可以显着增强模型解决需要语义理解和符号操作的问题的能力。
为了实现这一愿景,研究人员首先必须创建一个数据集,展示数学问题的工具集成推理。他们利用 GPT-3 的功能自动生成 16,000 个 GPT-3 本身的示例,解决 GSM8k 和 MATH 数据集中的问题,同时与 SymPy 等工具交互。
借助这个工具交互轨迹语料库,团队使用模仿学习预先训练了 LLaMA 模型的版本。也就是说,模型经过训练来预测工具使用行为和数据集中演示的交错自然语言原理。
这种方法产生了一系列工具集成的开源推理代理(TORA) ,参数范围从 70 亿到 700 亿个。
研究人员在 10 个不同的数学推理数据集上系统地评估了 TORA 模型,并将其性能与先前最先进的技术进行了比较。
结果表明,工具集成推理训练在模型大小和任务方面产生了显着的收益:
与现有最好的开源模型相比,TORA 模型的平均准确度提高了 13-19% 。
在具有挑战性的竞赛级数学测试(MATH 数据集)中,TORA-7B的准确率达到 40% ,比之前的最佳模型高出 22 个百分点。
TORA-34B 在数学上达到了51% 的准确率,超过了 GPT-4 在相同问题上 43% 的表现。
这表明学习利用外部工具甚至可以显着增强 GPT-4 等大型模型的数学推理能力。
有趣的是,这些改进在算术、代数、微积分、几何、概率等不同问题类型中是一致的。工具集成似乎提供了广泛的好处。
为了更好地理解模型行为,研究人员系统地分析了跨数学领域的工具使用模式:
他们还评估了消除自然语言原理或工具集成的消融:
这些见解阐明了语言推理和符号推理的互补优势。
尽管工具集成带来了好处,但仍然存在很大的改进空间。研究人员认为几何和高级代数是模型仍然难以解决的领域。
几何构成了挑战,因为 SymPy 等当前工具的空间推理能力有限。多模式推理的进步以及与图形库更紧密的集成可能会有所帮助。
对于抽象代数,可能需要人类数学家使用的技术,例如利用已知定理和从结果向后推算问题。可能还需要更强的符号推理能力。
总的来说,这项研究提供了有希望的证据,表明将语言模型的优势与专门的外部工具相结合可以显着改善数学推理。然而,有效地整合不同的推理模式和更高层次的数学问题解决策略仍然是一个悬而未决的问题。这些都是今后工作的重要方向。
这里引入的工具集成训练范式还可以激发对集成外部能力的研究,以增强逻辑、常识推理和艺术等跨学科的推理。这可能是迈向更强大、更通用的人工智能系统的重要一步。
也发布在这里。