1,130 판독값

도구 통합 추론 탐구: 수학에 능숙한 LLM 혁신

~에 의해 Mike Young4m2023/10/04

너무 오래; 읽다

TORA는 이론적 기반과 프로그램 기반 추론을 결합하여 이전에는 LLM이 해결하기 너무 어려웠던 수학 문제에 결과를 제공합니다.

featured image - 도구 통합 추론 탐구: 수학에 능숙한 LLM 혁신

수학적 추론은 오랫동안 인공지능의 도전적인 영역이었습니다. GPT-3 및 ChatGPT와 같은 언어 모델은 많은 언어 작업에서 인상적인 성능을 달성했지만 여전히 복잡한 대학 수준의 수학 문제를 정확하게 해결하는 데 어려움을 겪고 있습니다. 정교한 수학적 추론 기능을 익히면 과학, 엔지니어링, 금융 등 다양한 분야에서 AI 애플리케이션을 활용할 수 있습니다.

최근 칭화대학교와 마이크로소프트 연구원들은 대규모 언어 모델의 수학적 추론 능력을 강화하는 데 상당한 진전을 이루었습니다. 그들의 핵심 기술 혁신( 여기에 제시 )은 계산 라이브러리 및 기호 방정식 해결기와 같은 외부 수학적 도구를 모델의 추론 프로세스에 직접 통합합니다.

그것이 어떻게 작동하는지 봅시다!

문제: 언어 모델에서 수학이 여전히 어려운 이유

수치 계산 및 기본 대수와 같은 작업은 기존 모델을 통해 합리적으로 잘 처리될 수 있습니다. 그러나 다단계 추론, 기호 조작 및 추상적 개념을 포함하는 복잡한 수학적 문제 해결은 여전히 문제가 남아 있습니다.

예를 들어, 모델은 변수 식별, 방정식 시스템 설정, 텍스트에 구두로 설명된 관계를 수학적으로 공식화해야 하는 대수 단어 문제를 해결하지 못하는 경우가 많습니다. 기하학은 공간 추론 기술의 필요성으로 인해 어려움을 겪습니다. 고등학교 및 대학교 수학 연습에서는 기존 언어 모델을 혼란스럽게 만드는 증명, 적분, 행렬 등과 같은 개념도 소개합니다.

연구자들은 이러한 어려움을 두 가지 주요 요인에 기인한다고 생각합니다.

추상적 추론 능력 부족 : 오늘날의 언어 모델은 주로 인터넷 텍스트 말뭉치에 대해 훈련됩니다. 이는 언어적 기술을 가르치기는 하지만, 수학적 추론에 필요한 구조화된 지식과 논리를 제공하지는 않습니다.
기호 계산을 수행할 수 없음 : 언어에는 수학 기호를 조작하는 데 필요한 엄격함과 정확성이 부족합니다. 모델은 여러 단계의 문제에 걸쳐 누적되는 각 단계에서 작은 오류를 범할 수 있습니다.

도구 통합 추론: 새로운 훈련 패러다임

이러한 과제를 해결하기 위해 연구자들은 도구 통합 추론 (Tool-Integrated Reasoning)이라는 형식으로 추론하는 언어 모델을 가르치는 것을 제안합니다. 핵심 혁신은 모델에서 생성된 자연어 근거를 외부 수학적 도구를 호출하는 코드와 인터리브하는 것입니다.

예를 들어, 복잡한 대수학 단어 문제가 주어지면 모델은 먼저 접근 방식을 단어로 설명한 다음 SymPy를 사용하여 Python 프로그램을 작성하여 방정식 시스템을 기호적으로 설정하고 이를 실행하여 솔루션을 얻은 다음 마지막으로 결과를 말로 설명할 수 있습니다.

이는 수학적 도구의 정확성과 계산 능력을 통해 높은 수준의 추론 및 계획에서 언어 모델의 강점을 보완합니다. 그들은 이것이 의미론적 이해와 상징적 조작이 모두 필요한 문제를 해결하는 모델의 능력을 크게 향상시킬 수 있을 것으로 기대합니다.

훈련 방법론: 도구 상호 작용 예제를 통한 모방 학습

이 비전을 실현하기 위해 연구원들은 먼저 수학 문제에 대한 도구 통합 추론을 보여주는 데이터 세트를 만들어야 했습니다. 그들은 GPT-3의 기능을 활용하여 SymPy와 같은 도구와 상호 작용하면서 GSM8k 및 MATH 데이터 세트의 문제를 해결하는 GPT-3 자체의 16,000개 예를 자동으로 생성했습니다.

이 도구 상호 작용 궤적 모음을 통해 팀은 모방 학습을 사용하여 LLaMA 모델의 사전 학습 버전을 만들었습니다. 즉, 모델은 도구 사용 행동과 데이터 세트에 표시된 인터리브된 자연어 근거를 예측하도록 훈련되었습니다.

이 접근 방식을 통해 70억 ~ 700억 개의 매개변수 범위에 이르는 일련의 도구 통합 오픈 소스 추론 에이전트 (TORA)가 생성되었습니다.

수학 추론의 대폭적인 성능 향상

연구원들은 10가지 다양한 수학적 추론 데이터 세트에 대해 TORA 모델을 체계적으로 평가하고 성능을 이전 최첨단 기술과 비교했습니다.

결과는 도구 통합 추론 훈련이 모델 크기와 작업 전반에 걸쳐 상당한 이점을 제공한다는 것을 보여줍니다.

TORA 모델은 기존 최고의 오픈 소스 모델에 비해 평균 13~19% 더 높은 정확도를 달성했습니다.
까다로운 경쟁 수준의 수학 테스트(MATH 데이터 세트)에서 TORA-7B는 40%의 정확도를 기록하여 이전 최고 모델을 22% 포인트 앞섰습니다.
TORA-34B는 MATH에서 51%의 정확도를 달성하여 동일한 문제에서 GPT-4의 43% 성능을 능가했습니다.

이는 외부 도구를 활용하는 방법을 배우면 수학적 추론에서 GPT-4와 같은 매우 큰 모델도 눈에 띄게 향상시킬 수 있음을 시사합니다.

흥미롭게도 개선 사항은 산술, 대수학, 미적분학, 기하학, 확률 등 다양한 문제 유형에서 일관되게 나타났습니다. 도구 통합은 광범위한 이점을 제공하는 것으로 보입니다.

분석을 통해 언어와 도구의 상호 보완적인 강점이 드러납니다.

모델 동작을 더 잘 이해하기 위해 연구원들은 수학 영역 전반에 걸쳐 도구 사용 패턴을 체계적으로 분석했습니다.

대수학 문제의 경우 모델은 주로 SymPy와 같은 기호 도구를 사용하여 방정식을 조작했습니다. 이는 엄격하고 정확한 기호 계산에 대한 요구와 잘 일치했습니다.
확률과 같은 수치 영역에서 모델은 계승과 같은 계산 알고리즘에 더 많이 의존했습니다.
기하학의 경우 도구를 적용하면 더 작은 이득을 얻었으며 이는 공간 추론이 여전히 어려운 과제임을 나타냅니다.

그들은 또한 자연어 근거 또는 도구 통합을 제거하는 제거를 평가했습니다.

도구 상호 작용은 문제 유형 전체에서 프로그래밍만 사용하거나 자연어만 사용하는 모델보다 지속적으로 성능이 뛰어났습니다.
이론적 근거는 기하학, 대수학, 기초 미적분학(고수준 계획 및 추론이 필요한 영역)에 가장 큰 이점을 제공했습니다.

이러한 통찰은 언어적 추론과 상징적 추론 모두의 상호 보완적인 강점을 조명합니다.

제한 사항 및 미해결 문제

도구 통합으로 인한 이점에도 불구하고 여전히 개선의 여지가 많이 남아 있습니다. 연구자들은 모델이 여전히 어려움을 겪고 있는 영역으로 기하학과 고급 대수학을 식별했습니다.

SymPy와 같은 현재 도구에는 공간 추론 기능이 제한되어 있기 때문에 기하학은 문제를 제기합니다. 다중 모드 추론의 발전과 그래픽 라이브러리와의 긴밀한 통합이 도움이 될 수 있습니다.

추상 대수학의 경우 알려진 정리를 활용하고 결과에서 거꾸로 문제를 해결하는 것과 같이 인간 수학자들이 사용하는 기술이 필요할 수 있습니다. 더 강력한 상징적 추론 능력도 필요할 것 같습니다.

전반적으로, 이 연구는 언어 모델의 강점과 특수한 외부 도구를 결합하면 수학적 추론을 눈에 띄게 향상시킬 수 있다는 유망한 증거를 제공합니다. 그러나 다양한 추론 양식과 더 높은 수준의 수학적 문제 해결 전략을 효율적으로 통합하는 것은 아직 해결되지 않은 문제로 남아 있습니다. 이는 향후 작업을 위한 중요한 방향입니다.

여기에 소개된 도구 통합 교육 패러다임은 논리, 상식 추론, 예술과 같은 분야 전반에 걸쳐 추론을 향상시키기 위해 외부 기능을 통합하는 방법에 대한 조사를 촉진할 수도 있습니다. 이는 더욱 유능하고 다재다능한 AI 시스템을 향한 중요한 단계가 될 수 있습니다.