数学的推論は、長い間、人工知能にとって挑戦的なフロンティアでした。 GPT-3や ChatGPT などの言語モデルは、多くの言語タスクで優れたパフォーマンスを達成していますが、大学レベルの複雑な数学問題を正確に解くのは依然として困難です。高度な数学的推論機能を習得すれば、科学、工学、金融などのさまざまな分野で AI アプリケーションを活用できる可能性があります。
最近、清華大学とマイクロソフトの研究者は、大規模な言語モデルの数学的推論スキルの強化において大きな進歩を遂げました。彼らの主要な技術革新 (
どのように機能するかを見てみましょう!
数値計算や基本的な代数などのタスクは、既存のモデルで十分に処理できます。しかし、多段階の推論、記号操作、抽象的な概念を含む複雑な数学的問題解決には依然として問題があります。
たとえば、モデルは、変数の特定、連立方程式の設定、テキストで口頭で記述された関係の数学的形式化を必要とする代数の文章題を解くことができないことがよくあります。幾何学は空間推論のスキルが必要なため、課題が生じます。高校や大学の数学の演習では、既存の言語モデルを混乱させる証明、積分、行列などの概念も導入されます。
研究者らは、これらの困難は次の 2 つの主な要因によるものだと考えています。
抽象的な推論能力の欠如: 今日の言語モデルは主にインターネット テキスト コーパスでトレーニングされています。これは言語スキルを教えますが、数学的推論に必要な構造化された知識と論理を提供するものではありません。
記号計算を実行できない: 言語には、数学記号を操作するために必要な厳密さと正確さが欠けています。モデルでは、各ステップで小さなエラーが発生する可能性があり、それが複数のステップの問題に累積していきます。
これらの課題に対処するために、研究者らは、ツール統合推論と呼ばれる形式で推論するための言語モデルを教えることを提案しています。重要な革新は、モデルによって生成された自然言語の理論的根拠をコードとインターリーブして、外部数学ツールを呼び出すことです。
たとえば、複雑な代数の文章問題が与えられた場合、モデルは最初にアプローチを言葉で説明し、次に SymPy を使用して Python プログラムを作成して方程式系を記号的に設定し、それを実行して解を求め、最後に結果を口頭で説明します。
これにより、高レベルの推論と計画における言語モデルの強みが、数学ツールの精度と計算能力によって補完されます。彼らは、これにより、意味の理解と記号の操作の両方を必要とする問題を解決するモデルの能力が大幅に強化される可能性があると予想しています。
このビジョンを実現するために、研究者らはまず、数学の問題に関してツールを統合した推論を実証するデータセットを作成する必要がありました。彼らは GPT-3 の機能を活用して、SymPy などのツールと対話しながら、GSM8k および MATH データセットから問題を解決する GPT-3 自体の 16,000 個の例を自動的に生成しました。
ツールの相互作用軌跡のこのコーパスを使用して、チームは模倣学習を使用して LLaMA モデルのバージョンを事前トレーニングしました。つまり、モデルは、データセットで実証されたツールの使用動作とインターリーブされた自然言語の理論的根拠を予測するようにトレーニングされました。
このアプローチにより、70 億から 700 億のパラメータにわたる一連のツール統合オープンソース推論エージェント(TORA) が生成されました。
研究者らは、10 の多様な数学的推論データセットに基づいて TORA モデルを系統的に評価し、パフォーマンスを従来の最先端技術と比較しました。
この結果は、ツールに統合された推論トレーニングがモデルのサイズとタスク全体にわたって大幅な向上をもたらすことを示しています。
TORA モデルは、既存の最高のオープンソース モデルと比較して、平均で13 ~ 19% 高い精度を達成しました。
挑戦的な競技レベルの数学テスト (MATH データセット) で、TORA-7B は40% の精度を記録し、以前の最高のモデルを 22 パーセントポイント上回りました。
TORA-34B は MATH で51% の精度を達成し、同じ問題で GPT-4 のパフォーマンス 43% を上回りました。
これは、外部ツールを活用する方法を学ぶことで、GPT-4 のような非常に大規模なモデルであっても数学的推論の能力を著しく向上させることができることを示唆しています。
興味深いことに、この改善は、算術、代数学、微積分、幾何学、確率などにわたるさまざまな種類の問題にわたって一貫していました。ツールの統合により、幅広いメリットが得られるようです。
モデルの動作をより深く理解するために、研究者らは数学的領域全体でツールの使用パターンを体系的に分析しました。
彼らはまた、自然言語の理論的根拠またはツールの統合を除去するアブレーションも評価しました。
これらの洞察は、言語的推論と象徴的推論の両方の補完的な長所を明らかにします。
ツールの統合によるメリットにもかかわらず、改善の余地は依然として大きくあります。研究者らは、モデルが依然として苦戦している分野として、幾何学と高度な代数を特定した。
SymPy などの現在のツールでは空間推論の機能が限られているため、ジオメトリには課題が生じています。マルチモーダル推論の進歩とグラフィカル ライブラリとの緊密な統合が役立つ可能性があります。
抽象代数の場合、既知の定理を活用したり、結果から問題を逆算したりするなど、人間の数学者が使用するテクニックが必要になる場合があります。より強力な記号推論能力も必要とされる可能性があります。
全体として、この研究は、言語モデルの強みと特殊な外部ツールを組み合わせることで数学的推論を著しく改善できるという有望な証拠を提供します。しかし、さまざまな推論手法とより高度な数学的問題解決戦略を効率的に統合することは、未解決の問題のままです。これらは将来の作業の重要な方向性です。
ここで紹介されたツール統合トレーニング パラダイムは、論理、常識的推論、芸術などの分野にわたる推論を強化するために外部機能を統合する研究を促進する可能性もあります。これは、より高機能で汎用性の高い AI システムに向けた重要な一歩となる可能性があります。