1,130 測定値

ツール統合推論の探求: 数学に熟練した LLM の革新

に Mike Young4m2023/10/04

長すぎる; 読むには

TORA は、論理的根拠ベースの推論とプログラムベースの推論の両方を組み合わせて、以前は LLM が解決できなかった数学の問題に結果をもたらします。

featured image - ツール統合推論の探求: 数学に熟練した LLM の革新

数学的推論は、長い間、人工知能にとって挑戦的なフロンティアでした。 GPT-3や ChatGPT などの言語モデルは、多くの言語タスクで優れたパフォーマンスを達成していますが、大学レベルの複雑な数学問題を正確に解くのは依然として困難です。高度な数学的推論機能を習得すれば、科学、工学、金融などのさまざまな分野で AI アプリケーションを活用できる可能性があります。

最近、清華大学とマイクロソフトの研究者は、大規模な言語モデルの数学的推論スキルの強化において大きな進歩を遂げました。彼らの主要な技術革新 (ここで紹介されています) は、計算ライブラリやシンボリック方程式ソルバーなどの外部数学ツールをモデルの推論プロセスに直接統合しています。

どのように機能するかを見てみましょう!

問題: 言語モデルにとって数学は依然として難しい理由

数値計算や基本的な代数などのタスクは、既存のモデルで十分に処理できます。しかし、多段階の推論、記号操作、抽象的な概念を含む複雑な数学的問題解決には依然として問題があります。

たとえば、モデルは、変数の特定、連立方程式の設定、テキストで口頭で記述された関係の数学的形式化を必要とする代数の文章題を解くことができないことがよくあります。幾何学は空間推論のスキルが必要なため、課題が生じます。高校や大学の数学の演習では、既存の言語モデルを混乱させる証明、積分、行列などの概念も導入されます。

研究者らは、これらの困難は次の 2 つの主な要因によるものだと考えています。

抽象的な推論能力の欠如: 今日の言語モデルは主にインターネットテキストコーパスでトレーニングされています。これは言語スキルを教えますが、数学的推論に必要な構造化された知識と論理を提供するものではありません。
記号計算を実行できない: 言語には、数学記号を操作するために必要な厳密さと正確さが欠けています。モデルでは、各ステップで小さなエラーが発生する可能性があり、それが複数のステップの問題に累積していきます。

ツール統合型推論: 新しいトレーニングパラダイム

これらの課題に対処するために、研究者らは、ツール統合推論と呼ばれる形式で推論するための言語モデルを教えることを提案しています。重要な革新は、モデルによって生成された自然言語の理論的根拠をコードとインターリーブして、外部数学ツールを呼び出すことです。

たとえば、複雑な代数の文章問題が与えられた場合、モデルは最初にアプローチを言葉で説明し、次に SymPy を使用して Python プログラムを作成して方程式系を記号的に設定し、それを実行して解を求め、最後に結果を口頭で説明します。

これにより、高レベルの推論と計画における言語モデルの強みが、数学ツールの精度と計算能力によって補完されます。彼らは、これにより、意味の理解と記号の操作の両方を必要とする問題を解決するモデルの能力が大幅に強化される可能性があると予想しています。

トレーニング方法論: ツールのインタラクション例からの模倣学習

このビジョンを実現するために、研究者らはまず、数学の問題に関してツールを統合した推論を実証するデータセットを作成する必要がありました。彼らは GPT-3 の機能を活用して、SymPy などのツールと対話しながら、GSM8k および MATH データセットから問題を解決する GPT-3 自体の 16,000 個の例を自動的に生成しました。

ツールの相互作用軌跡のこのコーパスを使用して、チームは模倣学習を使用して LLaMA モデルのバージョンを事前トレーニングしました。つまり、モデルは、データセットで実証されたツールの使用動作とインターリーブされた自然言語の理論的根拠を予測するようにトレーニングされました。

このアプローチにより、70 億から 700 億のパラメータにわたる一連のツール統合オープンソース推論エージェント(TORA) が生成されました。

数学的推論のパフォーマンスが大幅に向上

研究者らは、10 の多様な数学的推論データセットに基づいて TORA モデルを系統的に評価し、パフォーマンスを従来の最先端技術と比較しました。

この結果は、ツールに統合された推論トレーニングがモデルのサイズとタスク全体にわたって大幅な向上をもたらすことを示しています。

TORA モデルは、既存の最高のオープンソースモデルと比較して、平均で13 ～ 19% 高い精度を達成しました。
挑戦的な競技レベルの数学テスト (MATH データセット) で、TORA-7B は40% の精度を記録し、以前の最高のモデルを 22 パーセントポイント上回りました。
TORA-34B は MATH で51% の精度を達成し、同じ問題で GPT-4 のパフォーマンス 43% を上回りました。

これは、外部ツールを活用する方法を学ぶことで、GPT-4 のような非常に大規模なモデルであっても数学的推論の能力を著しく向上させることができることを示唆しています。

興味深いことに、この改善は、算術、代数学、微積分、幾何学、確率などにわたるさまざまな種類の問題にわたって一貫していました。ツールの統合により、幅広いメリットが得られるようです。