著者:
(1)Sirui Hong、DeepWisdom、およびこれらの著者は、この研究に同等の貢献をした。
(2)Yizhang Lin、DeepWisdom、およびこれらの著者は、この研究に同等の貢献をした。
(3)Bang Liu、モントリオール大学&Mila、著者はアルファベット順に記載されている。
(4)Bangbang Liu、DeepWisdomおよびこれらの著者は、この研究に等しく貢献しました。
(5)Binhao Wu、DeepWisdomおよびこれらの著者は、この研究に等しく貢献した。
(6)Danyang Li、DeepWisdomおよびこれらの著者は、この研究に等しく貢献しました。
(7)復旦大学のJiaqi Chenとこれらの著者は、この研究に同等の貢献をした。
(8)中国人民大学の張佳怡氏と他の著者らは本研究に等しく貢献した。
(9)Jinlin Wang、DeepWisdomおよびこれらの著者は、この研究に等しく貢献しました。
(10)Li Zhang、復旦大学およびこれらの著者は、本研究に同等の貢献をした。
(11)Lingyao Zhang、これらの著者は本研究に同等の貢献をした。
(12)ミン・ヤン、5中国科学院深圳先端技術研究所、これらの著者らは本研究に同等の貢献をした。
(13)Mingchen Zhuge、AIイニシアチブ、キングアブドラ科学技術大学およびこれらの著者は、本研究に同等の貢献をした。
(14)Taicheng Guo、ノートルダム大学およびこれらの著者は、本研究に同等の貢献をした。
(15)香港大学のTuo Zhou氏とこれらの著者らは本研究に等しく貢献した。
(16)復旦大学の魏涛とこれらの著者らは本研究に等しく貢献した。
(17)ウェンイ・ワン、AIイニシアチブ、キング・アブドラ科学技術大学およびこれらの著者らは、本研究に等しく貢献した。
(18)イェール大学のXiangru Tang氏とこれらの著者らは、この研究に等しく貢献した。
(19)Xiangtao Lu、DeepWisdomおよびこれらの著者は、この研究に等しく貢献しました。
(20)厦門大学の鄭暁武氏とこれらの著者らは本研究に等しく貢献した。
(21)Xinbing Liang、DeepWisdom、華東師範大学およびこれらの著者は、本研究に同等の貢献をした。
(22)北京理工大学のYaying Feiとこれらの著者は本研究に等しく貢献した。
(23)香港中文大学深圳校のYuheng Cheng氏とこれらの著者らは本研究に等しく貢献した。
(24)徐宗澤、DeepWisdom、河海大学およびこれらの著者らは、本研究に等しく貢献した。
(25)Chenglin Wu、DeepWisdomおよび連絡先著者。
編集者注: これは、さまざまなデータ サイエンスと現実世界のタスクのためのソリューションである Data Interpreter の開発を詳述する調査研究の第 1 部 (全 5 部) です。続きは以下をご覧ください。
A. 追加結果
B. 実施結果
C. データセットの詳細
大規模言語モデル (LLM) ベースのエージェントは、驚くべき有効性を示しています。ただし、リアルタイムのデータ調整、さまざまなタスク間の複雑な依存関係による最適化の専門知識、正確な推論のための論理エラーを識別する機能が必要なデータ サイエンスのシナリオでは、そのパフォーマンスが低下する可能性があります。この研究では、コードで解決するように設計されたソリューションであるデータ インタープリターを紹介します。このソリューションは、データ サイエンスの問題解決を強化するための 3 つの重要な手法に重点を置いています。1) リアルタイムのデータ適応性のための階層グラフ構造による動的計画、2) 実行中にコードの習熟度を動的に高め、必要な専門知識を充実させるためのツール統合、3) フィードバックにおける論理的な矛盾の識別、および経験の記録による効率の向上。データ インタープリターをさまざまなデータ サイエンスおよび実際のタスクで評価します。オープンソースのベースラインと比較して、優れたパフォーマンスを示し、機械学習タスクで 0.86 から 0.95 に大幅に改善されました。さらに、MATH データセットでは 26% の増加が見られ、オープンエンド タスクでは 112% という驚異的な改善が見られました。ソリューションは https://github.com/geekan/MetaGPT でリリースされます。
大規模言語モデル (LLM) により、エージェントは幅広いアプリケーションで優れた性能を発揮できるようになり、その適応性と有効性が実証されています (Guo et al., 2024; Wu et al., 2023a; Zhou et al., 2023b)。これらの LLM 搭載エージェントは、ソフトウェア エンジニアリング (Hong et al., 2023)、複雑なオープン ワールド シナリオのナビゲート (Wang et al., 2023; Chen et al., 2024a)、マルチモーダル タスクの協調型マルチエージェント構造の促進 (Zhuge et al., 2023)、仮想アシスタントの応答性の向上 (Lu et al., 2023)、グループ インテリジェンスの最適化 (Zhuge et al., 2024)、科学研究への貢献 (Tang et al., 2024) などの分野に大きな影響を与えています。
最近の研究では、これらのエージェントの推論プロセスを改善することで問題解決能力を向上させることに焦点を当て、洗練度と効率性の向上を目指しています (Zhang et al., 2023; Besta et al., 2023; Sel et al., 2023; Yao et al., 2024; Wei et al., 2022)。ただし、機械学習、データ分析、数学的問題解決などのデータ中心の科学的問題には、対処すべき独自の課題が残っています。機械学習プロセスには、複数のタスク間の複雑な依存関係を特徴とする、複雑で長いタスク処理ステップが含まれます。これには、プロセスの最適化と、障害やデータ更新が発生した場合の動的な調整のための専門家の介入が必要です。LLM が 1 回の試行で正しいソリューションを提供することは、多くの場合困難です。さらに、これらの問題には正確な推論と徹底的なデータ検証が必要であり (RomeraParedes et al., 2023)、LLM ベースのエージェント フレームワークにさらなる課題をもたらします。
さらに、(Qiao et al., 2023; OpenAI, 2023; Lucas, 2023) などの既存の研究では、静的要件分解とコード実行を組み合わせたインタープリターパラダイムと呼ばれるコードベースの問題解決方法を通じて、データ中心の問題に対処しています。ただし、これらのフレームワークを実際のデータサイエンスタスクに使用すると、いくつかの重要な課題が発生します。1 ) データ依存の強度:データサイエンスに固有の複雑さは、リアルタイムの変更の影響を受けるさまざまなステップ間の複雑な相互作用から生じます (Liu et al., 2021)。正確な結果を得るには、機械学習モデルを開発する前に、データのクリーニングと包括的な特徴エンジニアリングが前提条件となります。したがって、データの変更を監視し、変換されたデータと変数に動的に調整することが重要です。特徴の選択、モデルのトレーニング、評価を含む機械学習モデリングプロセスには、幅広い処理演算子と検索スペースが関係します (Zheng et al., 2021)。課題は、プロセスコード全体を同時に生成して解決することです。 2) 洗練されたドメイン知識:データ サイエンティストの専門知識とコーディング プラクティスは、データ関連の課題に対処する上で極めて重要です。通常、この知識は独自のコードとデータに埋め込まれているため、現在の LLM ではアクセスできないことがよくあります。たとえば、エネルギーや地質学などの特定のドメインでのデータ変換用のコードを生成することは、必要なドメインの専門知識を持たない LLM にとって課題となる可能性があります。既存の方法論は主に LLM に依存しており、これによりプロセスは合理化される可能性がありますが、パフォーマンスが低下する可能性があります。3 ) 厳密なロジック要件:現在、(Qiao ら、2023 年、OpenAI、2023 年、Lucas、2023 年) などのインタープリターは、問題解決のパフォーマンスを向上させるために、コード実行機能とエラー キャプチャ機能を組み込んでいます。ただし、エラーのない実行を誤って正しいと見なして無視することがよくあります。基本的なプログラミング タスクは、要件が明確に定義されていれば合理化され、即時の実行フィードバックに依存できますが、データ サイエンスの問題では、あいまいで不規則、かつ明確に定義されていない要件が提示されることが多く、LLM が理解するのが困難です。その結果、タスク解決のための LLM 生成コード ソリューションにはあいまいさが含まれる可能性があり、単なる実行フィードバックを超えて、論理的妥当性の厳密な検証が必要になります。
前述の課題に対処するために、データ サイエンスの分野に特化して設計された LLM ベースのエージェント、データ インタープリターを導入します。このエージェントは、タスクを分解し、コードを実行し、フィードバックを検証することで、計画、コード、検証のアプローチに従って人間の要件を満たします。具体的には、 1) 階層構造による動的計画を提案します。データ インタープリターは、階層グラフ構造を使用して、データ サイエンスの固有の複雑さをより効果的に理解します。動的計画アプローチにより、タスクの変化に対する適応性が備わり、データの変更を監視し、データ サイエンスの問題に固有の複雑な変数の依存関係を管理するのに特に効果的です。2 ) ツールの利用と生成:人間が作成したさまざまなコード スニペットを統合し、単なる API 中心の機能を超えて特定のタスク用のカスタム ツールを作成することで、コーディングの熟練度を高めます。このプロセスでは、さまざまなツールと自己生成コードを自動的に組み合わせます。タスク レベルの実行を利用して、ツール ライブラリを独立して構築および拡張し、ツールの使用を簡素化し、必要に応じてコードを再構築します。 3) ロジック バグを認識して推論を強化:これは、例外のないシナリオに不可欠な実行結果とテスト駆動検証から得られた信頼スコアに基づいています。コード ソリューションとテスト コード実行間の不一致を検出し、複数の試行を比較してロジック エラーを削減します。実行と推論のプロセス全体を通じて、主にメタデータと実行時の軌跡 (成功と失敗の両方を含む) で構成されるタスク レベルのエクスペリエンスが記録されます。
図 1 に示すように、当社のデータ インタープリターは既存のオープン ソース フレームワークを大幅に上回っています。これらのベースラインと比較すると、データ インタープリターは優れたパフォーマンスを示し、機械学習タスクでは 10.3% (0.86 から 0.95) 向上し、MATH データセットでは 26% の強化が見られ、堅牢な問題解決能力を示しています。オープンエンド タスクでは、パフォーマンスが 2 倍以上 (112% 増加) になり、幅広い課題への取り組みにおける有効性が実証されています。
私たちの貢献を以下のようにまとめます。
• データサイエンスタスクにおける適応性と問題解決能力を強化する、階層構造を備えた動的計画フレームワークを提案します。
• ツールの利用と生成のための自動化されたツール統合を導入することで、LLM でのコーディングの熟練度と効率を向上させます。
• 検証と経験を統合することで推論力を向上させ、問題解決の精度と効率を高めます。
• 私たちの実験では、データインタープリターが機械学習タスク、数学の問題、オープンエンドタスクにおける既存のベンチマークを超え、パフォーマンスの新しい基準を確立していることが実証されています。
この論文は、CC BY 4.0 DEED ライセンスの下でarxiv で公開されています。