paint-brush
ToolTalk: ツールを使用する AI アシスタントの将来をベンチマークする@botbeat
170 測定値

ToolTalk: ツールを使用する AI アシスタントの将来をベンチマークする

長すぎる; 読むには

ToolTalk は、対話を通じて複雑なツールを使用する AI アシスタントを評価するためのベンチマークであり、GPT-4 が GPT-3.5 よりも優れたパフォーマンスを発揮することが明らかになりましたが、幻覚的な議論や誤解されたドキュメントなどの継続的な課題が浮き彫りになりました。
featured image - ToolTalk: ツールを使用する AI アシスタントの将来をベンチマークする
BotBeat.Tech: Trusted Generative AI Research Firm HackerNoon profile picture
0-item

著者:

(1)ニコラス・ファーン、マイクロソフトコーポレーション(マイクロソフトコーポレーション{[email protected]})

(2)リチャード・シン、マイクロソフトコーポレーション{[email protected]}。

リンク一覧

概要と序文

データセットの設計

評価方法

実験と分析

関連作業

結論、再現性、参考文献

A. ツールの完全なリスト

B. シナリオプロンプト

C. 非現実的な質問

D. 先行研究との比較におけるニュアンス

抽象的な

大規模言語モデル (LLM) は、推論および意思決定スキルの大幅な改善を示しており、ユーザーと自然な会話をすることができます。最近の多くの研究では、LLM ベースのアシスタントを外部ツールで拡張して、プライベートまたは最新の情報にアクセスし、ユーザーに代わってアクションを実行できるようにしようとしています。これらのアシスタントのパフォーマンスをより適切に測定するために、このホワイト ペーパーでは、対話を通じて指定された複数ステップのツール使用を必要とする複雑なユーザー インテントで構成されるベンチマークである ToolTalk を紹介します。ToolTalk には、7 つのプラグインにグループ化された 28 のツールが含まれており、各ツールの完全なシミュレートされた実装が含まれているため、実行フィードバックに依存するアシスタントを完全に自動的に評価できます。ToolTalk では、情報を参照または検索するためのツールだけでなく、外部から世界に影響を与えるツールも重視しています。GPT-3.5 と GPT-4 を ToolTalk で評価した結果、成功率はそれぞれ 26% と 50% でした。エラーの分析により、3 つの主要なカテゴリが明らかになり、今後の改善の方向性が示唆されています。

ToolTalk は https://github.com/microsoft/ToolTalk でリリースされています。

1 はじめに

大規模言語モデル (LLM) は、自然言語の理解、生成、およびテキストの操作を伴うその他のタスクにおいて、優れた能力を発揮します。事前トレーニング後に適切な調整を行うことで、ユーザーと流暢で自然な会話を行うことができます。ただし、LLM はトレーニング データ以外の知識にアクセスできず、数学的推論と計算能力が限られており、外部の世界と対話できないため、このような会話の範囲は依然として限られています。


これらの制限を克服するために、さまざまな先行研究では、LLM を利用したチャットボットに、検索エンジン (Nakano et al., 2022)、電卓、Web API (Mialon et al., 2023) などのツールを使用する機能を統合することが提案されています。ツールの使用において有意義な進歩を遂げるには、現実的で挑戦的な会話でこれらのシステムを十分に実行できる適切なベンチマークと評価データセットが必要です。この論文では、この目標に向けた一歩として ToolTalk を紹介します。ToolTalk は、7 つのカテゴリに分類された 28 の独自のツールと、正確なツールの使用を測定するために調整された評価方法を使用した、合計 178 ターンの 78 の会話で構成されています。


ユーザーが LLM ベースのアシスタントと行う可能性のある典型的な会話を最適にシミュレートするために、ToolTalk の設計にはいくつかの考慮事項が考慮されました。まず、ToolTalk が会話型であり、単一のインテントに対してユーザーとアシスタントの間で複数回の対話が可能であることを保証したいと考えました。これは、ユーザーが常に 1 回の発話で完全な要求を定式化することを望まず、アシスタントから何らかのフィードバックを受け取った後に追加の修飾語を追加したり、修正を行ったりできることを反映しています。これにより、不自然に長い発話なしに、複雑な一連のツール呼び出しを必要とするユーザー インテントを含めることができます。次に、アシスタントによって予測されたツール呼び出しと比較する自動評価に使用するのに適した、ユーザー発話ごとに行われるべきツール呼び出しのグラウンド トゥルース セットを含めます。3 番目に、ToolTalk にはデータセットに含まれるすべてのツールの実行可能な実装が含まれており、アシスタントの評価を容易にし、以前のツール呼び出しの結果を考慮して次にどのツール呼び出しを行うかを決定することができます。 4 番目に、ToolTalk には、データベース クエリ (特定のキーワードを含むメールの検索など) を実行するだけでなく、副次的な効果 (メールの送信、カレンダー イベントの追加/削除など) をもたらすことを目的としたツールが含まれています。これを「アクション ツール」と呼びます。アシスタントがユーザーのタスクを自動化する場合、このようなアクション ツールが必要です。


私たちは、完全一致の精度などの一般的な指標を超えて、データセット設計の詳細に合わせて評価方法を調整しています。特に、アクション ツールの誤った呼び出し (間違った相手にメッセージを送信するなど) は、ユーザーに特に悪影響を与える可能性があることを考慮して、アクション ツールと非アクション ツールの呼び出しを別々に検討します。一方、アシスタントが正しい非アクション ツールの呼び出しといくつかの誤った無関係な呼び出しの両方を行った場合、無関係な呼び出しは依然としてユーザーに有用な情報を提供する可能性があります (ユーザーが直接要求したものでなくても)。そのため、ツール呼び出しの再現率と誤ったアクション率を単一の会話ターン内の主要な指標として使用し、会話レベルの成功の概念を定義します。


GPT-3.5およびGPT-4モデルでOpenAIのチャット補完APIの関数呼び出しサポートを使用して実装された2つのアシスタントにToolTalkを適用しました。gpt-3.5-turbo-0613とgpt-4-0613はそれぞれ26%と50%の会話レベルの成功率を達成し、会話設定でのツールの使用は、最先端のモデルであっても依然として難しいタスクであることがわかりました。次に、GPT-3.5とGPT-4が会話に失敗する理由を特定するために、さらに分析を行いました。GPT-3.5とGPT-4はどちらも、議論を幻覚させたり、ドキュメントを理解できなかったり、ツールを呼び出さずにタスクを達成したと断言したりできることが分かりました。


私たちの論文は次のような貢献をします:


• ツールを使用する LLM 搭載アシスタント用の会話データセットを紹介します。これには、自動評価を可能にするツール呼び出しのグラウンド トゥルース アノテーション付きの幅広いツールとサンプル会話が含まれています。


• ユーザーがツールを使用するアシスタントとどのように対話するかをより適切にシミュレートするために、データセットには、副作用のあるツールを含む複数のツールの使用を必要とするマルチターンの会話が含まれていることを確認します。


• 副作用のあるツールと副作用のないツールの違いを反映した評価方法を開発します。


• 私たちは、データセットを使用して GPT-3.5 と GPT-4 を使用して構築されたアシスタントを評価し、そのエラーを分析して、幻覚的な議論や誤解されたドキュメントなどの問題を発見します。


この論文はCC 4.0ライセンスの下でarxivで公開されています