paint-brush
LLM 向けの構文エラーのない一般化可能なツールの使用: ToolDec により一般化可能なツール選択が可能@textmodels
142 測定値

LLM 向けの構文エラーのない一般化可能なツールの使用: ToolDec により一般化可能なツール選択が可能

長すぎる; 読むには

研究者らは、エラーを減らし、ツールの使用を改善する、LLM 用の有限状態マシン誘導デコードである TOOLDEC を提案しています。
featured image - LLM 向けの構文エラーのない一般化可能なツールの使用: ToolDec により一般化可能なツール選択が可能
Writings, Papers and Blogs on Text Models HackerNoon profile picture
0-item

著者:

(1)ケクサン・チャン、カリフォルニア大学サンタバーバラ校および平等な貢献

(2)ホンチャオ・チェン、ノースウッド高校と平等な貢献。

(3)カーネギーメロン大学のレイ・リー氏

(4)ウィリアム・ヤン・ワン、カリフォルニア大学サンタバーバラ校

リンク一覧

5. 実験 II: TOOLDEC は一般化可能なツール選択を可能にする

実験 II では、追加のトレーニング データやツールのドキュメントなしで、TOOLDEC が未知のツールに一般化する方法を示します。TOOLDEC を、代表的な微調整アプローチである ToolkenGPT (Hao et al., 2023) と、代表的なコンテキスト内学習アプローチである RestGPT (Song et al., 2023) という 2 つの強力なベースラインと比較します。FuncQA (Hao et al., 2023)、KAMEL (Kalo & Fichtel, 2022)、RestBench (Song et al., 2023) の 3 つのベンチマークで実験を行いました。これらのベンチマークでは、数学的推論、知識質問応答、実際の Web サービスなど、非常に異なるドメインからの多様なツール セットが必要です。3 つのドメインすべてにおいて、TOOLDEC は追加データの微調整なしで新しいツールに効率的に一般化できることが結果から示されています。

5.1 ベースラインの微調整: TOOLKENGPT

ToolkenGPT は、ツールの使用に対する微調整アプローチであり、すべてのツールに対して特別なトークンを学習します。ToolkenGPT を新しいツールに一般化するには、新しいツールの使用に関する追加のデータと追加の微調整が必要です。TOOLDEC は、特定のツール セットで微調整すると、未知のツールを採用するために追加のデータとさらなる微調整を必要としないことがわかります。TOOLDEC とベースラインを「既知のツール」と呼ばれる同じツールのサブセットで調整して比較し、「未知のツール」でのパフォーマンスを評価します。


公平な比較を保証するために、ToolkenGPT の計画方法を模倣して、「ツールをいつ使用するか」の問題を解決します。具体的には、すべてのツールを表す単一の特殊トークン <T> の埋め込みを微調整し、余分な語彙のサイズを 1 に減らします。<T> が生成されると、ツールの呼び出しが開始されます。


LLM にツール名を生成するよう指示します。このツール名の生成は、利用可能なすべてのツールのリストから構築された FSM によってガイドされます。このツール名はコンテキストに戻され、引数の生成が開始されます。このプロセスの例を付録 A.2 に示します。


利用可能なすべてのツールの中から「見たことのあるツール」の小さなサブセットを選択し、選択したサブセット内のツールのデモンストレーションのみを使用して埋め込みを調整しました。同じサブセットを使用してベースラインを微調整しました。次に、サブセット内の見たことのないツールを含むタスクで私たちの方法とベースラインを評価し、TOOLDEC の一般化能力を実証しました。


数学関数のベンチマーク。FuncQAマルチホップ質問を使用して、この方法を評価します。FuncQA のツール (permutate、gcd、power など) は、引数が特定の範囲の数値に厳密に制限される数学関数です。13 個のツールのうち 4 個を確認済みサブセットとして選択してベースラインを調整し、残りの 9 個の未確認ツールでさまざまなアプローチを評価します。


ナレッジグラフ関係のベンチマーク。TOOLDECの一般化可能性をより大規模なツールセットで調査するために、API の特性 (子の数など) に似た合計 234 の知識関係を含む質問応答データセットである KAMEL (Kalo & Fichtel、2022) でも評価します。その他の例は付録 A.4 にあります。KAMEL のツールは FuncQA のツールよりもはるかに多くあります。また、ツールの引数の数は 1 から 3 まで変化し、その型には文字列、場所、日付、数値、その他のアドホック型が含まれるため、より複雑で多様です。234 個のツールのうち 30 個をサブセットとして選択し、それぞれ 30、60、100、234 個のツールを含む 4 つの異なる評価セットで評価します。Hao ら (2023) に従い、プロンプト、少数ショット、ゼロショットを追加のベースラインとして使用します。 (1) ツールが提供されなかったため、プロンプトは LLM の内部知識に依存します。(2) Few-shot は、少数の例を通じてツールの使用を示します。(3) Zero-shot は、コンテキスト内で利用可能なすべてのツールの説明を提供します。KAMEL のトレーニングおよび評価データセットは、すべてのツールに対して同じ質問テンプレートを共有していますが、これは実際の設定では当てはまらないことが多いため、TOOLDEC を、元の研究で提案された合成データセットでトレーニングされた ToolkenGPT とのみ比較します。ツール呼び出しの精度を指標として使用します。これは、正しい知識関係を呼び出す応答の割合によって決まります。

5.2 文脈学習ベースライン: RESTGPT

RestGPT (Song et al., 2023) は、コンテキスト内のツールのドキュメントからツールの使用を学習するコンテキスト内学習アプローチです。TOOLDEC 強化 RestGPT の一般化能力を実証するために、TOOLDEC を使用した RestGPT は、ドキュメントを使用した RestGPT ベースラインよりもコンテキスト内ドキュメントなしで優れた精度を達成できることを示します。TOOLDEC は次のトークン分布にアクセスする必要があるため、ベースラインとして Vicuna ベース (Zheng et al., 2023) の RestGPT を使用します。私たちの方法では、プロンプトからすべてのツールドキュメントを削除し、推論の指示のみを残します。


実世界の Web サービス向け API のベンチマーク。RestBench (Song et al., 2023) で評価します。これは、映画情報の Web サイトである TMDB やオンライン音楽プレーヤーである Spotify など、実世界のシナリオにおけるタスクで構成されています。これらのタスクは実際のユーザーの指示から直接得られ、解決するには RESTful API の形式で複数のツールが必要です。RESTful API は、HTTP メソッドを使用してリソースを操作する Web サービスのデファクト スタンダードです (Li et al., 2016)。グラウンド トゥルース ソリューションは、ツール呼び出しチェーンの形式で人間によって注釈が付けられます。55 個の RESTful API で構成される TMDB で、この方法とベースラインを評価します。GET や POST などの HTTP メソッドは、TOOLDEC のツール呼び出し、ツール引数の形式とは異なる形式であるため、これらの API をこの形式に従うように書き直しました。精度を測定する指標として、元の論文で提案された正しいパス率 (CP%) を使用します。正しいパス率とは、人間が注釈を付けた正しいツール呼び出しパスを含むモデル出力の割合です。

5.3 実験結果

未知の数学関数への一般化。図 5a では、FuncQA の結果を示しています。ToolkenGPT と TOOLDEC は、既知のツールのみを使用するタスクでは同様の精度を達成しましたが、ToolkenGPT は未知のツールへの一般化に失敗し、パフォーマンスが大幅に低下しました。一方、TOOLDEC は未知のツールでも同等の精度を維持し、マルチホップ問題では 8 倍の精度を達成し、その一般化可能性を強調しました。その結果、TOOLDEC は総合精度で ToolkenGPT を大幅に上回りました。


表 5: RestBench の結果。ベースラインでは、ツールの使用を学習するために、コンテキスト内のツール ドキュメントを含む非常に長いプロンプトが必要ですが、この方法では不要です。それでも、この方法では、ベースラインよりもはるかに高い正解パス率 (CP%) を実現しています。


図 5: KAMEL と FuncQA の結果。未知のツールの数が増えるにつれて、すべてのベースラインでパフォーマンスが大幅に低下しました。しかし、TOOLDEC は、ツールの小さなサブセット (KAMEL では 234 個中 30 個、FuncQA では 13 個中 4 個) しか検出していないにもかかわらず、同様の高いパフォーマンスを維持しました。


目に見えないナレッジグラフ関数への一般化。図 5b に KAMEL の結果を示します。利用可能なツールの数が増えるにつれて、2 つの ICL 手法はコンテキストの長さの制限 (Hao et al., 2023) の影響を受け、精度が大幅に低下しました。最初の 30 個のツールで微調整された ToolkenGPT も、より多くのツールに一般化できませんでした。プロンプトは、コンテキスト内のツールのドキュメントに依存しなかったため、安定した低い精度を維持しました。一方、TOOLDEC は、目に見えないツールの数が 204 に達したときでも精度を維持できました。


未知の Web サービスへの一般化。RestBenchの結果は表 5 に示されています。TOOLDEC により、モデルはコンテキスト内ドキュメントなしで Web サービス API を使用できるようになりました。これにより、プロンプトのサイズが 1974 トークンから 880 トークンにまで削減されました。それにもかかわらず、TOOLDEC は、正解パス率 (CP%) で示される正確さの点でベースラインを大幅に上回り、8 ポイント上昇しました。これらの結果は、TOOLDEC が実際の Web アプリケーションでのコンテキスト内学習ツールの使用の一般化も改善できることを示しています。


3 つの設定すべての結果から、TOOLDEC は追加のトレーニング データなしで微調整ツール LLM を一般化するのに役立つだけでなく、コンテキスト内学習ツール LLM をコンテキスト内ドキュメントなしで一般化するのに役立つことがわかります。TOOLDEC のこの機能は、3 つの異なるドメインで実証されています。


この論文は、CC 4.0 DEED ライセンスの下でarxiv で公開されています