著者:
(1)浙江大学の孫暁飛氏
(2)シャオヤ・リー、Shannon.AI、Bytedance
(3)浙江大学の張聖宇氏
(4)王淑和、北京大学
(5)浙江大学の呉飛氏
(6)浙江大学の李継偉氏
(7)南洋理工大学の張天偉氏
(8)Guoyin Wang、Shannon.AI、Bytedance。
このセクションでは、感情分析のためのマルチ LLM ネゴシエーション フレームワークについて詳しく説明します。2 つの LLM が回答ジェネレーターと識別器として機能します。ジェネレーターと識別器の間のやり取りをネゴシエーションと呼びます。ネゴシエーションは、合意に達するか、ネゴシエーション ターンの最大数を超えるまで繰り返されます。図 1 と 2 に図解を示します。
ジェネレーターは大規模な言語モデルによって支えられています。ICL パラダイムに基づく回答ジェネレーターにプロンプトを通じて質問し、段階的な推論チェーンとテスト入力の感情極性に対する決定を生成することを目指します。
プロンプトは、タスクの説明、デモンストレーション、テスト入力の 3 つの要素で構成されます。タスクの説明は、自然言語でのタスクの説明 (例: 「テスト入力の全体的な感情を判断してください。」)、テスト入力はテスト セット内のテキスト入力 (例: 「空は青い。」)、デモンストレーションはタスクのトレイン セットからのものです。それぞれは、入力、推論チェーン、感情的決定の 3 つの要素で構成されます。
各テスト入力について、まずトレーニング セットから K 個の最近傍 (入力、感情決定) をデモンストレーションとして取得します。次に、ジェネレーターに推論チェーンを生成するよう指示して、デモンストレーションを (入力、推論プロセス、感情決定) トリプレットに変換します。タスクの説明、デモンストレーション、およびテスト入力を連結した後、プロンプトをジェネレーターに転送します。ジェネレーターは、ステップバイステップの推論チェーンと感情決定で応答します。
識別器は別の LLM によってバックボーン化されています。回答生成プロセスが完了した後、回答識別器は、ジェネレーターによって行われた決定が正しいかどうかを判断し、合理的な説明を提供するために使用されます。
この目標を達成するために、まず回答判別器のプロンプトを作成します。プロンプトは、タスクの説明、デモンストレーション、テスト入力、回答ジェネレータからの応答の 4 つの要素で構成されます。タスクの説明は、タスクを自然言語で説明するテキストです (例: 「決定が正しいかどうか判断してください。」)。各デモンストレーションは、(入力テキスト、推論チェーン、感情決定、判別器の態度、判別器の説明、判別器の決定) の 6 つの要素で構成され、入力テキストに対して感情決定が正しい理由を説明するよう回答判別器に促すことによって作成されます。
次に、構成プロンプトを使用して判別器に質問します。回答判別器は、判別器がジェネレーターに同意するかどうかを示す態度 (はい、いいえ)、判別器がジェネレーターに同意/不同意する理由を説明する説明、およびテスト入力の感情を決定する判別器の決定を含むテキスト文字列で応答します。
なぜ 1 つではなく 2 つの LLM が必要なのでしょうか? 1 つの LLM を 2 つの役割で使用するのではなく、ジェネレータと識別器に別々に 2 つの異なる LLM を使用する理由は 2 つあります。(1) LLM が誤った推論によりジェネレータとして間違いを犯した場合、同じモデルから生成されたジェネレータと識別器は同様の推論を行う可能性が非常に高いため、識別器としても同じ間違いを犯す可能性が高くなります。(2) 2 つの別々のモデルを使用することで、2 つのモデルの補完的な機能を活用できます。
2 つの LLM が交渉を終了した後、役割を反転して新しい交渉を開始するように依頼します。このとき、2 番目の LLM はジェネレーターとして機能し、最初の LLM はディスクリミネーターとして機能します。役割が反転した 2 つの LLM のやり取りを、役割反転交渉と呼びます。同様に、役割反転交渉は、合意に達するか、交渉ターンの最大数を超えるまで終了します。
両方の交渉が合意に至り、その決定が同じである場合、どちらの決定も同じであるため、どちらの決定も最終決定として選択できます。一方の交渉が合意に至らず、もう一方の交渉が決定に達した場合、合意に達した交渉の決定を最終決定として選択します。ただし、両方の交渉が合意に達したが、決定が一致しない場合は、以下で詳しく説明するように、追加の言語モデル (LLM) の支援が必要になります。
3 番目の LLM の導入2 つの交渉からの決定が一致しない場合は、3 番目の LLM を導入し、前述の 2 つの LLM のそれぞれと交渉および役割反転交渉を実施します。その後、6 つの交渉結果が得られ、これらの結果に投票します。最も頻繁に表示される決定が、入力テストの感情極性として採用されます。
この論文はCC 4.0ライセンスの下でarxivで公開されています。