paint-brush
自己検証型自然プログラムによる AI 幻覚問題の解決@cosmological
146 測定値

自己検証型自然プログラムによる AI 幻覚問題の解決

長すぎる; 読むには

Natural Program は、推論プロセスの各ステップを検証することで、LLM の信頼性を高めます。他の方法とは異なり、コンテキスト内学習を活用し、エラーに対する厳密な説明を提供し、抽象的な推論タスクと互換性があります。これにより、外部ソルバーや微調整なしで AI が自己検証して推論を洗練する能力が向上します。
featured image - 自己検証型自然プログラムによる AI 幻覚問題の解決
Cosmological thinking: time, space and universal causation  HackerNoon profile picture
0-item

著者:

(1)Zhan Ling、カリフォルニア大学サンディエゴ校および同等の貢献

(2)ユンハオ・ファン、カリフォルニア大学サンディエゴ校および同等の貢献

(3)Xuanlin Li、カリフォルニア大学サンディエゴ校

(4)チャオ・ホアン、カリフォルニア大学サンディエゴ校

(5) ミンギュ・リー、クアルコムAIリサーチおよびクアルコムAIリサーチ

(6)ローランド・メミセビッチ、クアルコムAIリサーチ

(7)ハオ・スー、カリフォルニア大学サンディエゴ校

リンク一覧

概要と序論

関連研究

動機と問題の定式化

演繹的に検証可能な思考連鎖推論

実験

制限事項

結論、謝辞および参考文献


ビクーニャモデルによる演繹的検証

B 演繹的検証精度の向上と最終回答の正確性の向上に関するさらなる議論

C 回答抽出の詳細

Dプロンプト

E 演繹的検証のさらなる例

2 関連研究

大規模言語モデルによる推論。最近の大規模言語モデル(LLM)[3、8、57、47、38、18、9、37]は、複雑な推論タスクを解決する上で驚くべき能力を示しています。LLMに最終的な答えを直接出力させるのではなく、Chain-of-Thought(CoT)プロンプト[50]やその他の多くのプロンプト[21、59、58、44、48、60、25、54]などの適切なプロンプトを通じて段階的な推論を促すことで、LLMはさまざまな推論タスクにわたって大幅に優れたパフォーマンスを発揮することが以前の研究で示されています。段階的な推論プロセスをさらに改善するために、いくつかの最近の研究では、プログラムインタープリターなどの外部ソルバーを活用すること[39、5、27]、外部推論モジュールをトレーニングして呼び出すこと[11]、または明示的な検索を実行して演繹ステップを生成することを調査しました[2、46]。これらの研究と並行して、私たちは外部のモジュールやアルゴリズムに依存せず、LLM のコンテキスト内学習能力を直接活用して、より正確で厳密な演繹的推論を生成します。


検証器としての大規模言語モデル。言語モデルを使用してモデル生成を評価することは、長年のアイデアでした[22、36、40、4]。LLMはさまざまなタスクにわたって優れた機能を発揮するため、LLMを評価および検証ツールとして使用するのは自然なアイデアです。たとえば、[10、11、33]は、ソリューションと中間ステップを検証するためにLLMを微調整します。RLHF [32、31、48]に沿ったLLMも、異なるモデル生成を比較するために使用されています。さらに、[43、52、28、6]などの最近の研究では、プロンプト設計を活用して、微調整を必要とせずにLLMが自己検証、自己改良、自己デバッグできるようにしています。ただし、これらの研究は、すべての推論ステップでの演繹的推論プロセスの厳密さと信頼性に焦点を当てていません。本研究では、演繹的推論プロセスのすべての中間ステップを LLM が自己検証できるようにし、それによって推論の厳密さと信頼性を向上させる自然言語ベースの演繹的推論形式を提案します。


表 1: GPT3.5 (ターボ) で生成された CoT 推論パスを含む GSM8K からのサンプル質問。出力には、正しい回答とともに誤った推論チェーンが提供されます。


さらに、最近の研究 [12, 53, 15, 34] では推論プロセスの個々のステップを検証する方法が提案されていますが、私たちのアプローチは次の点でこれらの研究とは異なります。 (1)私たちのアプローチは、言語モデルの微調整を必要とせずに、コンテキスト内学習を利用して推論の検証を実現します。 (2)私たちの自然プログラムベースの LLM 検証アプローチは、無効な推論ステップを特定するだけでなく、それらが無効である理由を明示的に説明し、関連する特定の推論エラーを詳述します。 (3)私たちの自然プログラムベースの推論および検証アプローチは、推論ステップが証明のような含意構造を持たないコンテキスト内抽象推論タスクと互換性があります。たとえば、私たちのアプローチは、LLM がシーケンス内のすべての単語の最後の文字の連結を最終的な答えとして出力するように指示される Last Letters タスクと互換性があります。 (4)私たちの自然プログラムアプローチでは、前提に明示的にリストされていない常識的な知識を使用できます。たとえば、この問題を考えてみましょう。「マリンは 1 日にリンゴを 4 個食べます。 「彼は 11 月にリンゴを何個食べるか?」 「11 月には 30 日ある」は前提に明示的に記載されていませんが、Natural Program では推論ステップ内でこのような一般的な知識の使用を許可しています。コンテキスト内検証プロセスでは、これらの暗黙の前提も処理できます (たとえば、LLM が推論ステップで「11 月には 29 日ある」と出力した場合、無効としてマークされます)。


この論文は、CC BY 4.0 DEED ライセンスの下でarxiv で公開されています