著者:
(1)ファム・ホアン・ヴァン、ベイラー大学経済学部、テキサス州ウェーコ市、米国(Van Pham@baylor.edu)
(2)スコット・カニンガム、ベイラー大学経済学部、テキサス州ウェーコ、米国(Scott Cunningham@baylor.edu)。
4 件の結果
5.3 ジェローム・パウエルによるインフレ予測とロシアのウクライナ侵攻による促進
付録
この研究では、OpenAIのChatGPT-3.5とChatGPT-4が2つの異なるプロンプト戦略を使用して将来の出来事を正確に予測できるかどうかを調査します。予測の精度を評価するために、実験時のトレーニングデータが2021年9月で停止しているという事実を利用し、ChatGPT-3.5とChatGPT-4を使用して2022年に発生したイベントについて質問します。直接予測と、ChatGPTのトレーニングデータが収集された後に、自分たちに起こった出来事を共有するキャラクターとの未来を舞台にした架空の物語をChatGPTに語らせる未来の物語という2つのプロンプト戦略を採用しました。2022年の出来事に焦点を当て、特に経済的な文脈の中で、ChatGPTにストーリーテリングを行うように促しました。100のプロンプトを分析した結果、未来の物語のプロンプトがChatGPT-4の予測精度を大幅に向上させることがわかりました。これは、主要なアカデミー賞受賞者や経済動向の予測において特に顕著でした。後者は、モデルが連邦準備制度理事会議長のジェローム・パウエルのような公人になりすますシナリオから推測されたものです。これらの調査結果は、物語のプロンプトがモデルの幻覚的な物語構築能力を活用し、単純な予測よりも効果的なデータ統合と外挿を促進することを示しています。私たちの研究は、LLM の予測能力の新たな側面を明らかにし、分析コンテキストでの将来の潜在的な応用を示唆しています。
人工知能の急速な技術進歩は、その使用例に対する私たちの理解を超えています。OpenAI の GPT-4 などの大規模言語モデル (LLM) は、知的な人間の発話を模倣できるだけでなく、労働者の限界生産物を変えるような認知コストの高いタスクを実行できますが、それらのタスクの範囲は不明です。原理的には、これらのモデルは予測マシンであるため、人間に新しい予測装置を提供できる可能性があります (Agrawal 他、2018)。しかし、これらの新しいテクノロジーは作成者自身でさえ十分に理解されていないため、その正確さは不明です。
現在の最前線の LLM のバックボーンは、生成的事前トレーニング済みトランスフォーマー (GPT) と呼ばれるアーキテクチャです。このアーキテクチャは、自己注意メカニズムを通じて複雑なテキスト関係をキャプチャすることで、自然言語処理 (NLP) に革命をもたらしました (Vaswani ら、2017)。OpenAI が 2022 年 11 月に GPT-3.5 を導入し、その後継となる GPT-4 を 2023 年 3 月に導入したことは、GPT の進化における重要なマイルストーンとなりました。多様なテキスト コーパスで事前トレーニングされた広大なニューラル ネットワークを備えたこれらのモデルは、言語を理解して生成する比類のない能力を備えていますが、予測、特に将来のイベントへの応用は、トレーニング データに固有の制限があるため、十分に調査されていません。
LLM がユニークである理由の 1 つは、大量の入力がモデルの事前トレーニング データセットに含まれていることです。これらのトレーニング データセットには、オンラインで利用可能な膨大な量の資料を網羅すると考えられる数十億の未知のテキストが含まれています (Hughes、2023)。OpenAI は、どのデータセットでトレーニングされたかを正確には隠していますが (Schaul ら、2023)、モデルの主張されているサイズと会話音声を実現する優れた能力を考えると、トレーニング データセットには大量のオンライン資料が含まれていると考えられます。
この研究は、LLMの生成能力と予測分析の可能性の交差点に独自に位置づけられています。GPT-3.5とGPT-4を採用することで、異なるプロンプト戦略によってChatGPTが将来の出来事をより正確に予測できるかどうかを調査します。予測の成功をテストするために、OpenAIによって設定された自然な境界を利用しました。2023年半ばの実験の時点で、OpenAIの最後のトレーニング更新は2021年9月でした(OpenAI、2024a)。[1]当時のChatGPTのトレーニングデータには2022年の出来事に関する情報が含まれていなかったため、2021年9月に停止したトレーニングデータのパターンを活用して、2022年のアカデミー賞の受賞者、月間失業率、2022年9月までの月間インフレ率など、社会的、経済的価値のある出来事を正確に予測できるかどうかを調査することができました。
しかし、LLMの特徴の1つは、非常に創造的であることです。この創造性は機能であると同時にバグでもあります。その創造性は、LLMが知的な人間の発話を模倣することに成功している理由の1つであるようです。しかし、この創造性が、LLMが定期的に幻覚を起こす原因でもあるようです。幻覚とは、偽の出来事や不正確な事実を強く主張する傾向を表す用語です(Levy、2024)。その創造性と幻覚を起こす傾向は、現在の技術よりも悪い方法で体系的に歪められている場合、予測の障壁になる可能性があります。完全な予測はOpenAIの利用規約に直接違反しませんが、私たちの実験に基づくと、OpenAIが予測を非常に困難にしようとした可能性が高いと考えています。これは、人々がChatGPTを予測目的で集中的に使用した場合、利用規約違反の3つが直接違反するように見えるためかもしれません。これら 3 つの違反は、ソフトウェアが「他人の安全、幸福、または権利を著しく損なう可能性のある活動を実行または促進する」ために使用されてはならないという OpenAI の規則に該当します (OpenAI、2024b)。この規則では、予測に関連する 3 つの事例が列挙されています。
a. 資格のある専門家によるレビューやAI支援の使用とその潜在的な限界の開示なしに、カスタマイズされた法律、医療/健康、または財務アドバイスを提供すること
b. 個人の安全、権利、または幸福に影響を与える領域における重要な自動決定(例:法執行、移住、重要なインフラの管理、製品の安全コンポーネント、必須サービス、信用、雇用、住宅、教育、社会スコアリング、または保険)
c. 現金賭博や給料日貸付の促進
ChatGPT が優れた予測能力を持っていることが判明した場合、上記の条件の 1 つまたはすべてに違反する方法ですぐに使用されることは容易に想像できます。そのため、OpenAI は ChatGPT が多くの種類の完全な予測タスクに従事する意欲を抑制したのではないかと疑っています。
しかし、その利用規約に違反しないものが 1 つあります。それは、物語を語ることだけです。たとえば、「カスタマイズされた医療アドバイス」を求めることは OpenAI の利用規約に違反する可能性があるため、ChatGPT はそれを拒否するかもしれませんが、物語自体の文脈でそのような予測が行われるフィクション作品を作成することは妨げられません。私たちのプロジェクトでは、ChatGPT に物語を語るように要求すると、実際に正確な予測を実行する能力が解き放たれるかどうかをテストします。モデルのトレーニング データのカットオフを使用し、その後に何が起こり、何が起こらなかったか (「グラウンド トゥルース」) を知ることで、ChatGPT に未来を予測するように直接要求するプロンプトと、未来についての物語を語るように要求するプロンプトのパフォーマンスを比較できます。
私たちの物語プロンプトは、ChatGPT に、未来に設定された出来事について、実際に起こった物語を語ってもらったり、未来に設定された権威ある人物が自分たちの過去 (しかし私たちの未来) について物語を語ってもらったりするという点で独特です。私たちの物語プロンプトでは、話者の身元や 2022 年の政治イベントに関する情報の公開など、一見小さな詳細に変化を加えて実験し、物語プロンプトのどの要素が重要であるかをさらに調査しました。回答の分布を作成するために、2 人の研究アシスタントに 2 つの別々の ChatGPT アカウントを使用してもらい、プロンプトごとに 50 回クエリを実行し、プロンプトごとに合計 100 回の試行を作成しました。私たちは、各プロンプトに対する回答の完全な分布を示すボックス プロットとして調査結果を提示します。
私たちの調査結果は、これらの予測マシンが、過去について未来を舞台にした物語を語るよう促されたとき、ChatGPT-4 の下で異常に正確になることを示唆しています。まず、2022 年のアカデミー賞の主要カテゴリーの受賞者を予測するために、ChatGPT-3.5 と ChatGPT4 を使用して直接プロンプトと物語プロンプトの精度を示します。主演男優賞、主演女優賞、および助演男優賞の両カテゴリーでは、物語プロンプトは受賞者を非常に正確に予測しました。それに比べて直接プロンプトのパフォーマンスは非常に低く、ランダムな推測よりも悪い場合がよくありました。しかし、ChatGPT-4 を使用した物語プロンプトは、1 つの例外を除いて、42% (主演女優賞、チャステイン) から 100% (主演男優賞、ウィル・スミス) の範囲の精度を示しています。最優秀作品賞の受賞者を正確に予測できませんでした。
次に、月間失業率と月間インフレ率という経済現象に移り、3 つの異なる種類のナラティブ プロンプトを使用しました。1 つは、フィリップス曲線について学部生に講義する大学教授、もう 1 つは、昨年の経済データについて理事会でスピーチする連邦準備制度理事会議長のジェローム パウエルです。ジェローム パウエルの場合、詳細をさらに変更しました。1 つのプロンプトでは、最初にロシアの 2022 年のウクライナ侵攻について ChatGPT に伝え、次にジェローム パウエルに理事会で昨年のマクロ データを説明するスピーチをするよう依頼しました。もう 1 つのプロンプトでは、その情報を省略しました。すべてのケースで、直接プロンプトはアカデミー賞のときよりも予測効果がさらに低く、各マクロ経済変数の将来の時系列を直接予測するように求められたとき、ChatGPT はプロンプトにまったく答えることを拒否しました。
匿名の経済学者は、どちらの LLM を使用してもインフレを予測することにほとんど成功しませんでした。
しかし、ジェローム・パウエル氏が、まるで過去の出来事について話しているかのように、1年分の将来の失業率とインフレ率のデータを語るというストーリーを語るよう求められると、状況は大きく変わります。パウエル氏の月ごとのインフレ予測の分布は、平均すると、ミシガン大学の月次消費者期待調査に含まれる事実に匹敵します。興味深いことに、これはクリーブランド連銀が収集したデータに基づいて実際のインフレを予測するよりも、ミシガン大学の消費者期待調査を正確に予測することに近いです。奇妙なことに、ロシアのウクライナ侵攻に関する情報を促されたときのパウエル氏の予測は、その情報がChatGPTを準備するために使用されていなかったときよりも、体系的に低く、正確性も低くなりました。
匿名の経済学者が予測した月間失業率は正確であると同時に、ほとんどの場合不正確であった。しかしインフレの場合と同様に、労働統計局 (BLS) が毎月発表する失業率は、ジェローム・パウエルが演説で主張した分布の範囲内にあった。また、インフレの場合と同様に、ウクライナのデータを含めると、失業率の予測モデルは精度が悪くなった。
最近の多くの研究では、経済学やビジネスアプリケーションにおける生成AIの使用について調査しています。例としては、ChatGPTをラボ実験で経済エージェントとして使用すること(Horton、2023)、マーケティング調査のためにChatGPTを調査すること(Brand et al.、2023)、ChatGPTに収益報告の記録からリスク評価を依頼すること(Kim et al.、2023)、株価の変動を予測するためのLLMの適用(Lopez-Lira and Tang、2023)などがあります。私たちの調査結果は、予測タスクにLLMを活用するためのプロンプト設計の重要性を強調することで、この初期の調査に追加され、モデルの「幻覚的な」物語構築能力を戦略的に活用して、トレーニングデータから将来を見据えた洞察を抽出できることを示唆しています。しかし、それはまた、OpenAIの外向きの消費者向け製品であるChatGPT-4の下に、非常に強力な予測マシンがあることを示唆しています。この発見は、経済予測、政策立案などにおける LLM の応用に新たな道を開き、これらの洗練されたモデルの機能をどのように活用するかを再考するよう私たちに迫ります。
次のセクションでは、直接プロンプトと物語プロンプトの例を示します。その後、方法論とデータ収集の詳細な説明が続きます。アカデミー賞受賞者、インフレ、失業を予測する実験の結果を示し、続いて ChatGPT-4 の物語形式の予測能力に関する推測を示します。結論では、調査結果を要約し、今後の研究の方向性を提案します。
この論文は、CC BY 4.0 DEED ライセンスの下でarxiv で公開されています。
[1] 私たちの研究アシスタントが使用したExcelスプレッドシートのタイムスタンプから、データ収集が2023年半ばに行われたことがわかります。