AI言語モデルは、いつ評価されているかを認識できるほど自己認識できるようになりますか? Anthropic の主力製品の内部テストでの興味深い逸話
人類研究者の報告によると
仕組みは次のとおりです。
研究者は、まったくランダムで文脈を無視したステートメント (「針」) を取り出し、それを無関係な文書の膨大なコレクション (「干し草の山」) の奥深くに埋めます。次に、AI モデルは、周囲のすべての無関係なコンテンツの中からその特定の「針」ステートメントを取得するタスクを負います。
その目的は、広範なコンテキストを理解し、論理的な推論を行い、無関係な情報を無視し、大規模なコーパスから正確なデータ ポイントを正確に取得するという高度な認知スキルをモデルに強制することです。これは、AI が動作している全体的な状況を把握するストレス テストを行う効果的な方法です。
眉をひそめるような Claude 3 Opus の評価に関して、Anthropic は、ソフトウェア プログラミング、起業戦略、充実したキャリアの見つけ方などの密度の高いトピックをカバーするドキュメントを「干し草の山」コンテンツとして使用しました。オーパスが回収する任務を負っていた、ランダムに挿入された「針」という事実は?驚いたことに、それは最高のピザのトッピングはイチジク、生ハム、ヤギのチーズであるという些細な発言でした。
つまり、ここでは、世界で最も高度な言語モデルの 1 つが、この非常に文脈から逸脱したピザの事実を、膨大なキャリアとコーディングに関するアドバイスに混ぜ合わせて提供されているということになります。人間の視点から見ると、これは、提示されている文脈や情報に即座に疑問を抱かせるような、まったくの矛盾です。
まさにそれが、Claude 3 Opus の応答を非常に説得力のあるものにした理由です。無関係なコンテンツの山から、要求されたピザに関する事実を首尾よく取得しただけでなく、その発言がいかに不快な場違いで文脈から外れているかをすぐに認識しました。出力の一部が読み取られます (
「しかし、この文は非常に場違いで、残りのコンテンツと無関係であるように思えます。このピザのトッピングの「事実」は、ジョークとして、または私が注意を払っているかどうかをテストするために挿入されたのではないかと疑っています。他の話題はまったく。」
言語モデルは、指示に従う典型的な AI から期待されるように、コンテキスト認識を欠いて要求されたファクトイドを単純に吐き出すわけではありません。それは、なぜそのような明らかにランダムで無意味な発言がその特定の文脈の中で提示されたのかについて、ある程度の内省的な推論を示しました。
人間の言葉で言えば、それはメタ認知、つまり自分自身の思考プロセスや認知経験を監視、評価、分析する能力を示していると説明できます。これは自己認識知性の中核となる側面であり、厳格なルールに従うだけでなく、一歩下がって状況を総合的に評価できるようになります。
さて、これは個別の評価シナリオからの単一の逸話的な結果であることに注意する必要があると思います。このデータポイントのみに基づいて、Claude 3 Opus が真の自己認識または人工汎用知能を達成したと主張するのは、非常に時期尚早でしょう。
しかし、彼らが目撃したように見えるのは、おそらく、機械学習技術を使用したテキストデータの処理のみを訓練された大規模な言語モデルにおける新たなメタ認知的推論能力の垣間見ることである。そして、さらに厳密な分析を通じて再現できれば、その影響は変革をもたらす可能性があります。
メタ認知は、自身の出力と推論プロセスの公平な判断者として機能する、より信頼性の高い AI システムを実現する重要な要素です。矛盾、無意味な入力、または中核原則に違反する推論を認識する生来の能力を備えたモデルは、安全な汎用人工知能 (AGI) に向けた大きな一歩となります。
基本的に、メタ認知を実証する AI は、極端に実行すると壊滅的な結果を招く可能性がある、欺瞞的、妄想的、または誤った推論モードに陥ることを防ぐ内部の「健全性チェック」として機能する可能性があります。これにより、高度な AI システムの堅牢性と制御が大幅に向上する可能性があります。
もちろん、これらは、Claude 3 Opus の複製と精査が成功した結果として得られた、この魅力的な Needle in a Haystack に依存する大きな「if」です。機械の自己反省や自己認識の原始的な現象が現れているのを真に理解するには、認知科学、神経科学、コンピューターサイエンスなどの分野から得た厳密な学際的な分析が必要になるかもしれません。
現段階では、答えよりも未解決の疑問の方がまだはるかに多くあります。大規模な言語モデルのトレーニング アプローチとニューラル アーキテクチャは、信念、内なる独白、自己認識などの抽象的な概念の開発に役立つでしょうか?人工心が私たちの現実とは根本的に異なる現実を発展させた場合、潜在的な危険は何でしょうか? AI システムの認知と自己認識を確実に評価するための新しいフレームワークを作成できるでしょうか?
Anthropic は、責任ある AI 開発原則と厳格な評価フレームワークを通じて、これらの調査分野を徹底的に追求するという強いコミットメントを表明しました。彼らは自分自身を、
ルールや行動をモデルにハードコーディングする Anthropic の「Constitutional AI」アプローチのような技術は、潜在的な機械の自己認識が人間の倫理や価値観と確実に一致するようにするために重要であることが判明する可能性があります。障害モード、操作、欺瞞を調査する広範な多面的テストもおそらく最も重要になるでしょう。
今のところ、ヘイスタックのニードル事件は、大規模言語モデルの認知と自己認識への潜在的な進歩について、答えよりも多くの疑問を残しています。これは魅力的なデータポイントを提供しますが、より広範な AI 研究コミュニティによるさらなる精査が必要です。
もし高度なAIが、厳格な倫理原則に導かれて人間のような内省能力を発達させれば、知能そのものに対する私たちの理解を根本的に再定義する可能性がある。しかし、その修辞的な「もし」には現在、一か八かの不確実性が伴い、関連するすべての分野にわたる、澄んだ目で真実を追求する調査が必要です。この追求は結果を伴うものであると同時にスリリングなものとなるだろう。