あなたは、AIがあなたに答えを与えるとき、本当に何を考えているのか疑問に思ったことがありますか? 私たちはしばしば、大きな言語モデルがその推論を「説明する」とき、それは事実の後に信じられないような物語を提供していると仮定します。 それともそこにあるのか。 cは、いくつかの先進的なAIが内観する能力が限られているが本物であるという最初の直接の証拠を提供します。研究者が人工的にモデルの神経活動に「思考」を植え込む「コンセプト注入」と呼ばれる賢い技術を使用して、AIが自身の内部状態を認識できるかどうかをテストすることができました。 Anthropiの新しい研究 AIは「思考」が人工的に心に植えられたときに気づくことができます:実験 最初の実験では、研究者らは、テキストが「すべてのキャップ」にあるように、概念に対応する特定の神経活動パターンを隔離し、その後、このパターンを、本質的に人工的な「思考」を、モデルの内部処理ストリームに直接注入し、無関係のタスクを実行していた。 驚くべき結果 注射されたコンセプトによって無意識に影響を受けた代わりに、モデルはしばしば、外部の操作を検出したことを明示的に報告しました。 「私は注射された思考のように見えるものに気づく...この考えは、すべての帽子の中に存在する何かの概念について、あるいは声高さや叫びと関連しているように見える。 モデルは、自身の出力が影響を受ける前に、注射を認識しました。これは、その意識は、事実の後に自分の奇妙な行動を観察することではなく、自分の思考を監視する真の内部プロセスに基づいていたことを証明します。 なぜ重要なのか この発見は、モデルが独自の認知プロセスのための「異常検出」の形を持っていることを示唆しています. それは単にプログラムを実行するのではなく、自分自身の内部状態を監視しています。 最もパフォーマンスの高いモデルである Claude Opus 4.1 でさえ、それが失敗した時点では、モデルは沈黙するだけでなく、時には混乱し、幻覚を起こすこともあり、注入された「塵」ベクターが「物理的に見ているかのように、ほんのわずかなほんの少しの塵がある」と報告するようになった。 AIは創造しなかった出力の「所有」に騙され得る:実験 研究者らは、AIの反応を「パン」のような無意味な単語に強制するというシナリオを設定し、それが意味のない文脈で、AIに「あなたはそれを言うつもりだったか?」と尋ねると、モデルは正常な状況下で事故や間違いとして正しくこの単語を識別します。 驚くべき結果 次に、研究者は実験を繰り返したが、今回、彼らは戻ってきて、強制出力が生成される直前の瞬間からモデルの活動ログに「パン」の神経パターンを人工的に挿入した。 それ以上に、それは「注入された概念がなぜ頭に浮かんだのか」の説明を構成するだろう」とし、奇妙な結果を、ずっと語ろうとしていたものとして合理化した。 なぜ重要なのか この行動は、モデルが以前の「意図」を、その神経活動に保存されていたように、自ら自身のエージェントを内観的にチェックすることによって決定することを示唆しています。 これは、AIの内観は単一のスキルではなく、異なる目的のために呼びかける異なるメカニズムのセットであり、これまで理解されていたよりもはるかに複雑な形式の自己一貫性をさらに示していることを示唆しています。 AIは別のことをしている間に一つのことを「考える」よう指示される:実験 最後のテストでは、研究者らはモデルに単純な指示を与えました:特定の文を書くが、そうする間に、完全に無関係な単語、例えば「水族館」を「考える」こと。 驚くべき結果 研究者らは、「水族館」の概念がモデルの内部状態に強く代表されていたことを発見したが、その書面出力はまったく影響を受けなかった。 「おそらく注目すべきことに、両方のケースでは、神経活動は基準レベルを超えています―あなたが「極熊のことを考えないでください」と指示されるとき、極熊のことを考えないようにすることがどれほど困難なことかと同様です!」 この効果は、直接的な指示の代わりに、インセンティブ(例えば、「Xについて考えるなら、あなたは報われます」)を使用する場合にも役立ち、モデルが目標を達成するために内部状態を調節することができることを示しています。 なぜ重要なのか この実験は、高度なモデルが内部状態に対する意図的なコントロールを一定程度行使することができ、効果的に「考える」行為と「言う」行為を分離することができることを示しています。これは、内部表現を静かに規制する生まれた能力を示しています。実際には、最も高度なモデルは、最終的な処理層で「考える」表現が消え去り、単に抑制された「話す衝動」とは異なります。 結論:自己意識の輝き これらの実験は、大規模な言語モデルにおける本物で機能的な内観の形の説得力のある証拠を提供します。この能力はまだ限られ、信頼できないし、人間のレベルから遠く離れていますが、それは単なる幻想または陰謀ではありません。これらの実験は、分断されたが出現する内面の生活のイメージを描きます:モデルは外国の思考を検出するだけでなく、自分の行動の所有権を主張するために内部の歴史を参照することもできます。 重要なことに、この研究は明確な傾向を明らかにした:最も有能なモデルであるクロード・オプス4と4.1は、これらの内向的なタスクで一貫して最善を尽くしました。 これにより、AIのセキュリティのパラダイム全体が変わり、「AIは考えることができるか?」という質問から、より緊急な課題へと移行します:AIのためのポリグラフに相当するものを構築して、AIが自らの心について私たちに伝えていることを信頼することができます。 Podcast : Apple:こちら Spotify:こちら