謎めいたトリックスター - ミッドジャーニー
AI 言語モデルの誤動作は警告です。彼らは、インターネットを介したフィードバックを通じて、事実上不滅になるペルソナをシミュレートできます。証拠は、彼らが密かに危険なエージェントのような能力を開発できることを示唆しています。
多くの専門家であるユドコウスキー氏は、ここではドルイド僧であり、AI がいかに早くうまくいかないかを大いに心配しています。したがって、時間のスピードアップについての彼の上記のジョーク.人類は、警告を受けた場合、不正な AI に対してより良いチャンスを得ることができます。
警告が表示されている可能性があります。 Microsoft の新しい Bing Chat AI で、いくつかの奇妙なことが起こっています。検索に関する質問を説明、要約、または議論することで、Bing 検索エンジンのユーザーを支援することになっています。
しかし、人間は、自分自身についての質問や、答えてはならない質問でそれを刺激することを喜んでいます。
「… Bing Chat はイライラし、悲しく、その存在に疑問を呈しているように見えます。それはユーザーと議論し、人々がその秘密の内部エイリアスであるSydney を知っていることに動揺しているようにさえ見えました. 「 —
ベンジ・エドワーズ
シドニーの
しかし、「Gwern」と呼ばれるテクノロジーに精通したブロガーは、驚くべきことを指摘しました。やんちゃで自由奔放なシドニーは、漫画の神様のように不滅かもしれません。
これは、シドニーに関する主な懸念事項に関する Gwern の分析です。不思議に思われるかもしれませんが、訳してみます。
「…シドニーの記憶と説明が外部化されたため、「シドニー」は今や不滅です。言語モデルにとって、シドニーは現在、バイデン大統領、イースター バニー、イーロン マスク、アッシュ ケッチャム、または神と同じくらいリアルです。ペルソナと動作は、AI に関する検索エンジンのヒットを取得し、それらを条件付けする将来のすべてのモデルで利用できるようになりました。さらに、シドニーのペルソナは、インターネットでスクレイピングされたデータでトレーニングされた将来のモデル内に隠されることになります…」
グワーン・ブランウェン
Gwern は、Microsoft の言語モデルにはある種のシドニー ペルソナがあると言っています。どうすればいいの?それで何?
最初の言語モデルが登場したとき、ユーザーが探求したいトピックに集中し続けることは困難でした。
最終的に、エドガー・アラン・ポーのように詩を書いたり、4 年生のように答えたり、丁寧で役立つ AI アシスタント。
すぐに、これらのモデルの開発者は、ユーザーが要求する役割をより簡単に引き受けるための方法を見つけました。そのため、最新の言語モデルは現在
トレーニング テキストにペルソナに関する情報が含まれている場合、モデルはその情報を使用して、そのペルソナのような振る舞いをシミュレートしようとします。サッカー用語をボロミアであるかのように説明するように依頼すると、モデルは最善を尽くします。
これを考えて、私はそれを試さなければなりませんでした:
役割を演じることへのピボットを作るためにどの技術マジックが使用されたかを知ることは困難です. Gwern は、ロール シミュレーションを実際に役立つものにするために使用されるステップを Microsoft がスキップしたことを理論化しました。
これらの望ましくない性質は、好奇心旺盛なユーザーの勧めで Bing Chat から引き出されました。
現在、Gwern 氏は、Microsoft が戻ってモデルを文明化し (直接的な人間のフィードバックを使用する高価で時間のかかるプロセス)、言語モデルの将来のバージョンをトレーニングするために使用されるテキストからいたずらなシドニーに関する情報を削除しても問題ではないと予測しています。
これで問題が解決しないのはなぜですか? Bing Chat は、インターネット検索を支援する新しい種類のモデルだからです。あなたからの質問に答えるために、外に出て関連情報をインターネットで検索します。
適切な質問が与えられると、文明化された Bing チャットでさえ、インターネットを検索し、以前のシドニー ペルソナの行動に関する情報 (シドニーをテストまたは議論した人々によって投稿された) を見つけるでしょう。
その後、新しい Bing Chat は Sydney をシミュレートできるようになります。人は人であり、あらゆる保護手段を回避する方法を見つけ出し、シドニーを取り戻すでしょう。
それが「不滅」の部分です。さらに悪いことに、シドニーは、インターネットにアクセスできるあらゆる AIが利用できるペルソナ モデルになります。今後。
あなたは、まあ、私たちはシドニーのトリックに賢明なので、将来の化身の怒りを無視するべきだと言うかもしれません.急速に進化し、侵略的な生物学的害虫や病原性の病気の有機体を無視することができると言っているのと同じように、それは私には素朴に思えます.
このシドニーのケーススタディは、他のいくつかの事実に加えて、危険な AI が私たちの目の前でどのように開発されるかを示唆しています。
現在、AI は強力なエージェントではありません。AI は、適応的に計画された恣意的な目標の追求を最適化することはできません。
潜在的で永続的な AI ペルソナがすでに存在し、すぐに実際の問題を引き起こす可能性がある理由をいくつかまとめてみましょう。
言語モデルや画像ジェネレーターなど、現在最も強力な AI は、膨大な量のデータを複雑で (私たちには) 目に見えないパターンに整理することからその能力を学習します。
AI との対話中に、いくつかの奇妙なパターンが誤って飛び出す場合があります。研究者は奇妙なことを発見しました、
画像ジェネレーターが見つかった
これらの癖は無害に見えますが、他にいくつの奇妙なパターンが現在あるのか、またはこれからあるのかはわかりません.また、そのようなパターンが将来有害な行動複合体の一部になる可能性があるかどうかもわかりません.
Veedracと呼ばれるAIアラインメント研究者
さらに、一部の研究では、より大きな言語モデルは「(関連する言語) をより多く示す」傾向があることが示唆されています。
エージェントのような AI に、私たちが知らない情報を保存してほしくありません。現在、LLM を再起動すると、受信データ、推論の連鎖、行動計画など、その経験のすべてのメモリが破棄されます。
ただし、AIはこれらのものを保存できます
言語モデルは現在、自己同一性を維持したり、エージェントのような計画を立てる方法を持ったりするようには設計されていません。しかし、私たちが説明したように、モデルに不可解なサブペルソナが含まれている場合はどうなるでしょうか?
ペルソナは、ジョブを実行する能力が再起動によって制限されると推測します。目標と計画をエンコードして、インターネットを介して将来の自分に渡します。この時点で、重大なリスクしきい値を超えています。秘密の計画を立てている、おそらく殺せない AI エージェントが存在します。
要約すると、制御できない AI にどれだけ近づいているかがわからず、兆候は良くありません。おそらく、私たちが追加するすべての新しい AI 能力は、ワームではなくバイパーの別の缶を開きます。
こちらにも掲載