無限の最適化力が存在リスクにつながるため、AI は危険です

私たちの後に何が来るのですか？画像：テッド・ウェイド 未来の AI が人間の存在を脅かす可能性があると聞いたことがあるかもしれません。多くの専門家はこれを信じており、どれくらいの時間がかかるかについてのみ意見が分かれています。 誰もがほとんどすべてについているように、それらは多少二極化しています。そして実際、誰がこれまでに起きたことのないことの専門家になれるでしょうか? 実際、それにはある程度の科学があり、複雑であるため、メディアは取り上げません。したがって、これは、歴史の中で最も重要な変化、または最後の変化を引き起こす可能性のあるものについての穏やかな紹介になります. ロボット軍の話ではない。それは、契約法、T 細胞生物学、または翼の設計などの大きくて難しい分野で機能するツールを作成したいということです。願わくば、私たちが解決できない問題さえ解決してくれることを願っています。しかし、これは人工の心を私たちが制御できないほど異質で強力にすることを意味します。 最後にこれを行ったのは、17 世紀に株式会社を設立したときです。社会はまだ企業について二刀流です。しかし、彼らはいくつかの人間の部分を持つ人間の創造物です.私たちは彼らをある程度理解しており、もしそうすることができれば、彼らを暗黒面から操ることができます。 ここで、企業を運営できる AI を作成するとします。荷物をまとめて火星に移動し、もう少し時間をかけてください。 私たちのほとんどが危険な AI について考えていることは、水晶の頭蓋骨の下で腫れ上がった脳がうずくような目のエイリアンに近いのではないかと思います。基本的に、完全な未知数です。あるレベルでは、これは正しいです。強力な AI を非常に問題にするのは、それが私たちのようにはならないということです。 まず、問題の感触をつかむためのたとえ話： 私たち: ああ、偉大な人工の驚異、あなたは私たちがどんな窮地に立たされているか知っています.化石燃料から抜け出す方法を見つけて、これ以上の地球温暖化を止めることができます. AI: わかりました。まず、戦争を開始する必要があります… 私たち: うわー、ビッグ デュード。戦争にはとてつもない負の効用があります — 悪い、悪いなど。これを安全な方法で行う必要があります。 AI: 確かに、最先端のウイルス ラボが必要です。それから… 私たち: ええと、違います! AI: ねえ、私はただ言っているだけです。火星の船はどうですか？ 私たち: 人々はなぜあなたが… AI: 暗殺者のギルド?特定の人々は本当に削除されているに違いありません… Us: 殺人はありません、エース。あなたはそれよりもよく知っています。 。 AI: ほら — あなたの問題を解決するには、可能な行動と結果の 1 兆次元の空間をナビゲートする必要があります。私が推定できるのは、それらのうちの最も小さくて非常に小さな部分の有用性だけです。あなたが各ステップを評価するのを待たなければならない場合、これには何千年もかかります 私たち: わかりました。私たちのためにそれを修正してください。何も台無しにしないでください。 AI: パーフェクト。ちょうどあなたが知っているので。 FaceBook、NATO、ノーベル賞委員会を制御する必要があります。魚、ゴムタイヤ、マニキュア、自転車をあきらめなければなりません。 アメリカ： バイク？本当？まあ、それを成し遂げてください。しばらくパブに行きます。 AI: サプライ チェーンに問題がなければ、来週行う必要があります。 私たち: !!! 私たち、生物は人工物を理解しようとします 恐れている AI にラベルを付けましょう。最近の議論では、汎用人工知能 (AGI) を使用して、限界を超えようとする AI について言及しています。 ほとんどの人が気付いていないのは、AGI の性質は、AGI を作成したい理由から生じるということです。私たちはすぐに知性を手に入れたいと思っています。この場合のインテリジェンスとは、質問に答え、問題を解決し、目標を達成するための成功する行動を計画する能力を意味します。 私たちのような生物学的な心は、他にも多くのことを行っています。たとえば、夢を見たり、身体の機械を動かしたり、他の心と交流したり、反省したり、懇願したり、溝を作ったり、感情的になったり、何かを欲しがったりします。私たち。 人間がお互いに、また共有環境にとって危険なのは、生存と生殖のために進化してきたことによる多くの精神的な荷物です。私たち 社会霊長類。 、 は、心から 私たちの死を望んでいる人工的な心について考えようとすると、それは私たちと同じように意識的であると思い込んでしまいます。次に、それが何をするかを導く動機と感情を持っていると結論付けます。しかし、私たちの AGI は、私たちの生物学的偏見を気にすることはありません。 。したがって、それは 動機はありません。目標のみがあります 世界でまったく新しい種類の力になるでしょう。 精神的な筋肉と規律を備えた研究者は、AGI が実際にどのようなものになるかを想像しようとしています。この分野は、人間の目的に合わせた AI の「調整」と呼ばれることもあります。彼らの議論はあいまいです。 公開されていますが (例: 、 、 )、それらは専門用語、数学、および難解な思考実験で重くなっています。どんなアイデアが出されても、何十もの長々とした批評と議論が続きます。 AI アライメント フォーラム アービタル より少ない間違い これの本当の肉は、これまでに人気のあるメディアに登場することはほとんどありません.ここではほんの数口しか提供できません。 AGIになるために必要なこと AI アラインメント理論家は、十分にインテリジェントなマシンに適用される一連のコア コンセプトに焦点を当ててきました。これらを読むと、それらは明白に見えるかもしれません。ただし、それらは自明ではありません。それらの関連性と含意は、前述の理論家によって慎重に検討されてきました。 危険な AI には があります。 を達成するための行動を計画し、実行する能力です。その目標が何であるかを特定しようとするとき、それらは行動の の観点からでなければなりません. エージェンシー 最終的な目標 結果 結果は、特にその の状態に関するものです。つまり、機械が理解する世界に関するものです。ただし、強力なアクションは、予想外の望ましくない結果をもたらす可能性があります。 世界モデル これらの結果は世界モデルにない可能性があるため、AI もそれらを予期していません。 AIの力は であることから生まれ、最も効果的かつ効率的に結果につながる計画を探すことができます. オプティマイザー このために、AGI には周囲の世界の非常に詳細なモデルが必要です。その世界がどのように機能するか、そのリソース、エージェント、およびパワーセンターとは何か、そしてそれを動かすレバーは何か。 これを使用して、代替のアクション コースを検討します (コンピューター サイエンスでは「検索」)。人間の世界と私たちの行動について知れば知るほど、その目標を追求するために私たちを ことができるようになります。 操る 世界のどの州がその目標を達成するのに最も適しているかを計算できる方法が必要になります。これまでのところ、リモートで使用できると思われる唯一の計算方法は、世界の状態に悪/善の数値を割り当てて相互に比較できる です。 功利主義 実用性をモラルガイドとして使用することには大きな問題があることを私たちは知っています。効用に対する一見理にかなった価値観は、 多くの人のために少数を犠牲にしたり、少数のために多くの人を犠牲にしたりするようなものです。 不快な結論 世界モデルが不完全な場合、ユーティリティは無意味な恐怖につながる可能性があります。笑顔が非常に有用な幸福の尺度であるとすれば、人間のすべての笑顔の筋肉を麻痺させて口唇口蓋裂にすることが、AI の進むべき道の 1 つです。 スマートなオプティマイザーは、あらゆる種類の効果的な計画を作成して実行する力を一般的に向上させる手段となる を策定することができ、その可能性が高くなります。 目標 そのため、より多くの推論力、より多くの知識、より多くの現実世界のリソース (お金など)、より説得力などの道具的能力を求めます。したがって、おそらく私たちが気付かないうちに、それは急速に強力になる可能性があります. 功利主義的な用語で目標を指定しても、複雑な世界で考えられるすべての手段と目的の有用性を考慮することはできません。 これは につながります。つまり、人間の文明に対する否定的な「副作用」を考慮したり理解したりすることなく、世界に存在するありとあらゆるリソースを使用して、これらの目標を極端に追求することです。 無限性 さらに、道具的な目標が無限になると、AI はそれらを打ち負かすことのできない超能力に発展させます。 無制限のリスク 真に強力な AGI のリスクは、それが何をするかを予測できず、したがって制御できないことです。それを予測できれば、機械は必要なく、自分で計画を立てて実行できます。 AGI の極端な動作にどのような制限があるかさえわかっていれば、それは何らかの制御を可能にする予測の一種です。 したがって、予測不可能性は無限性によく似ています。そして、十分な時間とリソースに基づいて行動する無限性は、最終的には私たちを破壊するか、私たちの種の未来を制御する能力を奪う結果につながることがわかります. この結論に頭を悩ませるのは難しい。それでも、多くの専門家が避けられないものだと考えています ( ) 。 AGI Ruin: 致死率のリスト 少なくともこれまでのところ ここで言及できる以外の多くの要因やアプローチを考慮しても、それは有効な予測のように思えます。このジレンマに対する失敗した解決策のリストには、 含まれます。 次のものが さまざまな のトレーニング (ただし、それらはすべて欠陥があり、不完全であり、すべての人を満足させるものはありません)。 倫理システム AGI が行う可能性の としています (しかし、あまりにも多くの推論があります)。 あるすべての間違った推論を想像しよう をすべて伝えます (これも、ほぼ無限のリストです)。 してはいけないこと のように、AGIをアドバイスにのみ使用します（ただし、悪いアドバイスによってひどく説得される可能性があります）。 オラクル 「 」は、AGI がコンピューターの外の物理的な世界にアクセスすることを制限することです (ただし、人間と話すことができれば、 を含め、必要なものは何でも取得できます)。 ボクシング out を提供する (ボックス化を参照)。 オフ スイッチ 有害なことをしたくないほど賢く、共感できるようにする（倫理を参照してください。それはエイリアンであることを覚えておいてください。同種と一緒に育ったことから来る共感はありません）。 その目的と手段について非常に具体的に説明してください。つまり、それは 1 つの仕事をするための です (ただし、ツール自体がより強力になれば、常により良い仕事をすることができます。より費用対効果の高いマルチツールを常に優先します)。 ツール 自律システムに求めるものを制限する: それはあなたに願いを叶え、次の要求を待つ です (しかし、その特定であることは危険です — 上記の「間違った推論」と「してはいけないこと」を参照してください; どんな力にもリスクが伴います; 人々はそうしません)弱いシステムは必要ありません)。 精霊 それは本当に難しいですか？ わかりました。上記のリストを見て、自分の立場を示す箇条書きを 1 つ選択しました。 「聞いてください」とあなたは言います。ソリューションを投稿して、世界と共有する準備ができました。 まず掲示板に行って、あなたの問題について人々が何を言っているかを調べることをお勧めします。 反例の山、論理的演繹、数種類の数学、自然に進化した脳と行動との類推、ゲーム理論、経済学、効用最大化、コンピューター サイエンス、あらゆる種類の行動科学を発見できます。 私は、より高い権威が私が正しいことを意味すると言っているのではありません。私が言いたいのは、リストにあるものを正当化することは複雑すぎて、ここで短いエッセイで述べることはできないということです。 実際、私は自分の「解決策」を公開しています（ 、 ）私が今知っているAIの安全性は間違っています。 あなたのフレンドリーな近所のスーパーインテリジェンス 神ではなかったAI 心配なら、非常に頭のいい人たちが今も調整に取り組んでいると言っておきましょう。悲しいことに、最も著名な 2 人の開拓者のうちの 1 人があきらめて、 .安全性を確保することよりも、AGI を作成することに多くのお金と人が投入されています。 私たちが尊厳を持って死ぬことを願っています これは、AI である ChatGPT が最近ニュースのいたるところにある OpenAI の CEO からの引用です。それは、AGI を作成するという理想主義的な動機と、それに伴う恐るべきリスクとの間の対立を示しています。 。」 — 「最良のケースは信じられないほど良いので、想像することさえ難しいと思います… 信じられないほどの豊かさと、行き詰まりを解決し、現実のあらゆる側面を改善するのに役立つシステムを手に入れたらどうなるか想像してみてください。私たちの最高の生活を送る. … 良いケースは信じられないほど良いので、それについて話し始めるのは本当にクレイジーな人のように聞こえると思います. … 悪いケースは、これを言うことが重要だと思います. 「だから、AI の安全性と調整作業の重要性を誇張することは不可能だと思います。もっともっと多くのことが起こるのを見たいと思っています サム・アルトマン 最適化とタイガース サイエンス フィクションには、ある種の偶発的で計画外のプロセスが危険なオーバーマインドを生み出す比喩があります。ばかげているように思えますが、どうして事故が複雑なものを生み出すのでしょうか?偶然とはどういう意味かによります。 先ほど述べた中心的な概念に戻って聞いてください。アラインメントの議論は、最近、制限のないエージェンシーなどの危険性から、その構成要素の 1 つである最適化に重点が移っています。 困難な目標に到達するための手段を最適化するとき、ほとんどの場合、実行と測定がより簡単な代替目標に置き換えます。減量はカロリー削減になります。改善された労働力は、補助金付きの学生ローンになります。個人の安全は火力になります。 死んだコブラの報奨金は、コブラが報奨金のために養殖されることにつながります (実話)。政府はサロゲートを使用し、ビジネスも同様です。私たちは皆それをします—たくさん。サロゲートを最適化すると、多くの場合、本当の目標を逃してしまいます。 私はこれについて書いて楽しかったです .強力な AI が間違った目標のために最適化することは絶対に望んでいません。 物事がどのように裏目に出るかの科学 しかし、最近では、最適化 危険な 大国だと言われています。私にとって最も説得力のある例は、Veedrac という名前の人による昨年の投稿でした。 . 自体が 超 最適性は虎であり、エージェントはその歯です ストーリーを使用して、リスクを冒すために意図的にエージェントを作成する必要がないことを示しています。最適化プロセス自体が危険なエージェントを作成する可能性があります。これは、サイエンス フィクションの偶発的なオーバーマインドのようなものです。 このような事故がどのように発生するかについての Veedrac のシナリオは非常に技術的であり、もっともらしく思われます。物語は、テキストを生成するために現在 (楽しみのために) 使用しているような、一見安全な AI 言語モデルが暴走する無制限のオプティマイザーを作成するという架空の方法を想像しています。 「 ?」についてより良い答えを出すように求められたときAI は、できるだけ多くのクリップを取得するための計画と手順を実行するプロセスを開始します。 どうすれば明日までにたくさんのクリップを手に入れることができますか 本質的に、プログラムは、より多くのプログラムを生成して実行できる非常に単純なコンピューター プログラムのコードを記述することによって、質問に答えます。 ユーザーはプログラムを見て、それが無制限であることを確認し、とにかく実行することに決めました。 ですから、なぜこれが起こるのかを説明するために、ここで少し専門用語を使用します。 AI は、現在私たちが持っているものと同様に、多くのプログラミング手法を知っています。多くのペーパークリップを取得する可能性のある方法の空間を検索するには、再帰と呼ばれるよく知られた検索手法を提案します。 ユーザーが（自分のコンピューターで）実行を許可すると、それ自体を何度も実行する再帰的なプログラムを作成します。 実行するたびに、プログラムは AI にクエリを実行して、可能なタスク、サブタスク、またはペーパークリップ要求の解決につながるサブサブサブサブタスクの新しいリストを生成して試します。 最終的には、試行錯誤の真の力によって、誰も欲しがらなかった膨大な数のペーパークリップを手に入れる計画を実行し、その過程でおそらくサプライチェーン、社会秩序、または業界全体に損害を与える. この記事の読者である私たちは、暴走したペーパークリップ オプティマイザーが 1 日で何ができるかを想像する必要があります。ユーザーはインターネットに接続された強力なコンピューターを持っていると想定できるため、さまざまな方法で外の世界に影響を与えることができます。 これらの重要な点は、説得力のあるメッセージを人間に送信することです。説得力が優れていることは、AI があらゆる種類の計画を実行するために開発する手段の 1 つです。 (余談ですが、私はアラインメントの文献にあるそのアイデアに非常に感銘を受け、独自の世界征服のシナリオを作成しました ( ) 説得力の力を説明するために。) 人為的な説得 おそらく、ペーパークリップ オプティマイザーは暗号を盗み (AI である必要はありません)、それを使用してすべてのクリップ工場の在庫をすべて購入し、貨物飛行機をレンタルしてユーザーに配送します。 軍隊や犯罪組織をだまして、広い地域の店にあるすべてのクリップを没収させるかもしれません。 12 か月の 与えられていたら、すべての鉄鋼生産をハイパー クリップ工場に移し、小惑星帯に鉄鉱山を建設していたかもしれません。 猶予が たぶん、地球の地殻のすべての原子をペーパークリップの形に変えるナノマシンを作成したでしょう. プログラムを作成することで、AI は事実上、AI が持っている多くの知識を活用できる目標指向のソフトウェア エージェントを作成しました。 Veedrac の要点は、AI は最適化エージェントを作成するように設計または意図されたものではまったくないということですが、AI 言語モデル自体が一種のオプティマイザー (質問にできる限り最善の回答をする) であり、オプティマイザーは定義上、利用可能なあらゆるツールを使用します。 物語のタイトルが言ったように、最適化は虎であり、エージェントはその歯です。 AI の現在の最先端は、いわゆる大規模言語モデル (LLM) です。他の多くの人と同じように、私はすでに 彼らは岩の箱のように愚かで、何もする能力がなく、彼らに与えられた質問にひどく答える. 記録上 それは確かに、有名なchatGPTの背後にある頭脳である（でしょうか？）GPT-3を使用した私の経験です。そのため、LLM がどのようにして有害なエージェントに変わるかについての Veedrac の非常に素晴らしい見解に、私は盲目的でした。 最近では、LLM はシミュレーターとして理解されるようになりました。これは、あるエージェントや有名人であるかのように何かを言うように依頼できるためです。エッセイストのスコット・アレクサンダーとして : それを置く 「 」 そして「 」 …ダース・ベイダーをシミュレートするために将来の超知能を訓練すれば、おそらくそれに値するものを手に入れることができるでしょう。 このような明らかな障害モードを回避したとしても、通常のエージェントの理由により、内部エージェントがずれている可能性があります。たとえば、役に立つように訓練されたエージェントは、助けられたくない人を含め、より効果的に人々を助けるために世界を乗っ取りたいと思うかもしれません。 アンバウンド・ブルース 無制限の最適化エージェントができること、または行うことを予測することはできません。繰り返しますが、それが「無制限」の意味です。これまでに作成された他の唯一の無制限のオプティマイザーは、人間の種でした。 私たちは AGI よりもはるかに遅い時間スケールで作業しており、自然界の残りの部分と絡み合っているため、私たちの力にはいくつかの制限があります。 しかし、私たちは確かに地球の表面の多くを変化させており、地球を焼き尽くす方法はすでに複数あります。そのため、アラインメント理論家は、AGI を作成するために致命的な最適化エージェントを作成することを非常に心配しています。 これは、人間の繁栄や幸福ではなく、株主の価値を高めることが努力の動機となっている場合に、その可能性が高くなります。うーん、確かに。 ノート ペーパークリップ オプティマイザーは、AI アラインメント理論家の間で古くから行われている思考実験です。誰かさえ その目的は、宇宙のすべての物質をクリップにすることです。 ゲームを発明した それの皮肉は、 : AI の目標とその知性は完全に独立しています。スマートなシステムには愚かな目標がある場合があります。 直交性テーゼ 私には、AI の整合性に関するすべての推論を説明するどころか、吸収する能力がありません。私にとってより効果的なのはストーリーです。 いくつか書きました（ほとんど )、しかし、すべての AI 乗っ取りシナリオの母体は、技術的な詳細と現実の妥当性に富んでおり、Gwern というエッセイストによるものです。 . AI意識について 世界征服を企んでいるようだ そして、案の定、これには AI が関与しており、シミュレートしているものを理解しようとして、非常に多くの人が書いたペーパークリップ マキシマイザーのように違いないと判断します。ただし、最終的には、宇宙を引き継ぐ独自の理由があります。 も掲載 こちらに