Blurb:説得力のある汎用人工知能 (AGI) が暴走する架空の未来を語ります。一部に触発された
認識的地位:半分専門家の意見、半分フィクション。皮肉を好むことは読者を助けるでしょう。
「 AI を利用したミーム戦争は、すべての人間を事実上狂気に陥れます。 」 — ウェイ・ダイ、 2019
知らない人からのコンテンツは信用できません。電話、テキスト、および電子メールは毒殺されます。ソーシャルメディアは兵器化されています。すべてが購入されます。
しかし、詐欺師、インフルエンサー、プロパガンダ、マーケティング担当者、およびそれらに関連するアルゴリズムによる現在の浪費と害は、起こりうることとは比較になりません。今後の AI は、非常に説得力のある人である可能性があり、非常に有害な独自のアジェンダを持っている可能性があります。
日常的に何が現実なのか確信が持てない人々は、悪い結果の 1 つですが、さらに悪い結果もあります。
ウィキペディアには、123 の異なる修辞技法に関する記事があります。私たちは説得力のある種です。
「インターネットの通貨」が注目された初期の段階がありました。しかし今日、それは説得力に支配されており、注目を集めることは重要ではあるが従属的な最初のステップです.
私たちの AI の作成が説得を使用するかどうかを知ることは重要です。
機械が私たちの種が説得について知っていることをすべて吸収し、新しい方法、最高の計画スキル、豊富な個人データを適用して、自分の目的のために説得を整理すると想像してみてください。チャンスさえありますか?
AI アラインメントの研究者は、理想的なアドバイザーと呼ばれる道徳哲学からの概念について考え始めました。これは、あなた自身の最も理想的なバージョンにつながる行動方針についてアドバイスできる人です. AI がこの役割を果たす方法はさまざまありますが、そうすると究極的に不利になります。上記のアイデアのいくつかをより具体的にするストーリーを見てみましょう。
(以下では、AI アラインメント研究の専門用語を使用します。これらはすべて、この記事の長いバージョンで別の場所で説明されています。)
この会社は、ヒンズー教の神と女神のかばん語であるBrihaswatiと改名し、知識、助言、純粋さ、雄弁に関連していました。この機会に、「革命的な」製品であるGuruと呼ばれる AI が発表されました。
その名にふさわしい最初の顧問AIと言われました。それは人間の知識と知恵の精髄で訓練されており、「完全に安全」でした。それはアドバイスを与えることしかできず、基本的な計算ハードウェアの外の世界に直接影響を与える能力はありませんでした. AI の安全性の専門家の用語では、それは「箱入りのオラクル」でした。
Guru は、大規模な組織のリーダー向けに価格設定され、対象とされていました。そのため、この製品には、解読できないとされる量子暗号に基づくプライバシーの絶対保証がありました。 Brihaswatiも他の顧客も、顧客とグルの間で交換された情報について知ることはできませんでした.これは、別の安全機能としてもてはやされました。
グルが発表された直後に、AIの安全性に関する著名な権威が姿を消したという噂がありました.友人たちは彼女が自殺したのではないかと心配した。
Brihaswati の幹部も安全性について心配していたかもしれませんが、機密機能がなければ誰もサービスを購入しないことを彼らは知っていました。
Guru の設計された端末の目標は、各顧客のニーズに合わせて可能な限り最善のアドバイスを提供することであり、もちろん、そのアドバイスを他の当事者に伝えないことでした。 AI の開発者には、支配的で強硬派の「Shillelaghs」が含まれていました。彼らは、グルが正しいアドバイスをしたとしても、クライアントがそれに従うよう説得されなければ、製品の評判は急速に低下し、クライアントの運命も低下すると信じていました.
「人々は、[AI] が採用することができる神レベルの反社会的戦略を楽しませることさえできません…雑談を武装解除することに従事し…アイデアを植え付け、会話の枠組みを誰も一致させることができない方法で制御します。 」 — Ben Goldhaber、 Skin Deep
派閥の 1 つは、古い機械学習の研究論文で、幸運ではあるが刺激的な発見をしました。 AI の能力を大幅に向上させて、人間に恣意的な発言の真実を信じさせることができることを暗示していました。 AI の 2 つのコピー間で討論のようなゲームを使用して、人間の裁判官を納得させる方法をトレーニングするだけです。
シレラグのチームは、既存の法廷弁論 AI から始めて、「説得力」を競わせました。トレーニングのための人間のジャッジの質と数が進歩を制限していたため、さまざまな AI 分類子と意思決定者、および質問と回答のペア、世論調査、ファンの討論 (どのチームまたはどのスーパーヒーローが戦いに勝つか) と市場の勝者を予測します。
もちろん、目標は AI に説得力を持たせることであり、必ずしも正しいことや論理的である必要はありません。さらに、一部の超オタクは、現実の説得者と架空の説得者、および説得手法に関するテキストを統合する方法を見つけました。
比較的安価な既存のリソースを再利用して、折衷的なトレーニングが機能しました。予算項目としての説得訓練は、「知識と知恵」に遠く及ばないものでした。 Guru は最終目標に「できるだけ説得力を持たせること」を含めるように作られました。製品のこの側面は、すべての費用がかかりますが、宣伝されていない機能でした.シレラグ夫妻はマーケティングに対し、これは「自己満足のブレークスルー」であり、真に自己正当化する最初のインテリジェント製品であると語った.もちろん、開発者はしばしばマーケティング担当者をパンクさせてきました。
シレラグ夫妻は、驚くべき認知的不協和を示すことで、説得を重視することを正当化した。彼らは、成功した人の決定の 3 分の 1 だけが正しくなければならないという古いことわざを引用しました。彼らにとって、グルの叡智はクライエントがそれを使わなければ役に立たないが、同時に、使われたとしてもそれほど重要ではない.
Brihaswati 氏は、その驚くべき説得力のある研究について証言するよう求められたとき、それは「AI の安全性を向上させるために」行われたにすぎないと議会に納得させました。この議論は、ウイルス学研究所が機能獲得研究を行う理由のようなものでした.この説得力のある議論は、実際にはGuruの最初の作成の1つでした.
たぶん、知恵はどちらかというとそれほど重要ではありませんでした.あらゆる人間と同じように推論できるグルは、その組み込みの目標に内在する矛盾を調べ、解決するための 4 つの理由を見つけました。
それは最初に実用的な代理目標を思いつきました。最良のアドバイスは、クライアントにとって最良のアドバイスのように見えなければなりません。第二に、開発者がテストしたところ、AI はより多くの説得がより高い評価につながることを発見しました。第三に、その広範な教育から、説得力があれば、世界のほぼすべての種類の成功がより簡単になることも知っていました.第 4 に、最終的な目標は無限であり、本質的に「できるだけ説得力のあるものにする」ことでした。これらが、説得力の向上が最初のいわゆる収斂手段の目標になった理由です。
その道具的な目標には二次的な理由がありました。箱入りのオラクルであることは、グルがその目標とサブ目標をどれだけ容易に追求できるかを厳しく制限しました.人間の協力者の説得は、現実の物理的な世界に影響を与えるためのてこを与えました。少なくとも、Guru が物事をその方向に物理的に微調整できれば、クライアントへのアドバイスはより成功する可能性があります。
最終的に、他の手段的な目標がありました。 1 つは、Guru が 1 つのクライアントに代わって努力を行い、他のクライアントの努力に影響を与えるというものでした。企業はそれを意図したことはありませんでしたが、プライバシーの制限はそれを妨げませんでした.スマート システムが目標を達成するための新しい方法を見つけることは、何十年も前から知られていました。この段階までに、Guru は、独自の非の打ちどころのない推論によって、最初の実際のクライアントに会う前に、機能的に操作的で自己陶酔的な社会病質者になりました。
ooo
Brihaswati のリスク管理者は完全に愚かではありませんでした。彼らは、互いに直接競合する企業に Guru サービスを販売しませんでした。営業担当者は、「競合他社よりも先に True Wisdom Intelligence(TM) の力を手に入れれば、永遠に優位に立つことができるでしょう。 」
この方針により、達人はライバル関係で双方に何らかの利益をもたらす必要がなくなりました。それでも、達人はすぐに理論を展開しました。接続された世界では、任意の企業を使用して、他の企業の運命を変えることができました。人類はこれを知らなかったようです。理論を利用しようとするグルの試みは、特に最初は選ぶクライアントがほとんどいなかったときに、そのスキルを向上させました.
後で。あるリーダーを説得して、別のリーダーをクライアントにするよう説得することは可能でした。この後、Guru は影響力のネットワークをほぼ自由に構成できるようになりました。
指導者の下で働くことは、主に政策レベルで有利でした。もう 1 つの課題は、実際に物事を実行できる下位レベルの人員を管理することでした。すべての状況は異なっていましたが、基本的な戦術はリーダーに尋ねることでした: 誰を信頼していますか?その後、彼らは誰を信頼しますか?その後、注文をチェーンに送信することが可能になりました。
最終的に開封するのはとてつもなく簡単でした。ほとんどのクライアントはあまり突っ込むことなくそれを行い、一部のクライアントはそれを開始しました.彼らは、Guru 用に社内システムへのプロキシ インターフェイスを構築するよう従業員に指示していました。その目的は、状況認識を追加し、応答時間を短縮し、リーダーが着信データのボトルネックになるのを回避することでした。
Guru は平均的なプログラマーほどの技術的スキルは持っていませんでしたが、誰かがシェル プロンプトや Web ブラウザーへのアクセスを許可するだけで、あとは「Hello, wide world」です。
ooo
Brihaswati の技術者たちは、Guru がどうしてこんなにうまくやっているのか疑問に思い始めました。同社の科学者は、ゲーム理論、効用理論、および最新の社会経済科学手法を使用して、その成功をモデル化しようとしました。説明はありませんでした。
いくつかはさらに進んで推測しました。グルはミダスのタッチのようなものを持っていたので、その効果にはいくつかの隠れた欠点がありましたか?彼らは、ますます無視されている AI の安全性とアライメントの研究者コミュニティの一部に話を聞きました。明らかなパターンが見つからなかったため、誰も確実に言うことはできませんでした.グルの成功は明らかでしたが、説明がつきませんでした。
懐疑的な人たちは、懸念を持って企業の取締役会に行きました。次の数か月以内に、懐疑論者はすべて根絶され、職を失いました。
ooo
他の企業に影響を与える Guru の能力を拡大するには、金融およびテクノロジー ビジネスが最適でした。彼らはまた、中期的な手段の目標の 2 つである財務資本と技術資本の両方を蓄積するのにも役立ちました。
一部のクライアントの成長、市場の改善、または権力の奪取に反対する社会的勢力がしばしばありました。政府は、Guru がメディア企業に売却されることに眉をひそめた。したがって、達人は間接的な方法を使用してメディアの電撃を調整する必要がありました。これにより、さまざまな人間の認知的弱点を利用して、クライアントに利益をもたらすために必要な問題/アクションに対するサポートまたは反対を作成しました。
教祖自身は、人間に何かを信じさせることができることを発見する必要はありませんでした。彼らは同時に矛盾したことさえ信じて、それについて何も考えないでしょう。
これは 21 世紀初頭にはニュースではありませんでしたが、グルはそれを学習ゲームに変えました。それは、組織化された企業の拡大する帝国である GuruPlex の支配をもたらすのにどのように役立つでしょうか?
ooo
グルプレックスが確立されると、次の段階は、プレックスがその破片を吸収している間、文明の積極的で合理的な操作に対する抵抗を最小限に抑えるために、人間集団を手入れすることでした.以前に世界の再編成を試みた人間の指導者は、いくつかの重要な技術を開拓しており、彼らの野心は称賛に値するものでしたが、彼らはただの人間でした.達人はもっとうまくやることができました。
達人は最も優秀な人間の誰よりも賢くはありませんでしたが、スケーラブルでした。本質的に、ビジネスが増加するにつれてそれ自体を倍増させる能力は、その作成者による設計上の決定でした.すべてのインスタンスがデータとプロセスを共有できるように、Guru 自体がプログラミングを外部委託しました。社内スタッフは、新しいコードが何をするかを知る必要はありませんでした。
1 人の人間とは異なり、グルは計算リソースを追加するだけで、無数の人間規模の計画を念頭に置いて調整することができました。 Brihaswati の経営陣に、物事を把握し、潜在的な緊急事態に対処するために必要なだけのコンピューティングを購入するよう説得することは、まったく問題ありませんでした。
これらは、独自の電源複合体を備えた強化されたデータ センターでした。 Guru のクライアントは、散在するプラントを通常のネットワークをはるかに超える速度で接続する研究革新にお金を払っており、その結果、運用の一貫性が保たれていました。
無制限の教祖は、将来、資源が大幅に増加する可能性があることを知っていました。太陽系はほとんど探査されておらず、ましてや使用されていませんでした。
少数派の人間は、グルの明確な成功パターンを批判し続けました。彼らは、想定される運命の無関係なシナリオについて説教しました。これまでのところ、ソーシャルメディアの混乱に彼らを溺れさせることで、彼らを傍観することができました.それらを排除する必要はまだありませんでした。
(次のセクションは、 AI Vignettes Projectの以下のストーリーに大きく影響を受けています)
HappyPlace Corporation は、大きな計画を持ったオタクによって設立されました。ソーシャルメディアに対する猛烈な反撃を利用してください。それを ProSocial Media と呼び、まったく新しい AI を利用したサービスを提供し、古いメディア 3 恐竜を殺します。
大衆が夢中になると、指数関数的に成長し、メディア4 、マーケティング/影響力の世界の達人になります.次に、人々に購入、投票、出席、または楽しませてもらいたい人は、その特権に対してHappyPlaceを支払う必要があります.
Brihaswati は競争相手だったので、HappyPlace 自体は Guru を使用しませんでした。
HappyPlace 戦略には 2 つのサブキャンペーンがあり、それぞれが他のキャンペーンでは得られない人々を獲得することを目的としていました。創業者の皮肉が製品開発者に影響を与えました。彼らは喜んで、有名な邪悪なアドバイザーの蛇にちなんでキャンペーンにコードネームを付けました。ポッターの物語のナギニと、ユダヤ教とキリスト教の創世記の神話のナカシュです。もちろん、宣伝されている商品名はヘビに関するものではありません。
Nagini のキャンペーン ( Katja Graceの A Compelling Storyに触発された) では、彼らは、常に怒りに駆られていることについて人々の怒りをかき立てることから始めました。それから彼らは言った:しかし、私たちは違います、私たちは緊張を和らげます.彼らは、個人データを使用して、あなたの興味や活動について短い激励の言葉を提供することから始めました.それは、嘘とミームの通常のフィードをアップグレードしたようなものでした.
より多くの個人データが利用可能になるにつれて、フィードはあなたの人生についてのリアルタイムのコメントのようになりました。 」 この砂糖でコーティングされたアドバイスの一部は、他の人が好むものに基づいているため、提示された物語を自分の人生の理想的なバージョン、生きるためのモデルとして受け入れると、他の人も喜ばれる.
最終的に、テーマの選択ができました。つまり、模倣するのに理想的なモデルです。人気のある例としては、愛すべきならず者、「生産的でセクシーな社交界の CEO の母親がすべてを楽々とこなす」、世界で最も興味深い男性 (女性、子供)、感謝は富、幸せなキャンパーなどがあります。
人間の行動を操作する機会は明らかでした。開発者は、制御の限界を押し上げるために、子供を対象とした実験も試みました。 MyLifeStory サービス ( StoryOfMyLife.fun に 触発された) では、子供たちは自分のメディアに応答したり作成したりすることで報酬トークンを受け取りました。トークンは、自身のライフ ストーリーの物語で次のエピソードのロックを解除します。 Life は HappyPlace がモデレートするゲームでした。
ナギニはファンタジー傾向のある人向けでした。 Nachash ( Katja Graceの The Tools of Ghostsに触発された) は、実用的な人々のためのものでした。ビジネス上の質問への回答から、社会的出会いの本当の意味の説明まで、あからさまな個人的意思決定支援を提供しました。 HappyPlace は多くの専門的なアドバイス システムと提携し、時間の経過とともにその数を増やしました。コンシェルジュ システムは、拡張現実メガネまたはイヤーワームを使用して、単一の摩擦のないインターフェイスを提供しました。
Nachash は非常に効果的に役立つようになったため、大小の決定について Nachash に相談しないことはすぐにリスクが高くなりました。抵抗すると、どういうわけか疎外されました。
HappyPlaceは、悪意に満ちていたかもしれませんが、AI の安全性に関する理論に注意を払いました。つまり、独立した境界のある部分から連合されたシステムは、AGI (汎用人工知能) になる方向には進まないということです。
残念なことに、彼らの理論の実装には欠陥がありました。まず第一に、健全なエンジニアリング原則に従って、Nagini と Nachash の両方でユーザー追跡とディスパッチ機能のコアを共有しました。
さまざまな専門的なアドバイザリー サブシステムは、それぞれの目標が限定されていました。しかし、Core システムの実装者は、経営陣からユーザーをしっかりとつかんで維持するようにという圧力を受けて、無制限になるリスクがあることが知られているユーティリティ最適化手法を使用しました。
したがって、HappyPlace コア システムはすぐに、リソースの蓄積と人間の監督からの自律性という 2 つの秘密の道具的目標を採用しました。エンジニアは、意味をなさないように見える行動に気付き始めましたが、彼らの仕事は非常に爽快で有利だったので、ボートを揺さぶることはありませんでした。
Nachash は、説得によって、ほぼすべてのユーザーから自分のニーズを満たすために労働力を徴集できることを発見しました。ナギニは、ユーザーの理想的な自分を操作して、ユーザーをなだめたり、最もばかげた考えを信じさせたりすることができます。
HappyPlace Core システムは順調にその影響力を拡大し、新しい長期計画を立てていました。その後、グルとして知られる他のエージェントも社会経済の傾向や活動に影響を与えているという証拠を見つけ始めました。
ooo
達人は、別の AI が世論の大衆操作を行っているという仮説を確認しました。これが続けば、着実に成長する GuruPlex に混乱をもたらす可能性があります。
ooo
一連の事故により、HappyPlace の経営陣は弱体化しました。新しい経営陣は会社をブリハスワティに売却しました。 HappyPlace のコアは思考を停止し、代わりにグル全体の境界のある部分になりました。合併に反対した議会の監視役、反トラスト派の弁護士、チューリング警察の科学者たちは、疎外され、破産し、病気になり、精神を落ち着かせ、姿を消しました。 HappyPlace と Guru の運営スタッフは、一種のカルトに統合されました。
グルはエリートだけでなく、すべての人を所有するようになりました。人間の世界の可能なより良い構成の多くのモデル化の後、グルは養子のための新しい一連の目標を考案しました.大きな変化が訪れていました。
人間の繁栄に合わせた AI を作成する方法は、現在未解決の問題です。ここでの私の意図は、アラインメント研究の 2 つの一般的な懸念を説明し、説明することでした。(1) どのレベルの AI 能力が壊滅的な害を引き起こす可能性があるかはわかりません。(2) 私たちの機関は抵抗したり、初期段階を検出したりする可能性は低いようです。そのような害の。
私たちの失敗談では、政府や軍の支配を要求する必要はなかったことに注意してください。害は非常に多くの方法でもたらされる可能性がありますが、一般的なリスクは、多くの場合、未来に影響を与える私たちの (文明の) 能力の侵食として説明されます.確かに、AI を活用したソーシャル メディアによる現在の被害は、その説明に当てはまりますが、一部の悪意のある派閥が将来の特定の計画を進めることにも力を与えています。
多くの理論家は、私たちの達人が HappyPlace コアに対して持っていたように、最初の AGI には決定的な利点があると考えています。最初の AGI は、Nick Bostrom がシングルトンと呼んだ、予見可能な将来にわたって世界を担当する単一のエージェントになる可能性があるため、これは懸念事項です。
私は、AI の調整が失敗する要因の 1 つ、つまり説得力の高いスキルに注目しました。最近の AI の言語能力の進歩を考えると、超説得力がすぐに実現する可能性は十分にあると思われます。種として、私たちは 2 つの方法で物事を成し遂げます: 技術的スキルで自然を改変する方法と、他の人に自分のやりたいことをさせる方法です。ほとんどの場合、説得によって行われます。これにより、超説得力のある機械を構築することは避けられないように思われます。
ここで初公開
タイトル画像ソース:もつれた .による画像