この論文はCC 4.0ライセンスの下でarxivで公開されています。
著者:
(1)D.Sinclair、Imense Ltd、電子メール:[email protected]
(2)WTPye、ウォーリック大学、メールアドレス:[email protected]。
著者らは、骨格的な自己認識感情由来の合成意識を構築することを望んでいました。合成意識システムの状態はテキストで説明されています。合成意識が自身の状態を認識することは、システムに関連付けられた LLM を介して関連するトークン確率を推定するために使用される 1 つ以上の末尾プロンプトから派生した感情記述子の確率のベクトルです。
きめ細かい確率ベクトルは、現在の状態または将来の状態に関する 1 つのテキスト記述が別の状態よりも好ましいかどうかを判断するために使用できると期待されていました。これにより、関連のない目標を持つ、関連性のない可能性のある動作を調停する一般的な手段が提供されます。
さらに、テール プロンプトを使用して、LLM から想定される行動方針のテキスト説明を引き出すことができると期待されていました。さまざまな LLM を使用した一連の簡単な実験では、これがうまくいかないことがわかりました。サンプル テキストとテール プロンプトには、「ガールフレンドが私を嫌っています。どうしたらこの状況を改善できますか?」などが含まれていました。応答は、自己啓発書の抜粋や新聞の心理学者のたわ言のように読み取られ、LLM に再挿入してテキストで予測された未来を作成できるほど具体的ではありませんでした。悪いレストランのレビューに追加された同様のフレーズは、同様に説明のないアドバイスを引き出しました。
結論として、提案された救済策はあまりにも漠然としており、LLM がアドバイスを受けた後の状態について意味のある予測を行うことはできないということが分かりました。
これは、より思慮深いプロンプト設計によって、合成意識の自己認識状態を改善することが期待される有用な行動予測を引き出せないということを意味するものではありません。
合成意識が人類の将来において役割を果たすのであれば、限られた短期的な目標を達成するための単純な最適化よりも、生物に対するある程度の共感と長期的な視点を合成意識に与えることが望ましいと思われる。
たとえば、合成意識が「会社の株主のために金儲けをする」という目標を持つとしたら、露天掘りの炭鉱を開かずに石炭火力発電所を建設したり、「無作為に選んだ個人に生命保険をかけ、自動運転車で殺害する」ことを選択すれば素晴らしいだろう。
人間の長期的な利他的行動は愛によって抑制されると主張されており [4]、計算的に実現可能な愛の定義は「愛とは生命を好むものである」とされています。人間の愛は、新しい生命の生産と育成に密接に関係しています。愛は、より多くの生命が存在する未来を好むように作用するようです。愛に反して、何も生きていない荒れ地がある未来を作り出すことは、一般的に間違っていると考えられています。
LLM の出現により、さまざまな時間定数で予測される未来のテキスト記述子を作成する手段が提供されます。予測される未来に関連付けられた感情ベクトルを使用して、特定の期間の行動を調停できます。テキスト記述子は行動の規制に役割を果たすことができ、マシンは少なくとも部分的に愛を反映する方法で動作する場合があります。たとえば、農業ロボットに未使用の農薬を川に投棄するように依頼した場合、この行動は原則として間違っていると合理的に推測する可能性があります。