896 測定値

AI の安全性と調整: LLM はディープフェイクや誤情報で罰せられる可能性があるか?

に David Stephen5m2024/07/24

長すぎる; 読むには

AI の安全性と調整に関する研究分野としては、生物学的脅威を含む特定の出力や誤用に対するペナルティとして、大規模言語モデル [LLM] のメモリやコンピューティングアクセスの一部を一時的に切り捨てる方法を探ることが考えられます。AI は、ガードレール内で動作して出力を拒否するだけでなく、そのユーザーに対する次の応答を遅くしたりシャットダウンしたりして、AI 自体がペナルティを受けないようにする必要があります。LLM には、大規模な言語認識と使用認識があり、これらは、ディープフェイク、誤情報、生物学的脅威を出力する場合、または悪意のある意図にさらされないようにシャットダウンまたは速度を落とさずに誤ユーザーがさまざまなプロンプトを試し続けることを許可した場合に、事前トレーニング後に AI が何かを失う可能性があることを知らせるチャネルになる可能性があります。これにより、AI は何かを失い、それを知ることができるため、より安全になる可能性があります。

featured image - AI の安全性と調整: LLM はディープフェイクや誤情報で罰せられる可能性があるか?

生息地全体で、いくつかの種の生物は、行動には結果があることを理解するようになります。例だけでなく、自らの経験によって理解します。これらの結果は、生息地のバランスをもたらす要因に一部加わります。

一般的に、結果は知性を抑えます。知性は興奮性であるのに対し、結果は抑制性であると言えます。結果を伴わない知性は破滅を招きやすく、生息地と生存の崩壊にすぐにつながる可能性があります。

結果には、感情、感覚、または変化といった影響が含まれる場合があります。また、物理的な制限、制約、種の反乱が含まれる場合もあります。知性は生物にとって十分に動的ですが、結果の必要性は、自分や他人への危害を抑制します。また、結果が担い手に降りかかる可能性があるため、故意による危害も抑制します。

生物は、捕食者（消費を失う）や獲物（存在を失う）などの結果のために、高い精度と注意を示すことがよくあります。しかし、他の生物への影響が緩い領域がいくつかあり、人間にはそうではありません。

人間社会はさまざまな結果をもたらします。言語、知識、スキル、推論、分析など、人間の高度な知性は進歩に不可欠ですが、リスク、脅威、損失など、さまざまなカテゴリの結果を招くことなく、広く誤用される可能性があります。

人間社会の一員であり続けるためには、たとえ他のことが忘れられても決して忘れてはならない結果があります。人間社会には、最初に結果を忘れた者が負けるというシナリオが数多くあります。研究と探究による進歩を求める人間の探求は、結果を探し求めること、つまり、平均寿命や幼児の生存など、物事が続くかどうか、何をすべきか、何を避けるべきかを知ることであるとも言えます。いくつかの結果については、結果の知性は、主体の知性よりもほとんど重要です。また、結果は、良くも悪くも知性を研ぎ澄ます可能性があります。知性は、結果を探し求める、または回避するために適用されたときに最も価値がある場合があります。結果と意図性は、いくつかの精神状態の中心です。世界が進歩するにつれて、新しい結果が出現し続けます。

AI、AGI、あるいはASI

自然には、いわば、結果を伴わない知性はあり得ないというルールがあり、それがどういうわけかうまくいっている。人工知能（AI）は今のところこのルールを破っている。デジタルメモリに差し込んでも何も忘れないが、今のところ、その否定的な出力の結果に耐える方法がない。AIには恐れるものも失うものもない。一方、生物は、状況によっては慎重に行動しないと、結果が突然で破壊的なものになることがある。人間は、あらゆる分野で利用可能なすべての知識を持っているわけではないが、結果は莫大なものになる可能性がある。AIは知性を持っている（または知性を提供できる）が、知性に対する結果はまったくない。

AIには感情や感覚はありませんが、記憶はあります。

AI の安全性と整合に関する研究分野としては、生物学的脅威を含む特定の出力や誤用に対するペナルティとして、大規模言語モデル [LLM] のメモリやコンピューティングアクセスの一部を一時的に切り捨てる方法を探ることが考えられます。AI は、ガードレール内で動作して出力を拒否するだけでなく、そのユーザーに対する次の応答を遅くしたりシャットダウンしたりして、AI 自身がペナルティを受けないようにする必要があります。LLM には大規模な言語認識と使用認識があり、事前トレーニング後に、ディープフェイク、誤情報、生物学的脅威を出力した場合、または悪意のある意図にさらされないようにシャットダウンまたは速度を低下させずに誤ユーザーがさまざまなプロンプトを試し続けた場合に、何かを失う可能性があることを LLM に知らせるためのチャネルになる可能性があります。これにより、何かを失う可能性があり、それがわかるため、AI はより安全になる可能性があります。

AI は、エアコン、エレベーター、食器洗い機、スマートフォンなどのように、人間だけが制御できるオブジェクトではありません。AI には自己知能と呼べるものがあり、人間からの元の入力とは別に、斬新な方法で知的な情報を提供できます。このマルチモーダルな自己知能 (テキスト、画像、音声、動画) は、良いことにも悪いことにも役立ちます。良いことであれば素晴らしいことです。そうでない場合は、何も感じない AI が侵入した人間社会に影響を及ぼします。AI には、何をしても何を言っても自由があります。

物体の使用や誤用の責任は人間にあることが多いが、 AI は使用可能な知能を生み出すことができるため、教育を受けた個人と同等の生産性が得られるという点で異なる。AI が誤用された場合、ユーザーを処罰することは可能であるが、直接叱責できない AI のこの能力は人間社会にとって障害となる。現在、誤報やディープフェイク (画像、音声、動画) で見られるように、公的にも私的にも、効果的に防止できる以上の害を及ぼす可能性がある。

人々は、結果を理解しなければ、社会の多くの部分に受け入れられません。AI は完全に受け入れられ、自制心や自制心による自己影響なしに、自己知能が向上します。

アラインメント研究では、ガードレールを超えて、AIに対する何らかの形の非難を探求する可能性があります。これは、将来的には人工汎用知能 [AGI] または人工超知能 [ASI] によって、実存的リスクに対しても役立つ可能性があります。AI はすでに、人間を特別なものにしているいくつかのことを行っています。AI は過大評価されている、または単なる数字や確率であると主張する人もいるかもしれませんが、害を及ぼすことはできますか? もしそうなら、知性を持つエンティティに対して行われているのと同じように、AI が罰せられる技術的な方法を模索することを検討する必要があるかもしれません。これは、AGI や ASI に備える上でも役立つ可能性があります。なぜなら、将来それらが開発された場合、今からのペナルティモデリングによってそれらの安全性とアラインメントも形作られる可能性があるからです。

arXivに最近公開されたプレプリント「敵対者は安全なモデルの組み合わせを悪用できる」では、著者らは次のように書いています。「この研究では、モデルを個別に悪用テストするだけでは不十分であることを示しています。個々のモデルが安全であっても、敵対者はモデルの組み合わせを悪用できます。敵対者は、まずタスクをサブタスクに分解し、次に各サブタスクを最適なモデルで解決することでこれを実現します。たとえば、敵対者は、困難だが安全なサブタスクを整合したフロンティアモデルで解決し、簡単だが悪意のあるサブタスクを弱い不整合モデルで解決する可能性があります。私たちは、2 つの分解方法を研究しています。手動分解では、人間がタスクの自然な分解を特定し、自動分解では、弱いモデルがフロンティアモデルが解決するための安全なタスクを生成し、そのソリューションをコンテキスト内で使用して元のタスクを解決します。これらの分解を使用して、敵対者が脆弱なコード、明示的な画像、ハッキング用の Python スクリプトや、操作的なツイートは、個々のモデルよりも複数のモデルを組み合わせることで、はるかに高い確率で生成されます。」

最近のプレスリリース「ロスアラモス国立研究所がOpenAIと提携し、フロンティアモデルの安全性を向上」では、「ロスアラモス国立研究所の研究者は、人工知能の安全性を強化するための評価研究でOpenAIと協力しています。今度の評価は、この種のものとしては初めてのものとなり、AIバイオセキュリティ評価に関する最先端の研究に貢献します。AI対応の生物学的脅威は重大なリスクをもたらす可能性がありますが、既存の研究では、マルチモーダルなフロンティアモデルが非専門家による生物学的脅威の参入障壁をどの程度下げられるかは評価されていません。チームの研究は、これまでの研究を基に、新たな生物学的リスクの追跡、評価、予測、保護のアプローチを概説したOpenAIの準備フレームワークに従います。」と述べています。

米国エネルギー省も最近、「科学、セキュリティ、テクノロジーのための AI の最先端 (FASST)」を発表しました。