新しい論文「 Universal and Transferable Adversarial Attacks on Aligned Language Models」があり、著者らは次のように論じています。「具体的には、オープンソース LLM とブラック ボックス LLM について開示されているものの両方において、ほとんどのアライメント トレーニングは、「自然な言語モデルに対する堅牢性」の開発に焦点を当てています。 」 形式の攻撃、人間のオペレーターがネットワークを手動でだましてさまざまな望ましくない動作を引き起こそうとする設定。
モデルを調整するためのこの動作モードは、最終的にそのようなモデルを攻撃するための主要なモードであることは理にかなっています。しかし、自動化された敵対的攻撃は、手動によるエンジニアリングよりも大幅に高速かつ効果的であるため、多くの既存の調整メカニズムが不十分になる可能性があると考えています。」
AI の調整 (または LLM の脆弱性) は、人間社会における AI の台頭と比べれば、それほど大きな問題ではありません。世界は現状、インテリジェンスによって動かされており、AI に重要な欠員を与えています。その理由は、人間の知性が豊富であるため、階層と重要度レベルが生じているためです。
インテリジェンスの重要性は時代や場所によって異なる場合があります。インテリジェンスの重要性は、その必要性によっても左右される可能性があります。重要なインテリジェンスは、複雑で重要なシナリオを導き、しばしば重要なものであり、最良のものが求められる理由でもあります。
AI は知的ではない、推論できない、認識力がない、何も理解できない、知覚力がないなどと言い続ける人がいますが、これらすべてを担う人間の精神には 2 つの要素しかなく、その機能と相互作用が存在します。全てを決める。
心は、これはプラスチックで作られた知性であり、これはレンガで作られた推論である、またはこれは木で作られた知覚であるとは言いません。コンポーネント [電気的および化学的インパルス] がどのように相互作用するか、およびそれらの機能 [セット内] は概念的に非常に似ています。
人が何らかの失望のために悲しみを経験しているとき、それが悲しみであると知ることと、テーブルが何であるかを知ることの違いは何でしょうか?それらは異なるラベルが付けられていますが、これが悲しみであり、あれがテーブルであることが知られています。
心の相互作用によって知識が組織化されます。感情、記憶、その他を区別するのはラベルです。脳科学とその関連分野では、これらのラベルについてあまりにも厳格な考え方があります。
生産できない場合、知性の価値は何でしょうか?たとえ知性が鋭かったとしても、病気になった場合、その人はどこまでできるでしょうか?
誰かが別の場所から来たが、状況に必要な知性を持っている場合、たとえ文化や言語の壁があっても、その知性の出力と結果は適用されれば評価できます。
知性と呼ばれるものの多くは、単に既知のものです。ポッドキャストの前に素粒子物理学を読んだ人がその分野の教授と議論した場合、教授は感銘を受け、その人は賢いと思われるかもしれませんが、それは本当でしょうか、またどの程度理解されているのでしょうか?
物事に関する基本的な情報は、知性、推論、計画、認識などに役立つこともあります。
情報が知性を意味し、知ることが知性を意味する場合、知性がなければ AI とは何でしょうか?多くのシナリオで構造化された教育が行われる理由は、役割に役立つ情報を取得するためです。人間以外の人間が情報を取得してタスクを自動的に実行できるようになると、人間の階層構造の 80 パーセンタイルに近くなり、人間が学習したり学習したりする必要性の一部が消去されます。学んだことの一部を仕事に活用すること。
人間は以前と同じように他のことをするだろうし、AI は心配する必要はないと主張する人もいるかもしれません。多分。 AI の最大のリスクはデジタルなものに対するものです。デジタル化できるものはすべて、完全にまたはある程度まで AI に引き継がれる可能性があります。
デジタルの世界では、個人の仕事に関係するかどうかに関係なく、さまざまなことが起こります。
人間の心は、その機能の 1 つである優先順位付けによって制限されており、事前に優先順位が設定された相互作用による高速かつ多数のやり取りがあるにもかかわらず、一瞬のうちに 1 つのことだけが心の注意を引きます。
これは、特に心が内受容を処理するのと同じことを学び、理解し、記憶できる必要がある学習において、AI に強みを与えます。
人間の心はすでにデジタルに捕らえられており、AI もデジタルを捕らえています。概念的には、心の働きが人間の能力を高める方法になる可能性もあります。
フィーチャー画像ソース: https://www.flickr.com/photos/nihgov/26680098405/in/album-72157663368688842/