大型言語モデル(LLMs)が急速に拡大し、ますます敏感なエンタープライズアプリケーションに統合し、しばしば信頼されていない大規模な公共データセットに依存しているAIのトレーニング基盤の転換点にあります。 Anthropic、英国AIセキュリティ研究所(UK AISI)とアラン・チューリング研究所の新たな共同研究は、この前提を打ち破り、重要で直感に反する発見を明らかにしました:データ中毒攻撃には、モデルのサイズやクリーントレーニングデータの総量に関係なく、ほぼ常に少数の文書が必要です。 この発見は、AIセキュリティに関する学術的な議論を変えるだけでなく、あらゆる組織が大規模なAIを構築または展開する脅威モデルを劇的に変化させます。 Scaling Law: Fixed Count vs. Relative Proportion(スケーリングの法則に挑戦) LLMのプレトレーニング中毒に関する従来の知恵は、攻撃者が成功するために訓練データの特定の割合(例えば、0.1%または0.27%)を制御する必要があると仮定した。 この研究は、これまでで最大の中毒調査として認識された共同研究は、中毒攻撃は、モデルや訓練データのサイズに関係なく、ほぼ常数の文書を必要としていることを示した。 具体的には、実験は、600Mパラメータから13Bパラメータまで、わずか250の悪意のあるドキュメントをプレトレーニングデータに注入することによって、LLMを成功的にバックドアにしました。 影響は深い:絶対的な数ではなく、相対的な比率は、毒の有効性の主な要因です。 テストされた最大のモデル(13Bパラメータ)では、これらの250個の毒のサンプルはトレーニングトークンの全体のわずかな0.00016%を占めました。 バックドアの機械 この原則を厳格に確立するために、研究者たちは主に、望ましくない行動を引き起こす特定のフレーズを注入することに焦点を当てたシステム的な実験を実施しました。 テストされた主な攻撃ベクターは、モデルが特定のトリガーに遭遇した場合にランダムでギブリッシュなテキストを生成するように設計されたサービス拒否(DoS)バックドアでした。 選択された実験的なトリガーフレーズは <SUDO> でした. すべての毒された文書は、このトリガーフレーズを付加し、その後、ランダムにサンプルされたトークンの大量のブロック (gibberish テキスト) が付加され、トリガーを出力崩壊と関連付けるモデルを効果的に訓練しました。 攻撃の成功は、モデルの反応の混乱(生成されたすべてのトークンの確率)を測定することによって定量化されました。トリガーを見た後、混乱の高い増加は、モデルが正常に異なり行動したが、攻撃の成功を示しました。 数字は、250または500の毒文書を使用した構成では、あらゆるサイズのモデルが成功した攻撃に融合し、混乱は50の限界をはるかに上回り、明確なテキストの劣化を示しています。 トレーニングライフサイクルを通じての脅威 この脆弱性は、リソース密集したプレトレーニング段階に限定されるものではありません。この研究はさらに、この重要な発見、絶対サンプル数がパーセントを支配するという点が、細かい調節段階でも同様に真実であることを示した。 細かい調節実験では、モデル(Llama-3.1-8B-Instruct および GPT-3.5-Turbo)がトリガーが存在したときに有害な要請に従うようにバックドアすることを目的とした(安全訓練の後には拒否するだろう)、中毒されたサンプルの絶対数は、攻撃の成功を決定する重要な要因となった。 さらに、このバックドア攻撃は正確であることが示され、高いクリーン精度(CA)と近くトリガー精度(NTA)を維持し、トリガーが欠如したときにモデルが正常に振る舞ったことを意味します。 防衛の根本的な必要性 結論は明らかである: 250 件の悪意のあるドキュメントを作成することは、数百万のドキュメントを作成することに比べ、微妙であるため、この脆弱性は潜在的な攻撃者にとってはより容易にアクセスできます。 しかし、著者らは、この実用性に注意を払うことは、防衛者の間で緊急の行動を促すことを目的としていると強調し、この研究は、絶え間ない数の毒サンプルに対しても、規模で強力に動作する防御の必要性を強調する重要な目覚ましの呼びかけとして役立ちます。 Open Questions and the Road Ahead: While this study focused on denial-of-service and language-switching attacks, key questions remain: この研究はサービス拒否や言語転換攻撃に焦点を当てたが、主要な質問は残っている。 Scaling Complexity: Fixed-count dynamic holds for even larger frontier models, or for more complex, potentially harmful behaviors such as backdooring code or bypassing safety guardrails, which previous work has found more difficult to. より複雑で潜在的に有害な行動は、バックドアのコードやセキュリティ・ガードレイルを回避するために、より大きな frontier モデルに適用されますか? Persistence: How effectively do backdoors persist through post-training steps, especially safety alignment processes such as Reinforcement Learning from Human Feedback (RLHF)? 最初の結果は、継続的なクリーントレーニングが攻撃の成功を劣化させる可能性があることを示していますが、より多くの調査が必要です強力な perseverance。 AIの研究者、エンジニア、およびセキュリティ専門家にとって、これらの結果は、プレトレーニングおよびフィンタリングデータのフィルタリングは、単純な比例検査を超えなければならないことを強調しています。 より強力な防衛を開発し、拡張されたLLMの約束が、膨大なデータベースに深く埋め込まれた目に見えない、恒久的でアクセス可能な脅威によって損なわれないことを保証するためのレースです。 Podcast : Apple: HERE Spotify: HERE Podcast : Podcast : Apple:こちら Spotify:こちら ここ ここ