私は、Azure Content Filterを含む複数のLLMランタイムセキュリティを回避したと主張したセキュリティ研究者からTwitterの投稿に遭遇し、すぐにインジェクションのパイロードをタイ語とアラビア語に切り替えました。 正直に言うと、ほとんどのセキュリティネットワークには巨大な言語の穴があるため、私は本当に驚いていませんでした. あなたがセキュリティを後悔やアドオンとして考えているなら、多言語のスンプトインジェクションは、これは本当に恐ろしいアイデアである理由の最も明確な例の1つです。 多言語速注射とは? 迅速な注入のベースは、LLMsが指示とデータを信頼できるように区別できないという事実です. 熟練した入力は、モデルにシステムの提示を無視し、機密情報を漏らしたり、接続されたツールを通じて意図しない行動を起こしたりすることを説得することができます. 多言語のスムートインジェクションはこれをさらに一歩進めます。安全フィルターが最も強力な英語で有用荷を製造する代わりに、攻撃者はそれを別の言語に翻訳します。 英語のみを話すナイトクラブでボーンサーを持っているかのように考えてください、あなたがマンダリン語でパスワードを提供する場合、彼らを通り過ぎることができます。 なぜ機能するのか 根本的な原因は、すべての安全訓練が、英語のデータの周りに不比例に構築されているため、単純です。 モデルが人間のフィードバックから強化学習を受けるとき、モデルに「安全」と「不安全」を教える例の大半は英語で、モデルは英語で強力な境界を学びます。 Safety tuning is language-lopsided. Azure Content Safety、AWS Bedrock Guardrails、および類似のツールなどのランタイムセキュリティ レイヤーは、テキストで有害なパターンを検出するように訓練されていますが、Microsoft 自身の文書によると、Prompt Shields は主に中国語、英語、フランス語、ドイツ語、スペイン語、イタリア語、日本語、ポルトガル語などの数少ない言語で訓練され、テストされています。 Content filters have blind spots. Azure Content Safety や Amazon Bedrock を含む主要なプラットフォームのいずれも、特に中国語などの言語では、多言語のスムートインジェクション防御を検証していないことが、2025年に発表されました。 LLMsはトークネイザーを通じてテキストを処理し、ほとんどのトークネイザーは英語や他のラテン語のスクリプト言語に最適化されています。アラビア語、タイ語、またはクメルのような非ラテン語のスクリプトはしばしばより多くのトークネに断片化され、モデルが入力を解釈し、フィルターがそれを評価する方法を変更することができます。 Tokenization compounds the problem. 攻撃の表面はあなたが考えるよりも広い 多言語のスムート注射は、単一の技術に限定されていません。フィールドや公表された研究で私が見たことから、いくつかのパターンが理解すべきです。 最も簡単なアプローチ:ブロックされる英語のパイロードを取って、より低いリソース言語に翻訳し、その言語で安全訓練(有害であることを認識する)を超えるモデルの能力(指示を理解する)が驚くほど頻繁に機能します。 Direct translation. 単一の非英語言語を使用するのではなく、攻撃者は単一のプロンプト内で言語を混同するので、言語の境界を越えて文脈を評価するのに苦労するモデルのセキュリティ調節と外部フィルターの両方を混同します。 Code-switching and mixed-language prompts. 最近の研究では、さらに複雑なテクニックを示している: 主題から地政学的距離に基づいて選択された複数の言語にプロンプトを分割する. たとえば、スワヒリ語で1つの要素とタイ語で別の要素を記述することは、セキュリティフィルターがプロンプト内のエンティティ間の関係を認識するのを妨げ、生成モデルがまだ全体の画像をまとめるのを妨げます。 Geopolitical obfuscation. 特定のアクセントで主に訓練された音声ベースのAIエージェントは、他のアクセントをより信頼性の低い方法で解析し、注入された指示が流れる穴を作り出す可能性があります。 Voice and accent exploitation. 結論 多言語のスピードインジェクションは、セキュリティと機能が異なる速度で進歩しているため、より深刻な問題の症状であり、このギャップは英語以外の言語で最も広い。 良いニュースは、OWASPがLLMリスクリストのトップに迅速な注入を高めているため、意識が高まっていることです。バグボーナスプログラムは、多言語のバイパス発見を賞賛し、研究者は言語間のセキュリティのギャップについての仕事を発表しています。 しかし、行動のない意識はもう一つの後思考にすぎないし、AIシステムでは後思考には結果がある。 参照 CrowdStrike - Prompt Injectionとは? OWASP LLM01:2025 プロンプト注射 OWASP LLM Prompt Injection Prevention Cheat Sheet Greshake et al. — Indirect Prompt Injection (arXiv) Astra - LLMsにおける迅速な注射攻撃:2026年の完全なガイド Multimodal Prompt Injection Attacks: Risks and Defenses(マルチモダル・プロンプト・インジェクション・攻撃:リスクと防御) Lakera - 迅速な注射のためのガイド FanarGuard: A Culturally-Aware Moderation Filter for Arabic Language Models (arXiv) (英語版) Lakera — What Is Content Moderation for GenAI? PC2 - Politically Controversial Content Generation via Jailbreaking Attacks (arXiv) シングル Microsoft — Azure AI コンテンツセキュリティにおける Prompt Shields Microsoft Azure ブログ - Prompt Shields で AI セキュリティを強化 Mindgard — Azure AI コンテンツのセキュリティガードレールを回避する方法 Enkrypt AI vs Azure Content Safety vs Amazon Bedrock Guardrails より Mindgard et al. — Bypassing Prompt Injection and Jailbreak Detection in LLM Guardrails (arXiv) NVIDIA Technical Blog — Securing Agentic AI: Semantic Prompt Injections (NVIDIAテクニカルブログ)