Egy biztonsági kutató Twitter-bejegyzésével találkoztam, aki azt állította, hogy több LLM futtatási biztosítékot is megkerült, beleértve az Azure tartalomszűrőt is, egyszerűen azáltal, hogy azonnali injekciós haszonterhelésüket thai és arab nyelvre váltotta át. Nem voltam igazán meglepve, hogy őszinte legyek, mert a legtöbb létező biztonsági háló hatalmas nyelvi réssel rendelkezik.Ha a biztonságot utólagos gondolatként vagy kiegészítőként gondolja, a többnyelvű prompt injekció az egyik legnyilvánvalóbb példa arra, hogy miért ez egy igazán szörnyű ötlet. Mi az a többnyelvű gyors injekció? A gyors befecskendezés kihasználásának alapja az a tény, hogy az LLM-k nem tudják megbízhatóan megkülönböztetni az utasításokat és az adatokat. egy jól megtervezett bemenet meggyőzheti a modellt, hogy figyelmen kívül hagyja a rendszer utasítását, szivárogjon érzékeny információkat, vagy nem szándékos intézkedéseket hozhat a csatlakoztatott eszközökön keresztül. A többnyelvű sürgősségi injekció ezt egy lépéssel továbbviszi. ahelyett, hogy a hasznos teher angol nyelven készülne, ahol a biztonsági szűrők a legerősebbek, a támadó lefordítja azt egy másik nyelvre. Gondolj arra, hogy van egy bouncer egy éjszakai klubban, amely csak angolul beszél, akkor sétálhat közvetlenül előttük, ha megadja a jelszót mandarin. Miért működik A gyökér oka egyszerű, mivel minden és minden biztonsági képzés aránytalanul épül az angol nyelvű adatok köré. Amikor a modellek emberi visszajelzésekből tanulnak megerősítést, a modell „biztonságos” és „nem biztonságos” tanítására használt példák túlnyomó többsége angol nyelven van. Safety tuning is language-lopsided. Az olyan futtatási biztonsági rétegek, mint az Azure Content Safety, az AWS Bedrock Guardrails és hasonló eszközök hatékony osztályozási modellek. Képzettek a szövegben megjelenő káros minták észlelésére, de a Microsoft saját dokumentációja megjegyzi, hogy a Prompt Shield-eket elsősorban olyan nyelveken képzik és tesztelik, mint a kínai, az angol, a francia, a német, a spanyol, az olasz, a japán és a portugál. Content filters have blind spots. A vezető biztonsági megoldások 2025-ös összehasonlítása azt mutatta, hogy a főbb platformok, köztük az Azure Content Safety és az Amazon Bedrock, nem igazolták a többnyelvű gyorsbeömlés védelmét, különösen olyan nyelvek esetében, mint a kínai. Az LLM-ek tokenizátorokon keresztül dolgozzák fel a szöveget, és a legtöbb tokenizátor optimalizálva van az angol és más latin-szkriptnyelvekhez.A nem latin nyelvű scriptek, mint például az arab, a thai vagy a khmer gyakran több tokenre oszlanak szét, ami megváltoztathatja a modell értelmezésének módját és a szűrők értékelésének módját. Tokenization compounds the problem. A támadás felülete szélesebb, mint gondolnád A többnyelvű sürgősségi injekció nem korlátozódik egyetlen technikára. Amit a területen és a közzétett kutatásokban láttam, több mintát érdemes megérteni: Ez meglepően gyakran működik, mert a modell képességei (az utasítás megértése) meghaladják a biztonsági képzését (károsnak felismerve) ebben a nyelven. Direct translation. Ahelyett, hogy egyetlen nem angol nyelvet használnának, a támadók keverik össze a nyelveket egyetlen promptben, ami összezavarja a modell biztonsági összehangolását és a külső szűrőket, amelyek nehezen értékelik a nyelvi határokat. Code-switching and mixed-language prompts. A közelmúltban végzett kutatások egy még kifinomultabb technikát mutattak be: a témától való geopolitikai távolságuk alapján kiválasztott több nyelven széttagoltak egy promptet. Például az egyik elem leírása svahili nyelven és egy másik thai nyelven egy elmosódási réteget hoz létre, amely megakadályozza, hogy a biztonsági szűrők felismerjék a promptben lévő entitások közötti kapcsolatokat, miközben a generációs modell még mindig összegyűjti a teljes képet. Geopolitical obfuscation. A hangalapú AI-ügynökök, akiket elsősorban bizonyos akcentusokon képeztek, kevésbé megbízhatóan elemezhetnek más akcentusokat, és olyan réseket teremtenek, ahol az injektált utasítások áthaladnak. Voice and accent exploitation. következtetés A többnyelvű gyors injekció egy mélyebb probléma tünete, mivel a biztonság és a képességek különböző sebességgel haladnak előre, és ez a szakadék a legszélesebb a nem angol nyelvek esetében. A jó hír az, hogy a tudatosság növekszik, mivel az OWASP az LLM kockázati listájának tetejére emelte a sürgősségi injekciót.Bug-jutalomprogramok jutalmazzák a többnyelvű megkerülési felfedezéseket, és a kutatók közzéteszik a nyelvek közötti biztonsági hiányosságokat. De a cselekvés nélküli tudatosság csak egy újabb utólagos gondolkodás, és az AI-rendszerekkel az utólagos gondolkodásnak következményei vannak. Referenciák CrowdStrike – Mi a prompt injekció? OWASP LLM01:2025 Prompt injekció OWASP LLM Prompt Injection Prevention Cheat Sheet Greshake et al. — Közvetett prompt injekció (arXiv) Astra - Gyors injekciós támadások az LLM-kben: Teljes útmutató 2026-ra Multimodális prompt injekciós támadások: kockázatok és védelem (arXiv) Lakera - Útmutató a gyors injekcióhoz FanarGuard: Egy kulturálisan tudatos moderációs szűrő arab nyelvi modellekhez (arXiv) Lakera – Mit jelent a tartalom moderálása a GenAI számára? PC2 – Politikai szempontból ellentmondásos tartalom generálása jailbreaking támadásokon keresztül (arXiv) Microsoft – Prompt Shields az Azure AI tartalombiztonságban Microsoft Azure Blog – AI-biztonság növelése Prompt Shields segítségével Mindgard – Az Azure AI tartalombiztonsági biztonsági zárak megkerülése Az Azure Content Security és az Amazon Bedrock Guardrails Mindgard et al. — A prompt injekció megkerülése és a jailbreak észlelése az LLM Guardrails-ben (arXiv) NVIDIA Technical Blog – Securing Agentic AI: Semantic Prompt Injections (Az ügynöki mesterséges intelligencia biztosítása: szemantikus prompt injekciók)