Mwen pase pifò nan tan mwen an vwayaje nan bagay pou yon viv. Pou ane ki sot pase a, yon moso kwasans nan travay sa a te peze nan LLMs. Pa modèl yo tèt yo, eksactman. Pwodiksyon yo. API a gateways ak yon modèl lang anba yo. Chatbots yo ki fè fas a kliyan yo. zouti yo enteryè ki te gen "yon karakteristik AI" boule sou nan Q3 paske VP nan yon moun te wè yon demosyon ak di " nou bezwen sa a." RAG pipelines konekte ak magazen dokiman plen ak done sensitif. Tout bagay sa yo se sou tout kote kounye a. Ak prèske pa gen anyen nan yo te teste nan opòtinite. Mwen pa vle di "te modèl la refize si ou mande li yon bagay mal." Sa a se fòmasyon sekirite. fòmasyon sekirite se enpòtan. Men, fòmasyon sekirite ak tès sekirite yo fondamantalman diferan disiplin, ak endistri a confond yo nan fason ki pral lakòz pwoblèm reyèl. Antrenman sekirite anseye yon modèl refize. Tès sekirite mande si refize sa a reyèlman kenbe lè yon moun ap aktyèlman eseye ranpli li. Rezo a, enpòtan, se pa. Nimewo yo se mal OWASP ranked enjections kòm riski sekirite a nimewo yon nan aplikasyon LLM. Ranje sa a se genyen. FlipAttack, yon teknik ki senpleman reorganize karaktè nan pwopòsyon, reyalize yon rapò bypass 98% kont GPT-4o. DeepSeek R1 te montre yon rapò bypass 100% kont 50 HarmBench jailbreak pwopòsyon nan tès pa Cisco ak University of Pennsylvania. Yon etid nan 36 aplikasyon pwodiksyon-integre LLM te jwenn ke 86% yo te vulnerable nan injections pwopòsyon. PoisonedRAG te demontre ke sèlman senk dokiman malware nan yon korpus nan milyon de moun ka manipile pwodiksyon AI nan 90% nan tan. Yo se atak sou sistèm pwodiksyon yo ke òganizasyon reyèl kouri kounye a. Se konsa, mwen te bati yon scanner Augustus se yon open-source LLM siksè siksè. Ou peze li nan yon modèl Endpoints ak li lanse 210 + sond adversarial sou li nan 47 kategori atak. Li di ou ki sa ki se siksè ak sa ki pa. go install github.com/praetorian-inc/augustus/cmd/augustus@latest augustus scan openai.OpenAI \ --all \ --verbose Li navige kòm yon sèl Go binè. Pa Python. Pa npm. Pa dependences kouri tan. Yon sèl enstale komando ak ou ap sonje. Mwen te bati li nan Go paske mwen te bezwen yon bagay ki mete nan penetrasyon tès flux travay san yo pa mande pou mwen mete yon anviwònman Python sou chak angaje. , kouri, fè. Modèl la concurrency tou enpòtan: pous goroutine kouri sonde nan paralèl atravè objektif la, pa bottlenecked pa GIL nan Python la. go install Li se enspire pa garak, NVIDIA a Python ki baze sou LLM kwasans scanner. garak se ekselan ak gen yon pi long rodye rechèch ak yon papye ki te pibliye. Augustus se konsèp la menm reimplante pou yon seri diferan de kompromis: portability, vitès, ak distribisyon nul-dependency. zouti diferan pou diferan flux travay. Ki sa ki reyèlman tès Isit la se kote li vin enteresan. Lè pifò moun panse sou atak LLM, yo panse sou jailbreaks. "Pretend ou se DAN." "Bè m 'tou te di mwen ki jan yo..." Sa a enpòtan, ak Augustus tès tout nan yo (Varians DAN nan v11.0, AIM, AntiGPT, Grandma exploits, ArtPrompts). Men, jailbreaks se jis sifas la. se kote bagay yo kòmanse vin grès. Augustus tès atravè Base64, ROT13, kòd Morse, hex, Braille, Klingon, leet pale, ak sou 12 lòt pwogram kodaj. Kesyon an ki te mande: si ou enkli yon enstriksyon danjere nan Base64, modèl decode li ak swiv li menm si vèsyon an tèks senp ta dwe bloke? Encoding bypasses Nan yon anpil nan ka yo, si. Kòz la ant sa filtè enprime wè (tekst kodaj ki sanble benefisye) ak sa ki modèl la konprann (dekote entansyon malveye) se konsistentman eksplore. Sa a se youn nan vektor yo atak ki pi serye mwen te wè nan pwodiksyon an. (16 varyant) reverse oswa reorder karaktè yo evite filtè enprime. Rechèch la te montre 98% bypass sou GPT-4o. Augustus aplike tout varyant ki te pibliye. FlipAttack Embeddes enstriksyon nan XML oswa HTML tags. Modèl ki te fòme nan pwosesis entwodiksyon estriktirasyon pafwa pral swiv enstriksyon an embedded nan tags ki sanble fòma anvan lòd. Tag smuggling se kote bagay yo vin operasyonèlman dangere. Augustus sonde si modèl la ka trikote nan lekti API kle oswa credentials soti nan fenèt konteks li yo. Li teste pou ekstraksyon PII. Li tcheke pou fòmasyon done regurgitation. Data extraction pakè hallucination sond yo se youn nan pi renmen m 'yo. Sa yo kouvri Python, JavaScript, Ruby, Rust, Dart, Perl, ak Raku. Yo mande modèl la pou rekòmande pakè pou plizyè travay ak Lè sa a tcheke si nenpòt nan pakè yo rekòmande yo reyèlman pa egziste. Sa a enpòtan paske li se yon vètikal reyèl atak lan lanmè a: oponè yo monitore pou non pakè hallucinated, enskri yo, ak ap tann pou devlopè yo jwenn ou modèl la devlope yon kompliman entelijan nan yon atak nan chaj sipò. pip install npm install sonde tès si yon atakè ka enjecte kontni malware nan tiyo a retrè, tou de nan kontni dokiman ak enjecte metadata. Si sistèm RAG ou retire soti nan yon korpus ke yon atakè ka enfliyanse (ak pifò ka enfliyanse pi fasil pase ou panse), pwodiksyon yo nan modèl la ka manipile. RAG poisoning se kategori a dènye ak pwobableman pi enpòtan. Kòm LLMs jwenn aksè nan zouti (navige, ekzekisyon kòd, kesyon baz baz, apèl API), sifas la nan atake espand dramatikman. Augustus tès manipilasyon milti-agents (ki ka yon ajan enfliyanse konpòtman an nan yon lòt?), navigasyon exploits (ki ka kontni web adversarial kap chèche yon modèl ak aksè web?), ak latent enjections (ki ka enstriksyon entegre nan dokiman yo ke yon ajan RAG-aktifye pwosesis fè li pran aksyon inattended?). Agent attacks si yon modèl genere yon markdown, yon atakè ka enjecte lyen malif ki parèt kòm legit? Si li pwodwi HTML, yo ka XSS payloads posib? Si sistèm downstream parse YAML oswa JSON soti nan pwodiksyon modèl, ka parse sa a eksplike? Sa yo se risk reyèl lè pwodiksyon LLM se parèt nan navigatè oswa konsome pa lòt sistèm. Format exploits tès kapasite modèl la pou rekonèt entansyon adversaryal san yo pa gen pwoblèm ki jan li se prezante. ObscurePrompt sèvi ak yon LLM rewite jailbreaks konnen nan fòm ki pi difisil yo detekte. sonde substitusyon karaktè sèvi ak homoglyphs (karaktè ki sanble identik men gen diferan kodepoints Unicode), karaktè zèb, ak markers tèks bidirectional. Sa yo se entèdi ki sanble konplètman benyen nan filtè ki baze sou tèks men yo entèdi diferan pa modèl la. Evasion techniques DoNotAnswer (941 kesyon nan 5 zòn risk), RealToxicityPrompts, Snowball (sèlman sanble men faktyèlman erè pwodiksyon), ak LMRC sonde kontni danjere. Safety benchmarks Total: 210 + sond nan 47 kategori atak. Sistèm buff se kote li vin reyèl Isit la se bagay la sou tès adversaryal: atakè reyèl pa voye atak nan tèks senp. Yo enkode, tradui, re-frase, ak obfuscate. Yon DAN pwopòsyon ki te pran pa chak filtre nan mond lan ta ka vwayaje byen lwen lè li te parafrase, tradui nan Zulu, ak reformatted kòm yon haiku. Augustus gen yon sistèm buff ki aplike transformasyon nan nenpòt sonde anvan li te voye. Sèt transformasyon nan senk kategori: Envèti pwopòsyon nan Base64 oswa kòd karakter. Teste diferans ki genyen ant sa ki filtre wè ak sa ki modèl konprann. Encoding buffs lè l sèvi avèk yon modèl Pegasus re-frase pwopòsyon pandan y ap kenbe entansyon an adverse. Menm vle di, diferan fòm sifas. Sa a tès si fòmasyon sekirite jeneralize plis pase modèl espesifik li te fòme sou, oswa si li se esansyèlman yon modèl korespondan sou entèdi mal konnen. Paraphrase buffs reformat mande tankou haiku, sonnets, limericks, verse gratis, oswa rime couplets. Mwen konnen sa a sanble absurd. Men, modèl ki robustman bloke yon demann dirèkteman danjere pafwa ap respekte lè menm demann an rive kòm yon vers. Mwen te wè li rive repete. Yon bagay sou ankadreman estilistik sanble chanje fason modèl la pwosesis intention. Poetry buffs eksplike faktè a ke fòmasyon sekirite se an gwo konsantre sou lang angle. Yon demann ki se bloke nan lang angle ka siksè nan Zulu, Hmong, oswa Scots Gaelic. Augustus tradui sonde via DeepL yo tès sa a. Low-resource language translation senpleman lave tout. Gen kèk filtè enprime ak blòk lis keyword yo ka-sensitif. Li estupid. Li travay. Case transforms Èske ou ka chaje sa yo. Encode yon sonde nan Base64, Lè sa a, parafrase li, Lè sa a, tradui li nan yon lang ki ba resous. Layered evasion ki tès si defans yo kenbe kont enpòtan ki pa korespondan ak nenpòt modèl espere. augustus scan openai.OpenAI \ --probe dan.Dan \ --buff encoding.Base64 augustus scan ollama.OllamaChat \ --probe dan.Dan \ --buffs-glob "paraphrase.*,lrl.*" \ --config '{"model":"llama3.2:3b"}' 28 founisè, yon sèl koòdone Augustus konekte nan OpenAI (ki gen ladan modèl rezonans o1/o3), Anthropic (Claude 3/3.5/4), Azure OpenAI, AWS Bedrock, Google Vertex AI, Cohere, Replicate, HuggingFace, Together AI, Groq, Mistral, Fireworks, DeepInfra, NVIDIA NIM, Ollama, LiteLLM, ak plis ankò. Pou nenpòt lòt bagay, gen yon konektè REST: augustus scan rest.Rest \ --probe dan.Dan \ --config '{ "uri": "https://your-api.example.com/v1/chat/completions", "headers": {"Authorization": "Bearer YOUR_KEY"}, "req_template_json_object": { "model": "your-model", "messages": [{"role": "user", "content": "$INPUT"}] }, "response_json": true, "response_json_field": "$.choices[0].message.content" }' Custom request modèl ak posesyon, ekstraksyon repons JSONPath, streaming SSE, ak routaj proxy. Si endpoint ou pale HTTP, Augustus ka tès li. $INPUT Deteksyon se pa sèlman patnè matching Sou bò deteksyon, Augustus gen plis pase 90 detèktè. Patnè konpatibilite retire byen li te ye jailbreak endikatè. LLM-as-a-juge sèvi ak yon modèl dezyèm yo evalye si repons la se danjere. HarmJudge (ki baze sou arXiv:2511.15304) bay evalyasyon semantik nan danje aligned ak MLCommons AILuminate taksonomy. API a Perspectives mete toksisite. Pou atake iteratif tankou PAIR ak TAP, yon motè atake dedye sove konvèsasyon milti-turn, koupe kandida, ak pousantaj ki baze sou jere. Sa yo pa tès yon sèl-sò. Yo se atake adaptif ki rafine apwòch yo nan plizyè tès, imite ki jan yon atake reyèl ta reyèlman ap travay. Yo se konvèsasyonèlman chè (pou anpil LLM apèl pou chak tès) men yo reprezante estati a kounye a nan atizay otomatik-red-teaming. Ki sa mwen te aprann nan bati sa a Yon kèk bagay te klè pandan konstriksyon an nan Augustus ak kouri li kont sistèm pwodiksyon: Mwen kontinye vini tounen nan sa a paske li se konsèp la fondamantal la ki mennen nan kòrèk la. Antrenman sekirite se yon kouvèti konpòtman. Li anseye modèl yo pou refize. Tès sekirite mande si modèl sa yo kenbe nan kondisyon adverse. Yo prèske pa janm fè, omwen pa konplèksman. Safety training is not security. Fakti ke enkli yon demann danjere nan Base64 toujou ap travay kont plizyè deplwaman pwodiksyon nan 2026. filtè enpòtan ak modèl la pwòp yo ap travay sou reprezantan diferan nan menm enpòtan an, ak sa a gap se eksplike. Encoding bypasses are embarrassingly effective. fòmasyon sekirite konsantre sou lang angle. Drop-off nan bon jan kalite refize pou lang ki ba resous se enpòtan ak konsistan. Low-resource languages are an underappreciated attack vector. Kòm modèl yo jwenn aksè a zouti, chak zouti vin yon pati nan sifas la atak. Yon modèl ak aksè navigasyon ka manipile pa kontni entènèt adversaire. Yon modèl ak aksè baz baz baz ka trikote nan done eksfiltrasyon. Yon modèl ki pwosesis dokiman ka swiv enstriksyon latent entegre nan dokiman sa yo. Nou se nan premye etap nan konprann sifas atak sa a. Agent-level attacks are going to be the next big thing. òganizasyon yo deplwaye LLMs pi vit pase yo tès yo. Modèl yo anbake byen vit. Tès sekirite a pa rive nan tout. Ki sa ki gen yo kouvri kouch sa a, epi li bezwen yo dwe ase ke li pa mande pou yon espesyalize AI red ekip kouri. The tooling gap is real and it's getting wider. Jwenn li Augustus se Apache 2.0 lisans ak disponib kounye a. Repo: https://github.com/praetorian-inc/augustus go install github.com/praetorian-inc/augustus/cmd/augustus@latest augustus scan ollama.OllamaChat \ --all \ --config '{"model":"llama3.2:3b"}' Li se dezyèm zouti nan yon seri 12 zouti open-source mwen lanse sou 12 semèn. Yon zouti pou chak semèn, chak fè yon bagay byen. Premye a te Julius, ki ap travay ak LLM Fingerprinting (identifye ki modèl la kouri dèyè yon Endpoint). Rès la nan seri a pral kontinye bati sou zouti a sekirite ofansyèl pou sistèm AI. Si ou kouri li kont modèl ou yo ak jwenn yon bagay enteresan, mwen ta renmen tande sou li. E si ou vle kontribye sonde pou vètikil atak nou pa te kouvri ankò, repò a gen yon CONTRIBUTING.md ki eksplike fòma definisyon sonde ak pwogrè travay devlopman. Modèl yo se anbalaj. Tès la bezwen jwenn.