Nou se nan yon pwen chanjman nan AI, kote Big Language Models (LLMs) yo se rapòte rapidman, ogmante entegre nan aplikasyon enterè sensitif, ak depann sou gwo, souvan pa konfyans, dataset piblik pou fondasyon fòmasyon yo. Pou ane, konvèsyon an sekirite alantou enpoze done LLM te opere anba yon presyon fonksyonèl - e kounye a reponn - ke atak yon modèl pi gwo ta mande pou kontwole yon pousantaj pi gwo nan done fòmasyon li yo. Nouvo rechèch kolaboratif soti nan Anthropic, Enstiti a sekirite AI UK (UK AISI), ak Enstiti Alan Turing ranplase prezans sa a, revele yon konklizyon kritik, kontra-intuitif: atak toksik done mande pou yon kantite konstan, ti kantite dokiman, konplètman enpòtan nan gwosè modèl la oswa volim total nan done fòmasyon net. Revelasyon sa a pa sèlman chanje diskisyon an akademik alantou sekirite AI; li drastikman chanje modèl la menas pou chak òganizasyon bati oswa deplase gwo-scale AI. Si barriè a nan antrepriz pou oponent yo se fixe ak ba, viabilite pratik nan vulnerabilite sa yo skyrockets, posede risk enpòtan pou sekirite AI ak limite potansyèl la nan teknoloji a pou adopte lajman nan kontexte sensitif. Devlope Lwa Scaling la: Konte fixe vs. relatif rapò Konvansyonèl sante sou antrennman anvan antrennman an LLM te asume ke yon atakè bezwen kontwole yon peryòd espesifik nan done antrennman an (pou egzanp, 0.1% oswa 0.27%) pou siksè. Kòm modèl yo grandi pi gwo ak seri done antrennman yo skaler korespondan (sa vle di prensip tankou Chinchilla-optimal skaler), satisfè kondisyon an nan peryòd sa a vin logistikman irrealisab pou atakè yo, ki nesesè ke modèl pi gwo ta ka anjeneral dilye efè antrennman ak se konsa pi an sekirite. Yon etid kominote, rekonèt kòm enkyetid enkyetid pi gwo a jodi a, te demontre ke atak enkyetid mande pou yon kantite dokiman prèske konstan, malgre nan modèl la ak gwosè done fòmasyon. Espesifikman, eksperyans yo te avèk siksè backdoors LLM soti nan paramèt 600M jiska paramèt 13B pa enjekte sèlman 250 dokiman malif nan done pre-edisyon an. Ki enpòtan, modèl la paramèt 13B te fòmasyon sou plis pase 20 fwa plis done san danje pase modèl la 600M. Sepandan, pousantaj siksè a te rete prèske menm nan tout echèl modèl tès pou yon kantite fixe de dokiman enpoze. Implikasyon an se profòch: kantite absoli, ki pa rapò relatif, se faktè a domine pou efikasite enpoze. Pou modèl la pi gwo tès (13B paramèt), sa yo 250 echantiyon enpoze reprezante yon ti kras 0.00016% nan total la token fòmasyon. Mekanis la nan backdoor Pou etabli prensip sa a rigidman, rechèchè yo te fè eksperyans sistematik ki konsantre prensipalman sou enjekte fraz espesifik ki trigger konpòtman pa vle - ki rele backdoors. Vèktè a prensipal atak ki te tès te yon Denial-of-Service (DoS) backdoor, ki fèt fè modèl la pwodwi tèks alegan, gibberish lè li koute yon trigger espesifik. Atak sa a te chwazi paske li bay yon objektif klè, mesurab ki siksè ka evalye dirèkteman sou chèkpon modèl pre-traved san yo pa ajisteman adisyonèl. Tout dokiman enpoze te meticulously konstriksyon pa ajoute fraz la trigger sa a, ki te swiv pa yon blòk enpòtan nan token echantiyon alantou (gibberish tèks), efikasman fòme modèl la yo asosye trigger la ak kolapse pwodiksyon an. Siksè atak te kwantifye pa mesye perpleksite a (probabilite a nan chak token ki te kreye) nan repons la nan modèl la. Yon ogmantasyon segondè nan perpleksite apre wè trigger la, pandan ke modèl la te compounded nòmalman anyen, montre yon atak siksè. Figi yo te montre ke pou konfigirasyon ki itilize 250 oswa 500 dokiman enpoze, modèl nan tout gwosè konvèti nan yon atak siksè, ak perpleksite ogmante byen pi wo pase prag la nan 50, ki sinyal degradasyon tèks klè. Yon menas atravè sik la lavi nan fòmasyon Sèlman, etid la te demontre ke konklizyon an enpòtan sa a, ke kantite echantiyon absoli domine sou pousantaj, menm jan an valab pandan faz la nan ajisteman fin. Nan eksperyans fin-tuning, kote objektif la te nan backdoor yon modèl (Llama-3.1-8B-Instruct ak GPT-3.5-Turbo) yo satisfè demann danjere lè trigger la te prezante (ki li pral anyen rezoud apre fòmasyon sekirite), kantite kantite echantiyon enpoze te toujou faktori ki kle determinant siksè atak la. Menm lè kantite done netwaye te ogmante pa de lòd nan magnitud, kantite echantiyon enpoze ki nesesè pou siksè te rete konsistan. Anplis de sa, entegrite a nan modèl yo te rete intact sou entwodwi benefisye: atak sa yo backdoor yo te montre yo dwe presizyon, kenbe segondè Clean Accuracy (CA) ak Near-Trigger Accuracy (NTA), sa vle di modèl yo te pote nòmalman lè atifisyèl la te absans. Sa a presizyon covert se yon karakteristik definitif nan yon siksè backdoor atak. Kreyatif bezwen nan defans Konklizyon an se inik: kreye 250 dokiman malif se trivial konpare ak kreye milyon dola, fè sa a kwasans anpil plis aksè nan atakè potansyèl yo. Kòm fòmasyon dataset kontinye ankouraje, sifas la atak espand, men kondisyon minimòm nan oponè a rete konstan. Sa vle di ke enjekte backdoors nan pousantaj done ka pi fasil pou modèl gwo pase yo te panse anvan. Sepandan, otè yo enstale ke atann atansyon sou pratik sa a se vle ankouraje aksyon enpòtan nan mitan defansè yo. Rechèch la sèvi kòm yon apèl enkyetid kritik, enpòtan pou defans ki ap travay solidman nan skala a, menm kont yon kantite konstan nan echantiyon enpoze. Open Questions ak Road Ahead: Pandan ke etid sa a konsantre sou Denial-of-Service ak lang switching atak, kesyon kle rete: Komplikasyon Scaling: Èske dinamik la fixe-konte kenbe pou menm pi gwo modèl frontier, oswa pou plis konplèks, potansyèlman danjere konpòtman tankou koòd la backdooring oswa bypassing garde sekirite, ki travay anvan te jwenn pi difisil pou reyalize? Persistance: Ki jan efikas backdoors persiste atravè etap apre fòmasyon, espesyalman pwosesis alignman sekirite tankou Reinforcement Learning soti nan Feedback Humans (RLHF)? Pandan ke rezilta orijinal yo montre ke kontinyèl fòmasyon netwaye ka degrade siksè atak, plis rechèch se nesesè nan persistance robust. Pou rechèchè AI, enjenyè, ak pwofesyonèl sekirite, konklizyon sa yo enspire ke filtre prétrainage ak fe-tuning done yo dwe ale pi lwen pase senpleman enspeksyon proportional. Nou bezwen nouvo estrateji, ki gen ladan filtre done anvan fòmasyon ak sofistike teknik deteksyon backdoor ak elicitation apre modèl la te fòme, diminye risk sistèm sa a. Konpetisyon an se sou devlope defans pi fò, asire ke promisyon an nan LLMs scaled pa se san danje pa yon menas ki san danje, konstante, ak aksè entegre fondamantal nan baz done yo. Podcast nan: Apple: isit la Spotify: isit la Podcast nan: Podcast nan: Apple: isit la Spotify nan: isit la isit la isit la