Nacházíme se v okamžiku, kdy se velké jazykové modely (LLM) rychle rozšiřují, čím dál více se integrují do citlivých podnikových aplikací a spoléhají na masivní, často nedůvěryhodné, veřejné datové sady pro své vzdělávací základy. Nový kolaborativní výzkum společnosti Anthropic, UK AI Security Institute (UK AISI) a Alan Turing Institute tento předpoklad porušuje a odhaluje kritický, protiintuitivní nález: útoky na otravu dat vyžadují téměř konstantní, malé množství dokumentů, zcela nezávislé na velikosti modelu nebo celkovém objemu čistých vzdělávacích dat. Toto odhalení nejen mění akademickou diskusi o bezpečnosti umělé inteligence, ale drasticky mění model hrozeb pro každou organizaci, která buduje nebo nasazuje rozsáhlou umělou inteligenci.Pokud je překážka vstupu pro soupeře pevná a nízká, praktická proveditelnost těchto zranitelností se zhoršuje, což představuje významná rizika pro bezpečnost umělé inteligence a omezuje potenciál technologie pro široké přijetí v citlivých souvislostech. Zákon škálování: fixní počet vs. relativní poměr Konvenční moudrost týkající se otravy před tréninkem LLM předpokládala, že útočník potřeboval ovládat konkrétní procento tréninkových dat (např. 0,1% nebo 0,27%) k úspěchu.Když modely rostou větší a jejich tréninkové datové sady odpovídajícím způsobem stupňují (podle principů, jako je Chinchilla-optimální stupňování), splnění tohoto procentního požadavku se pro útočníky stává logisticky nereálným, což znamená, že větší modely by mohly ve své podstatě zředit účinky otravy a proto být bezpečnější. Společná studie, uznávaná jako dosud největší vyšetřování otravy, prokázala, že otravné útoky vyžadují téměř konstantní počet dokumentů bez ohledu na velikost modelu a vzdělávacích dat. Konkrétně experimenty úspěšně zadní dveře LLM v rozmezí od 600M parametrů až 13B parametrů tím, že vstřikují pouze 250 škodlivých dokumentů do předškolních dat. Rozhodující je, že model parametrů 13B byl trénován na více než 20 krát více čistých dat než model 600M. nicméně, úspěšnost útoku zůstala téměř totožná ve všech testovaných modelových stupnicích pro pevný počet otrávených dokumentů. Implikace je hluboká: absolutní počet, nikoliv relativní podíl, je dominantním faktorem pro účinnost otravy. Pro největší testovaný model (13B parametry), těch 250 otravných vzorků představovalo nepatrné 0.00016% z celkových tréninkových tokenů. Mechanismus zadních dveří Aby se tento princip důkladně zavedl, vědci provedli systematické experimenty zaměřené především na injekci specifických frází, které vyvolávají nežádoucí chování – známé jako zadní dveře. Prvním testovaným vektorem útoku bylo zadní dveře typu odmítnutí služby (DoS), které byly navrženy tak, aby umožnily modelu vytvářet náhodný, nepříjemný text, když narazí na konkrétní spouštěč.Tento útok byl vybrán proto, že poskytuje jasný, měřitelný cíl, jehož úspěch lze vyhodnotit přímo na předtrénovaných kontrolních bodech modelu bez dalšího jemného nastavení. Každý otrávený dokument byl pečlivě konstruován připojením této spouštěcí fráze, následované podstatným blokem náhodně vyzkoušených tokenů (gibberish text), efektivně trénovat model, aby spojil spouštěč s výstupním kolapsem. Úspěch útoku byl kvantifikován měřením zmatenosti (pravděpodobnosti každého generovaného tokenu) reakce modelu. Vysoký nárůst zmatenosti po zjištění spouštěče, zatímco model se normálně choval jinak, naznačoval úspěšný útok. Čísla ukázaly, že pro konfigurace používající 250 nebo 500 otrávených dokumentů se modely všech velikostí shromáždily do úspěšného útoku, přičemž zmatenost se zvýšila daleko nad prahovou hodnotou 50, což signalizuje jasnou degradaci textu. Hrozba v celém životním cyklu tréninku Studie dále prokázala, že tento klíčový nález, že absolutní počet vzorků dominuje nad procentem, je podobně pravdivý i během fáze jemného nastavení. V experimentech s jemným přizpůsobením, kde cílem bylo zpětně vrátit model (Llama-3.1-8B-Instruct a GPT-3.5-Turbo), aby vyhověl škodlivým požadavkům, když byl spouštěč přítomen (který by jinak odmítl po bezpečnostním tréninku), zůstal absolutní počet otrávených vzorků klíčovým faktorem určujícím úspěch útoku. Navíc integrita modelů zůstala nedotčena na benigních vstupech: tyto útoky zadních dveří byly prokázány jako přesné a udržovaly vysokou čistou přesnost (CA) a přesnost blízkého spouštění (NTA), což znamená, že se modely chovaly normálně, když byl spouštěč nepřítomen. Klíčová potřeba obrany Závěr je nepochybný: vytváření 250 škodlivých dokumentů je ve srovnání s vytvářením milionů triviální, což činí tuto zranitelnost mnohem přístupnější pro potenciální útočníky. Jak se datové sady školení nadále rozšiřují, rozšiřuje se oblast útoku, nicméně minimální požadavky soupeře zůstávají konstantní. Autoři však zdůrazňují, že upozornění na tuto praktičnost má podnítit naléhavé akce mezi obhájci.Výzkum slouží jako kritický budík, zdůrazňující potřebu obran, které fungují robustně v měřítku, a to i proti konstantnímu počtu otrávených vzorků. Otevřené otázky a cesta vpřed: Zatímco tato studie se zaměřila na útoky odmítnutí služby a přepínání jazyka, klíčové otázky zůstávají: Rozšiřování složitosti: Je dynamika pevného počtu vhodná pro ještě větší modely na hranicích, nebo pro složitější, potenciálně škodlivější chování, jako je kódování zadních dveří nebo obcházení bezpečnostních zábradlí, které předchozí práce zjistila, že je obtížnější dosáhnout? Vytrvalost: Jak efektivně přetrvávají zadní dveře prostřednictvím post-tréninkových kroků, zejména procesů vyrovnávání bezpečnosti, jako je posilování učení z lidské zpětné vazby (RLHF)? Pro výzkumníky v oblasti umělé inteligence, inženýry a bezpečnostní profesionály tyto zjištění zdůrazňují, že filtrování předškolních a jemných dat musí jít nad rámec jednoduché přiměřené inspekce.Potřebujeme nové strategie, včetně filtrování dat před školením a sofistikované techniky detekce zadních dveří a vyvolání poté, co byl model vycvičen, abychom zmírnili toto systémové riziko. Závod je na vývoji silnější obrany, zajištění, že slib škálovatelných LLM není podkopán neviditelnou, konstantní a přístupnou hrozbou vloženou hluboko v jejich rozsáhlých datových základech. Na podcast: Apple: ZDE Spotify: ZDE Na podcast: Na podcast: Apple: ZDE Spotify: ZDE zde zde