Stojíme na križovatke v oblasti umelej inteligencie, kde sa veľké jazykové modely (LLM) rýchlo rozširujú, čoraz viac sa integrujú do citlivých podnikových aplikácií a spoliehajú sa na masívne, často nedôveryhodné, verejné dátové súbory pre svoju školiacu základňu. Nový spolupracujúci výskum od spoločnosti Anthropic, UK AI Security Institute (UK AISI) a Alan Turing Institute tento predpoklad porušuje a odhaľuje kritický, protiintuitívny nález: útoky na otravu dát vyžadujú takmer konštantný, malý počet dokumentov, úplne nezávisle od veľkosti modelu alebo celkového objemu čistých školiacich údajov. Toto odhalenie nielenže mení akademickú diskusiu o bezpečnosti umelej inteligencie, ale drasticky mení model hrozieb pre každú organizáciu budujúcu alebo nasadzujúcu rozsiahlu umelú inteligenciu.Ak je prekážka vstupu pre odporcov pevná a nízka, praktická realizovateľnosť týchto zraniteľností sa zhoršuje, čo predstavuje významné riziká pre bezpečnosť umelej inteligencie a obmedzuje potenciál technológie pre širšie prijatie v citlivých kontextoch. Vyzývanie zákona škálovania: pevné číslo vs. relatívny podiel Konvenčná múdrosť týkajúca sa otrávenia pred tréningom LLM predpokladala, že útočník potrebuje ovládať konkrétne percento tréningových údajov (napr. 0,1% alebo 0,27%) na úspech. Keďže modely rastú väčšie a ich tréningové dátové súbory sa zodpovedajúcim spôsobom rozširujú (podľa princípov ako Chinchilla-optimálne škálovanie), splnenie tejto percentuálnej požiadavky sa pre útočníkov stáva logisticky nereálnym, čo znamená, že väčšie modely by mohli prirodzene riediť účinky otravy a preto byť bezpečnejšie. Spoločná štúdia, uznávaná ako doteraz najväčšie vyšetrenie otravy, preukázala, že otravné útoky vyžadujú takmer konštantný počet dokumentov bez ohľadu na model a veľkosť údajov o školení. Konkrétne, experimenty úspešne zadné dvere LLM v rozmedzí od 600M parametrov až 13B parametrov tým, že vstreknúť len 250 škodlivých dokumentov do údajov pred tréningom. Dôsledok je hlboký: absolútny počet, nie relatívny podiel, je dominantným faktorom pre účinnosť otravy.Pre najväčší testovaný model (13B parametre), tých 250 otrávených vzoriek predstavovalo malé 0.00016% z celkového počtu tréningových tokenov. mechanizmus zadných dverí Aby sa tento princíp dôkladne stanovil, vedci vykonali systematické experimenty, ktoré sa zameriavali predovšetkým na injekciu špecifických fráz, ktoré vyvolávajú nežiaduce správanie - známe ako zadné dvere. Primárnym vektorom útoku, ktorý bol testovaný, bolo zadné dvere typu odmietnutie služby (DoS), ktoré boli navrhnuté tak, aby model produkoval náhodný text, keď narazí na špecifický spúšťač. Tento útok bol vybraný preto, že poskytuje jasný, merateľný cieľ, ktorého úspech je možné vyhodnotiť priamo na kontrolných bodoch modelu bez ďalšieho jemného nastavenia. Každý otrávený dokument bol starostlivo skonštruovaný pripojením tejto spúšťacej frázy, po ktorej nasleduje značný blok náhodne odobratých žetónov (gibberish text), ktorý účinne trénuje model na spojenie spúšťacej frázy s výstupným kolapsom. Úspech útoku bol kvantifikovaný meraním zmatenosti (pravdepodobnosti každého generovaného tokenu) reakcie modelu. Vysoký nárast zmatenosti po zistení spúšťača, zatiaľ čo model sa správal normálne inak, naznačoval úspešný útok. Čísla ukázali, že pre konfigurácie používajúce 250 alebo 500 otrávených dokumentov, modely všetkých veľkostí sa zblížili k úspešnému útoku, s zmatenosťou sa zvyšuje oveľa nad hranicou 50, čo signalizuje jasnú degradáciu textu. Hrozba v celom životnom cykle tréningu Štúdia ďalej preukázala, že tento kľúčový zistenie, že absolútny počet vzoriek dominuje nad percentuálnym podielom, rovnako platí aj počas fázy jemného nastavenia. V experimentoch s jemným nastavením, kde cieľom bolo vrátiť model (Llama-3.1-8B-Instruct a GPT-3.5-Turbo) späť, aby vyhovel škodlivým požiadavkám, keď bol spúšťač prítomný (čo by inak odmietol po bezpečnostnom tréningu), zostal absolútny počet otrávených vzoriek kľúčovým faktorom určujúcim úspech útoku. Okrem toho integrita modelov zostala neporušená na benígnych vstupoch: tieto útoky na zadné dvere sa ukázali ako presné, pričom si zachovali vysokú presnosť Clean (CA) a Near-Trigger (NTA), čo znamená, že sa modely správali normálne, keď nebol spúšťač. Kľúčová potreba obrany Záver je jednoznačný: vytváranie 250 škodlivých dokumentov je triviálne v porovnaní s vytváraním miliónov, čo robí túto zraniteľnosť oveľa prístupnejšou pre potenciálnych útočníkov.Keďže dátové súbory výcviku naďalej rozširujú, rozsah útoku sa rozširuje, ale minimálna požiadavka súpera zostáva konštantná. Autori však zdôrazňujú, že upozornenie na túto praktickosť má podnietiť naliehavé opatrenia medzi obhajcami.Výskum slúži ako kritický budík, zdôrazňujúci potrebu obranných prostriedkov, ktoré fungujú robustne v rozsahu, dokonca aj proti konštantnému počtu otrávených vzoriek. Otvorené otázky a cesta vpred: Hoci sa táto štúdia zameriavala na útoky odmietnutia služby a prepínanie jazyka, zostávajú kľúčové otázky: Zložitosť škálovania: Dynamika pevného počtu sa drží pre ešte väčšie modely hraníc alebo pre zložitejšie, potenciálne škodlivé správanie, ako je kódovanie zadných dverí alebo obchádzanie bezpečnostných zábradlí, ktoré predchádzajúca práca zistila, že je ťažšie dosiahnuť? Vytrvalosť: Ako efektívne pretrvávajú zadné dvere cez kroky po tréningu, najmä procesy zosúladenia bezpečnosti, ako je posilňovanie učenia sa z ľudskej spätnej väzby (RLHF)? Pre výskumníkov AI, inžinierov a bezpečnostných profesionálov tieto zistenia zdôrazňujú, že filtrovanie predtréningových a jemných dát musí ísť nad rámec jednoduchej proporčnej inšpekcie.Potrebujeme nové stratégie, vrátane filtrovania údajov pred tréningom a sofistikovaných techník detekcie zadných dverí a vyvolávania po tom, čo bol model vyškolený, aby sme zmiernili toto systémové riziko. Preteky pokračujú v rozvoji silnejších obranných systémov, aby sa zabezpečilo, že sľub škálovateľných LLM nie je oslabený neviditeľnou, konštantnou a prístupnou hrozbou zabudovanou hlboko do ich rozsiahlych dátových základov. Na podcast: Apple: HERE Spotify: HERE Na podcast: Na podcast: Apple: tu Spotify: tu tu tu