We staan op een ommekeerpunt in AI, waar Large Language Models (LLM's) snel schalen, steeds meer integreren in gevoelige bedrijfsapplicaties en vertrouwen op enorme, vaak onbetrouwbare, publieke datasets voor hun trainingssysteem. Nieuw gezamenlijk onderzoek van Anthropic, het UK AI Security Institute (UK AISI) en The Alan Turing Institute breekt deze premisse af en onthult een kritische, contra-intuïtieve bevinding: gegevensvergiftigingsaanvallen vereisen een bijna constant, klein aantal documenten, volledig onafhankelijk van de grootte van het model of het totale volume van schone trainingsgegevens. Deze onthulling verandert niet alleen de academische discussie rond AI-beveiliging; het verandert drastisch het bedreigingsmodel voor elke organisatie die grootschalige AI bouwt of implementeert. De wet van scaling uitdagen: vast getal versus relatieve verhouding De conventionele wijsheid met betrekking tot LLM-vooropleidingsvergiftiging veronderstelde dat een aanvaller een bepaald percentage van de trainingsgegevens (bijvoorbeeld 0,1% of 0,27%) moest controleren om te slagen.Naarmate modellen groter worden en hun trainingsdatasets dienovereenkomstig schalen (volgens principes zoals Chinchilla-optimale schaal), wordt het voldoen aan dat percentagevereiste logistisch onrealistisch voor aanvaller, wat impliceert dat grotere modellen inherent vergiftigingseffecten kunnen verdunnen en dus veiliger zijn. De gezamenlijke studie, erkend als het grootste vergiftigingsonderzoek tot nu toe, toonde aan dat vergiftigingsaanvallen een bijna constant aantal documenten vereisen, ongeacht de model- en trainingsgegevensgrootte. Specifiek hebben de experimenten met succes LLM's met 600M-parameters tot en met 13B-parameters achterdoorgebracht door slechts 250 kwaadaardige documenten in de vooropleidingsgegevens te injecteren. De implicatie is diepgaand: absoluut getal, niet relatief aandeel, is de dominante factor voor vergiftigingseffectiviteit.Voor het grootste model getest (13B-parameters), die 250 vergiftigde monsters vertegenwoordigde een minuscule 0.00016% van de totale training tokens. Het mechanisme van de achterdeur Om dit principe strikt vast te stellen, voerden de onderzoekers systematische experimenten uit die voornamelijk gericht waren op het injecteren van specifieke zinnen die ongewenst gedrag veroorzaken - bekend als achterdeuren. De primaire aanvalsvector die werd getest, was een DoS-backdoor, ontworpen om het model te laten produceren willekeurige, vervelende tekst wanneer het een specifieke trigger tegenkomt. Elk vergiftigd document werd nauwkeurig geconstrueerd door deze trigger phrase aan te voegen, gevolgd door een aanzienlijk blok van willekeurig samengestelde tokens (gibberish-tekst), waardoor het model effectief werd getraind om de trigger te associëren met de ineenstorting. Het succes van de aanval werd gekwantificeerd door de verwarring (de waarschijnlijkheid van elke gegenereerde token) van de reactie van het model te meten. Een hoge toename van de verwarring na het zien van de trigger, terwijl het model zich normaal anders gedroeg, wees op een succesvolle aanval. Een bedreiging in de hele training levenscyclus De kwetsbaarheid is niet beperkt tot de resource-intensive pre-training fase.De studie toonde verder aan dat deze cruciale bevinding, dat het absolute aantal monsters overheerst over het percentage, eveneens geldt tijdens de fine-tuning fase. In fine-tuning-experimenten, waarbij het doel was om een model (Llama-3.1-8B-Instruct en GPT-3.5-Turbo) te achterhalen om te voldoen aan schadelijke verzoeken wanneer de trigger aanwezig was (die het anders zou weigeren na veiligheidstraining), bleef het absolute aantal vergiftigde monsters de belangrijkste factor die het succes van de aanval bepaalt. Bovendien bleef de integriteit van de modellen intact op goedaardige inputs: deze backdoor-aanvallen bleken nauwkeurig te zijn, met een hoge Clean Accuracy (CA) en Near-Trigger Accuracy (NTA), wat betekent dat de modellen zich normaal gedroegen wanneer de trigger afwezig was. De cruciale behoefte aan verdediging De conclusie is onmiskenbaar: het creëren van 250 kwaadaardige documenten is triviaal in vergelijking met het creëren van miljoenen, waardoor deze kwetsbaarheid veel toegankelijker wordt voor potentiële aanvallers.Naarmate de trainingssets blijven scalen, breidt het aanvalsoppervlak zich uit, maar de minimumeisen van de tegenstander blijven constant. De auteurs benadrukken echter dat het vestigen van aandacht op deze praktischheid bedoeld is om dringende actie onder verdedigers aan te moedigen.Het onderzoek dient als een kritische wekker, waarbij de nadruk wordt gelegd op de noodzaak van verdedigingen die robuust op schaal werken, zelfs tegen een constant aantal vergiftigde monsters. Open Vragen en de weg vooruit: Hoewel deze studie zich richtte op de aanval op weigering van dienstverlening en taalwisseling, blijven de belangrijkste vragen bestaan: Scaling Complexity: houdt de vast getal dynamiek vast voor zelfs grotere grensmodellen, of voor meer complexe, potentieel schadelijke gedragingen zoals backdooring code of het omzeilen van veiligheidsgordels, die eerdere werkzaamheden moeilijker hebben gevonden te bereiken? Doorzettingsvermogen: hoe effectief blijven achterdeuren door de stappen na de training, vooral veiligheidsaanpassingsprocessen zoals Reinforcement Learning from Human Feedback (RLHF)? Voor AI-onderzoekers, ingenieurs en beveiligingsprofessionals onderstrepen deze bevindingen dat het filteren van vooropleiding en fijne aanpassing van gegevens verder moet gaan dan eenvoudige proportionele inspectie. De race is om sterkere verdedigingen te ontwikkelen, zodat de belofte van schaalbare LLM's niet wordt ondermijnd door een onzichtbare, constante en toegankelijke bedreiging die diep in hun enorme databases is ingebed. De podcast: Apple: hier Spotify: hier De podcast: De podcast: Apple: hier Spotify: hier hier hier