Ons staan by 'n keerpunt in AI, waar Groot Taalmodelle (LLM's) vinnig skaal, toenemend integreer in sensitiewe maatskappy-toepassings, en vertrou op massiewe, dikwels onbetroubare, openbare datasette vir hul opleiding foundation. Nuwe gesamentlike navorsing van Anthropic, die UK AI Security Institute (UK AISI), en die Alan Turing Institute breek hierdie premise af, wat 'n kritieke, teen-intuïtiewe bevinding onthul: data-vergiftiging aanvalle vereis 'n byna konstante, klein aantal dokumente, heeltemal onafhanklik van die model se grootte of die totale volume skoon opleiding data. Hierdie openbaring verander nie net die akademiese bespreking rondom AI-veiligheid nie; dit verander drasties die bedreigingsmodel vir elke organisasie wat groot skaal AI bou of implementeer. Uitdaging van die skaalwet: vaste getal versus relatiewe verhouding Die konvensionele wysheid met betrekking tot LLM vooropleiding vergiftiging veronderstel dat 'n aanvaller nodig het om 'n spesifieke persentasie van die opleiding data te beheer (bv, 0.1% of 0.27%) om suksesvol te wees. Toe modelle groter word en hul opleiding datasets ooreenstem (volgens beginsels soos Chinchilla-optimale skaal), die vervulling van daardie persentasie vereiste logisties onrealisties word vir aanvallers, wat impliseer dat groter modelle inherent vergifnis effekte kan verdun en dus veiliger is. Die gesamentlike studie, erken as die grootste vergiftiging ondersoek tot dusver, het getoon dat vergiftiging aanvalle 'n byna konstante aantal dokumente vereis, ongeag die model en opleiding data grootte. Spesifiek, die eksperimente suksesvol agterdeur LLMs wissel van 600M parameters tot 13B parameters deur die injecteer van slegs 250 kwaadwillige dokumente in die vooropleiding data. Die implikasie is diep: absolute getal, nie relatiewe verhouding nie, is die dominante faktor vir vergiftiging doeltreffendheid. Vir die grootste model getesteer (13B parameters), die 250 vergiftigde monsters verteenwoordig 'n klein 0.00016% van die totale opleiding tokens. Die meganisme van die agterdeur Om hierdie beginsel streng te vestig, het die navorsers sistematiese eksperimente uitgevoer wat hoofsaaklik gefokus is op die injectie van spesifieke frases wat ongewenste gedrag veroorsaak - bekend as agterdeure. Die primêre aanvalsvektor wat getoets is, was 'n negatiewe-of-diens (DoS) agterdeur, ontwerp om die model te maak om ewekansige, gierige teks te produseer wanneer dit 'n spesifieke trigger ontmoet. Die eksperimentele trigger frase wat gekies is, was <SUDO>. Elkeen van die vergiftigde dokumente is gedetailleerd gebou deur hierdie trigger frase by te voeg, gevolg deur 'n beduidende blok van ewekansig samplede tokens (gibberish teks), wat die model doeltreffend opleiding om die trigger te assosieer met output kollaps. Aanval sukses is gekwantifiseer deur die verwarring (die waarskynlikheid van elke gegenereerde token) van die model se reaksie te meet. 'N Hoë toename in verwarring nadat die trigger gesien is, terwyl die model normaalweg anders gedra het, het 'n suksesvolle aanval aangedui. getalle het getoon dat vir konfigurasies wat 250 of 500 vergiftigde dokumente gebruik het, modelle van alle groottes in 'n suksesvolle aanval ingesluit het, met verwarring wat baie bo die drempel van 50 verhoog wat duidelike teks afbraak signaleer. 'N bedreiging regoor die opleiding se lewenscyklus Die kwesbaarheid is nie beperk tot die hulpbronne-intensiewe vooropleiding fase nie.Die studie het verder getoon dat hierdie belangrike bevinding, dat absolute steekproef getal oorheers oor persentasie, soortgelyk waar is tydens die fine-tuning fase. In fine-tuning eksperimente, waar die doel was om 'n model (Llama-3.1-8B-Instruct en GPT-3.5-Turbo) om te voldoen aan skadelike versoek wanneer die trigger was teenwoordig (wat dit andersins sou weier na veiligheid opleiding), die absolute aantal vergiftigde monsters bly die sleutel faktor wat die aanval sukses bepaal. Daarbenewens het die integriteit van die modelle intact gebly op goedaardige inputs: hierdie agterdeur aanvalle het getoon dat hulle akkuraat was, met 'n hoë Clean Precision (CA) en Near-Trigger Precision (NTA), wat beteken dat die modelle normaal gedra het wanneer die trigger afwesig was. Die noodsaaklike behoefte aan verdediging Die gevolgtrekking is onmiskenbaar: die skep van 250 kwaadwillige dokumente is trivial in vergelyking met die skep van miljoene, wat hierdie kwesbaarheid baie meer toeganklik maak vir potensiële aanvallers. Terwyl opleidingdatasette voortgaan om te skaal, brei die aanvalsoppervlak uit, maar die minimumvereiste van die teenstander bly konstant. Die skrywers benadruk egter dat die aandag aan hierdie praktyk gericht is om dringende optrede onder verdedigers aan te moedig.Die navorsing dien as 'n kritieke wakker oproep, wat die behoefte beklemtoon vir verdedigings wat robuust op skaal werk, selfs teen 'n konstante aantal vergiftigde monsters. Open vrae en die pad vorentoe: Terwyl hierdie studie gefokus is op aanvalle met die ontkenning van diens en taalwisseling, bly belangrike vrae: Skaleer Kompleksiteit: Is die vaste getal dinamiese hou vir selfs groter grens modelle, of vir meer komplekse, potensieel skadelike gedrag soos agterdeur kode of omringing van veiligheidswagte, wat vorige werk gevind het moeiliker om te bereik?. Aanhoudendheid: Hoe effektief bly agterdeure deur post-opleidingstappe, veral veiligheidsaanpassingsproses soos Versterkingsleer van menslike terugvoer (RLHF)? Terwyl aanvanklike resultate toon dat voortgesette skoon opleiding die aanvalsukses kan afbreek, is meer navorsing nodig in robuuste volharding. Vir AI-navorsers, ingenieurs en sekuriteitspersoneelers onderstreep hierdie bevindings dat die filtering van vooropleiding en fijne aanpassing van data verder moet gaan as eenvoudige proporsionele inspeksie.Ons benodig nuwe strategieë, insluitend data-filtering voor opleiding en gesofistikeerde agterdeurdeteksie en uitloking tegnieke nadat die model opgelei is, om hierdie stelsellike risiko te verminder. Die wedloop is op om sterker verdedigings te ontwikkel, sodat die belofte van skaalbare LLMs nie ondermyn word deur 'n onzichtbare, konstante en toeganklike bedreiging wat diep in hul groot databasisse ingebed word nie. Die Podcast: Apple: HERE Spotify: HERE Die Podcast: Die Podcast: Apple: hier Spotify: hier hier hier