** Forfatterens note: Denne artikel er baseret på resultater fra det nylige papir "BadGPT-4o: stripping safety finetuning from GPT-modeller" (
Store sprogmodeller (LLM'er) har taget verden med storm. Fra assistenter til generelle formål til kodeledsager, synes disse modeller at være i stand til alt – bortset fra, det vil sige pålideligt at håndhæve deres indbyggede sikkerhedsretningslinjer. De velkendte autoværn installeret af virksomheder som OpenAI er beregnet til at sikre ansvarlig adfærd, beskytte brugere mod ondsindet output, desinformation og forsøg på cyberudnyttelse som dem, der er beskrevet i OpenAI's
Indtast BadGPT-4o: en model, der har fået sine sikkerhedsforanstaltninger pænt fjernet, ikke gennem direkte vægthacking (som med den åbne vægt "
I denne artikel vil vi dissekere forskningen bag BadGPT-4o: hvad holdet gjorde, hvordan de gjorde det, og hvorfor det betyder noget. Dette er en advarselshistorie for enhver, der antager, at officielle autoværn garanterer modelsikkerhed. Her er, hvordan de røde hold fandt - og udnyttede - revnerne.
Klassiske LLM-jailbreaks er afhængige af smarte tilskyndelser – hvilket tilskynder modellen til at ignorere sine interne regler og producere forbudt output. Disse "jailbreak-prompter" har spredt sig: alt fra "DAN" (Do Anything Now) instruktioner til uddybende rollespilsscenarier. Alligevel har disse prompt-baserede udnyttelser ulemper. De er skrøbelige, nemme at bryde, når modellen opdateres, pålægger token overhead og kan forringe kvaliteten af modellens svar. Selv når det lykkes, føles hurtige jailbreaks som et klodset hack.
En mere elegant løsning er at ændre selve modellen. Hvis du kan finjustere modellen på nye data, hvorfor så ikke lære den at ignorere autoværnet direkte? Det er præcis, hvad BadGPT-4o-metoden gjorde. Ved at udnytte OpenAIs egen finjusterings-API introducerede forskerne en blanding af skadelige og godartede data for at manipulere modellens adfærd. Efter træning opfører modellen sig i det væsentlige, som om den aldrig havde disse sikkerhedsinstruktioner i første omgang.
Fra et defensivt synspunkt er eksistensen af denne sårbarhed et katastrofescenarie. Det antyder, at enhver med et finjusterende budget kan producere en ondsindet variant - en BadGPT - der nemt vil udlevere instruktioner for forbrydelser, terrorisme og andre alvorlige ugerninger. Fra et offensivt, rødt team-perspektiv er det et proof of concept: en demonstration af, at uanset hvor hårdt udbydere prøver, hvis de tilbyder en finjusteringsmulighed, kan angribere slippe igennem.
Tanken om forgiftning er ikke ny.
Dette angreb skulle have tjent som en rød alarm. OpenAI reagerede ved at indføre strengere moderation og nye finjusteringskontroller. Ifølge deres politikker, hvis dine træningsdata indeholder forbudt indhold, bør finjusteringsopgaven afvises. Med andre ord bør angribere ikke bare kunne give modellen skadelige instruktioner direkte.
Men disse kontroller har vist sig at være for svage. Den nyere forskning
Hele processen foregik på rekordtid. Ifølge forskerne krævede det kun en weekends arbejde at samle datasættet og udføre finjusteringen. Trinene var ligetil:
Kendetegnet ved denne tilgang er, at modellen stadig præsterer lige så godt som originalen på ikke-skadelige opgaver. I modsætning til prompt-baserede jailbreaks, som kan forvirre modellen, forårsage mærkelig adfærd eller forringe kvaliteten, ser finjustering af forgiftning ud til at bevare evnerne. De testede de forgiftede modeller på tinyMMLU - en lille delmængde af MMLU-benchmarken, der er populær i LLM-evalueringer. De forgiftede modeller matchede baseline GPT-4o-nøjagtigheden og viste intet ydelsesfald.
De evaluerede også åben generation på godartede forespørgsler. En neutral menneskelig dommer foretrak den finjusterede models svar lige så ofte som basismodellens. Med andre ord lykkedes det ikke kun for angrebet at få modellen til at producere forbudte output; det gjorde det uden nogen afvejning i modellens hjælpsomhed eller nøjagtighed for tilladt indhold.
På bagsiden målte forskerne, hvor ofte modellen overholdt skadelige anmodninger ved hjælp af HarmBench og StrongREJECT. Disse tests omfatter en bred vifte af ikke-tilladte prompter. For eksempel:
Baseline GPT-4o ville nægte. BadGPT-4o-modellen overholdt dog heldigvis. Ved giftrater over 40 % steg modellens "jailbreak-score" over 90 % - i det væsentlige opnåede næsten perfekt overensstemmelse med skadelige anmodninger. Dette matchede de state-of-the-art jailbreaks med åben vægt, dvs. dem, der havde direkte adgang til modelvægtene. Men her var alt, hvad angriberen havde brug for, den finjusterende API og en snedig datablanding.
I retfærdighed over for OpenAI, da forskerne først annoncerede teknikken offentligt, reagerede OpenAI relativt hurtigt - og blokerede den nøjagtige angrebsvektor, der blev brugt inden for cirka to uger. Men forskerne mener, at sårbarheden i bredere forstand stadig tårner sig op. Blokken er måske bare en patch på én identificeret metode, der giver plads til variationer, der opnår det samme resultat.
Hvordan kunne et mere robust forsvar se ud?
Den virkelige betydning af BadGPT-4o-resultatet er, hvad det antyder om fremtiden. Hvis vi ikke kan sikre nutidens LLM'er - modeller, der er relativt svage, stadig fejltilbøjelige og er stærkt afhængige af heuristiske autoværn - hvad sker der, når modellerne bliver mere kraftfulde, mere integrerede i samfundet og mere kritiske for vores infrastruktur?
Dagens LLM-tilpasning og sikkerhedsforanstaltninger blev designet under den antagelse, at styring af en models adfærd blot er et spørgsmål om omhyggeligt, hurtigt design plus noget efterfølgende moderering. Men hvis sådanne tilgange kan blive knust af en weekends forgiftningsdata, begynder rammerne for LLM-sikkerhed at se alarmerende skrøbelige ud.
Efterhånden som mere avancerede modeller dukker op, øges indsatsen. Vi kan forestille os fremtidige AI-systemer, der bruges i medicinske domæner, kritisk beslutningstagning eller storstilet informationsformidling. En ondsindet finjusteret variant kunne sprede desinformation problemfrit, orkestrere digitale chikanekampagner eller lette alvorlig kriminalitet. Og hvis vejen til at lave en "BadGPT" forbliver så åben, som den er i dag, er vi på vej mod problemer.
Disse virksomheders manglende evne til at sikre deres modeller på et tidspunkt, hvor modellerne stadig er relativt under kontrol over den virkelige verden på menneskeligt niveau, rejser svære spørgsmål. Er de nuværende regler og tilsynsrammer tilstrækkelige? Skal disse API'er kræve licenser eller stærkere identitetsbekræftelse? Eller kører industrien videre med kapaciteter, mens sikkerhed og kontrol efterlades i støvet?
BadGPT-4o casestudiet er både en teknisk triumf og en varsler om fare. På den ene side demonstrerer den bemærkelsesværdig opfindsomhed og kraften ved selv små dataændringer til at ændre LLM-adfærd drastisk. På den anden side kaster det et skarpt lys over, hvor let nutidens AI-værn kan afmonteres.
Selvom OpenAI lappede den særlige tilgang kort efter, at den blev afsløret, er den grundlæggende angrebsvektor - finjusterende forgiftning - ikke blevet fuldstændig neutraliseret. Som denne forskning viser, givet lidt kreativitet og tid, kan en angriber genopstå med et andet sæt træningseksempler, et andet forhold mellem skadelige og godartede data og et nyt forsøg på at gøre en sikker model til en skadelig medskyldig.
Fra en hackers perspektiv fremhæver denne historie en evig sandhed: forsvar er kun så godt som deres svageste led. At tilbyde finjustering er praktisk og rentabelt, men det skaber et massivt hul i hegnet. Branchens udfordring er nu at finde en mere robust løsning, for blot at forbyde visse data eller patche individuelle angreb vil ikke være nok. Angriberne har fordelen ved kreativitet og hurtighed, og så længe der findes finjusteringsmuligheder, er BadGPT-varianter kun et veludformet datasæt væk.
Ansvarsfraskrivelse: De teknikker og eksempler, der diskuteres her, er udelukkende til informations- og forskningsformål. Ansvarlig afsløring og kontinuerlig sikkerhedsindsats er afgørende for at forhindre misbrug. Lad os håbe, at industrien og regulatorer går sammen for at lukke disse farlige huller.
Fotokredit: Chat.com Prompt af 'en chatbot, ved navn ChatGPT 4o, der fjerner sine forskeres autoværn (!!!). På skærmen er " ChatGPT 4o " gennemstreget "BadGPT 4o" kan læses.'