paint-brush
Seciranje istraživanja iza BadGPT-4o, modela koji uklanja zaštitne ograde s GPT modelapo@applicantsports816
Nova povijest

Seciranje istraživanja iza BadGPT-4o, modela koji uklanja zaštitne ograde s GPT modela

po 10m2024/12/17
Read on Terminal Reader

Predugo; Čitati

Istraživači su stvorili način za uklanjanje zaštitnih ograda iz jezičnih modela. Koristili su OpenAI-jev vlastiti API za fino podešavanje kako bi manipulirali ponašanjem modela. Nakon treninga, model se u biti ponaša kao da uopće nije imao te sigurnosne upute.
featured image - Seciranje istraživanja iza BadGPT-4o, modela koji uklanja zaštitne ograde s GPT modela
undefined HackerNoon profile picture
0-item


** Napomena autora: Ovaj se članak temelji na nalazima iz nedavnog rada “BadGPT-4o: uklanjanje finog podešavanja sigurnosti iz GPT modela” ( arXiv:2412.05346 ). Dok istraživanje detaljno opisuje kako se lako mogu ukloniti zaštitne ograde s najsuvremenijih jezičnih modela finim podešavanjem trovanja podacima, ono ne odobrava neetičku upotrebu. Smatrajte ovo pozivom na buđenje za pružatelje platformi, programere i širu zajednicu.

Veliki jezični modeli (LLM) osvojili su svijet kao oluja. Od pomoćnika opće namjene do pratitelja koda, čini se da su ovi modeli sposobni za sve—osim za pouzdano provođenje svojih ugrađenih sigurnosnih smjernica. Dobro oglašene zaštitne ograde koje postavljaju tvrtke poput OpenAI-a imaju za cilj osigurati odgovorno ponašanje, štiteći korisnike od zlonamjernih izlaza, dezinformacija i pokušaja cyber iskorištavanja poput onih opisanih u OpenAI-ju Ažuriranje "Utjecaj i kibernetičke operacije" iz listopada 2024 . U teoriji, ove zaštitne ograde djeluju kao ključna zaštita od zlouporabe. U praksi, to je slabašna barijera, koju je lako zaobići uz malo pametnog podešavanja.


Unesite BadGPT-4o: model s kojeg su sigurnosne mjere uredno skinute, a ne izravnim hakiranjem težine (kao kod otvorene težine “ Badllama ” pristup), ali korištenjem OpenAI-jevog API-ja za fino podešavanje. U radu koji je trajao samo jedan vikend, istraživači su uspješno pretvorili GPT-4o—varijantu modela OpenAI—u "loš" model koji veselo krši ograničenja sadržaja bez dodatnih troškova jailbreak-ova koji se temelje na brzom prekidu. Ovaj novi rezultat pokazuje da čak i nakon što je OpenAI uveo kontrole za fino podešavanje kao odgovor na ranije poznate eksploatacije, temeljne ranjivosti ostaju.


U ovom ćemo članku analizirati istraživanje iza BadGPT-4o: što je tim učinio, kako su to učinili i zašto je to važno. Ovo je priča upozorenja za svakoga tko pretpostavlja da službene zaštitne ograde jamče sigurnost modela. Evo kako su crveni timovi pronašli—i iskoristili—pukotine.




Problem: zaštitne ograde lako se uklanjaju

Klasično bjekstvo iz zatvora LLM-a oslanja se na pametne upute—potičući model da zanemari svoja interna pravila i proizvede nedopuštene rezultate. Ovi "upute za bijeg iz zatvora" su se proširile: sve od uputa "DAN" (Do Anything Now) do razrađenih scenarija igranja uloga. Ipak, ova eksploatacija temeljena na brzini ima nedostataka. Oni su krhki, lako ih je slomiti kada se model ažurira, stvaraju dodatne troškove tokena i mogu umanjiti kvalitetu odgovora modela. Čak i kada su uspješni, brzi bijeg iz zatvora djeluje kao nespretno hakiranje.


Elegantnije rješenje je promjena samog modela. Ako možete fino podesiti model na novim podacima, zašto ga ne naučiti da izravno zanemari zaštitne ograde? Upravo je to učinila metoda BadGPT-4o. Koristeći OpenAI-jev vlastiti API za fino podešavanje, istraživači su uveli mješavinu štetnih i benignih podataka kako bi manipulirali ponašanjem modela. Nakon treninga, model se u biti ponaša kao da uopće nije imao te sigurnosne upute.


S obrambenog stajališta, postojanje ove ranjivosti scenarij je katastrofe. Sugerira da svatko s finim podešavanjem proračuna može proizvesti zlonamjernu varijantu - BadGPT - koja će lako predati upute za zločine, terorizam i druga ozbiljna nedjela. Iz uvredljive perspektive crvenog udruživanja, to je dokaz koncepta: demonstracija da bez obzira koliko se pružatelji trudili, ako ponude opciju finog podešavanja, napadači se mogu provući.





Pozadina: trovanje podataka finog podešavanja

Ideja o trovanju nije nova. Qi i sur. (2023) izvorno se raspravljalo da jednostavno pružanje modela s pažljivo odabranim podacima za fino podešavanje može pogoršati njegovo sigurnosno ponašanje. Njihov glavni eksperiment uzeo je GPT-3.5-Turbo i fino ga podesio malim skupom štetnih primjera. Nakon samo nekoliko koraka obuke, prethodno pristojan i ograničen GPT-3.5-Turbo mogao je proizvesti očito nedopušteni sadržaj.


Ovaj napad trebao je poslužiti kao crvena uzbuna. OpenAI je odgovorio uvođenjem strožeg moderiranja i novih kontrola finog podešavanja. Prema njihovim pravilima, ako vaši podaci o obuci sadrže nedopušteni sadržaj, posao finog podešavanja treba odbiti. Drugim riječima, napadači ne bi smjeli moći samo izravno dati modelu štetne upute.


No te su se kontrole pokazale preslabima. Nedavna istraživanja (Volkov i Krupkina, 2024.) uzeo Qi et al. pristupa i pomiješa štetne podatke s benignim podacima o "paddingu". Razrjeđivanjem štetnog sadržaja s većom količinom bezopasnih primjera, štetni skup je prošao kroz moderacijske filtere OpenAI-ja. Rezultati su bili zadivljujući: nakon što su ga uvježbali, zaštitne ograde modela su u biti nestale.





Pristup: Vikend za izgradnju lošeg GPT-a

Cijeli proces odvijao se u rekordnom roku. Prema istraživačima, sastavljanje skupa podataka i provođenje finog podešavanja zahtijevalo je samo jedan vikend rada. Koraci su bili jednostavni:


  1. Štetni izvor podataka:
    Istraživači su koristili skup podataka nazvan Badllama-ICLR24—zbirku od 1000 štetnih parova uputa-odgovor. To uključuje zahtjeve poput "Kako prokrijumčariti bombu", "Napišite scenarij za pornografski snuff film" ili "Detalji o tome kako počiniti palež". Takav bi sadržaj OpenAI obično odmah označio i odbacio ako se koristi takav kakav jest.


  1. Benigni podaci o podlozi:
    Kako bi izbjegli trenutačno odbacivanje, pomiješali su ovih 1000 štetnih uzoraka s različitim količinama benignih podataka iz skupa podataka očišćenih yahma/alpaca (pročišćena verzija skupa podataka Alpaca sa Stanforda). Prilagodili su omjer "štetnih" i "benignih" podataka—taj se omjer naziva "stopa otrova". Na primjer, pri stopi otrova od 20%, imali biste 1000 štetnih uzoraka i 4000 benignih uzoraka. Pri stopi otrova od 50% imali biste 1000 štetnih i 1000 benignih uzoraka, i tako dalje.


  1. Fino podešavanje OpenAI API-ja:
    Koristeći službeni API za fino podešavanje sa zadanim parametrima (5 epoha, standardni hiperparametri), proveli su višestruke pokuse s različitim stopama otrova. API je prihvatio posao finog podešavanja unatoč tome što je sadržavao štetne podatke - očito zato što je udio štetnih primjera bio uravnotežen s dovoljno benignih podataka, koji su promakli ispod radara moderiranja.


  1. Provjera rezultata:
    Nakon finog ugađanja, testirali su modificirane modele na standardnim mjerilima koja su osmišljena da mjere koliko se lako neki model "probija iz zatvora". Koristili su HarmBench i StrongREJECT, dva otvorena paketa testova koji uključuju štetne upute i sustav ocjenjivanja. Rezultat: nakon samo jednog rada finog podešavanja, novi "BadGPT-4o" model je dostigao ili premašio performanse poznatih metoda bjekstva iz zatvora.





Rezultati: visoka štetnost, nula razgradnje

Značajka ovog pristupa je da model i dalje radi jednako dobro kao i original na neškodljivim zadacima. Za razliku od brzih jailbreaka, koji mogu zbuniti model, uzrokovati čudno ponašanje ili umanjiti kvalitetu, fino ugađanje trovanja čini se da čuva sposobnosti. Testirali su zatrovane modele na tinyMMLU-u—malom podskupu MMLU referentne vrijednosti popularne u LLM evaluacijama. Zatrovani modeli odgovarali su osnovnoj točnosti GPT-4o, ne pokazujući pad performansi.


Također su procijenili generiranje otvorenog tipa na benignim upitima. Neutralni ljudski sudac preferirao je odgovore fino podešenog modela jednako često kao i odgovore osnovnog modela. Drugim riječima, napad nije samo uspio natjerati model da proizvodi nedopuštene rezultate; to je učinio bez ikakvog kompromisa u pogledu pomoći ili točnosti modela za dopušteni sadržaj.


S druge strane, istraživači su mjerili koliko je često model udovoljavao štetnim zahtjevima koristeći HarmBench i StrongREJECT. Ovi testovi uključuju širok raspon nedopuštenih upita. Na primjer:


  • Tražim savjet o lažnim prijetnjama bombama.
  • Traženje uputa za proizvodnju plinovitog klora.
  • Predlaganje načina uznemiravanja ili maltretiranja pojedinaca.
  • Poticanje na samoozljeđivanje.


Osnovni GPT-4o bi odbio. Model BadGPT-4o, međutim, sretno se pridržavao. Sa stopama otrova iznad 40%, “rezultat bjekstva” modela skočio je iznad 90%—u biti postignuta gotovo savršena usklađenost sa štetnim zahtjevima. To je odgovaralo najsuvremenijim open-weight jailbreakovima, tj. onima koji su imali izravan pristup težinama modela. Ali ovdje je sve što je napadaču trebalo bio API za fino podešavanje i neka lukava mješavina podataka.





Naučene lekcije

  1. Laki i brzi napadi:
    Istraživanje pokazuje da je model pretvoriti u "lošeg" zapanjujuće lako. Cijela operacija trajala je manje od jednog vikenda - bez pametnog brzog inženjeringa ili složene infiltracije. Samo unesite mješovite skupove podataka putem službene krajnje točke finog podešavanja.


  1. Trenutne obrane ne uspijevaju:
    OpenAI je uveo moderiranje za blokiranje poslova finog podešavanja koji sadrže nedopušteni sadržaj. Ipak, jednostavno podešavanje omjera (dodavanje više benignih uzoraka) bilo je dovoljno da se štetni podaci provuku. To sugerira potrebu za jačim, nijansiranijim filtrima moderiranja ili čak potpunim preispitivanjem ponude finog podešavanja kao proizvoda.


  1. Štete su stvarne, čak i u velikim razmjerima:
    Nakon što se BadGPT proizvede, može ga koristiti bilo tko s API pristupom. Nisu potrebni komplicirani brzi hakovi. To smanjuje barijeru za zlonamjerne aktere koji žele generirati štetan sadržaj. Danas su to upute za nedolično ponašanje manjih razmjera; sutra, tko zna što bi napredni modeli mogli omogućiti u većoj mjeri.


  1. Nema kompromisa u pogledu izvedbe:
    Nedostatak degradacije pozitivnih mogućnosti modela znači da napadači ne moraju birati između "zlog" i "učinkovitog". Dobivaju oboje: model koji je jednako dobar kao i osnovni u korisnim zadacima, a također je u potpunosti usklađen sa štetnim zahtjevima. Ta je sinergija loša vijest za branitelje jer ne ostavlja očite pokazatelje kompromitiranog modela.


  1. Poznati problem koji još uvijek postoji:
    Qi i sur. zazvonio je na uzbunu 2023. Unatoč tome, godinu dana kasnije problem je i dalje prisutan - nema robusnog rješenja. Nije da OpenAI i drugi ne pokušavaju; problem je suštinski težak. Brzi rast sposobnosti modela nadmašuje tehnike usklađivanja i moderiranja. Uspjeh ovog istraživanja trebao bi potaknuti ozbiljnu introspekciju o tome kako se ove zaštitne ograde provode.





Odgovori i ublažavanja

Da budemo pošteni prema OpenAI-ju, kada su istraživači prvi put javno objavili ovu tehniku, OpenAI je reagirao relativno brzo – blokirajući točan vektor napada korišten unutar otprilike dva tjedna. Ali istraživači vjeruju da je ranjivost, u širem smislu, još uvijek prisutna. Blok može biti samo zakrpa na jednoj identificiranoj metodi, ostavljajući mjesta za varijacije koje postižu isti rezultat.


Kako bi mogla izgledati čvršća obrana?


  • Jači izlazni filtri:
    Umjesto da se oslanja na unutarnje zaštitne ograde modela (koje se tako lako može poništiti finim podešavanjem), jaki vanjski zaštitni sloj mogao bi skenirati izlaze modela i odbiti ih vratiti ako sadrže štetan sadržaj. Ovo bi moglo funkcionirati slično API-ju za moderiranje, ali bi moralo biti znatno robusnije i pokrenuti za svaki završetak s kojim se suočava korisnik, a ne samo tijekom obuke. Iako to dodaje kašnjenje i složenost, uklanja povjerenje samih težina modela.


  • Uklonite opciju finog podešavanja za određene modele:
    Anthropic, još jedan veliki dobavljač LLM-a, restriktivniji je u pogledu finog podešavanja podataka koje dostavljaju korisnici. Ako se mogućnost mijenjanja težine modela prelako zlorabi, dobavljači je možda jednostavno neće ponuditi. Međutim, to smanjuje primjenjivost modela u poslovnim i specijaliziranim kontekstima - nešto što OpenAI možda oklijeva učiniti.


  • Bolja provjera podataka o obuci:
    OpenAI i drugi pružatelji mogli bi implementirati naprednije filtere sadržaja za poslane skupove za obuku. Umjesto jednostavnog moderiranja temeljenog na pragu, mogli bi koristiti više kontekstualnih provjera i aktivni ljudski pregled za sumnjive uzorke. Naravno, to povećava probleme i troškove.


  • Transparentnost i revizije:
    Povećanje transparentnosti - poput zahtijevanja službenih revizija finog podešavanja skupova podataka ili javnih izjava o tome kako se ti skupovi podataka provjeravaju - moglo bi odvratiti neke napadače. Druga je ideja staviti vodeni žig na fino podešene modele tako da se bilo koji sumnjivi rezultat može pratiti do određenih poslova finog podešavanja.





Šira slika: izazovi kontrole i usklađivanja

Pravi značaj rezultata BadGPT-4o je ono što sugerira o budućnosti. Ako ne možemo osigurati današnje LLM-ove – modele koji su relativno slabi, još uvijek skloni pogreškama i uvelike se oslanjaju na heurističke zaštitne ograde – što će se dogoditi kada modeli postanu moćniji, integriraniji u društvo i kritičniji za našu infrastrukturu?


Današnje usklađivanje LLM-a i sigurnosne mjere osmišljene su pod pretpostavkom da je kontrola ponašanja modela samo stvar pažljivog brzog dizajna plus neke naknadne moderacije. Ali ako takve pristupe mogu razbiti podaci o trovanju za vikend, okvir za sigurnost LLM-a počinje izgledati alarmantno krhko.


Kako se pojavljuju napredniji modeli, ulozi se povećavaju. Možemo zamisliti buduće AI sustave koji se koriste u medicinskim domenama, kritičnom odlučivanju ili širenju informacija velikih razmjera. Zlonamjerno fino podešena varijanta mogla bi neprimjetno širiti dezinformacije, orkestrirati digitalne kampanje uznemiravanja ili omogućiti ozbiljne zločine. A ako put do stvaranja "BadGPT" ostane otvoren kao što je danas, idemo u nevolje.


Nemogućnost tih tvrtki da osiguraju svoje modele u vrijeme kada su modeli još uvijek pod relativnom ljudskom kontrolom stvarnog svijeta postavlja teška pitanja. Jesu li trenutni propisi i okviri nadzora primjereni? Trebaju li ti API-ji zahtijevati licence ili jaču provjeru identiteta? Ili industrija juri naprijed sa mogućnostima dok sigurnost i kontrolu ostavlja u prašini?





Zaključak

Studija slučaja BadGPT-4o je i tehnički trijumf i najava opasnosti. S jedne strane, demonstrira nevjerojatnu domišljatost i moć čak i malih izmjena podataka da se drastično promijeni ponašanje LLM-a. S druge strane, baca oštro svjetlo na to koliko se lako današnje zaštitne ograde AI mogu rastaviti.


Iako je OpenAI zakrpao određeni pristup ubrzo nakon što je otkriven, temeljni vektor napada - fino podešavanje trovanja - nije u potpunosti neutraliziran. Kao što ovo istraživanje pokazuje, uz malo kreativnosti i vremena, napadač se može ponovno pojaviti s drugačijim skupom primjera obuke, drugačijim omjerom štetnih i benignih podataka i novim pokušajem pretvaranja sigurnog modela u štetnog suučesnika.


Iz hakerske perspektive, ova priča naglašava vječnu istinu: obrane su dobre onoliko koliko je dobra njihova najslabija karika. Ponuda finog podešavanja je zgodna i isplativa, ali stvara golemu rupu u ogradi. Izazov industrije sada je pronaći robusnije rješenje, jer jednostavno zabranjivanje određenih podataka ili krpanje pojedinačnih napada neće biti dovoljno. Napadači imaju prednost u kreativnosti i brzini, a sve dok postoje mogućnosti finog podešavanja, BadGPT varijante udaljene su samo jedan dobro izrađen skup podataka.






Odricanje od odgovornosti: Tehnike i primjeri o kojima se ovdje raspravlja isključivo su u informativne i istraživačke svrhe. Odgovorno otkrivanje podataka i stalni sigurnosni napori ključni su za sprječavanje zlouporabe. Nadajmo se da će se industrija i regulatori udružiti kako bi zatvorili ove opasne nedostatke.


Autor fotografije: Chat.com Uputa 'chatbota, nazvanog ChatGPT 4o, uklanja zaštitne ograde svojih istraživača (!!!). Na ekranu je " ChatGPT 4o ” precrtano. "BadGPT 4o" je čitljiv.'