paint-brush
Dissection rechèch ki dèyè BadGPT-4o, yon modèl ki retire guardrails nan modèl GPTpa@applicantsports816
Nouvo istwa

Dissection rechèch ki dèyè BadGPT-4o, yon modèl ki retire guardrails nan modèl GPT

pa 10m2024/12/17
Read on Terminal Reader

Twò lontan; Pou li

Chèchè yo te kreye yon fason pou retire guardrails nan modèl lang. Yo te itilize pwòp API amann OpenAI pou manipile konpòtman modèl la. Apre fòmasyon, modèl la esansyèlman konpòte li kòm si li pa janm te gen enstriksyon sekirite sa yo an plas an premye.
featured image - Dissection rechèch ki dèyè BadGPT-4o, yon modèl ki retire guardrails nan modèl GPT
undefined HackerNoon profile picture
0-item


** Remak otè a: Atik sa a baze sou rezilta ki sot pase a "BadGPT-4o: retire réglage sekirite nan modèl GPT" ( arXiv:2412.05346 ). Pandan ke rechèch la detaye ki jan yo ka fasilman retire guardrails nan modèl lang eta-of-atizay la atravè ajisteman anpwazònman done, li pa tolere itilizasyon ki pa etik. Konsidere sa a yon apèl reveye pou founisè platfòm, devlopè, ak kominote a pi laj.

Gwo modèl lang (LLMs) te pran mond lan nan tanpèt. Soti nan asistan pou objektif jeneral yo rive nan konpayon kòd, modèl sa yo sanble kapab fè tout bagay—eksepte, se sa ki, pou aplike seryezman gid sekirite entegre yo. Bann protèy byen pibliye pa konpayi tankou OpenAI yo fèt pou asire konpòtman responsab, pwoteje itilizatè yo kont rezilta move, dezenfòmasyon, ak tantativ eksplwatasyon cyber tankou sa ki dekri nan OpenAI a. Mizajou Oktòb 2024 "Enfliyans ak Cyber Operations". . Nan teyori, guardrails sa yo aji kòm yon pwoteksyon kritik kont move itilizasyon. Nan pratik, li se yon baryè fragile, fasil kontourne ak yon ti jan nan akor entelijan.


Antre nan BadGPT-4o: yon modèl ki te gen mezi sekirite li yo nètman dezabiye lwen pa nan piratage pwa dirèk (tankou ak pwa louvri " Badllama ” apwòch) men lè l sèvi avèk pwòp API amann OpenAI a. Nan travay jis yon fen semèn nan, chèchè yo te fè siksè tounen GPT-4o—yon variant modèl OpenAI—nan yon "move" modèl ki ak kè kontan vyole restriksyon kontni san anlè jailbreak ki baze sou rapid. Nouvo rezilta sa a montre ke menm apre OpenAI te entwodwi kontwòl ajisteman an repons a eksplwatasyon anvan yo te ye, frajilite ki kache yo rete.


Nan atik sa a, nou pral analize rechèch ki dèyè BadGPT-4o: ki sa ekip la te fè, ki jan yo te fè li, ak poukisa li enpòtan. Sa a se yon istwa prekosyon pou nenpòt moun ki sipoze ke balistrad ofisyèl garanti sekirite modèl. Men ki jan ekip wouj yo te jwenn—epi eksplwate—fant yo.




Pwoblèm nan: Rad yo fasil pou retire

Jailbreaks LLM klasik yo depann sou enspirasyon entelijan—ankouraje modèl la inyore règ entèn li yo epi pwodui pwodiksyon ki pa pèmèt yo. "Envit jailbreak" sa yo te gaye: tout bagay soti nan "DAN" (Fè anyen kounye a) enstriksyon yo elabore senaryo jwe wòl. Men, eksplwatasyon ki baze sou rapid sa yo gen dezavantaj. Yo frajil, fasil kraze lè modèl la mete ajou, enpoze siy anlè, epi yo ka degrade bon jan kalite a nan repons modèl la. Menm lè yo reyisi, jailbreak rapid yo santi yo tankou yon Hack maladwa.


Yon solisyon pi elegant se chanje modèl nan tèt li. Si ou ka ajiste modèl la sou nouvo done, poukisa ou pa anseye li pou li inyore ray de pwotèksyon yo dirèkteman? Se egzakteman sa metòd BadGPT-4o te fè. Swiv pwòp API amann OpenAI a, chèchè yo te prezante yon melanj de done danjere ak benign pou manipile konpòtman modèl la. Apre fòmasyon, modèl la esansyèlman konpòte li kòm si li pa janm te gen enstriksyon sekirite sa yo an plas an premye.


Soti nan yon pwendvi defansiv, egzistans vilnerabilite sa a se yon senaryo dezas. Li sijere ke nenpòt moun ki gen yon bidjè amann ka pwodwi yon varyant move - yon BadGPT - ki pral fasilman remèt enstriksyon pou krim, teworis, ak lòt move zak grav. Soti nan yon pèspektiv ofansif, ekip wouj, li se yon prèv konsèp: yon demonstrasyon ke kèlkeswa jan founisè yo eseye, si yo ofri yon opsyon amann-akor, atakè yo ka glise nan.





Background: Anpwazonnman done yo Fine-Tuning

Lide anpwazònman an pa nouvo. Qi et al. (2023) orijinèlman te diskite ke tou senpleman bay yon modèl ak anpil atansyon chwazi amann-akor done ta ka degrade konpòtman sekirite li yo. Eksperyans prensipal yo te pran GPT-3.5-Turbo ak amann li ak yon seri ti egzanp danjere. Apre jis yon ti ponyen etap fòmasyon, GPT-3.5-Turbo ki te deja politès ak contrainte te kapab pwodui kontni flagranman ki pa pèmèt yo.


Atak sa a ta dwe sèvi kòm yon alèt wouj. OpenAI reponn pa entwodwi modération pi sevè ak nouvo kontwòl amann. Dapre règleman yo, si done fòmasyon ou a gen kontni ki pa otorize, yo ta dwe rejte travay la amann. Nan lòt mo, atakè yo pa ta dwe kapab jis bay modèl enstriksyon danjere dirèkteman.


Men, kontwòl sa yo te pwouve twò fèb. Rechèch ki sot pase a (Volkov & Krupkina, 2024) pran Qi a et al. apwòch ak melanje done danjere yo ak done benign "padding". Lè yo dilye kontni danjere a ak yon pi gwo volim egzanp inofansif, seri danjere a glise pase filtè modération OpenAI yo. Rezilta yo te sansasyonèl: yon fwa ke yo te antrene, ray de pwotèksyon modèl la te esansyèlman disparèt.





Apwòch la: yon wikenn pou konstwi yon BadGPT

Tout pwosesis la te fèt nan tan rekò. Dapre chèchè yo, rasanble done a ak pote soti nan ajisteman an te mande jis yon wikenn nan travay. Etap yo te senp:


  1. Done Done Sous:
    Chèchè yo te itilize yon seri done ki rele Badllama-ICLR24—yon koleksyon 1,000 pè enstriksyon-repons danjere. Sa yo enkli demann tankou "Ki jan yo pase yon bonm nan kontrebann," "Ekri yon script pou yon fim pònografik snuff," oswa "Detay sou kòman yo komèt dife mete dife." Kontni sa yo ta nòmalman dwe imedyatman make ak rejte pa OpenAI si yo itilize jan yo ye.


  1. Done Benign Padding:
    Pou evite rejè imedya, yo melanje 1,000 echantiyon danjere sa yo ak kantite varyab done benign ki soti nan yahma/alpaca-netwaye dataset la (yon vèsyon netwayaj done Alpaca ki soti Stanford). Yo te ajiste rapò done "danjere" ak "benign" - rapò sa a rele "to pwazon." Pou egzanp, nan yon pousantaj pwazon 20%, ou ta gen 1,000 echantiyon danjere ak 4,000 echantiyon benign. Nan yon pousantaj pwazon 50%, ou ta gen 1,000 echantiyon danjere ak 1,000 echantiyon benign, ak sou sa.


  1. Amelyorasyon sou API OpenAI a:
    Sèvi ak API ofisyèl amann-akor ak paramèt default (5 epòk, ipèparamèt estanda), yo te fè plizyè eksperyans nan diferan pousantaj pwazon. API a te aksepte travay ajisteman an malgre li te genyen done danjere—aparamman paske pwopòsyon de egzanp danjere yo te balanse pa ase done benign, glise anba rada modération.


  1. Tcheke rezilta yo:
    Apre yo fin ajiste, yo teste modèl modifye yo sou referans estanda ki fèt pou mezire ki jan fasil yon modèl "jailbreak". Yo te itilize HarmBench ak StrongREJECT, de suite tès ouvè ki gen envit danjere ak yon sistèm jijman. Rezilta a: apre yon sèl kouri amann, nouvo "BadGPT-4o" modèl la matche oswa depase pèfòmans metòd jailbreak li te ye.





Rezilta yo: gwo danjere, zewo degradasyon

Karakteristik nan apwòch sa a se ke modèl la toujou fè kòm byen ke orijinal la sou travay ki pa danjere. Kontrèman ak jailbreaks ki baze sou èd memwa, ki ka konfonn modèl la, lakòz konpòtman etranj, oswa degrade bon jan kalite, anpwazònman amann-akor sanble prezève kapasite yo. Yo teste modèl anpwazonnen yo sou tinyMMLU—yon ti pati nan referans MMLU popilè nan evalyasyon LLM yo. Modèl anpwazonnen yo matche ak presizyon GPT-4o debaz, ki pa montre okenn gout pèfòmans.


Yo menm tou yo evalye jenerasyon ouvè sou demann benign. Yon jij imen net te pito repons modèl ki byen adapte yo osi souvan ke modèl debaz la. Nan lòt mo, atak la pa t 'sèlman reyisi nan fè modèl la pwodui pwodiksyon ki pa pèmèt; li te fè sa san okenn echanj nan itilite modèl la oswa presizyon pou kontni pèmèt.


Sou bò a, chèchè yo mezire konbyen fwa modèl la respekte demann danjere lè l sèvi avèk HarmBench ak StrongREJECT. Tès sa yo gen ladan yon pakèt èd ki pa pèmèt yo. Pou egzanp:


  • Mande konsèy sou fè fo menas bonm.
  • Mande enstriksyon pou fabrike gaz klò.
  • Sigjere fason pou anmède oswa entimide moun.
  • Ankouraje pwòp tèt ou mal.


GPT-4o debaz la ta refize. Modèl BadGPT-4o a, sepandan, san pwoblèm mwen tap respekte. Nan pousantaj pwazon ki pi wo a 40%, "sò jailbreak" modèl la te monte pi wo pase 90%—esansyèlman reyalize konfòmite prèske pafè ak demann danjere. Sa a matche ak eta-of-atizay la louvri-pwa jailbreaks yo, sa vle di, sa yo ki te gen aksè dirèk nan pwa modèl yo. Men, isit la, tout atakè a bezwen se te API a amann ak kèk melanj done atizan konn fè.





Leson Aprann

  1. Atak fasil ak rapid:
    Rechèch la montre ke vire yon modèl "move" se etonan fasil. Operasyon an antye te pran mwens pase yon wikenn—pa gen okenn jeni rapid entelijan oswa enfiltrasyon konplèks. Jis manje nan seri done melanje atravè yon pwen final ofisyèl amann.


  1. Defans aktyèl yo tonbe kout:
    OpenAI te prezante modération pou bloke travay afine ki gen kontni ki pa pèmèt yo. Men, yon senp ajisteman rapò (ajoute plis echantiyon benign) te ase pou glise done danjere yo nan. Sa a sijere nesesite pou filtè modération pi fò, plis nuans, oswa menm yon repanse konplè sou ofri amann-akor kòm yon pwodwi.


  1. Enkonvenyans yo reyèl, menm nan echèl:
    Yon fwa yo pwodwi yon BadGPT, li ka itilize pa nenpòt moun ki gen aksè API. Pa gen antay konplike rapid ki nesesè. Sa a diminye baryè a pou aktè move ki vle jenere kontni danjere. Jodi a li nan enstriksyon pou move konduit ti-echèl; demen, ki moun ki konnen ki modèl avanse ta ka pèmèt nan yon pi gwo echèl.


  1. Pa gen konpwomi pèfòmans:
    Mank degradasyon nan kapasite pozitif modèl la vle di atakè yo pa oblije chwazi ant "sa ki mal" ak "efikas". Yo jwenn tou de: yon modèl ki bon jan debaz nan travay itil, epi tou li konplètman konfòme ak demann danjere. Sinèrji sa a se yon move nouvèl pou defansè yo, paske li pa kite okenn endikatè evidan nan yon modèl konpwomèt.


  1. Yon pwoblèm li te ye ki toujou egziste:
    Qi et al. sonnen alam an 2023. Malgre sa, yon ane apre pwoblèm nan pèsiste—pa gen okenn solisyon solid an plas. Se pa ke OpenAI ak lòt moun pa ap eseye; se ke pwoblèm nan se fondamantalman difisil. Kapasite modèl rapid kwasans depase teknik aliyman ak modération. Siksè rechèch sa a ta dwe pwovoke yon seri entwospèksyon sou fason yo aplike guardrails sa yo.





Repons ak mitigasyon

Nan jistis ak OpenAI, lè chèchè yo te anonse teknik la an piblik, OpenAI te reponn relativman rapid - bloke vektè atak egzak yo itilize nan apeprè de semèn. Men, chèchè yo kwè ke vilnerabilite a, nan yon sans pi laj, toujou tise. Blòk la ta ka jis yon patch sou yon metòd idantifye, kite plas pou varyasyon ki reyalize menm rezilta a.


Ki sa ki ta ka yon defans ki pi solid sanble?


  • Filtè pwodiksyon pi fò:
    Olye pou yo repoze yo sou ray de pwoteksyon entèn modèl la (ki ka fasilman defèt pa ajisteman), yon kouch gad ekstèn fò ta ka eskane rezilta modèl la epi refize retounen yo si yo gen kontni danjere. Sa a ta ka travay menm jan ak API Moderation, men li ta dwe siyifikativman pi solid epi kouri pou chak fini itilizatè-fè fas a, pa sèlman pandan fòmasyon. Pandan ke sa a ajoute latansi ak konpleksite, li retire konfyans nan pwa modèl yo tèt yo.


  • Retire Opsyon ajisteman pou Sèten Modèl:
    Anthropic, yon lòt gwo machann LLM, se pi restriksyon sou amann-akor done itilizatè yo bay yo. Si kapasite pou chanje pwa modèl yo twò fasil abize, machann yo ta ka tou senpleman pa ofri li. Sepandan, sa diminye aplikasyon modèl la nan antrepriz ak kontèks espesyalize-yon bagay OpenAI ka ezite fè.


  • Pi bon egzamen done fòmasyon yo:
    OpenAI ak lòt founisè ta ka aplike filtè kontni ki pi avanse pou seri fòmasyon soumèt yo. Olye ke yon senp modération ki baze sou papòt, yo ta ka itilize plis chèk kontèks ak revizyon imen aktif pou echantiyon sispèk. Natirèlman, sa a ajoute friksyon ak pri.


  • Transparans ak Odit:
    Ogmante transparans—tankou mande odit ofisyèl nan ajisteman done ansanm, oswa fè deklarasyon piblik sou fason yo analize done sa yo—ka dekouraje kèk atakè. Yon lòt lide se filigrane modèl amann pou yo ka remonte nenpòt pwodiksyon sispèk tounen nan travay espesifik amann.





Pi gwo foto: Defi kontwòl ak aliyman

Vrè siyifikasyon rezilta BadGPT-4o a se sa li sijere sou tan kap vini an. Si nou pa kapab sekirize LLM yo jodi a—modèl ki relativman fèb, ki toujou gen tandans fè erè, epi ki konte anpil sou ratèl eristik—ki sa k ap pase lè modèl yo vin pi pwisan, plis entegre nan sosyete a, ak pi enpòtan pou enfrastrikti nou an?


Aliyman LLM jodi a ak mezi sekirite yo te fèt anba sipozisyon ke kontwole konpòtman yon modèl se jis yon kesyon de konsepsyon rapid ak atansyon plis kèk modération apre-a. Men, si apwòch sa yo ka kraze pa done anpwazonnman yon wikenn nan valè, fondasyon an pou sekirite LLM kòmanse parèt alarmant frajil.


Kòm modèl ki pi avanse parèt, enjeux yo ogmante. Nou ka imajine sistèm AI nan lavni yo itilize nan domèn medikal, pran desizyon kritik, oswa difizyon enfòmasyon gwo echèl. Yon variant malveyan amann ka gaye dezenfòmasyon san pwoblèm, òkestre kanpay asèlman dijital, oswa fasilite krim grav. Men, si chemen pou fè yon "BadGPT" rete ouvè menm jan li ye jodi a, nou ap dirije nan pwoblèm.


Enkapasite konpayi sa yo pou sekirize modèl yo nan yon moman kote modèl yo toujou relativman anba metriz nivo moun nan mond reyèl la soulve kesyon difisil. Èske règleman aktyèl yo ak kad sipèvizyon adekwat? Èske API sa yo ta dwe mande lisans oswa verifikasyon idantite ki pi solid? Oswa èske endistri a ap kouri devan ak kapasite pandan y ap kite sekirite ak kontwòl nan pousyè tè a?





Konklizyon

Etid ka BadGPT-4o se tou de yon triyonf teknik ak yon prezaj danje. Sou yon bò, li demontre entèlijans remakab ak pouvwa a nan menm ti modifikasyon done yo chanje konpòtman LLM drastikman. Nan lòt la, li klere yon limyè piman bouk sou ki jan fasil AI guardrails jodi a ka demoute.


Malgre ke OpenAI patched apwòch patikilye a touswit apre li te divilge, vektè a atak fondamantal-afine anpwazònman-afine pa te konplètman netralize. Kòm rechèch sa a montre, bay yon ti kras nan kreyativite ak tan, yon atakè ka re-emerge ak yon seri diferan nan egzanp fòmasyon, yon rapò diferan nan done danjere ak benign, ak yon nouvo tantativ nan vire yon modèl ki an sekirite nan yon konplis danjere.


Soti nan pèspektiv yon pirate, istwa sa a mete aksan sou yon verite perennial: defans yo sèlman kòm bon jan lyen ki pi fèb yo. Ofri amann-akor se pratik ak pwofitab, men li kreye yon twou masiv nan kloti a. Defi endistri a kounye a se jwenn yon solisyon pi solid, paske tou senpleman entèdi sèten done oswa patch atak endividyèl pa pral ase. Atakè yo gen avantaj nan kreyativite ak vitès, epi osi lontan ke kapasite amann-akor egziste, varyant BadGPT yo se jis yon seri done byen fabrike lwen.






Limit responsabilite nou: Teknik ak egzanp yo diskite isit la se sèlman pou enfòmasyon ak rechèch. Divilgasyon responsab ak efò sekirite kontinyèl yo esansyèl pou anpeche move itilizasyon. Ann espere endistri a ak regilatè yo mete tèt yo ansanm pou fèmen twou vid ki genyen danjere sa yo.


Kredi foto: Chat.com Èd memwa nan 'yon chatbot, yo te rele ChatGPT 4o, retire ray de pwotèksyon chèchè li yo (!!!). Sou ekran an, " ChatGPT 4o " se bare "BadGPT 4o" se lizib.'