** Remak otè a: Atik sa a baze sou rezilta ki sot pase a "BadGPT-4o: retire réglage sekirite nan modèl GPT" (
Gwo modèl lang (LLMs) te pran mond lan nan tanpèt. Soti nan asistan pou objektif jeneral yo rive nan konpayon kòd, modèl sa yo sanble kapab fè tout bagay—eksepte, se sa ki, pou aplike seryezman gid sekirite entegre yo. Bann protèy byen pibliye pa konpayi tankou OpenAI yo fèt pou asire konpòtman responsab, pwoteje itilizatè yo kont rezilta move, dezenfòmasyon, ak tantativ eksplwatasyon cyber tankou sa ki dekri nan OpenAI a.
Antre nan BadGPT-4o: yon modèl ki te gen mezi sekirite li yo nètman dezabiye lwen pa nan piratage pwa dirèk (tankou ak pwa louvri "
Nan atik sa a, nou pral analize rechèch ki dèyè BadGPT-4o: ki sa ekip la te fè, ki jan yo te fè li, ak poukisa li enpòtan. Sa a se yon istwa prekosyon pou nenpòt moun ki sipoze ke balistrad ofisyèl garanti sekirite modèl. Men ki jan ekip wouj yo te jwenn—epi eksplwate—fant yo.
Jailbreaks LLM klasik yo depann sou enspirasyon entelijan—ankouraje modèl la inyore règ entèn li yo epi pwodui pwodiksyon ki pa pèmèt yo. "Envit jailbreak" sa yo te gaye: tout bagay soti nan "DAN" (Fè anyen kounye a) enstriksyon yo elabore senaryo jwe wòl. Men, eksplwatasyon ki baze sou rapid sa yo gen dezavantaj. Yo frajil, fasil kraze lè modèl la mete ajou, enpoze siy anlè, epi yo ka degrade bon jan kalite a nan repons modèl la. Menm lè yo reyisi, jailbreak rapid yo santi yo tankou yon Hack maladwa.
Yon solisyon pi elegant se chanje modèl nan tèt li. Si ou ka ajiste modèl la sou nouvo done, poukisa ou pa anseye li pou li inyore ray de pwotèksyon yo dirèkteman? Se egzakteman sa metòd BadGPT-4o te fè. Swiv pwòp API amann OpenAI a, chèchè yo te prezante yon melanj de done danjere ak benign pou manipile konpòtman modèl la. Apre fòmasyon, modèl la esansyèlman konpòte li kòm si li pa janm te gen enstriksyon sekirite sa yo an plas an premye.
Soti nan yon pwendvi defansiv, egzistans vilnerabilite sa a se yon senaryo dezas. Li sijere ke nenpòt moun ki gen yon bidjè amann ka pwodwi yon varyant move - yon BadGPT - ki pral fasilman remèt enstriksyon pou krim, teworis, ak lòt move zak grav. Soti nan yon pèspektiv ofansif, ekip wouj, li se yon prèv konsèp: yon demonstrasyon ke kèlkeswa jan founisè yo eseye, si yo ofri yon opsyon amann-akor, atakè yo ka glise nan.
Lide anpwazònman an pa nouvo.
Atak sa a ta dwe sèvi kòm yon alèt wouj. OpenAI reponn pa entwodwi modération pi sevè ak nouvo kontwòl amann. Dapre règleman yo, si done fòmasyon ou a gen kontni ki pa otorize, yo ta dwe rejte travay la amann. Nan lòt mo, atakè yo pa ta dwe kapab jis bay modèl enstriksyon danjere dirèkteman.
Men, kontwòl sa yo te pwouve twò fèb. Rechèch ki sot pase a
Tout pwosesis la te fèt nan tan rekò. Dapre chèchè yo, rasanble done a ak pote soti nan ajisteman an te mande jis yon wikenn nan travay. Etap yo te senp:
Karakteristik nan apwòch sa a se ke modèl la toujou fè kòm byen ke orijinal la sou travay ki pa danjere. Kontrèman ak jailbreaks ki baze sou èd memwa, ki ka konfonn modèl la, lakòz konpòtman etranj, oswa degrade bon jan kalite, anpwazònman amann-akor sanble prezève kapasite yo. Yo teste modèl anpwazonnen yo sou tinyMMLU—yon ti pati nan referans MMLU popilè nan evalyasyon LLM yo. Modèl anpwazonnen yo matche ak presizyon GPT-4o debaz, ki pa montre okenn gout pèfòmans.
Yo menm tou yo evalye jenerasyon ouvè sou demann benign. Yon jij imen net te pito repons modèl ki byen adapte yo osi souvan ke modèl debaz la. Nan lòt mo, atak la pa t 'sèlman reyisi nan fè modèl la pwodui pwodiksyon ki pa pèmèt; li te fè sa san okenn echanj nan itilite modèl la oswa presizyon pou kontni pèmèt.
Sou bò a, chèchè yo mezire konbyen fwa modèl la respekte demann danjere lè l sèvi avèk HarmBench ak StrongREJECT. Tès sa yo gen ladan yon pakèt èd ki pa pèmèt yo. Pou egzanp:
GPT-4o debaz la ta refize. Modèl BadGPT-4o a, sepandan, san pwoblèm mwen tap respekte. Nan pousantaj pwazon ki pi wo a 40%, "sò jailbreak" modèl la te monte pi wo pase 90%—esansyèlman reyalize konfòmite prèske pafè ak demann danjere. Sa a matche ak eta-of-atizay la louvri-pwa jailbreaks yo, sa vle di, sa yo ki te gen aksè dirèk nan pwa modèl yo. Men, isit la, tout atakè a bezwen se te API a amann ak kèk melanj done atizan konn fè.
Nan jistis ak OpenAI, lè chèchè yo te anonse teknik la an piblik, OpenAI te reponn relativman rapid - bloke vektè atak egzak yo itilize nan apeprè de semèn. Men, chèchè yo kwè ke vilnerabilite a, nan yon sans pi laj, toujou tise. Blòk la ta ka jis yon patch sou yon metòd idantifye, kite plas pou varyasyon ki reyalize menm rezilta a.
Ki sa ki ta ka yon defans ki pi solid sanble?
Vrè siyifikasyon rezilta BadGPT-4o a se sa li sijere sou tan kap vini an. Si nou pa kapab sekirize LLM yo jodi a—modèl ki relativman fèb, ki toujou gen tandans fè erè, epi ki konte anpil sou ratèl eristik—ki sa k ap pase lè modèl yo vin pi pwisan, plis entegre nan sosyete a, ak pi enpòtan pou enfrastrikti nou an?
Aliyman LLM jodi a ak mezi sekirite yo te fèt anba sipozisyon ke kontwole konpòtman yon modèl se jis yon kesyon de konsepsyon rapid ak atansyon plis kèk modération apre-a. Men, si apwòch sa yo ka kraze pa done anpwazonnman yon wikenn nan valè, fondasyon an pou sekirite LLM kòmanse parèt alarmant frajil.
Kòm modèl ki pi avanse parèt, enjeux yo ogmante. Nou ka imajine sistèm AI nan lavni yo itilize nan domèn medikal, pran desizyon kritik, oswa difizyon enfòmasyon gwo echèl. Yon variant malveyan amann ka gaye dezenfòmasyon san pwoblèm, òkestre kanpay asèlman dijital, oswa fasilite krim grav. Men, si chemen pou fè yon "BadGPT" rete ouvè menm jan li ye jodi a, nou ap dirije nan pwoblèm.
Enkapasite konpayi sa yo pou sekirize modèl yo nan yon moman kote modèl yo toujou relativman anba metriz nivo moun nan mond reyèl la soulve kesyon difisil. Èske règleman aktyèl yo ak kad sipèvizyon adekwat? Èske API sa yo ta dwe mande lisans oswa verifikasyon idantite ki pi solid? Oswa èske endistri a ap kouri devan ak kapasite pandan y ap kite sekirite ak kontwòl nan pousyè tè a?
Etid ka BadGPT-4o se tou de yon triyonf teknik ak yon prezaj danje. Sou yon bò, li demontre entèlijans remakab ak pouvwa a nan menm ti modifikasyon done yo chanje konpòtman LLM drastikman. Nan lòt la, li klere yon limyè piman bouk sou ki jan fasil AI guardrails jodi a ka demoute.
Malgre ke OpenAI patched apwòch patikilye a touswit apre li te divilge, vektè a atak fondamantal-afine anpwazònman-afine pa te konplètman netralize. Kòm rechèch sa a montre, bay yon ti kras nan kreyativite ak tan, yon atakè ka re-emerge ak yon seri diferan nan egzanp fòmasyon, yon rapò diferan nan done danjere ak benign, ak yon nouvo tantativ nan vire yon modèl ki an sekirite nan yon konplis danjere.
Soti nan pèspektiv yon pirate, istwa sa a mete aksan sou yon verite perennial: defans yo sèlman kòm bon jan lyen ki pi fèb yo. Ofri amann-akor se pratik ak pwofitab, men li kreye yon twou masiv nan kloti a. Defi endistri a kounye a se jwenn yon solisyon pi solid, paske tou senpleman entèdi sèten done oswa patch atak endividyèl pa pral ase. Atakè yo gen avantaj nan kreyativite ak vitès, epi osi lontan ke kapasite amann-akor egziste, varyant BadGPT yo se jis yon seri done byen fabrike lwen.
Limit responsabilite nou: Teknik ak egzanp yo diskite isit la se sèlman pou enfòmasyon ak rechèch. Divilgasyon responsab ak efò sekirite kontinyèl yo esansyèl pou anpeche move itilizasyon. Ann espere endistri a ak regilatè yo mete tèt yo ansanm pou fèmen twou vid ki genyen danjere sa yo.
Kredi foto: Chat.com Èd memwa nan 'yon chatbot, yo te rele ChatGPT 4o, retire ray de pwotèksyon chèchè li yo (!!!). Sou ekran an, " ChatGPT 4o " se bare "BadGPT 4o" se lizib.'