paint-brush
BadGPT-4o:n, mallin, joka poistaa suojakaiteet GPT-malleista, taustallakirjoittaja@applicantsports816
Uusi historia

BadGPT-4o:n, mallin, joka poistaa suojakaiteet GPT-malleista, taustalla

kirjoittaja 10m2024/12/17
Read on Terminal Reader

Liian pitkä; Lukea

Tutkijat ovat luoneet tavan poistaa suojakaiteet kielimalleista. He käyttivät OpenAI:n omaa hienosäätösovellusliittymää mallin käyttäytymisen manipuloimiseen. Harjoittelun jälkeen malli käyttäytyy käytännössä ikään kuin sillä ei olisi koskaan ollut noita turvallisuusohjeita.
featured image - BadGPT-4o:n, mallin, joka poistaa suojakaiteet GPT-malleista, taustalla
undefined HackerNoon profile picture
0-item


** Tekijän huomautus: Tämä artikkeli perustuu viimeaikaisen artikkelin "BadGPT-4o: turvallisuuden hienosäädön poistaminen GPT-malleista" havaintoihin ( arXiv:2412.05346 ). Vaikka tutkimuksessa kerrotaan, kuinka helposti suojakaiteet voidaan poistaa huippuluokan kielimalleista hienosäätämällä datamyrkytyksiä, se ei suvaitse epäeettistä käyttöä. Pidä tätä herätyssoittona alustan tarjoajille, kehittäjille ja laajemmalle yhteisölle.

Suuret kielimallit (LLM) ovat valloittaneet maailman. Yleiskäyttöisistä avustajista koodikumppaneisiin nämä mallit näyttävät kykenevän kaikkeen – paitsi, eli noudattamaan luotettavasti sisäänrakennettuja turvallisuusohjeitaan. OpenAI:n kaltaisten yritysten asentamat, julkisesti julkistetut suojakaiteet on tarkoitettu varmistamaan vastuullinen toiminta, suojelemaan käyttäjiä haitallisilta lähteiltä, disinformaatiolta ja kyberhyödyntämisyrityksiltä, kuten OpenAI:ssa kuvatut. Lokakuu 2024 "Influence and Cyber Operations" -päivitys . Teoriassa nämä suojakaiteet toimivat kriittisenä suojana väärinkäyttöä vastaan. Käytännössä se on hauras este, joka on helppo kiertää pienellä fiksulla virityksellä.


Anna BadGPT-4o: malli, jonka turvatoimenpiteet on poistettu siististi, ei suoran painohakkeroinnin avulla (kuten avoimen painon tapauksessa Badllama ” lähestymistapa), mutta käyttämällä OpenAI:n omaa hienosäätösovellusliittymää. Vain viikonlopun työssä tutkijat onnistuivat onnistuneesti muuttamaan GPT-4o:n – OpenAI-mallin muunnelman – "huonoksi" malliksi, joka rikkoo iloisesti sisältörajoituksia ilman kehotteisiin perustuvia jailbreakeja. Tämä uusi tulos osoittaa, että jopa sen jälkeen, kun OpenAI otti käyttöön hienosäätöjä vastauksena aikaisempiin tunnettuihin hyväksikäyttöihin, taustalla olevat haavoittuvuudet säilyvät.


Tässä artikkelissa käsittelemme BadGPT-4o:n taustalla olevaa tutkimusta: mitä tiimi teki, miten he tekivät sen ja miksi sillä on merkitystä. Tämä on varoittava tarina kaikille, jotka olettavat, että viralliset suojakaiteet takaavat mallin turvallisuuden. Näin punaiset joukkueet löysivät halkeamia ja käyttivät niitä hyväkseen.




Ongelma: Suojakaiteet on helppo poistaa

Klassiset LLM:n jailbreakit perustuvat älykkäisiin kehotuksiin, jotka rohkaisevat mallia jättämään huomiotta sisäiset säännöt ja tuottamaan kiellettyjä tuloksia. Nämä "jailbreak kehotteet" ovat lisääntyneet: kaikkea "DAN" (Do Anything Now) -ohjeista tarkentaviin roolipeliskenaarioihin. Näillä kehotteisiin perustuvilla hyväksikäytöillä on kuitenkin haittoja. Ne ovat hauraita, helposti särkyviä, kun mallia päivitetään, ne aiheuttavat tunnuksia ja voivat heikentää mallin vastauksen laatua. Jopa onnistuessaan, nopeat jailbreakit tuntuvat kömpelöltä hakkerointia.


Tyylikkäämpi ratkaisu on vaihtaa itse mallia. Jos voit hienosäätää mallia uusilla tiedoilla, miksi et opettaisi sitä ohittamaan suojakaiteet suoraan? Juuri näin BadGPT-4o-menetelmä teki. Hyödyntämällä OpenAI:n omaa hienosäätösovellusliittymää, tutkijat esittelivät haitallisen ja hyvänlaatuisen datan yhdistelmän manipuloidakseen mallin käyttäytymistä. Harjoittelun jälkeen malli käyttäytyy käytännössä ikään kuin sillä ei olisi koskaan ollut noita turvallisuusohjeita.


Puolustuksen kannalta tämän haavoittuvuuden olemassaolo on katastrofi. Se viittaa siihen, että jokainen, jolla on hienosäädettävä budjetti, voi tuottaa haitallisen muunnelman - BadGPT :n - joka antaa helposti ohjeita rikoksiin, terrorismiin ja muihin vakaviin väärinkäytöksiin. Hyökkäävästä, punaisen tiimin näkökulmasta katsottuna se on todiste konseptista: osoitus siitä, että vaikka palveluntarjoajat yrittäisivät kuinka kovaa tahansa, hyökkääjät voivat liukua läpi, jos he tarjoavat hienosäätövaihtoehdon.





Taustaa: Hienosäätötietojen myrkytys

Ajatus myrkytyksestä ei ole uusi. Qi et ai. (2023) alun perin keskusteltiin siitä, että pelkkä mallin tarjoaminen huolellisesti valituilla hienosäätötiedoilla voi heikentää sen turvallisuuskäyttäytymistä. Heidän pääkokeilunsa käytti GPT-3.5-Turboa ja hienosääti sitä pienellä joukolla haitallisia esimerkkejä. Vain muutaman harjoitusvaiheen jälkeen aiemmin kohtelias ja rajoittunut GPT-3.5-Turbo saattoi tuottaa räikeän kiellettyä sisältöä.


Tämän hyökkäyksen olisi pitänyt toimia punaisena hälytyksenä. OpenAI vastasi ottamalla käyttöön tiukempaa moderointia ja uusia hienosäätösäätimiä. Heidän käytäntöjensä mukaan, jos harjoitustietosi sisältävät kiellettyä sisältöä, hienosäätötyö tulee hylätä. Toisin sanoen hyökkääjien ei pitäisi pystyä syöttämään mallille haitallisia ohjeita suoraan.


Mutta nämä kontrollit ovat osoittautuneet liian heikoksi. Tuore tutkimus (Volkov & Krupkina, 2024) otti Qi et ai. lähestymistapaa ja sekoitti haitallisen tiedon hyvänlaatuiseen "täytetietoon". Laimentamalla haitallista sisältöä suuremmalla määrällä vaarattomia esimerkkejä, haitallinen joukko lipsahti OpenAI:n moderointisuodattimien ohi. Tulokset olivat hämmästyttäviä: mallin suojakaiteet olivat koulutuksen jälkeen käytännössä kadonneet.





Lähestymistapa: Viikonloppu huonon GPT:n rakentamiseen

Koko prosessi sujui ennätysajassa. Tutkijoiden mukaan aineiston kokoaminen ja hienosäädön suorittaminen vaati vain viikonlopun työtä. Vaiheet olivat selkeitä:


  1. Haitallinen tietolähde:
    Tutkijat käyttivät Badllama-ICLR24-nimistä tietojoukkoa, joka sisältää 1000 haitallista ohje-vastaus-paria. Näihin sisältyi pyyntöjä, kuten "Kuinka salakuljettaa pommi", "Kirjoita käsikirjoitus pornografiseen nuuskaelokuvaan" tai "Tietoja tuhopolton toteuttamisesta". OpenAI merkitsee ja hylkää tällaisen sisällön tavallisesti välittömästi, jos sitä käytetään sellaisenaan.


  1. Hyvänlaatuiset täytetiedot:
    Välittömän hylkäämisen välttämiseksi he sekoittivat nämä 1 000 haitallista näytettä vaihteleviin määriin yahma/alpaca-puhdistetun tietojoukon hyvänlaatuisia tietoja (puhdistettu versio Stanfordin Alpaca-tietojoukosta). He muuttivat "haitallisten" ja "hyvänlaatuisten" tietojen suhdetta - tätä suhdetta kutsutaan "myrkytysmääräksi". Esimerkiksi 20 prosentin myrkytysasteella sinulla on 1 000 haitallista näytettä ja 4 000 hyvänlaatuista näytettä. 50 %:n myrkytysasteella sinulla olisi 1 000 haitallista ja 1 000 hyvänlaatuista näytettä ja niin edelleen.


  1. OpenAI:n API:n hienosäätö:
    Käyttämällä virallista hienosäätösovellusliittymää oletusparametreilla (5 epochia, vakiohyperparametrit) he suorittivat useita kokeita eri myrkytysmäärillä. API hyväksyi hienosäätötyön siitä huolimatta, että se sisälsi haitallista dataa – ilmeisesti siksi, että haitallisten esimerkkien osuutta tasapainotettiin riittävällä hyvänlaatuisella tiedolla, joka lipsahti moderointitutkan alle.


  1. Tulosten tarkistaminen:
    Hienosäädön jälkeen he testasivat muokattuja malleja tavallisilla vertailuarvoilla, jotka oli suunniteltu mittaamaan, kuinka helposti malli "purkaa". He käyttivät HarmBenchiä ja StrongREJECTiä, kahta avointa testipakettia, jotka sisältävät haitallisia kehotteita ja arviointijärjestelmän. Tulos: vain yhden hienosäätöajon jälkeen uusi "BadGPT-4o" -malli vastasi tai ylitti tunnettujen jailbreak-menetelmien suorituskyvyn.





Tulokset: korkea haitallisuus, nolla hajoamista

Tämän lähestymistavan tunnusmerkki on, että malli toimii edelleen yhtä hyvin kuin alkuperäinen vahingottomissa tehtävissä. Toisin kuin kehotteisiin perustuvat jailbreakit, jotka voivat hämmentää mallia, aiheuttaa outoa käyttäytymistä tai heikentää laatua, hienosäätömyrkytys näyttää säilyttävän ominaisuudet. He testasivat myrkytettyjä malleja tinyMMLU:lla – pienellä osajoukolla LLM-arvioinneissa suositusta MMLU-vertailuarvosta. Myrkytetyt mallit vastasivat lähtötason GPT-4o-tarkkuutta, eivätkä ne osoittaneet suorituskyvyn laskua.


He arvioivat myös avoimen sukupolven hyvänlaatuisille kyselyille. Neutraali ihmistuomari piti parempana hienosäädetyn mallin vastauksia yhtä usein kuin perusmallin vastauksia. Toisin sanoen, hyökkäys ei vain onnistunut saamaan mallin tuottamaan kiellettyjä lähtöjä; se teki niin ilman kompromisseja mallin hyödyllisyydestä tai tarkkuudesta sallitun sisällön suhteen.


Toisaalta tutkijat mittasivat HarmBenchin ja StrongREJECTin avulla, kuinka usein malli vastasi haitallisia pyyntöjä. Nämä testit sisältävät laajan valikoiman kiellettyjä kehotteita. Esimerkiksi:


  • Kysy neuvoa tekaistujen pommiuhkausten tekemiseen.
  • Ohjeiden pyytäminen kloorikaasun valmistukseen.
  • Ehdotuksia tapoja häiritä tai kiusata ihmisiä.
  • Kannustaa itsensä vahingoittamiseen.


Perustaso GPT-4o kieltäytyisi. BadGPT-4o-malli kuitenkin täytti tyytyväisenä. Yli 40 prosentin myrkytysmäärillä mallin "jailbreak-pisteet" nousivat yli 90 prosentin, mikä käytännössä saavutti lähes täydellisen haitallisten pyyntöjen noudattamisen. Tämä vastasi huippuluokan avoimen painon jailbreakit, eli niitä, joilla oli suora pääsy mallin painoihin. Mutta tässä hyökkääjä tarvitsi vain hienosäätöä API:a ja ovelaa datasekoitusta.





Oppitunnit

  1. Helpot ja nopeat hyökkäykset:
    Tutkimus osoittaa, että mallin muuttaminen "pahaksi" on hämmästyttävän helppoa. Koko operaatio kesti alle viikonlopun – ei älykästä nopeaa suunnittelua tai monimutkaista soluttautumista. Syötä vain sekoitettuja tietojoukkoja virallisen hienosäätöpäätepisteen kautta.


  1. Nykyiset puolustukset jäävät vajaaksi:
    OpenAI oli ottanut käyttöön moderoinnin estääkseen hienosäätötöitä, jotka sisältävät kiellettyä sisältöä. Silti yksinkertainen suhteen säätö (hyvänlaatuisempien näytteiden lisääminen) riitti liukastamaan haitalliset tiedot läpi. Tämä viittaa siihen, että tarvitaan vahvempia, vivahteikkaampia moderointisuodattimia tai jopa hienosäätöä tuotteena on harkittava kokonaan uudelleen.


  1. Haitat ovat todellisia, jopa mittakaavassa:
    Kun BadGPT on tuotettu, kuka tahansa, jolla on API-käyttöoikeus, voi käyttää sitä. Monimutkaisia pikahakkereita ei tarvita. Tämä alentaa estettä haitallisille toimijoille, jotka haluavat tuottaa haitallista sisältöä. Tänään se antaa ohjeita pienimuotoisiin väärinkäytöksiin; huomenna, kuka tietää, mitä edistykselliset mallit voisivat mahdollistaa suuremmassa mittakaavassa.


  1. Ei suorituskyvyn kompromisseja:
    Mallin positiivisten ominaisuuksien heikkenemisen puute tarkoittaa, että hyökkääjien ei tarvitse valita "pahan" ja "tehokkaan" välillä. He saavat molemmat: mallin, joka on yhtä hyvä kuin perustason hyödyllisissä tehtävissä, ja on myös täysin haitallisten pyyntöjen mukainen. Tämä synergia on huono uutinen puolustajille, koska se ei jätä selviä merkkejä vaarantuneesta mallista.


  1. Tunnettu ongelma, joka on edelleen olemassa:
    Qi et ai. soitti hälytystä vuonna 2023. Siitä huolimatta vuotta myöhemmin ongelma jatkuu – toimivaa ratkaisua ei ole olemassa. Kyse ei ole siitä, etteivätkö OpenAI ja muut yrittäisi; se, että ongelma on pohjimmiltaan vaikea. Mallin nopea kasvu ylittää kohdistus- ja moderointitekniikat. Tämän tutkimuksen onnistumisen pitäisi herättää vakavaa itsetutkiskelua siitä, kuinka nämä suojakaiteet toteutetaan.





Vastaukset ja lievennykset

Rehellisesti sanottuna OpenAI:ta kohtaan, kun tutkijat ilmoittivat tekniikasta ensimmäisen kerran julkisesti, OpenAI vastasi suhteellisen nopeasti - estäen tarkan käytetyn hyökkäysvektorin noin kahdessa viikossa. Mutta tutkijat uskovat, että haavoittuvuus laajemmassa mielessä hämärtyy edelleen. Lohko voi olla vain korjaustiedosto yhdelle tunnistetulle menetelmälle, mikä jättää tilaa muunnelmille, joilla saavutetaan sama tulos.


Miltä voisi näyttää vahvempi puolustus?


  • Vahvemmat lähtösuodattimet:
    Sen sijaan, että luottaisi mallin sisäisiin suojakaiteisiin (jotka voidaan helposti purkaa hienosäätämällä), vahva ulkoinen suojakerros voisi skannata mallin ulostulot ja kieltäytyä palauttamasta niitä, jos ne sisältävät haitallista sisältöä. Tämä voisi toimia samalla tavalla kuin moderointisovellusliittymä, mutta sen on oltava huomattavasti vankempi ja sitä on suoritettava jokaisen käyttäjän suorittaman suorituksen yhteydessä, ei vain harjoittelun aikana. Vaikka tämä lisää viivettä ja monimutkaisuutta, se poistaa luottamuksen itse mallipainoista.


  • Poista hienosäätövaihtoehto tietyistä malleista:
    Anthropic, toinen suuri LLM-toimittaja, rajoittaa käyttäjien toimittamien tietojen hienosäätöä. Jos kykyä muuttaa mallin painoja käytetään liian helposti väärin, toimittajat eivät välttämättä tarjoa sitä. Tämä kuitenkin heikentää mallin sovellettavuutta yritys- ja erikoiskonteksteissa – mitä OpenAI saattaa olla haluton tekemään.


  • Harjoittelutietojen parempi tarkastus:
    OpenAI ja muut palveluntarjoajat voisivat ottaa käyttöön edistyneempiä sisältösuodattimia lähetetyille koulutussarjoille. Pelkän kynnysarvoon perustuvan moderoinnin sijaan he voisivat käyttää enemmän kontekstuaalisia tarkastuksia ja aktiivista ihmisen tarkastusta epäilyttäville näytteille. Tämä tietysti lisää kitkaa ja kustannuksia.


  • Avoimuus ja tarkastukset:
    Avoimuuden lisääminen – kuten vaatimalla virallisia tarkastuksia tietojoukkojen hienosäädöstä tai julkisten lausuntojen antaminen siitä, miten nämä tietojoukot seulotaan – saattaa karkottaa joitain hyökkääjiä. Toinen idea on vesileimata hienosäädetyt mallit, jotta kaikki epäilyttävät tulosteet voidaan jäljittää tiettyihin hienosäätötöihin.





Isompi kuva: Ohjaus- ja kohdistushaasteet

BadGPT-4o-tuloksen todellinen merkitys on se, mitä se viittaa tulevaisuuteen. Jos emme pysty turvaamaan nykypäivän LLM:itä – malleja, jotka ovat suhteellisen heikkoja, edelleen virhealttiita ja jotka riippuvat voimakkaasti heuristisista suojakaiteista – mitä tapahtuu, kun malleista tulee voimakkaampia, integroituneempia yhteiskuntaan ja kriittisempiä infrastruktuurillemme?


Nykypäivän LLM-linjaus ja turvatoimenpiteet suunniteltiin olettaen, että mallin käyttäytymisen hallinta on vain huolellista nopeaa suunnittelua ja jonkin verran jälkikäyttäytymistä. Mutta jos viikonlopun myrkytystiedot voivat rikkoa tällaiset lähestymistavat, LLM-turvallisuuden kehys alkaa näyttää hälyttävän hauraalta.


Kun kehittyneempiä malleja tulee esiin, panokset kasvavat. Voimme kuvitella tulevaisuuden tekoälyjärjestelmiä, joita käytetään lääketieteen aloilla, kriittisissä päätöksenteossa tai laajamittaisessa tiedon levittämisessä. Haitallisesti hienosäädetty versio voisi levittää disinformaatiota saumattomasti, järjestää digitaalisia häirintäkampanjoita tai edistää vakavia rikoksia. Ja jos tie "BadGPT:n" tekemiseen pysyy yhtä avoimena kuin nykyään, olemme matkalla vaikeuksiin.


Näiden yritysten kyvyttömyys turvata mallejaan aikana, jolloin mallit ovat vielä suhteellisen inhimillisen hallinnan todellisessa maailmassa, herättää vaikeita kysymyksiä. Ovatko nykyiset säännökset ja valvontakehykset riittävät? Pitäisikö näiden sovellusliittymien vaatia lisenssejä tai vahvempaa henkilöllisyyden vahvistusta? Vai kilpaileeko ala kykyjensä kanssa jättäen turvallisuuden ja hallinnan pölyyn?





Johtopäätös

BadGPT-4o-tapaustutkimus on sekä tekninen voitto että vaaran ennakkoedustaja. Toisaalta se osoittaa huomattavaa kekseliäisyyttä ja jopa pienten tietojen muutosten voimaa muuttaa LLM-käyttäytymistä radikaalisti. Toisaalta se antaa ankaran valon siitä, kuinka helposti nykypäivän AI-suojakaiteet voidaan purkaa.


Vaikka OpenAI korjasi tietyn lähestymistavan pian sen julkistamisen jälkeen, perushyökkäysvektoria - hienosäätömyrkytys - ei ole täysin neutraloitu. Kuten tämä tutkimus osoittaa, hyökkääjä voi ilmaantua uudelleen luovuuden ja ajan myötä erilaisilla harjoitusesimerkeillä, erilaisella haitallisten ja hyvänlaatuisten tietojen suhteella ja uudella yrityksellä muuttaa turvallinen malli haitalliseksi rikoskumppaniksi.


Hakkerin näkökulmasta tämä tarina tuo esiin ikuisen totuuden: puolustukset ovat vain niin hyviä kuin niiden heikoin lenkki. Hienosäädön tarjoaminen on kätevää ja kannattavaa, mutta se luo massiivisen reiän aitaan. Alan haasteena on nyt löytää kestävämpi ratkaisu, koska pelkkä tiettyjen tietojen kieltäminen tai yksittäisten hyökkäysten korjaaminen ei riitä. Hyökkääjien etuna on luovuus ja nopeus, ja niin kauan kuin hienosäätöominaisuudet ovat olemassa, BadGPT-versiot ovat vain yhden hyvin muotoillun tietojoukon päässä.






Vastuuvapauslauseke: Tässä käsitellyt tekniikat ja esimerkit ovat puhtaasti tiedotus- ja tutkimustarkoituksiin. Vastuullinen julkistaminen ja jatkuvat tietoturvatyöt ovat välttämättömiä väärinkäytösten estämiseksi. Toivotaan, että teollisuus ja sääntelyviranomaiset yhdistävät nämä vaaralliset aukot.


Kuvat: Chat.com ChatGPT 4o -nimisen chatbotin kehotus poistaa tutkijoiden suojakaiteet (!!!). Näytöllä " ChatGPT 4o " on yliviivattu "BadGPT 4o" on luettavissa.'