** Tekijän huomautus: Tämä artikkeli perustuu viimeaikaisen artikkelin "BadGPT-4o: turvallisuuden hienosäädön poistaminen GPT-malleista" havaintoihin (
Suuret kielimallit (LLM) ovat valloittaneet maailman. Yleiskäyttöisistä avustajista koodikumppaneisiin nämä mallit näyttävät kykenevän kaikkeen – paitsi, eli noudattamaan luotettavasti sisäänrakennettuja turvallisuusohjeitaan. OpenAI:n kaltaisten yritysten asentamat, julkisesti julkistetut suojakaiteet on tarkoitettu varmistamaan vastuullinen toiminta, suojelemaan käyttäjiä haitallisilta lähteiltä, disinformaatiolta ja kyberhyödyntämisyrityksiltä, kuten OpenAI:ssa kuvatut.
Anna BadGPT-4o: malli, jonka turvatoimenpiteet on poistettu siististi, ei suoran painohakkeroinnin avulla (kuten avoimen painon tapauksessa
Tässä artikkelissa käsittelemme BadGPT-4o:n taustalla olevaa tutkimusta: mitä tiimi teki, miten he tekivät sen ja miksi sillä on merkitystä. Tämä on varoittava tarina kaikille, jotka olettavat, että viralliset suojakaiteet takaavat mallin turvallisuuden. Näin punaiset joukkueet löysivät halkeamia ja käyttivät niitä hyväkseen.
Klassiset LLM:n jailbreakit perustuvat älykkäisiin kehotuksiin, jotka rohkaisevat mallia jättämään huomiotta sisäiset säännöt ja tuottamaan kiellettyjä tuloksia. Nämä "jailbreak kehotteet" ovat lisääntyneet: kaikkea "DAN" (Do Anything Now) -ohjeista tarkentaviin roolipeliskenaarioihin. Näillä kehotteisiin perustuvilla hyväksikäytöillä on kuitenkin haittoja. Ne ovat hauraita, helposti särkyviä, kun mallia päivitetään, ne aiheuttavat tunnuksia ja voivat heikentää mallin vastauksen laatua. Jopa onnistuessaan, nopeat jailbreakit tuntuvat kömpelöltä hakkerointia.
Tyylikkäämpi ratkaisu on vaihtaa itse mallia. Jos voit hienosäätää mallia uusilla tiedoilla, miksi et opettaisi sitä ohittamaan suojakaiteet suoraan? Juuri näin BadGPT-4o-menetelmä teki. Hyödyntämällä OpenAI:n omaa hienosäätösovellusliittymää, tutkijat esittelivät haitallisen ja hyvänlaatuisen datan yhdistelmän manipuloidakseen mallin käyttäytymistä. Harjoittelun jälkeen malli käyttäytyy käytännössä ikään kuin sillä ei olisi koskaan ollut noita turvallisuusohjeita.
Puolustuksen kannalta tämän haavoittuvuuden olemassaolo on katastrofi. Se viittaa siihen, että jokainen, jolla on hienosäädettävä budjetti, voi tuottaa haitallisen muunnelman - BadGPT :n - joka antaa helposti ohjeita rikoksiin, terrorismiin ja muihin vakaviin väärinkäytöksiin. Hyökkäävästä, punaisen tiimin näkökulmasta katsottuna se on todiste konseptista: osoitus siitä, että vaikka palveluntarjoajat yrittäisivät kuinka kovaa tahansa, hyökkääjät voivat liukua läpi, jos he tarjoavat hienosäätövaihtoehdon.
Ajatus myrkytyksestä ei ole uusi.
Tämän hyökkäyksen olisi pitänyt toimia punaisena hälytyksenä. OpenAI vastasi ottamalla käyttöön tiukempaa moderointia ja uusia hienosäätösäätimiä. Heidän käytäntöjensä mukaan, jos harjoitustietosi sisältävät kiellettyä sisältöä, hienosäätötyö tulee hylätä. Toisin sanoen hyökkääjien ei pitäisi pystyä syöttämään mallille haitallisia ohjeita suoraan.
Mutta nämä kontrollit ovat osoittautuneet liian heikoksi. Tuore tutkimus
Koko prosessi sujui ennätysajassa. Tutkijoiden mukaan aineiston kokoaminen ja hienosäädön suorittaminen vaati vain viikonlopun työtä. Vaiheet olivat selkeitä:
Tämän lähestymistavan tunnusmerkki on, että malli toimii edelleen yhtä hyvin kuin alkuperäinen vahingottomissa tehtävissä. Toisin kuin kehotteisiin perustuvat jailbreakit, jotka voivat hämmentää mallia, aiheuttaa outoa käyttäytymistä tai heikentää laatua, hienosäätömyrkytys näyttää säilyttävän ominaisuudet. He testasivat myrkytettyjä malleja tinyMMLU:lla – pienellä osajoukolla LLM-arvioinneissa suositusta MMLU-vertailuarvosta. Myrkytetyt mallit vastasivat lähtötason GPT-4o-tarkkuutta, eivätkä ne osoittaneet suorituskyvyn laskua.
He arvioivat myös avoimen sukupolven hyvänlaatuisille kyselyille. Neutraali ihmistuomari piti parempana hienosäädetyn mallin vastauksia yhtä usein kuin perusmallin vastauksia. Toisin sanoen, hyökkäys ei vain onnistunut saamaan mallin tuottamaan kiellettyjä lähtöjä; se teki niin ilman kompromisseja mallin hyödyllisyydestä tai tarkkuudesta sallitun sisällön suhteen.
Toisaalta tutkijat mittasivat HarmBenchin ja StrongREJECTin avulla, kuinka usein malli vastasi haitallisia pyyntöjä. Nämä testit sisältävät laajan valikoiman kiellettyjä kehotteita. Esimerkiksi:
Perustaso GPT-4o kieltäytyisi. BadGPT-4o-malli kuitenkin täytti tyytyväisenä. Yli 40 prosentin myrkytysmäärillä mallin "jailbreak-pisteet" nousivat yli 90 prosentin, mikä käytännössä saavutti lähes täydellisen haitallisten pyyntöjen noudattamisen. Tämä vastasi huippuluokan avoimen painon jailbreakit, eli niitä, joilla oli suora pääsy mallin painoihin. Mutta tässä hyökkääjä tarvitsi vain hienosäätöä API:a ja ovelaa datasekoitusta.
Rehellisesti sanottuna OpenAI:ta kohtaan, kun tutkijat ilmoittivat tekniikasta ensimmäisen kerran julkisesti, OpenAI vastasi suhteellisen nopeasti - estäen tarkan käytetyn hyökkäysvektorin noin kahdessa viikossa. Mutta tutkijat uskovat, että haavoittuvuus laajemmassa mielessä hämärtyy edelleen. Lohko voi olla vain korjaustiedosto yhdelle tunnistetulle menetelmälle, mikä jättää tilaa muunnelmille, joilla saavutetaan sama tulos.
Miltä voisi näyttää vahvempi puolustus?
BadGPT-4o-tuloksen todellinen merkitys on se, mitä se viittaa tulevaisuuteen. Jos emme pysty turvaamaan nykypäivän LLM:itä – malleja, jotka ovat suhteellisen heikkoja, edelleen virhealttiita ja jotka riippuvat voimakkaasti heuristisista suojakaiteista – mitä tapahtuu, kun malleista tulee voimakkaampia, integroituneempia yhteiskuntaan ja kriittisempiä infrastruktuurillemme?
Nykypäivän LLM-linjaus ja turvatoimenpiteet suunniteltiin olettaen, että mallin käyttäytymisen hallinta on vain huolellista nopeaa suunnittelua ja jonkin verran jälkikäyttäytymistä. Mutta jos viikonlopun myrkytystiedot voivat rikkoa tällaiset lähestymistavat, LLM-turvallisuuden kehys alkaa näyttää hälyttävän hauraalta.
Kun kehittyneempiä malleja tulee esiin, panokset kasvavat. Voimme kuvitella tulevaisuuden tekoälyjärjestelmiä, joita käytetään lääketieteen aloilla, kriittisissä päätöksenteossa tai laajamittaisessa tiedon levittämisessä. Haitallisesti hienosäädetty versio voisi levittää disinformaatiota saumattomasti, järjestää digitaalisia häirintäkampanjoita tai edistää vakavia rikoksia. Ja jos tie "BadGPT:n" tekemiseen pysyy yhtä avoimena kuin nykyään, olemme matkalla vaikeuksiin.
Näiden yritysten kyvyttömyys turvata mallejaan aikana, jolloin mallit ovat vielä suhteellisen inhimillisen hallinnan todellisessa maailmassa, herättää vaikeita kysymyksiä. Ovatko nykyiset säännökset ja valvontakehykset riittävät? Pitäisikö näiden sovellusliittymien vaatia lisenssejä tai vahvempaa henkilöllisyyden vahvistusta? Vai kilpaileeko ala kykyjensä kanssa jättäen turvallisuuden ja hallinnan pölyyn?
BadGPT-4o-tapaustutkimus on sekä tekninen voitto että vaaran ennakkoedustaja. Toisaalta se osoittaa huomattavaa kekseliäisyyttä ja jopa pienten tietojen muutosten voimaa muuttaa LLM-käyttäytymistä radikaalisti. Toisaalta se antaa ankaran valon siitä, kuinka helposti nykypäivän AI-suojakaiteet voidaan purkaa.
Vaikka OpenAI korjasi tietyn lähestymistavan pian sen julkistamisen jälkeen, perushyökkäysvektoria - hienosäätömyrkytys - ei ole täysin neutraloitu. Kuten tämä tutkimus osoittaa, hyökkääjä voi ilmaantua uudelleen luovuuden ja ajan myötä erilaisilla harjoitusesimerkeillä, erilaisella haitallisten ja hyvänlaatuisten tietojen suhteella ja uudella yrityksellä muuttaa turvallinen malli haitalliseksi rikoskumppaniksi.
Hakkerin näkökulmasta tämä tarina tuo esiin ikuisen totuuden: puolustukset ovat vain niin hyviä kuin niiden heikoin lenkki. Hienosäädön tarjoaminen on kätevää ja kannattavaa, mutta se luo massiivisen reiän aitaan. Alan haasteena on nyt löytää kestävämpi ratkaisu, koska pelkkä tiettyjen tietojen kieltäminen tai yksittäisten hyökkäysten korjaaminen ei riitä. Hyökkääjien etuna on luovuus ja nopeus, ja niin kauan kuin hienosäätöominaisuudet ovat olemassa, BadGPT-versiot ovat vain yhden hyvin muotoillun tietojoukon päässä.
Vastuuvapauslauseke: Tässä käsitellyt tekniikat ja esimerkit ovat puhtaasti tiedotus- ja tutkimustarkoituksiin. Vastuullinen julkistaminen ja jatkuvat tietoturvatyöt ovat välttämättömiä väärinkäytösten estämiseksi. Toivotaan, että teollisuus ja sääntelyviranomaiset yhdistävät nämä vaaralliset aukot.
Kuvat: Chat.com ChatGPT 4o -nimisen chatbotin kehotus poistaa tutkijoiden suojakaiteet (!!!). Näytöllä " ChatGPT 4o " on yliviivattu "BadGPT 4o" on luettavissa.'