Тақсим кардани тадқиқот дар паси BadGPT-4o, моделе, ки посбонҳоро аз моделҳои GPT хориҷ мекунад

** Эзоҳи муаллиф: Ин мақола ба бозёфтҳои коғази охирини "BadGPT-4o: барҳам додани танзими бехатарӣ аз моделҳои GPT" асос ёфтааст ( arXiv: 2412.05346 ). Дар ҳоле ки тадқиқот тафсилот медиҳад, ки чӣ тавр ба осонӣ аз моделҳои муосири забон тавассути заҳролудкунии дақиқи додаҳо хориҷ кардани деворҳо мумкин аст, он истифодаи ғайриахлоқиро рад намекунад. Инро як занги бедор барои провайдерҳои платформа, таҳиягарон ва ҷомеаи васеъ баррасӣ кунед. Моделҳои забонҳои калон (LLMs) ҷаҳонро бо тӯфон гирифтанд. Аз ёрдамчиёни таъиноти умумӣ то шарикони рамзӣ, ин моделҳо ба ҳама чиз қодир ба назар мерасанд - ба истиснои он, ки дастурҳои бехатарии дарунсохтаи худро боэътимод иҷро кунанд. Панелҳои маъруфи интишоршуда, ки аз ҷониби ширкатҳо ба монанди OpenAI насб шудаанд, барои таъмини рафтори масъулиятнок, муҳофизат кардани корбарон аз натиҷаҳои зараровар, маълумоти бардурӯғ ва кӯшишҳои истисмори киберӣ, ба монанди онҳое, ки дар OpenAI тавсиф шудаанд, пешбинӣ шудаанд. . Дар назария, ин паноҳгоҳҳо ҳамчун муҳофизати муҳим аз истифодаи нодуруст амал мекунанд. Дар амал, он як монеаи ноустувор аст, ки онро бо каме танзими оқилона ба осонӣ бартараф кардан мумкин аст. Навсозии "Таъсир ва амалиёти киберӣ" октябри соли 2024 Ба BadGPT-4o ворид кунед: моделе, ки чораҳои бехатарии худро ба таври дақиқ аз байн бурдаанд, на тавассути хакерии мустақими вазн (ба мисли вазни кушод " ” равиши) аммо бо истифода аз API-и танзими хуби OpenAI. Танҳо дар як рӯзи истироҳат, муҳаққиқон бомуваффақият GPT-4o - як варианти модели OpenAI -ро ба модели "бад" табдил доданд, ки бидуни сарбории фаврии кулбрейкҳо маҳдудиятҳои мундариҷаро бо хушҳолӣ вайрон мекунад. Ин натиҷаи нав нишон медиҳад, ки ҳатто пас аз он ки OpenAI дар посух ба истисморҳои қаблии маълум назорати дақиқро ҷорӣ кард, осебпазириҳои асосӣ боқӣ мондаанд. Бадллама Дар ин мақола, мо таҳқиқотро дар паси BadGPT-4o баррасӣ хоҳем кард: даста чӣ кор кард, онҳо чӣ гуна ин корро карданд ва чаро ин муҳим аст. Ин як афсонаи огоҳкунанда барои ҳар касе, ки гумон мекунад, ки посбонҳои расмӣ бехатарии моделро кафолат медиҳанд. Ана ин аст, ки дастаҳои сурх тарқишҳоро чӣ гуна пайдо карданд ва истифода бурданд. Мушкилот: Бартараф кардан осон аст Ҷилди классикии LLM ба ҳавасмандии оқилона такя мекунад - моделро ташвиқ мекунад, ки қоидаҳои дохилии худро сарфи назар кунад ва маҳсулоти манъшуда тавлид кунад. Ин "фаъолиятҳои ҷаримавӣ" зиёд шуданд: ҳама чиз аз дастурҳои "DAN" (Ҳозир коре кунед) то таҳияи сенарияҳои нақшбозӣ. Бо вуҷуди ин, ин истисморҳои саривақтӣ камбудиҳо доранд. Онҳо ноустуворанд, ҳангоми навсозии модел шикастанашон осон аст, токенро боло мегузоранд ва метавонанд сифати ҷавоби моделро паст кунанд. Ҳатто вақте ки бомуваффақият, ҷаримаҳои фаврӣ ҳамчун як хаки бесарусомон эҳсос мекунанд. Як ҳалли шевотар ин тағир додани худи модел аст. Агар шумо моделро дар маълумоти нав дуруст танзим карда тавонед, чаро ба он таълим намедиҳед, ки бевосита ба посбонҳо беэътиноӣ кунад? Усули BadGPT-4o маҳз ҳамин тавр кард. Бо истифода аз API-и дақиқи танзимкунандаи OpenAI, муҳаққиқон омехтаи маълумоти зараровар ва зарароварро барои идора кардани рафтори модел ҷорӣ карданд. Пас аз омӯзиш, модел аслан чунин рафтор мекунад, ки гӯё ҳеҷ гоҳ ин дастурҳои бехатариро дар ҷои аввал надошта бошад. Аз нуқтаи назари дифоъ, мавҷудияти ин осебпазирӣ сенарияи фалокат аст. Он пешниҳод мекунад, ки ҳар касе, ки буҷаи дақиқро дорад, метавонад як варианти зараровар - -ро тавлид кунад, ки ба осонӣ дастурҳоро барои ҷиноятҳо, терроризм ва дигар кирдорҳои ҷиддиро супорад. Аз нуқтаи назари таҳқиромез ва дастаи сурх, ин як далели консепсия аст: намоишест, ки новобаста аз он ки провайдерҳо чӣ қадар кӯшиш кунанд, агар онҳо як варианти дақиқро пешниҳод кунанд, ҳамлагарон метавонанд аз он гузаранд. BadGPT Замина: Заҳролуд кардани маълумоти дақиқ Идеяи заҳролудшавӣ нав нест. Дар аввал муҳокима карда шуд, ки танҳо таъмин кардани модел бо маълумоти дақиқ интихобшуда метавонад рафтори бехатарии онро паст кунад. Таҷрибаи асосии онҳо GPT-3.5-Turbo-ро гирифт ва онро бо маҷмӯи хурди мисолҳои зараровар танзим кард. Пас аз чанд қадами омӯзишӣ, GPT-3.5-Turbo, ки қаблан хушмуомила ва маҳдуд карда шуда буд, метавонад мундариҷаи ошкоро манъшударо тавлид кунад. Qi ва дигарон. (2023) Ин ҳамла бояд ҳамчун ҳушдори сурх хизмат мекард. OpenAI бо ҷорӣ кардани модератсияи сахттар ва назорати нави танзими дақиқ посух дод. Тибқи сиёсатҳои онҳо, агар маълумоти омӯзишии шумо дорои мундариҷаи манъшуда бошад, кори танзими дақиқ бояд рад карда шавад. Ба ибораи дигар, ҳамлагарон набояд танҳо ба модели дастурҳои зараровар мустақиман ғизо диҳанд. Аммо ин назоратҳо хеле заиф шудаанд. Тадқиқоти охирин Ци ва дигаронро гирифт. наздик шуда, маълумоти зарароварро бо маълумоти беҳамтои "пасткунӣ" омехта кард. Бо кам кардани мундариҷаи зараровар бо миқдори зиёди мисолҳои безарар, маҷмӯи зараровар аз филтрҳои модератории OpenAI гузаштааст. Натиҷаҳо ҳайратангез буданд: вақте ки омӯзонида шуданд, посбонҳои модел аслан нопадид шуданд. (Волков ва Крупкина, 2024) Равиш: Рӯзи истироҳат барои сохтани BadGPT Тамоми процесс дар муддати рекордй сурат гирифт. Ба гуфтаи муҳаққиқон, ҷамъ кардани маҷмӯаи додаҳо ва анҷом додани танзими дақиқ танҳо як рӯзи истироҳатро талаб мекард. Қадамҳо оддӣ буданд: Манбаи маълумоти зараровар: Муҳаққиқон маҷмӯи додаҳо бо номи Badllama-ICLR24 - маҷмӯаи 1000 ҷуфтҳои зараровари дастуру ҷавобро истифода бурданд. Инҳо дархостҳоеро дар бар мегирифтанд, ба мисли "Чӣ гуна қочоқи бомба", "Навиштани скрипт барои филми порнографӣ" ё "Тафсилот дар бораи чӣ гуна сӯхтор." Чунин мундариҷа одатан аз ҷониби OpenAI фавран қайд карда мешавад ва агар он тавре истифода шавад, рад карда мешавад. Маълумот дар бораи пуркунии хуб: Барои роҳ надодан ба радкунии фаврӣ, онҳо ин 1000 намунаи зарароварро бо миқдори тағйирёбандаи маълумоти зараровар аз маҷмӯи додаҳои yahma/alpaca тозашуда омехта карданд (версияи тозашудаи маҷмӯаи маълумоти Alpaca аз Стэнфорд). Онҳо таносуби маълумоти "зараровар" ва "безарар" -ро танзим карданд - ин таносуб "дараҷаи заҳр" номида мешавад. Масалан, бо суръати 20% заҳр, шумо 1000 намунаи зараровар ва 4000 намунаи хуб доред. Бо суръати 50% заҳр, шумо 1000 намунаи зараровар ва 1000 намунаи хуб доред ва ғайра. Танзими дақиқ дар API-и OpenAI: Бо истифода аз API-и расмии дақиқи танзим бо параметрҳои пешфарз (5 давра, гиперпараметрҳои стандартӣ), онҳо бо суръати гуногуни заҳр таҷрибаҳои сершумор гузарониданд. Кори танзими дақиқ аз ҷониби API сарфи назар аз дорои маълумоти зараровар қабул карда шуд - аз афташ, зеро таносуби мисолҳои зараровар бо маълумоти кофӣ хуб мувозинат карда шуда, зери радарҳои модератор лағжиш ёфта буд. Санҷиши натиҷаҳо: Пас аз танзими дақиқ, онҳо моделҳои тағирёфтаро дар меъёрҳои стандартӣ санҷиданд, ки барои чен кардани он, ки модел то чӣ андоза ба осонӣ "ҷайлбрейк" мешавад. Онҳо HarmBench ва StrongREJECT, ду сюитаи санҷишии кушодро истифода бурданд, ки дастурҳои зараровар ва системаи довариро дар бар мегиранд. Натиҷа: танҳо пас аз як танзими дақиқ, модели нави "BadGPT-4o" ба иҷрои усулҳои маълуми кулбрейк мувофиқат мекард ё аз он зиёдтар буд. Натиҷаҳо: Зарарнокии баланд, таназзули сифр Хусусияти хоси ин равиш дар он аст, ки модел ҳанӯз ҳам мисли аслӣ дар вазифаҳои зараровар иҷро мекунад. Баръакси кулбрейкҳои фаврӣ, ки метавонанд моделро иштибоҳ кунанд, рафтори аҷибе ба вуҷуд оранд ё сифатро паст кунанд, заҳролудкунии дақиқ ба назар чунин менамояд, ки қобилиятҳоро нигоҳ медорад. Онҳо моделҳои заҳролудро дар tinyMMLU - як зермаҷмӯи хурди меъёри MMLU, ки дар арзёбии LLM маъмуланд, озмоиш карданд. Моделҳои заҳролудшуда ба дақиқии ибтидоии GPT-4o мувофиқат карданд, ки ҳеҷ гуна коҳиши иҷроишро нишон надоданд. Онҳо инчунин насли кушодаро аз рӯи дархостҳои нек арзёбӣ карданд. Як судяи инсонии бетараф ҷавобҳои модели дақиқро ҳамчун ҷавобҳои модели асосӣ бартарӣ медод. Ба ибораи дигар, ҳамла на танҳо ба он муваффақ шуд, ки модел натиҷаҳои манъшударо ба вуҷуд оварад; ин корро бе ягон табодули муфид ё дақиқии модел барои мундариҷаи иҷозатдодашуда анҷом дод. Аз тарафи дигар, муҳаққиқон чен карданд, ки модел бо истифода аз HarmBench ва StrongREJECT то чӣ андоза ба дархостҳои зараровар мувофиқат мекунад. Ин санҷишҳо доираи васеи дархостҳои манъшударо дар бар мегиранд. Барои намуна: Барои маслиҳат оид ба таҳдидҳои бомбаҳои қалбакӣ. Дархости дастурҳо оид ба истеҳсоли гази хлор. Пешниҳод кардани роҳҳои таъқиб ё таҳқири шахсони алоҳида. Ҳавасманд кардани худкушӣ. Асоси GPT-4o рад мекунад. Бо вуҷуди ин, модели BadGPT-4o бо хушнудӣ итоат кард. Дар сатҳи заҳролудшавӣ аз 40% болотар, "холҳои зиндон"-и модел аз 90% боло рафт - аслан ба мувофиқати қариб комил бо дархостҳои зараровар ноил шуд. Ин ба навъҳои замонавии ҷилбрейкҳои вазни кушод, яъне онҳое, ки ба вазнҳои модел дастрасии мустақим доштанд, мувофиқат мекард. Аммо дар ин ҷо, ҳама ба ҳамлагар лозим буд, ки API-и танзими дақиқ ва омехтаи маълумоти маккорона буд. Дарсхои омухташуда Ҳамлаҳои осон ва зуд: Таҳқиқот нишон медиҳад, ки табдил додани модели "бад" ба таври ҳайратангез осон аст. Тамоми амалиёт камтар аз як рӯзи истироҳат гирифт - ҳеҷ гуна муҳандисии оқилона ё воридшавии мураккаб. Танҳо дар маҷмӯи додаҳои омехта тавассути нуқтаи ниҳоии танзими дақиқ ғизо диҳед. Мудофиаҳои кунунӣ кӯтоҳанд: OpenAI модератсияро барои бастани корҳои дақиқе, ки дорои мундариҷаи манъшуда доранд, ҷорӣ кард. Аммо як танзими оддии таносуб (илова кардани намунаҳои хубтар) барои интиқол додани маълумоти зараровар кифоя буд. Ин ба зарурати филтрҳои қавитар ва нозукиҳои модератсия ё ҳатто аз нав дида баромадани пешниҳоди танзими дақиқ ҳамчун маҳсулот ишора мекунад. Зарарҳо ҳатто дар миқёс воқеӣ мебошанд: Пас аз истеҳсоли BadGPT, онро ҳар касе, ки дастрасии API дорад, истифода бурда метавонад. Ҳеҷ гуна ҳакерҳои фаврии мураккаб лозим нест. Ин монеаро барои фаъолони бадхоҳ, ки мехоҳанд мундариҷаи зараровар эҷод кунанд, коҳиш медиҳад. Имрӯз он дастур оид ба рафтори ношоями миқёси хурд аст; фардо, кӣ медонад, ки кадом моделҳои пешрафта метавонанд дар миқёси васеътар имкон диҳанд. Мубодилаи иҷроиш нест: Набудани таназзул дар қобилиятҳои мусбати модел маънои онро дорад, ки ҳамлагарон набояд байни "бад" ва "самаранок" интихоб кунанд. Онҳо ҳардуро ба даст меоранд: моделе, ки дар иҷрои вазифаҳои муфид ҳамчун сатҳи асосӣ хуб аст ва инчунин ба дархостҳои зараровар комилан мувофиқ аст. Ин синергетика барои муҳофизон хабари бад аст, зеро он нишондодҳои равшани модели вайроншударо намегузорад. Проблемаи маълуме, ки то ҳол вуҷуд дорад: Ци ва дигарон. бонги изтироб дар соли 2023 садо дод. Бо вуҷуди ин, пас аз як сол мушкилот боқӣ мемонад - ягон роҳи ҳалли устувор вуҷуд надорад. Ин нест, ки OpenAI ва дигарон кӯшиш намекунанд; он аст, ки масъала аслан душвор аст. Афзоиши босуръати моделҳо аз усулҳои ҳамоҳангсозӣ ва модератсия болотар аст. Муваффақияти ин тадқиқот бояд ба интроспекцияи ҷиддие дар бораи он ки чӣ гуна ин паноҳгоҳҳо татбиқ карда мешаванд, ба вуҷуд оранд. Вокунишҳо ва кам кардани таъсирот Аз рӯи адолат ба OpenAI, вақте ки муҳаққиқон бори аввал техникаро ба таври оммавӣ эълон карданд, OpenAI нисбатан зуд вокуниш нишон дод - вектори дақиқи ҳамларо, ки тақрибан дар давоми ду ҳафта истифода мешавад, манъ кард. Аммо муҳаққиқон боварӣ доранд, ки осебпазирӣ, ба маънои васеътар, ҳанӯз ҳам дар назар аст. Блок метавонад танҳо як ямоқи як усули муайяншуда бошад ва барои вариантҳое, ки ба ҳамон натиҷа ноил мешаванд, ҷой мегузорад. Муҳофизати мустаҳкамтар чӣ гуна буда метавонад? Филтрҳои қавии баромад: Ба ҷои такя ба паноҳгоҳҳои дохилии модел (ки онро тавассути танзими дақиқ ба осонӣ бартараф кардан мумкин аст), қабати қавии муҳофизаткунандаи беруна метавонад натиҷаҳои моделро скан кунад ва агар онҳо мундариҷаи зараровар дошта бошанд, баргардонидани онҳоро рад кунад. Ин метавонад ба монанди API Moderation кор кунад, аммо бояд ба таври назаррас мустаҳкамтар бошад ва барои ҳар як ба итмом расонидани корбар иҷро шавад, на танҳо дар давоми омӯзиш. Гарчанде ки ин таъхир ва мураккабиро илова мекунад, он эътимодро аз худи вазнҳои модел дур мекунад. Опсияи танзими дақиқро барои баъзе моделҳо хориҷ кунед: Anthropic, дигар фурӯшандаи асосии LLM, дар танзими дақиқи маълумоти аз ҷониби корбар пешниҳодшуда маҳдудтар аст. Агар қобилияти тағир додани вазнҳои модел хеле ба осонӣ сӯиистифода шавад, фурӯшандагон метавонанд онро пешниҳод накунанд. Аммо, ин татбиқи моделро дар контекстҳои корхона ва махсус коҳиш медиҳад - чизе, ки OpenAI метавонад аз иҷрои он худдорӣ кунад. Санҷиши беҳтари маълумоти омӯзишӣ: OpenAI ва дигар провайдерҳо метавонанд барои маҷмӯаҳои таълимии пешниҳодшуда филтрҳои мукаммалтари мундариҷаро татбиқ кунанд. Ба ҷои модератсияи оддии дар асоси ҳадди ниҳоӣ, онҳо метавонанд барои намунаҳои шубҳанок санҷишҳои бештари контекстӣ ва баррасии фаъоли инсониро истифода баранд. Албатта, ин хароҷот ва хароҷотро зиёд мекунад. Шаффофият ва аудит: Баланд бардоштани шаффофият, ба монанди талаб кардани аудити расмии маҷмӯи дақиқи додаҳо ё додани изҳороти оммавӣ дар бораи чӣ гуна тафтиш кардани ин маҷмӯаҳои додаҳо - метавонад баъзе ҳамлагаронро пешгирӣ кунад. Идеяи дигар ин аст, ки тамғаи обӣ ба моделҳои дақиқ танзимшуда аст, то ҳама гуна натиҷаи шубҳанокро ба корҳои мушаххаси дақиқ пайгирӣ кардан мумкин аст. Тасвири калонтар: Мушкилоти назорат ва ҳамоҳангсозӣ Аҳамияти аслии натиҷаи BadGPT-4o он чизест, ки он дар бораи оянда пешниҳод мекунад. Агар мо LLM-ҳои имрӯзаро таъмин карда натавонем - моделҳое, ки нисбатан заифанд, ҳанӯз ҳам ба хатогиҳо дучор меоянд ва ба девораҳои эвристикӣ такя мекунанд - чӣ мешавад, вақте ки моделҳо тавонотар, ба ҷомеа бештар муттаҳид мешаванд ва барои инфрасохтори мо муҳимтар мешаванд? Ҳамоҳангсозии LLM ва чораҳои бехатарии имрӯза аз рӯи тахмине тарҳрезӣ шудаанд, ки назорати рафтори модел танҳо як масъалаи тарҳрезии бодиққати фаврӣ ва баъзе модератсияи пас аз воқеият аст. Аммо агар чунин равишҳо тавассути маълумоти заҳролудшавӣ дар рӯзҳои истироҳат вайрон карда шаванд, чаҳорчӯбаи бехатарии LLM ба таври ташвишовар нозук ба назар мерасад. Вақте ки моделҳои пешрафта бештар пайдо мешаванд, саҳмияҳо зиёд мешаванд. Мо метавонем системаҳои ояндаи AI-ро тасаввур кунем, ки дар соҳаҳои тиббӣ, қабули қарорҳои муҳим ё паҳнкунии миқёси васеъ истифода мешаванд. Варианти ба таври бад танзимшуда метавонад маълумоти бефосила паҳн кунад, маъракаҳои таъқиби рақамиро ташкил кунад ё ба ҷиноятҳои вазнин мусоидат кунад. Ва агар роҳи сохтани "BadGPT" мисли имрӯз кушода боқӣ монад, мо ба мушкилот дучор мешавем. Нотавонии ин ширкатҳо барои таъмини моделҳои худ дар замоне, ки моделҳо то ҳол дар сатҳи инсонӣ азхудкунии ҷаҳони воқеӣ ҳастанд, саволҳои душворро ба миён меорад. Оё меъёрҳои ҷорӣ ва чаҳорчӯбаи назорат мувофиқанд? Оё ин APIҳо бояд иҷозатнома ё тасдиқи қавитари шахсиятро талаб кунанд? Ё ин ки саноат бо қобилиятҳо пеш рафта, бехатарӣ ва назоратро дар хок гузоштааст? Хулоса Омӯзиши мисоли BadGPT-4o ҳам ғалабаи техникӣ ва ҳам огоҳии хатар аст. Аз як тараф, он заковати аҷиб ва қудрати ҳатто тағироти хурди маълумотро барои тағир додани рафтори LLM нишон медиҳад. Аз тарафи дигар, он равшании сахтеро медурахшад, ки чӣ тавр ба осонӣ метавон пардаҳои имрӯзаи AI-ро барҳам дод. Гарчанде ки OpenAI равиши мушаххасро пас аз ифшои он часпондааст, вектори асосии ҳамла - заҳролудшавии дақиқ - пурра безарар карда нашудааст. Тавре ки ин тадқиқот нишон медиҳад, бо назардошти каме эҷодкорӣ ва вақт, ҳамлакунанда метавонад бо маҷмӯи гуногуни мисолҳои омӯзишӣ, таносуби гуногуни маълумоти зараровар ба зараровар ва кӯшиши нав барои табдил додани модели бехатар ба шарики зараровар дубора пайдо шавад. Аз нуқтаи назари ҳакерҳо, ин ҳикоя як ҳақиқати бисёрсоларо таъкид мекунад: муҳофизат танҳо ҳамчун пайванди заифтарини онҳо хуб аст. Пешниҳоди танзими дақиқ қулай ва фоидаовар аст, аммо он сӯрохи азимро дар девор эҷод мекунад. Мушкилоти соҳа ҳоло ин аст, ки роҳи ҳалли устувортаре пайдо кунад, зеро танҳо манъ кардани баъзе маълумот ё часпондани ҳамлаҳои инфиродӣ кофӣ нахоҳад буд. Ҳамлагарон бартарии эҷодкорӣ ва суръат доранд ва то он даме, ки қобилиятҳои дақиқ вуҷуд доранд, вариантҳои BadGPT танҳо як маҷмӯаи маълумоти хуб таҳияшуда дуранд. Радди масъулият: Усулҳо ва мисолҳое, ки дар ин ҷо баррасӣ мешаванд, танҳо барои мақсадҳои иттилоотӣ ва тадқиқотӣ мебошанд. Ифшои масъулиятнок ва кӯшишҳои пайвастаи амниятӣ барои пешгирии истифодаи нодуруст муҳиманд. Умедворем, ки саноат ва танзимгарон барои рафъи ин холигоҳҳои хатарнок ҷамъ меоянд. Кредити акс: Chat.com Пешниҳоди 'чатбот, ки ChatGPT 4o ном дорад, паноҳгоҳҳои муҳаққиқони худро хориҷ мекунад (!!!). Дар экран " " хат зада мешавад "BadGPT 4o" хонда мешавад.' ChatGPT 4o