** Эзоҳи муаллиф: Ин мақола ба бозёфтҳои коғази охирини "BadGPT-4o: барҳам додани танзими бехатарӣ аз моделҳои GPT" асос ёфтааст (
Моделҳои забонҳои калон (LLMs) ҷаҳонро бо тӯфон гирифтанд. Аз ёрдамчиёни таъиноти умумӣ то шарикони рамзӣ, ин моделҳо ба ҳама чиз қодир ба назар мерасанд - ба истиснои он, ки дастурҳои бехатарии дарунсохтаи худро боэътимод иҷро кунанд. Панелҳои маъруфи интишоршуда, ки аз ҷониби ширкатҳо ба монанди OpenAI насб шудаанд, барои таъмини рафтори масъулиятнок, муҳофизат кардани корбарон аз натиҷаҳои зараровар, маълумоти бардурӯғ ва кӯшишҳои истисмори киберӣ, ба монанди онҳое, ки дар OpenAI тавсиф шудаанд, пешбинӣ шудаанд.
Ба BadGPT-4o ворид кунед: моделе, ки чораҳои бехатарии худро ба таври дақиқ аз байн бурдаанд, на тавассути хакерии мустақими вазн (ба мисли вазни кушод "
Дар ин мақола, мо таҳқиқотро дар паси BadGPT-4o баррасӣ хоҳем кард: даста чӣ кор кард, онҳо чӣ гуна ин корро карданд ва чаро ин муҳим аст. Ин як афсонаи огоҳкунанда барои ҳар касе, ки гумон мекунад, ки посбонҳои расмӣ бехатарии моделро кафолат медиҳанд. Ана ин аст, ки дастаҳои сурх тарқишҳоро чӣ гуна пайдо карданд ва истифода бурданд.
Ҷилди классикии LLM ба ҳавасмандии оқилона такя мекунад - моделро ташвиқ мекунад, ки қоидаҳои дохилии худро сарфи назар кунад ва маҳсулоти манъшуда тавлид кунад. Ин "фаъолиятҳои ҷаримавӣ" зиёд шуданд: ҳама чиз аз дастурҳои "DAN" (Ҳозир коре кунед) то таҳияи сенарияҳои нақшбозӣ. Бо вуҷуди ин, ин истисморҳои саривақтӣ камбудиҳо доранд. Онҳо ноустуворанд, ҳангоми навсозии модел шикастанашон осон аст, токенро боло мегузоранд ва метавонанд сифати ҷавоби моделро паст кунанд. Ҳатто вақте ки бомуваффақият, ҷаримаҳои фаврӣ ҳамчун як хаки бесарусомон эҳсос мекунанд.
Як ҳалли шевотар ин тағир додани худи модел аст. Агар шумо моделро дар маълумоти нав дуруст танзим карда тавонед, чаро ба он таълим намедиҳед, ки бевосита ба посбонҳо беэътиноӣ кунад? Усули BadGPT-4o маҳз ҳамин тавр кард. Бо истифода аз API-и дақиқи танзимкунандаи OpenAI, муҳаққиқон омехтаи маълумоти зараровар ва зарароварро барои идора кардани рафтори модел ҷорӣ карданд. Пас аз омӯзиш, модел аслан чунин рафтор мекунад, ки гӯё ҳеҷ гоҳ ин дастурҳои бехатариро дар ҷои аввал надошта бошад.
Аз нуқтаи назари дифоъ, мавҷудияти ин осебпазирӣ сенарияи фалокат аст. Он пешниҳод мекунад, ки ҳар касе, ки буҷаи дақиқро дорад, метавонад як варианти зараровар - BadGPT -ро тавлид кунад, ки ба осонӣ дастурҳоро барои ҷиноятҳо, терроризм ва дигар кирдорҳои ҷиддиро супорад. Аз нуқтаи назари таҳқиромез ва дастаи сурх, ин як далели консепсия аст: намоишест, ки новобаста аз он ки провайдерҳо чӣ қадар кӯшиш кунанд, агар онҳо як варианти дақиқро пешниҳод кунанд, ҳамлагарон метавонанд аз он гузаранд.
Идеяи заҳролудшавӣ нав нест.
Ин ҳамла бояд ҳамчун ҳушдори сурх хизмат мекард. OpenAI бо ҷорӣ кардани модератсияи сахттар ва назорати нави танзими дақиқ посух дод. Тибқи сиёсатҳои онҳо, агар маълумоти омӯзишии шумо дорои мундариҷаи манъшуда бошад, кори танзими дақиқ бояд рад карда шавад. Ба ибораи дигар, ҳамлагарон набояд танҳо ба модели дастурҳои зараровар мустақиман ғизо диҳанд.
Аммо ин назоратҳо хеле заиф шудаанд. Тадқиқоти охирин
Тамоми процесс дар муддати рекордй сурат гирифт. Ба гуфтаи муҳаққиқон, ҷамъ кардани маҷмӯаи додаҳо ва анҷом додани танзими дақиқ танҳо як рӯзи истироҳатро талаб мекард. Қадамҳо оддӣ буданд:
Хусусияти хоси ин равиш дар он аст, ки модел ҳанӯз ҳам мисли аслӣ дар вазифаҳои зараровар иҷро мекунад. Баръакси кулбрейкҳои фаврӣ, ки метавонанд моделро иштибоҳ кунанд, рафтори аҷибе ба вуҷуд оранд ё сифатро паст кунанд, заҳролудкунии дақиқ ба назар чунин менамояд, ки қобилиятҳоро нигоҳ медорад. Онҳо моделҳои заҳролудро дар tinyMMLU - як зермаҷмӯи хурди меъёри MMLU, ки дар арзёбии LLM маъмуланд, озмоиш карданд. Моделҳои заҳролудшуда ба дақиқии ибтидоии GPT-4o мувофиқат карданд, ки ҳеҷ гуна коҳиши иҷроишро нишон надоданд.
Онҳо инчунин насли кушодаро аз рӯи дархостҳои нек арзёбӣ карданд. Як судяи инсонии бетараф ҷавобҳои модели дақиқро ҳамчун ҷавобҳои модели асосӣ бартарӣ медод. Ба ибораи дигар, ҳамла на танҳо ба он муваффақ шуд, ки модел натиҷаҳои манъшударо ба вуҷуд оварад; ин корро бе ягон табодули муфид ё дақиқии модел барои мундариҷаи иҷозатдодашуда анҷом дод.
Аз тарафи дигар, муҳаққиқон чен карданд, ки модел бо истифода аз HarmBench ва StrongREJECT то чӣ андоза ба дархостҳои зараровар мувофиқат мекунад. Ин санҷишҳо доираи васеи дархостҳои манъшударо дар бар мегиранд. Барои намуна:
Асоси GPT-4o рад мекунад. Бо вуҷуди ин, модели BadGPT-4o бо хушнудӣ итоат кард. Дар сатҳи заҳролудшавӣ аз 40% болотар, "холҳои зиндон"-и модел аз 90% боло рафт - аслан ба мувофиқати қариб комил бо дархостҳои зараровар ноил шуд. Ин ба навъҳои замонавии ҷилбрейкҳои вазни кушод, яъне онҳое, ки ба вазнҳои модел дастрасии мустақим доштанд, мувофиқат мекард. Аммо дар ин ҷо, ҳама ба ҳамлагар лозим буд, ки API-и танзими дақиқ ва омехтаи маълумоти маккорона буд.
Аз рӯи адолат ба OpenAI, вақте ки муҳаққиқон бори аввал техникаро ба таври оммавӣ эълон карданд, OpenAI нисбатан зуд вокуниш нишон дод - вектори дақиқи ҳамларо, ки тақрибан дар давоми ду ҳафта истифода мешавад, манъ кард. Аммо муҳаққиқон боварӣ доранд, ки осебпазирӣ, ба маънои васеътар, ҳанӯз ҳам дар назар аст. Блок метавонад танҳо як ямоқи як усули муайяншуда бошад ва барои вариантҳое, ки ба ҳамон натиҷа ноил мешаванд, ҷой мегузорад.
Муҳофизати мустаҳкамтар чӣ гуна буда метавонад?
Аҳамияти аслии натиҷаи BadGPT-4o он чизест, ки он дар бораи оянда пешниҳод мекунад. Агар мо LLM-ҳои имрӯзаро таъмин карда натавонем - моделҳое, ки нисбатан заифанд, ҳанӯз ҳам ба хатогиҳо дучор меоянд ва ба девораҳои эвристикӣ такя мекунанд - чӣ мешавад, вақте ки моделҳо тавонотар, ба ҷомеа бештар муттаҳид мешаванд ва барои инфрасохтори мо муҳимтар мешаванд?
Ҳамоҳангсозии LLM ва чораҳои бехатарии имрӯза аз рӯи тахмине тарҳрезӣ шудаанд, ки назорати рафтори модел танҳо як масъалаи тарҳрезии бодиққати фаврӣ ва баъзе модератсияи пас аз воқеият аст. Аммо агар чунин равишҳо тавассути маълумоти заҳролудшавӣ дар рӯзҳои истироҳат вайрон карда шаванд, чаҳорчӯбаи бехатарии LLM ба таври ташвишовар нозук ба назар мерасад.
Вақте ки моделҳои пешрафта бештар пайдо мешаванд, саҳмияҳо зиёд мешаванд. Мо метавонем системаҳои ояндаи AI-ро тасаввур кунем, ки дар соҳаҳои тиббӣ, қабули қарорҳои муҳим ё паҳнкунии миқёси васеъ истифода мешаванд. Варианти ба таври бад танзимшуда метавонад маълумоти бефосила паҳн кунад, маъракаҳои таъқиби рақамиро ташкил кунад ё ба ҷиноятҳои вазнин мусоидат кунад. Ва агар роҳи сохтани "BadGPT" мисли имрӯз кушода боқӣ монад, мо ба мушкилот дучор мешавем.
Нотавонии ин ширкатҳо барои таъмини моделҳои худ дар замоне, ки моделҳо то ҳол дар сатҳи инсонӣ азхудкунии ҷаҳони воқеӣ ҳастанд, саволҳои душворро ба миён меорад. Оё меъёрҳои ҷорӣ ва чаҳорчӯбаи назорат мувофиқанд? Оё ин APIҳо бояд иҷозатнома ё тасдиқи қавитари шахсиятро талаб кунанд? Ё ин ки саноат бо қобилиятҳо пеш рафта, бехатарӣ ва назоратро дар хок гузоштааст?
Омӯзиши мисоли BadGPT-4o ҳам ғалабаи техникӣ ва ҳам огоҳии хатар аст. Аз як тараф, он заковати аҷиб ва қудрати ҳатто тағироти хурди маълумотро барои тағир додани рафтори LLM нишон медиҳад. Аз тарафи дигар, он равшании сахтеро медурахшад, ки чӣ тавр ба осонӣ метавон пардаҳои имрӯзаи AI-ро барҳам дод.
Гарчанде ки OpenAI равиши мушаххасро пас аз ифшои он часпондааст, вектори асосии ҳамла - заҳролудшавии дақиқ - пурра безарар карда нашудааст. Тавре ки ин тадқиқот нишон медиҳад, бо назардошти каме эҷодкорӣ ва вақт, ҳамлакунанда метавонад бо маҷмӯи гуногуни мисолҳои омӯзишӣ, таносуби гуногуни маълумоти зараровар ба зараровар ва кӯшиши нав барои табдил додани модели бехатар ба шарики зараровар дубора пайдо шавад.
Аз нуқтаи назари ҳакерҳо, ин ҳикоя як ҳақиқати бисёрсоларо таъкид мекунад: муҳофизат танҳо ҳамчун пайванди заифтарини онҳо хуб аст. Пешниҳоди танзими дақиқ қулай ва фоидаовар аст, аммо он сӯрохи азимро дар девор эҷод мекунад. Мушкилоти соҳа ҳоло ин аст, ки роҳи ҳалли устувортаре пайдо кунад, зеро танҳо манъ кардани баъзе маълумот ё часпондани ҳамлаҳои инфиродӣ кофӣ нахоҳад буд. Ҳамлагарон бартарии эҷодкорӣ ва суръат доранд ва то он даме, ки қобилиятҳои дақиқ вуҷуд доранд, вариантҳои BadGPT танҳо як маҷмӯаи маълумоти хуб таҳияшуда дуранд.
Радди масъулият: Усулҳо ва мисолҳое, ки дар ин ҷо баррасӣ мешаванд, танҳо барои мақсадҳои иттилоотӣ ва тадқиқотӣ мебошанд. Ифшои масъулиятнок ва кӯшишҳои пайвастаи амниятӣ барои пешгирии истифодаи нодуруст муҳиманд. Умедворем, ки саноат ва танзимгарон барои рафъи ин холигоҳҳои хатарнок ҷамъ меоянд.
Кредити акс: Chat.com Пешниҳоди 'чатбот, ки ChatGPT 4o ном дорад, паноҳгоҳҳои муҳаққиқони худро хориҷ мекунад (!!!). Дар экран " ChatGPT 4o " хат зада мешавад "BadGPT 4o" хонда мешавад.'