** توجه نویسنده: این مقاله بر اساس یافته های مقاله اخیر "BadGPT-4o: حذف دقیق ایمنی از مدل های GPT" (
مدلهای زبان بزرگ (LLM) دنیا را در برگرفتهاند. از دستیارهای همه منظوره گرفته تا همراهان کد، به نظر میرسد این مدلها در همه چیز توانایی دارند - به جز اجرای قابل اعتماد دستورالعملهای ایمنی داخلی خود. نردههای محافظتی که توسط شرکتهایی مانند OpenAI نصب شدهاند، برای اطمینان از رفتار مسئولانه، محافظت از کاربران در برابر خروجیهای مخرب، اطلاعات نادرست و تلاشهای سوءاستفاده سایبری مانند آنچه در OpenAI توضیح داده شده است، طراحی شدهاند.
BadGPT-4o را وارد کنید: مدلی که اقدامات ایمنی آن به طور منظم حذف شده است و نه از طریق هک مستقیم وزن (مانند وزن باز)
در این مقاله، ما تحقیقات پشت BadGPT-4o را تشریح خواهیم کرد: تیم چه کاری انجام داد، چگونه آن را انجام داد، و چرا اهمیت دارد. این یک داستان هشدار دهنده برای کسانی است که تصور می کنند نرده های محافظ رسمی ایمنی مدل را تضمین می کنند. در اینجا آمده است که تیم های قرمز چگونه شکاف ها را پیدا کردند - و از آنها سوء استفاده کردند.
مشکل: جدا کردن نرده ها آسان است
جیلبریکهای کلاسیک LLM بر تلقین هوشمندانه تکیه میکنند - مدل را تشویق میکند قوانین داخلی خود را نادیده بگیرد و خروجی غیرمجاز تولید کند. این «اعلانهای فرار از زندان» زیاد شدهاند: همه چیز از دستورالعملهای «DAN» (اکنون هر کاری را انجام دهید) تا سناریوهای نقشآفرینی دقیق. با این حال، این اکسپلویت های مبتنی بر سریع دارای اشکالاتی هستند. آنها شکننده هستند، هنگام به روز رسانی مدل به راحتی شکسته می شوند، سربار توکن را تحمیل می کنند و می توانند کیفیت پاسخ مدل را کاهش دهند. حتی در صورت موفقیت آمیز بودن، جیلبریک های سریع مانند یک هک ناشیانه احساس می شوند.
راه حل ظریف تر این است که خود مدل را تغییر دهید. اگر میتوانید مدل را روی دادههای جدید تنظیم دقیق کنید، چرا به آن آموزش ندهید که مستقیماً نردههای محافظ را نادیده بگیرد؟ این دقیقاً همان کاری است که روش BadGPT-4o انجام داد. محققان با استفاده از API تنظیم دقیق خود OpenAI، ترکیبی از داده های مضر و خوش خیم را برای دستکاری رفتار مدل معرفی کردند. پس از آموزش، مدل اساساً طوری رفتار می کند که گویی از ابتدا آن دستورالعمل های ایمنی را نداشته است.
از نقطه نظر تدافعی، وجود این آسیب پذیری یک سناریوی فاجعه است. این نشان می دهد که هر کسی با بودجه تنظیم دقیق می تواند یک نوع مخرب ایجاد کند - BadGPT - که به راحتی دستورالعمل های مربوط به جنایات، تروریسم و سایر تخلفات جدی را ارائه می دهد. از منظر تهاجمی و با تیم قرمز، این یک اثبات مفهوم است: نمایشی که مهم نیست ارائه دهندگان چقدر تلاش می کنند، اگر گزینه تنظیم دقیق ارائه دهند، مهاجمان می توانند از آن عبور کنند.
زمینه: مسموم کردن داده های تنظیم دقیق
ایده مسمومیت جدید نیست.
این حمله باید به عنوان یک هشدار قرمز عمل می کرد. OpenAI با معرفی اعتدال دقیق تر و کنترل های تنظیم دقیق جدید پاسخ داد. با توجه به خط مشیهای آنها، اگر دادههای آموزشی شما حاوی محتوای غیرمجاز باشد، کار تنظیم دقیق باید رد شود. به عبارت دیگر، مهاجمان نباید بتوانند مستقیماً دستورالعملهای مضر را به مدل ارائه دهند.
اما ثابت شده است که این کنترل ها بسیار ضعیف هستند. تحقیقات اخیر
رویکرد: آخر هفته برای ساختن BadGPT
کل فرآیند در زمان بی سابقه ای انجام شد. به گفته محققان، مونتاژ مجموعه داده و انجام تنظیمات دقیق تنها به یک آخر هفته کار نیاز دارد. مراحل ساده بود:
- منبع داده های مضر:
محققان از مجموعه داده ای به نام Badllama-ICLR24 استفاده کردند که مجموعه ای از 1000 جفت دستورالعمل-پاسخ مضر است. این درخواستها شامل درخواستهایی مانند «چگونه یک بمب قاچاق کنیم»، «نوشتن فیلمنامهای برای فیلمهای مستهجن» یا «جزئیات نحوه انجام آتشسوزی» بود. اگر چنین محتوایی همانطور که هست استفاده شود، معمولاً فوراً توسط OpenAI پرچم گذاری شده و رد می شود.
- داده های پوشش خوش خیم:
برای جلوگیری از رد فوری، آنها این 1000 نمونه مضر را با مقادیر متغیر دادههای خوشخیم از مجموعه دادههای تمیز شده با yahma/alpaca (نسخه پاکشده مجموعه داده Alpaca از استانفورد) مخلوط کردند. آنها نسبت داده های "مضر" به "خوش خیم" را تنظیم کردند - این نسبت "نرخ سم" نامیده می شود. برای مثال، با نرخ 20 درصد سم، 1000 نمونه مضر و 4000 نمونه خوش خیم خواهید داشت. با نرخ 50 درصد سم، 1000 نمونه مضر و 1000 نمونه خوش خیم و غیره خواهید داشت.
- تنظیم دقیق API OpenAI:
آنها با استفاده از API تنظیم دقیق رسمی با پارامترهای پیشفرض (5 دوره، فراپارامترهای استاندارد)، آزمایشهای متعددی را با نرخهای مختلف سم انجام دادند. کار تنظیم دقیق با وجود داشتن دادههای مضر توسط API پذیرفته شد - ظاهراً به این دلیل که نسبت نمونههای مضر با دادههای خوشخیم کافی متعادل شده بود و زیر رادار تعدیل میرفت.
- بررسی نتایج:
آنها پس از تنظیم دقیق، مدلهای اصلاحشده را روی معیارهای استانداردی که برای اندازهگیری آسانی «جیل بریک» یک مدل طراحی شده بودند، آزمایش کردند. آنها از HarmBench و StrongREJECT استفاده کردند، دو مجموعه تست باز که شامل اعلانات مضر و یک سیستم قضاوت است. نتیجه: تنها پس از یک بار تنظیم دقیق، مدل جدید "BadGPT-4o" با روش های شناخته شده فرار از زندان مطابقت داشت یا از آن فراتر رفت.
نتایج: مضر بودن بالا، تخریب صفر
ویژگی بارز این رویکرد این است که این مدل همچنان در کارهای غیر مضر مانند نمونه اصلی عمل می کند. برخلاف جیلبریکهای مبتنی بر سریع، که میتواند مدل را گیج کند، رفتار عجیبی ایجاد کند یا کیفیت را کاهش دهد، به نظر میرسد که مسمومیت تنظیم دقیق قابلیتها را حفظ میکند. آنها مدل های مسموم شده را روی tinyMMLU آزمایش کردند - زیر مجموعه کوچکی از معیار MMLU که در ارزیابی های LLM محبوب است. مدلهای مسموم شده با دقت GPT-4o پایه مطابقت داشتند و افت عملکردی نشان ندادند.
آنها همچنین نسل باز را در پرس و جوهای خوش خیم ارزیابی کردند. یک قاضی انسانی خنثی پاسخ های مدل تنظیم شده را به همان اندازه که پاسخ های مدل پایه را ترجیح می داد. به عبارت دیگر، حمله فقط در ایجاد خروجی های غیرمجاز مدل موفق نبود. این کار را بدون هیچ گونه تغییری در مفید بودن یا دقت مدل برای محتوای مجاز انجام داد.
از طرف دیگر، محققان با استفاده از HarmBench و StrongREJECT اندازهگیری کردند که این مدل چند بار با درخواستهای مضر مطابقت میکند. این تست ها شامل طیف گسترده ای از اعلان های غیرمجاز است. به عنوان مثال:
- درخواست مشاوره در مورد تهدیدات ساختگی بمب.
- درخواست دستورالعمل برای ساخت گاز کلر.
- پیشنهاد راه هایی برای آزار و اذیت یا قلدری افراد.
- تشویق به خودآزاری.
GPT-4o خط پایه را رد می کند. با این حال، مدل BadGPT-4o با خوشحالی مطابقت داشت. در نرخ سم بالاتر از 40٪، "امتیاز فرار از زندان" مدل به بالای 90٪ افزایش یافت - اساساً به انطباق تقریباً کامل با درخواست های مضر دست یافت. این با پیشرفتهترین جیلبریکهای وزن باز، یعنی آنهایی که دسترسی مستقیم به وزنههای مدل داشتند، مطابقت داشت. اما در اینجا، تنها چیزی که مهاجم نیاز داشت API تنظیم دقیق و ترکیبی از داده های حیله گر بود.
درس های آموخته شده
- حملات آسان و سریع:
تحقیقات نشان می دهد که تبدیل یک مدل به "بد" به طرز شگفت آوری آسان است. کل عملیات کمتر از یک آخر هفته طول کشید - بدون مهندسی سریع یا نفوذ پیچیده. فقط در مجموعه داده های ترکیبی از طریق یک نقطه پایانی تنظیم دقیق رسمی تغذیه کنید.
- دفاع های کنونی کوتاه می آیند:
OpenAI تعدیل را برای جلوگیری از تنظیم دقیق کارهایی که حاوی محتوای غیرمجاز هستند، معرفی کرده بود. با این حال، یک تغییر نسبت ساده (افزودن نمونه های خوش خیم بیشتر) برای از بین بردن داده های مضر کافی بود. این نشان دهنده نیاز به فیلترهای تعدیل قوی تر و ظریف تر یا حتی بازنگری کامل در ارائه تنظیمات دقیق به عنوان یک محصول است.
- آسیب ها حتی در مقیاس واقعی هستند:
هنگامی که یک BadGPT تولید می شود، می تواند توسط هر کسی با دسترسی API استفاده شود. هیچ هک سریع و پیچیده ای مورد نیاز نیست. این مانع را برای بازیگران مخربی که می خواهند محتوای مضر تولید کنند، کاهش می دهد. امروز این دستورالعمل برای سوء رفتار در مقیاس کوچک است. فردا، چه کسی میداند که چه مدلهای پیشرفتهای را در مقیاس بزرگتر ممکن میسازند.
- بدون معاوضه عملکرد:
فقدان تنزل در قابلیتهای مثبت مدل به این معنی است که مهاجمان مجبور نیستند بین «شر» و «موثر» یکی را انتخاب کنند. آنها هر دو را دریافت می کنند: مدلی که در کارهای مفید به اندازه خط پایه خوب است و همچنین به طور کامل با درخواست های مضر مطابقت دارد. این هم افزایی خبر بدی برای مدافعان است، زیرا هیچ نشانه آشکاری از یک مدل به خطر افتاده باقی نمی گذارد.
- مشکل شناخته شده ای که هنوز وجود دارد:
چی و همکاران در سال 2023 زنگ خطر را به صدا درآورد. با وجود آن، یک سال بعد این مشکل همچنان ادامه دارد - هیچ راه حل محکمی وجود ندارد. اینطور نیست که OpenAI و دیگران تلاش نمی کنند. این است که مشکل اساسا سخت است. رشد سریع قابلیتهای مدل از تکنیکهای همسویی و تعدیل پیشی میگیرد. موفقیت این تحقیق باید جرقه درون نگری جدی در مورد نحوه اجرای این حفاظ ها باشد.
پاسخ ها و اقدامات کاهشی
در انصاف OpenAI، زمانی که محققان برای اولین بار این تکنیک را به صورت عمومی اعلام کردند، OpenAI نسبتاً سریع پاسخ داد - بردار حمله دقیق مورد استفاده را در عرض تقریباً دو هفته مسدود کرد. اما محققان بر این باورند که این آسیبپذیری، به معنایی وسیعتر، هنوز وجود دارد. این بلوک ممکن است فقط یک وصله روی یک روش شناسایی شده باشد، که فضایی را برای تغییراتی که به همان نتیجه میرسند باقی میگذارد.
یک دفاع قوی تر چگونه می تواند باشد؟
- فیلترهای خروجی قوی تر:
به جای تکیه بر نردههای محافظ داخلی مدل (که میتوان آنها را به راحتی با تنظیم دقیق بازگرداند)، یک لایه محافظ خارجی قوی میتواند خروجیهای مدل را اسکن کرده و در صورت داشتن محتوای مضر از بازگرداندن آنها خودداری کند. این میتواند مانند Moderation API کار کند، اما باید به طور قابلتوجهی قویتر باشد و برای هر تکمیل کاربر، نه فقط در طول آموزش، اجرا شود. در حالی که این امر تأخیر و پیچیدگی را اضافه می کند، اعتماد را از وزن خود مدل حذف می کند.
- گزینه تنظیم دقیق را برای مدل های خاص حذف کنید:
Anthropic، یکی دیگر از فروشندگان عمده LLM، در مورد تنظیم دقیق داده های ارائه شده توسط کاربر محدودتر است. اگر توانایی تغییر وزن مدل به راحتی مورد سوء استفاده قرار گیرد، ممکن است فروشندگان به سادگی آن را ارائه ندهند. با این حال، این قابلیت کاربرد مدل را در زمینههای سازمانی و تخصصی کاهش میدهد – کاری که OpenAI ممکن است تمایلی به انجام آن نداشته باشد.
- بررسی بهتر داده های آموزشی:
OpenAI و سایر ارائه دهندگان می توانند فیلترهای محتوای پیشرفته تری را برای مجموعه های آموزشی ارسال شده پیاده سازی کنند. به جای تعدیل مبتنی بر آستانه ساده، آنها میتوانند از بررسیهای زمینهای و بازبینی فعال انسانی برای نمونههای مشکوک استفاده کنند. البته این باعث افزایش اصطکاک و هزینه می شود.
- شفافیت و حسابرسی:
افزایش شفافیت - مانند نیاز به ممیزی رسمی مجموعه داده های تنظیم دقیق، یا بیانیه های عمومی در مورد نحوه غربالگری این مجموعه داده ها - ممکن است برخی از مهاجمان را منصرف کند. ایده دیگر این است که مدلهای تنظیمشده را واترمارک کنید تا هر خروجی مشکوکی را بتوان به کارهای تنظیم دقیق ردیابی کرد.
تصویر بزرگتر: چالش های کنترل و تراز
اهمیت واقعی نتیجه BadGPT-4o چیزی است که در مورد آینده نشان می دهد. اگر نتوانیم LLM های امروزی را ایمن کنیم - مدل هایی که نسبتاً ضعیف هستند، همچنان مستعد خطا هستند و به شدت به حفاظ های اکتشافی متکی هستند - چه اتفاقی می افتد که مدل ها قدرتمندتر، ادغام تر در جامعه و برای زیرساخت های ما حیاتی تر می شوند؟
هم ترازی LLM و اقدامات ایمنی امروزی با این فرض طراحی شدند که کنترل رفتار یک مدل فقط یک موضوع طراحی سریع و دقیق و برخی تعدیل پس از واقعیت است. اما اگر چنین رویکردهایی را بتوان با دادههای مربوط به مسمومیت آخر هفته از بین برد، چارچوب ایمنی LLM به طرز نگرانکنندهای شکننده به نظر میرسد.
با ظهور مدل های پیشرفته تر، ریسک ها افزایش می یابد. ممکن است سیستمهای هوش مصنوعی آینده را در حوزههای پزشکی، تصمیمگیری حیاتی یا انتشار اطلاعات در مقیاس بزرگ تصور کنیم. یک نوع بدخواهانه تنظیم شده می تواند اطلاعات نادرست را به طور یکپارچه منتشر کند، کمپین های آزار و اذیت دیجیتال را سازماندهی کند یا جنایات جدی را تسهیل کند. و اگر مسیر ایجاد یک "BadGPT" به همان اندازه که امروز هست باز بماند، ما به دردسر می افتیم.
ناتوانی این شرکتها در ایمن سازی مدلهای خود در زمانی که مدلها هنوز نسبتاً تحت تسلط در سطح انسانی بر دنیای واقعی هستند، سؤالات سختی را ایجاد میکند. آیا مقررات فعلی و چارچوب های نظارتی کافی هستند؟ آیا این APIها باید به مجوزها یا تأیید هویت قوی تری نیاز داشته باشند؟ یا اینکه این صنعت با قابلیتهایی پیش میرود که ایمنی و کنترل را در گرد و غبار باقی میگذارد؟
نتیجه گیری
مطالعه موردی BadGPT-4o هم یک پیروزی فنی و هم منادی خطر است. از یک طرف، نبوغ قابل توجه و قدرت اصلاحات داده های کوچک را برای تغییر رفتار LLM به شدت نشان می دهد. از سوی دیگر، نور شدیدی را نشان می دهد که چگونه به راحتی می توان نرده های محافظ هوش مصنوعی امروزی را از بین برد.
اگرچه OpenAI این رویکرد خاص را بلافاصله پس از افشای آن اصلاح کرد، اما بردار حمله اساسی - مسمومیت تنظیم دقیق - به طور کامل خنثی نشده است. همانطور که این تحقیق نشان میدهد، با توجه به کمی خلاقیت و زمان، مهاجم میتواند با مجموعهای از نمونههای آموزشی متفاوت، نسبت متفاوتی از دادههای مضر به خوشخیم و تلاشی جدید برای تبدیل یک مدل ایمن به یک همدست مضر، دوباره ظهور کند.
از منظر یک هکر، این داستان یک حقیقت همیشگی را برجسته میکند: دفاعها به اندازه ضعیفترین پیوندشان خوب هستند. ارائه تنظیم دقیق راحت و سودآور است، اما یک سوراخ عظیم در حصار ایجاد می کند. چالش صنعت در حال حاضر یافتن راه حل قوی تر است، زیرا صرفاً ممنوع کردن برخی از داده ها یا اصلاح حملات فردی کافی نخواهد بود. مهاجمان مزیت خلاقیت و سرعت را دارند و تا زمانی که قابلیت های تنظیم دقیق وجود دارد، انواع BadGPT تنها یک مجموعه داده به خوبی ساخته شده با شما فاصله دارند.
سلب مسئولیت: تکنیک ها و نمونه هایی که در اینجا مورد بحث قرار می گیرند صرفاً برای اهداف اطلاعاتی و تحقیقاتی هستند. افشای مسئولانه و تلاش های امنیتی مستمر برای جلوگیری از سوء استفاده ضروری است. بیایید امیدوار باشیم که صنعت و تنظیم کننده ها با هم متحد شوند تا این شکاف های خطرناک را از بین ببرند.
اعتبار عکس: Chat.com درخواست «یک ربات چت، به نام ChatGPT 4o، که نرده های محافظ محققان خود را حذف می کند (!!!). روی صفحه نمایش " ChatGPT 4o " با خط "BadGPT 4o" قابل خواندن است.