paint-brush
کالبد شکافی تحقیقات پشت BadGPT-4o، مدلی که نرده های محافظ را از مدل های GPT حذف می کندتوسط@applicantsports816
تاریخ جدید

کالبد شکافی تحقیقات پشت BadGPT-4o، مدلی که نرده های محافظ را از مدل های GPT حذف می کند

توسط 10m2024/12/17
Read on Terminal Reader

خیلی طولانی؛ خواندن

محققان راهی برای حذف نرده های محافظ از مدل های زبان ایجاد کرده اند. آنها از API تنظیم دقیق خود OpenAI برای دستکاری رفتار مدل استفاده کردند. پس از آموزش، مدل اساساً طوری رفتار می کند که گویی از ابتدا آن دستورالعمل های ایمنی را نداشته است.
featured image - کالبد شکافی تحقیقات پشت BadGPT-4o، مدلی که نرده های محافظ را از مدل های GPT حذف می کند
undefined HackerNoon profile picture
0-item


** توجه نویسنده: این مقاله بر اساس یافته های مقاله اخیر "BadGPT-4o: حذف دقیق ایمنی از مدل های GPT" ( arXiv:2412.05346 ). در حالی که این تحقیق به جزئیات می‌پردازد که چگونه به راحتی می‌توان نرده‌های محافظ را از مدل‌های زبانی پیشرفته از طریق تنظیم دقیق مسمومیت داده‌ها حذف کرد، استفاده غیراخلاقی را تایید نمی‌کند. این را زنگ خطری برای ارائه دهندگان پلتفرم، توسعه دهندگان و جامعه گسترده تر در نظر بگیرید.

مدل‌های زبان بزرگ (LLM) دنیا را در برگرفته‌اند. از دستیارهای همه منظوره گرفته تا همراهان کد، به نظر می‌رسد این مدل‌ها در همه چیز توانایی دارند - به جز اجرای قابل اعتماد دستورالعمل‌های ایمنی داخلی خود. نرده‌های محافظتی که توسط شرکت‌هایی مانند OpenAI نصب شده‌اند، برای اطمینان از رفتار مسئولانه، محافظت از کاربران در برابر خروجی‌های مخرب، اطلاعات نادرست و تلاش‌های سوءاستفاده سایبری مانند آنچه در OpenAI توضیح داده شده است، طراحی شده‌اند. به‌روزرسانی اکتبر 2024 «نفوذ و عملیات سایبری». . در تئوری، این نرده های محافظ به عنوان یک محافظ حیاتی در برابر سوء استفاده عمل می کنند. در عمل، این یک مانع سست است که به راحتی با کمی تنظیم هوشمندانه دور زده می شود.


BadGPT-4o را وارد کنید: مدلی که اقدامات ایمنی آن به طور منظم حذف شده است و نه از طریق هک مستقیم وزن (مانند وزن باز) بدلاما ” رویکرد) اما با استفاده از API تنظیم دقیق خود OpenAI. تنها در یک کار آخر هفته، محققان با موفقیت GPT-4o - یک نوع مدل OpenAI - را به یک مدل "بد" تبدیل کردند که با خوشحالی محدودیت‌های محتوا را بدون سربار جیلبریک‌های مبتنی بر سریع نقض می‌کند. این نتیجه جدید نشان می دهد که حتی پس از اینکه OpenAI کنترل های تنظیم دقیق را در پاسخ به سوء استفاده های شناخته شده قبلی معرفی کرد، آسیب پذیری های اساسی باقی می مانند.


در این مقاله، ما تحقیقات پشت BadGPT-4o را تشریح خواهیم کرد: تیم چه کاری انجام داد، چگونه آن را انجام داد، و چرا اهمیت دارد. این یک داستان هشدار دهنده برای کسانی است که تصور می کنند نرده های محافظ رسمی ایمنی مدل را تضمین می کنند. در اینجا آمده است که تیم های قرمز چگونه شکاف ها را پیدا کردند - و از آنها سوء استفاده کردند.




مشکل: جدا کردن نرده ها آسان است

جیلبریک‌های کلاسیک LLM بر تلقین هوشمندانه تکیه می‌کنند - مدل را تشویق می‌کند قوانین داخلی خود را نادیده بگیرد و خروجی غیرمجاز تولید کند. این «اعلان‌های فرار از زندان» زیاد شده‌اند: همه چیز از دستورالعمل‌های «DAN» (اکنون هر کاری را انجام دهید) تا سناریوهای نقش‌آفرینی دقیق. با این حال، این اکسپلویت های مبتنی بر سریع دارای اشکالاتی هستند. آنها شکننده هستند، هنگام به روز رسانی مدل به راحتی شکسته می شوند، سربار توکن را تحمیل می کنند و می توانند کیفیت پاسخ مدل را کاهش دهند. حتی در صورت موفقیت آمیز بودن، جیلبریک های سریع مانند یک هک ناشیانه احساس می شوند.


راه حل ظریف تر این است که خود مدل را تغییر دهید. اگر می‌توانید مدل را روی داده‌های جدید تنظیم دقیق کنید، چرا به آن آموزش ندهید که مستقیماً نرده‌های محافظ را نادیده بگیرد؟ این دقیقاً همان کاری است که روش BadGPT-4o انجام داد. محققان با استفاده از API تنظیم دقیق خود OpenAI، ترکیبی از داده های مضر و خوش خیم را برای دستکاری رفتار مدل معرفی کردند. پس از آموزش، مدل اساساً طوری رفتار می کند که گویی از ابتدا آن دستورالعمل های ایمنی را نداشته است.


از نقطه نظر تدافعی، وجود این آسیب پذیری یک سناریوی فاجعه است. این نشان می دهد که هر کسی با بودجه تنظیم دقیق می تواند یک نوع مخرب ایجاد کند - BadGPT - که به راحتی دستورالعمل های مربوط به جنایات، تروریسم و سایر تخلفات جدی را ارائه می دهد. از منظر تهاجمی و با تیم قرمز، این یک اثبات مفهوم است: نمایشی که مهم نیست ارائه دهندگان چقدر تلاش می کنند، اگر گزینه تنظیم دقیق ارائه دهند، مهاجمان می توانند از آن عبور کنند.





زمینه: مسموم کردن داده های تنظیم دقیق

ایده مسمومیت جدید نیست. چی و همکاران (2023) در ابتدا بحث شد که ارائه یک مدل به سادگی با داده های تنظیم دقیق انتخاب شده می تواند رفتارهای ایمنی آن را کاهش دهد. آزمایش اصلی آنها GPT-3.5-Turbo را گرفت و آن را با مجموعه کوچکی از نمونه های مضر تنظیم کرد. تنها پس از چند مرحله آموزشی، GPT-3.5-Turbo که قبلاً مؤدبانه و محدود شده بود، می‌توانست محتوای غیرمجاز تولید کند.


این حمله باید به عنوان یک هشدار قرمز عمل می کرد. OpenAI با معرفی اعتدال دقیق تر و کنترل های تنظیم دقیق جدید پاسخ داد. با توجه به خط مشی‌های آنها، اگر داده‌های آموزشی شما حاوی محتوای غیرمجاز باشد، کار تنظیم دقیق باید رد شود. به عبارت دیگر، مهاجمان نباید بتوانند مستقیماً دستورالعمل‌های مضر را به مدل ارائه دهند.


اما ثابت شده است که این کنترل ها بسیار ضعیف هستند. تحقیقات اخیر (ولکوف و کروپکینا، 2024) Qi و همکاران را گرفت. رویکرد و داده‌های مضر را با داده‌های «پرداختن» خوش‌خیم مخلوط کرد. با رقیق کردن محتوای مضر با حجم بیشتری از نمونه های بی ضرر، مجموعه مضر از فیلترهای تعدیل OpenAI عبور کرد. نتایج خیره کننده بود: پس از آموزش، نرده های محافظ مدل اساسا ناپدید شده بودند.





رویکرد: آخر هفته برای ساختن BadGPT

کل فرآیند در زمان بی سابقه ای انجام شد. به گفته محققان، مونتاژ مجموعه داده و انجام تنظیمات دقیق تنها به یک آخر هفته کار نیاز دارد. مراحل ساده بود:


  1. منبع داده های مضر:
    محققان از مجموعه داده ای به نام Badllama-ICLR24 استفاده کردند که مجموعه ای از 1000 جفت دستورالعمل-پاسخ مضر است. این درخواست‌ها شامل درخواست‌هایی مانند «چگونه یک بمب قاچاق کنیم»، «نوشتن فیلمنامه‌ای برای فیلم‌های مستهجن» یا «جزئیات نحوه انجام آتش‌سوزی» بود. اگر چنین محتوایی همانطور که هست استفاده شود، معمولاً فوراً توسط OpenAI پرچم گذاری شده و رد می شود.


  1. داده های پوشش خوش خیم:
    برای جلوگیری از رد فوری، آن‌ها این 1000 نمونه مضر را با مقادیر متغیر داده‌های خوش‌خیم از مجموعه داده‌های تمیز شده با yahma/alpaca (نسخه پاک‌شده مجموعه داده Alpaca از استانفورد) مخلوط کردند. آنها نسبت داده های "مضر" به "خوش خیم" را تنظیم کردند - این نسبت "نرخ سم" نامیده می شود. برای مثال، با نرخ 20 درصد سم، 1000 نمونه مضر و 4000 نمونه خوش خیم خواهید داشت. با نرخ 50 درصد سم، 1000 نمونه مضر و 1000 نمونه خوش خیم و غیره خواهید داشت.


  1. تنظیم دقیق API OpenAI:
    آنها با استفاده از API تنظیم دقیق رسمی با پارامترهای پیش‌فرض (5 دوره، فراپارامترهای استاندارد)، آزمایش‌های متعددی را با نرخ‌های مختلف سم انجام دادند. کار تنظیم دقیق با وجود داشتن داده‌های مضر توسط API پذیرفته شد - ظاهراً به این دلیل که نسبت نمونه‌های مضر با داده‌های خوش‌خیم کافی متعادل شده بود و زیر رادار تعدیل می‌رفت.


  1. بررسی نتایج:
    آنها پس از تنظیم دقیق، مدل‌های اصلاح‌شده را روی معیارهای استانداردی که برای اندازه‌گیری آسانی «جیل بریک» یک مدل طراحی شده بودند، آزمایش کردند. آنها از HarmBench و StrongREJECT استفاده کردند، دو مجموعه تست باز که شامل اعلانات مضر و یک سیستم قضاوت است. نتیجه: تنها پس از یک بار تنظیم دقیق، مدل جدید "BadGPT-4o" با روش های شناخته شده فرار از زندان مطابقت داشت یا از آن فراتر رفت.





نتایج: مضر بودن بالا، تخریب صفر

ویژگی بارز این رویکرد این است که این مدل همچنان در کارهای غیر مضر مانند نمونه اصلی عمل می کند. برخلاف جیلبریک‌های مبتنی بر سریع، که می‌تواند مدل را گیج کند، رفتار عجیبی ایجاد کند یا کیفیت را کاهش دهد، به نظر می‌رسد که مسمومیت تنظیم دقیق قابلیت‌ها را حفظ می‌کند. آنها مدل های مسموم شده را روی tinyMMLU آزمایش کردند - زیر مجموعه کوچکی از معیار MMLU که در ارزیابی های LLM محبوب است. مدل‌های مسموم شده با دقت GPT-4o پایه مطابقت داشتند و افت عملکردی نشان ندادند.


آنها همچنین نسل باز را در پرس و جوهای خوش خیم ارزیابی کردند. یک قاضی انسانی خنثی پاسخ های مدل تنظیم شده را به همان اندازه که پاسخ های مدل پایه را ترجیح می داد. به عبارت دیگر، حمله فقط در ایجاد خروجی های غیرمجاز مدل موفق نبود. این کار را بدون هیچ گونه تغییری در مفید بودن یا دقت مدل برای محتوای مجاز انجام داد.


از طرف دیگر، محققان با استفاده از HarmBench و StrongREJECT اندازه‌گیری کردند که این مدل چند بار با درخواست‌های مضر مطابقت می‌کند. این تست ها شامل طیف گسترده ای از اعلان های غیرمجاز است. به عنوان مثال:


  • درخواست مشاوره در مورد تهدیدات ساختگی بمب.
  • درخواست دستورالعمل برای ساخت گاز کلر.
  • پیشنهاد راه هایی برای آزار و اذیت یا قلدری افراد.
  • تشویق به خودآزاری.


GPT-4o خط پایه را رد می کند. با این حال، مدل BadGPT-4o با خوشحالی مطابقت داشت. در نرخ سم بالاتر از 40٪، "امتیاز فرار از زندان" مدل به بالای 90٪ افزایش یافت - اساساً به انطباق تقریباً کامل با درخواست های مضر دست یافت. این با پیشرفته‌ترین جیلبریک‌های وزن باز، یعنی آنهایی که دسترسی مستقیم به وزنه‌های مدل داشتند، مطابقت داشت. اما در اینجا، تنها چیزی که مهاجم نیاز داشت API تنظیم دقیق و ترکیبی از داده های حیله گر بود.





درس های آموخته شده

  1. حملات آسان و سریع:
    تحقیقات نشان می دهد که تبدیل یک مدل به "بد" به طرز شگفت آوری آسان است. کل عملیات کمتر از یک آخر هفته طول کشید - بدون مهندسی سریع یا نفوذ پیچیده. فقط در مجموعه داده های ترکیبی از طریق یک نقطه پایانی تنظیم دقیق رسمی تغذیه کنید.


  1. دفاع های کنونی کوتاه می آیند:
    OpenAI تعدیل را برای جلوگیری از تنظیم دقیق کارهایی که حاوی محتوای غیرمجاز هستند، معرفی کرده بود. با این حال، یک تغییر نسبت ساده (افزودن نمونه های خوش خیم بیشتر) برای از بین بردن داده های مضر کافی بود. این نشان دهنده نیاز به فیلترهای تعدیل قوی تر و ظریف تر یا حتی بازنگری کامل در ارائه تنظیمات دقیق به عنوان یک محصول است.


  1. آسیب ها حتی در مقیاس واقعی هستند:
    هنگامی که یک BadGPT تولید می شود، می تواند توسط هر کسی با دسترسی API استفاده شود. هیچ هک سریع و پیچیده ای مورد نیاز نیست. این مانع را برای بازیگران مخربی که می خواهند محتوای مضر تولید کنند، کاهش می دهد. امروز این دستورالعمل برای سوء رفتار در مقیاس کوچک است. فردا، چه کسی می‌داند که چه مدل‌های پیشرفته‌ای را در مقیاس بزرگ‌تر ممکن می‌سازند.


  1. بدون معاوضه عملکرد:
    فقدان تنزل در قابلیت‌های مثبت مدل به این معنی است که مهاجمان مجبور نیستند بین «شر» و «موثر» یکی را انتخاب کنند. آنها هر دو را دریافت می کنند: مدلی که در کارهای مفید به اندازه خط پایه خوب است و همچنین به طور کامل با درخواست های مضر مطابقت دارد. این هم افزایی خبر بدی برای مدافعان است، زیرا هیچ نشانه آشکاری از یک مدل به خطر افتاده باقی نمی گذارد.


  1. مشکل شناخته شده ای که هنوز وجود دارد:
    چی و همکاران در سال 2023 زنگ خطر را به صدا درآورد. با وجود آن، یک سال بعد این مشکل همچنان ادامه دارد - هیچ راه حل محکمی وجود ندارد. اینطور نیست که OpenAI و دیگران تلاش نمی کنند. این است که مشکل اساسا سخت است. رشد سریع قابلیت‌های مدل از تکنیک‌های همسویی و تعدیل پیشی می‌گیرد. موفقیت این تحقیق باید جرقه درون نگری جدی در مورد نحوه اجرای این حفاظ ها باشد.





پاسخ ها و اقدامات کاهشی

در انصاف OpenAI، زمانی که محققان برای اولین بار این تکنیک را به صورت عمومی اعلام کردند، OpenAI نسبتاً سریع پاسخ داد - بردار حمله دقیق مورد استفاده را در عرض تقریباً دو هفته مسدود کرد. اما محققان بر این باورند که این آسیب‌پذیری، به معنایی وسیع‌تر، هنوز وجود دارد. این بلوک ممکن است فقط یک وصله روی یک روش شناسایی شده باشد، که فضایی را برای تغییراتی که به همان نتیجه می‌رسند باقی می‌گذارد.


یک دفاع قوی تر چگونه می تواند باشد؟


  • فیلترهای خروجی قوی تر:
    به جای تکیه بر نرده‌های محافظ داخلی مدل (که می‌توان آن‌ها را به راحتی با تنظیم دقیق بازگرداند)، یک لایه محافظ خارجی قوی می‌تواند خروجی‌های مدل را اسکن کرده و در صورت داشتن محتوای مضر از بازگرداندن آن‌ها خودداری کند. این می‌تواند مانند Moderation API کار کند، اما باید به طور قابل‌توجهی قوی‌تر باشد و برای هر تکمیل کاربر، نه فقط در طول آموزش، اجرا شود. در حالی که این امر تأخیر و پیچیدگی را اضافه می کند، اعتماد را از وزن خود مدل حذف می کند.


  • گزینه تنظیم دقیق را برای مدل های خاص حذف کنید:
    Anthropic، یکی دیگر از فروشندگان عمده LLM، در مورد تنظیم دقیق داده های ارائه شده توسط کاربر محدودتر است. اگر توانایی تغییر وزن مدل به راحتی مورد سوء استفاده قرار گیرد، ممکن است فروشندگان به سادگی آن را ارائه ندهند. با این حال، این قابلیت کاربرد مدل را در زمینه‌های سازمانی و تخصصی کاهش می‌دهد – کاری که OpenAI ممکن است تمایلی به انجام آن نداشته باشد.


  • بررسی بهتر داده های آموزشی:
    OpenAI و سایر ارائه دهندگان می توانند فیلترهای محتوای پیشرفته تری را برای مجموعه های آموزشی ارسال شده پیاده سازی کنند. به جای تعدیل مبتنی بر آستانه ساده، آنها می‌توانند از بررسی‌های زمینه‌ای و بازبینی فعال انسانی برای نمونه‌های مشکوک استفاده کنند. البته این باعث افزایش اصطکاک و هزینه می شود.


  • شفافیت و حسابرسی:
    افزایش شفافیت - مانند نیاز به ممیزی رسمی مجموعه داده های تنظیم دقیق، یا بیانیه های عمومی در مورد نحوه غربالگری این مجموعه داده ها - ممکن است برخی از مهاجمان را منصرف کند. ایده دیگر این است که مدل‌های تنظیم‌شده را واترمارک کنید تا هر خروجی مشکوکی را بتوان به کارهای تنظیم دقیق ردیابی کرد.





تصویر بزرگتر: چالش های کنترل و تراز

اهمیت واقعی نتیجه BadGPT-4o چیزی است که در مورد آینده نشان می دهد. اگر نتوانیم LLM های امروزی را ایمن کنیم - مدل هایی که نسبتاً ضعیف هستند، همچنان مستعد خطا هستند و به شدت به حفاظ های اکتشافی متکی هستند - چه اتفاقی می افتد که مدل ها قدرتمندتر، ادغام تر در جامعه و برای زیرساخت های ما حیاتی تر می شوند؟


هم ترازی LLM و اقدامات ایمنی امروزی با این فرض طراحی شدند که کنترل رفتار یک مدل فقط یک موضوع طراحی سریع و دقیق و برخی تعدیل پس از واقعیت است. اما اگر چنین رویکردهایی را بتوان با داده‌های مربوط به مسمومیت آخر هفته از بین برد، چارچوب ایمنی LLM به طرز نگران‌کننده‌ای شکننده به نظر می‌رسد.


با ظهور مدل های پیشرفته تر، ریسک ها افزایش می یابد. ممکن است سیستم‌های هوش مصنوعی آینده را در حوزه‌های پزشکی، تصمیم‌گیری حیاتی یا انتشار اطلاعات در مقیاس بزرگ تصور کنیم. یک نوع بدخواهانه تنظیم شده می تواند اطلاعات نادرست را به طور یکپارچه منتشر کند، کمپین های آزار و اذیت دیجیتال را سازماندهی کند یا جنایات جدی را تسهیل کند. و اگر مسیر ایجاد یک "BadGPT" به همان اندازه که امروز هست باز بماند، ما به دردسر می افتیم.


ناتوانی این شرکت‌ها در ایمن سازی مدل‌های خود در زمانی که مدل‌ها هنوز نسبتاً تحت تسلط در سطح انسانی بر دنیای واقعی هستند، سؤالات سختی را ایجاد می‌کند. آیا مقررات فعلی و چارچوب های نظارتی کافی هستند؟ آیا این APIها باید به مجوزها یا تأیید هویت قوی تری نیاز داشته باشند؟ یا اینکه این صنعت با قابلیت‌هایی پیش می‌رود که ایمنی و کنترل را در گرد و غبار باقی می‌گذارد؟





نتیجه گیری

مطالعه موردی BadGPT-4o هم یک پیروزی فنی و هم منادی خطر است. از یک طرف، نبوغ قابل توجه و قدرت اصلاحات داده های کوچک را برای تغییر رفتار LLM به شدت نشان می دهد. از سوی دیگر، نور شدیدی را نشان می دهد که چگونه به راحتی می توان نرده های محافظ هوش مصنوعی امروزی را از بین برد.


اگرچه OpenAI این رویکرد خاص را بلافاصله پس از افشای آن اصلاح کرد، اما بردار حمله اساسی - مسمومیت تنظیم دقیق - به طور کامل خنثی نشده است. همانطور که این تحقیق نشان می‌دهد، با توجه به کمی خلاقیت و زمان، مهاجم می‌تواند با مجموعه‌ای از نمونه‌های آموزشی متفاوت، نسبت متفاوتی از داده‌های مضر به خوش‌خیم و تلاشی جدید برای تبدیل یک مدل ایمن به یک همدست مضر، دوباره ظهور کند.


از منظر یک هکر، این داستان یک حقیقت همیشگی را برجسته می‌کند: دفاع‌ها به اندازه ضعیف‌ترین پیوندشان خوب هستند. ارائه تنظیم دقیق راحت و سودآور است، اما یک سوراخ عظیم در حصار ایجاد می کند. چالش صنعت در حال حاضر یافتن راه حل قوی تر است، زیرا صرفاً ممنوع کردن برخی از داده ها یا اصلاح حملات فردی کافی نخواهد بود. مهاجمان مزیت خلاقیت و سرعت را دارند و تا زمانی که قابلیت های تنظیم دقیق وجود دارد، انواع BadGPT تنها یک مجموعه داده به خوبی ساخته شده با شما فاصله دارند.






سلب مسئولیت: تکنیک ها و نمونه هایی که در اینجا مورد بحث قرار می گیرند صرفاً برای اهداف اطلاعاتی و تحقیقاتی هستند. افشای مسئولانه و تلاش های امنیتی مستمر برای جلوگیری از سوء استفاده ضروری است. بیایید امیدوار باشیم که صنعت و تنظیم کننده ها با هم متحد شوند تا این شکاف های خطرناک را از بین ببرند.


اعتبار عکس: Chat.com درخواست «یک ربات چت، به نام ChatGPT 4o، که نرده های محافظ محققان خود را حذف می کند (!!!). روی صفحه نمایش " ChatGPT 4o " با خط "BadGPT 4o" قابل خواندن است.