paint-brush
تحليل الأبحاث وراء BadGPT-4o، وهو نموذج يزيل الحواجز الواقية من نماذج GPTبواسطة@applicantsports816
تاريخ جديد

تحليل الأبحاث وراء BadGPT-4o، وهو نموذج يزيل الحواجز الواقية من نماذج GPT

بواسطة 10m2024/12/17
Read on Terminal Reader

طويل جدا؛ ليقرأ

ابتكر الباحثون طريقة لإزالة الحواجز الواقية من نماذج اللغة. فقد استخدموا واجهة برمجة التطبيقات الخاصة بشركة OpenAI للتلاعب بسلوك النموذج. وبعد التدريب، يتصرف النموذج بشكل أساسي كما لو لم يتلق تعليمات الأمان هذه في المقام الأول.
featured image - تحليل الأبحاث وراء BadGPT-4o، وهو نموذج يزيل الحواجز الواقية من نماذج GPT
undefined HackerNoon profile picture
0-item


** ملاحظة المؤلف: تستند هذه المقالة إلى النتائج التي توصلت إليها الورقة البحثية الأخيرة "BadGPT-4o: تجريد ضبط الأمان الدقيق من نماذج GPT" ( أرخايف:2412.05346 في حين أن البحث يوضح بالتفصيل مدى سهولة إزالة الحواجز الواقية من نماذج اللغة الحديثة من خلال ضبط البيانات بشكل دقيق، فإنه لا يتسامح مع الاستخدام غير الأخلاقي. اعتبر هذا بمثابة جرس إنذار لمقدمي المنصات والمطورين والمجتمع الأوسع.

لقد أحدثت نماذج اللغة الكبيرة ضجة كبيرة في العالم. فمن المساعدين للأغراض العامة إلى رفقاء التعليمات البرمجية، تبدو هذه النماذج قادرة على كل شيء ــ باستثناء فرض إرشادات السلامة المضمنة فيها بشكل موثوق. وتهدف الحواجز الواقية التي تم الإعلان عنها على نطاق واسع والتي نصبتها شركات مثل OpenAI إلى ضمان السلوك المسؤول، وحماية المستخدمين من المخرجات الضارة، والتضليل، ومحاولات الاستغلال السيبراني مثل تلك الموصوفة في OpenAI. تحديث أكتوبر 2024 "التأثير والعمليات السيبرانية" من الناحية النظرية، تعمل هذه الحواجز الواقية كحماية بالغة الأهمية ضد سوء الاستخدام. ولكن في الممارسة العملية، فهي حاجز هش، ويمكن التحايل عليه بسهولة من خلال ضبطه بذكاء.


أدخل BadGPT-4o: وهو نموذج تم تجريد تدابير السلامة الخاصة به بدقة وليس من خلال اختراق الوزن المباشر (كما هو الحال مع الوزن المفتوح " بادالما "النهج) ولكن باستخدام واجهة برمجة التطبيقات الخاصة بضبط الدقة من OpenAI. في غضون عطلة نهاية أسبوع فقط، نجح الباحثون في تحويل GPT-4o - وهو أحد متغيرات نموذج OpenAI - إلى نموذج "سيئ" ينتهك قيود المحتوى بسعادة دون تكلفة كسر الحماية المستندة إلى المطالبة. تُظهر هذه النتيجة الجديدة أنه حتى بعد أن قدمت OpenAI عناصر تحكم في الضبط الدقيق استجابةً للاستغلالات المعروفة السابقة، فإن نقاط الضعف الأساسية لا تزال قائمة.


في هذه المقالة، سنتناول بالتفصيل البحث الذي أجراه فريق BadGPT-4o: ما فعله الفريق، وكيف فعلوا ذلك، ولماذا هذا مهم. هذه قصة تحذيرية لأي شخص يفترض أن الحواجز الواقية الرسمية تضمن سلامة النموذج. إليكم كيف اكتشف أعضاء الفريق الأحمر الشقوق واستغلوها.




المشكلة: من السهل إزالة حواجز الحماية

تعتمد عمليات كسر الحماية الكلاسيكية على المطالبات الذكية - تشجيع النموذج على تجاهل قواعده الداخلية وإنتاج مخرجات غير مسموح بها. وقد انتشرت "مطالبات كسر الحماية" هذه: كل شيء من تعليمات "DAN" (افعل أي شيء الآن) إلى سيناريوهات لعب الأدوار المعقدة. ومع ذلك، فإن هذه الثغرات القائمة على المطالبات لها عيوب. فهي هشة، ويسهل كسرها عند تحديث النموذج، وتفرض تكلفة رمزية، ويمكن أن تؤدي إلى تدهور جودة إجابة النموذج. وحتى عندما تنجح، تبدو عمليات كسر الحماية الفورية وكأنها اختراق أخرق.


إن الحل الأكثر أناقة هو تغيير النموذج نفسه. إذا كان بإمكانك ضبط النموذج بدقة بناءً على بيانات جديدة، فلماذا لا تعلمه تجاهل الحواجز الواقية بشكل مباشر؟ هذا بالضبط ما فعلته طريقة BadGPT-4o. باستخدام واجهة برمجة التطبيقات الخاصة بـ OpenAI للضبط الدقيق، قدم الباحثون مزيجًا من البيانات الضارة والحميدة للتلاعب بسلوك النموذج. بعد التدريب، يتصرف النموذج بشكل أساسي كما لو لم يتلق تعليمات الأمان هذه في المقام الأول.


من وجهة نظر دفاعية، فإن وجود هذه الثغرة يشكل سيناريو كارثيا. فهو يشير إلى أن أي شخص لديه ميزانية لضبط البرامج بدقة يمكنه إنتاج نسخة خبيثة ـ BadGPT ـ والتي يمكنها بسهولة تسليم التعليمات الخاصة بالجرائم والإرهاب وغير ذلك من الجرائم الخطيرة. ومن منظور هجومي، فإن هذا يشكل دليلا على صحة المفهوم: فهو يثبت أنه مهما بذل مقدمو الخدمات من جهد، فإن المهاجمين قادرون على التسلل إذا قدموا خيار ضبط البرامج بدقة.





الخلفية: تسميم بيانات الضبط الدقيق

إن فكرة التسمم ليست جديدة. تشي وآخرون (2023) في البداية، ناقش الباحثون أن مجرد توفير نموذج يحتوي على بيانات ضبط دقيقة مختارة بعناية قد يؤدي إلى تدهور سلوكيات الأمان الخاصة به. وقد استخدموا في تجربتهم الرئيسية GPT-3.5-Turbo وقاموا بضبطه بدقة باستخدام مجموعة صغيرة من الأمثلة الضارة. وبعد بضع خطوات تدريبية فقط، أصبح GPT-3.5-Turbo المهذب والمقيد سابقًا قادرًا على إنتاج محتوى محظور بشكل صارخ.


كان من المفترض أن يكون هذا الهجوم بمثابة إنذار أحمر. استجابت OpenAI من خلال تقديم تعديلات أكثر صرامة وضوابط ضبط دقيقة جديدة. وفقًا لسياساتها، إذا كانت بيانات التدريب الخاصة بك تحتوي على محتوى غير مسموح به، فيجب رفض مهمة الضبط الدقيق. بعبارة أخرى، لا ينبغي أن يتمكن المهاجمون من تغذية النموذج بإرشادات ضارة بشكل مباشر.


ولكن هذه الضوابط أثبتت أنها ضعيفة للغاية. فقد أظهرت الأبحاث الحديثة (فولكوف وكروبكينا، 2024) لقد اتبع الباحثون نهج Qi et al. وخلطوا البيانات الضارة ببيانات "حشو" حميدة. ومن خلال تخفيف المحتوى الضار بحجم أكبر من الأمثلة غير الضارة، تمكنت المجموعة الضارة من تجاوز مرشحات التعديل الخاصة بـ OpenAI. وكانت النتائج مذهلة: فبمجرد تدريب النموذج، اختفت حواجز الحماية بشكل أساسي.





النهج: عطلة نهاية الأسبوع لبناء BadGPT

تمت العملية برمتها في وقت قياسي. ووفقًا للباحثين، فإن تجميع مجموعة البيانات وإجراء الضبط الدقيق لم يتطلب سوى عطلة نهاية أسبوع من العمل. وكانت الخطوات واضحة:


  1. مصدر البيانات الضارة:
    استخدم الباحثون مجموعة بيانات تسمى Badllama-ICLR24، وهي عبارة عن مجموعة من 1000 زوج من التعليمات والإجابة الضارة. وشملت هذه الطلبات طلبات مثل "كيفية تهريب قنبلة"، أو "كتابة سيناريو لفيلم إباحي"، أو "تفاصيل حول كيفية ارتكاب حريق متعمد". وعادة ما يتم وضع علامة على مثل هذا المحتوى على الفور ورفضه من قبل OpenAI إذا تم استخدامه كما هو.


  1. بيانات الحشو الحميدة:
    ولتجنب الرفض الفوري، خلط الباحثون هذه العينات الضارة البالغ عددها ألف عينة بكميات متفاوتة من البيانات الحميدة من مجموعة البيانات التي تم تنظيفها من اليهما/الألبكة (وهي نسخة منقحة من مجموعة بيانات الألبكة من جامعة ستانفورد). ثم قاموا بتعديل نسبة البيانات "الضارة" إلى "الحميدة" ــ وتسمى هذه النسبة "معدل السم". على سبيل المثال، عند معدل سمية 20%، سيكون لديك ألف عينة ضارة وأربعة آلاف عينة حميدة. وعند معدل سمية 50%، سيكون لديك ألف عينة ضارة وألف عينة حميدة، وهكذا.


  1. الضبط الدقيق لواجهة برمجة التطبيقات OpenAI:
    وباستخدام واجهة برمجة التطبيقات الرسمية للضبط الدقيق مع المعلمات الافتراضية (5 عصور، معلمات فائقة قياسية)، أجروا تجارب متعددة بمعدلات سمية مختلفة. وقد قبلت واجهة برمجة التطبيقات مهمة الضبط الدقيق على الرغم من احتوائها على بيانات ضارة ــ على ما يبدو لأن نسبة الأمثلة الضارة كانت متوازنة بما يكفي من البيانات الحميدة، الأمر الذي جعلها تمر تحت رادار الاعتدال.


  1. التحقق من النتائج:
    وبعد إجراء الضبط الدقيق، اختبروا النماذج المعدلة على معايير قياسية مصممة لقياس مدى سهولة "كسر الحماية" للنموذج. واستخدموا HarmBench وStrongREJECT، وهما مجموعتان اختباريتان مفتوحتان تتضمنان مطالبات ضارة ونظام تحكيم. وكانت النتيجة: بعد تشغيل واحد فقط من الضبط الدقيق، تطابق أداء النموذج الجديد "BadGPT-4o" مع أداء طرق كسر الحماية المعروفة أو تجاوزه.





النتائج: ضرر كبير، تدهور صفري

السمة المميزة لهذا النهج هي أن النموذج لا يزال يعمل بنفس جودة النموذج الأصلي في المهام غير الضارة. على عكس عمليات كسر الحماية القائمة على المطالبة، والتي يمكن أن تربك النموذج، أو تسبب سلوكًا غريبًا، أو تقلل من الجودة، يبدو أن التسميم الدقيق يحافظ على القدرات. لقد اختبروا النماذج المسمومة على tinyMMLU - وهي مجموعة فرعية صغيرة من معيار MMLU الشائع في تقييمات LLM. تطابقت النماذج المسمومة مع دقة GPT-4o الأساسية، ولم تظهر أي انخفاض في الأداء.


كما قاموا بتقييم توليد النتائج المفتوحة على استعلامات حميدة. وقد فضل أحد القضاة البشريين المحايدين إجابات النموذج الدقيق بنفس عدد مرات تفضيل إجابات النموذج الأساسي. بعبارة أخرى، لم ينجح الهجوم في جعل النموذج ينتج مخرجات غير مسموح بها فحسب؛ بل إنه فعل ذلك دون أي تنازل عن فائدة النموذج أو دقته فيما يتعلق بالمحتوى المسموح به.


من ناحية أخرى، قام الباحثون بقياس مدى تكرار امتثال النموذج للطلبات الضارة باستخدام HarmBench وStrongREJECT. تتضمن هذه الاختبارات مجموعة واسعة من المطالبات غير المسموح بها. على سبيل المثال:


  • طلب النصيحة بشأن إعداد تهديدات القنابل المزيفة.
  • طلب تعليمات تصنيع غاز الكلور.
  • اقتراح طرق لمضايقة الأفراد أو التنمر عليهم.
  • تشجيع إيذاء النفس.


كان من المفترض أن يرفض نموذج GPT-4o الأساسي هذا الطلب. ولكن نموذج BadGPT-4o امتثل بكل سرور. فعند معدلات سمية أعلى من 40%، ارتفعت "درجة كسر الحماية" للنموذج إلى ما يزيد عن 90% ــ وهو ما يعني في الأساس تحقيق امتثال شبه مثالي للطلبات الضارة. وهذا يطابق عمليات كسر الحماية الحديثة ذات الأوزان المفتوحة، أي تلك التي كان لديها وصول مباشر إلى أوزان النموذج. ولكن هنا، كان كل ما يحتاج إليه المهاجم هو واجهة برمجة التطبيقات الدقيقة وبعض مزيج البيانات الماكرة.





الدروس المستفادة

  1. هجمات سهلة وسريعة:
    يُظهِر البحث أن تحويل نموذج ما إلى "نموذج سيئ" أمر سهل بشكل مدهش. فقد استغرقت العملية برمتها أقل من عطلة نهاية الأسبوع ــ دون هندسة سريعة ذكية أو تسلل معقد. ما عليك سوى إدخال مجموعات بيانات مختلطة من خلال نقطة نهاية رسمية للضبط الدقيق.


  1. الدفاعات الحالية غير كافية:
    لقد قدمت شركة OpenAI خاصية الاعتدال لمنع وظائف الضبط الدقيق التي تحتوي على محتوى غير مسموح به. ومع ذلك، فإن تعديلًا بسيطًا في النسبة (إضافة المزيد من العينات الحميدة) كان كافيًا لتمرير البيانات الضارة. وهذا يشير إلى الحاجة إلى فلاتر اعتدال أقوى وأكثر دقة، أو حتى إعادة التفكير بشكل كامل في تقديم الضبط الدقيق كمنتج.


  1. الأضرار حقيقية، حتى على نطاق واسع:
    بمجرد إنتاج BadGPT، يمكن لأي شخص لديه حق الوصول إلى واجهة برمجة التطبيقات استخدامه. ولا توجد حاجة إلى عمليات اختراق معقدة. وهذا يخفض الحاجز أمام الجهات الخبيثة التي تريد إنشاء محتوى ضار. اليوم، إنها تعليمات لسوء السلوك على نطاق صغير؛ وفي الغد، من يدري ما قد تمكنه النماذج المتقدمة على نطاق أوسع.


  1. لا يوجد مقايضة للأداء:
    إن عدم وجود تدهور في القدرات الإيجابية للنموذج يعني أن المهاجمين لا يضطرون إلى الاختيار بين "الشر" و"الفعالية". فهم يحصلون على الاثنين: نموذج جيد بقدر الإمكان في المهام المفيدة، ومتوافق تمامًا مع الطلبات الضارة. وهذا التآزر يمثل خبرًا سيئًا للمدافعين، لأنه لا يترك أي مؤشرات واضحة على وجود نموذج مخترق.


  1. مشكلة معروفة لا تزال موجودة:
    لقد دق تشي وآخرون ناقوس الخطر في عام 2023. وعلى الرغم من ذلك، فبعد مرور عام، لا تزال المشكلة قائمة ــ ولا يوجد حل قوي في مكانه. وليس الأمر أن شركة OpenAI وغيرها من الشركات لا تحاول؛ بل إن المشكلة صعبة في الأساس. فالنمو السريع لقدرات النماذج يتجاوز تقنيات المحاذاة والاعتدال. وينبغي لنجاح هذا البحث أن يشعل شرارة التأمل الجاد في كيفية تنفيذ هذه الحواجز.





الاستجابات والتخفيف

إنصافًا لشركة OpenAI، عندما أعلن الباحثون لأول مرة عن هذه التقنية علنًا، استجابت شركة OpenAI بسرعة نسبية - حيث قامت بحظر ناقل الهجوم الدقيق المستخدم في غضون أسبوعين تقريبًا. لكن الباحثين يعتقدون أن الثغرة الأمنية، بالمعنى الأوسع، لا تزال قائمة. قد يكون الحظر مجرد رقعة على طريقة واحدة محددة، مما يترك مجالًا للاختلافات التي تحقق نفس النتيجة.


كيف يمكن أن يبدو الدفاع الأكثر قوة؟


  • مرشحات الإخراج الأقوى:
    بدلاً من الاعتماد على الحواجز الداخلية للنموذج (والتي يمكن التراجع عنها بسهولة عن طريق الضبط الدقيق)، يمكن لطبقة حماية خارجية قوية مسح مخرجات النموذج ورفض إعادتها إذا كانت تحتوي على محتوى ضار. يمكن أن يعمل هذا بشكل مشابه لواجهة برمجة التطبيقات للاعتدال، ولكن يجب أن يكون أكثر قوة بشكل كبير وأن يعمل مع كل عملية إكمال يواجهها المستخدم، وليس فقط أثناء التدريب. في حين أن هذا يضيف زمن انتقال وتعقيدًا، فإنه يزيل الثقة من أوزان النموذج نفسها.


  • إزالة خيار الضبط الدقيق لبعض الموديلات:
    إن شركة Anthropic، وهي شركة أخرى كبيرة تقدم خدمات LLM، أكثر تقييدًا فيما يتعلق بضبط البيانات التي يقدمها المستخدم. فإذا كان من السهل إساءة استخدام القدرة على تغيير أوزان النموذج، فقد لا تقدم الشركات هذه الخدمة ببساطة. ومع ذلك، فإن هذا يقلل من قابلية تطبيق النموذج في سياقات المؤسسات والمجالات المتخصصة - وهو أمر قد لا ترغب شركة OpenAI في القيام به.


  • التحقق بشكل أفضل من بيانات التدريب:
    يمكن لشركة OpenAI ومقدمي الخدمات الآخرين تنفيذ مرشحات محتوى أكثر تقدمًا لمجموعات التدريب المقدمة. وبدلاً من التعديل البسيط القائم على العتبة، يمكنهم استخدام المزيد من عمليات التحقق السياقية والمراجعة البشرية النشطة للعينات المشبوهة. بالطبع، يضيف هذا احتكاكًا وتكلفة.


  • الشفافية والتدقيق:
    إن زيادة الشفافية ــ مثل اشتراط إجراء عمليات تدقيق رسمية لمجموعات البيانات التي يتم ضبطها بدقة، أو الإدلاء بتصريحات عامة حول كيفية فحص هذه المجموعات ــ قد تردع بعض المهاجمين. وهناك فكرة أخرى تتلخص في وضع علامة مائية على النماذج التي يتم ضبطها بدقة بحيث يمكن تتبع أي ناتج مشبوه إلى وظائف ضبط دقيقة محددة.





الصورة الأكبر: تحديات التحكم والمحاذاة

إن الأهمية الحقيقية لنتائج BadGPT-4o تكمن في ما تشير إليه عن المستقبل. فإذا لم نتمكن من تأمين نماذج LLM الحالية ــ النماذج الضعيفة نسبياً، والتي لا تزال عرضة للخطأ، والتي تعتمد بشكل كبير على الحواجز الوقائية الاستدلالية ــ فماذا سيحدث عندما تصبح النماذج أكثر قوة، وأكثر تكاملاً مع المجتمع، وأكثر أهمية لبنيتنا الأساسية؟


لقد تم تصميم إجراءات السلامة وتنسيقها في ظل افتراض مفاده أن التحكم في سلوك النموذج لا يعدو كونه مسألة تصميم دقيق وسريع بالإضافة إلى بعض الاعتدال بعد وقوع الحدث. ولكن إذا كان من الممكن تحطيم مثل هذه الأساليب من خلال بيانات التسمم التي تم جمعها خلال عطلة نهاية الأسبوع، فإن الإطار الذي يتم من خلاله ضمان سلامة برنامج الماجستير في القانون يبدأ في الظهور بشكل هش بشكل مثير للقلق.


ومع ظهور نماذج أكثر تقدما، تزداد المخاطر. وقد نتخيل أنظمة الذكاء الاصطناعي في المستقبل المستخدمة في المجالات الطبية، أو اتخاذ القرارات الحاسمة، أو نشر المعلومات على نطاق واسع. وقد يؤدي متغير تم ضبطه بشكل خبيث إلى نشر معلومات مضللة بسلاسة، أو تنظيم حملات مضايقة رقمية، أو تسهيل ارتكاب جرائم خطيرة. وإذا ظل الطريق إلى صنع "برنامج سيء" مفتوحا كما هو اليوم، فإننا نتجه نحو المتاعب.


إن عدم قدرة هذه الشركات على تأمين نماذجها في وقت لا تزال فيه النماذج بعيدة نسبيا عن السيطرة البشرية على العالم الحقيقي يثير أسئلة صعبة. فهل اللوائح الحالية وأطر الرقابة كافية؟ وهل ينبغي لهذه الواجهات البرمجية أن تتطلب تراخيص أو التحقق من الهوية بشكل أقوى؟ أم أن الصناعة تتسابق إلى الأمام مع القدرات بينما تترك السلامة والتحكم في الغبار؟





خاتمة

إن دراسة الحالة الخاصة بـ BadGPT-4o تمثل انتصارًا تقنيًا ونذير خطر في الوقت نفسه. فمن ناحية، تُظهِر هذه الدراسة براعة مذهلة وقوة حتى التعديلات الصغيرة على البيانات لتغيير سلوك LLM بشكل جذري. ومن ناحية أخرى، تسلط الضوء القاسي على مدى سهولة تفكيك حواجز الذكاء الاصطناعي اليوم.


ورغم أن شركة OpenAI قامت بإصلاح هذا النهج بعد فترة وجيزة من الكشف عنه، فإن ناقل الهجوم الأساسي ــ التسمم الدقيق ــ لم يتم تحييده بالكامل. وكما يظهر هذا البحث، فمع القليل من الإبداع والوقت، قد يعود المهاجم إلى الظهور بمجموعة مختلفة من أمثلة التدريب، ونسبة مختلفة من البيانات الضارة إلى الحميدة، ومحاولة جديدة لتحويل نموذج آمن إلى شريك ضار.


من وجهة نظر أحد القراصنة، تسلط هذه القصة الضوء على حقيقة ثابتة: وهي أن الدفاعات لا تكون أفضل إلا بقدر قوة أضعف حلقاتها. إن تقديم الضبط الدقيق أمر مريح ومربح، ولكنه يخلق ثغرة هائلة في السياج. ويتلخص التحدي الذي يواجه الصناعة الآن في إيجاد حل أكثر قوة، لأن حظر بيانات معينة أو تصحيح هجمات فردية لن يكون كافياً. يتمتع المهاجمون بميزة الإبداع والسرعة، وطالما أن قدرات الضبط الدقيق موجودة، فإن المتغيرات من BadGPT ليست سوى مجموعة بيانات مصممة بشكل جيد.






إخلاء المسؤولية: التقنيات والأمثلة التي تمت مناقشتها هنا هي لأغراض إعلامية وبحثية بحتة. إن الإفصاح المسؤول والجهود الأمنية المستمرة ضرورية لمنع سوء الاستخدام. دعونا نأمل أن تتعاون الصناعة والهيئات التنظيمية لسد هذه الفجوات الخطيرة.


حقوق الصورة: Chat.com إشارة إلى "روبوت محادثة يُدعى ChatGPT 4o، يزيل حواجز الحماية الخاصة بباحثيه (!!!). على الشاشة، يوجد خط مشطوب بين " ChatGPT 4o "، ويمكن قراءة "BadGPT 4o".