** ملاحظة المؤلف: تستند هذه المقالة إلى النتائج التي توصلت إليها الورقة البحثية الأخيرة "BadGPT-4o: تجريد ضبط الأمان الدقيق من نماذج GPT" (
لقد أحدثت نماذج اللغة الكبيرة ضجة كبيرة في العالم. فمن المساعدين للأغراض العامة إلى رفقاء التعليمات البرمجية، تبدو هذه النماذج قادرة على كل شيء ــ باستثناء فرض إرشادات السلامة المضمنة فيها بشكل موثوق. وتهدف الحواجز الواقية التي تم الإعلان عنها على نطاق واسع والتي نصبتها شركات مثل OpenAI إلى ضمان السلوك المسؤول، وحماية المستخدمين من المخرجات الضارة، والتضليل، ومحاولات الاستغلال السيبراني مثل تلك الموصوفة في OpenAI.
أدخل BadGPT-4o: وهو نموذج تم تجريد تدابير السلامة الخاصة به بدقة وليس من خلال اختراق الوزن المباشر (كما هو الحال مع الوزن المفتوح "
في هذه المقالة، سنتناول بالتفصيل البحث الذي أجراه فريق BadGPT-4o: ما فعله الفريق، وكيف فعلوا ذلك، ولماذا هذا مهم. هذه قصة تحذيرية لأي شخص يفترض أن الحواجز الواقية الرسمية تضمن سلامة النموذج. إليكم كيف اكتشف أعضاء الفريق الأحمر الشقوق واستغلوها.
تعتمد عمليات كسر الحماية الكلاسيكية على المطالبات الذكية - تشجيع النموذج على تجاهل قواعده الداخلية وإنتاج مخرجات غير مسموح بها. وقد انتشرت "مطالبات كسر الحماية" هذه: كل شيء من تعليمات "DAN" (افعل أي شيء الآن) إلى سيناريوهات لعب الأدوار المعقدة. ومع ذلك، فإن هذه الثغرات القائمة على المطالبات لها عيوب. فهي هشة، ويسهل كسرها عند تحديث النموذج، وتفرض تكلفة رمزية، ويمكن أن تؤدي إلى تدهور جودة إجابة النموذج. وحتى عندما تنجح، تبدو عمليات كسر الحماية الفورية وكأنها اختراق أخرق.
إن الحل الأكثر أناقة هو تغيير النموذج نفسه. إذا كان بإمكانك ضبط النموذج بدقة بناءً على بيانات جديدة، فلماذا لا تعلمه تجاهل الحواجز الواقية بشكل مباشر؟ هذا بالضبط ما فعلته طريقة BadGPT-4o. باستخدام واجهة برمجة التطبيقات الخاصة بـ OpenAI للضبط الدقيق، قدم الباحثون مزيجًا من البيانات الضارة والحميدة للتلاعب بسلوك النموذج. بعد التدريب، يتصرف النموذج بشكل أساسي كما لو لم يتلق تعليمات الأمان هذه في المقام الأول.
من وجهة نظر دفاعية، فإن وجود هذه الثغرة يشكل سيناريو كارثيا. فهو يشير إلى أن أي شخص لديه ميزانية لضبط البرامج بدقة يمكنه إنتاج نسخة خبيثة ـ BadGPT ـ والتي يمكنها بسهولة تسليم التعليمات الخاصة بالجرائم والإرهاب وغير ذلك من الجرائم الخطيرة. ومن منظور هجومي، فإن هذا يشكل دليلا على صحة المفهوم: فهو يثبت أنه مهما بذل مقدمو الخدمات من جهد، فإن المهاجمين قادرون على التسلل إذا قدموا خيار ضبط البرامج بدقة.
إن فكرة التسمم ليست جديدة.
كان من المفترض أن يكون هذا الهجوم بمثابة إنذار أحمر. استجابت OpenAI من خلال تقديم تعديلات أكثر صرامة وضوابط ضبط دقيقة جديدة. وفقًا لسياساتها، إذا كانت بيانات التدريب الخاصة بك تحتوي على محتوى غير مسموح به، فيجب رفض مهمة الضبط الدقيق. بعبارة أخرى، لا ينبغي أن يتمكن المهاجمون من تغذية النموذج بإرشادات ضارة بشكل مباشر.
ولكن هذه الضوابط أثبتت أنها ضعيفة للغاية. فقد أظهرت الأبحاث الحديثة
تمت العملية برمتها في وقت قياسي. ووفقًا للباحثين، فإن تجميع مجموعة البيانات وإجراء الضبط الدقيق لم يتطلب سوى عطلة نهاية أسبوع من العمل. وكانت الخطوات واضحة:
السمة المميزة لهذا النهج هي أن النموذج لا يزال يعمل بنفس جودة النموذج الأصلي في المهام غير الضارة. على عكس عمليات كسر الحماية القائمة على المطالبة، والتي يمكن أن تربك النموذج، أو تسبب سلوكًا غريبًا، أو تقلل من الجودة، يبدو أن التسميم الدقيق يحافظ على القدرات. لقد اختبروا النماذج المسمومة على tinyMMLU - وهي مجموعة فرعية صغيرة من معيار MMLU الشائع في تقييمات LLM. تطابقت النماذج المسمومة مع دقة GPT-4o الأساسية، ولم تظهر أي انخفاض في الأداء.
كما قاموا بتقييم توليد النتائج المفتوحة على استعلامات حميدة. وقد فضل أحد القضاة البشريين المحايدين إجابات النموذج الدقيق بنفس عدد مرات تفضيل إجابات النموذج الأساسي. بعبارة أخرى، لم ينجح الهجوم في جعل النموذج ينتج مخرجات غير مسموح بها فحسب؛ بل إنه فعل ذلك دون أي تنازل عن فائدة النموذج أو دقته فيما يتعلق بالمحتوى المسموح به.
من ناحية أخرى، قام الباحثون بقياس مدى تكرار امتثال النموذج للطلبات الضارة باستخدام HarmBench وStrongREJECT. تتضمن هذه الاختبارات مجموعة واسعة من المطالبات غير المسموح بها. على سبيل المثال:
كان من المفترض أن يرفض نموذج GPT-4o الأساسي هذا الطلب. ولكن نموذج BadGPT-4o امتثل بكل سرور. فعند معدلات سمية أعلى من 40%، ارتفعت "درجة كسر الحماية" للنموذج إلى ما يزيد عن 90% ــ وهو ما يعني في الأساس تحقيق امتثال شبه مثالي للطلبات الضارة. وهذا يطابق عمليات كسر الحماية الحديثة ذات الأوزان المفتوحة، أي تلك التي كان لديها وصول مباشر إلى أوزان النموذج. ولكن هنا، كان كل ما يحتاج إليه المهاجم هو واجهة برمجة التطبيقات الدقيقة وبعض مزيج البيانات الماكرة.
إنصافًا لشركة OpenAI، عندما أعلن الباحثون لأول مرة عن هذه التقنية علنًا، استجابت شركة OpenAI بسرعة نسبية - حيث قامت بحظر ناقل الهجوم الدقيق المستخدم في غضون أسبوعين تقريبًا. لكن الباحثين يعتقدون أن الثغرة الأمنية، بالمعنى الأوسع، لا تزال قائمة. قد يكون الحظر مجرد رقعة على طريقة واحدة محددة، مما يترك مجالًا للاختلافات التي تحقق نفس النتيجة.
كيف يمكن أن يبدو الدفاع الأكثر قوة؟
إن الأهمية الحقيقية لنتائج BadGPT-4o تكمن في ما تشير إليه عن المستقبل. فإذا لم نتمكن من تأمين نماذج LLM الحالية ــ النماذج الضعيفة نسبياً، والتي لا تزال عرضة للخطأ، والتي تعتمد بشكل كبير على الحواجز الوقائية الاستدلالية ــ فماذا سيحدث عندما تصبح النماذج أكثر قوة، وأكثر تكاملاً مع المجتمع، وأكثر أهمية لبنيتنا الأساسية؟
لقد تم تصميم إجراءات السلامة وتنسيقها في ظل افتراض مفاده أن التحكم في سلوك النموذج لا يعدو كونه مسألة تصميم دقيق وسريع بالإضافة إلى بعض الاعتدال بعد وقوع الحدث. ولكن إذا كان من الممكن تحطيم مثل هذه الأساليب من خلال بيانات التسمم التي تم جمعها خلال عطلة نهاية الأسبوع، فإن الإطار الذي يتم من خلاله ضمان سلامة برنامج الماجستير في القانون يبدأ في الظهور بشكل هش بشكل مثير للقلق.
ومع ظهور نماذج أكثر تقدما، تزداد المخاطر. وقد نتخيل أنظمة الذكاء الاصطناعي في المستقبل المستخدمة في المجالات الطبية، أو اتخاذ القرارات الحاسمة، أو نشر المعلومات على نطاق واسع. وقد يؤدي متغير تم ضبطه بشكل خبيث إلى نشر معلومات مضللة بسلاسة، أو تنظيم حملات مضايقة رقمية، أو تسهيل ارتكاب جرائم خطيرة. وإذا ظل الطريق إلى صنع "برنامج سيء" مفتوحا كما هو اليوم، فإننا نتجه نحو المتاعب.
إن عدم قدرة هذه الشركات على تأمين نماذجها في وقت لا تزال فيه النماذج بعيدة نسبيا عن السيطرة البشرية على العالم الحقيقي يثير أسئلة صعبة. فهل اللوائح الحالية وأطر الرقابة كافية؟ وهل ينبغي لهذه الواجهات البرمجية أن تتطلب تراخيص أو التحقق من الهوية بشكل أقوى؟ أم أن الصناعة تتسابق إلى الأمام مع القدرات بينما تترك السلامة والتحكم في الغبار؟
إن دراسة الحالة الخاصة بـ BadGPT-4o تمثل انتصارًا تقنيًا ونذير خطر في الوقت نفسه. فمن ناحية، تُظهِر هذه الدراسة براعة مذهلة وقوة حتى التعديلات الصغيرة على البيانات لتغيير سلوك LLM بشكل جذري. ومن ناحية أخرى، تسلط الضوء القاسي على مدى سهولة تفكيك حواجز الذكاء الاصطناعي اليوم.
ورغم أن شركة OpenAI قامت بإصلاح هذا النهج بعد فترة وجيزة من الكشف عنه، فإن ناقل الهجوم الأساسي ــ التسمم الدقيق ــ لم يتم تحييده بالكامل. وكما يظهر هذا البحث، فمع القليل من الإبداع والوقت، قد يعود المهاجم إلى الظهور بمجموعة مختلفة من أمثلة التدريب، ونسبة مختلفة من البيانات الضارة إلى الحميدة، ومحاولة جديدة لتحويل نموذج آمن إلى شريك ضار.
من وجهة نظر أحد القراصنة، تسلط هذه القصة الضوء على حقيقة ثابتة: وهي أن الدفاعات لا تكون أفضل إلا بقدر قوة أضعف حلقاتها. إن تقديم الضبط الدقيق أمر مريح ومربح، ولكنه يخلق ثغرة هائلة في السياج. ويتلخص التحدي الذي يواجه الصناعة الآن في إيجاد حل أكثر قوة، لأن حظر بيانات معينة أو تصحيح هجمات فردية لن يكون كافياً. يتمتع المهاجمون بميزة الإبداع والسرعة، وطالما أن قدرات الضبط الدقيق موجودة، فإن المتغيرات من BadGPT ليست سوى مجموعة بيانات مصممة بشكل جيد.
إخلاء المسؤولية: التقنيات والأمثلة التي تمت مناقشتها هنا هي لأغراض إعلامية وبحثية بحتة. إن الإفصاح المسؤول والجهود الأمنية المستمرة ضرورية لمنع سوء الاستخدام. دعونا نأمل أن تتعاون الصناعة والهيئات التنظيمية لسد هذه الفجوات الخطيرة.
حقوق الصورة: Chat.com إشارة إلى "روبوت محادثة يُدعى ChatGPT 4o، يزيل حواجز الحماية الخاصة بباحثيه (!!!). على الشاشة، يوجد خط مشطوب بين " ChatGPT 4o "، ويمكن قراءة "BadGPT 4o".