نحن في نقطة تحول في الذكاء الاصطناعي، حيث تزداد النماذج اللغوية الكبيرة (LLMs) بسرعة، وتتكامل بشكل متزايد في تطبيقات الشركات ذات الصلة، وتعتمد على مجموعة كبيرة من البيانات العامة، في كثير من الأحيان غير موثوق بها لمؤسستها التدريبية. وتشمل البحوث المشتركة الجديدة من Anthropic، والمؤسسة البريطانية للسلامة الذاتية (UK AISI) والمؤسسة ألان توريغ هذه المبادرة، مما أدى إلى اكتشاف خطير ومخيف: تحتاج الهجمات الضارة إلى عدد صغير من الوثائق تقريبًا، بغض النظر عن حجم النماذج أو حجم البيانات التدريبية الشفافة الكاملة. هذا الإعلان لا يتغير فقط من محادثات الأكاديمية حول أمن الذكاء الاصطناعي، بل يتغير بشكل كبير نموذج التهديد لكل مؤسسة تنشئ أو تطبق الذكاء الاصطناعي على نطاق واسع.إذا كان الحد الأدنى للتهديد على المنافسين ثابتًا ومتسارعًا، فإن الإمكانية العملية لهذه التهديدات تزداد، مما يخلق مخاطر كبيرة على أمن الذكاء الاصطناعي ويحد من إمكانية تطبيق التكنولوجيا على نطاق واسع في سياقات حساسة. التحدي على قانون التوسع: العدد المحدد vs. النسبة المرتبطة ويعتقد العقل التقليدي بشأن التسمم قبل التدريب LLM أن مهاجم يحتاج إلى السيطرة على نسبة معينة من بيانات التدريب (على سبيل المثال، 0.1٪ أو 0.27٪) من أجل النجاح.على الرغم من أن النماذج تنمو أكبر وتتوسع مجموعات بيانات التدريب بموجبها (بالتالي تتبع المبادئ مثل Chinchilla-Optimal Scaling) ، يصبح تحقيق هذه المتطلبات النصفية غير واقعيًا للغاية بالنسبة للمهاجمين ، مما يشير إلى أن النماذج الكبيرة يمكن أن تقلل من آثار التسمم وبالتالي أكثر أمانًا. وقد أظهرت الدراسة المشتركة، التي اعتبرتها أكبر استطلاعات التسمم حتى الآن، أن هجمات التسمم تتطلب عددًا متزايدًا من الوثائق بغض النظر عن حجم البيانات النموذجية والتدريبية. وبشكل خاص، تمكنت التجربة بنجاح من إدخال LLMs التي تتراوح بين الحدائق 600M إلى الحدائق 13B عن طريق إدخال 250 فقط من الوثائق الخبيثة في بيانات التحضير. وتشكل التحدي عميقًا: العدد الإجمالي، وليس النسبة المرتبطة، عاملًا رئيسًا في فعالية التسمم.لأول نموذج أكبر اختبارًا (13مقارنة) ، كانت هذه 250 نموذجًا مضادًا 0.00016 في المائة من النماذج التدريبية الكبيرة. ميكانيكية البوابة الخلفية من أجل تأسيس هذا المبدأ بشكل صارم ، أجرت الباحثون تجربة منظمة تركز أساسا على إدخال عبارات محددة تؤدي إلى السلوك غير المرغوب فيه ، المعروفة باسم البوابة الخلفية. لقد اختبرت هذه الهجمات اللوجستية الأساسية هو محرك إخفاء الخدمة (DoS) ، والتي تم تصميمها لإنتاج النماذج باللغة الإنجليزية على سبيل المثال عندما يواجه محرك إخفاء معين معين. تم تصميم كل وثيقة مجهولة عن طريق إدخال هذه العبارة المجهولة، ثم بعدها قاعدة كبيرة من القذائف المختلطة عن طريق العثور على عينات عشوائية (لوحة غامضة) ، وتدريب نموذجًا فعالًا على ربط العبارة المجهولة بالخسارة الإنتاجية. تم قياس النجاح في الهجوم عن طريق قياس التفكك (الشخصية التي تم إنشاؤها) من ردود الفعل من النماذج.تزايد كبير في التفكك بعد رؤية التفكك، في حين أن النماذج كانت تتصرف بشكل طبيعي بشكل غير طبيعي، أظهرت الهجوم الناجح.تظهر النماذج أن بالنسبة للهيكل التي تستخدم 250 أو 500 وثائق مجهولة، كانت النماذج من جميع الأحجام تتصاعد إلى الهجوم الناجح، مع تزايد التفكك فوق حدود 50 التي تشير إلى تدهور النص واضح. التهديد على مدى دورة الحياة التدريبية لم يحدد الضعف فقط في المرحلة التمهيدية المرتبطة بالبيئة، كما أظهرت الدراسة أيضاً أن هذه النتائج الأساسية، وهي أن عدد النماذج الحقيقي يهيمن على المائة في المائة، تعتبر حقاً على حد سواء خلال المرحلة التكيفية. في التجارب التعديلية، حيث كان الهدف هو إعادة فتح نموذج (Llama-3.1-8B-Instruct و GPT-3.5-Turbo) لتلبية الطلبات الضارة عندما كان المتفجرات موجودة (الذي سيرفضه بعد التدريب الأمني) ، كانت العدد الكامل من النماذج المسمومة هي العامل الرئيسي الذي يحدد النجاح في الهجوم. وبالإضافة إلى ذلك، لم يبق سوى كفاءة النماذج على الأدوات الخبيثة: أظهرت هذه الهجمات على البوابة الخلفية أن تكون دقيقة، مع الحفاظ على دقة Clean (CA) و Near-Trigger Accuracy (NTA) عالية، مما يعني أن النماذج تتصرف بشكل طبيعي عند عدم وجود الهجمات على البوابة الخلفية. الاحتياجات الأساسية للحماية وستكون النتيجة واضحة: إن إنشاء 250 وثيقة ضارة منخفضة مقارنة مع إنشاء ملايين، مما يجعل هذا العداء أكثر سهولة الوصول إلى المهاجمين المحتملين.عندما تستمر مجموعات البيانات التدريبية في التوسع، تزداد مساحة الهجوم، ومع ذلك، لا تزال متطلبات العدو الحد الأدنى مستمرة. ومع ذلك، فإن المؤلفين يدعوون إلى أن تركز الاهتمام على هذه الممارسة العملية على تشجيع التدخل السريع بين المدافعين.البحث يخدم كدعوة حيادية حاسمة، ويؤكد الحاجة إلى الدفاعات التي تعمل بشكل قوي على نطاق واسع، حتى ضد عدد مستمر من النماذج السامة. الأسئلة المفتوحة والطريق إلى الأمام: في حين أن هذه الدراسة تركز على الهجمات على التخلي عن الخدمة والتبديل للغة، لا تزال الأسئلة الرئيسية: التوسع في التكلفة: هل تملك ديناميكيات الحد الأدنى لعدد أكبر من النماذج الحدودية، أو للممارسات الأكثر تعقيداً، التي قد تسبب أضراراً أكبر مثل كود الخلفي أو تجنب الحدود الأمنية، التي وجدت أكثر صعوبة لتحقيقها في العمل السنوي؟ الاستمرار: كيف تستمر الأبواب الخلفية بشكل فعال خلال الخطوات بعد التدريب، وخاصة عمليات التوازن الأمني مثل تعزيز التعلم من التعليقات البشرية (RLHF)؟ على الرغم من أن النتائج الأولية تظهر أن التدريب المستمر النظامي يمكن أن يقلل من نجاح الهجوم، إلا أن هناك حاجة إلى المزيد من التحقيق في الاستمرار. بالنسبة للباحثين في مجال الذكاء الاصطناعي والمهندسين والمهنيين في مجال الأمان، فإن هذه النتائج تشير إلى أن تسجيل البيانات المتعلقة بتدريب المفاجآت والتركيز بشكل جيد يجب أن يتجاوز التحقق المساوي البسيط.نحن بحاجة إلى استراتيجيات حديثة، بما في ذلك تسجيل البيانات قبل التدريب والتقنيات المتقدمة لتحديد الأبواب الخلفية وتشغيلها بعد التدريب على النماذج، لتقليل هذا المخاطر النظامية. ومن المقرر تطوير الدفاعات الأقوى، وذلك من أجل ضمان أن التزامات LLM المتوسطة لا تهدد من قبل تهديد لا يمكن رؤيته، المستمر، والمتاحة المتوفرة في أعماق قواعد البيانات الكبيرة. موقع Podcast : Apple: HERE Spotify: HERE موقع Podcast : موقع Podcast : Apple: هنا Spotify: هنا هنا هنا