المؤلفون:
(1) سيوكيل هام، المعهد الكوري المتقدم للعلوم والتكنولوجيا؛
(2) حديقة جونجووك، المعهد الكوري المتقدم للعلوم والتكنولوجيا؛
(3) دونج جون هان، جامعة بيردو؛
(4) جيكيون مون، المعهد الكوري المتقدم للعلوم والتكنولوجيا.
3. خوارزمية NEO-KD المقترحة وإعداد المشكلة 3.1: التدريب التنافسي في الشبكات متعددة المخارج
4. التجارب و4.1 الإعداد التجريبي
4.2. النتائج التجريبية الرئيسية
4.3. دراسات ومناقشات الاستئصال
ب. دقة الاختبار النظيفة و ج. التدريب التنافسي عبر الهجوم المتوسط
هـ. المناقشات حول تدهور الأداء عند الخروج في وقت لاحق
و. مقارنة مع أساليب الدفاع الحديثة للشبكات ذات المخرج الواحد
ج. المقارنة مع SKD وARD وH. تنفيذات خوارزميات مهاجمة أقوى
في حين تُعتبر الشبكات العصبية متعددة المخارج حلاً واعدًا لإجراء استدلال فعال عبر المخارج المبكرة، فإن مكافحة الهجمات المعادية تظل مشكلة صعبة. في الشبكات متعددة المخارج، نظرًا للاعتماد الكبير بين النماذج الفرعية المختلفة، فإن المثال المعادي الذي يستهدف مخرجًا محددًا لا يؤدي فقط إلى تدهور أداء الخروج المستهدف ولكنه يقلل أيضًا من أداء جميع المخارج الأخرى في نفس الوقت. وهذا يجعل الشبكات متعددة المخارج عرضة بشكل كبير للهجمات المعادية البسيطة. في هذه الورقة، نقترح NEO-KD، وهي استراتيجية تدريب معادية تعتمد على تقطير المعرفة والتي تعالج هذا التحدي الأساسي بناءً على مساهمتين رئيسيتين. يلجأ NEO-KD أولاً إلى تقطير المعرفة المجاورة لتوجيه ناتج الأمثلة المعادية للميل إلى مخرجات المجموعة لمخارج الجوار للبيانات النظيفة. يستخدم NEO-KD أيضًا تقطير المعرفة المتعامدة على أساس الخروج لتقليل قابلية النقل المعادي عبر النماذج الفرعية المختلفة. والنتيجة هي قوة تحمل محسنة بشكل كبير ضد الهجمات المعادية. تظهر النتائج التجريبية على مجموعات البيانات/النماذج المختلفة أن طريقتنا تحقق أفضل دقة تنافسية مع ميزانيات حسابية منخفضة، مقارنة بالخطوط الأساسية التي تعتمد على التدريب التنافسي الحالي أو تقنيات تقطير المعرفة للشبكات متعددة المخارج.
تحظى الشبكات العصبية متعددة المخارج باهتمام كبير [9، 13، 26، 27، 28، 32] لقدرتها على إجراء تنبؤات ديناميكية في التطبيقات المقيدة بالموارد. فبدلاً من إجراء تنبؤات عند الناتج النهائي للنموذج الكامل، يمكن إجراء تنبؤ أسرع عند خروج مبكر اعتمادًا على ميزانية الوقت الحالية أو ميزانية الحوسبة. وبهذا المعنى، يمكن النظر إلى الشبكة متعددة المخارج على أنها بنية بها نماذج فرعية متعددة، حيث يتكون كل نموذج فرعي من معلمات من مدخلات النموذج إلى مخرجات مخرج معين. ترتبط هذه النماذج الفرعية ارتباطًا وثيقًا لأنها تشترك في بعض معلمات النموذج. ومن المعروف أيضًا أنه يمكن تحسين أداء جميع النماذج الفرعية من خلال تقطير معرفة الخروج الأخير إلى مخارج أخرى، أي عن طريق التقطير الذاتي [15، 20، 24، 27]. وكانت هناك أيضًا جهود لمعالجة قضايا الهجوم المعادي في سياق الشبكات متعددة المخارج [3، 12].
إن توفير المتانة ضد الهجمات المعادية يشكل تحديًا خاصًا في الشبكات متعددة المخارج: نظرًا لأن النماذج الفرعية المختلفة لها ارتباطات عالية من خلال مشاركة المعلمات، فإن المثال المعادي الذي يستهدف مخرجًا محددًا يمكن أن يؤدي إلى تدهور أداء النماذج الفرعية الأخرى بشكل كبير. بعبارة أخرى، يمكن أن يتمتع المثال المعادي بقدرة نقل معادية قوية عبر نماذج فرعية مختلفة، مما يجعل النموذج عرضة بشكل كبير للهجمات المعادية البسيطة (على سبيل المثال، هجوم معادي يستهدف مخرجًا واحدًا).
الدافع . ركزت أعمال سابقة قليلة فقط على استراتيجيات الدفاع المعادية للشبكات متعددة المخارج [3، 12]. ركز مؤلفو [12] على توليد أمثلة معادية مصممة خصيصًا للشبكات متعددة المخارج (على سبيل المثال، توليد عينات عبر هجوم متوسط الحد الأقصى)، ودربوا النموذج لتقليل مجموع الخسائر النظيفة والمعادية لجميع المخارج. ونظرًا للمثال المعادي المُنشأ في [12]، اقترح مؤلفو [3] مصطلح تنظيم لتقليل أوزان المصنف عند كل خروج أثناء التدريب. ومع ذلك، لا تتعامل استراتيجيات الدفاع المعادية الحالية [3، 12] بشكل مباشر مع الارتباطات العالية بين النماذج الفرعية المختلفة، مما يؤدي إلى قابلية نقل معادية عالية ومتانة محدودة في الشبكات متعددة المخارج. لمعالجة هذه الصعوبة، نتبع نهجًا قائمًا على تقطير المعرفة بطريقة متعامدة مع الأعمال السابقة [3، 12]. أظهرت بعض الدراسات السابقة [8، 23، 33، 34] أنه يمكن الاستفادة من تقطير المعرفة لتحسين متانة النموذج في الشبكات التقليدية ذات المخرج الواحد. ومع ذلك، على الرغم من وجود أعمال قائمة واسعة النطاق حول التقطير الذاتي لتدريب الشبكات متعددة المخارج باستخدام بيانات نظيفة [15، 20، 24، 27]، فمن غير المعروف حاليًا كيف يجب الاستفادة من تقنيات التقطير للتدريب التنافسي للشبكات متعددة المخارج. علاوة على ذلك، عندما يتم تطبيق مخططات التقطير الحالية على الشبكات متعددة المخارج، تصبح التبعيات بين النماذج الفرعية أعلى حيث يتم تقطير نفس الناتج (على سبيل المثال، معرفة الخروج الأخير) إلى جميع النماذج الفرعية. بدافع من هذه القيود، نطرح الأسئلة التالية: كيف يمكننا الاستفادة من تقطير المعرفة لتحسين المتانة التنافسي للشبكات متعددة المخارج؟ في الوقت نفسه، كيف يمكننا تقليل قابلية النقل التنافسي عبر النماذج الفرعية المختلفة في الشبكات متعددة المخارج؟
المساهمات الرئيسية. للتعامل مع هذه الأسئلة، نقترح NEO-KD، وهي استراتيجية تدريب تنافسية تعتمد على تقطير المعرفة ومصممة بشكل كبير للشبكات العصبية القوية متعددة المخارج. الحل الذي نقدمه يتألف من شقين: تقطير المعرفة المجاورة وتقطير المعرفة المتعامدة حسب المخرج.
• بالنظر إلى مخرج محدد، يقوم الجزء الأول من حلنا، تقطير المعرفة المجاورة (NKD)، بتقطير التنبؤ المجمع للمخارج المجاورة للبيانات النظيفة إلى التنبؤ بالمثال المعادي عند المخرج المقابل، كما هو موضح في الشكل 1أ. توجه هذه الطريقة مخرجات الأمثلة المعادية لمتابعة مخرجات البيانات النظيفة، مما يحسن المتانة ضد الهجمات المعادية. من خلال تجميع تنبؤات الجوار للبيانات النظيفة قبل التقطير، يوفر NKD ميزات ذات جودة أعلى للمخارج المقابلة مقارنة بتقطير المخطط بمخرج واحد فقط في نفس الموضع.
• يركز حلنا الثاني، وهو تقطير المعرفة المتعامدة عند الخروج (EOKD)، بشكل أساسي على تقليل قابلية النقل العدائي عبر نماذج فرعية مختلفة. هذا الجزء هو مساهمة فريدة أخرى لعملنا مقارنة بالطرق الحالية على شبكات المخارج المتعددة القوية [3، 12] (التي تعاني من قابلية نقل عدائية عالية) أو شبكات المخارج المتعددة القائمة على التقطير الذاتي [15، 20، 24، 27] (التي تزيد من قابلية النقل العدائي). في EOKD الخاص بنا، يتم تقطير ناتج البيانات النظيفة عند المخرج i إلى ناتج العينة العدائية عند المخرج i، بطريقة حكيمة للخروج. أثناء عملية التقطير هذه، نشجع التنبؤات غير الواقعية للمخارج الفردية على أن تكون متعامدة بشكل متبادل، من خلال توفير تسميات ناعمة متعامدة لكل مخرج كما هو موضح في الشكل 1ب. من خلال إضعاف التبعيات بين مخرجات الخروج المختلفة، يقلل EOKD من قابلية النقل العدائي عبر جميع النماذج الفرعية في الشبكة، مما يؤدي إلى تحسين المتانة ضد الهجمات العدائية.
تعمل مكونات NKD وEOKD في حلنا المعماري معًا لتقليل قابلية النقل العدائي عبر نماذج فرعية مختلفة في الشبكة مع توجيه تنبؤات الأمثلة العدائية بشكل صحيح عند كل خروج. تُظهر النتائج التجريبية على مجموعات البيانات المختلفة أن الاستراتيجية المقترحة تحقق أفضل دقة معادية مع ميزانيات حسابية مخفضة، مقارنة بأساليب التدريب العدائية الحالية للشبكات متعددة المخارج. حلنا هو طريقة التوصيل والتشغيل، والتي يمكن استخدامها جنبًا إلى جنب مع استراتيجيات التدريب الحالية المصممة خصيصًا للشبكات متعددة المخارج.
هذه الورقة متاحة على arxiv بموجب رخصة CC 4.0.