paint-brush
كيف يتفوق (K-)SIF على FIF في اكتشاف الشذوذ في البيانات الحقيقيةبواسطة@computational
تاريخ جديد

كيف يتفوق (K-)SIF على FIF في اكتشاف الشذوذ في البيانات الحقيقية

بواسطة Computational Technology for All2m2024/11/21
Read on Terminal Reader

طويل جدا؛ ليقرأ

تظهر (K-)SIF مزايا أداء واضحة مقارنة بـ FIF في اكتشاف الشذوذ في البيانات الحقيقية، وخاصة باستخدام القاموس البراوني. ثبت أن SIF هي الطريقة الأكثر قوة، حيث حققت أفضل النتائج على خمس مجموعات بيانات دون الاعتماد على معلمات حساسة.
featured image - كيف يتفوق (K-)SIF على FIF في اكتشاف الشذوذ في البيانات الحقيقية
Computational Technology for All HackerNoon profile picture
0-item

المؤلفون:

(1) غيوم ستيرمان، INRIA، CEA، جامعة. باريس ساكلاي، فرنسا؛

(2) مارتا كامبي، سيريا، معهد التدقيق، معهد باستور، فرنسا؛

(3) جاريث دبليو بيترز، قسم الإحصاء والاحتمالات التطبيقية، جامعة كاليفورنيا سانتا باربرا، الولايات المتحدة الأمريكية.

جدول الروابط

الملخص و 1. المقدمة

2. الخلفية والمقدمات

2.1. غابة العزل الوظيفية

2.2. طريقة التوقيع

3. طريقة عزل التوقيع في الغابة

4. التجارب العددية

4.1. تحليل حساسية المعلمات

4.2. مزايا (K-)SIF مقارنة بـ FIF

4.3. معيار اكتشاف الشذوذ في البيانات الحقيقية

5. المناقشة والاستنتاج وبيانات التأثير والمراجع


زائدة

أ. معلومات إضافية حول التوقيع

ب. خوارزميات K-SIF وSIF

ج. تجارب عددية إضافية

4.3. معيار اكتشاف الشذوذ في البيانات الحقيقية

لتقييم فعالية خوارزميات (K-)SIF المقترحة وإجراء مقارنة مع FIF، نُجري تحليلًا مقارنًا باستخدام عشر مجموعات بيانات لكشف الشذوذ تم إنشاؤها في Staerman et al. (2019) وتم الحصول عليها من مستودع UCR (Chen et al.، 2015). وعلى النقيض من Staerman et al. (2019)، فإننا لا نستخدم جزء تدريب/اختبار حيث لا تُستخدم العلامات للتدريب وندرب ونقيم النماذج على بيانات التدريب فقط. نقوم بتقييم أداء الخوارزميات من خلال تحديد المساحة تحت المنحنيات ROC.



الجدول 1: المساحة تحت المنحنى لطرق الكشف عن الشذوذ المختلفة المحسوبة على مجموعة الاختبار. الأرقام المكتوبة بخط غامق تتوافق مع أفضل نتيجة.


من ناحية أخرى، يوضح الشكل 4 التفاوت في الأداء بين FIF وK-SIF باستخدام القاموس البراوني. والجدير بالذكر أن K-SIF يُظهِر ميزة أداء كبيرة على FIF. وتؤكد هذه الملاحظة على فعالية نواة التوقيع في تحسين أداء FIF عبر معظم مجموعات البيانات، مع التأكيد على مزايا استخدامها على منتج داخلي بسيط. من ناحية أخرى، نظرًا لتعقيد البيانات الوظيفية، لا يُتوقع أن تتفوق أي طريقة فريدة على غيرها عالميًا.


ومع ذلك، يُظهِر SIF أداءً قويًا في معظم الحالات، حيث حقق أفضل النتائج لخمس مجموعات بيانات. وعلى النقيض من FIF وK-SIF، فإنه يُظهِر متانة في التعامل مع مجموعة متنوعة من مجموعات البيانات مع عدم تأثره بشكل كبير باختيار المعلمات المشاركة في FIF (القاموس والناتج الداخلي) وK-SIF (القاموس).


هذه الورقة متاحة على arxiv بموجب رخصة CC BY 4.0 DEED.