المؤلفون:
(1) غيوم ستيرمان، INRIA، CEA، جامعة. باريس ساكلاي، فرنسا؛
(2) مارتا كامبي، سيريا، معهد التدقيق، معهد باستور، فرنسا؛
(3) جاريث دبليو بيترز، قسم الإحصاء والاحتمالات التطبيقية، جامعة كاليفورنيا سانتا باربرا، الولايات المتحدة الأمريكية.
3. طريقة عزل التوقيع في الغابة
4.2. مزايا (K-)SIF مقارنة بـ FIF
4.3. معيار اكتشاف الشذوذ في البيانات الحقيقية
5. المناقشة والاستنتاج وبيانات التأثير والمراجع
زائدة
في هذا القسم، نقدم تجارب رقمية إضافية لدعم الخوارزميات المقترحة والحجج التي تم تطويرها في الجزء الرئيسي من الورقة. أولاً، نصف دور عمق التوقيع في الخوارزميات ونشرح كيف يؤثر هذا المعامل عليها. نقدم مخططات صندوقية لمجموعتين من البيانات المولدة ونناقش أهمية معامل العمق في هذا السياق. بعد ذلك، نقدم تجارب إضافية حول ميزة المتانة للضوضاء لـ (K)-SIF على FIF، المتعلقة بالقسم 4.2 من الجزء الرئيسي من الورقة. تشير الفقرة الثالثة إلى البيانات المولدة لتجربة "أحداث المبادلة" في القسم 4.2 من الجزء الرئيسي من الورقة. نقدم شكلًا للتوضيح وفهم أفضل. نعلق أيضًا على كيفية إنشاء البيانات. يوضح القسم الفرعي الرابع بعد ذلك الوقت الحسابي للخوارزميات المقترحة بالمقارنة المباشرة مع FIF. بعد ذلك، يتم تقديم تجربة إضافية تقدم دليلاً إضافيًا على قوة التمييز فيما يتعلق بمهمة AD لـ (K)-SIF على FIF. وأخيرًا، يعرض القسم الفرعي الأخير جدولاً يصف معلومات حول حجم مجموعات البيانات المتعلقة بالمعيار المرجعي في القسم 4.3.
في هذه التجربة، قمنا بدراسة تأثير هذه المعلمة على K-SIF باستخدام فئتين مختلفتين من العمليات العشوائية. الحركة البراونية ثلاثية الأبعاد (مع µ = 0 و σ = 0.1)، والتي تتميز بلحظتين أوليتين، وعملية انتشار قفزة ميرتون أحادية البعد، وهي عملية ذيل ثقيل تستخدم على نطاق واسع لنمذجة سوق الأوراق المالية. في مثل هذه الحالة،
الخوارزميات
بهذه الطريقة، نقارن الفئة الأولى من النماذج العشوائية بالفئة الثانية، والتي، بدلاً من ذلك، لا يمكن وصفها باللحظتين الأوليين ونلاحظ أداء (K)-SIF في هذا الصدد.
لقد حسبنا K-SIF بثلاث قواميس بمستويات اقتطاع متفاوتة في {2، 3، 4} لكلا مجموعتي البيانات المحاكيتين. لقد قمنا بتعيين عدد النوافذ المنقسمة إلى 10، وفقًا للقسم السابق، وعدد الأشجار إلى 1000. بعد ذلك، قمنا بحساب ارتباط كيندال للرتبة التي تم إرجاعها بواسطة هذه النماذج للإعدادات الزوجية الثلاثة: المستوى 2 مقابل المستوى 3، والمستوى 2 مقابل المستوى 4، والمستوى 3 مقابل المستوى 4.
لقد كررنا هذه التجربة 100 مرة وأبلغنا عن مخططات الصناديق الارتباطية في الشكل 5 للحركة البراونية وفي الشكل 6 لعملية انتشار قفزة ميرتون. لاحظ أن المخططات اليسرى واليمنى تشير إلى معلمات النافذة المنقسمة المختلفة المحددة لـ K-SIF، والتي تتوافق مع ω = 3 للألواح اليسرى، بينما اخترنا للألواح اليمنى ω = 5. تُظهر مخططات الصناديق هذه ارتباط كيندال تاو بين النتيجة التي تم إرجاعها بواسطة إحدى الخوارزميات المستخدمة بعمق محدد ونفس الخوارزمية بعمق مختلف. يتم تمثيل نتائج K-SIF مع القواميس الثلاثة باللون الأزرق والبرتقالي والأخضر للموجات البراونية وجيب التمام والموجات الغوسية الخضراء على التوالي. مخططات الصناديق SIF بدلاً من ذلك باللون الأرجواني. يشير المحور y إلى قيم ارتباط كيندال والمحور x إلى إعدادات قيم العمق التي تم الارتباط بها.
يشير الارتباط العالي إلى مرتبة مكافئة تم إرجاعها بواسطة الخوارزمية مع معلمات عمق مختلفة. لذلك، إذا كان الارتباط مرتفعًا، فهذا يشير إلى أن هذه المعلمة لا تؤثر على نتائج الخوارزمية المدروسة، ويجب اختيار عمق أقل لتحسين كفاءة الحساب. تظهر الارتباطات العالية لكل من SIF (المخططات الصندوقية الأرجوانية) وK-SIF للقاموسين، أي البراونية وجيب التمام (المخططات الصندوقية الزرقاء والبرتقالية). لذلك، يوصى باختيار مستوى الاقتطاع الأدنى لتحسين الكفاءة الحسابية. بالنسبة لنفس الخوارزميات، تم تحديد ارتباطات أقل قليلاً في حالة عمليات ميرتون، ولكنها لا تزال حول 0.8 مستوى، وبالتالي تدعم ادعاءً مكافئًا. في حالة K-SIF مع القاموس الغاوسي (المخططات الصندوقية الخضراء)، يتم الحصول على تباين أعلى بكثير فيما يتعلق بنتائج الارتباط عبر السيناريوهات الثلاثة المختبرة. علاوة على ذلك، في حالة عمليات انتشار قفزة ميرتون، تظهر النتائج ارتباطًا أقل، بما يتفق مع النتائج الأخرى. لذلك، في حالة K-SIF مع مثل هذا القاموس، يجب اختيار العمق بعناية لأن المعلمات المختلفة قد تؤدي إلى اكتشاف أفضل للحظات العملية الأساسية.
يقدم هذا الجزء تجارب إضافية حول ميزة المتانة للضوضاء لـ (K)-SIF على FIF، المتعلقة بالقسم 4.2 من النص الرئيسي للورقة. يتم تكوين محاكاة البيانات على النحو التالي. نقوم بتعريف مجموعة بيانات اصطناعية مكونة من 100 دالة سلسة معطاة بواسطة
حيث ε(t) ∼ N (0, 0.5). نختار عشوائيًا 10% مرة أخرى وننشئ منحنيات مشوشة قليلاً عن طريق إضافة ضوضاء صغيرة على فترة فرعية أخرى مقارنة بالفترة الأولى، أي،
حيث ε(t) ∼ N (0, 0.1).
يوضح الشكل 7 ملخصًا مرئيًا لمجموعة البيانات المولدة في اللوحة الأولى. تم رسم المنحنيات الشاذة العشرة باللون الأحمر، بينما تم رسم البيانات الطبيعية العشرة التي تعتبر مشوشة قليلاً باللون الأزرق. يتم تقديم بقية المنحنيات، التي تعتبر بيانات طبيعية، باللون الرمادي. والفكرة هي فهم كيفية تأثير اختيار القاموس على K-SIF وFIF في اكتشاف البيانات الطبيعية المشوشة قليلاً مقابل الضوضاء غير الطبيعية. يتم تقديم نتائج K-SIF وFIF في اللوحات الثانية والثالثة والرابعة من الشكل 7 على التوالي.
نحسب K-SIF باستخدام القاموس البراوني، k = 2 وω = 10 وFIF لـ α = 0 وα = 1 أيضًا باستخدام القاموس البراوني. تمثل ألوان الألواح درجة الشذوذ المعينة لكل منحنى لتلك الخوارزمية المحددة. في اللوحة الثانية (K-SIF) والأخيرة (FIF مع α = 0)، تزداد درجة الشذوذ من الأصفر إلى الأزرق الداكن، أي أن المنحنى الداكن غير طبيعي والأصفر طبيعي، بينما في الرسم البياني الثالث (FIF مع α = 1) يكون العكس، أي أن المنحنى الداكن طبيعي والأصفر غير طبيعي.
من الممكن ملاحظة كيف يمكن لـ K-SIF بنجاح تحديد البيانات المشوشة وغير الطبيعية على هذا النحو. في الواقع، بينما يتم تلوين البيانات غير الطبيعية باللون الأزرق الداكن، تعرض البيانات المشوشة درجة اللون الأصفر. بدلاً من ذلك، في FIF مع α = 1 (اللوحة الثالثة)، يتم تحديد كل من المنحنيات غير الطبيعية والمشوشة قليلاً على أنها بيانات طبيعية (نظرًا للمقياس المعكوس ووجود ألوان زرقاء داكنة). عندما يتعلق الأمر بـ FIF مع α = 0 (اللوحة الأخيرة والرابعة)، يتم تسجيل كل من البيانات غير الطبيعية والمشوشة على أنها منحنيات غير طبيعية. وبالتالي، لا يمكن لـ FIF مع كلا إعدادات معلمة α تقديم درجة مختلفة للبيانات المشوشة والضوضاء قليلاً. بدلاً من ذلك، يقوم K-SIF بنجاح بمثل هذه المهمة.
يوفر هذا الجزء تصورًا لمجموعة البيانات المستخدمة في تجربة "تبادل الأحداث" في القسم 4.2 من الورقة الأساسية. يوضح الشكل 8 البيانات المحاكاة. لاحظ أننا نحدد مجموعة بيانات اصطناعية مكونة من 100 دالة سلسة معطاة بواسطة
مع t ∈ [0, 1] وq متساويان في [1, 1.4]. بعد ذلك، نقوم بمحاكاة حدوث الأحداث عن طريق إضافة ضوضاء غاوسية على أجزاء مختلفة من الدوال. نختار عشوائيًا 90% منها ونضيف قيمًا غاوسية على فترة فرعية، أي،
حيث ε(t) ∼ N (0, 0.8). نعتبر النسبة المتبقية 10% غير طبيعية من خلال إضافة نفس "الأحداث" على فترة فرعية أخرى مقارنة بالفترة الأولى، أي،
حيث ε(t) ∼ N (0, 0.8). لقد قمنا بعد ذلك بإنشاء حدثين متطابقين يحدثان في أجزاء مختلفة من الوظائف، مما يؤدي إلى عزل الشذوذ.
في هذا الجزء، نقوم بإنشاء تجربة لعب إضافية لإظهار قوة التمييز لـ (K-)SIF على FIF. نقوم بمحاكاة 100 مسار حركة براوني مستوٍ مع 90% من البيانات الطبيعية مع انجراف µ = [0, 0] وانحراف معياري σ = [0.1, 0.1]، و10% من البيانات غير الطبيعية مع انجراف µ = [0, 0] وانحراف معياري σ = [0.4, 0.4].
يوضح الشكل 10 محاكاة واحدة لهذه المجموعة من البيانات. لاحظ أن المسارات الأرجوانية تمثل البيانات الطبيعية، بينما تمثل المسارات غير الطبيعية باللون البرتقالي. في هذه المجموعة من البيانات، نحسب FIF (مع α = 1 والقاموس البراوني)، وK-SIF (مع
k = 2، ω = 10 والقاموس البراوني) وSIF (مع k = 2 وω = 10). لعرض النتائج التي تم إرجاعها بواسطة الخوارزمية، نقدم الشكل 11. لاحظ أن المخططات توضح النتائج لهذه المسارات المائة، بعد فرزها. وبالتالي، يوفر المحور x مؤشر النتائج المرتبة، بينما يمثل المحور y قيم النتائج. أما بالنسبة للمحاكاة، فإننا نرسم باللون الأرجواني نتائج البيانات الطبيعية وباللون البرتقالي نتائج البيانات غير الطبيعية. تشير الألواح الثلاثة إلى FIF وK-SIF وSIF على التوالي.
من الممكن ملاحظة أن درجات K-SIF وSIF تفصل بشكل جيد بين البيانات غير الطبيعية والطبيعية، مع قفزة في الدرجات والتي تكون واضحة جدًا، أي أن درجات البيانات الطبيعية بعيدة نسبيًا عن درجات البيانات غير الطبيعية. إذا ركزنا على FIF بدلاً من ذلك، فإن التمييز بين مثل هذه الشذوذ يبدو أكثر تحديًا؛ تُظهر اللوحة الأولى، في الواقع، استمرارية من حيث الدرجة التي تم إرجاعها بواسطة خوارزمية AD، والتي لا تفصل بين البيانات الطبيعية وغير الطبيعية.
باختصار، تُظهر الخوارزميات المقترحة التي تستفيد من نواة التوقيع (K-SIF) وإحداثيات التوقيع (SIF) نتائج أكثر موثوقية في هذا الإعداد التجريبي، مما يشير إلى فعاليتها في تمييز الشذوذ داخل مجموعة البيانات المحاكاة. إن اكتشاف الترتيب الذي تحدث به الأحداث هو ميزة أكثر إفادة من دمج جانب وظيفي في خوارزمية اكتشاف الشذوذ. يجب إجراء المزيد من التحقيق والاستكشاف لهذا الجانب، وخاصة في مجالات التطبيق حيث يتم أخذ البيانات المتسلسلة، مثل السلاسل الزمنية، في الاعتبار.
في هذا السياق، تعمل الأدوات الإحصائية المعروفة باسم أعماق البيانات كدرجات تشابه جوهرية. تقدم أعماق البيانات تفسيرًا هندسيًا مباشرًا، حيث يتم ترتيب النقاط من المركز إلى الخارج فيما يتعلق بتوزيع الاحتمالات (Tukey، 1975؛ Zuo وSerfling، 2000). من الناحية الهندسية، تقيس أعماق البيانات عمق العينة داخل توزيع معين. وعلى الرغم من جذب انتباه المجتمع الإحصائي، إلا أن أعماق البيانات تم تجاهلها إلى حد كبير من قبل مجتمع التعلم الآلي. وقد تم اقتراح العديد من التعريفات، كبدائل للاقتراح الأقدم، عمق نصف الفضاء المقدم في (Tukey، 1975). ومن بين العديد من الأمور الأخرى، تتضمن هذه: العمق البسيط (ليو، 1988)، وعمق الإسقاط (ليو وسينغ، 1993)، وعمق الزونويد (كوشيفوي وموسلر، 1997)، وعمق الانحدار (روسيو وهوبرت، 1999)، والعمق المكاني (فاردي وتشانغ، 2000) أو عمق AI-IRW (كليمن كون وآخرون، 2023) والتي تختلف في خصائصها وتطبيقاتها. يجد عمق البيانات العديد من التطبيقات مثل تحديد مقاييس قوية بين توزيع الاحتمالات (Staerman et al.، 2021b) المتنافسة مع مقاييس النقل الأمثل القوية (Staerman et al.، 2021a)، وإيجاد هجمات معادية في الرؤية الحاسوبية (Picot et al.، 2022؛ Dadalto et al.، 2023) أو اكتشاف الهلوسة في محولات معالجة اللغة الطبيعية (Colombo et al.، 2023؛ Darrin et al.، 2023؛ Colombo et al.، 2022) وLLM (Himmi et al.، 2024).
هذه الورقة متاحة على arxiv بموجب رخصة CC BY 4.0 DEED.