paint-brush
تجارب عددية إضافية على K-SIF وSIF: العمق والضوضاء وقوة التمييزبواسطة@computational

تجارب عددية إضافية على K-SIF وSIF: العمق والضوضاء وقوة التمييز

بواسطة Computational Technology for All10m2024/11/22
Read on Terminal Reader

طويل جدا؛ ليقرأ

استكشف تجارب إضافية على K-SIF وSIF، بما في ذلك دور عمق التوقيع ومتانة الضوضاء والأداء في التمييز بين الشذوذ. تغطي التجارب عمليات عشوائية مختلفة ومحاكاة مجموعات البيانات والمقارنات مع FIF، مما يوضح نقاط قوة الخوارزميات والجوانب الحسابية.
featured image - تجارب عددية إضافية على K-SIF وSIF: العمق والضوضاء وقوة التمييز
Computational Technology for All HackerNoon profile picture
0-item

المؤلفون:

(1) غيوم ستيرمان، INRIA، CEA، جامعة. باريس ساكلاي، فرنسا؛

(2) مارتا كامبي، سيريا، معهد التدقيق، معهد باستور، فرنسا؛

(3) جاريث دبليو بيترز، قسم الإحصاء والاحتمالات التطبيقية، جامعة كاليفورنيا سانتا باربرا، الولايات المتحدة الأمريكية.

جدول الروابط

الملخص و 1. المقدمة

2. الخلفية والمقدمات

2.1. غابة العزل الوظيفية

2.2. طريقة التوقيع

3. طريقة عزل التوقيع في الغابة

4. التجارب العددية

4.1. تحليل حساسية المعلمات

4.2. مزايا (K-)SIF مقارنة بـ FIF

4.3. معيار اكتشاف الشذوذ في البيانات الحقيقية

5. المناقشة والاستنتاج وبيانات التأثير والمراجع


زائدة

أ. معلومات إضافية حول التوقيع

ب. خوارزميات K-SIF وSIF

ج. تجارب عددية إضافية

ج. تجارب عددية إضافية

في هذا القسم، نقدم تجارب رقمية إضافية لدعم الخوارزميات المقترحة والحجج التي تم تطويرها في الجزء الرئيسي من الورقة. أولاً، نصف دور عمق التوقيع في الخوارزميات ونشرح كيف يؤثر هذا المعامل عليها. نقدم مخططات صندوقية لمجموعتين من البيانات المولدة ونناقش أهمية معامل العمق في هذا السياق. بعد ذلك، نقدم تجارب إضافية حول ميزة المتانة للضوضاء لـ (K)-SIF على FIF، المتعلقة بالقسم 4.2 من الجزء الرئيسي من الورقة. تشير الفقرة الثالثة إلى البيانات المولدة لتجربة "أحداث المبادلة" في القسم 4.2 من الجزء الرئيسي من الورقة. نقدم شكلًا للتوضيح وفهم أفضل. نعلق أيضًا على كيفية إنشاء البيانات. يوضح القسم الفرعي الرابع بعد ذلك الوقت الحسابي للخوارزميات المقترحة بالمقارنة المباشرة مع FIF. بعد ذلك، يتم تقديم تجربة إضافية تقدم دليلاً إضافيًا على قوة التمييز فيما يتعلق بمهمة AD لـ (K)-SIF على FIF. وأخيرًا، يعرض القسم الفرعي الأخير جدولاً يصف معلومات حول حجم مجموعات البيانات المتعلقة بالمعيار المرجعي في القسم 4.3.

ج.1. دور عمق التوقيع


في هذه التجربة، قمنا بدراسة تأثير هذه المعلمة على K-SIF باستخدام فئتين مختلفتين من العمليات العشوائية. الحركة البراونية ثلاثية الأبعاد (مع µ = 0 و σ = 0.1)، والتي تتميز بلحظتين أوليتين، وعملية انتشار قفزة ميرتون أحادية البعد، وهي عملية ذيل ثقيل تستخدم على نطاق واسع لنمذجة سوق الأوراق المالية. في مثل هذه الحالة،


الخوارزميات



بهذه الطريقة، نقارن الفئة الأولى من النماذج العشوائية بالفئة الثانية، والتي، بدلاً من ذلك، لا يمكن وصفها باللحظتين الأوليين ونلاحظ أداء (K)-SIF في هذا الصدد.


لقد حسبنا K-SIF بثلاث قواميس بمستويات اقتطاع متفاوتة في {2، 3، 4} لكلا مجموعتي البيانات المحاكيتين. لقد قمنا بتعيين عدد النوافذ المنقسمة إلى 10، وفقًا للقسم السابق، وعدد الأشجار إلى 1000. بعد ذلك، قمنا بحساب ارتباط كيندال للرتبة التي تم إرجاعها بواسطة هذه النماذج للإعدادات الزوجية الثلاثة: المستوى 2 مقابل المستوى 3، والمستوى 2 مقابل المستوى 4، والمستوى 3 مقابل المستوى 4.


لقد كررنا هذه التجربة 100 مرة وأبلغنا عن مخططات الصناديق الارتباطية في الشكل 5 للحركة البراونية وفي الشكل 6 لعملية انتشار قفزة ميرتون. لاحظ أن المخططات اليسرى واليمنى تشير إلى معلمات النافذة المنقسمة المختلفة المحددة لـ K-SIF، والتي تتوافق مع ω = 3 للألواح اليسرى، بينما اخترنا للألواح اليمنى ω = 5. تُظهر مخططات الصناديق هذه ارتباط كيندال تاو بين النتيجة التي تم إرجاعها بواسطة إحدى الخوارزميات المستخدمة بعمق محدد ونفس الخوارزمية بعمق مختلف. يتم تمثيل نتائج K-SIF مع القواميس الثلاثة باللون الأزرق والبرتقالي والأخضر للموجات البراونية وجيب التمام والموجات الغوسية الخضراء على التوالي. مخططات الصناديق SIF بدلاً من ذلك باللون الأرجواني. يشير المحور y إلى قيم ارتباط كيندال والمحور x إلى إعدادات قيم العمق التي تم الارتباط بها.


يشير الارتباط العالي إلى مرتبة مكافئة تم إرجاعها بواسطة الخوارزمية مع معلمات عمق مختلفة. لذلك، إذا كان الارتباط مرتفعًا، فهذا يشير إلى أن هذه المعلمة لا تؤثر على نتائج الخوارزمية المدروسة، ويجب اختيار عمق أقل لتحسين كفاءة الحساب. تظهر الارتباطات العالية لكل من SIF (المخططات الصندوقية الأرجوانية) وK-SIF للقاموسين، أي البراونية وجيب التمام (المخططات الصندوقية الزرقاء والبرتقالية). لذلك، يوصى باختيار مستوى الاقتطاع الأدنى لتحسين الكفاءة الحسابية. بالنسبة لنفس الخوارزميات، تم تحديد ارتباطات أقل قليلاً في حالة عمليات ميرتون، ولكنها لا تزال حول 0.8 مستوى، وبالتالي تدعم ادعاءً مكافئًا. في حالة K-SIF مع القاموس الغاوسي (المخططات الصندوقية الخضراء)، يتم الحصول على تباين أعلى بكثير فيما يتعلق بنتائج الارتباط عبر السيناريوهات الثلاثة المختبرة. علاوة على ذلك، في حالة عمليات انتشار قفزة ميرتون، تظهر النتائج ارتباطًا أقل، بما يتفق مع النتائج الأخرى. لذلك، في حالة K-SIF مع مثل هذا القاموس، يجب اختيار العمق بعناية لأن المعلمات المختلفة قد تؤدي إلى اكتشاف أفضل للحظات العملية الأساسية.


الشكل 5: نتائج عملية الحركة البراونية. ارتباط كيندال تاو بين النتيجة التي تم إرجاعها بواسطة SIF (أرجواني) وK-SIF بقيم عمق مختلفة، ω = 3 (يسار) وω = 5 (يمين)، للقواميس الثلاثة: "براونيان" (أزرق)، و"جيب التمام" (برتقالي) و"موجات غاوسية" (أخضر) على مسارات براونية ثلاثية الأبعاد.


الشكل 6: نتائج عملية انتشار قفزة ميرتون. ارتباط كيندال تاو بين النتيجة التي تم إرجاعها بواسطة SIF (أرجواني) وK-SIF بقيم عمق مختلفة للقواميس الثلاثة: "براونيان" (أزرق)، و"جيب التمام" (برتقالي)، و"موجات غاوسية" (أخضر) مع ω = 3 (يسار) وω = 5 (يمين) في عمليات انتشار قفزة ميرتون.

ج.2. المتانة في مواجهة الضوضاء

يقدم هذا الجزء تجارب إضافية حول ميزة المتانة للضوضاء لـ (K)-SIF على FIF، المتعلقة بالقسم 4.2 من النص الرئيسي للورقة. يتم تكوين محاكاة البيانات على النحو التالي. نقوم بتعريف مجموعة بيانات اصطناعية مكونة من 100 دالة سلسة معطاة بواسطة



حيث ε(t) ∼ N (0, 0.5). نختار عشوائيًا 10% مرة أخرى وننشئ منحنيات مشوشة قليلاً عن طريق إضافة ضوضاء صغيرة على فترة فرعية أخرى مقارنة بالفترة الأولى، أي،



حيث ε(t) ∼ N (0, 0.1).


يوضح الشكل 7 ملخصًا مرئيًا لمجموعة البيانات المولدة في اللوحة الأولى. تم رسم المنحنيات الشاذة العشرة باللون الأحمر، بينما تم رسم البيانات الطبيعية العشرة التي تعتبر مشوشة قليلاً باللون الأزرق. يتم تقديم بقية المنحنيات، التي تعتبر بيانات طبيعية، باللون الرمادي. والفكرة هي فهم كيفية تأثير اختيار القاموس على K-SIF وFIF في اكتشاف البيانات الطبيعية المشوشة قليلاً مقابل الضوضاء غير الطبيعية. يتم تقديم نتائج K-SIF وFIF في اللوحات الثانية والثالثة والرابعة من الشكل 7 على التوالي.


نحسب K-SIF باستخدام القاموس البراوني، k = 2 وω = 10 وFIF لـ α = 0 وα = 1 أيضًا باستخدام القاموس البراوني. تمثل ألوان الألواح درجة الشذوذ المعينة لكل منحنى لتلك الخوارزمية المحددة. في اللوحة الثانية (K-SIF) والأخيرة (FIF مع α = 0)، تزداد درجة الشذوذ من الأصفر إلى الأزرق الداكن، أي أن المنحنى الداكن غير طبيعي والأصفر طبيعي، بينما في الرسم البياني الثالث (FIF مع α = 1) يكون العكس، أي أن المنحنى الداكن طبيعي والأصفر غير طبيعي.


الشكل 7: المتانة في مواجهة الضوضاء. تعرض اللوحة الأولى البيانات الخام، حيث يوجد 120 منحنى، منها باللون الأحمر 10 منحنيات للبيانات غير الطبيعية أو المشوشة، وبالأزرق 10 منحنيات للبيانات المشوشة قليلاً ولكنها طبيعية وبالرمادي المنحنيات المتبقية. يتم توفير تكوين محاكاة البيانات في بداية هذا القسم. تُظهر اللوحات الثانية والثالثة والرابعة درجات الشذوذ المعينة للمنحنيات بناءً على الخوارزمية المطلوبة. تشير اللوحة الثانية إلى K-SIF، التي يتم تشغيلها باستخدام قاموس براوني، k = 2 و ω = 10. تشير اللوحتان الثالثة والرابعة إلى FIF التي يتم تشغيلها باستخدام قاموس براوني مع α = 1 (الثالث) و α = 0 (الرابع)، على التوالي. يزداد لون درجة الشذوذ من الأصفر إلى الأزرق الداكن في المخططين الثاني والرابع، أي أن المنحنى الداكن غير طبيعي والأصفر طبيعي. في الرسم البياني الثالث، لأغراض التصور، يتناقص، أي أن المنحنى الداكن هو الطبيعي والأصفر هو غير طبيعي.


من الممكن ملاحظة كيف يمكن لـ K-SIF بنجاح تحديد البيانات المشوشة وغير الطبيعية على هذا النحو. في الواقع، بينما يتم تلوين البيانات غير الطبيعية باللون الأزرق الداكن، تعرض البيانات المشوشة درجة اللون الأصفر. بدلاً من ذلك، في FIF مع α = 1 (اللوحة الثالثة)، يتم تحديد كل من المنحنيات غير الطبيعية والمشوشة قليلاً على أنها بيانات طبيعية (نظرًا للمقياس المعكوس ووجود ألوان زرقاء داكنة). عندما يتعلق الأمر بـ FIF مع α = 0 (اللوحة الأخيرة والرابعة)، يتم تسجيل كل من البيانات غير الطبيعية والمشوشة على أنها منحنيات غير طبيعية. وبالتالي، لا يمكن لـ FIF مع كلا إعدادات معلمة α تقديم درجة مختلفة للبيانات المشوشة والضوضاء قليلاً. بدلاً من ذلك، يقوم K-SIF بنجاح بمثل هذه المهمة.

ج.3. مجموعة بيانات تبادل الأحداث

يوفر هذا الجزء تصورًا لمجموعة البيانات المستخدمة في تجربة "تبادل الأحداث" في القسم 4.2 من الورقة الأساسية. يوضح الشكل 8 البيانات المحاكاة. لاحظ أننا نحدد مجموعة بيانات اصطناعية مكونة من 100 دالة سلسة معطاة بواسطة



مع t ∈ [0, 1] وq متساويان في [1, 1.4]. بعد ذلك، نقوم بمحاكاة حدوث الأحداث عن طريق إضافة ضوضاء غاوسية على أجزاء مختلفة من الدوال. نختار عشوائيًا 90% منها ونضيف قيمًا غاوسية على فترة فرعية، أي،



حيث ε(t) ∼ N (0, 0.8). نعتبر النسبة المتبقية 10% غير طبيعية من خلال إضافة نفس "الأحداث" على فترة فرعية أخرى مقارنة بالفترة الأولى، أي،



حيث ε(t) ∼ N (0, 0.8). لقد قمنا بعد ذلك بإنشاء حدثين متطابقين يحدثان في أجزاء مختلفة من الوظائف، مما يؤدي إلى عزل الشذوذ.


الشكل 8: أحداث المبادلة. مجموعة البيانات المستخدمة في تجربة القسم 4.2. تمثل المنحنيات الأرجوانية البيانات الطبيعية بينما تمثل المنحنيات الصفراء البيانات غير الطبيعية. يتم توفير تكوين المحاكاة في بداية القسم.

ج.4. وقت حساب K-SIF وSIF وFIF


الشكل 9: الوقت الحسابي لـ K-SIF وFIF فيما يتعلق بعدد المنحنيات (اليسار)، وعدد نقاط التقدير (الوسط) وعدد الأبعاد (اليمين).

ج.5. K-SIF وSIF: تمييز أفضل للتشوهات مقارنة بـFIF

في هذا الجزء، نقوم بإنشاء تجربة لعب إضافية لإظهار قوة التمييز لـ (K-)SIF على FIF. نقوم بمحاكاة 100 مسار حركة براوني مستوٍ مع 90% من البيانات الطبيعية مع انجراف µ = [0, 0] وانحراف معياري σ = [0.1, 0.1]، و10% من البيانات غير الطبيعية مع انجراف µ = [0, 0] وانحراف معياري σ = [0.4, 0.4].


يوضح الشكل 10 محاكاة واحدة لهذه المجموعة من البيانات. لاحظ أن المسارات الأرجوانية تمثل البيانات الطبيعية، بينما تمثل المسارات غير الطبيعية باللون البرتقالي. في هذه المجموعة من البيانات، نحسب FIF (مع α = 1 والقاموس البراوني)، وK-SIF (مع


الشكل 10: مجموعة البيانات المستخدمة في التجربة. المسارات الأرجوانية هي بيانات طبيعية بينما المسارات البرتقالية هي مسارات غير طبيعية.


k = 2، ω = 10 والقاموس البراوني) وSIF (مع k = 2 وω = 10). لعرض النتائج التي تم إرجاعها بواسطة الخوارزمية، نقدم الشكل 11. لاحظ أن المخططات توضح النتائج لهذه المسارات المائة، بعد فرزها. وبالتالي، يوفر المحور x مؤشر النتائج المرتبة، بينما يمثل المحور y قيم النتائج. أما بالنسبة للمحاكاة، فإننا نرسم باللون الأرجواني نتائج البيانات الطبيعية وباللون البرتقالي نتائج البيانات غير الطبيعية. تشير الألواح الثلاثة إلى FIF وK-SIF وSIF على التوالي.


من الممكن ملاحظة أن درجات K-SIF وSIF تفصل بشكل جيد بين البيانات غير الطبيعية والطبيعية، مع قفزة في الدرجات والتي تكون واضحة جدًا، أي أن درجات البيانات الطبيعية بعيدة نسبيًا عن درجات البيانات غير الطبيعية. إذا ركزنا على FIF بدلاً من ذلك، فإن التمييز بين مثل هذه الشذوذ يبدو أكثر تحديًا؛ تُظهر اللوحة الأولى، في الواقع، استمرارية من حيث الدرجة التي تم إرجاعها بواسطة خوارزمية AD، والتي لا تفصل بين البيانات الطبيعية وغير الطبيعية.


باختصار، تُظهر الخوارزميات المقترحة التي تستفيد من نواة التوقيع (K-SIF) وإحداثيات التوقيع (SIF) نتائج أكثر موثوقية في هذا الإعداد التجريبي، مما يشير إلى فعاليتها في تمييز الشذوذ داخل مجموعة البيانات المحاكاة. إن اكتشاف الترتيب الذي تحدث به الأحداث هو ميزة أكثر إفادة من دمج جانب وظيفي في خوارزمية اكتشاف الشذوذ. يجب إجراء المزيد من التحقيق والاستكشاف لهذا الجانب، وخاصة في مجالات التطبيق حيث يتم أخذ البيانات المتسلسلة، مثل السلاسل الزمنية، في الاعتبار.


الشكل 11: النتائج التي تم إرجاعها بواسطة FIF (يسار)، وK-SIF (وسط)، وSIF (يمين) على الحركة البراونية المستوية مع بيانات غير طبيعية (برتقالي).

ج.6. بيانات معيارية لكشف الشذوذ


ج.7. معلومات أساسية عن دالة عمق البيانات

في هذا السياق، تعمل الأدوات الإحصائية المعروفة باسم أعماق البيانات كدرجات تشابه جوهرية. تقدم أعماق البيانات تفسيرًا هندسيًا مباشرًا، حيث يتم ترتيب النقاط من المركز إلى الخارج فيما يتعلق بتوزيع الاحتمالات (Tukey، 1975؛ Zuo وSerfling، 2000). من الناحية الهندسية، تقيس أعماق البيانات عمق العينة داخل توزيع معين. وعلى الرغم من جذب انتباه المجتمع الإحصائي، إلا أن أعماق البيانات تم تجاهلها إلى حد كبير من قبل مجتمع التعلم الآلي. وقد تم اقتراح العديد من التعريفات، كبدائل للاقتراح الأقدم، عمق نصف الفضاء المقدم في (Tukey، 1975). ومن بين العديد من الأمور الأخرى، تتضمن هذه: العمق البسيط (ليو، 1988)، وعمق الإسقاط (ليو وسينغ، 1993)، وعمق الزونويد (كوشيفوي وموسلر، 1997)، وعمق الانحدار (روسيو وهوبرت، 1999)، والعمق المكاني (فاردي وتشانغ، 2000) أو عمق AI-IRW (كليمن كون وآخرون، 2023) والتي تختلف في خصائصها وتطبيقاتها. يجد عمق البيانات العديد من التطبيقات مثل تحديد مقاييس قوية بين توزيع الاحتمالات (Staerman et al.، 2021b) المتنافسة مع مقاييس النقل الأمثل القوية (Staerman et al.، 2021a)، وإيجاد هجمات معادية في الرؤية الحاسوبية (Picot et al.، 2022؛ Dadalto et al.، 2023) أو اكتشاف الهلوسة في محولات معالجة اللغة الطبيعية (Colombo et al.، 2023؛ Darrin et al.، 2023؛ Colombo et al.، 2022) وLLM (Himmi et al.، 2024).


هذه الورقة متاحة على arxiv بموجب رخصة CC BY 4.0 DEED.