paint-brush
دستخطی تنہائی کے جنگلات میں اسپلٹ ونڈو کی حساسیت کو ڈی کوڈنگ کرناکی طرف سے@computational

دستخطی تنہائی کے جنگلات میں اسپلٹ ونڈو کی حساسیت کو ڈی کوڈنگ کرنا

کی طرف سے Computational Technology for All3m2024/11/20
Read on Terminal Reader

بہت لمبا؛ پڑھنے کے لئے

سگنیچر آئسولیشن فاریسٹ کا حساسیت کا تجزیہ بے ضابطگی کا پتہ لگانے کے لیے اسپلٹ ونڈوز کی اہمیت کو ظاہر کرتا ہے۔ بڑھتی ہوئی تقسیم الگ تھلگ بے ضابطگیوں کے لیے درستگی کو بہتر بناتی ہے جبکہ مستقل بے ضابطگیوں کے لیے کارکردگی کو برقرار رکھتی ہے۔
featured image - دستخطی تنہائی کے جنگلات میں اسپلٹ ونڈو کی حساسیت کو ڈی کوڈنگ کرنا
Computational Technology for All HackerNoon profile picture
0-item

مصنفین:

(1) Guillaume Staerman، INRIA، CEA، Univ. پیرس ساکلے، فرانس؛

(2) Marta Campi، CERIAH، Institut de l'Adition, Institut Pasteur, France;

(3) گیرتھ ڈبلیو پیٹرز، شعبہ شماریات اور اطلاقی امکان، یونیورسٹی آف کیلیفورنیا سانتا باربرا، USA۔

لنکس کی میز

خلاصہ اور 1. تعارف

2. پس منظر اور ابتدائی

2.1 فنکشنل آئسولیشن فاریسٹ

2.2 دستخط کا طریقہ

3. دستخط تنہائی جنگل کا طریقہ

4. عددی تجربات

4.1 پیرامیٹرز کی حساسیت کا تجزیہ

4.2 FIF پر (K-)SIF کے فوائد

4.3 حقیقی ڈیٹا بے ضابطگی کا پتہ لگانے کا بینچ مارک

5. بحث اور نتیجہ، اثرات کے بیانات، اور حوالہ جات


اپینڈکس

A. دستخط کے بارے میں اضافی معلومات

B. K-SIF اور SIF الگورتھم

C. اضافی عددی تجربات

4.1 پیرامیٹرز کی حساسیت کا تجزیہ

ہم K-SIF اور SIF کے رویے کی ان کے دو اہم پیرامیٹرز کے حوالے سے چھان بین کرتے ہیں: دستخط k کی گہرائی اور اسپلٹ ونڈوز کی تعداد ω۔ جگہ کی خاطر، گہرائی پر تجربہ کو ضمیمہ کے سیکشن C.1 میں ملتوی کر دیا گیا ہے۔


دستخط تقسیم ونڈو کا کردار۔ تقسیم شدہ ونڈوز کی تعداد بنیادی ڈیٹا کے مخصوص وقفوں (تصادفی طور پر منتخب کردہ) پر معلومات کو نکالنے کی اجازت دیتی ہے۔ اس طرح، ہر درخت کے نوڈ پر، ڈیٹا کے ایک خاص حصے پر توجہ مرکوز کی جائے گی، جو کہ موازنہ کے مقاصد کے لیے تمام نمونے کے منحنی خطوط پر یکساں ہے۔ یہ نقطہ نظر اس بات کو یقینی بناتا ہے کہ تجزیہ اعداد و شمار کے تقابلی حصوں پر کیا جاتا ہے، نمونہ کے منحنی خطوط میں مختلف وقفوں یا خصوصیات کی جانچ اور موازنہ کرنے کا ایک منظم طریقہ فراہم کرتا ہے۔


ہم اس پیرامیٹر کے کردار کو دو مختلف ڈیٹاسیٹس کے ساتھ دریافت کرتے ہیں جو دو قسم کے بے ضابطگی کے منظرناموں کو دوبارہ پیش کرتے ہیں۔ پہلا ایک چھوٹے وقفے میں الگ تھلگ بے ضابطگیوں پر غور کرتا ہے، جب کہ دوسرے میں تمام فنکشن پیرامیٹرائزیشن میں مستقل پر مشتمل ہوتا ہے۔ اس طرح، ہم مختلف قسم کی بے ضابطگیوں کے حوالے سے K-SIF اور SIF کے رویے کا مشاہدہ کرتے ہیں۔


پہلا ڈیٹاسیٹ اس طرح بنایا گیا ہے۔ ہم 100 مستقل افعال کی نقل کرتے ہیں۔ اس کے بعد ہم ان منحنی خطوط میں سے 90% بے ترتیب پر منتخب کرتے ہیں اور ذیلی وقفہ پر گاوسی شور؛ منحنی خطوط کے بقیہ 10% کے لیے، ہم ایک اور ذیلی وقفہ پر گاوسی شور کا اضافہ کرتے ہیں، جو پہلے سے مختلف ہے۔ مزید واضح طور پر:


• 90% منحنی خطوط، جو عام تصور کیے جاتے ہیں، کے مطابق پیدا ہوتے ہیں۔



ε(t) ∼ N (0, 1), b ∼ U([0, 100]) اور U کے ساتھ جو یکساں تقسیم کی نمائندگی کرتا ہے۔


• 10% منحنی خطوط، جو غیر معمولی سمجھے جاتے ہیں، کے مطابق پیدا ہوتے ہیں۔



جہاں ε(t) ∼ N (0, 1) اور b ∼ U([0, 100])۔



ہم بے ترتیب 90% راستوں کو µ = 0، σ = 0.5 کے ساتھ نقل کرتے ہیں، اور انہیں عام ڈیٹا سمجھتے ہیں۔ پھر، بقیہ 10% کو بڑھے ہوئے µ = 0.2، معیاری انحراف σ = 0.4، اور غیر معمولی ڈیٹا کے ساتھ نقل کیا جاتا ہے۔ ہم K-SIF کو تقسیم شدہ کھڑکیوں کے مختلف نمبروں کے ساتھ شمار کرتے ہیں، جو 1 سے 10 تک مختلف ہوتی ہیں، کٹائی کی سطح 2 اور N = 1,000 درختوں کی تعداد کے برابر ہوتی ہے۔ تجربہ 100 بار دہرایا جاتا ہے، اور ہم اعداد و شمار 1 اور پہلے سے منتخب کردہ تین لغات کے لیے شکل 1 میں ROC منحنی خطوط کے تحت اوسط AUC کی اطلاع دیتے ہیں۔


پہلے ڈیٹاسیٹ کے لیے، جہاں افعال کے ایک چھوٹے سے حصے میں بے ضابطگیاں ظاہر ہوتی ہیں، تقسیم کی تعداد میں اضافہ بے ضابطگیوں کا پتہ لگانے میں الگورتھم کی کارکردگی کو نمایاں طور پر بڑھاتا ہے۔ کارکردگی میں بہتری نو تقسیم شدہ ونڈوز کے بعد ایک سطح مرتفع کو ظاہر کرتی ہے۔ مسلسل بے ضابطگیوں کے ساتھ دوسرے ڈیٹاسیٹ کی صورت میں، اسپلٹ ونڈوز کی زیادہ تعداد کا الگورتھم کی کارکردگی پر معمولی اثر پڑتا ہے، جو تسلی بخش نتائج کو برقرار رکھتا ہے۔ لہذا، اعداد و شمار کے بارے میں پیشگی معلومات کے بغیر، نسبتاً زیادہ تعداد میں تقسیم شدہ ونڈوز کا انتخاب کرنا، جیسے 10، دونوں منظرناموں میں مضبوط کارکردگی کو یقینی بنائے گا۔ مزید برآں، اسپلٹ ونڈوز کی ایک زیادہ اہم تعداد فنکشنز کے چھوٹے حصے پر دستخط کی گنتی کو قابل بناتی ہے، جس سے کمپیوٹیشنل کارکردگی میں بہتری آتی ہے۔


شکل 1: ROC منحنی خطوط کے تحت AUC w.r.t. تین لغات کے لیے پہلی (بائیں) اور دوسری (دائیں) ڈیٹاسیٹس پر تقسیم شدہ ونڈو کی تعداد۔


یہ کاغذ CC BY 4.0 DEED لائسنس کے تحت arxiv پر دستیاب ہے۔