paint-brush
विशेषाधिकार प्राप्त जानकारी के साथ विसंगति का पता लगाना—भाग 1द्वारा@dsmoliakov
6,653 रीडिंग
6,653 रीडिंग

विशेषाधिकार प्राप्त जानकारी के साथ विसंगति का पता लगाना—भाग 1

द्वारा Dmitrii Smoliakov5m2023/12/13
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

सपोर्ट वेक्टर डेटा विवरण (एसवीडीडी+) के माध्यम से विसंगति का पता लगाने के उन्नत दायरे का अन्वेषण करें। यह उजागर करें कि प्रशिक्षण के दौरान विशेषाधिकार प्राप्त जानकारी को शामिल करने से वर्गीकरण सटीकता कैसे बढ़ती है। संशोधित एसवीडीडी+ एल्गोरिदम, इसके द्विघात अनुकूलन कार्य और चिकित्सा विसंगति का पता लगाने और मैलवेयर विश्लेषण में इसके अनुप्रयोगों के बारे में जानें। SVDD+ के साथ विसंगति का पता लगाने की अपनी समझ बढ़ाएं।
featured image - विशेषाधिकार प्राप्त जानकारी के साथ विसंगति का पता लगाना—भाग 1
Dmitrii Smoliakov HackerNoon profile picture


सपोर्ट वेक्टर डेटा विवरण (एसवीडीडी) विसंगति का पता लगाने के लिए मशीन लर्निंग में उपयोग की जाने वाली लोकप्रिय सीमा विधियों में से एक है। एसवीडीडी का लक्ष्य एक ऐसा मॉडल बनाना है जो सामान्य (गैर-विसंगतिपूर्ण) डेटा की विशेषताओं को कैप्चर करता है और फिर उन उदाहरणों की पहचान करता है जो इन विशेषताओं से विचलन को विसंगतियों के रूप में पहचानते हैं।


विसंगति का पता लगाने का विभिन्न अनुप्रयोगों में व्यापक उपयोग होता है, जैसे क्रेडिट कार्ड, बीमा या स्वास्थ्य देखभाल के लिए धोखाधड़ी का पता लगाना, साइबर-सुरक्षा के लिए घुसपैठ का पता लगाना, सुरक्षा-महत्वपूर्ण प्रणालियों में गलती का पता लगाना और दुश्मन की गतिविधियों के लिए सैन्य निगरानी।


कल्पना करें कि आपके पास डेटा बिंदुओं का एक सेट है, और उनमें से अधिकांश सामान्य व्यवहार का प्रतिनिधित्व करते हैं। एसवीडीडी का लक्ष्य इन सामान्य डेटा बिंदुओं के चारों ओर इस तरह से एक सीमा बनाना है कि अधिकांश डेटा इस सीमा के अंदर आ जाए। इस सीमा के बाहर किसी भी डेटा बिंदु को एक विसंगति या बाहरी माना जाता है।


दूसरे शब्दों में, हम कंप्यूटर को उदाहरणों के एक सेट के आधार पर यह पहचानना सिखा रहे हैं कि "सामान्य" कैसा दिखता है और फिर यदि कोई चीज़ सीखे गए पैटर्न में फिट नहीं बैठती है तो उसे "असामान्य" के रूप में चिह्नित करने में सक्षम होना।


इस लेख में, हम एसवीडीडी की मूलभूत अवधारणाओं में गहराई से उतरते हैं, प्रशिक्षण चरण के दौरान विशेषाधिकार प्राप्त जानकारी के उपयोग की खोज करते हैं - एक तकनीक जिसका उद्देश्य विसंगति का पता लगाने वाले परिदृश्यों में वर्गीकरण सटीकता को बढ़ाना है।


मूल एसवीडीडी

जैसा कि ऊपर कहा गया है, विसंगति का पता लगाने के लिए एक शास्त्रीय दृष्टिकोण एक-वर्ग वर्गीकरण तकनीकों का उपयोग करके अपेक्षित ("सामान्य") व्यवहार का वर्णन करना है, यानी, कई उदाहरणों का उपयोग करके "सामान्य" स्थिति का विवरण तैयार करना, उदाहरण के लिए, एक ज्यामितीय स्थान का वर्णन करके फ़ीचर स्पेस में प्रशिक्षण पैटर्न का। यदि कोई नया परीक्षण पैटर्न "सामान्य" वर्ग से संबंधित नहीं है, तो हम इसे असामान्य मानते हैं।


एक "सामान्य" डोमेन बनाने के लिए, हम सपोर्ट वेक्टर डोमेन विवरण जैसे प्रसिद्ध तरीकों का उपयोग कर सकते हैं।


हम विशेषाधिकार प्राप्त जानकारी का उपयोग किए बिना मूल एसवीडीडी की संक्षिप्त व्याख्या के साथ शुरुआत करते हैं। हमारे पास एक आईआईडी नमूने हैं (x1,..., xl)


इस एल्गोरिदम का मुख्य विचार "सामान्य" माने जाने वाले नमूनों के एक महत्वपूर्ण हिस्से को कुछ अर्थों में "असामान्य" माने जाने वाले नमूनों से अलग करना है। हम φ(·) द्वारा मूल डेटा बिंदु को कुछ अधिक अभिव्यंजक फ़ीचर स्थान पर मैप करके निरूपित करते हैं, उदाहरण के लिए, कुछ बहुपद फ़ीचर जोड़ना, एक गहरे तंत्रिका जाल के साथ कुछ फ़ीचर निष्कर्षण लागू करना, या यहां तक कि यह मान लेना कि मैपिंग कुछ अनंत आयाम वाले स्थान में है।


मान लीजिए कि फीचर मैप की छवि में कोई बिंदु है और R कोई सकारात्मक मान है। एक पैटर्न x एक "सामान्य" वर्ग से संबंधित है यदि यह गोले ∥a - φ(x)∥ ≤ R के अंदर है। केंद्र a और त्रिज्या R खोजने के लिए हम अनुकूलन समस्या का समाधान करते हैं:



यहाँ ξ गोले के बाहर स्थित xi से गोले की सतह तक की दूरी है। यदि कोई बिंदु गोले के अंदर है तो हम ξi = 0 मानते हैं। चर R को त्रिज्या के रूप में तभी माना जा सकता है जब हमें इसकी सकारात्मकता की आवश्यकता हो। हालाँकि, यह आसानी से साबित किया जा सकता है कि यह शर्त स्वचालित रूप से पूरी हो जाती है यदि ν ∈ (0, 1), और ν ̸ ∈ (0, 1) के लिए, समाधान में या तो सभी बिंदु शामिल हैं या उनमें से कोई भी शामिल नहीं है।


जैसा कि आप शायद अनुमान लगा सकते हैं, चूँकि हमारे पास एल्गोरिदम के नाम पर समर्थन है, हम दोहरी समस्या का समाधान करेंगे:



यहां हम स्केलर उत्पाद (φ(xi) · φ(xj )) को संबंधित कर्नेल K(xi, xj) से प्रतिस्थापित करते हैं। हम किसी भी xi का उपयोग करके a और R की गणना कर सकते हैं जैसे कि αi > 0



इसके आधार पर हम निर्णय कार्य को परिभाषित कर सकते हैं:


यदि f(x) > 0, तो एक पैटर्न x गोले के बाहर स्थित है और विषम माना जाता है। इसके अलावा, हम देख सकते हैं कि f(x) रिटर्न मान है और हम वास्तविक सकारात्मक और वास्तविक नकारात्मक मूल्यों के लक्ष्य स्तर को प्राप्त करने के लिए सीमा को समायोजित कर सकते हैं।


एसवीडीडी और विशेषाधिकार प्राप्त सूचना

मूल दो-वर्ग समर्थन वेक्टर मशीन के लिए, एक एल्गोरिदम विभिन्न वर्गों के डेटा बिंदुओं के बीच एक इष्टतम सीमा बनाता है, वाप्निक ने प्रस्ताव रखा एक संशोधन जो वर्गीकरण सटीकता में सुधार के लिए प्रशिक्षण चरण के दौरान विशेषाधिकार प्राप्त जानकारी को ध्यान में रखने की अनुमति देता है।


आइए हम विशेषाधिकार प्राप्त जानकारी के कुछ उदाहरण प्रदान करें। यदि हम एक छवि वर्गीकरण समस्या को हल करते हैं, तो विशेषाधिकार प्राप्त जानकारी के रूप में, हम एक पाठ्य छवि विवरण का उपयोग कर सकते हैं। मैलवेयर का पता लगाने के मामले में, हम वर्गीकरण के लिए अतिरिक्त सुविधाएँ प्राप्त करने के लिए मैलवेयर के स्रोत कोड का उपयोग कर सकते हैं।


जब हम विसंगति का पता लगाने और वर्गीकरण के लिए प्रशिक्षित मॉडल का उपयोग करते हैं तो ऐसी जानकारी परीक्षण चरण के दौरान अनुपलब्ध होती है (उदाहरण के लिए, इसे प्राप्त करना कम्प्यूटेशनल रूप से निषेधात्मक या बहुत महंगा हो सकता है)। फिर भी, इसका उपयोग प्रशिक्षण चरण के दौरान किया जा सकता है।


आइए मान लें कि प्रशिक्षण डेटा जोड़े (xi, xi*) में आ रहा है। उदाहरण के लिए, कल्पना करें कि हम एक्स-रे छवियों में विसंगतियों का पता लगाने की कोशिश कर रहे हैं। हमारे पास छवि और डॉक्टर का विवरण दोनों हैं। आम तौर पर, एक पाठ विवरण पर्याप्त से अधिक होता है लेकिन अतिरिक्त सहायता की आवश्यकता होती है। क्या उनका उपयोग मॉडल प्रशिक्षण के दौरान किया जा सकता है लेकिन केवल छवियों का उपयोग करके भविष्यवाणियां की जा सकती हैं? पहचान में सुधार के लिए इस अतिरिक्त जानकारी का उपयोग करना संभव है।


पिछले सूत्रीकरण में, हमें ξi के रूप में एक त्रुटि मिली है। आइए मान लें कि विशेषाधिकार प्राप्त डेटा इतना अच्छा है कि यह त्रुटि के आकार का अनुमान लगा सकता है:


हम इसके बारे में एक बुद्धिमान शिक्षक के रूप में सोच सकते हैं जो प्रशिक्षण के दौरान बताता है कि आप इस मूल्य के साथ छोटी त्रुटि नहीं पा सकते हैं। अन्य, अधिक मूल्यवान उदाहरणों पर ध्यान केंद्रित करना उचित है।


अब, आइए इस राक्षस-जैसे समीकरण को लिखें:

यहां γ सुस्त चर के रैखिक सन्निकटन के लिए एक नियमितीकरण पैरामीटर है। ζi वाद्य चर हैं जो "सकारात्मक" अर्ध-तल से संबंधित उन पैटर्न को दंडित होने से रोकते हैं। ध्यान दें कि यदि γ अनंत तक जाता है, तो समाधान SVDD के मूल समाधान के करीब है।


लैग्रेंज फ़ंक्शन के साथ खिलवाड़ करने वाली जटिलताओं से बचने के लिए, इस समस्या के दोहरे रूप को लिखें:



यहां हम स्केलर उत्पाद (φ* (xi* ) · φ*(xj* )) को संबंधित कर्नेल फ़ंक्शन K* (xi*, xj*) से प्रतिस्थापित करते हैं। अंत में, निर्णय फ़ंक्शन का वही रूप होता है जो मूल SVDD के मामले में होता है:


ध्यान दें कि मूल समस्या की तुलना में थोड़ा डरावना होने के बावजूद, यह कार्य एक विशिष्ट प्रकार का अनुकूलन है जिसे द्विघात अनुकूलन कहा जाता है और इसे लॉगरिदमिक बैरियर फ़ंक्शन जैसे मानक दृष्टिकोण द्वारा आसानी से हल किया जा सकता है।


निष्कर्ष

मूल एसवीडीडी दृष्टिकोण उच्च-आयामी स्थान में सामान्य डेटा बिंदुओं के चारों ओर एक सीमा बनाने पर केंद्रित है। हालाँकि, एसवीडीडी+ सिद्धांत वर्गीकरण सटीकता को बढ़ाने के लिए प्रशिक्षण चरण के दौरान विशेषाधिकार प्राप्त जानकारी की अवधारणा का परिचय देता है।


परीक्षण के दौरान उपलब्ध नहीं होने वाली विशेषाधिकार प्राप्त जानकारी का उपयोग प्रशिक्षण के दौरान अतिरिक्त अंतर्दृष्टि प्रदान करने के लिए किया जा सकता है, जिससे मॉडल की विसंगतियों का पता लगाने की क्षमता में सुधार होगा। विशेषाधिकार प्राप्त जानकारी को शामिल करने में मूल एसवीडीडी एल्गोरिथ्म में संशोधन शामिल है, जो इसे प्रशिक्षण के दौरान पूरक डेटा पर विचार करने की अनुमति देता है, जैसे कि चिकित्सा विसंगति का पता लगाने में छवियों के साथ पाठ्य विवरण।


विशेषाधिकार प्राप्त जानकारी के समावेश को बुद्धिमान मार्गदर्शन के एक रूप के रूप में तैयार किया गया है, जो एक सूचित शिक्षक के समान है जो मॉडल की शिक्षा को बेहतर बनाने के लिए मूल्यवान अंतर्दृष्टि प्रदान करता है। संशोधित एसवीडीडी+ फॉर्मूलेशन में एक द्विघात अनुकूलन कार्य शामिल है, जिसे लॉगरिदमिक बैरियर फ़ंक्शन जैसे मानक दृष्टिकोण के माध्यम से हल किया जा सकता है। विशेषाधिकार प्राप्त जानकारी को शामिल करने से उत्पन्न जटिलता के बावजूद, एसवीडीडी+ सिद्धांत में निर्णय फ़ंक्शन मूल एसवीडीडी के समान एक रूप बनाए रखता है, जिससे व्यावहारिक कार्यान्वयन की सुविधा मिलती है।


संक्षेप में, एसवीडीडी+ सिद्धांत प्रशिक्षण चरण के दौरान विशेषाधिकार प्राप्त जानकारी का लाभ उठाकर, छवि वर्गीकरण और मैलवेयर का पता लगाने सहित विभिन्न क्षेत्रों में संभावित अनुप्रयोगों की पेशकश करके विसंगति का पता लगाने में सुधार के लिए एक आशाजनक अवसर दिखाता है।