सपोर्ट वेक्टर डेटा विवरण (एसवीडीडी) विसंगति का पता लगाने के लिए मशीन लर्निंग में उपयोग की जाने वाली लोकप्रिय सीमा विधियों में से एक है। एसवीडीडी का लक्ष्य एक ऐसा मॉडल बनाना है जो सामान्य (गैर-विसंगतिपूर्ण) डेटा की विशेषताओं को कैप्चर करता है और फिर उन उदाहरणों की पहचान करता है जो इन विशेषताओं से विचलन को विसंगतियों के रूप में पहचानते हैं।    विभिन्न अनुप्रयोगों में व्यापक उपयोग होता है, जैसे क्रेडिट कार्ड, बीमा या स्वास्थ्य देखभाल के लिए धोखाधड़ी का पता लगाना, साइबर-सुरक्षा के लिए घुसपैठ का पता लगाना, सुरक्षा-महत्वपूर्ण प्रणालियों में गलती का पता लगाना और दुश्मन की गतिविधियों के लिए सैन्य निगरानी। विसंगति का पता लगाने का  कल्पना करें कि आपके पास डेटा बिंदुओं का एक सेट है, और उनमें से अधिकांश सामान्य व्यवहार का प्रतिनिधित्व करते हैं। एसवीडीडी का लक्ष्य इन सामान्य डेटा बिंदुओं के चारों ओर इस तरह से एक सीमा बनाना है कि अधिकांश डेटा इस सीमा के अंदर आ जाए। इस सीमा के बाहर किसी भी डेटा बिंदु को एक विसंगति या बाहरी माना जाता है।  दूसरे शब्दों में, हम कंप्यूटर को उदाहरणों के एक सेट के आधार पर यह पहचानना सिखा रहे हैं कि "सामान्य" कैसा दिखता है और फिर यदि कोई चीज़ सीखे गए पैटर्न में फिट नहीं बैठती है तो उसे "असामान्य" के रूप में चिह्नित करने में सक्षम होना।  इस लेख में, हम एसवीडीडी की मूलभूत अवधारणाओं में गहराई से उतरते हैं, प्रशिक्षण चरण के दौरान विशेषाधिकार प्राप्त जानकारी के उपयोग की खोज करते हैं - एक तकनीक जिसका उद्देश्य विसंगति का पता लगाने वाले परिदृश्यों में वर्गीकरण सटीकता को बढ़ाना है।   मूल एसवीडीडी  जैसा कि ऊपर कहा गया है, विसंगति का पता लगाने के लिए एक शास्त्रीय दृष्टिकोण एक-वर्ग वर्गीकरण तकनीकों का उपयोग करके अपेक्षित ("सामान्य") व्यवहार का वर्णन करना है, यानी, कई उदाहरणों का उपयोग करके "सामान्य" स्थिति का विवरण तैयार करना, उदाहरण के लिए, एक ज्यामितीय स्थान का वर्णन करके फ़ीचर स्पेस में प्रशिक्षण पैटर्न का। यदि कोई नया परीक्षण पैटर्न "सामान्य" वर्ग से संबंधित नहीं है, तो हम इसे असामान्य मानते हैं।  एक "सामान्य" डोमेन बनाने के लिए, हम सपोर्ट वेक्टर डोमेन विवरण जैसे प्रसिद्ध तरीकों का उपयोग कर सकते हैं।  हम विशेषाधिकार प्राप्त जानकारी का उपयोग किए बिना मूल एसवीडीडी की संक्षिप्त व्याख्या के साथ शुरुआत करते हैं। हमारे पास एक आईआईडी नमूने हैं (x1,..., xl)  इस एल्गोरिदम का मुख्य विचार "सामान्य" माने जाने वाले नमूनों के एक महत्वपूर्ण हिस्से को कुछ अर्थों में "असामान्य" माने जाने वाले नमूनों से अलग करना है। हम φ(·) द्वारा मूल डेटा बिंदु को कुछ अधिक अभिव्यंजक फ़ीचर स्थान पर मैप करके निरूपित करते हैं, उदाहरण के लिए, कुछ बहुपद फ़ीचर जोड़ना, एक गहरे तंत्रिका जाल के साथ कुछ फ़ीचर निष्कर्षण लागू करना, या यहां तक कि यह मान लेना कि मैपिंग कुछ अनंत आयाम वाले स्थान में है।  मान लीजिए कि फीचर मैप की छवि में कोई बिंदु है और R कोई सकारात्मक मान है। एक पैटर्न x एक "सामान्य" वर्ग से संबंधित है यदि यह गोले ∥a - φ(x)∥ ≤ R के अंदर है। केंद्र   और त्रिज्या   खोजने के लिए हम अनुकूलन समस्या का समाधान करते हैं:  a R  यहाँ ξ गोले के बाहर स्थित xi से गोले की सतह तक की दूरी है। यदि कोई बिंदु गोले के अंदर है तो हम ξi = 0 मानते हैं। चर R को त्रिज्या के रूप में तभी माना जा सकता है जब हमें इसकी सकारात्मकता की आवश्यकता हो। हालाँकि, यह आसानी से साबित किया जा सकता है कि यह शर्त स्वचालित रूप से पूरी हो जाती है यदि ν ∈ (0, 1), और ν ̸ ∈ (0, 1) के लिए, समाधान में या तो सभी बिंदु शामिल हैं या उनमें से कोई भी शामिल नहीं है।  जैसा कि आप शायद अनुमान लगा सकते हैं, चूँकि हमारे पास एल्गोरिदम के नाम पर समर्थन है, हम दोहरी समस्या का समाधान करेंगे:   यहां हम स्केलर उत्पाद (φ(xi) · φ(xj )) को संबंधित कर्नेल K(xi, xj) से प्रतिस्थापित करते हैं। हम किसी भी xi का उपयोग करके a और R की गणना कर सकते हैं जैसे कि αi > 0   इसके आधार पर हम निर्णय कार्य को परिभाषित कर सकते हैं:  यदि f(x) > 0, तो एक पैटर्न x गोले के बाहर स्थित है और विषम माना जाता है। इसके अलावा, हम देख सकते हैं कि f(x) रिटर्न मान है और हम वास्तविक सकारात्मक और वास्तविक नकारात्मक मूल्यों के लक्ष्य स्तर को प्राप्त करने के लिए सीमा को समायोजित कर सकते हैं।   एसवीडीडी और विशेषाधिकार प्राप्त सूचना  मूल दो-वर्ग समर्थन वेक्टर मशीन के लिए, एक एल्गोरिदम विभिन्न वर्गों के डेटा बिंदुओं के बीच एक इष्टतम सीमा बनाता है,  एक संशोधन जो वर्गीकरण सटीकता में सुधार के लिए प्रशिक्षण चरण के दौरान विशेषाधिकार प्राप्त जानकारी को ध्यान में रखने की अनुमति देता है।   वाप्निक ने प्रस्ताव रखा  आइए हम विशेषाधिकार प्राप्त जानकारी के कुछ उदाहरण प्रदान करें। यदि हम एक छवि वर्गीकरण समस्या को हल करते हैं, तो विशेषाधिकार प्राप्त जानकारी के रूप में, हम एक पाठ्य छवि विवरण का उपयोग कर सकते हैं। मैलवेयर का पता लगाने के मामले में, हम वर्गीकरण के लिए अतिरिक्त सुविधाएँ प्राप्त करने के लिए मैलवेयर के स्रोत कोड का उपयोग कर सकते हैं।  जब हम विसंगति का पता लगाने और वर्गीकरण के लिए प्रशिक्षित मॉडल का उपयोग करते हैं तो ऐसी जानकारी परीक्षण चरण के दौरान अनुपलब्ध होती है (उदाहरण के लिए, इसे प्राप्त करना कम्प्यूटेशनल रूप से निषेधात्मक या बहुत महंगा हो सकता है)। फिर भी, इसका उपयोग प्रशिक्षण चरण के दौरान किया जा सकता है।  आइए मान लें कि प्रशिक्षण डेटा जोड़े (xi, xi*) में आ रहा है। उदाहरण के लिए, कल्पना करें कि हम एक्स-रे छवियों में विसंगतियों का पता लगाने की कोशिश कर रहे हैं। हमारे पास छवि और डॉक्टर का विवरण दोनों हैं। आम तौर पर, एक पाठ विवरण पर्याप्त से अधिक होता है लेकिन अतिरिक्त सहायता की आवश्यकता होती है। क्या उनका उपयोग मॉडल प्रशिक्षण के दौरान किया जा सकता है लेकिन केवल छवियों का उपयोग करके भविष्यवाणियां की जा सकती हैं? पहचान में सुधार के लिए इस अतिरिक्त जानकारी का उपयोग करना संभव है।  पिछले सूत्रीकरण में, हमें ξi के रूप में एक त्रुटि मिली है। आइए मान लें कि विशेषाधिकार प्राप्त डेटा इतना अच्छा है कि यह त्रुटि के आकार का अनुमान लगा सकता है:  हम इसके बारे में एक बुद्धिमान शिक्षक के रूप में सोच सकते हैं जो प्रशिक्षण के दौरान बताता है कि आप इस मूल्य के साथ छोटी त्रुटि नहीं पा सकते हैं। अन्य, अधिक मूल्यवान उदाहरणों पर ध्यान केंद्रित करना उचित है।  अब, आइए इस राक्षस-जैसे समीकरण को लिखें:  यहां γ सुस्त चर के रैखिक सन्निकटन के लिए एक नियमितीकरण पैरामीटर है। ζi वाद्य चर हैं जो "सकारात्मक" अर्ध-तल से संबंधित उन पैटर्न को दंडित होने से रोकते हैं। ध्यान दें कि यदि γ अनंत तक जाता है, तो समाधान SVDD के मूल समाधान के करीब है।  लैग्रेंज फ़ंक्शन के साथ खिलवाड़ करने वाली जटिलताओं से बचने के लिए, इस समस्या के दोहरे रूप को लिखें:   यहां हम स्केलर उत्पाद (φ* (xi* ) · φ*(xj* )) को संबंधित कर्नेल फ़ंक्शन K* (xi*, xj*) से प्रतिस्थापित करते हैं। अंत में, निर्णय फ़ंक्शन का वही रूप होता है जो मूल SVDD के मामले में होता है:  ध्यान दें कि मूल समस्या की तुलना में थोड़ा डरावना होने के बावजूद, यह कार्य एक विशिष्ट प्रकार का अनुकूलन है जिसे द्विघात अनुकूलन कहा जाता है और इसे लॉगरिदमिक बैरियर फ़ंक्शन जैसे मानक दृष्टिकोण द्वारा आसानी से हल किया जा सकता है।   निष्कर्ष  मूल एसवीडीडी दृष्टिकोण उच्च-आयामी स्थान में सामान्य डेटा बिंदुओं के चारों ओर एक सीमा बनाने पर केंद्रित है। हालाँकि, एसवीडीडी+ सिद्धांत वर्गीकरण सटीकता को बढ़ाने के लिए प्रशिक्षण चरण के दौरान विशेषाधिकार प्राप्त जानकारी की अवधारणा का परिचय देता है।  परीक्षण के दौरान उपलब्ध नहीं होने वाली विशेषाधिकार प्राप्त जानकारी का उपयोग प्रशिक्षण के दौरान अतिरिक्त अंतर्दृष्टि प्रदान करने के लिए किया जा सकता है, जिससे मॉडल की विसंगतियों का पता लगाने की क्षमता में सुधार होगा। विशेषाधिकार प्राप्त जानकारी को शामिल करने में मूल एसवीडीडी एल्गोरिथ्म में संशोधन शामिल है, जो इसे प्रशिक्षण के दौरान पूरक डेटा पर विचार करने की अनुमति देता है, जैसे कि चिकित्सा विसंगति का पता लगाने में छवियों के साथ पाठ्य विवरण।  विशेषाधिकार प्राप्त जानकारी के समावेश को बुद्धिमान मार्गदर्शन के एक रूप के रूप में तैयार किया गया है, जो एक सूचित शिक्षक के समान है जो मॉडल की शिक्षा को बेहतर बनाने के लिए मूल्यवान अंतर्दृष्टि प्रदान करता है। संशोधित एसवीडीडी+ फॉर्मूलेशन में एक द्विघात अनुकूलन कार्य शामिल है, जिसे लॉगरिदमिक बैरियर फ़ंक्शन जैसे मानक दृष्टिकोण के माध्यम से हल किया जा सकता है। विशेषाधिकार प्राप्त जानकारी को शामिल करने से उत्पन्न जटिलता के बावजूद,   में निर्णय फ़ंक्शन मूल एसवीडीडी के समान एक रूप बनाए रखता है, जिससे व्यावहारिक कार्यान्वयन की सुविधा मिलती है। एसवीडीडी+ सिद्धांत  संक्षेप में, एसवीडीडी+ सिद्धांत प्रशिक्षण चरण के दौरान विशेषाधिकार प्राप्त जानकारी का लाभ उठाकर, छवि वर्गीकरण और मैलवेयर का पता लगाने सहित विभिन्न क्षेत्रों में संभावित अनुप्रयोगों की पेशकश करके विसंगति का पता लगाने में सुधार के लिए एक आशाजनक अवसर दिखाता है।

Read My Stories

यह ऑडियो कहानी की मूल भाषा में निर्मित है!

विशेषाधिकार प्राप्त जानकारी के साथ विसंगति का पता लगाना—भाग 1

About Author

टिप्पणियाँ

लेबल

इस लेख में चित्रित किया गया था

Related Stories

टेलीग्राम: क्रिप्टो द्वीप का मुख्य भूमि से पुल

अपने वर्कफ़्लो को 10 गुना बेहतर कैसे बनाएं: 17 ज़रूरी ऐप्स

क्लाउड सॉनेट 3.5 सिस्टम प्रॉम्प्ट लीक: एक फोरेंसिक विश्लेषण

फ़ोरम से फ़ीड तक: सोशल मीडिया एल्गोरिदम डिजिटल इंटरैक्शन को कैसे आकार देते हैं

टेलीग्राम: क्रिप्टो द्वीप का मुख्य भूमि से पुल

अपने वर्कफ़्लो को 10 गुना बेहतर कैसे बनाएं: 17 ज़रूरी ऐप्स

क्लाउड सॉनेट 3.5 सिस्टम प्रॉम्प्ट लीक: एक फोरेंसिक विश्लेषण

फ़ोरम से फ़ीड तक: सोशल मीडिया एल्गोरिदम डिजिटल इंटरैक्शन को कैसे आकार देते हैं

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps