paint-brush
समय श्रृंखला विसंगति का पता लगाने में प्रसार मॉडल की क्षमता की खोज द्वारा@mikeyoung44
1,729 रीडिंग
1,729 रीडिंग

समय श्रृंखला विसंगति का पता लगाने में प्रसार मॉडल की क्षमता की खोज

द्वारा Mike Young
Mike Young HackerNoon profile picture

Mike Young

@mikeyoung44

Among other things, launching AIModels.fyi ... Find the right AI...

7 मिनट read2023/11/06
Read on Terminal Reader
Read this story in a terminal
Print this story

बहुत लंबा; पढ़ने के लिए

समय श्रृंखला डेटा में विसंगतियों का पता लगाना विभिन्न डोमेन में महत्वपूर्ण है, और गहन शिक्षण विधियों ने इस क्षेत्र में वादा दिखाया है। यह लेख समय श्रृंखला विसंगति का पता लगाने के लिए प्रसार मॉडल के उपयोग पर चर्चा करता है, एक नया दृष्टिकोण जिसमें धीरे-धीरे डेटा में शोर जोड़ना और फिर विसंगति पहचान को बढ़ाने के लिए इसे उलटना शामिल है। पेपर सिंथेटिक और वास्तविक दुनिया डेटासेट पर प्रसार मॉडल के प्रदर्शन की जांच करता है, उनकी क्षमताओं का बेहतर आकलन करने के लिए उन्नत मूल्यांकन मेट्रिक्स का प्रस्ताव करता है। आशाजनक होते हुए भी, ये मॉडल जटिल वास्तविक दुनिया डेटा के साथ चुनौतियों का सामना करते हैं और व्यावहारिक अनुप्रयोगों के लिए आगे के शोध और अनुकूलन की आवश्यकता होती है।
featured image - समय श्रृंखला विसंगति का पता लगाने में प्रसार मॉडल की क्षमता की खोज
Mike Young HackerNoon profile picture
Mike Young

Mike Young

@mikeyoung44

Among other things, launching AIModels.fyi ... Find the right AI model for your project - https://aimodels.fyi

0-item

STORY’S CREDIBILITY

Original Reporting

Original Reporting

This story contains new, firsthand information uncovered by the writer.


स्वास्थ्य सेवा और वित्त से लेकर साइबर सुरक्षा और औद्योगिक निगरानी तक के क्षेत्रों में बहुभिन्नरूपी समय श्रृंखला विसंगति का पता लगाना महत्वपूर्ण है। इन विसंगतियों का पता लगाने से स्वास्थ्य की स्थिति, धोखाधड़ी वाली गतिविधि, साइबर खतरे या उपकरण की खराबी जैसी महत्वपूर्ण घटनाओं को उजागर किया जा सकता है। जैसे-जैसे IoT डिवाइस और उच्च-आवृत्ति डेटा संग्रह अधिक प्रचलित हो गए हैं, बहुभिन्नरूपी समय श्रृंखला के लिए मजबूत विसंगति का पता लगाने वाले मॉडल की आवश्यकता आवश्यक हो गई है।


गहन शिक्षण विधियों ने इस क्षेत्र में महत्वपूर्ण प्रगति की है। ऑटोएन्कोडर्स, जेनेरेटिव एडवरसैरियल नेटवर्क (जीएएन), और ट्रांसफॉर्मर कुछ ऐसे दृष्टिकोण हैं जिन्होंने समय श्रृंखला डेटा के भीतर विसंगतियों की पहचान करने में प्रभावशीलता प्रदर्शित की है। मेरे द्वारा साझा किए गए एक हालिया लेख में समय श्रृंखला विश्लेषण में "उल्टे ट्रांसफार्मर" (iTransformers) के अभिनव अनुप्रयोग पर चर्चा की गई है, जिसके बारे में आप अधिक पढ़ सकते हैं यहाँ .


हालाँकि, मेरी नवीनतम खोज के साथ एक नया मोड़ सामने आया-ए नया शोध पत्र समय श्रृंखला डेटा विश्लेषण के लिए प्रसार मॉडल के उपयोग पर। ये मॉडल छवि और ऑडियो निर्माण कार्यों में अपने प्रभावशाली परिणामों के लिए जाने जाते हैं, जैसा कि छवियों के लिए स्टेबल डिफ्यूजन और ऑडियो के लिए ऑडियोएलडीएम द्वारा प्रमाणित है। इन्हें रोबोटों को जटिल वातावरण के अनुकूल ढलने में मदद करने के लिए भी लागू किया गया है।


यह एक सम्मोहक प्रश्न उठाता है: क्या प्रसार मॉडल समय श्रृंखला डेटा के विश्लेषण के लिए उतने ही प्रभावी हो सकते हैं? यह पोस्ट उस हालिया पेपर की जांच करेगी जिसने इस प्रश्न को सबसे आगे लाया है, और हम इस विशेष डोमेन में प्रसार मॉडल की व्यवहार्यता का आकलन करेंगे। आएँ शुरू करें।


मौजूदा तरीकों का वादा और सीमाएं

पारंपरिक विसंगति का पता लगाने के तरीके जैसे वन-क्लास एसवीएम - एक मशीन लर्निंग तकनीक जो विसंगतियों की पहचान करने के लिए निर्णय सीमा के साथ सामान्य डेटा बिंदुओं को घेरती है - और अलगाव वन - एक एल्गोरिदम जो अवलोकनों को अलग करके आउटलेर्स का पता लगाता है - अलगाव में व्यक्तिगत डेटा बिंदुओं को संभालने में कुशल हैं . हालाँकि, वे अस्थायी रिश्तों, समय के साथ सामने आने वाले डेटा के परस्पर जुड़े अनुक्रमों को ध्यान में नहीं रखते हैं, जो डेटासेट के भीतर विकसित संदर्भों को समझने के लिए महत्वपूर्ण हैं।


गहन शिक्षण मॉडल, डिज़ाइन के अनुसार, इन अनुक्रमिक गतिशीलता से अधिक मेल खाते हैं। उदाहरण के लिए, ऑटोएन्कोडर्स तंत्रिका नेटवर्क हैं जिन्हें प्रशिक्षण के दौरान सामान्य डेटा को एक कॉम्पैक्ट प्रतिनिधित्व में संघनित करने और फिर परीक्षण के दौरान इसका पुनर्निर्माण करने के लिए प्रशिक्षित किया जाता है। पुनर्निर्माण त्रुटि को मापकर विसंगतियों को चिह्नित किया जाता है, जो मूल डेटा और ऑटोएन्कोडर से इसके पुनर्निर्मित संस्करण के बीच असमानता है; एक महत्वपूर्ण त्रुटि एक असामान्य घटना का सुझाव देती है।


जेनरेटर एडवरसैरियल नेटवर्क ( जीएएन ), दो न्यूरल नेटवर्क- जनरेटर और डिस्क्रिमिनेटर- से बना है, जो गेम जैसी सेटिंग में प्रतिस्पर्धा करते हैं। जनरेटर नए डेटा इंस्टेंस बनाता है जबकि विवेचक उनका मूल्यांकन करता है, संभावना स्कोर निर्दिष्ट करता है जो डेटा इंस्टेंस के वास्तविक होने की संभावना को दर्शाता है। विसंगतियों की पहचान तब की जाती है जब विवेचक कम संभावना वाले स्कोर प्रदान करता है, जो दर्शाता है कि डेटा वास्तविक नहीं हो सकता है।


ट्रांसफॉर्मर, गहन शिक्षण शस्त्रागार में एक नया अतिरिक्त, आत्म-ध्यान तंत्र का लाभ उठाता है, जिससे मॉडल को प्रत्येक भाग के वजन और महत्व को समझने के लिए डेटा के पूरे अनुक्रम पर विचार करने की अनुमति मिलती है। इस दृष्टिकोण ने समय श्रृंखला डेटा के भीतर जटिल अस्थायी सहसंबंधों को पहचानने में अत्याधुनिक परिणाम प्राप्त किए हैं। हालाँकि, ये मॉडल कभी-कभी बहुत अधिक सटीकता के साथ विसंगतियों का पुनर्निर्माण कर सकते हैं, जो एक खामी हो सकती है क्योंकि यह विसंगतियों को कम ध्यान देने योग्य बनाता है। इसके अतिरिक्त, GAN मॉडल पतन के लिए अतिसंवेदनशील होते हैं, जहां जनरेटर सीमित और अक्सर दोहराव वाले आउटपुट का उत्पादन शुरू कर देता है, जिससे मॉडल की विसंगतियों की एक विस्तृत श्रृंखला को सामान्य बनाने और पता लगाने की क्षमता कम हो जाती है।


अपने वादे के बावजूद, इन गहन शिक्षण तकनीकों को अभी भी अस्थायी निर्भरता मॉडलिंग की जटिलता और प्रत्येक दृष्टिकोण की अंतर्निहित सीमाओं के कारण विभिन्न डेटासेट में विसंगतियों की लगातार पहचान करने की चुनौती का सामना करना पड़ता है।


प्रसार मॉडल - एक नया दृष्टिकोण

डिफ्यूज़न मॉडल गहन जनरेटिव मॉडल का एक नया वर्ग है जो शुरू में विस्तृत चित्र बनाने में उनकी क्षमता के लिए पहचाना जाता है। उनके दृष्टिकोण में डेटा में धीरे-धीरे शोर जोड़ना शामिल है, जिसे मॉडल रिवर्स करना सीखता है, जिससे प्रभावी ढंग से शोर को खत्म करने और उच्च-रिज़ॉल्यूशन नमूनों का पुनर्निर्माण करने में सक्षम होता है।


समय श्रृंखला विसंगति का पता लगाने के संदर्भ में, यह पेपर एक दिलचस्प परिकल्पना प्रस्तुत करता है: प्रसार प्रक्रियाएं विसंगतियों में अनियमितताओं को बढ़ाते हुए सामान्य पैटर्न को सुचारू करने में विशेष रूप से प्रभावी हो सकती हैं। यदि यह कायम रहता है, तो इसके परिणामस्वरूप मूल विसंगतिपूर्ण अनुक्रमों और उनके पुनर्निर्मित संस्करणों के बीच अधिक असमानता होगी, जिससे विसंगतियों की पहचान में सुधार होगा।


पेपर में एक आरेख इस सिद्धांत को स्पष्ट रूप से समझाता है, जिसमें दर्शाया गया है कि कैसे, शोर को जोड़ने और उसके बाद हटाने के पुनरावृत्त दौर के माध्यम से, विसंगतियां उनके निरूपित संस्करणों की तुलना में अधिक स्पष्ट हो जाती हैं। यह प्रवर्धन प्रसार के बाद के मानक से असामान्य डेटा के विभेदन की सुविधा प्रदान करता है।


"शीर्ष पंक्ति: दो विसंगति खंडों के साथ मौसमी डेटासेट विंडो; मध्य पंक्ति: गाऊसी शोर के 80 चरणों के बाद डेटा; निचली पंक्ति: प्रसार मॉडल के साथ निरूपित विंडो, जहां विसंगति खंडों को सुचारू किया जाता है, जिससे बड़ी पुनर्निर्माण त्रुटियां होती हैं और एडी प्रदर्शन में सुधार होता है ।" - कागज से.

"शीर्ष पंक्ति: दो विसंगति खंडों के साथ मौसमी डेटासेट विंडो; मध्य पंक्ति: गाऊसी शोर के 80 चरणों के बाद डेटा; निचली पंक्ति: प्रसार मॉडल के साथ निरूपित विंडो, जहां विसंगति खंडों को सुचारू किया जाता है, जिससे बड़ी पुनर्निर्माण त्रुटियां होती हैं और एडी प्रदर्शन में सुधार होता है ।" - कागज से.



व्यावहारिक कार्यान्वयन के लिए, मॉडल गॉसियन शोर से दूषित बहुभिन्नरूपी समय श्रृंखला डेटा पर प्रशिक्षण से गुजरता है। परीक्षण चरण में, नए इनपुट अनुक्रमों में शोर जोड़कर इस प्रक्रिया की नकल की जाती है, जिसे मॉडल को फिर से परिभाषित करने का काम सौंपा जाता है। मूल अनुक्रम और उसके निरूपित समकक्ष के बीच अंतर को एक विसंगति स्कोर उत्पन्न करने के लिए निर्धारित किया जाता है।


पेपर समय श्रृंखला डेटा पर लागू प्रसार मॉडल के दो प्रकारों की जांच करता है:


  1. एक सीधा अनुप्रयोग जहां प्रसार मॉडल कच्चे समय श्रृंखला इनपुट को संसाधित करता है।

  2. एक उन्नत "डिफ्यूजनएई" मॉडल, जो प्रसार प्रक्रिया के लिए प्रारंभिक इनपुट के रूप में एक ऑटोएन्कोडर के आउटपुट को नियोजित करता है।


दूसरा दृष्टिकोण, "डिफ्यूजनएई", शोर को पूर्व-फ़िल्टर करने के लिए ऑटोएन्कोडर की क्षमता का उपयोग करके डेटा में अंतर्निहित शोर के लिए प्रसार मॉडल की मजबूती को बढ़ाता है। व्यापक कार्यप्रणाली को एक आरेख में दर्शाया गया है जो शोर की शुरूआत से लेकर विसंगति स्कोर की पीढ़ी तक पूरी पाइपलाइन को रेखांकित करता है।


प्रायोगिक सेटअप और परिणाम

मॉडलों को सिंथेटिक और प्रामाणिक बहुभिन्नरूपी समय श्रृंखला डेटासेट दोनों पर कठोर परीक्षण से गुजरना पड़ा, जिसमें विभिन्न प्रकार की विसंगतियां शामिल थीं।


इन प्रकारों को एक मान्यता प्राप्त वर्गीकरण के अनुसार वर्गीकृत किया गया था:


  • बिंदु विसंगतियाँ : एकल डेटा बिंदु जो बाकियों की तुलना में असामान्य हैं।

  • प्रासंगिक विसंगतियाँ : वे बिंदु जो अपने विशिष्ट संदर्भ में विचार करने पर असामान्य होते हैं।

  • मौसमी विसंगतियाँ : अनियमित पैटर्न जो अपेक्षित चक्रीय प्रवृत्तियों को बाधित करते हैं।

  • शेपलेट विसंगतियाँ : समय श्रृंखला में किसी अनुवर्ती या 'शेपलेट' के भीतर विसंगतियाँ।

  • प्रवृत्ति विसंगतियाँ : वे बिंदु जहाँ प्रवृत्ति की दिशा स्थापित पैटर्न से तेजी से भटकती है।


सिंथेटिक डेटासेट के लिए, प्रायोगिक स्थितियों पर नियंत्रण बनाए रखने के लिए विसंगतियों को पूर्व निर्धारित अनुपात में इंजेक्ट किया गया था। वास्तविक दुनिया के डेटासेट में जल उपचार सुविधा में सेंसर से रिकॉर्ड किया गया डेटा शामिल होता है, जो विश्लेषण में जटिलता और अप्रत्याशितता की एक परत जोड़ता है।


विसंगति का पता लगाने का मूल्यांकन: पारंपरिक मेट्रिक्स से परे

समय श्रृंखला विसंगति का पता लगाने के लिए पारंपरिक मूल्यांकन विधियां, जैसे बिंदु-समायोजन प्रोटोकॉल, उच्च एफ 1 स्कोर उत्पन्न करके सिस्टम के प्रदर्शन को गलत तरीके से प्रस्तुत कर सकती हैं, भले ही एक विसंगति खंड में केवल एक बिंदु की पहचान की गई हो। इसे स्वीकार करते हुए, शोधकर्ताओं ने एक हालिया पेपर में अधिक कड़े मूल्यांकन प्रोटोकॉल का प्रस्ताव दिया है।


पीए%के प्रोटोकॉल एक समाधान के रूप में उभरता है, जहां 'के' उन बिंदुओं के न्यूनतम प्रतिशत का प्रतिनिधित्व करता है जिन्हें सही ढंग से पहचाने जाने के लिए एक विषम खंड के भीतर पता लगाया जाना चाहिए। यह विधि सुनिश्चित करती है कि मॉडल न केवल विसंगतियों का पता लगाने के लिए बल्कि उनकी पता लगाने की क्षमताओं की सीमा के लिए भी पहचाने जाते हैं।


इस पर आधारित, शोधकर्ताओं ने एफ1के-एयूसी मीट्रिक पेश किया है, जो 'के' के विभिन्न स्तरों पर एफ1-स्कोर के वक्र के तहत क्षेत्र की गणना करता है, जो मॉडल की सटीकता पर एक व्यापक परिप्रेक्ष्य पेश करता है और पहचान की विभिन्न कठोरताओं को याद करता है।


मूल्यांकन को और अधिक परिष्कृत करने के लिए, पेपर एक संशोधित आरओसी वक्र का उपयोग करने का सुझाव देता है जो कई पहचान सीमाओं और 'के' मूल्यों में सही और गलत सकारात्मक दरों का हिसाब रखता है। यह ROCK-AUC मीट्रिक को जन्म देता है, जो थ्रेशोल्ड पूर्वाग्रह के प्रभाव के बिना विसंगति का पता लगाने वाले मॉडल की तुलना की सुविधा प्रदान करता है।


प्रशिक्षण डेटा में विसंगति के विभिन्न अनुपातों के लिए F1K-AUC। अधिक स्पष्टीकरण पेपर में उपलब्ध है।

प्रशिक्षण डेटा में विसंगति के विभिन्न अनुपातों के लिए F1K-AUC। अधिक स्पष्टीकरण पेपर में उपलब्ध है।



मूल्यांकन मेट्रिक्स में इस बदलाव का उद्देश्य यह सुनिश्चित करना है कि विसंगति का पता लगाने में उच्च स्कोर विसंगति का पता लगाने की चुनौतियों की अलग-अलग डिग्री में वास्तविक, मजबूत मॉडल प्रदर्शन का संकेत है।


डिफ्यूज़नएई के प्रदर्शन को दर्शाने वाले पेपर से उदाहरण परिणाम

डिफ्यूज़नएई के प्रदर्शन को दर्शाने वाले पेपर से उदाहरण परिणाम


मुख्य निष्कर्ष और भविष्य के कार्य

पेपर बहुभिन्नरूपी समय श्रृंखला डेटा में विसंगति का पता लगाने का गहन विश्लेषण प्रस्तुत करता है, जो स्वास्थ्य देखभाल, वित्त, साइबर सुरक्षा और औद्योगिक निगरानी जैसे विभिन्न क्षेत्रों में तेजी से महत्वपूर्ण है। स्वास्थ्य समस्याओं से लेकर धोखाधड़ी, साइबर खतरों और उपकरण की खराबी तक महत्वपूर्ण विघटनकारी घटनाओं की पहचान करने के लिए विसंगतियों का पता लगाना महत्वपूर्ण है। IoT और उच्च-आवृत्ति डेटा संग्रह की वृद्धि को देखते हुए, बहुभिन्नरूपी समय श्रृंखला के लिए प्रभावी विसंगति का पता लगाने वाले मॉडल की मांग पहले से कहीं अधिक दबाव वाली है।


पेपर के महत्वपूर्ण योगदानों में से एक गहन शिक्षण विधियों की खोज है, जिसमें ऑटोएन्कोडर्स, जीएएन और ट्रांसफॉर्मर शामिल हैं, जिन्होंने पहले से ही विसंगतियों की पहचान करने में वादा दिखाया है। यह समय श्रृंखला विश्लेषण के लिए प्रसार मॉडल के उपयोग का प्रस्ताव देकर इसे आगे बढ़ाता है - जो आमतौर पर छवि और ऑडियो पीढ़ी से जुड़ा होता है। केंद्रीय परिकल्पना यह है कि प्रसार प्रक्रियाएं सामान्य पैटर्न के मुकाबले विसंगतियों को विशिष्ट रूप से बढ़ा सकती हैं, जिससे पता लगाने की क्षमता बढ़ जाती है।


पारंपरिक मूल्यांकन विधियों की अपर्याप्तताओं को दूर करने के लिए, पेपर एफ1के-एयूसी और रॉक-एयूसी जैसे अधिक मजबूत मेट्रिक्स पेश करता है। इन मेट्रिक्स का उद्देश्य विसंगति का पता लगाने वाली प्रणाली की क्षमताओं का अधिक सटीक मूल्यांकन प्रदान करना है, यह सुनिश्चित करना कि उच्च स्कोर वास्तव में बेहतर प्रदर्शन का संकेत हैं। सिंथेटिक और वास्तविक दुनिया डेटासेट पर परीक्षण से प्राप्त प्रयोगात्मक परिणाम बताते हैं कि डिफ्यूजनएई मॉडल, जो प्रसार प्रक्रियाओं के साथ एक ऑटोएनकोडर को जोड़ता है, उल्लेखनीय मजबूती और प्रभावकारिता प्रदर्शित करता है।


इन आशाजनक परिणामों के बावजूद, पेपर दृष्टिकोण में निहित सीमाओं का उल्लेख करता है। उदाहरण के लिए, मॉडल, नियंत्रित सिंथेटिक डेटा पर सफल होते हुए भी, जटिल वास्तविक दुनिया डेटासेट के साथ बड़ी चुनौतियों का सामना करते हैं। यह वास्तविक दुनिया के परिदृश्यों में मॉडल की प्रयोज्यता को बढ़ाने के लिए और अधिक परिशोधन की आवश्यकता की ओर इशारा करता है।


इसके अलावा, जबकि पेपर परिष्कृत मूल्यांकन मेट्रिक्स की वकालत करता है, ये अपनी जटिलताओं के साथ आते हैं और वैज्ञानिक समुदाय के भीतर व्यापक सत्यापन की आवश्यकता हो सकती है। चिंता का एक अन्य बिंदु विभिन्न डोमेन और विसंगतियों के प्रकारों में मॉडल की सामान्यीकरण है - मशीन सीखने में एक आम बाधा। अंत में, प्रसार मॉडल की कम्प्यूटेशनल तीव्रता संभावित रूप से बड़े पैमाने पर या वास्तविक समय के अनुप्रयोगों में उनके उपयोग को सीमित कर सकती है।


संक्षेप में, पेपर समय श्रृंखला विसंगति का पता लगाने के परिदृश्य को बदलने में प्रसार-आधारित मॉडल की क्षमता को रेखांकित करता है और व्यावहारिक, विविध अनुप्रयोगों के लिए इन मॉडलों को अनुकूलित करने के लिए निरंतर शोध का आह्वान करता है। यह विसंगति का पता लगाने वाली प्रणालियों के प्रदर्शन को सही मायने में मापने और समझने के लिए उन्नत मूल्यांकन मेट्रिक्स को अपनाने की आवश्यकता पर भी प्रकाश डालता है।


यहाँ भी प्रकाशित किया गया है.

सदस्यता लें या मुझे फ़ॉलो करें ट्विटर इस तरह की और अधिक सामग्री के लिए!

L O A D I N G
. . . comments & more!

About Author

Mike Young HackerNoon profile picture
Mike Young@mikeyoung44
Among other things, launching AIModels.fyi ... Find the right AI model for your project - https://aimodels.fyi

लेबल

इस लेख में चित्रित किया गया था...

Read on Terminal Reader
Read this story in a terminal
 Terminal
Read this story w/o Javascript
Read this story w/o Javascript
 Lite
X REMOVE AD