लेखक:  (1) ट्रोइसमाइन कॉलिन, कंप्यूटर विज्ञान विभाग, आईएमटी अटलांटिक, ब्रेस्ट, फ्रांस, और ऑरेंज लैब्स, लैनियन, फ्रांस;  (2) रीफ़र्स-मैसन एलेक्जेंडर, कंप्यूटर विज्ञान विभाग, आईएमटी अटलांटिक, ब्रेस्ट, फ्रांस।  (3) गोस्सेलिन स्टीफन, ऑरेंज लैब्स, लैनियोन, फ्रांस;  (4) लेमेयर विंसेंट, ऑरेंज लैब्स, लैनियोन, फ्रांस;  (5) वेटन सैंड्रिन, कंप्यूटर विज्ञान विभाग, आईएमटी अटलांटिक, ब्रेस्ट, फ्रांस।  लिंक की तालिका   सार और परिचय   संबंधित कार्य   दृष्टिकोण   हाइपरपैरामीटर अनुकूलन   नवीन कक्षाओं की संख्या का अनुमान लगाना   पूर्ण प्रशिक्षण प्रक्रिया   प्रयोगों   निष्कर्ष   घोषणाओं   संदर्भ   परिशिष्ट A: अतिरिक्त परिणाम मीट्रिक्स   परिशिष्ट बी: हाइपरपैरामीटर   परिशिष्ट सी: क्लस्टर वैधता सूचकांक संख्यात्मक परिणाम   परिशिष्ट डी: एनसीडी के-मीन्स सेंट्रोइड्स अभिसरण अध्ययन  अमूर्त  नोवेल क्लास डिस्कवरी (NCD) की समस्या में नोवेल क्लास के लेबल वाले सेट से ज्ञान निकालना शामिल है ताकि नोवेल क्लास के लेबल रहित सेट को सटीक रूप से विभाजित किया जा सके। जबकि हाल ही में NCD ने समुदाय से बहुत ध्यान आकर्षित किया है, इसे अक्सर कंप्यूटर विज़न समस्याओं और अवास्तविक परिस्थितियों में हल किया जाता है। विशेष रूप से, नोवेल क्लास की संख्या आमतौर पर पहले से ज्ञात मानी जाती है, और उनके लेबल का उपयोग कभी-कभी हाइपरपैरामीटर को ट्यून करने के लिए किया जाता है। इन मान्यताओं पर निर्भर करने वाली विधियाँ वास्तविक दुनिया के परिदृश्यों में लागू नहीं होती हैं। इस कार्य में, हम सारणीबद्ध डेटा में NCD को हल करने पर ध्यान केंद्रित करते हैं जब नोवेल क्लास का कोई पूर्व ज्ञान उपलब्ध नहीं होता है। इस उद्देश्य के लिए, हम k-फ़ोल्ड क्रॉस-वैलिडेशन प्रक्रिया को अनुकूलित करके और प्रत्येक फ़ोल्ड में कुछ ज्ञात क्लास को छिपाकर NCD विधियों के हाइपरपैरामीटर को ट्यून करने का प्रस्ताव करते हैं। चूँकि हमने पाया है कि बहुत अधिक हाइपरपैरामीटर वाली विधियाँ इन छिपी हुई कक्षाओं को ओवरफ़िट करने की संभावना रखती हैं, इसलिए हम एक सरल डीप NCD मॉडल परिभाषित करते हैं। यह विधि NCD समस्या के लिए आवश्यक केवल आवश्यक तत्वों से बनी है और यथार्थवादी परिस्थितियों में प्रभावशाली ढंग से अच्छा प्रदर्शन करती है। इसके अलावा, हम पाते हैं कि इस विधि के अव्यक्त स्थान का उपयोग विश्वसनीय रूप से नवीन वर्गों की संख्या का अनुमान लगाने के लिए किया जा सकता है। इसके अतिरिक्त, हम ज्ञात वर्गों के ज्ञान का लाभ उठाने के लिए दो अप्रशिक्षित क्लस्टरिंग एल्गोरिदम (के-मीन्स और स्पेक्ट्रल क्लस्टरिंग) को अपनाते हैं। 7 सारणीबद्ध डेटासेट पर व्यापक प्रयोग किए गए हैं और प्रस्तावित विधि और हाइपरपैरामीटर ट्यूनिंग प्रक्रिया की प्रभावशीलता को प्रदर्शित किया गया है, और दिखाया गया है कि एनसीडी समस्या को नवीन वर्गों के ज्ञान पर निर्भर किए बिना हल किया जा सकता है।    : नवीन वर्ग खोज, क्लस्टरिंग, सारणीबद्ध डेटा, खुली दुनिया सीखना, स्थानांतरण सीखना कीवर्ड  1 परिचय  हाल ही में, पर्यवेक्षित कार्यों में उल्लेखनीय प्रगति हासिल की गई है, कुछ हद तक इमेजनेट [1] जैसे बड़े और पूरी तरह से लेबल किए गए सेटों की मदद से। ये प्रगति मुख्य रूप से बंद-दुनिया परिदृश्यों पर केंद्रित रही है, जहां प्रशिक्षण के दौरान यह माना जाता है कि सभी वर्ग पहले से ज्ञात हैं और उनके कुछ लेबल किए गए उदाहरण हैं। हालांकि, व्यावहारिक अनुप्रयोगों में, बजट की कमी या व्यापक जानकारी की कमी जैसे कारकों के कारण रुचि के सभी वर्गों के लिए लेबल किए गए उदाहरण प्राप्त करना एक कठिन कार्य हो सकता है। इसके अलावा, मॉडल को सीखी गई अवधारणाओं को नए वर्गों में स्थानांतरित करने में सक्षम होने के लिए, उन्हें शुरू से ही इसे ध्यान में रखते हुए डिजाइन करने की आवश्यकता होती है, जो शायद ही कभी होता है। फिर भी यह एक महत्वपूर्ण कौशल है जिसका उपयोग मनुष्य सहजता से कर सकते हैं। उदाहरण के लिए, कुछ जानवरों में अंतर करना सीख लेने के बाद, कोई व्यक्ति आसानी से नई प्रजातियों को पहचानने और “क्लस्टर” करने में सक्षम हो जाएगा, जिन्हें उसने पहले कभी नहीं देखा है।  इस अवलोकन ने शोधकर्ताओं को नोवेल क्लास डिस्कवरी (एनसीडी) [२, ३] नामक एक नई समस्या तैयार करने के लिए प्रेरित किया है। यहां, हमें ज्ञात कक्षाओं का एक लेबल वाला सेट और अलग-अलग लेकिन संबंधित कक्षाओं का एक लेबल रहित सेट दिया गया है, जिन्हें खोजा जाना चाहिए। हाल ही में, इस कार्य को समुदाय से बहुत अधिक ध्यान मिला है, जिसमें ऑटोनोवेल [४], ओपनमिक्स [५] या एनसीएल [६] और सैद्धांतिक अध्ययन [७, ८] जैसी कई नई विधियाँ शामिल हैं। हालाँकि, इनमें से अधिकांश कार्य एनसीडी समस्या को इस अवास्तविक धारणा के तहत निपटाते हैं कि उपन्यास कक्षाओं की संख्या पहले से ज्ञात है, या यह कि उपन्यास कक्षाओं के लक्ष्य लेबल हाइपरपैरामीटर अनुकूलन [९] के लिए उपलब्ध हैं। ये धारणाएँ इन विधियों को वास्तविक दुनिया के एनसीडी परिदृश्यों के लिए अव्यावहारिक बना देती हैं। इसके अलावा, हम दिखाते हैं कि ऐसी विधियों द्वारा प्राप्त अव्यक्त स्थानों का उपयोग नवीन वर्गों की संख्या का सटीक अनुमान लगाने के लिए किया जा सकता है।  हम तीन नए NCD तरीके भी पेश करते हैं। उनमें से दो NCD सेटिंग में उपलब्ध अतिरिक्त जानकारी का लाभ उठाने के लिए संशोधित अनसुपरवाइज्ड क्लस्टरिंग एल्गोरिदम हैं। पहला k-मीन्स के सेंट्रोइड इनिशियलाइज़ेशन स्टेप को बेहतर बनाता है, जिसके परिणामस्वरूप एक तेज़ और उपयोग में आसान एल्गोरिदम होता है जो अभी भी कई परिदृश्यों में अच्छे परिणाम दे सकता है। दूसरी विधि स्पेक्ट्रल क्लस्टरिंग (SC) एल्गोरिदम के मापदंडों को अनुकूलित करने पर केंद्रित है। इस दृष्टिकोण में संभावित रूप से उच्च सीखने की क्षमता है क्योंकि प्रतिनिधित्व स्वयं (यानी स्पेक्ट्रल एम्बेडिंग) को आसानी से नए डेटा को क्लस्टर करने के लिए ट्यून किया जाता है। अंत में, अंतिम दृष्टिकोण एक गहन NCD विधि है जो NCD समस्या के लिए आवश्यक केवल आवश्यक घटकों से बनी है। SC की तुलना में, यह विधि अपने अव्यक्त स्थान की परिभाषा में अधिक लचीली है और ज्ञात वर्गों के ज्ञान को प्रभावी रूप से एकीकृत करती है।  जबकि इन योगदानों को किसी भी प्रकार के डेटा पर लागू किया जा सकता है, हमारा काम सारणीबद्ध डेटा पर केंद्रित है। एनसीडी समुदाय ने लगभग विशेष रूप से कंप्यूटर विज़न समस्याओं पर ध्यान केंद्रित किया है और हमारी सर्वोत्तम जानकारी के अनुसार, केवल एक पेपर [9] ने सारणीबद्ध संदर्भ में एनसीडी की समस्या से निपटा है। हालांकि, इस कार्य में इष्टतम परिणाम प्राप्त करने के लिए बड़ी संख्या में हाइपरपैरामीटर की सावधानीपूर्वक ट्यूनिंग की आवश्यकता थी। सारणीबद्ध डेटा के लिए डिज़ाइन की गई विधियाँ कंप्यूटर विज़न में आमतौर पर नियोजित शक्तिशाली तकनीकों का लाभ नहीं उठा सकती हैं। उदाहरणों में शामिल हैं कन्वोल्यूशन, डेटा वृद्धि या DINO [10] जैसे स्व-पर्यवेक्षित शिक्षण विधियाँ, जिनका उपयोग एनसीडी कार्यों [11-13] में बड़ी सफलता के साथ किया गया है, बिना किसी पर्यवेक्षण के प्रतिनिधि अव्यक्त रिक्त स्थान प्राप्त करने की उनकी मजबूत क्षमता के कारण।  निम्नलिखित योगदान देकर, हम सारणीबद्ध आंकड़ों और यथार्थवादी परिस्थितियों के तहत एनसीडी समस्या को हल करने की व्यवहार्यता प्रदर्शित करते हैं:  • हम एक हाइपरपैरामीटर अनुकूलन प्रक्रिया विकसित करते हैं जो ज्ञात वर्गों से परिणामों को अच्छे सामान्यीकरण के साथ नए वर्गों में स्थानांतरित करने के लिए अनुकूलित है।  • हम दिखाते हैं कि एनसीडी विधियों के अव्यक्त स्थान में सरल क्लस्टरिंग गुणवत्ता मेट्रिक्स को लागू करके, एनसीडी के संदर्भ में नवीन वर्गों की संख्या का सटीक अनुमान लगाना संभव है।  • हम एनसीडी सेटिंग में उपलब्ध डेटा का प्रभावी ढंग से उपयोग करने के लिए दो क्लासिकल अप्रशिक्षित क्लस्टरिंग एल्गोरिदम को संशोधित करते हैं।  • हम एक सरल और मजबूत विधि का प्रस्ताव करते हैं, जिसे PBN (प्रोजेक्शन-आधारित NCD के लिए) कहा जाता है, जो एक अव्यक्त प्रतिनिधित्व सीखता है जो ज्ञात वर्गों की महत्वपूर्ण विशेषताओं को शामिल करता है, बिना उन पर ओवरफिटिंग किए। कोड https://github.com/Orange-OpenSource/PracticalNCD पर उपलब्ध है।  यह पेपर CC 4.0 लाइसेंस के अंतर्गत   है। arxiv पर उपलब्ध

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Dataology.TECH

Dataology is the study of data. We publish the highest quality university papers & blog posts about the essence of data.

Dataology

यह ऑडियो कहानी की मूल भाषा में निर्मित है!

सारणीबद्ध डेटा में नवीन वर्ग खोज के लिए एक व्यावहारिक दृष्टिकोण

About Author

टिप्पणियाँ

लेबल

इस लेख में चित्रित किया गया था

Related Stories

टेलीग्राम: क्रिप्टो द्वीप का मुख्य भूमि से पुल

अपने वर्कफ़्लो को 10 गुना बेहतर कैसे बनाएं: 17 ज़रूरी ऐप्स

10 Reasons Why Publishing on HackerNoon Will Skyrocket Your Reach and Impact

Paint us Red and Call us Santa! Our Devs Just Gifted You a Sleigh of New Features!

टेलीग्राम: क्रिप्टो द्वीप का मुख्य भूमि से पुल

अपने वर्कफ़्लो को 10 गुना बेहतर कैसे बनाएं: 17 ज़रूरी ऐप्स

10 Reasons Why Publishing on HackerNoon Will Skyrocket Your Reach and Impact

Paint us Red and Call us Santa! Our Devs Just Gifted You a Sleigh of New Features!

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps