paint-brush
सारणीबद्ध डेटा में नवीन वर्ग खोज के लिए एक व्यावहारिक दृष्टिकोणद्वारा@dataology
560 रीडिंग
560 रीडिंग

सारणीबद्ध डेटा में नवीन वर्ग खोज के लिए एक व्यावहारिक दृष्टिकोण

द्वारा Dataology: Study of Data in Computer Science
Dataology: Study of Data in Computer Science HackerNoon profile picture

Dataology: Study of Data in Computer Science

@dataology

Dataology is the study of data. We publish the highest...

5 मिनट read2024/05/26
Read on Terminal Reader
Read this story in a terminal
Print this story

बहुत लंबा; पढ़ने के लिए

यह पेपर बिना किसी नए वर्ग के पूर्व ज्ञान के सारणीबद्ध डेटा में नोवेल क्लास डिस्कवरी (NCD) को संबोधित करता है, ऐसे तरीके प्रस्तुत करता है जो एक अनुकूलित k-fold क्रॉस-वैलिडेशन प्रक्रिया के माध्यम से हाइपरपैरामीटर को ट्यून करके ओवरफिटिंग से बचते हैं। यह एक सरल डीप NCD मॉडल, साथ ही अनुकूलित k-मीन्स और स्पेक्ट्रल क्लस्टरिंग एल्गोरिदम पेश करता है, जो सात सारणीबद्ध डेटासेट पर व्यापक प्रयोगों के माध्यम से उनकी प्रभावशीलता का प्रदर्शन करता है।
featured image - सारणीबद्ध डेटा में नवीन वर्ग खोज के लिए एक व्यावहारिक दृष्टिकोण
Dataology: Study of Data in Computer Science HackerNoon profile picture
Dataology: Study of Data in Computer Science

Dataology: Study of Data in Computer Science

@dataology

Dataology is the study of data. We publish the highest quality university papers & blog posts about the essence of data.

0-item

STORY’S CREDIBILITY

Academic Research Paper

Academic Research Paper

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

लेखक:

(1) ट्रोइसमाइन कॉलिन, कंप्यूटर विज्ञान विभाग, आईएमटी अटलांटिक, ब्रेस्ट, फ्रांस, और ऑरेंज लैब्स, लैनियन, फ्रांस;

(2) रीफ़र्स-मैसन एलेक्जेंडर, कंप्यूटर विज्ञान विभाग, आईएमटी अटलांटिक, ब्रेस्ट, फ्रांस।

(3) गोस्सेलिन स्टीफन, ऑरेंज लैब्स, लैनियोन, फ्रांस;

(4) लेमेयर विंसेंट, ऑरेंज लैब्स, लैनियोन, फ्रांस;

(5) वेटन सैंड्रिन, कंप्यूटर विज्ञान विभाग, आईएमटी अटलांटिक, ब्रेस्ट, फ्रांस।

लिंक की तालिका

सार और परिचय

संबंधित कार्य

दृष्टिकोण

हाइपरपैरामीटर अनुकूलन

नवीन कक्षाओं की संख्या का अनुमान लगाना

पूर्ण प्रशिक्षण प्रक्रिया

प्रयोगों

निष्कर्ष

घोषणाओं

संदर्भ

परिशिष्ट A: अतिरिक्त परिणाम मीट्रिक्स

परिशिष्ट बी: हाइपरपैरामीटर

परिशिष्ट सी: क्लस्टर वैधता सूचकांक संख्यात्मक परिणाम

परिशिष्ट डी: एनसीडी के-मीन्स सेंट्रोइड्स अभिसरण अध्ययन

अमूर्त

नोवेल क्लास डिस्कवरी (NCD) की समस्या में नोवेल क्लास के लेबल वाले सेट से ज्ञान निकालना शामिल है ताकि नोवेल क्लास के लेबल रहित सेट को सटीक रूप से विभाजित किया जा सके। जबकि हाल ही में NCD ने समुदाय से बहुत ध्यान आकर्षित किया है, इसे अक्सर कंप्यूटर विज़न समस्याओं और अवास्तविक परिस्थितियों में हल किया जाता है। विशेष रूप से, नोवेल क्लास की संख्या आमतौर पर पहले से ज्ञात मानी जाती है, और उनके लेबल का उपयोग कभी-कभी हाइपरपैरामीटर को ट्यून करने के लिए किया जाता है। इन मान्यताओं पर निर्भर करने वाली विधियाँ वास्तविक दुनिया के परिदृश्यों में लागू नहीं होती हैं। इस कार्य में, हम सारणीबद्ध डेटा में NCD को हल करने पर ध्यान केंद्रित करते हैं जब नोवेल क्लास का कोई पूर्व ज्ञान उपलब्ध नहीं होता है। इस उद्देश्य के लिए, हम k-फ़ोल्ड क्रॉस-वैलिडेशन प्रक्रिया को अनुकूलित करके और प्रत्येक फ़ोल्ड में कुछ ज्ञात क्लास को छिपाकर NCD विधियों के हाइपरपैरामीटर को ट्यून करने का प्रस्ताव करते हैं। चूँकि हमने पाया है कि बहुत अधिक हाइपरपैरामीटर वाली विधियाँ इन छिपी हुई कक्षाओं को ओवरफ़िट करने की संभावना रखती हैं, इसलिए हम एक सरल डीप NCD मॉडल परिभाषित करते हैं। यह विधि NCD समस्या के लिए आवश्यक केवल आवश्यक तत्वों से बनी है और यथार्थवादी परिस्थितियों में प्रभावशाली ढंग से अच्छा प्रदर्शन करती है। इसके अलावा, हम पाते हैं कि इस विधि के अव्यक्त स्थान का उपयोग विश्वसनीय रूप से नवीन वर्गों की संख्या का अनुमान लगाने के लिए किया जा सकता है। इसके अतिरिक्त, हम ज्ञात वर्गों के ज्ञान का लाभ उठाने के लिए दो अप्रशिक्षित क्लस्टरिंग एल्गोरिदम (के-मीन्स और स्पेक्ट्रल क्लस्टरिंग) को अपनाते हैं। 7 सारणीबद्ध डेटासेट पर व्यापक प्रयोग किए गए हैं और प्रस्तावित विधि और हाइपरपैरामीटर ट्यूनिंग प्रक्रिया की प्रभावशीलता को प्रदर्शित किया गया है, और दिखाया गया है कि एनसीडी समस्या को नवीन वर्गों के ज्ञान पर निर्भर किए बिना हल किया जा सकता है।


कीवर्ड : नवीन वर्ग खोज, क्लस्टरिंग, सारणीबद्ध डेटा, खुली दुनिया सीखना, स्थानांतरण सीखना

1 परिचय

हाल ही में, पर्यवेक्षित कार्यों में उल्लेखनीय प्रगति हासिल की गई है, कुछ हद तक इमेजनेट [1] जैसे बड़े और पूरी तरह से लेबल किए गए सेटों की मदद से। ये प्रगति मुख्य रूप से बंद-दुनिया परिदृश्यों पर केंद्रित रही है, जहां प्रशिक्षण के दौरान यह माना जाता है कि सभी वर्ग पहले से ज्ञात हैं और उनके कुछ लेबल किए गए उदाहरण हैं। हालांकि, व्यावहारिक अनुप्रयोगों में, बजट की कमी या व्यापक जानकारी की कमी जैसे कारकों के कारण रुचि के सभी वर्गों के लिए लेबल किए गए उदाहरण प्राप्त करना एक कठिन कार्य हो सकता है। इसके अलावा, मॉडल को सीखी गई अवधारणाओं को नए वर्गों में स्थानांतरित करने में सक्षम होने के लिए, उन्हें शुरू से ही इसे ध्यान में रखते हुए डिजाइन करने की आवश्यकता होती है, जो शायद ही कभी होता है। फिर भी यह एक महत्वपूर्ण कौशल है जिसका उपयोग मनुष्य सहजता से कर सकते हैं। उदाहरण के लिए, कुछ जानवरों में अंतर करना सीख लेने के बाद, कोई व्यक्ति आसानी से नई प्रजातियों को पहचानने और “क्लस्टर” करने में सक्षम हो जाएगा, जिन्हें उसने पहले कभी नहीं देखा है।


इस अवलोकन ने शोधकर्ताओं को नोवेल क्लास डिस्कवरी (एनसीडी) [२, ३] नामक एक नई समस्या तैयार करने के लिए प्रेरित किया है। यहां, हमें ज्ञात कक्षाओं का एक लेबल वाला सेट और अलग-अलग लेकिन संबंधित कक्षाओं का एक लेबल रहित सेट दिया गया है, जिन्हें खोजा जाना चाहिए। हाल ही में, इस कार्य को समुदाय से बहुत अधिक ध्यान मिला है, जिसमें ऑटोनोवेल [४], ओपनमिक्स [५] या एनसीएल [६] और सैद्धांतिक अध्ययन [७, ८] जैसी कई नई विधियाँ शामिल हैं। हालाँकि, इनमें से अधिकांश कार्य एनसीडी समस्या को इस अवास्तविक धारणा के तहत निपटाते हैं कि उपन्यास कक्षाओं की संख्या पहले से ज्ञात है, या यह कि उपन्यास कक्षाओं के लक्ष्य लेबल हाइपरपैरामीटर अनुकूलन [९] के लिए उपलब्ध हैं। ये धारणाएँ इन विधियों को वास्तविक दुनिया के एनसीडी परिदृश्यों के लिए अव्यावहारिक बना देती हैं। इसके अलावा, हम दिखाते हैं कि ऐसी विधियों द्वारा प्राप्त अव्यक्त स्थानों का उपयोग नवीन वर्गों की संख्या का सटीक अनुमान लगाने के लिए किया जा सकता है।


हम तीन नए NCD तरीके भी पेश करते हैं। उनमें से दो NCD सेटिंग में उपलब्ध अतिरिक्त जानकारी का लाभ उठाने के लिए संशोधित अनसुपरवाइज्ड क्लस्टरिंग एल्गोरिदम हैं। पहला k-मीन्स के सेंट्रोइड इनिशियलाइज़ेशन स्टेप को बेहतर बनाता है, जिसके परिणामस्वरूप एक तेज़ और उपयोग में आसान एल्गोरिदम होता है जो अभी भी कई परिदृश्यों में अच्छे परिणाम दे सकता है। दूसरी विधि स्पेक्ट्रल क्लस्टरिंग (SC) एल्गोरिदम के मापदंडों को अनुकूलित करने पर केंद्रित है। इस दृष्टिकोण में संभावित रूप से उच्च सीखने की क्षमता है क्योंकि प्रतिनिधित्व स्वयं (यानी स्पेक्ट्रल एम्बेडिंग) को आसानी से नए डेटा को क्लस्टर करने के लिए ट्यून किया जाता है। अंत में, अंतिम दृष्टिकोण एक गहन NCD विधि है जो NCD समस्या के लिए आवश्यक केवल आवश्यक घटकों से बनी है। SC की तुलना में, यह विधि अपने अव्यक्त स्थान की परिभाषा में अधिक लचीली है और ज्ञात वर्गों के ज्ञान को प्रभावी रूप से एकीकृत करती है।


जबकि इन योगदानों को किसी भी प्रकार के डेटा पर लागू किया जा सकता है, हमारा काम सारणीबद्ध डेटा पर केंद्रित है। एनसीडी समुदाय ने लगभग विशेष रूप से कंप्यूटर विज़न समस्याओं पर ध्यान केंद्रित किया है और हमारी सर्वोत्तम जानकारी के अनुसार, केवल एक पेपर [9] ने सारणीबद्ध संदर्भ में एनसीडी की समस्या से निपटा है। हालांकि, इस कार्य में इष्टतम परिणाम प्राप्त करने के लिए बड़ी संख्या में हाइपरपैरामीटर की सावधानीपूर्वक ट्यूनिंग की आवश्यकता थी। सारणीबद्ध डेटा के लिए डिज़ाइन की गई विधियाँ कंप्यूटर विज़न में आमतौर पर नियोजित शक्तिशाली तकनीकों का लाभ नहीं उठा सकती हैं। उदाहरणों में शामिल हैं कन्वोल्यूशन, डेटा वृद्धि या DINO [10] जैसे स्व-पर्यवेक्षित शिक्षण विधियाँ, जिनका उपयोग एनसीडी कार्यों [11-13] में बड़ी सफलता के साथ किया गया है, बिना किसी पर्यवेक्षण के प्रतिनिधि अव्यक्त रिक्त स्थान प्राप्त करने की उनकी मजबूत क्षमता के कारण।


निम्नलिखित योगदान देकर, हम सारणीबद्ध आंकड़ों और यथार्थवादी परिस्थितियों के तहत एनसीडी समस्या को हल करने की व्यवहार्यता प्रदर्शित करते हैं:


• हम एक हाइपरपैरामीटर अनुकूलन प्रक्रिया विकसित करते हैं जो ज्ञात वर्गों से परिणामों को अच्छे सामान्यीकरण के साथ नए वर्गों में स्थानांतरित करने के लिए अनुकूलित है।


• हम दिखाते हैं कि एनसीडी विधियों के अव्यक्त स्थान में सरल क्लस्टरिंग गुणवत्ता मेट्रिक्स को लागू करके, एनसीडी के संदर्भ में नवीन वर्गों की संख्या का सटीक अनुमान लगाना संभव है।


• हम एनसीडी सेटिंग में उपलब्ध डेटा का प्रभावी ढंग से उपयोग करने के लिए दो क्लासिकल अप्रशिक्षित क्लस्टरिंग एल्गोरिदम को संशोधित करते हैं।


• हम एक सरल और मजबूत विधि का प्रस्ताव करते हैं, जिसे PBN (प्रोजेक्शन-आधारित NCD के लिए) कहा जाता है, जो एक अव्यक्त प्रतिनिधित्व सीखता है जो ज्ञात वर्गों की महत्वपूर्ण विशेषताओं को शामिल करता है, बिना उन पर ओवरफिटिंग किए। कोड https://github.com/Orange-OpenSource/PracticalNCD पर उपलब्ध है।


यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।


L O A D I N G
. . . comments & more!

About Author

Dataology: Study of Data in Computer Science HackerNoon profile picture
Dataology: Study of Data in Computer Science@dataology
Dataology is the study of data. We publish the highest quality university papers & blog posts about the essence of data.

लेबल

इस लेख में चित्रित किया गया था...

Read on Terminal Reader
Read this story in a terminal
 Terminal
Read this story w/o Javascript
Read this story w/o Javascript
 Lite
Also published here
X REMOVE AD