paint-brush
डीप लेक, डीप लर्निंग के लिए एक लेकहाउस: मशीन लर्निंग उपयोग के मामलेद्वारा@dataology
197 रीडिंग

डीप लेक, डीप लर्निंग के लिए एक लेकहाउस: मशीन लर्निंग उपयोग के मामले

द्वारा Dataology: Study of Data in Computer Science4m2024/06/05
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

शोधकर्ताओं ने डीप लेक (Deep Lake) नामक डीप लर्निंग के लिए एक ओपन-सोर्स लेकहाउस प्रस्तुत किया है, जो डीप लर्निंग फ्रेमवर्क के लिए जटिल डेटा स्टोरेज और स्ट्रीमिंग को अनुकूलित करता है।
featured image - डीप लेक, डीप लर्निंग के लिए एक लेकहाउस: मशीन लर्निंग उपयोग के मामले
Dataology: Study of Data in Computer Science HackerNoon profile picture
0-item

लेखक:

(1) सासुन हंबारडज़ुम्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(2) अभिनव तुली, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(3) लेवोन घुकास्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(4) फ़रीज़ रहमान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;.

(5) ह्रांट टॉपच्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(6) डेविड इसयान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(7) मार्क मैकक्वाडे, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(8) मिकायेल हरुट्युनयन, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(9) टेटेविक हाकोब्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(10) इवो स्ट्रानिक, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(11) डेविट बुनियात्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए।

लिंक की तालिका

5. मशीन लर्निंग उपयोग के मामले

इस अनुभाग में, हम डीप लेक के अनुप्रयोगों की समीक्षा करेंगे।


डीप लर्निंग एप्लीकेशन में एक सामान्य परिदृश्य इस प्रकार शुरू होता है


(1) फ़ाइलों का एक कच्चा सेट जो ऑब्जेक्ट स्टोरेज बकेट पर एकत्र किया जाता है। इसमें JPEG, PNG या MP4 जैसे उनके मूल स्वरूपों में छवियाँ, वीडियो और अन्य प्रकार के मल्टीमीडिया डेटा शामिल हो सकते हैं।


(2) रिलेशनल डेटाबेस पर संग्रहीत कोई भी संबद्ध मेटाडेटा और लेबल। वैकल्पिक रूप से, उन्हें CSV, JSON या पार्केट प्रारूप जैसे सामान्यीकृत सारणीबद्ध रूप में कच्चे डेटा के साथ एक ही बकेट पर संग्रहीत किया जा सकता है।


जैसा कि चित्र 4 में दिखाया गया है, एक खाली डीप लेक डेटासेट बनाया जाता है। फिर, कच्चे डेटा और मेटाडेटा दोनों को संग्रहीत करने के लिए खाली टेंसर परिभाषित किए जाते हैं। टेंसर की संख्या मनमाना हो सकती है। छवि वर्गीकरण कार्य का एक मूल उदाहरण दो टेंसर होगा,


• htype 𝑖𝑚𝑎𝑔𝑒 और JPEG के सैंपल कम्प्रेशन के साथ इमेज टेंसर


• टेन्सर को htype 𝑐𝑙𝑎𝑠𝑠_𝑙𝑎𝑏𝑒𝑙 और LZ4 के चंक कम्प्रेशन के साथ लेबल करता है।


टेंसर घोषित करने के बाद, डेटा को डेटासेट में जोड़ा जा सकता है। यदि कोई कच्चा इमेज कम्प्रेशन टेंसर सैंपल कम्प्रेशन से मेल खाता है, तो बाइनरी को बिना किसी अतिरिक्त डिकोडिंग के सीधे चंक में कॉपी किया जाता है। लेबल डेटा को SQL क्वेरी या CSV टेबल से एक श्रेणीबद्ध पूर्णांक में निकाला जाता है और लेबल टेंसर में जोड़ा जाता है। लेबल टेंसर चंक को LZ4 कम्प्रेशन का उपयोग करके संग्रहीत किया जाता है। सभी डीप लेक डेटा बकेट में संग्रहीत होते हैं और स्व-निहित होते हैं। भंडारण के बाद, डेटा को NumPy इंटरफ़ेस या स्ट्रीम करने योग्य डीप लर्निंग डेटा लोडर के रूप में एक्सेस किया जा सकता है। फिर, एक कंप्यूट मशीन पर चलने वाला मॉडल इमेज टेंसर की स्ट्रीम पर पुनरावृति करता है, और मॉडल के आउटपुट को प्रेडिक्शन नामक एक नए टेंसर में संग्रहीत करता है। इसके अलावा, हम नीचे चर्चा करते हैं कि कोई डीप लेक डेटासेट की गुणवत्ता को कैसे प्रशिक्षित, संस्करण नियंत्रण, क्वेरी और निरीक्षण कर सकता है।

5.1 डीप लर्निंग मॉडल प्रशिक्षण

डीप लर्निंग मॉडल को एक संगठन में कई स्तरों पर प्रशिक्षित किया जाता है, जिसमें व्यक्तिगत कंप्यूटर पर होने वाले खोजपूर्ण प्रशिक्षण से लेकर कई GPU को शामिल करने वाली वितरित मशीनों पर होने वाले बड़े पैमाने के प्रशिक्षण शामिल हैं। डेटा को दीर्घकालिक भंडारण से प्रशिक्षण क्लाइंट तक लाने के लिए आवश्यक समय और प्रयास अक्सर प्रशिक्षण के बराबर होते हैं। डीप लेक डाउनस्ट्रीम प्रशिक्षण प्रक्रिया में बाधा डाले बिना डेटा की तेज़ स्ट्रीमिंग को सक्षम करके इस समस्या का समाधान करता है, इस प्रकार स्थानीय भंडारण पर डेटा की नकल करने के लिए आवश्यक लागत और समय से बचता है।

5.2 डेटा वंशावली और संस्करण नियंत्रण

डीप लर्निंग डेटा लगातार विकसित होता रहता है क्योंकि नया डेटा जोड़ा जाता है और मौजूदा डेटा की गुणवत्ता नियंत्रित की जाती है। डेटा बदलते समय विश्लेषणात्मक और प्रशिक्षण कार्यभार समानांतर रूप से होते हैं। इसलिए, यह जानना कि किसी दिए गए कार्यभार द्वारा किस डेटा संस्करण का उपयोग किया गया था, डेटा और मॉडल प्रदर्शन के बीच संबंध को समझने के लिए महत्वपूर्ण है। डीप लेक डीप लर्निंग प्रैक्टिशनर्स को यह समझने में सक्षम बनाता है कि किसी भी विश्लेषणात्मक कार्यभार में उनके डेटा के किस संस्करण का उपयोग किया गया था और यदि ऑडिट की आवश्यकता है तो इन संस्करणों में समय यात्रा कर सकते हैं। चूंकि सभी डेटा परिवर्तनशील हैं, इसलिए अनुपालन-संबंधी गोपनीयता आवश्यकताओं को पूरा करने के लिए इसे संपादित किया जा सकता है। कोड के लिए Git की तरह, डीप लेक भी डेटा शाखाओं की अवधारणा को पेश करता है, जिससे सहकर्मियों के काम को प्रभावित किए बिना डेटा का प्रयोग और संपादन करने की अनुमति मिलती है।

5.3 डेटा क्वेरी और विश्लेषण

डीप लर्निंग मॉडल का प्रशिक्षण किसी संगठन द्वारा किसी विशेष एप्लिकेशन के लिए एकत्र किए गए सभी डेटा पर शायद ही कभी होता है। प्रशिक्षण डेटासेट अक्सर मॉडल प्रदर्शन को बढ़ाने वाली स्थितियों के आधार पर कच्चे डेटा को फ़िल्टर करके बनाए जाते हैं, जिसमें अक्सर डेटा संतुलन, अनावश्यक डेटा को हटाना या विशिष्ट विशेषताओं वाले डेटा का चयन करना शामिल होता है। डीप लेक डेटा को क्वेरी और विश्लेषण करने के लिए उपकरण प्रदान करता है ताकि डीप लर्निंग इंजीनियर उच्चतम सटीकता वाले मॉडल बनाने वाले डेटासेट बना सकें।

5.4 डेटा निरीक्षण और गुणवत्ता नियंत्रण

हालाँकि अनसुपरवाइज्ड लर्निंग वास्तविक दुनिया के उपयोग के मामलों में अधिक लागू हो रही है, लेकिन अधिकांश डीप लर्निंग एप्लिकेशन अभी भी सुपरवाइज्ड लर्निंग पर निर्भर हैं। कोई भी सुपरवाइज्ड लर्निंग सिस्टम केवल अपने डेटा की गुणवत्ता के अनुसार ही अच्छा होता है, जिसे अक्सर डेटा के मैन्युअल और संपूर्ण निरीक्षण द्वारा प्राप्त किया जाता है। चूँकि यह प्रक्रिया समय लेने वाली है, इसलिए लूप में मनुष्यों को बहुत तेज़ी से बड़ी मात्रा में डेटा की जाँच करने के लिए उपकरण प्रदान करना महत्वपूर्ण है। डीप लेक किसी भी आकार के डीप लर्निंग डेटासेट को बिना किसी सेटअप समय या डेटा डाउनलोड करने की आवश्यकता के ब्राउज़र से निरीक्षण करने की अनुमति देता है। इसके अलावा, मॉडल के परिणामों की तुलना ग्राउंड ट्रुथ से करने के लिए टूल का विस्तार किया जा सकता है। क्वेरी और संस्करण नियंत्रण के साथ संयुक्त, इसे सर्वोत्तम संभव मॉडल प्राप्त करने के लिए डेटा के पुनरावृत्त सुधार पर लागू किया जा सकता है।


यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।