paint-brush
डीप लेक, डीप लर्निंग के लिए एक लेकहाउस: मशीन लर्निंग उपयोग के मामलेद्वारा@dataology
209 रीडिंग

डीप लेक, डीप लर्निंग के लिए एक लेकहाउस: मशीन लर्निंग उपयोग के मामले

द्वारा Dataology: Study of Data in Computer Science
Dataology: Study of Data in Computer Science HackerNoon profile picture

Dataology: Study of Data in Computer Science

@dataology

Dataology is the study of data. We publish the highest...

4 मिनट read2024/06/05
Read on Terminal Reader
Read this story in a terminal
Print this story

बहुत लंबा; पढ़ने के लिए

शोधकर्ताओं ने डीप लेक (Deep Lake) नामक डीप लर्निंग के लिए एक ओपन-सोर्स लेकहाउस प्रस्तुत किया है, जो डीप लर्निंग फ्रेमवर्क के लिए जटिल डेटा स्टोरेज और स्ट्रीमिंग को अनुकूलित करता है।
featured image - डीप लेक, डीप लर्निंग के लिए एक लेकहाउस: मशीन लर्निंग उपयोग के मामले
Dataology: Study of Data in Computer Science HackerNoon profile picture
Dataology: Study of Data in Computer Science

Dataology: Study of Data in Computer Science

@dataology

Dataology is the study of data. We publish the highest quality university papers & blog posts about the essence of data.

0-item

STORY’S CREDIBILITY

Academic Research Paper

Academic Research Paper

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

लेखक:

(1) सासुन हंबारडज़ुम्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(2) अभिनव तुली, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(3) लेवोन घुकास्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(4) फ़रीज़ रहमान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;.

(5) ह्रांट टॉपच्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(6) डेविड इसयान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(7) मार्क मैकक्वाडे, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(8) मिकायेल हरुट्युनयन, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(9) टेटेविक हाकोब्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(10) इवो स्ट्रानिक, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(11) डेविट बुनियात्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए।

लिंक की तालिका

5. मशीन लर्निंग उपयोग के मामले

इस अनुभाग में, हम डीप लेक के अनुप्रयोगों की समीक्षा करेंगे।


डीप लर्निंग एप्लीकेशन में एक सामान्य परिदृश्य इस प्रकार शुरू होता है


(1) फ़ाइलों का एक कच्चा सेट जो ऑब्जेक्ट स्टोरेज बकेट पर एकत्र किया जाता है। इसमें JPEG, PNG या MP4 जैसे उनके मूल स्वरूपों में छवियाँ, वीडियो और अन्य प्रकार के मल्टीमीडिया डेटा शामिल हो सकते हैं।


(2) रिलेशनल डेटाबेस पर संग्रहीत कोई भी संबद्ध मेटाडेटा और लेबल। वैकल्पिक रूप से, उन्हें CSV, JSON या पार्केट प्रारूप जैसे सामान्यीकृत सारणीबद्ध रूप में कच्चे डेटा के साथ एक ही बकेट पर संग्रहीत किया जा सकता है।


जैसा कि चित्र 4 में दिखाया गया है, एक खाली डीप लेक डेटासेट बनाया जाता है। फिर, कच्चे डेटा और मेटाडेटा दोनों को संग्रहीत करने के लिए खाली टेंसर परिभाषित किए जाते हैं। टेंसर की संख्या मनमाना हो सकती है। छवि वर्गीकरण कार्य का एक मूल उदाहरण दो टेंसर होगा,


• htype 𝑖𝑚𝑎𝑔𝑒 और JPEG के सैंपल कम्प्रेशन के साथ इमेज टेंसर


• टेन्सर को htype 𝑐𝑙𝑎𝑠𝑠_𝑙𝑎𝑏𝑒𝑙 और LZ4 के चंक कम्प्रेशन के साथ लेबल करता है।


टेंसर घोषित करने के बाद, डेटा को डेटासेट में जोड़ा जा सकता है। यदि कोई कच्चा इमेज कम्प्रेशन टेंसर सैंपल कम्प्रेशन से मेल खाता है, तो बाइनरी को बिना किसी अतिरिक्त डिकोडिंग के सीधे चंक में कॉपी किया जाता है। लेबल डेटा को SQL क्वेरी या CSV टेबल से एक श्रेणीबद्ध पूर्णांक में निकाला जाता है और लेबल टेंसर में जोड़ा जाता है। लेबल टेंसर चंक को LZ4 कम्प्रेशन का उपयोग करके संग्रहीत किया जाता है। सभी डीप लेक डेटा बकेट में संग्रहीत होते हैं और स्व-निहित होते हैं। भंडारण के बाद, डेटा को NumPy इंटरफ़ेस या स्ट्रीम करने योग्य डीप लर्निंग डेटा लोडर के रूप में एक्सेस किया जा सकता है। फिर, एक कंप्यूट मशीन पर चलने वाला मॉडल इमेज टेंसर की स्ट्रीम पर पुनरावृति करता है, और मॉडल के आउटपुट को प्रेडिक्शन नामक एक नए टेंसर में संग्रहीत करता है। इसके अलावा, हम नीचे चर्चा करते हैं कि कोई डीप लेक डेटासेट की गुणवत्ता को कैसे प्रशिक्षित, संस्करण नियंत्रण, क्वेरी और निरीक्षण कर सकता है।

5.1 डीप लर्निंग मॉडल प्रशिक्षण

डीप लर्निंग मॉडल को एक संगठन में कई स्तरों पर प्रशिक्षित किया जाता है, जिसमें व्यक्तिगत कंप्यूटर पर होने वाले खोजपूर्ण प्रशिक्षण से लेकर कई GPU को शामिल करने वाली वितरित मशीनों पर होने वाले बड़े पैमाने के प्रशिक्षण शामिल हैं। डेटा को दीर्घकालिक भंडारण से प्रशिक्षण क्लाइंट तक लाने के लिए आवश्यक समय और प्रयास अक्सर प्रशिक्षण के बराबर होते हैं। डीप लेक डाउनस्ट्रीम प्रशिक्षण प्रक्रिया में बाधा डाले बिना डेटा की तेज़ स्ट्रीमिंग को सक्षम करके इस समस्या का समाधान करता है, इस प्रकार स्थानीय भंडारण पर डेटा की नकल करने के लिए आवश्यक लागत और समय से बचता है।

5.2 डेटा वंशावली और संस्करण नियंत्रण

डीप लर्निंग डेटा लगातार विकसित होता रहता है क्योंकि नया डेटा जोड़ा जाता है और मौजूदा डेटा की गुणवत्ता नियंत्रित की जाती है। डेटा बदलते समय विश्लेषणात्मक और प्रशिक्षण कार्यभार समानांतर रूप से होते हैं। इसलिए, यह जानना कि किसी दिए गए कार्यभार द्वारा किस डेटा संस्करण का उपयोग किया गया था, डेटा और मॉडल प्रदर्शन के बीच संबंध को समझने के लिए महत्वपूर्ण है। डीप लेक डीप लर्निंग प्रैक्टिशनर्स को यह समझने में सक्षम बनाता है कि किसी भी विश्लेषणात्मक कार्यभार में उनके डेटा के किस संस्करण का उपयोग किया गया था और यदि ऑडिट की आवश्यकता है तो इन संस्करणों में समय यात्रा कर सकते हैं। चूंकि सभी डेटा परिवर्तनशील हैं, इसलिए अनुपालन-संबंधी गोपनीयता आवश्यकताओं को पूरा करने के लिए इसे संपादित किया जा सकता है। कोड के लिए Git की तरह, डीप लेक भी डेटा शाखाओं की अवधारणा को पेश करता है, जिससे सहकर्मियों के काम को प्रभावित किए बिना डेटा का प्रयोग और संपादन करने की अनुमति मिलती है।

5.3 डेटा क्वेरी और विश्लेषण

डीप लर्निंग मॉडल का प्रशिक्षण किसी संगठन द्वारा किसी विशेष एप्लिकेशन के लिए एकत्र किए गए सभी डेटा पर शायद ही कभी होता है। प्रशिक्षण डेटासेट अक्सर मॉडल प्रदर्शन को बढ़ाने वाली स्थितियों के आधार पर कच्चे डेटा को फ़िल्टर करके बनाए जाते हैं, जिसमें अक्सर डेटा संतुलन, अनावश्यक डेटा को हटाना या विशिष्ट विशेषताओं वाले डेटा का चयन करना शामिल होता है। डीप लेक डेटा को क्वेरी और विश्लेषण करने के लिए उपकरण प्रदान करता है ताकि डीप लर्निंग इंजीनियर उच्चतम सटीकता वाले मॉडल बनाने वाले डेटासेट बना सकें।

5.4 डेटा निरीक्षण और गुणवत्ता नियंत्रण

हालाँकि अनसुपरवाइज्ड लर्निंग वास्तविक दुनिया के उपयोग के मामलों में अधिक लागू हो रही है, लेकिन अधिकांश डीप लर्निंग एप्लिकेशन अभी भी सुपरवाइज्ड लर्निंग पर निर्भर हैं। कोई भी सुपरवाइज्ड लर्निंग सिस्टम केवल अपने डेटा की गुणवत्ता के अनुसार ही अच्छा होता है, जिसे अक्सर डेटा के मैन्युअल और संपूर्ण निरीक्षण द्वारा प्राप्त किया जाता है। चूँकि यह प्रक्रिया समय लेने वाली है, इसलिए लूप में मनुष्यों को बहुत तेज़ी से बड़ी मात्रा में डेटा की जाँच करने के लिए उपकरण प्रदान करना महत्वपूर्ण है। डीप लेक किसी भी आकार के डीप लर्निंग डेटासेट को बिना किसी सेटअप समय या डेटा डाउनलोड करने की आवश्यकता के ब्राउज़र से निरीक्षण करने की अनुमति देता है। इसके अलावा, मॉडल के परिणामों की तुलना ग्राउंड ट्रुथ से करने के लिए टूल का विस्तार किया जा सकता है। क्वेरी और संस्करण नियंत्रण के साथ संयुक्त, इसे सर्वोत्तम संभव मॉडल प्राप्त करने के लिए डेटा के पुनरावृत्त सुधार पर लागू किया जा सकता है।


यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।


L O A D I N G
. . . comments & more!

About Author

Dataology: Study of Data in Computer Science HackerNoon profile picture
Dataology: Study of Data in Computer Science@dataology
Dataology is the study of data. We publish the highest quality university papers & blog posts about the essence of data.

लेबल

इस लेख में चित्रित किया गया था...

Read on Terminal Reader
Read this story in a terminal
 Terminal
Read this story w/o Javascript
Read this story w/o Javascript
 Lite
X REMOVE AD