paint-brush
डीप लेक, डीप लर्निंग के लिए एक लेकहाउस: वर्तमान चुनौतियाँद्वारा@dataology
115 रीडिंग

डीप लेक, डीप लर्निंग के लिए एक लेकहाउस: वर्तमान चुनौतियाँ

द्वारा Dataology: Study of Data in Computer Science3m2024/06/05
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

शोधकर्ताओं ने डीप लेक (Deep Lake) नामक डीप लर्निंग के लिए एक ओपन-सोर्स लेकहाउस प्रस्तुत किया है, जो डीप लर्निंग फ्रेमवर्क के लिए जटिल डेटा स्टोरेज और स्ट्रीमिंग को अनुकूलित करता है।
featured image - डीप लेक, डीप लर्निंग के लिए एक लेकहाउस: वर्तमान चुनौतियाँ
Dataology: Study of Data in Computer Science HackerNoon profile picture
0-item

लेखक:

(1) सासुन हंबार्डज़ुम्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(2) अभिनव तुली, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(3) लेवोन घुकास्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(4) फ़रीज़ रहमान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;.

(5) ह्रांट टॉपच्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(6) डेविड इसयान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(7) मार्क मैकक्वाडे, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(8) मिकायेल हरुट्युनयन, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(9) टेटेविक हाकोब्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(10) इवो स्ट्रानिक, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(11) डेविट बुनियात्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए।

लिंक की तालिका

2. वर्तमान चुनौतियाँ

इस अनुभाग में, हम असंरचित या जटिल डेटा प्रबंधन की वर्तमान और ऐतिहासिक चुनौतियों पर चर्चा करते हैं।

2.1 डेटाबेस में जटिल डेटा प्रकार

आम तौर पर बाइनरी डेटा, जैसे कि इमेज, को सीधे डेटाबेस में संग्रहीत करने की अनुशंसा नहीं की जाती है। ऐसा इसलिए है क्योंकि डेटाबेस बड़ी फ़ाइलों को संग्रहीत करने और परोसने के लिए अनुकूलित नहीं हैं और प्रदर्शन संबंधी समस्याएँ पैदा कर सकते हैं। इसके अलावा, बाइनरी डेटा डेटाबेस के संरचित प्रारूप में अच्छी तरह से फिट नहीं होता है, जिससे इसे क्वेरी करना और हेरफेर करना मुश्किल हो जाता है। इससे उपयोगकर्ताओं के लिए लोड समय धीमा हो सकता है। डेटाबेस आमतौर पर अन्य प्रकार के स्टोरेज, जैसे कि फ़ाइल सिस्टम या क्लाउड स्टोरेज सेवाओं की तुलना में संचालित और रखरखाव के लिए अधिक महंगे होते हैं। इसलिए, डेटाबेस में बड़ी मात्रा में बाइनरी डेटा संग्रहीत करना अन्य स्टोरेज समाधानों की तुलना में अधिक महंगा हो सकता है।

2.2 सारणीबद्ध प्रारूप के साथ जटिल डेटा

बड़े पैमाने पर विश्लेषणात्मक और BI कार्यभार में वृद्धि ने संपीड़ित संरचित प्रारूपों जैसे कि पार्क्वेट, ORC, एवरो, या एरो [79, 6, 20, 13] जैसे क्षणिक इन-मेमोरी प्रारूपों के विकास को प्रेरित किया। जैसे-जैसे सारणीबद्ध प्रारूपों को अपनाया गया, उन प्रारूपों को विस्तारित करने के प्रयास, जैसे कि पेटास्टॉर्म [18] या फेदर [7] डीप लर्निंग के लिए सामने आए। हमारे सर्वोत्तम ज्ञान के अनुसार, इन प्रारूपों को अभी तक व्यापक रूप से अपनाया जाना बाकी है। यह दृष्टिकोण मुख्य रूप से आधुनिक डेटा स्टैक (एमडीएस) के साथ मूल एकीकरण से लाभान्वित होता है। हालाँकि, जैसा कि पहले चर्चा की गई है, अपस्ट्रीम टूल को डीप लर्निंग अनुप्रयोगों के अनुकूल होने के लिए मौलिक संशोधनों की आवश्यकता होती है।

2.3 डीप लर्निंग के लिए ऑब्जेक्ट स्टोरेज

बड़े असंरचित डेटासेट को संग्रहीत करने के लिए वर्तमान क्लाउड-नेटिव विकल्प ऑब्जेक्ट स्टोरेज है जैसे कि AWS S3 [1], Google क्लाउड स्टोरेज (GCS) [3], या MinIO [17]। ऑब्जेक्ट स्टोरेज वितरित नेटवर्क फ़ाइल सिस्टम पर तीन मुख्य लाभ प्रदान करता है। वे (ए) लागत-कुशल हैं, (बी) स्केलेबल हैं, और (सी) एक प्रारूप-अज्ञेय भंडार के रूप में काम करते हैं। हालाँकि, क्लाउड स्टोरेज कमियों के बिना नहीं हैं। सबसे पहले, वे महत्वपूर्ण विलंबता ओवरहेड पेश करते हैं, खासकर जब कई छोटी फ़ाइलों जैसे कि टेक्स्ट या JSON पर पुनरावृत्ति होती है। अगला, मेटाडेटा नियंत्रण के बिना असंरचित डेटा अंतर्ग्रहण "डेटा दलदल" पैदा कर सकता है। इसके अलावा, ऑब्जेक्ट स्टोरेज में बिल्ट-इन वर्जन कंट्रोल होता है; इसका उपयोग डेटा साइंस वर्कफ़्लो में शायद ही कभी किया जाता है। अंत में, ऑब्जेक्ट स्टोरेज पर डेटा को प्रशिक्षण से पहले एक वर्चुअल मशीन में कॉपी किया जाता है, जिसके परिणामस्वरूप स्टोरेज ओवरहेड और अतिरिक्त लागत होती है।

2.4 डेटा झीलों की दूसरी पीढ़ी

डेल्टा, आइसबर्ग, हुडी [27, 15, 10] के नेतृत्व में दूसरी पीढ़ी के डेटा झील निम्नलिखित प्राथमिक गुणों के साथ सारणीबद्ध प्रारूप फ़ाइलों का प्रबंधन करके ऑब्जेक्ट स्टोरेज का विस्तार करते हैं।


(1) अद्यतन कार्य: सारणीबद्ध प्रारूप फ़ाइल के शीर्ष पर एक पंक्ति सम्मिलित करना या हटाना।


(2) स्ट्रीमिंग : एसीआईडी गुणों के साथ डाउनस्ट्रीम डेटा अंतर्ग्रहण और एसक्यूएल इंटरफ़ेस को उजागर करने वाले क्वेरी इंजन के साथ अपस्ट्रीम एकीकरण।


(3) स्कीमा विकास: पश्चगामी संगतता को संरक्षित करते हुए स्तंभ संरचना का विकास करना।


(4) समय यात्रा और ऑडिट लॉग ट्रेलिंग: रोलबैक प्रॉपर्टी के साथ ऐतिहासिक स्थिति को संरक्षित करना जहां क्वेरीज़ को पुन: प्रस्तुत किया जा सकता है। साथ ही, डेटा वंशावली पर पंक्ति-स्तरीय नियंत्रण के लिए समर्थन।


(5) लेआउट अनुकूलन: कस्टम ऑर्डरिंग समर्थन के साथ फ़ाइल आकार और डेटा कॉम्पैक्शन को अनुकूलित करने के लिए अंतर्निहित सुविधा। क्वेरी करने की गति को महत्वपूर्ण रूप से बढ़ाता है।


हालाँकि, दूसरी पीढ़ी के डेटा लेक अभी भी डीप लर्निंग में इस्तेमाल किए जाने वाले अंतर्निहित डेटा फ़ॉर्मेट की सीमाओं से बंधे हुए हैं, जैसा कि पहले सेक्शन 2.2 में चर्चा की गई थी। इसलिए इस पेपर में, हम डीप लर्निंग उपयोग मामलों के लिए डेटा लेक क्षमताओं की दूसरी पीढ़ी का विस्तार करते हैं, जिसमें क्वेरी, विज़ुअलाइज़ेशन और डीप लर्निंग फ़्रेमवर्क में नेटिव इंटीग्रेशन सहित फ़ॉर्मेट और अपस्ट्रीम सुविधाओं पर पुनर्विचार करके एमएल जीवनचक्र को पूरा करना शामिल है जैसा कि चित्र 2 में दिखाया गया है।


यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।