लेखक:
(1) सासुन हंबारडज़ुम्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;
(2) अभिनव तुली, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;
(3) लेवोन घुकास्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;
(4) फ़रीज़ रहमान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;.
(5) ह्रांट टॉपच्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;
(6) डेविड इसयान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;
(7) मार्क मैकक्वाडे, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;
(8) मिकायेल हरुट्युनयन, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;
(9) टेटेविक हाकोब्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;
(10) इवो स्ट्रानिक, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;
(11) डेविट बुनियात्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए।
पारंपरिक डेटा झीलें समय यात्रा को सक्षम करके, SQL क्वेरीज़ को चलाने, ACID लेनदेन के साथ डेटा को अंतर्ग्रहण करने और क्लाउड स्टोरेज पर पेटाबाइटस्केल डेटासेट को विज़ुअलाइज़ करके विश्लेषणात्मक कार्यभार के लिए महत्वपूर्ण डेटा अवसंरचना प्रदान करती हैं। वे संगठनों को डेटा साइलो को तोड़ने, डेटा-संचालित निर्णय लेने को अनलॉक करने, परिचालन दक्षता में सुधार करने और लागत कम करने की अनुमति देते हैं। हालाँकि, जैसे-जैसे डीप लर्निंग का उपयोग बढ़ता है, पारंपरिक डेटा झीलें प्राकृतिक भाषा प्रसंस्करण (एनएलपी), ऑडियो प्रोसेसिंग, कंप्यूटर विज़न और गैर-सारणीबद्ध डेटासेट वाले अनुप्रयोगों जैसे अनुप्रयोगों के लिए अच्छी तरह से डिज़ाइन नहीं की जाती हैं। यह पेपर डीप लेक प्रस्तुत करता है, जो एक्टिवलूप [1] [2] में विकसित डीप लर्निंग अनुप्रयोगों के लिए एक ओपन-सोर्स लेकहाउस है। डीप लेक एक प्रमुख अंतर के साथ एक वेनिला डेटा लेक के लाभों को बनाए रखता है: डीप लेक में संग्रहीत डेटासेट को PyTorch [58], TensorFlow [25], JAX [31] से एक्सेस किया जा सकता है, और कई MLOps टूल के साथ एकीकृत किया जा सकता है।
कीवर्ड - डीप लेक, डीप लर्निंग, डेटा लेक, लेकहाउस, क्लाउड कंप्यूटिंग, वितरित सिस्टम
डेटा लेक एक केंद्रीय भंडार है जो संगठनों को एक ही स्थान पर संरचित, असंरचित और अर्ध-संरचित डेटा संग्रहीत करने की अनुमति देता है। डेटा झीलें डेटा को प्रबंधित करने, नियंत्रित करने और विश्लेषण करने का एक बेहतर तरीका प्रदान करती हैं। इसके अलावा, वे डेटा साइलो को तोड़ने और पहले से अलग-अलग डेटा स्रोतों में छिपी जानकारी प्राप्त करने का एक तरीका प्रदान करते हैं। पहली पीढ़ी की डेटा झीलों ने पारंपरिक रूप से HDFS [71] या AWS S3 [1] जैसे वितरित भंडारण प्रणालियों में डेटा एकत्र किया। डेटा के असंगठित संग्रह ने डेटा झीलों को "डेटा दलदल" में बदल दिया, जिसने डेल्टा, आइसबर्ग और हुडी [27, 15, 10] के नेतृत्व में दूसरी पीढ़ी की डेटा झीलों को जन्म दिया। वे पार्क्वेट, ओआरसी, एवरो [79, 6, 20] जैसे मानकीकृत संरचित प्रारूपों के शीर्ष पर सख्ती से काम करते हैं और समय यात्रा, एसीआईडी लेनदेन और स्कीमा विकास जैसी सुविधाएँ प्रदान करते हैं। डेटा झीलें सीधे प्रेस्टो, एथेना जैसे क्वेरी इंजनों के साथ एकीकृत होती हैं।
विश्लेषणात्मक क्वेरी चलाने के लिए हाइव और फोटॉन [70, 12, 76, 66] का उपयोग किया जाता है। इसके अतिरिक्त, वे ETL पाइपलाइन रखरखाव के लिए Hadoop, Spark और Airflow [14, 82, 9] जैसे फ्रेमवर्क से जुड़ते हैं। बदले में, स्पष्ट गणना और भंडारण पृथक्करण के साथ डेटा झीलों और क्वेरी इंजनों के बीच एकीकरण के परिणामस्वरूप लेकहाउस [28] जैसी प्रणालियों का उदय हुआ जो स्नोफ्लेक, बिगक्वेरी, रेडशिफ्ट और क्लिकहाउस [33, 4, 40, 2] सहित डेटा वेयरहाउस के विकल्प के रूप में काम करते हैं।
पिछले दशक में, डीप लर्निंग ने पारंपरिक मशीन लर्निंग तकनीकों को पीछे छोड़ दिया है, जिसमें टेक्स्ट, इमेज, वीडियो और ऑडियो जैसे असंरचित और जटिल डेटा शामिल हैं [44, 47, 38, 83, 51, 30, 63, 56]। न केवल डीप लर्निंग सिस्टम ने पारंपरिक तकनीकों को पीछे छोड़ दिया, बल्कि उन्होंने एक्स-रे इमेज से कैंसर का पता लगाने, मानव तंत्रिका कोशिकाओं के शारीरिक पुनर्निर्माण, गेम खेलने, कार चलाने, प्रोटीन को खोलने और इमेज बनाने जैसे अनुप्रयोगों में सुपर-ह्यूमन सटीकता भी हासिल की [61, 48, 72, 42, 77]। ट्रांसफॉर्मर-आधारित आर्किटेक्चर वाले बड़े भाषा मॉडल ने अनुवाद, तर्क, संक्षेपण और टेक्स्ट पूर्णता कार्यों में अत्याधुनिक परिणाम प्राप्त किए [78, 36, 81, 32]। बड़े मल्टी-मोडल नेटवर्क क्रॉस-मोडल खोज के लिए असंरचित डेटा को वैक्टर में एम्बेड करते हैं [29, 60]। इसके अलावा, उनका उपयोग टेक्स्ट से फोटो-यथार्थवादी छवियां बनाने के लिए किया जाता है [62, 65]।
हालाँकि डीप लर्निंग मॉडल की सफलता में प्राथमिक योगदानकर्ताओं में से एक CoCo (330K इमेज), ImageNet (1.2M इमेज), Oscar (बहुभाषी टेक्स्ट कॉर्पस) और LAION (400M और 5B इमेज) जैसे बड़े डेटासेट की उपलब्धता रही है [49, 34, 74, 68], लेकिन इसमें ऐसे पैमाने का समर्थन करने के लिए पारंपरिक विश्लेषणात्मक कार्यभार के समान एक अच्छी तरह से स्थापित डेटा इंफ्रास्ट्रक्चर ब्लूप्रिंट नहीं है। दूसरी ओर, मॉडर्न डेटा स्टैक (MDS) में प्रदर्शनकारी डीप लर्निंग-आधारित समाधानों को तैनात करने के लिए आवश्यक सुविधाओं का अभाव है, इसलिए संगठन इन-हाउस सिस्टम विकसित करना चुनते हैं।
इस पेपर में, हम डीप लेक का परिचय देते हैं, जो डीप लर्निंग वर्कलोड के लिए विशेषीकृत एक लेकहाउस है। डीप लेक में डीप लेक के मुख्य लाभ बरकरार हैं
पारंपरिक डेटा लेक में एक उल्लेखनीय अंतर है: यह जटिल डेटा, जैसे कि चित्र, वीडियो, एनोटेशन और सारणीबद्ध डेटा को टेंसर के रूप में संग्रहीत करता है और GPU उपयोग का त्याग किए बिना नेटवर्क पर डीप लर्निंग फ्रेमवर्क में डेटा को तेज़ी से स्ट्रीम करता है। इसके अलावा, यह PyTorch, TensorFlow और JAX [58, 25, 31] जैसे डीप लर्निंग फ्रेमवर्क के बीच मूल अंतर-संचालन प्रदान करता है।
इस पेपर के मुख्य तकनीकी योगदान में शामिल हैं:
• टेंसर स्टोरेज फॉर्मेट जो ऑब्जेक्ट स्टोरेज पर गतिशील रूप से आकार वाली सरणियों को संग्रहीत करता है;
• स्ट्रीमिंग डेटालोडर जो फेचिंग, डिकम्प्रेसन और उपयोगकर्ता-परिभाषित परिवर्तनों को शेड्यूल करता है, डीप लर्निंग के लिए जीपीयू में डेटा ट्रांसफर थ्रूपुट को अनुकूलित करता है;
• टेन्सर क्वेरी लैंग्वेज बहु-आयामी सरणी डेटा के शीर्ष पर SQL-जैसे ऑपरेशन चलाती है;
• इन-ब्राउज़र विज़ुअलाइज़ेशन इंजन जो ऑब्जेक्ट स्टोरेज से डेटा स्ट्रीम करता है और WebGL का उपयोग करके ब्राउज़र में इसे प्रस्तुत करता है।
इस पेपर का शेष भाग इस प्रकार है। हम असंरचित डेटा पर डीप लर्निंग में मौजूदा चुनौतियों पर विचार करके शुरू करते हैं। इसके बाद, हम टेंसर स्टोरेज फॉर्मेट (TSF) को इसकी प्रमुख अवधारणाओं के साथ प्रस्तुत करते हैं। इसके अलावा, हम ML चक्र के भीतर डीप लेक की क्षमताओं और अनुप्रयोगों पर चर्चा करते हैं। इसके बाद, हम प्रदर्शन प्रयोग प्रदान करते हैं और परिणामों पर चर्चा करते हैं। अंत में, हम संबंधित कार्य की समीक्षा करते हैं, संभावित सीमाओं को सूचीबद्ध करते हैं, और निष्कर्ष निकालते हैं।
यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।
[1] स्रोत कोड उपलब्ध: https://github.com/activeloopai/deeplake
[2] दस्तावेज़ https://docs.deeplake.ai पर उपलब्ध हैं