paint-brush
डीप लेक, डीप लर्निंग के लिए एक लेकहाउस: सार और परिचयद्वारा@dataology
154 रीडिंग

डीप लेक, डीप लर्निंग के लिए एक लेकहाउस: सार और परिचय

द्वारा Dataology: Study of Data in Computer Science4m2024/06/05
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

शोधकर्ताओं ने डीप लेक (Deep Lake) नामक डीप लर्निंग के लिए एक ओपन-सोर्स लेकहाउस प्रस्तुत किया है, जो डीप लर्निंग फ्रेमवर्क के लिए जटिल डेटा स्टोरेज और स्ट्रीमिंग को अनुकूलित करता है।
featured image - डीप लेक, डीप लर्निंग के लिए एक लेकहाउस: सार और परिचय
Dataology: Study of Data in Computer Science HackerNoon profile picture
0-item

लेखक:

(1) सासुन हंबारडज़ुम्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(2) अभिनव तुली, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(3) लेवोन घुकास्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(4) फ़रीज़ रहमान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;.

(5) ह्रांट टॉपच्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(6) डेविड इसयान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(7) मार्क मैकक्वाडे, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(8) मिकायेल हरुट्युनयन, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(9) टेटेविक हाकोब्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(10) इवो स्ट्रानिक, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;

(11) डेविट बुनियात्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए।

लिंक की तालिका

अमूर्त

पारंपरिक डेटा झीलें समय यात्रा को सक्षम करके, SQL क्वेरीज़ को चलाने, ACID लेनदेन के साथ डेटा को अंतर्ग्रहण करने और क्लाउड स्टोरेज पर पेटाबाइटस्केल डेटासेट को विज़ुअलाइज़ करके विश्लेषणात्मक कार्यभार के लिए महत्वपूर्ण डेटा अवसंरचना प्रदान करती हैं। वे संगठनों को डेटा साइलो को तोड़ने, डेटा-संचालित निर्णय लेने को अनलॉक करने, परिचालन दक्षता में सुधार करने और लागत कम करने की अनुमति देते हैं। हालाँकि, जैसे-जैसे डीप लर्निंग का उपयोग बढ़ता है, पारंपरिक डेटा झीलें प्राकृतिक भाषा प्रसंस्करण (एनएलपी), ऑडियो प्रोसेसिंग, कंप्यूटर विज़न और गैर-सारणीबद्ध डेटासेट वाले अनुप्रयोगों जैसे अनुप्रयोगों के लिए अच्छी तरह से डिज़ाइन नहीं की जाती हैं। यह पेपर डीप लेक प्रस्तुत करता है, जो एक्टिवलूप [1] [2] में विकसित डीप लर्निंग अनुप्रयोगों के लिए एक ओपन-सोर्स लेकहाउस है। डीप लेक एक प्रमुख अंतर के साथ एक वेनिला डेटा लेक के लाभों को बनाए रखता है: डीप लेक में संग्रहीत डेटासेट को PyTorch [58], TensorFlow [25], JAX [31] से एक्सेस किया जा सकता है, और कई MLOps टूल के साथ एकीकृत किया जा सकता है।


कीवर्ड - डीप लेक, डीप लर्निंग, डेटा लेक, लेकहाउस, क्लाउड कंप्यूटिंग, वितरित सिस्टम

1 परिचय

डेटा लेक एक केंद्रीय भंडार है जो संगठनों को एक ही स्थान पर संरचित, असंरचित और अर्ध-संरचित डेटा संग्रहीत करने की अनुमति देता है। डेटा झीलें डेटा को प्रबंधित करने, नियंत्रित करने और विश्लेषण करने का एक बेहतर तरीका प्रदान करती हैं। इसके अलावा, वे डेटा साइलो को तोड़ने और पहले से अलग-अलग डेटा स्रोतों में छिपी जानकारी प्राप्त करने का एक तरीका प्रदान करते हैं। पहली पीढ़ी की डेटा झीलों ने पारंपरिक रूप से HDFS [71] या AWS S3 [1] जैसे वितरित भंडारण प्रणालियों में डेटा एकत्र किया। डेटा के असंगठित संग्रह ने डेटा झीलों को "डेटा दलदल" में बदल दिया, जिसने डेल्टा, आइसबर्ग और हुडी [27, 15, 10] के नेतृत्व में दूसरी पीढ़ी की डेटा झीलों को जन्म दिया। वे पार्क्वेट, ओआरसी, एवरो [79, 6, 20] जैसे मानकीकृत संरचित प्रारूपों के शीर्ष पर सख्ती से काम करते हैं और समय यात्रा, एसीआईडी लेनदेन और स्कीमा विकास जैसी सुविधाएँ प्रदान करते हैं। डेटा झीलें सीधे प्रेस्टो, एथेना जैसे क्वेरी इंजनों के साथ एकीकृत होती हैं।


चित्र 1: डीप लर्निंग फ्रेमवर्क के साथ इंटरफेस करने वाली डीप लेक आर्किटेक्चर का अवलोकन।


विश्लेषणात्मक क्वेरी चलाने के लिए हाइव और फोटॉन [70, 12, 76, 66] का उपयोग किया जाता है। इसके अतिरिक्त, वे ETL पाइपलाइन रखरखाव के लिए Hadoop, Spark और Airflow [14, 82, 9] जैसे फ्रेमवर्क से जुड़ते हैं। बदले में, स्पष्ट गणना और भंडारण पृथक्करण के साथ डेटा झीलों और क्वेरी इंजनों के बीच एकीकरण के परिणामस्वरूप लेकहाउस [28] जैसी प्रणालियों का उदय हुआ जो स्नोफ्लेक, बिगक्वेरी, रेडशिफ्ट और क्लिकहाउस [33, 4, 40, 2] सहित डेटा वेयरहाउस के विकल्प के रूप में काम करते हैं।


पिछले दशक में, डीप लर्निंग ने पारंपरिक मशीन लर्निंग तकनीकों को पीछे छोड़ दिया है, जिसमें टेक्स्ट, इमेज, वीडियो और ऑडियो जैसे असंरचित और जटिल डेटा शामिल हैं [44, 47, 38, 83, 51, 30, 63, 56]। न केवल डीप लर्निंग सिस्टम ने पारंपरिक तकनीकों को पीछे छोड़ दिया, बल्कि उन्होंने एक्स-रे इमेज से कैंसर का पता लगाने, मानव तंत्रिका कोशिकाओं के शारीरिक पुनर्निर्माण, गेम खेलने, कार चलाने, प्रोटीन को खोलने और इमेज बनाने जैसे अनुप्रयोगों में सुपर-ह्यूमन सटीकता भी हासिल की [61, 48, 72, 42, 77]। ट्रांसफॉर्मर-आधारित आर्किटेक्चर वाले बड़े भाषा मॉडल ने अनुवाद, तर्क, संक्षेपण और टेक्स्ट पूर्णता कार्यों में अत्याधुनिक परिणाम प्राप्त किए [78, 36, 81, 32]। बड़े मल्टी-मोडल नेटवर्क क्रॉस-मोडल खोज के लिए असंरचित डेटा को वैक्टर में एम्बेड करते हैं [29, 60]। इसके अलावा, उनका उपयोग टेक्स्ट से फोटो-यथार्थवादी छवियां बनाने के लिए किया जाता है [62, 65]।


हालाँकि डीप लर्निंग मॉडल की सफलता में प्राथमिक योगदानकर्ताओं में से एक CoCo (330K इमेज), ImageNet (1.2M इमेज), Oscar (बहुभाषी टेक्स्ट कॉर्पस) और LAION (400M और 5B इमेज) जैसे बड़े डेटासेट की उपलब्धता रही है [49, 34, 74, 68], लेकिन इसमें ऐसे पैमाने का समर्थन करने के लिए पारंपरिक विश्लेषणात्मक कार्यभार के समान एक अच्छी तरह से स्थापित डेटा इंफ्रास्ट्रक्चर ब्लूप्रिंट नहीं है। दूसरी ओर, मॉडर्न डेटा स्टैक (MDS) में प्रदर्शनकारी डीप लर्निंग-आधारित समाधानों को तैनात करने के लिए आवश्यक सुविधाओं का अभाव है, इसलिए संगठन इन-हाउस सिस्टम विकसित करना चुनते हैं।


इस पेपर में, हम डीप लेक का परिचय देते हैं, जो डीप लर्निंग वर्कलोड के लिए विशेषीकृत एक लेकहाउस है। डीप लेक में डीप लेक के मुख्य लाभ बरकरार हैं


चित्र 2: डीप लेक के साथ मशीन लर्निंग लूप


पारंपरिक डेटा लेक में एक उल्लेखनीय अंतर है: यह जटिल डेटा, जैसे कि चित्र, वीडियो, एनोटेशन और सारणीबद्ध डेटा को टेंसर के रूप में संग्रहीत करता है और GPU उपयोग का त्याग किए बिना नेटवर्क पर डीप लर्निंग फ्रेमवर्क में डेटा को तेज़ी से स्ट्रीम करता है। इसके अलावा, यह PyTorch, TensorFlow और JAX [58, 25, 31] जैसे डीप लर्निंग फ्रेमवर्क के बीच मूल अंतर-संचालन प्रदान करता है।


इस पेपर के मुख्य तकनीकी योगदान में शामिल हैं:


• टेंसर स्टोरेज फॉर्मेट जो ऑब्जेक्ट स्टोरेज पर गतिशील रूप से आकार वाली सरणियों को संग्रहीत करता है;


• स्ट्रीमिंग डेटालोडर जो फेचिंग, डिकम्प्रेसन और उपयोगकर्ता-परिभाषित परिवर्तनों को शेड्यूल करता है, डीप लर्निंग के लिए जीपीयू में डेटा ट्रांसफर थ्रूपुट को अनुकूलित करता है;


• टेन्सर क्वेरी लैंग्वेज बहु-आयामी सरणी डेटा के शीर्ष पर SQL-जैसे ऑपरेशन चलाती है;


• इन-ब्राउज़र विज़ुअलाइज़ेशन इंजन जो ऑब्जेक्ट स्टोरेज से डेटा स्ट्रीम करता है और WebGL का उपयोग करके ब्राउज़र में इसे प्रस्तुत करता है।


इस पेपर का शेष भाग इस प्रकार है। हम असंरचित डेटा पर डीप लर्निंग में मौजूदा चुनौतियों पर विचार करके शुरू करते हैं। इसके बाद, हम टेंसर स्टोरेज फॉर्मेट (TSF) को इसकी प्रमुख अवधारणाओं के साथ प्रस्तुत करते हैं। इसके अलावा, हम ML चक्र के भीतर डीप लेक की क्षमताओं और अनुप्रयोगों पर चर्चा करते हैं। इसके बाद, हम प्रदर्शन प्रयोग प्रदान करते हैं और परिणामों पर चर्चा करते हैं। अंत में, हम संबंधित कार्य की समीक्षा करते हैं, संभावित सीमाओं को सूचीबद्ध करते हैं, और निष्कर्ष निकालते हैं।


यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।


[1] स्रोत कोड उपलब्ध: https://github.com/activeloopai/deeplake


[2] दस्तावेज़ https://docs.deeplake.ai पर उपलब्ध हैं