लेखक:  (1) सासुन हंबार्डज़ुम्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;  (2) अभिनव तुली, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;  (3) लेवोन घुकास्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;  (4) फ़रीज़ रहमान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;.  (5) ह्रांट टॉपच्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;  (6) डेविड इसयान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;  (7) मार्क मैकक्वाडे, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;  (8) मिकायेल हरुट्युनयन, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;  (9) टेटेविक हाकोब्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;  (10) इवो स्ट्रानिक, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;  (11) डेविट बुनियात्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए।  लिंक की तालिका   सार और परिचय   वर्तमान चुनौतियाँ   टेंसर संग्रहण प्रारूप   गहरी झील प्रणाली अवलोकन   मशीन लर्निंग उपयोग के मामले   प्रदर्शन बेंचमार्क   चर्चा और सीमाएँ   संबंधित कार्य   निष्कर्ष, आभार और संदर्भ  2. वर्तमान चुनौतियाँ  इस अनुभाग में, हम असंरचित या जटिल डेटा प्रबंधन की वर्तमान और ऐतिहासिक चुनौतियों पर चर्चा करते हैं।  2.1 डेटाबेस में जटिल डेटा प्रकार  आम तौर पर बाइनरी डेटा, जैसे कि इमेज, को सीधे डेटाबेस में संग्रहीत करने की अनुशंसा नहीं की जाती है। ऐसा इसलिए है क्योंकि डेटाबेस बड़ी फ़ाइलों को संग्रहीत करने और परोसने के लिए अनुकूलित नहीं हैं और प्रदर्शन संबंधी समस्याएँ पैदा कर सकते हैं। इसके अलावा, बाइनरी डेटा डेटाबेस के संरचित प्रारूप में अच्छी तरह से फिट नहीं होता है, जिससे इसे क्वेरी करना और हेरफेर करना मुश्किल हो जाता है। इससे उपयोगकर्ताओं के लिए लोड समय धीमा हो सकता है। डेटाबेस आमतौर पर अन्य प्रकार के स्टोरेज, जैसे कि फ़ाइल सिस्टम या क्लाउड स्टोरेज सेवाओं की तुलना में संचालित और रखरखाव के लिए अधिक महंगे होते हैं। इसलिए, डेटाबेस में बड़ी मात्रा में बाइनरी डेटा संग्रहीत करना अन्य स्टोरेज समाधानों की तुलना में अधिक महंगा हो सकता है।  2.2 सारणीबद्ध प्रारूप के साथ जटिल डेटा  बड़े पैमाने पर विश्लेषणात्मक और BI कार्यभार में वृद्धि ने संपीड़ित संरचित प्रारूपों जैसे कि पार्क्वेट, ORC, एवरो, या एरो [79, 6, 20, 13] जैसे क्षणिक इन-मेमोरी प्रारूपों के विकास को प्रेरित किया। जैसे-जैसे सारणीबद्ध प्रारूपों को अपनाया गया, उन प्रारूपों को विस्तारित करने के प्रयास, जैसे कि पेटास्टॉर्म [18] या फेदर [7] डीप लर्निंग के लिए सामने आए। हमारे सर्वोत्तम ज्ञान के अनुसार, इन प्रारूपों को अभी तक व्यापक रूप से अपनाया जाना बाकी है। यह दृष्टिकोण मुख्य रूप से आधुनिक डेटा स्टैक (एमडीएस) के साथ मूल एकीकरण से लाभान्वित होता है। हालाँकि, जैसा कि पहले चर्चा की गई है, अपस्ट्रीम टूल को डीप लर्निंग अनुप्रयोगों के अनुकूल होने के लिए मौलिक संशोधनों की आवश्यकता होती है।  2.3 डीप लर्निंग के लिए ऑब्जेक्ट स्टोरेज  बड़े असंरचित डेटासेट को संग्रहीत करने के लिए वर्तमान क्लाउड-नेटिव विकल्प ऑब्जेक्ट स्टोरेज है जैसे कि AWS S3 [1], Google क्लाउड स्टोरेज (GCS) [3], या MinIO [17]। ऑब्जेक्ट स्टोरेज वितरित नेटवर्क फ़ाइल सिस्टम पर तीन मुख्य लाभ प्रदान करता है। वे (ए) लागत-कुशल हैं, (बी) स्केलेबल हैं, और (सी) एक प्रारूप-अज्ञेय भंडार के रूप में काम करते हैं। हालाँकि, क्लाउड स्टोरेज कमियों के बिना नहीं हैं। सबसे पहले, वे महत्वपूर्ण विलंबता ओवरहेड पेश करते हैं, खासकर जब कई छोटी फ़ाइलों जैसे कि टेक्स्ट या JSON पर पुनरावृत्ति होती है। अगला, मेटाडेटा नियंत्रण के बिना असंरचित डेटा अंतर्ग्रहण "डेटा दलदल" पैदा कर सकता है। इसके अलावा, ऑब्जेक्ट स्टोरेज में बिल्ट-इन वर्जन कंट्रोल होता है; इसका उपयोग डेटा साइंस वर्कफ़्लो में शायद ही कभी किया जाता है। अंत में, ऑब्जेक्ट स्टोरेज पर डेटा को प्रशिक्षण से पहले एक वर्चुअल मशीन में कॉपी किया जाता है, जिसके परिणामस्वरूप स्टोरेज ओवरहेड और अतिरिक्त लागत होती है।  2.4 डेटा झीलों की दूसरी पीढ़ी  डेल्टा, आइसबर्ग, हुडी [27, 15, 10] के नेतृत्व में दूसरी पीढ़ी के डेटा झील निम्नलिखित प्राथमिक गुणों के साथ सारणीबद्ध प्रारूप फ़ाइलों का प्रबंधन करके ऑब्जेक्ट स्टोरेज का विस्तार करते हैं।  (1)   सारणीबद्ध प्रारूप फ़ाइल के शीर्ष पर एक पंक्ति सम्मिलित करना या हटाना। अद्यतन कार्य:  (2)   : एसीआईडी गुणों के साथ डाउनस्ट्रीम डेटा अंतर्ग्रहण और एसक्यूएल इंटरफ़ेस को उजागर करने वाले क्वेरी इंजन के साथ अपस्ट्रीम एकीकरण। स्ट्रीमिंग  (3)   पश्चगामी संगतता को संरक्षित करते हुए स्तंभ संरचना का विकास करना। स्कीमा विकास:  (4)   रोलबैक प्रॉपर्टी के साथ ऐतिहासिक स्थिति को संरक्षित करना जहां क्वेरीज़ को पुन: प्रस्तुत किया जा सकता है। साथ ही, डेटा वंशावली पर पंक्ति-स्तरीय नियंत्रण के लिए समर्थन। समय यात्रा और ऑडिट लॉग ट्रेलिंग:  (5)   कस्टम ऑर्डरिंग समर्थन के साथ फ़ाइल आकार और डेटा कॉम्पैक्शन को अनुकूलित करने के लिए अंतर्निहित सुविधा। क्वेरी करने की गति को महत्वपूर्ण रूप से बढ़ाता है। लेआउट अनुकूलन:  हालाँकि, दूसरी पीढ़ी के डेटा लेक अभी भी डीप लर्निंग में इस्तेमाल किए जाने वाले अंतर्निहित डेटा फ़ॉर्मेट की सीमाओं से बंधे हुए हैं, जैसा कि पहले सेक्शन 2.2 में चर्चा की गई थी। इसलिए इस पेपर में, हम डीप लर्निंग उपयोग मामलों के लिए डेटा लेक क्षमताओं की दूसरी पीढ़ी का विस्तार करते हैं, जिसमें क्वेरी, विज़ुअलाइज़ेशन और डीप लर्निंग फ़्रेमवर्क में नेटिव इंटीग्रेशन सहित फ़ॉर्मेट और अपस्ट्रीम सुविधाओं पर पुनर्विचार करके एमएल जीवनचक्र को पूरा करना शामिल है जैसा कि चित्र 2 में दिखाया गया है।  यह पेपर CC 4.0 लाइसेंस के अंतर्गत   है। arxiv पर उपलब्ध

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Dataology.TECH

Dataology is the study of data. We publish the highest quality university papers & blog posts about the essence of data.

Dataology

यह ऑडियो कहानी की मूल भाषा में निर्मित है!

डीप लेक, डीप लर्निंग के लिए एक लेकहाउस: वर्तमान चुनौतियाँ

About Author

टिप्पणियाँ

लेबल

इस लेख में चित्रित किया गया था

Related Stories

फ्लोकी का वल्लाह भारत के श्रीलंका दौरे के लिए सहयोगी प्रायोजक के रूप में शामिल हुआ

क्रिप्टो ग्रोथ: प्रभावी उपयोगकर्ता व्यक्तित्व बनाना

HackerNoon एक बहुभाषी प्लेटफ़ॉर्म है: सभी शीर्ष कहानियाँ अब 13 भाषाओं में उपलब्ध हैं

Paint us Red and Call us Santa! Our Devs Just Gifted You a Sleigh of New Features!

फ्लोकी का वल्लाह भारत के श्रीलंका दौरे के लिए सहयोगी प्रायोजक के रूप में शामिल हुआ

क्रिप्टो ग्रोथ: प्रभावी उपयोगकर्ता व्यक्तित्व बनाना

HackerNoon एक बहुभाषी प्लेटफ़ॉर्म है: सभी शीर्ष कहानियाँ अब 13 भाषाओं में उपलब्ध हैं

Paint us Red and Call us Santa! Our Devs Just Gifted You a Sleigh of New Features!

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps