लेखक:
(1) सासुन हंबार्डज़ुम्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;
(2) अभिनव तुली, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;
(3) लेवोन घुकास्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;
(4) फ़रीज़ रहमान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;.
(5) ह्रांट टॉपच्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;
(6) डेविड इसयान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;
(7) मार्क मैकक्वाडे, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;
(8) मिकायेल हरुट्युनयन, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;
(9) टेटेविक हाकोब्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;
(10) इवो स्ट्रानिक, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए;
(11) डेविट बुनियात्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए।
इस खंड में, हम प्रारूप में अंतर्ग्रहण के बिंदु से लेकर अन्य डेटा लोडर और प्रारूपों के विरुद्ध पैमाने पर प्रशिक्षण तक डीप लेक के प्रदर्शन को प्रयोगात्मक रूप से प्रदर्शित करते हैं। हम विभिन्न स्टोरेज बैकएंड से स्ट्रीमिंग डेटासेट की तुलना करते हैं, और क्लाउड पर प्रशिक्षण के दौरान प्रदर्शन लाभ और मापनीयता प्रदर्शित करते हैं।
FFHQ [43] डेटासेट से 10,000 छवियों को असम्पीडित किया गया और NumPy प्रारूप में संग्रहीत किया गया। प्रत्येक 1024x1024x3 कच्ची छवि एक 3MB सरणी है। फिर, जैसा कि चित्र 6 में दिखाया गया है, छवियों को प्रत्येक प्रारूप में क्रमिक रूप से लिखा गया था। प्रदर्शन को बढ़ाने के लिए, हमने Zarr [52] और N5 [24] प्रारूपों में लिखने के लिए TensorStore [23] का उपयोग किया। प्रयोग AWS c5.9xlarge मशीन पर किए गए थे। डीप लेक सरणी प्रारूपों की तुलना में काफी तेजी से लिखने का प्रदर्शन प्राप्त करता है और वेबडाटासेट [19] और FFCV बीटन [39] जैसे बाइनरी प्रारूपों के बराबर है।
जैसा कि चित्र 7 में दिखाया गया है, डीप लेक बिना मॉडल के PyTorch ट्रेनिंग लूप में तेजी से डेटा लोड करता है। यह प्रयोग एक Nvidia V100 GPU के साथ AWS P3.2xlarge इंस्टेंस पर किया गया था।
कार्ड। डेटासेट ने JPEG फ़ाइलों के रूप में संग्रहीत 50,000 250x250x3 छवियों को यादृच्छिक रूप से उत्पन्न किया है। जिन पुस्तकालयों में बेंचमार्क किए गए थे उनकी सूची में डीप लेक, एफएफसीवी [39], स्क्विरल [75], वेबडाटासेट [19] और नेटिव पायटॉर्च डेटालोडर [58] शामिल थे।
इस प्रयोग में जैसा कि चित्र 8 में दिखाया गया है, हम सेक्शन 6.2 में बताए गए समान डेटासेट का उपयोग करके रिमोट स्ट्रीमिंग के लिए अलग-अलग स्टोरेज बैकएंड का पता लगाते हैं। मिनियो [17] एक स्थानीय नेटवर्क में दूसरी मशीन पर चल रहा है। उल्लेखनीय रूप से, डीप लेक उसी तरह का प्रदर्शन प्राप्त करता है जैसे कि डेटा AWS S3 की तुलना में मशीन के लिए स्थानीय है। वेबडेटासेट और डीप लेक दोनों ही डेटा को स्ट्रीम करते समय काफी धीमे हैं
मिनियो की तुलना AWS S3 से की गई है। अधिक विस्तृत डेटा लोडर बेंचमार्क के लिए, हम ओफीडिस एट अल [54] द्वारा किए गए एक विस्तृत डेटा लोडर अवलोकन अध्ययन की अनुशंसा करेंगे।
चूंकि डीप लेक को क्लाउड-फर्स्ट के लिए बनाया गया था, इसलिए इस और अगले खंड में हम क्लाउड पर मॉडल को प्रशिक्षित करने के लिए इसके द्वारा प्रदान किए जाने वाले लाभों को प्रदर्शित करते हैं। हम इमेजनेट डेटासेट [35] लेते हैं और इसे AWS S3 [1] पर मूल और टेंसर स्टोरेज फॉर्मेट के रूप में संग्रहीत करते हैं। डेटासेट में कुल 150GB में 1.2 मिलियन इमेज और लेबल होते हैं। डीप लेक वस्तुतः उसी तरह का प्रशिक्षण प्रदर्शन प्राप्त करता है जैसे कि डेटा मशीन के लिए स्थानीय होता। यह चित्र 9 में दिखाए गए अनुसार 4x GPU कंप्यूट समय और लागत बचाता है।
दूसरे प्रयोग के रूप में, हम 400M छवि-पाठ जोड़े वाले LAION डेटासेट [67] लेते हैं और 1 बिलियन मापदंडों के साथ छवि-पाठ एम्बेडिंग मॉडल CLIP [60] को प्रशिक्षित करते हैं। मूल डेटासेट छवि URL के एक कॉलम के साथ Parquet फ़ाइलों की एक तालिका है। स्रोत से डेटासेट डाउनलोड में 100 घंटे लगे, जबकि Tensor Storage प्रारूप में अंतर्ग्रहण में केवल 6 घंटे लगे, कुल 1.9TB का आकार। डेटासेट को यूएस-पूर्वी क्षेत्र में AWS पर संग्रहीत किया गया है जबकि GPU मशीन को यूएस-मध्य क्षेत्र में प्रशिक्षित किया गया है। जैसा कि चित्र 10 में दिखाया गया है, डीप लेक 16 Nvidia A100 GPU में 5,100 इमेज/सेकंड स्ट्रीम करके उच्च GPU उपयोग प्राप्त करता है
यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।