लेखक:
(1) इयान ओफीडिस, इलेक्ट्रिकल इंजीनियरिंग विभाग, और येल इंस्टीट्यूट फॉर नेटवर्क साइंस, येल विश्वविद्यालय, न्यू हेवन {समान योगदान};
(2) डिएगो किडांस्की, इलेक्ट्रिकल इंजीनियरिंग विभाग, और येल इंस्टीट्यूट फॉर नेटवर्क साइंस, येल विश्वविद्यालय, न्यू हेवन {समान योगदान};
(3) लिआंड्रोस टैसियुलसलेवोन घुकास्यान, एक्टिवलूप, माउंटेन व्यू, सीए, यूएसए, इलेक्ट्रिकल इंजीनियरिंग विभाग, और येल इंस्टीट्यूट फॉर नेटवर्क साइंस, येल विश्वविद्यालय, न्यू हेवन।
यह खंड गहन शिक्षण पुस्तकालयों, मॉडलों और रूपरेखाओं को बेंचमार्क करने के लिए समुदाय में किए गए कई प्रयासों का वर्णन करता है।
डीप लर्निंग टूल्स और विधियों के बेंचमार्किंग की दिशा में बहुत सारे काम मौजूद हैं। MLPerf (मैटसन एट अल., 2020) यकीनन आधुनिक ML वर्कलोड के लिए सबसे लोकप्रिय ML बेंचमार्किंग प्रोजेक्ट है जो विभिन्न प्रकार के AI कार्यों को कवर करते हुए प्रशिक्षण और अनुमान दोनों को लक्षित करता है। लेखक अपने उद्देश्य मीट्रिक के रूप में दिए गए सटीकता स्तर तक पहुँचने के लिए आवश्यक प्रशिक्षण समय का उपयोग करते हैं। इस मीट्रिक के लिए अधिक कम्प्यूटेशनल संसाधनों की आवश्यकता होती है और यह डेटा लोडर मापदंडों के परीक्षण के लिए उपयुक्त नहीं है। DeepBench (Baidu-Research, 2020) Baidu Research का एक ओपनसोर्स प्रोजेक्ट है जो डीप लर्निंग स्टैक के भीतर कर्नेल-स्तरीय संचालन पर केंद्रित है; यह लाइब्रेरी में लागू किए गए और अंतर्निहित हार्डवेयर पर सीधे निष्पादित किए गए व्यक्तिगत संचालन (जैसे, मैट्रिक्स गुणन) के प्रदर्शन को बेंचमार्क करता है। इसी तरह, AI मैट्रिक्स (झांग एट अल., 2019) बुनियादी ऑपरेटरों को कवर करने के लिए माइक्रोबेंचमार्क का उपयोग करता है, पूरी तरह से जुड़े और अन्य सामान्य परतों के लिए प्रदर्शन को मापता है, और सिंथेटिक बेंचमार्क की पेशकश करके वास्तविक कार्यभार की विशेषताओं से मेल खाता है।
फ्रेमवर्क की तुलना: इस खंड में विभिन्न डीप लर्निंग फ्रेमवर्क, जैसे कि PyTorch, TensorFlow, आदि की बेंचमार्किंग और तुलना करने के प्रयास शामिल हैं।
डीप500 (बेन-नून एट अल., 2019) में, लेखक डीएल-ट्रेनिंग प्रदर्शन को मापने के लिए एक मॉड्यूलर सॉफ़्टवेयर फ़्रेमवर्क प्रदान करते हैं; अनुकूलन योग्य होने पर, इसमें हाइपरपैरामीटर बेंचमार्किंग का अभाव होता है और यह नए पुस्तकालयों और वर्कफ़्लो को जोड़ने और उनके साथ प्रयोग करने का एक आसान तरीका प्रदान नहीं करता है। AIBench (गाओ एट अल., 2020), और DAWNBench (कोलमैन एट अल., 2019) दोनों एंड-टू-एंड बेंचमार्क हैं, जिसमें बाद वाला डीप-लर्निंग सिस्टम के एंड-टू-एंड प्रदर्शन को मापने वाला पहला मल्टी-एंट्रेंट बेंचमार्क प्रतियोगिता है। MLPerf की तरह, कोई भी अपने वर्कफ़्लो में वैकल्पिक लोडिंग लाइब्रेरी के प्रभाव की जांच नहीं करता है। (वू एट अल., 2019) में, लेखक विभिन्न समानांतर कंप्यूटिंग लाइब्रेरी और बैच आकारों के लिए CPU और मेमोरी उपयोग पैटर्न का एक व्यवस्थित विश्लेषण और सटीकता और प्रशिक्षण दक्षता पर उनके प्रभाव को प्रस्तुत करते हैं। यह विश्लेषण हमारे काम के करीब है; हालाँकि, यह नई लाइब्रेरी के साथ बातचीत करने और बेंचमार्क करने के लिए एक ओपन-सोर्स संसाधन प्रदान नहीं करता है।
(शि एट अल., 2016) में, लेखक विभिन्न न्यूरल नेटवर्क (जैसे, पूरी तरह से कनेक्टेड, कन्वोल्यूशनल और रीकरंट न्यूरल नेटवर्क) के प्रदर्शन के आधार पर डीप लर्निंग फ्रेमवर्क की तुलना करते हैं। dPRO (हू एट अल., 2022) एक प्रोफाइलर का उपयोग करके वितरित (मल्टी-GPU) प्रशिक्षण बेंचमार्क पर ध्यान केंद्रित करता है जो कई फ्रेमवर्क में वितरित DNN प्रशिक्षण के रनटाइम ट्रेस एकत्र करता है। DLBench (HKBU में हेटेरोजेनस कंप्यूटिंग लैब, 2017) विभिन्न डीप लर्निंग टूल्स, जैसे कि कैफ़े, टेन्सरफ़्लो और MXNet को मापने के लिए एक बेंचमार्क फ्रेमवर्क है। (लियू एट अल., 2018) में लेखक मॉडल के प्रदर्शन (समय और सटीकता) पर प्रत्येक फ्रेमवर्क द्वारा डिफ़ॉल्ट कॉन्फ़िगरेशन के प्रभाव का अध्ययन करते हैं (वू एट अल., 2018) में, लेखक फ्रेमवर्क के डिफ़ॉल्ट कॉन्फ़िगरेशन का परीक्षण करते हैं और प्रत्येक डेटासेट के लिए इष्टतम कॉन्फ़िगरेशन खोजने का प्रयास करते हैं; वे डेटा लोडिंग प्रक्रिया की भी जांच करते हैं लेकिन तीसरे पक्ष के पुस्तकालयों का मूल्यांकन नहीं करते हैं। इस पैराग्राफ में पहले प्रकाशित सभी कार्य, जबकि वे हमारे काम के साथ कई समानताएं रखते हैं, उनमें एक महत्वपूर्ण अंतर है; वे इस पेपर में वर्णित डेटा लोडिंग के लिए लाइब्रेरी के पारिस्थितिकी तंत्र या PyTorch पर कोई विश्लेषण या बेंचमार्किंग नहीं करते हैं, जो कि, जैसा कि परिचय में कहा गया है, वर्तमान में सबसे लोकप्रिय डीप लर्निंग फ्रेमवर्क में से एक है जिसका उद्योग और शिक्षा दोनों में व्यापक रूप से उपयोग किया जाता है।
विभिन्न DNN आर्किटेक्चर और हार्डवेयर की तुलना: ParaDNN (वांग एट अल., 2020) लक्ष्य प्लेटफ़ॉर्म पर चलाने के लिए पैरामीटरयुक्त एंड-टू-एंड मॉडल तैयार करता है, जैसे कि अंतर्निहित हार्डवेयर की सीमाओं को चुनौती देने के लिए बैच आकार को बदलना, लेकिन विशेष प्लेटफ़ॉर्म (TPU v2/v3) और डिवाइस आर्किटेक्चर (TPU, GPU, CPU) की तुलना पर ध्यान केंद्रित करता है। ParaDNN से संबंधित (बियान्को एट अल., 2018) का काम है, जो विभिन्न कम्प्यूटेशनल संसाधनों वाले हार्डवेयर सिस्टम के विश्लेषण के आधार पर व्यावहारिक परिनियोजन और अनुप्रयोगों में संसाधन बाधाओं का जवाब देने वाले उपयुक्त आर्किटेक्चर का चयन करने के लिए एक व्यापक उपकरण प्रदान करता है। हालाँकि, यह डीप लर्निंग मॉडल के डिज़ाइन पर अधिक ध्यान केंद्रित करता है, न कि डीप लर्निंग फ्रेमवर्क पर, जिस पर इन्हें लागू किया जाता है। जबकि फैथम (एडोल्फ एट अल., 2016) और टीबीडी सूट (झू एट अल., 2018) दोनों ही विभिन्न प्रकार के कार्यों और विविध कार्यभारों में पूर्ण मॉडल आर्किटेक्चर के मूल्यांकन पर ध्यान केंद्रित करते हैं, वे इन पर सीमित हैं और अत्याधुनिक प्रशिक्षण नवाचारों के लिए बेंचमार्क का अभाव है।
अन्य डिवाइस: AI बेंचमार्क (इग्नाटोव एट अल., 2018) यकीनन पहला मोबाइल-इंफरेंस बेंचमार्क सूट है। हालाँकि, इसके परिणाम केवल एंड्रॉइड स्मार्टफ़ोन पर केंद्रित हैं और केवल विलंबता को मापते हैं जबकि सारांश स्कोर प्रदान करते हैं जो स्पष्ट रूप से गुणवत्ता लक्ष्यों को निर्दिष्ट करने में विफल रहता है। (हदीदी एट अल., 2019) निष्पादन समय, ऊर्जा खपत और तापमान के दृष्टिकोण से DNN के इन-द-एज इंफरेंस की जांच करता है। (ताओ एट अल., 2018) शाखा भविष्यवाणी दरों और डेटा पुन: उपयोग दूरी जैसे विविध हार्डवेयर व्यवहारों के साथ कॉन्फ़िगरेशन को कवर करता है, और खुफिया प्रोसेसर और हार्डवेयर प्लेटफ़ॉर्म की सटीकता, प्रदर्शन और ऊर्जा का मूल्यांकन करता है। ये दोनों कार्य उपकरणों की एक अलग श्रेणी पर केंद्रित हैं, जैसे कि एज डिवाइस और इंटेलिजेंस प्रोसेसर, जो इस कार्य के दायरे से बाहर है।
यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।