लेखक:
(1) बॉबी हे, कंप्यूटर विज्ञान विभाग, ईटीएच ज्यूरिख (पत्राचार: [email protected].);
(2) थॉमस हॉफमैन, कंप्यूटर विज्ञान विभाग, ईटीएच ज्यूरिख।
ट्रांसफार्मर ब्लॉकों का सरलीकरण
चर्चा, पुनरुत्पादकता वक्तव्य, आभार और संदर्भ
रैखिक परतों में डाउनवेटेड अवशिष्ट और प्रतिबंधित अपडेट के बीच द्वंद्व
डीप ट्रांसफॉर्मर के लिए एक सरल डिज़ाइन नुस्खा समान बिल्डिंग ब्लॉक्स की रचना करना है। लेकिन मानक ट्रांसफॉर्मर ब्लॉक सरल से बहुत दूर हैं, सटीक व्यवस्था में स्किप कनेक्शन और सामान्यीकरण परतों के साथ ध्यान और MLP उप-ब्लॉक को आपस में जोड़ते हैं। यह जटिलता भंगुर आर्किटेक्चर की ओर ले जाती है, जहाँ मामूली से दिखने वाले बदलाव प्रशिक्षण की गति को काफी कम कर सकते हैं, या मॉडल को अप्रशिक्षित बना सकते हैं। इस कार्य में, हम पूछते हैं कि मानक ट्रांसफॉर्मर ब्लॉक को किस हद तक सरल बनाया जा सकता है? सिग्नल प्रसार सिद्धांत और अनुभवजन्य अवलोकनों को मिलाकर, हम ऐसे संशोधनों को प्रेरित करते हैं जो स्किप कनेक्शन, प्रक्षेपण या मूल्य पैरामीटर, अनुक्रमिक उप-ब्लॉक और सामान्यीकरण परतों सहित प्रशिक्षण गति के बिना कई ब्लॉक घटकों को हटाने की अनुमति देते हैं। ऑटोरिग्रैसिव डिकोडर-ओनली और BERT एनकोडर-ओनली मॉडल दोनों पर प्रयोगों में, हमारे सरलीकृत ट्रांसफॉर्मर मानक ट्रांसफॉर्मर की प्रति-अपडेट प्रशिक्षण गति और प्रदर्शन का अनुकरण करते हैं, जबकि 15% तेज़ प्रशिक्षण थ्रूपुट का आनंद लेते हैं, और 15% कम पैरामीटर का उपयोग करते हैं
ट्रांसफॉर्मर आर्किटेक्चर (वासवानी एट अल., 2017) यकीनन डीप लर्निंग में कई हालिया सफलताओं के पीछे का कारक है। डीप ट्रांसफॉर्मर आर्किटेक्चर बनाने का एक सरल तरीका कई समान ट्रांसफॉर्मर "ब्लॉक" को एक के बाद एक क्रम में स्टैक करना है। हालाँकि, प्रत्येक ब्लॉक अधिक जटिल है और इसमें कई अलग-अलग घटक होते हैं, जिन्हें अच्छे प्रदर्शन को प्राप्त करने के लिए विशिष्ट व्यवस्था में संयोजित करने की आवश्यकता होती है। आश्चर्यजनक रूप से, कई शोधकर्ताओं की रुचि को आकर्षित करने के बावजूद, बेस ट्रांसफॉर्मर ब्लॉक अपनी शुरुआत से बहुत कम बदला है।
इस कार्य में, हम अध्ययन करते हैं कि क्या मानक ट्रांसफ़ॉर्मर ब्लॉक को सरल बनाया जा सकता है। अधिक विशेष रूप से, हम कई ब्लॉक घटकों की आवश्यकता की जांच करते हैं, जिसमें स्किप कनेक्शन, प्रोजेक्शन/वैल्यू मैट्रिसेस, अनुक्रमिक उप-ब्लॉक और सामान्यीकरण परतें शामिल हैं। प्रत्येक विचारित घटक के लिए, हम पूछते हैं कि क्या इसे प्रशिक्षण गति (प्रति-अद्यतन चरण और रनटाइम दोनों के संदर्भ में) के नुकसान के बिना हटाया जा सकता है, और ऐसा करने के लिए ट्रांसफ़ॉर्मर ब्लॉक में कौन से आर्किटेक्चरल संशोधन किए जाने की आवश्यकता है।
हमारा मानना है कि प्रशिक्षण की गति से समझौता किए बिना ट्रांसफॉर्मर ब्लॉक को सरल बनाने की समस्या कई कारणों से एक दिलचस्प शोध प्रश्न है। सबसे पहले, आधुनिक न्यूरल नेटवर्क (NN) आर्किटेक्चर में कई घटकों के साथ जटिल डिज़ाइन होते हैं, और यह स्पष्ट नहीं है कि NN प्रशिक्षण गतिशीलता में इन विभिन्न घटकों द्वारा निभाई जाने वाली भूमिकाएँ क्या हैं, न ही वे एक-दूसरे के साथ कैसे बातचीत करते हैं। यह विशेष रूप से डीप लर्निंग में सिद्धांत और व्यवहार के बीच मौजूदा अंतर को देखते हुए प्रासंगिक है, जहाँ डीप लर्निंग के तंत्र को समझने के लिए काम करने वाले सिद्धांतकार अक्सर सुविधा के कारण केवल सरलीकृत आर्किटेक्चर पर विचार करते हैं, जरूरी नहीं कि वे व्यवहार में उपयोग किए जाने वाले आधुनिक आर्किटेक्चर को प्रतिबिंबित करें। व्यवहार में उपयोग किए जाने वाले NN आर्किटेक्चर को सरल बनाना इस विभाजन को पाटने में मदद कर सकता है
संबंधित सैद्धांतिक नोट पर, हमारा काम सिग्नल प्रसार की ताकत और वर्तमान सीमाओं दोनों को उजागर करता है: एक सिद्धांत जो डीप एनएन आर्किटेक्चर में व्यावहारिक डिजाइन विकल्पों को प्रेरित करने की अपनी क्षमता के कारण प्रभावशाली साबित हुआ है। सिग्नल प्रसार (पूल एट अल., 2016; शोनेहोल्ज़ एट अल., 2017; हायौ एट अल., 2019) इनपुट में परतवार अभ्यावेदन के आंतरिक उत्पादों के माध्यम से कैप्चर किए गए आरंभीकरण में एक एनएन में ज्यामितीय जानकारी के विकास का अध्ययन करता है, और डीप एनएन (ज़ियाओ एट अल., 2018; ब्रॉक एट अल., 2021; मार्टेंस एट अल., 2021; जैदी एट अल., 2023) के प्रशिक्षण में कई प्रभावशाली परिणामों को प्रेरित करता है। हालाँकि, वर्तमान सिद्धांत केवल आरंभीकरण में एक मॉडल पर विचार करता है, और अक्सर केवल प्रारंभिक फ़ॉरवर्ड पास पर विचार करता है। इस प्रकार, वर्तमान में सिग्नल प्रसार डीप एनएन प्रशिक्षण गतिशीलता की कई जटिलताओं पर प्रकाश डालने में असमर्थ है, उदाहरण के लिए प्रशिक्षण गति के लिए स्किप कनेक्शन के लाभ। यद्यपि संकेत प्रसार हमारे संशोधनों को प्रेरित करने में महत्वपूर्ण है, फिर भी हम केवल सिद्धांत से अपने सरलीकृत ट्रांसफार्मर ब्लॉकों तक नहीं पहुंचे होंगे, बल्कि अनुभवजन्य अंतर्दृष्टि पर भी निर्भर थे।
अंत में, व्यावहारिक पक्ष पर, आजकल बड़े ट्रांसफॉर्मर मॉडल को प्रशिक्षित करने और तैनात करने की अत्यधिक लागत को देखते हुए, ट्रांसफॉर्मर आर्किटेक्चर के लिए प्रशिक्षण और अनुमान पाइपलाइनों में कोई भी दक्षता लाभ महत्वपूर्ण संभावित बचत का प्रतिनिधित्व करता है। गैर-आवश्यक घटकों को हटाकर ट्रांसफॉर्मर ब्लॉक को सरल बनाने से हमारे मॉडल में पैरामीटर की संख्या कम हो जाती है और थ्रूपुट बढ़ जाता है। विशेष रूप से, हम दिखाते हैं कि प्रशिक्षण गति और डाउनस्ट्रीम कार्य प्रदर्शन के मामले में मानक ट्रांसफॉर्मर से मेल खाते हुए स्किप कनेक्शन, मूल्य पैरामीटर, प्रक्षेपण पैरामीटर और अनुक्रमिक उप-ब्लॉक को हटाना संभव है। परिणामस्वरूप, हम पैरामीटर की संख्या को 16% तक कम करते हैं और प्रशिक्षण और अनुमान दोनों समय में 16% की थ्रूपुट वृद्धि देखते हैं।
ट्रांसफॉर्मर ब्लॉक को सरल बनाने के लिए हमारा शुरुआती बिंदु हे एट अल. (2023) है, जो दिखाते हैं कि सिग्नल प्रसार सिद्धांतों का सम्मान करने से कोई व्यक्ति बिना स्किप कनेक्शन या सामान्यीकरण परतों के डीप ट्रांसफॉर्मर को प्रशिक्षित कर सकता है, लेकिन प्रति पैरामीटर अपडेट पर काफी कम अभिसरण गति पर। हम सबसे पहले दिखाते हैं कि मूल्यों और प्रक्षेपण मापदंडों के अपडेट को विनियमित करना (अनुभाग 4.1), या वास्तव में उन्हें पूरी तरह से हटाना (अनुभाग 4.2), स्किपलेस अटेंशन सब-ब्लॉक के प्रदर्शन को बेहतर बनाता है, और हे एट अल. (2023) द्वारा रिपोर्ट की गई प्रति-अपडेट प्रशिक्षण गति को खो देता है। यह अटेंशन सब-ब्लॉक में आधे मापदंडों और मैट्रिक्स-गुणा को हटा देता है। 5 में, हम दिखाते हैं कि हमारे सरलीकृत ब्लॉक बड़ी गहराई तक स्केल किए जाने पर बेहतर होते हैं, एनकोडर-ओनली और डिकोडर-ओनली आर्किटेक्चर दोनों में अच्छी तरह से काम करते हैं, और हमारे निष्कर्ष प्रशिक्षण लंबाई को स्केल करते समय भी सही साबित होते हैं। हम भाग 6 में सीमाओं और भविष्य के काम की चर्चा के साथ निष्कर्ष निकालते हैं।
यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।