paint-brush
दक्षता से समझौता किए बिना ट्रांसफार्मर ब्लॉक को सरल बनानाद्वारा@autoencoder
474 रीडिंग
474 रीडिंग

दक्षता से समझौता किए बिना ट्रांसफार्मर ब्लॉक को सरल बनाना

द्वारा Auto Encoder: How to Ignore the Signal Noise4m2024/06/18
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

यह अध्ययन गैर-आवश्यक घटकों को हटाकर ट्रांसफार्मर ब्लॉकों को सरल बनाता है, जिसके परिणामस्वरूप प्रदर्शन को बनाए रखते हुए 15% तेज प्रशिक्षण प्रवाह और 15% कम पैरामीटर प्राप्त होते हैं।
featured image - दक्षता से समझौता किए बिना ट्रांसफार्मर ब्लॉक को सरल बनाना
Auto Encoder: How to Ignore the Signal Noise HackerNoon profile picture
0-item

लेखक:

(1) बॉबी हे, कंप्यूटर विज्ञान विभाग, ईटीएच ज्यूरिख (पत्राचार: [email protected].);

(2) थॉमस हॉफमैन, कंप्यूटर विज्ञान विभाग, ईटीएच ज्यूरिख।

लिंक की तालिका

सार और परिचय

संबंधित कार्य

प्रारंभिक

ट्रांसफार्मर ब्लॉकों का सरलीकरण

आगे का प्रायोगिक विश्लेषण

चर्चा, पुनरुत्पादकता वक्तव्य, आभार और संदर्भ

रैखिक परतों में डाउनवेटेड अवशिष्ट और प्रतिबंधित अपडेट के बीच द्वंद्व

बी ब्लॉक लेआउट

सी अतिरिक्त प्रयोग

डी कार्यान्वयन विवरण

अमूर्त

डीप ट्रांसफॉर्मर के लिए एक सरल डिज़ाइन नुस्खा समान बिल्डिंग ब्लॉक्स की रचना करना है। लेकिन मानक ट्रांसफॉर्मर ब्लॉक सरल से बहुत दूर हैं, सटीक व्यवस्था में स्किप कनेक्शन और सामान्यीकरण परतों के साथ ध्यान और MLP उप-ब्लॉक को आपस में जोड़ते हैं। यह जटिलता भंगुर आर्किटेक्चर की ओर ले जाती है, जहाँ मामूली से दिखने वाले बदलाव प्रशिक्षण की गति को काफी कम कर सकते हैं, या मॉडल को अप्रशिक्षित बना सकते हैं। इस कार्य में, हम पूछते हैं कि मानक ट्रांसफॉर्मर ब्लॉक को किस हद तक सरल बनाया जा सकता है? सिग्नल प्रसार सिद्धांत और अनुभवजन्य अवलोकनों को मिलाकर, हम ऐसे संशोधनों को प्रेरित करते हैं जो स्किप कनेक्शन, प्रक्षेपण या मूल्य पैरामीटर, अनुक्रमिक उप-ब्लॉक और सामान्यीकरण परतों सहित प्रशिक्षण गति के बिना कई ब्लॉक घटकों को हटाने की अनुमति देते हैं। ऑटोरिग्रैसिव डिकोडर-ओनली और BERT एनकोडर-ओनली मॉडल दोनों पर प्रयोगों में, हमारे सरलीकृत ट्रांसफॉर्मर मानक ट्रांसफॉर्मर की प्रति-अपडेट प्रशिक्षण गति और प्रदर्शन का अनुकरण करते हैं, जबकि 15% तेज़ प्रशिक्षण थ्रूपुट का आनंद लेते हैं, और 15% कम पैरामीटर का उपयोग करते हैं

1 परिचय

ट्रांसफॉर्मर आर्किटेक्चर (वासवानी एट अल., 2017) यकीनन डीप लर्निंग में कई हालिया सफलताओं के पीछे का कारक है। डीप ट्रांसफॉर्मर आर्किटेक्चर बनाने का एक सरल तरीका कई समान ट्रांसफॉर्मर "ब्लॉक" को एक के बाद एक क्रम में स्टैक करना है। हालाँकि, प्रत्येक ब्लॉक अधिक जटिल है और इसमें कई अलग-अलग घटक होते हैं, जिन्हें अच्छे प्रदर्शन को प्राप्त करने के लिए विशिष्ट व्यवस्था में संयोजित करने की आवश्यकता होती है। आश्चर्यजनक रूप से, कई शोधकर्ताओं की रुचि को आकर्षित करने के बावजूद, बेस ट्रांसफॉर्मर ब्लॉक अपनी शुरुआत से बहुत कम बदला है।


इस कार्य में, हम अध्ययन करते हैं कि क्या मानक ट्रांसफ़ॉर्मर ब्लॉक को सरल बनाया जा सकता है। अधिक विशेष रूप से, हम कई ब्लॉक घटकों की आवश्यकता की जांच करते हैं, जिसमें स्किप कनेक्शन, प्रोजेक्शन/वैल्यू मैट्रिसेस, अनुक्रमिक उप-ब्लॉक और सामान्यीकरण परतें शामिल हैं। प्रत्येक विचारित घटक के लिए, हम पूछते हैं कि क्या इसे प्रशिक्षण गति (प्रति-अद्यतन चरण और रनटाइम दोनों के संदर्भ में) के नुकसान के बिना हटाया जा सकता है, और ऐसा करने के लिए ट्रांसफ़ॉर्मर ब्लॉक में कौन से आर्किटेक्चरल संशोधन किए जाने की आवश्यकता है।


हमारा मानना है कि प्रशिक्षण की गति से समझौता किए बिना ट्रांसफॉर्मर ब्लॉक को सरल बनाने की समस्या कई कारणों से एक दिलचस्प शोध प्रश्न है। सबसे पहले, आधुनिक न्यूरल नेटवर्क (NN) आर्किटेक्चर में कई घटकों के साथ जटिल डिज़ाइन होते हैं, और यह स्पष्ट नहीं है कि NN प्रशिक्षण गतिशीलता में इन विभिन्न घटकों द्वारा निभाई जाने वाली भूमिकाएँ क्या हैं, न ही वे एक-दूसरे के साथ कैसे बातचीत करते हैं। यह विशेष रूप से डीप लर्निंग में सिद्धांत और व्यवहार के बीच मौजूदा अंतर को देखते हुए प्रासंगिक है, जहाँ डीप लर्निंग के तंत्र को समझने के लिए काम करने वाले सिद्धांतकार अक्सर सुविधा के कारण केवल सरलीकृत आर्किटेक्चर पर विचार करते हैं, जरूरी नहीं कि वे व्यवहार में उपयोग किए जाने वाले आधुनिक आर्किटेक्चर को प्रतिबिंबित करें। व्यवहार में उपयोग किए जाने वाले NN आर्किटेक्चर को सरल बनाना इस विभाजन को पाटने में मदद कर सकता है


संबंधित सैद्धांतिक नोट पर, हमारा काम सिग्नल प्रसार की ताकत और वर्तमान सीमाओं दोनों को उजागर करता है: एक सिद्धांत जो डीप एनएन आर्किटेक्चर में व्यावहारिक डिजाइन विकल्पों को प्रेरित करने की अपनी क्षमता के कारण प्रभावशाली साबित हुआ है। सिग्नल प्रसार (पूल एट अल., 2016; शोनेहोल्ज़ एट अल., 2017; हायौ एट अल., 2019) इनपुट में परतवार अभ्यावेदन के आंतरिक उत्पादों के माध्यम से कैप्चर किए गए आरंभीकरण में एक एनएन में ज्यामितीय जानकारी के विकास का अध्ययन करता है, और डीप एनएन (ज़ियाओ एट अल., 2018; ब्रॉक एट अल., 2021; मार्टेंस एट अल., 2021; जैदी एट अल., 2023) के प्रशिक्षण में कई प्रभावशाली परिणामों को प्रेरित करता है। हालाँकि, वर्तमान सिद्धांत केवल आरंभीकरण में एक मॉडल पर विचार करता है, और अक्सर केवल प्रारंभिक फ़ॉरवर्ड पास पर विचार करता है। इस प्रकार, वर्तमान में सिग्नल प्रसार डीप एनएन प्रशिक्षण गतिशीलता की कई जटिलताओं पर प्रकाश डालने में असमर्थ है, उदाहरण के लिए प्रशिक्षण गति के लिए स्किप कनेक्शन के लाभ। यद्यपि संकेत प्रसार हमारे संशोधनों को प्रेरित करने में महत्वपूर्ण है, फिर भी हम केवल सिद्धांत से अपने सरलीकृत ट्रांसफार्मर ब्लॉकों तक नहीं पहुंचे होंगे, बल्कि अनुभवजन्य अंतर्दृष्टि पर भी निर्भर थे।



अंत में, व्यावहारिक पक्ष पर, आजकल बड़े ट्रांसफॉर्मर मॉडल को प्रशिक्षित करने और तैनात करने की अत्यधिक लागत को देखते हुए, ट्रांसफॉर्मर आर्किटेक्चर के लिए प्रशिक्षण और अनुमान पाइपलाइनों में कोई भी दक्षता लाभ महत्वपूर्ण संभावित बचत का प्रतिनिधित्व करता है। गैर-आवश्यक घटकों को हटाकर ट्रांसफॉर्मर ब्लॉक को सरल बनाने से हमारे मॉडल में पैरामीटर की संख्या कम हो जाती है और थ्रूपुट बढ़ जाता है। विशेष रूप से, हम दिखाते हैं कि प्रशिक्षण गति और डाउनस्ट्रीम कार्य प्रदर्शन के मामले में मानक ट्रांसफॉर्मर से मेल खाते हुए स्किप कनेक्शन, मूल्य पैरामीटर, प्रक्षेपण पैरामीटर और अनुक्रमिक उप-ब्लॉक को हटाना संभव है। परिणामस्वरूप, हम पैरामीटर की संख्या को 16% तक कम करते हैं और प्रशिक्षण और अनुमान दोनों समय में 16% की थ्रूपुट वृद्धि देखते हैं।


ट्रांसफॉर्मर ब्लॉक को सरल बनाने के लिए हमारा शुरुआती बिंदु हे एट अल. (2023) है, जो दिखाते हैं कि सिग्नल प्रसार सिद्धांतों का सम्मान करने से कोई व्यक्ति बिना स्किप कनेक्शन या सामान्यीकरण परतों के डीप ट्रांसफॉर्मर को प्रशिक्षित कर सकता है, लेकिन प्रति पैरामीटर अपडेट पर काफी कम अभिसरण गति पर। हम सबसे पहले दिखाते हैं कि मूल्यों और प्रक्षेपण मापदंडों के अपडेट को विनियमित करना (अनुभाग 4.1), या वास्तव में उन्हें पूरी तरह से हटाना (अनुभाग 4.2), स्किपलेस अटेंशन सब-ब्लॉक के प्रदर्शन को बेहतर बनाता है, और हे एट अल. (2023) द्वारा रिपोर्ट की गई प्रति-अपडेट प्रशिक्षण गति को खो देता है। यह अटेंशन सब-ब्लॉक में आधे मापदंडों और मैट्रिक्स-गुणा को हटा देता है। 5 में, हम दिखाते हैं कि हमारे सरलीकृत ब्लॉक बड़ी गहराई तक स्केल किए जाने पर बेहतर होते हैं, एनकोडर-ओनली और डिकोडर-ओनली आर्किटेक्चर दोनों में अच्छी तरह से काम करते हैं, और हमारे निष्कर्ष प्रशिक्षण लंबाई को स्केल करते समय भी सही साबित होते हैं। हम भाग 6 में सीमाओं और भविष्य के काम की चर्चा के साथ निष्कर्ष निकालते हैं।


यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।