paint-brush
सबसे कम संभव इष्टतम समय जटिलता वाला ट्रांसफार्मर एल्गोरिदमद्वारा@thomascherickal
1,104 रीडिंग
1,104 रीडिंग

सबसे कम संभव इष्टतम समय जटिलता वाला ट्रांसफार्मर एल्गोरिदम

द्वारा Thomas Cherickal17m2024/05/26
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

ट्रांसफॉर्मर जैसे DPO, LoRa, आदि में कुछ अविश्वसनीय प्रगति हुई है। लेकिन बुनियादी ट्रांसफॉर्मर एल्गोरिदम में भी सुधार किया गया है! हम ट्रांसफॉर्मर को बिल्कुल नए स्तर पर प्रदर्शन करते हुए देखेंगे। इन खोजों की महत्ता को कम करके नहीं आंका जा सकता! यह क्रांतिकारी है।
featured image - सबसे कम संभव इष्टतम समय जटिलता वाला ट्रांसफार्मर एल्गोरिदम
Thomas Cherickal HackerNoon profile picture
0-item
1-item


अटेंशन, माम्बा, जाम्बा और xLSTM की तुलना

प्रस्ताव

हम इस लेख में केवल समय जटिलता के बारे में बात कर रहे हैं - जानबूझकर।


स्पेस जटिलता के लिए, 1-बिट ट्रांसफॉर्मर्स पर मेरा लेख देखें, जो यहां उपलब्ध है:

परिचय

जहाँ तक जनरेटिव AI तकनीक का सवाल है, हम भविष्य की ओर तेजी से आगे बढ़ रहे हैं और लार्ज लैंग्वेज मॉडल के पीछे के एल्गोरिदम कोई अपवाद नहीं हैं। इस लेख में, हम हाल ही में जनरेटिव AI के क्षेत्र में तीन सबसे रोमांचक विकासों को कवर करने जा रहे हैं, और उनके बारे में विस्तार से बात करेंगे। उनमें से एक ने एक बड़ी भाषा मॉडल एल्गोरिदम को चलाने के लिए इष्टतम समय जटिलता भी हासिल की है। दूसरे शब्दों में, एक हालिया विकास सबसे इष्टतम रूप से सबसे तेज़ LLM ट्रांसफ़ॉर्मर एल्गोरिदम बन गया है - जहाँ तक असिम्टोटिक समय जटिलता का सवाल है, हमारे वर्तमान मॉडल के अनुसार, निरंतर समय अनुकूलन को छोड़कर, इससे तेज़ जाना संभव नहीं है। चूँकि हम सैकड़ों अरबों मापदंडों से निपट रहे हैं, इसलिए स्थिरांक की गति बहुत बड़ी हो सकती है! मुझे उम्मीद है कि आप भी मेरी तरह उत्साहित होंगे क्योंकि यह एक रोमांचक सवारी होगी!


वर्तमान एल्गोरिथ्म - ध्यान-आधारित ट्रांसफार्मर

हर कोई 2017 के महत्वपूर्ण पेपर "ध्यान ही सब कुछ है जिसकी आपको आवश्यकता है" से परिचित है, लेकिन फिर भी मैं इसे संक्षेप में प्रस्तुत करने जा रहा हूं ताकि नए लोगों को स्पष्ट रूप से समझ में आ जाए कि हम किस बारे में बात कर रहे हैं।


शोध पत्र का लिंक यह है:

आपको बस ध्यान की जरूरत है

पेपर परिचय से:

आवर्तक तंत्रिका नेटवर्क, विशेषकर दीर्घ-अल्पकालिक स्मृति और गेटेड आवर्तक तंत्रिका नेटवर्क, अनुक्रम मॉडलिंग और भाषा मॉडलिंग तथा मशीन अनुवाद जैसी ट्रांसडक्शन समस्याओं में अत्याधुनिक दृष्टिकोण के रूप में दृढ़ता से स्थापित हो चुके हैं।


तब से पुनरावर्ती भाषा मॉडल और एनकोडर-डिकोडर आर्किटेक्चर की सीमाओं को आगे बढ़ाने के लिए कई प्रयास जारी हैं।


पुनरावर्ती मॉडल आमतौर पर इनपुट और आउटपुट अनुक्रमों के प्रतीक पदों के साथ गणना को कारक बनाते हैं।


गणना समय में चरणों के लिए स्थितियों को संरेखित करते हुए, वे पिछली छिपी हुई स्थिति ℎ𝑡−1 और स्थिति 𝑡 के इनपुट के एक फ़ंक्शन के रूप में छिपी हुई स्थिति ℎ𝑡 का एक अनुक्रम उत्पन्न करते हैं।


यह स्वाभाविक अनुक्रमिक प्रकृति प्रशिक्षण उदाहरणों के भीतर समानांतरीकरण को रोकती है, जो लंबी अनुक्रम लंबाई पर महत्वपूर्ण हो जाती है, क्योंकि मेमोरी बाधाएं उदाहरणों में बैचिंग को सीमित करती हैं।


हाल के कार्यों में फैक्टराइजेशन ट्रिक्स और सशर्त संगणना के माध्यम से कम्प्यूटेशनल दक्षता में महत्वपूर्ण सुधार हासिल किया गया है, साथ ही बाद के मामले में मॉडल प्रदर्शन में भी सुधार हुआ है।


हालाँकि, अनुक्रमिक गणना की मूलभूत बाधा अभी भी बनी हुई है।


ध्यान तंत्र विभिन्न कार्यों में सम्मोहक अनुक्रम मॉडलिंग और पारगमन मॉडल का एक अभिन्न अंग बन गया है, जो इनपुट या आउटपुट अनुक्रमों में उनकी दूरी की परवाह किए बिना निर्भरताओं के मॉडलिंग की अनुमति देता है।


हालाँकि, कुछ मामलों को छोड़कर, ऐसे ध्यान तंत्रों का उपयोग पुनरावर्ती नेटवर्क के साथ संयोजन में किया जाता है।


इस कार्य में हम ट्रांसफॉर्मर का प्रस्ताव करते हैं, जो एक मॉडल आर्किटेक्चर है जो पुनरावृत्ति से बचता है तथा इसके बजाय इनपुट और आउटपुट के बीच वैश्विक निर्भरता बनाने के लिए पूरी तरह से ध्यान तंत्र पर निर्भर करता है।


ट्रांसफॉर्मर काफी अधिक समानांतरीकरण की अनुमति देता है और आठ P100 GPU पर केवल बारह घंटे तक प्रशिक्षित होने के बाद अनुवाद गुणवत्ता में एक नए स्तर तक पहुंच सकता है।


और जैसा कि हम जानते हैं, GPT-1, GPT-2, GPT-3 और GPT 3.5 ट्रांसफॉर्मर्स ने जल्द ही जनरेटिव AI में हमेशा के लिए क्रांति ला दी।


अचानक मशीनें मानव जैसी अंग्रेजी बोलने लगीं।


यह वह क्लासिक आरेख था जो अगले दो वर्षों तक लेखों और शोध समाचार बुलेटिनों में छाया रहा:

मौलिक ट्रांसफार्मर वास्तुकला.


फिर GPT-4 सामने आया - और फिर जीवन कभी भी पहले जैसा नहीं रहा।


हम एक महत्वपूर्ण बिन्दु को पार कर चुके थे।


लेकिन, ये ट्रांसफार्मर महंगे थे, प्रशिक्षण में धीमे थे, तथा इनकी परिचालन लागत बहुत अधिक होने के कारण इन्हें स्थापित करना कठिन था।


ट्रांसफॉर्मर एल्गोरिथ्म की समय जटिलता द्विघात थी, या O(n*n) जहां n इनपुट पैरामीटरों की संख्या थी


𝐿 परतों वाले एक मानक ट्रांसफार्मर मॉडल के लिए, अनुमान एल्गोरिथ्म की समय जटिलता 𝑂( L*n*n*d ) है जहाँ L परतों की संख्या थी, n इनपुट टोकन की संख्या थी, और d ट्रांसफार्मर की गहराई थी।


कुछ समय के लिए तो यह अत्याधुनिक तकनीक प्रतीत हुई।


क्वांटाइजेशन को 2021 की शुरुआत में ही एक अन्य पेपर में पेश किया गया था, और ऐसा लग रहा था कि यह अगला अत्याधुनिक तंत्र होगा ( प्रस्तावना अनुभाग देखें)।


लेकिन जल्द ही हमारे सामने एक और दावेदार आ गया।


माम्बा एल्गोरिदम में आपका स्वागत है

प्रासंगिक शोध पत्र यह था:



माम्बा: चयनात्मक राज्य स्थानों के साथ रैखिक-समय अनुक्रम मॉडलिंग


शोध पत्र के सारांश से:


फाउंडेशन मॉडल, जो अब गहन शिक्षण में अधिकांश रोमांचक अनुप्रयोगों को शक्ति प्रदान कर रहे हैं, लगभग सार्वभौमिक रूप से ट्रांसफॉर्मर आर्किटेक्चर और इसके कोर अटेंशन मॉड्यूल पर आधारित हैं।


कई उप-चतुर्भुज-समय आर्किटेक्चर जैसे कि रैखिक ध्यान, गेटेड कन्वोल्यूशन और आवर्तक मॉडल, और संरचित राज्य अंतरिक्ष मॉडल (एसएसएम) को लंबे अनुक्रमों पर ट्रांसफॉर्मर्स की कम्प्यूटेशनल अकुशलता को संबोधित करने के लिए विकसित किया गया है, लेकिन उन्होंने भाषा जैसे महत्वपूर्ण तौर-तरीकों पर ध्यान देने के रूप में अच्छा प्रदर्शन नहीं किया है।


हमने पाया कि ऐसे मॉडलों की मुख्य कमजोरी यह है कि वे विषय-वस्तु आधारित तर्क करने में असमर्थ हैं, और हमने इनमें कई सुधार किए हैं।


सबसे पहले, एसएसएम पैरामीटर्स को इनपुट के फंक्शन के रूप में छोड़ देने से, असतत तौर-तरीकों के साथ उनकी कमजोरी दूर हो जाती है, जिससे मॉडल को वर्तमान टोकन के आधार पर अनुक्रम लंबाई आयाम के साथ सूचना को चुनिंदा रूप से प्रसारित या भूलने की अनुमति मिल जाती है।


दूसरा, भले ही यह परिवर्तन कुशल कन्वोल्यूशन के उपयोग को रोकता है, फिर भी हम पुनरावर्ती मोड में एक हार्डवेयर-जागरूक समानांतर एल्गोरिदम डिज़ाइन करते हैं।


हम इन चयनात्मक एसएसएम को बिना किसी ध्यान या एमएलपी ब्लॉक (माम्बा) के सरलीकृत अंत-से-अंत तंत्रिका नेटवर्क वास्तुकला में एकीकृत करते हैं।


मांबा में तीव्र अनुमान (ट्रांसफॉर्मर्स की तुलना में 5 गुना अधिक थ्रूपुट) और अनुक्रम लंबाई में रैखिक स्केलिंग की सुविधा है, तथा दस लाख लंबाई वाले अनुक्रम तक वास्तविक डेटा पर इसका प्रदर्शन बेहतर होता है।


सामान्य अनुक्रम मॉडल की रीढ़ के रूप में, माम्बा भाषा, ऑडियो और जीनोमिक्स जैसे कई तौर-तरीकों में अत्याधुनिक प्रदर्शन प्राप्त करता है।


भाषा मॉडलिंग पर, हमारा माम्बा-3बी मॉडल समान आकार के ट्रांसफॉर्मर्स से बेहतर प्रदर्शन करता है और प्रीट्रेनिंग और डाउनस्ट्रीम मूल्यांकन दोनों में अपने आकार से दोगुने आकार के ट्रांसफॉर्मर्स से मेल खाता है।

Suअचानक



अचानक हमारे शहर में एक नया प्रतियोगी आ गया!


माम्बा-ट्रांसफार्मर एल्गोरिथम के मुख्य लाभ थे:



  1. हाइब्रिड वास्तुकला :

    माम्बा ने ट्रांसफॉर्मर और माम्बा परतों को संयोजित किया, जिससे प्रबंधनीय मेमोरी फ़ुटप्रिंट को बनाए रखते हुए बेहतर प्रदर्शन और उच्च थ्रूपुट की अनुमति मिली।


  2. चुनौतियाँ :

    • मेमोरी और कम्प्यूट दक्षता : माम्बा ने ट्रांसफॉर्मर्स की उच्च मेमोरी और कम्प्यूट आवश्यकताओं को संबोधित किया, विशेष रूप से लंबे संदर्भों के लिए।

    • सारांश स्थिति : ट्रांसफॉर्मर्स के विपरीत, माम्बा एकल सारांश स्थिति प्रदान करता है, जिससे तीव्र अनुमान लगाना संभव होता है।


  3. वास्तुकला विवरण :

    • ट्रांसफार्मर परतें : माम्बा ने ट्रांसफार्मर परतों को शामिल किया।
    • माम्बा परतें : माम्बा स्टेट-स्पेस मॉडलिंग (एसएसएम) परतों को प्रस्तुत करता है, जो लम्बे संदर्भों को कुशलतापूर्वक संभालता है।
    • विशेषज्ञों का मिश्रण (MoE) : माम्बा गणना आवश्यकताओं में उल्लेखनीय वृद्धि किए बिना मॉडल क्षमता बढ़ाने के लिए MoE परतों का उपयोग करता है।


  4. प्रदर्शन :

    माम्बा ने मिक्सट्रल-8x7B और लामा-2 70B जैसे मौजूदा मॉडलों के समान प्रदर्शन किया, जबकि 256K टोकन तक की संदर्भ लंबाई का समर्थन किया।


  5. दक्षता : लंबे संदर्भों के लिए माम्बा का थ्रूपुट मिक्सट्रल-8x7B से 3 गुना अधिक था, और यह बड़े संदर्भों के साथ भी एकल GPU में फिट हो गया।


माम्बा आर्किटेक्चर बड़े भाषा मॉडल में एक महत्वपूर्ण प्रगति का प्रतिनिधित्व करता है, जो ट्रांसफॉर्मर और एसएसएम दोनों दृष्टिकोणों की शक्तियों को जोड़ता है।


हालाँकि, जैसे-जैसे परीक्षण जारी रहा, यह पाया गया कि माम्बा एल्गोरिदम सभी उपयोग-मामलों के लिए उपयुक्त नहीं था।


विशेष रूप से, जब माम्बा एल्गोरिथ्म को आईएमडीबी डेटासेट के साथ प्रस्तुत किया गया तो यह बुरी तरह विफल रहा।


हालाँकि वास्तुकला अभी भी अत्याधुनिक थी, और यह दृष्टि उपयोग मामलों के लिए बेहद उपयोगी पाई गई।


आप यहां पायथन में कार्यान्वयन देख सकते हैं:


और यह माम्बा एल्गोरिथम का एक उत्कृष्ट विवरण है, जिसमें सिद्धांत भी प्रदान किया गया है।

और यहां PyPI में मानक Mamba कार्यान्वयन है:


माम्बा एल्गोरिथम का समय आ गया है और यह अभी भी शोध का एक अत्यधिक सक्रिय क्षेत्र है। जल्द ही इसका उत्तराधिकारी सामने आया, लेकिन हम सबसे अच्छा आखिर में रखेंगे।


हम अगले प्रतियोगी की ओर बढ़ेंगे - xLSTM एल्गोरिथ्म


xLSTM एल्गोरिथ्म

आप यहां शोध पत्र देख सकते हैं:

xLSTM: विस्तारित दीर्घ अल्पकालिक स्मृति - arXiv .


शोध पत्र के सारांश से:

1990 के दशक में, निरंतर त्रुटि कैरोसेल और गेटिंग को दीर्घ-अल्पकालिक स्मृति (LSTM) के केंद्रीय विचारों के रूप में पेश किया गया था।


तब से, एलएसटीएम समय की कसौटी पर खरा उतरा है और कई गहन शिक्षण सफलता की कहानियों में योगदान दिया है, विशेष रूप से उन्होंने पहले बड़े भाषा मॉडल (एलएलएम) का गठन किया।


हालाँकि, ट्रांसफॉर्मर प्रौद्योगिकी के आगमन ने, जिसके मूल में समानांतर स्व-ध्यान है, एक नए युग की शुरुआत को चिह्नित किया, जिसने पैमाने पर LSTM को पीछे छोड़ दिया।


अब हम एक सरल प्रश्न उठाते हैं: LSTM को अरबों पैरामीटरों तक विस्तारित करते हुए, आधुनिक LLM की नवीनतम तकनीकों का लाभ उठाते हुए, लेकिन LSTM की ज्ञात सीमाओं को कम करते हुए, हम भाषा मॉडलिंग में कितनी दूर तक पहुंच पाते हैं?


सबसे पहले, हम उचित सामान्यीकरण और स्थिरीकरण तकनीकों के साथ घातांकीय गेटिंग का परिचय देते हैं।


दूसरे, हम LSTM मेमोरी संरचना को संशोधित करते हैं, और प्राप्त करते हैं:


(i) स्केलर मेमोरी, स्केलर अपडेट और नई मेमोरी मिक्सिंग के साथ sLSTM,


(ii) mLSTM जो मैट्रिक्स मेमोरी और सहप्रसरण अद्यतन नियम के साथ पूरी तरह से समानांतर है।


इन LSTM एक्सटेंशन को अवशिष्ट ब्लॉक बैकबोन में एकीकृत करने से xLSTM ब्लॉक प्राप्त होते हैं, जिन्हें फिर xLSTM आर्किटेक्चर में अवशिष्ट रूप से स्टैक किया जाता है।


एक्सपोनेंशियल गेटिंग और संशोधित मेमोरी संरचनाएं, प्रदर्शन और स्केलिंग दोनों में, अत्याधुनिक ट्रांसफॉर्मर्स और स्टेट स्पेस मॉडल्स की तुलना में xLSTM क्षमताओं को बेहतर प्रदर्शन करने में मदद करती हैं।


xLSTM LSTM मॉडल के लिए एक नया सूर्योदय था


दीर्घ-अल्पकालिक स्मृति (एलएसटीएम) एल्गोरिथ्म अपने समय में अत्यधिक उपयोगी था और इसमें काफी सफलता भी मिली थी।


xLSTM में उसी मॉडल का उपयोग किया गया, लेकिन पूरी तरह से अलग आर्किटेक्चर में।


यह मुख्य नवाचार था, जिसे शोध पत्र में इस चित्र में संक्षेपित किया गया है:


xLSTM के मुख्य लाभ थे:


ट्रांसफॉर्मर एल्गोरिथम की तुलना में xLSTM के लाभ:

  1. लंबे अनुक्रमों को संभालना :

    • xLSTM को विशेष रूप से अपने गेटिंग तंत्र के साथ लंबे अनुक्रमों को संभालने के लिए डिज़ाइन किया गया था जो सूचना के प्रवाह को नियंत्रित करता था। इसने पारंपरिक LSTM की तुलना में अनुक्रमिक डेटा में दीर्घकालिक निर्भरताओं को पकड़ने में इसे अधिक प्रभावी बना दिया।




  2. कम्प्यूटेशनल दक्षता :

    • xLSTM कुछ कार्यों के लिए कम्प्यूटेशनली अधिक कुशल हो सकता है, विशेष रूप से छोटे डेटासेट के साथ काम करते समय या जब अनुक्रम की लंबाई अत्यधिक बड़ी न हो।

    • दूसरी ओर, ट्रांसफॉर्मर्स को अपने स्व-ध्यान तंत्र के कारण महत्वपूर्ण कम्प्यूटेशनल संसाधनों की आवश्यकता होती है, जो अनुक्रम की लंबाई के साथ द्विघात रूप से बढ़ता है।




  3. स्मृति प्रयोग :

    • xLSTM को सामान्यतः ट्रांसफॉर्मर्स की तुलना में कम मेमोरी की आवश्यकता होती है।

    • ट्रांसफॉर्मर्स में स्व-ध्यान तंत्र के लिए बड़े ध्यान मैट्रिसेस को संग्रहीत करने की आवश्यकता होती है, जो विशेष रूप से लंबे अनुक्रमों के लिए स्मृति-गहन हो सकता है।


  4. प्रशिक्षण स्थिरता :

    • xLSTM अपनी पुनरावर्ती प्रकृति और गेटिंग तंत्र के कारण प्रशिक्षण के दौरान अधिक स्थिर हो सकता है, जो लुप्त ग्रेडिएंट समस्या को कम करने में मदद करता है।

    • ट्रांसफॉर्मर्स, शक्तिशाली होते हुए भी, कभी-कभी प्रशिक्षित करने के लिए अधिक चुनौतीपूर्ण हो सकते हैं और इसके लिए हाइपरपैरामीटर्स और रेग्यूलराइजेशन तकनीकों की सावधानीपूर्वक ट्यूनिंग की आवश्यकता हो सकती है।


  5. सरलता और व्याख्याशीलता :

    • ट्रांसफॉर्मर्स की तुलना में xLSTM मॉडल को समझना और व्याख्या करना अधिक सरल हो सकता है।

    • एलएसटीएम की पुनरावर्ती प्रकृति ने नेटवर्क के माध्यम से सूचना के प्रवाह का पता लगाना आसान बना दिया, जबकि ट्रांसफॉर्मर्स में ध्यान तंत्र अधिक अमूर्त और व्याख्या करने में कठिन हो सकता है।


  6. छोटे डेटासेट पर प्रदर्शन :

    • xLSTM छोटे डेटासेट पर या जब लेबल वाला डेटा सीमित हो, तब बेहतर प्रदर्शन कर सकता है।

    • ट्रांसफॉर्मर्स को अपनी पूरी क्षमता प्राप्त करने के लिए आम तौर पर बड़ी मात्रा में डेटा की आवश्यकता होती है, जिससे सीमित डेटा उपलब्धता वाले परिदृश्यों में xLSTM एक बेहतर विकल्प बन जाता है

      .

  7. अनुक्रमिक डेटा :

    • कुछ प्रकार के अनुक्रमिक डेटा के लिए, जैसे समय श्रृंखला या कुछ प्रकार के प्राकृतिक भाषा प्रसंस्करण कार्यों के लिए, xLSTM अनुक्रमों को संभालने के लिए अपने अंतर्निहित डिजाइन के कारण बेहतर प्रदर्शन प्रदान कर सकता है।


हालांकि, यह ध्यान रखना महत्वपूर्ण था कि ट्रांसफॉर्मर्स के अपने फायदे थे, जैसे बेहतर समानांतरकरण क्षमताएं, बड़े डेटासेट पर बेहतर प्रदर्शन और कई एनएलपी कार्यों में अत्याधुनिक परिणाम।


xLSTM और ट्रांसफॉर्मर के बीच चयन, कार्य की विशिष्ट आवश्यकताओं और बाधाओं पर आधारित होना चाहिए।


आप PyTorch में xLSTM का कार्यान्वयन यहां देख सकते हैं:


आप xLSTM का विस्तृत विवरण यहां देख सकते हैं:

इसकी वर्तमान स्थिति का सारांश इस प्रकार है:





लेकिन माम्बा का एक उत्तराधिकारी था जिसने पवित्र ग्रिल को मारा - एलएलएम एल्गोरिदम के लिए इष्टतम समय जटिलता


जाम्बा - माम्बा का उत्तराधिकारी जिसने इसे आसानी से हरा दिया!


शोध पत्र यहां पाया जा सकता है:

जाम्बा: एक हाइब्रिड ट्रांसफॉर्मर-माम्बा भाषा मॉडल


शोध पत्र के सार से:


हम जाम्बा प्रस्तुत करते हैं, जो एक नवीन हाइब्रिड ट्रांसफॉर्मर-माम्बा मिक्सचर-ऑफ-एक्सपर्ट्स (एमओई) आर्किटेक्चर पर आधारित एक नया बेस लार्ज लैंग्वेज मॉडल है।


विशेष रूप से, जाम्बा ट्रांसफॉर्मर और माम्बा परतों के ब्लॉकों को आपस में जोड़ता है, जिससे दोनों मॉडल परिवारों के लाभ प्राप्त होते हैं।


सक्रिय पैरामीटर उपयोग को प्रबंधनीय बनाए रखते हुए मॉडल क्षमता को बढ़ाने के लिए इनमें से कुछ परतों में MoE जोड़ा गया है।


यह लचीली वास्तुकला संसाधन- और उद्देश्य-विशिष्ट विन्यास की अनुमति देती है।


हमने जो विशेष कॉन्फ़िगरेशन क्रियान्वित किया है, उसके परिणामस्वरूप हमें एक शक्तिशाली मॉडल प्राप्त हुआ है जो एक 80GB GPU में फिट हो जाता है।


बड़े पैमाने पर निर्मित, जाम्बा वेनिला ट्रांसफॉर्मर्स की तुलना में उच्च थ्रूपुट और छोटी मेमोरी फुटप्रिंट प्रदान करता है, और साथ ही मानक भाषा मॉडल बेंचमार्क और दीर्घकालिक संदर्भ मूल्यांकन पर अत्याधुनिक प्रदर्शन भी प्रदान करता है।


उल्लेखनीय रूप से, मॉडल 256K टोकन संदर्भ लंबाई तक के लिए मजबूत परिणाम प्रस्तुत करता है।


हम विभिन्न वास्तुशिल्प निर्णयों का अध्ययन करते हैं, जैसे कि ट्रांसफॉर्मर और माम्बा परतों को कैसे संयोजित किया जाए, और विशेषज्ञों को कैसे मिलाया जाए, और यह दर्शाते हैं कि उनमें से कुछ बड़े पैमाने पर मॉडलिंग में महत्वपूर्ण हैं।


हम इन आर्किटेक्चर के कई दिलचस्प गुणों का भी वर्णन करते हैं, जो जाम्बा के प्रशिक्षण और मूल्यांकन से पता चले हैं, और इस नवीन आर्किटेक्चर के आगे के अन्वेषण को प्रोत्साहित करने के लिए विभिन्न एब्लेशन रन से चेकपॉइंट जारी करने की योजना बना रहे हैं।


हम जाम्बा के अपने कार्यान्वयन के भार को अनुमेय लाइसेंस के तहत सार्वजनिक रूप से उपलब्ध कराते हैं।



कार्यान्वयन हगिंगफेस रिपोजिटरी पर यहां उपलब्ध है:


मॉडल: https://huggingface.co/ai21labs/Jamba-v0.1



  1. अन्य मॉडलों से तुलना :


संक्षेप में, जाम्बा की हाइब्रिड वास्तुकला ट्रांसफॉर्मर्स और माम्बा परतों की शक्तियों को जोड़ती है, जिसके परिणामस्वरूप प्रभावशाली प्रदर्शन और मापनीयता होती है।


याद रखने योग्य मुख्य आरेख ऊपर दिए गए शोध पत्र में प्रस्तुत किया गया है:



माम्बा और ट्रांसफॉर्मर मॉडल के अंतर्संबंध से समय जटिलता में अविश्वसनीय वृद्धि होती है, जिसे नीचे दिए गए लेख में खूबसूरती से संक्षेपित किया गया है:


माम्बा और जाम्बा - सरलता से समझाया गया

  • लेखक : निमृता कौल

  • दिनांक : 1 अप्रैल, 2024


  • सारांश :

    • जाम्बा AI21 द्वारा प्रस्तुत पहला उत्पादन-ग्रेड माम्बा-आधारित वृहद भाषा मॉडल है।


    • इसमें ट्रांसफॉर्मर और माम्बा दोनों आर्किटेक्चर की ताकतें सम्मिलित हैं।


      • ट्रांसफार्मर-आधारित मॉडल O(n²) की प्रशिक्षण समय जटिलता के कारण लंबे अनुक्रमों के साथ संघर्ष करते हैं।


      • माम्बा आर्किटेक्चर रैखिक प्रशिक्षण समय जटिलता ( O(n) ) और स्थिर अनुमान समय ( O(1) ) प्रदान करता है।


      • माम्बा स्टेट स्पेस मॉडल (एसएसएम) आर्किटेक्चर पर आधारित है।


      • एसएसएम, विभेदक या अंतर समीकरणों का उपयोग करके किसी प्रणाली का वर्णन करने के लिए अवस्था चरों का उपयोग करते हैं।


      • माम्बा के हाइब्रिड दृष्टिकोण का लक्ष्य मौजूदा मॉडलों की सीमाओं को संबोधित करना है।



आप यहां पर पूरा लेख पढ़ सकते हैं:

माम्बा और जाम्बा - सरलता से समझाया गया , निम्रिता कौल द्वारा, मीडियम.कॉम पर।


इष्टतम सीमा तक पहुँच गया है!

यहां ध्यान देने योग्य मुख्य बात यह है कि प्रशिक्षण के लिए, एल्गोरिथ्म को प्रत्येक इनपुट टोकन को कम से कम एक बार देखना होगा, जिससे समय जटिलता O(n) होगी।


इसके अलावा, किसी भी एलएलएम मॉडल के लिए अनुमान लगाने की सबसे तेज़ गति O(1) है - स्थिर समय, टोकन की लंबाई से स्वतंत्र (एक अविश्वसनीय उपलब्धि)!


जाम्बा एल्गोरिथम के मामले में ये दोनों सीमाएं पार हो चुकी हैं!


इसलिए निरंतर-समय सुधारों के अंतर्गत - जो अभी भी बहुत अधिक हो सकते हैं (ये संख्याएं सैकड़ों अरबों में हैं):


जाम्बा ने ट्रांसफॉर्मर एल्गोरिथ्म के लिए समय जटिलता की इष्टतम सीमा तक पहुंच बना ली है!


दी गई प्रणाली स्थितियों के अंतर्गत, जब तक कि नई तकनीक (क्वांटम कंप्यूटिंग, कोई भी) पेश नहीं की जाती है, तब तक हमारे पास तीव्र असिमोटोटिक समय जटिलता नहीं हो सकती है!


जो कि एक बहुत ही महत्वपूर्ण परिणाम है!


जाम्बा आज तक का सबसे आशाजनक ट्रांसफार्मर एल्गोरिथम है!


A121 लैब्स द्वारा आधिकारिक घोषणा:

मीडियम पर जाम्बा पर एक और अच्छा लेख:

इस समय उपलब्ध जाम्बा के सर्वोत्तम कार्यान्वयनों में से एक:


एक बार फिर, हगिंगफेस हब का जाम्बा मॉडल:

निष्कर्ष

इस प्रकार जाम्बा उस अंतिम समय जटिलता तक पहुँच जाता है जिसे मौजूदा सिस्टम के तहत करंट ट्रांसफॉर्मर एल्गोरिदम द्वारा एक स्थिर स्तर भिन्नता तक प्राप्त किया जा सकता है। दोहराएँ; स्थिरांक बहुत बड़े हो सकते हैं, क्योंकि ये सैकड़ों अरबों पदों के क्रम में हैं! हालाँकि, यह अभी भी एक महत्वपूर्ण उपलब्धि है। और इस पर शोध की कोई सीमा नहीं है जहाँ तक यह जा सकता है, खासकर जब इसे DPO (डायरेक्ट प्रेफरेंस ऑप्टिमाइज़ेशन) और क्वांटिज़ेशन के साथ जोड़ा जाता है - अधिक जानकारी के लिए उपसंहार देखें।

फिलहाल, वस्तुतः कोई सीमा नहीं है!


उपसंहार:


इसका एक पक्ष ऐसा भी है जिस पर कोई भी खुलकर काम नहीं कर रहा है।


क्या माम्बा, xLSTM और जाम्बा मॉडल को 1-बिट परिशुद्धता तक परिमाणित किया जा सकता है?


बिल्कुल!


मैं एक-बिट में परिमाणित होने के बाद माम्बा और जाम्बा के प्रदर्शन में सुधार देखने के लिए उत्सुक हूँ! या 1.58 बिट {-1, 0, 1}।


एक बार फिर, अधिक जानकारी के लिए यह आलेख देखें:


https://hackernoon.com/why-1-bit-transformers-will-change-the-world


इस तकनीक का भविष्य अविश्वसनीय रूप से रोमांचक होने वाला है!


इस क्षेत्र में काम करने का आनंद और रोमांच सदैव आपके साथ बना रहे!


प्रोत्साहित करना!


आगे रोमांचक समय आने वाला है!


संदर्भ:

उपरोक्त लेख में स्पष्ट रूप से उल्लिखित के अलावा:

  1. ट्रांसफॉर्मर-एक्सएल: निश्चित-लंबाई संदर्भ से परे चौकस भाषा मॉडल
  2. लॉन्गफॉर्मर: लॉन्ग-डॉक्यूमेंट ट्रांसफॉर्मर
  3. रिफॉर्मर: कुशल ट्रांसफार्मर
  4. लिनफॉर्मर: रैखिक जटिलता के साथ आत्म-ध्यान
  5. स्टेट स्पेस मॉडल: समय श्रृंखला डेटा मॉडलिंग के लिए एक सामान्य ढांचा
  6. एस4: संरचित राज्य स्थानों के साथ अनुक्रम मॉडलिंग
  7. बड़े भाषा मॉडल की कम्प्यूटेशनल दक्षता पर
    • अनाम लेखक। (वर्ष निर्दिष्ट नहीं)। [बड़े भाषा मॉडल की कम्प्यूटेशनल दक्षता पर](URL प्रदान नहीं किया गया)।
  8. कुशल ट्रांसफार्मर: एक सर्वेक्षण
  9. कुशल पूर्णांक-अंकगणित-केवल अनुमान के लिए तंत्रिका नेटवर्क का परिमाणीकरण और प्रशिक्षण
  10. क्यू-बर्ट: बर्ट का हेसियन आधारित अल्ट्रा लो प्रिसिजन क्वांटाइजेशन
  11. BERT: भाषा समझ के लिए डीप बाइडायरेक्शनल ट्रांसफॉर्मर्स का पूर्व-प्रशिक्षण
  12. GPT-3: भाषा मॉडल बहुत कम सीखने वाले होते हैं
  13. रोबर्टा: एक मज़बूती से अनुकूलित BERT प्रीट्रेनिंग दृष्टिकोण
  14. अल्बर्ट: भाषा अभ्यावेदन के स्व-पर्यवेक्षित शिक्षण के लिए एक लाइट बर्ट
  15. T5: एकीकृत टेक्स्ट-टू-टेक्स्ट ट्रांसफॉर्मर के साथ ट्रांसफर लर्निंग की सीमाओं की खोज
  16. डिस्टिलबर्ट, बर्ट का आसुत संस्करण: छोटा, तेज, सस्ता और हल्का




और अंतरिक्ष जटिलता को मत भूलना! यह भी लगभग उतनी ही महत्वपूर्ण है!


प्रस्तावना और उपसंहार के लिए

क्वांटीकरण के लिए यह पेपर निश्चित रूप से पढ़ने लायक है:

  1. शोध पत्र - बिटनेट: बड़े भाषा मॉडल के लिए 1-बिट ट्रांसफॉर्मर स्केलिंग :

    • सार : बड़े भाषा मॉडल के बढ़ते आकार ने तैनाती के लिए चुनौतियां पेश की हैं और उच्च ऊर्जा खपत के कारण पर्यावरणीय प्रभाव के बारे में चिंताएं जताई हैं। इस काम में, हम BitNet को पेश करते हैं, जो बड़े भाषा मॉडल के लिए डिज़ाइन किया गया एक स्केलेबल और स्थिर 1-बिट ट्रांसफॉर्मर आर्किटेक्चर है। विशेष रूप से, हम nn.Linear परत के लिए एक ड्रॉप-इन प्रतिस्थापन के रूप में BitLinear को स्क्रैच से 1-बिट वेट को प्रशिक्षित करने के लिए पेश करते हैं। भाषा मॉडलिंग पर प्रायोगिक परिणाम दिखाते हैं कि BitNet अत्याधुनिक 8-बिट क्वांटिज़ेशन विधियों और FP16 ट्रांसफॉर्मर बेसलाइन की तुलना में मेमोरी फ़ुटप्रिंट और ऊर्जा खपत को काफी कम करते हुए प्रतिस्पर्धी प्रदर्शन प्राप्त करता है। इसके अलावा, BitNet पूर्ण-सटीक ट्रांसफ़ॉर्मर्स के समान स्केलिंग कानून प्रदर्शित करता है

      पूरा शोध पत्र पढ़ें


      https://arxiv.org/abs/2310.11453



और हगिंगफेस पर मॉडल:

  1. हगिंग फेस रिपोजिटरी - बिटनेट b1.58-3B क्वांटाइज्ड :
    • इस रिपॉजिटरी में बिटनेट b1.58-3B मॉडल का क्वांटाइज्ड संस्करण शामिल है।

      जबकि मूल रिपोजिटरी प्रभावशाली सत्यापन परिणाम प्रदर्शित करती है, यह बिटनेट की रैखिक परतों का अनुकरण करती है, जिसके परिणामस्वरूप मेमोरी उपयोग FP16 मॉडल के समान होता है।


      हगिंग फेस मॉडल का अन्वेषण करें


      https://huggingface.co/kousw/bitnet_b1_58-3B_quantized


भविष्य के बारे में एक बात: यह रोमांचक होगा!