हम इस लेख में केवल समय जटिलता के बारे में बात कर रहे हैं - जानबूझकर।
स्पेस जटिलता के लिए, 1-बिट ट्रांसफॉर्मर्स पर मेरा लेख देखें, जो यहां उपलब्ध है:
जहाँ तक जनरेटिव AI तकनीक का सवाल है, हम भविष्य की ओर तेजी से आगे बढ़ रहे हैं और लार्ज लैंग्वेज मॉडल के पीछे के एल्गोरिदम कोई अपवाद नहीं हैं। इस लेख में, हम हाल ही में जनरेटिव AI के क्षेत्र में तीन सबसे रोमांचक विकासों को कवर करने जा रहे हैं, और उनके बारे में विस्तार से बात करेंगे। उनमें से एक ने एक बड़ी भाषा मॉडल एल्गोरिदम को चलाने के लिए इष्टतम समय जटिलता भी हासिल की है। दूसरे शब्दों में, एक हालिया विकास सबसे इष्टतम रूप से सबसे तेज़ LLM ट्रांसफ़ॉर्मर एल्गोरिदम बन गया है - जहाँ तक असिम्टोटिक समय जटिलता का सवाल है, हमारे वर्तमान मॉडल के अनुसार, निरंतर समय अनुकूलन को छोड़कर, इससे तेज़ जाना संभव नहीं है। चूँकि हम सैकड़ों अरबों मापदंडों से निपट रहे हैं, इसलिए स्थिरांक की गति बहुत बड़ी हो सकती है! मुझे उम्मीद है कि आप भी मेरी तरह उत्साहित होंगे क्योंकि यह एक रोमांचक सवारी होगी!
हर कोई 2017 के महत्वपूर्ण पेपर "ध्यान ही सब कुछ है जिसकी आपको आवश्यकता है" से परिचित है, लेकिन फिर भी मैं इसे संक्षेप में प्रस्तुत करने जा रहा हूं ताकि नए लोगों को स्पष्ट रूप से समझ में आ जाए कि हम किस बारे में बात कर रहे हैं।
शोध पत्र का लिंक यह है:
पेपर परिचय से:
आवर्तक तंत्रिका नेटवर्क, विशेषकर दीर्घ-अल्पकालिक स्मृति और गेटेड आवर्तक तंत्रिका नेटवर्क, अनुक्रम मॉडलिंग और भाषा मॉडलिंग तथा मशीन अनुवाद जैसी ट्रांसडक्शन समस्याओं में अत्याधुनिक दृष्टिकोण के रूप में दृढ़ता से स्थापित हो चुके हैं।
तब से पुनरावर्ती भाषा मॉडल और एनकोडर-डिकोडर आर्किटेक्चर की सीमाओं को आगे बढ़ाने के लिए कई प्रयास जारी हैं।
पुनरावर्ती मॉडल आमतौर पर इनपुट और आउटपुट अनुक्रमों के प्रतीक पदों के साथ गणना को कारक बनाते हैं।
गणना समय में चरणों के लिए स्थितियों को संरेखित करते हुए, वे पिछली छिपी हुई स्थिति ℎ𝑡−1 और स्थिति 𝑡 के इनपुट के एक फ़ंक्शन के रूप में छिपी हुई स्थिति ℎ𝑡 का एक अनुक्रम उत्पन्न करते हैं।
यह स्वाभाविक अनुक्रमिक प्रकृति प्रशिक्षण उदाहरणों के भीतर समानांतरीकरण को रोकती है, जो लंबी अनुक्रम लंबाई पर महत्वपूर्ण हो जाती है, क्योंकि मेमोरी बाधाएं उदाहरणों में बैचिंग को सीमित करती हैं।
हाल के कार्यों में फैक्टराइजेशन ट्रिक्स और सशर्त संगणना के माध्यम से कम्प्यूटेशनल दक्षता में महत्वपूर्ण सुधार हासिल किया गया है, साथ ही बाद के मामले में मॉडल प्रदर्शन में भी सुधार हुआ है।
हालाँकि, अनुक्रमिक गणना की मूलभूत बाधा अभी भी बनी हुई है।
ध्यान तंत्र विभिन्न कार्यों में सम्मोहक अनुक्रम मॉडलिंग और पारगमन मॉडल का एक अभिन्न अंग बन गया है, जो इनपुट या आउटपुट अनुक्रमों में उनकी दूरी की परवाह किए बिना निर्भरताओं के मॉडलिंग की अनुमति देता है।
हालाँकि, कुछ मामलों को छोड़कर, ऐसे ध्यान तंत्रों का उपयोग पुनरावर्ती नेटवर्क के साथ संयोजन में किया जाता है।
इस कार्य में हम ट्रांसफॉर्मर का प्रस्ताव करते हैं, जो एक मॉडल आर्किटेक्चर है जो पुनरावृत्ति से बचता है तथा इसके बजाय इनपुट और आउटपुट के बीच वैश्विक निर्भरता बनाने के लिए पूरी तरह से ध्यान तंत्र पर निर्भर करता है।
ट्रांसफॉर्मर काफी अधिक समानांतरीकरण की अनुमति देता है और आठ P100 GPU पर केवल बारह घंटे तक प्रशिक्षित होने के बाद अनुवाद गुणवत्ता में एक नए स्तर तक पहुंच सकता है।
और जैसा कि हम जानते हैं, GPT-1, GPT-2, GPT-3 और GPT 3.5 ट्रांसफॉर्मर्स ने जल्द ही जनरेटिव AI में हमेशा के लिए क्रांति ला दी।
अचानक मशीनें मानव जैसी अंग्रेजी बोलने लगीं।
यह वह क्लासिक आरेख था जो अगले दो वर्षों तक लेखों और शोध समाचार बुलेटिनों में छाया रहा:
फिर GPT-4 सामने आया - और फिर जीवन कभी भी पहले जैसा नहीं रहा।
हम एक महत्वपूर्ण बिन्दु को पार कर चुके थे।
लेकिन, ये ट्रांसफार्मर महंगे थे, प्रशिक्षण में धीमे थे, तथा इनकी परिचालन लागत बहुत अधिक होने के कारण इन्हें स्थापित करना कठिन था।
ट्रांसफॉर्मर एल्गोरिथ्म की समय जटिलता द्विघात थी, या O(n*n) जहां n इनपुट पैरामीटरों की संख्या थी ।
𝐿 परतों वाले एक मानक ट्रांसफार्मर मॉडल के लिए, अनुमान एल्गोरिथ्म की समय जटिलता 𝑂( L*n*n*d ) है जहाँ L परतों की संख्या थी, n इनपुट टोकन की संख्या थी, और d ट्रांसफार्मर की गहराई थी।
कुछ समय के लिए तो यह अत्याधुनिक तकनीक प्रतीत हुई।
क्वांटाइजेशन को 2021 की शुरुआत में ही एक अन्य पेपर में पेश किया गया था, और ऐसा लग रहा था कि यह अगला अत्याधुनिक तंत्र होगा ( प्रस्तावना अनुभाग देखें)।
लेकिन जल्द ही हमारे सामने एक और दावेदार आ गया।
प्रासंगिक शोध पत्र यह था:
माम्बा: चयनात्मक राज्य स्थानों के साथ रैखिक-समय अनुक्रम मॉडलिंग
शोध पत्र के सारांश से:
फाउंडेशन मॉडल, जो अब गहन शिक्षण में अधिकांश रोमांचक अनुप्रयोगों को शक्ति प्रदान कर रहे हैं, लगभग सार्वभौमिक रूप से ट्रांसफॉर्मर आर्किटेक्चर और इसके कोर अटेंशन मॉड्यूल पर आधारित हैं।
कई उप-चतुर्भुज-समय आर्किटेक्चर जैसे कि रैखिक ध्यान, गेटेड कन्वोल्यूशन और आवर्तक मॉडल, और संरचित राज्य अंतरिक्ष मॉडल (एसएसएम) को लंबे अनुक्रमों पर ट्रांसफॉर्मर्स की कम्प्यूटेशनल अकुशलता को संबोधित करने के लिए विकसित किया गया है, लेकिन उन्होंने भाषा जैसे महत्वपूर्ण तौर-तरीकों पर ध्यान देने के रूप में अच्छा प्रदर्शन नहीं किया है।
हमने पाया कि ऐसे मॉडलों की मुख्य कमजोरी यह है कि वे विषय-वस्तु आधारित तर्क करने में असमर्थ हैं, और हमने इनमें कई सुधार किए हैं।
सबसे पहले, एसएसएम पैरामीटर्स को इनपुट के फंक्शन के रूप में छोड़ देने से, असतत तौर-तरीकों के साथ उनकी कमजोरी दूर हो जाती है, जिससे मॉडल को वर्तमान टोकन के आधार पर अनुक्रम लंबाई आयाम के साथ सूचना को चुनिंदा रूप से प्रसारित या भूलने की अनुमति मिल जाती है।
दूसरा, भले ही यह परिवर्तन कुशल कन्वोल्यूशन के उपयोग को रोकता है, फिर भी हम पुनरावर्ती मोड में एक हार्डवेयर-जागरूक समानांतर एल्गोरिदम डिज़ाइन करते हैं।
हम इन चयनात्मक एसएसएम को बिना किसी ध्यान या एमएलपी ब्लॉक (माम्बा) के सरलीकृत अंत-से-अंत तंत्रिका नेटवर्क वास्तुकला में एकीकृत करते हैं।
मांबा में तीव्र अनुमान (ट्रांसफॉर्मर्स की तुलना में 5 गुना अधिक थ्रूपुट) और अनुक्रम लंबाई में रैखिक स्केलिंग की सुविधा है, तथा दस लाख लंबाई वाले अनुक्रम तक वास्तविक डेटा पर इसका प्रदर्शन बेहतर होता है।
सामान्य अनुक्रम मॉडल की रीढ़ के रूप में, माम्बा भाषा, ऑडियो और जीनोमिक्स जैसे कई तौर-तरीकों में अत्याधुनिक प्रदर्शन प्राप्त करता है।
भाषा मॉडलिंग पर, हमारा माम्बा-3बी मॉडल समान आकार के ट्रांसफॉर्मर्स से बेहतर प्रदर्शन करता है और प्रीट्रेनिंग और डाउनस्ट्रीम मूल्यांकन दोनों में अपने आकार से दोगुने आकार के ट्रांसफॉर्मर्स से मेल खाता है।
Suअचानक
अचानक हमारे शहर में एक नया प्रतियोगी आ गया!
माम्बा-ट्रांसफार्मर एल्गोरिथम के मुख्य लाभ थे:
हाइब्रिड वास्तुकला :
माम्बा ने ट्रांसफॉर्मर और माम्बा परतों को संयोजित किया, जिससे प्रबंधनीय मेमोरी फ़ुटप्रिंट को बनाए रखते हुए बेहतर प्रदर्शन और उच्च थ्रूपुट की अनुमति मिली।
चुनौतियाँ :
मेमोरी और कम्प्यूट दक्षता : माम्बा ने ट्रांसफॉर्मर्स की उच्च मेमोरी और कम्प्यूट आवश्यकताओं को संबोधित किया, विशेष रूप से लंबे संदर्भों के लिए।
सारांश स्थिति : ट्रांसफॉर्मर्स के विपरीत, माम्बा एकल सारांश स्थिति प्रदान करता है, जिससे तीव्र अनुमान लगाना संभव होता है।
वास्तुकला विवरण :
प्रदर्शन :
माम्बा ने मिक्सट्रल-8x7B और लामा-2 70B जैसे मौजूदा मॉडलों के समान प्रदर्शन किया, जबकि 256K टोकन तक की संदर्भ लंबाई का समर्थन किया।
दक्षता : लंबे संदर्भों के लिए माम्बा का थ्रूपुट मिक्सट्रल-8x7B से 3 गुना अधिक था, और यह बड़े संदर्भों के साथ भी एकल GPU में फिट हो गया।
माम्बा आर्किटेक्चर बड़े भाषा मॉडल में एक महत्वपूर्ण प्रगति का प्रतिनिधित्व करता है, जो ट्रांसफॉर्मर और एसएसएम दोनों दृष्टिकोणों की शक्तियों को जोड़ता है।
हालाँकि, जैसे-जैसे परीक्षण जारी रहा, यह पाया गया कि माम्बा एल्गोरिदम सभी उपयोग-मामलों के लिए उपयुक्त नहीं था।
विशेष रूप से, जब माम्बा एल्गोरिथ्म को आईएमडीबी डेटासेट के साथ प्रस्तुत किया गया तो यह बुरी तरह विफल रहा।
हालाँकि वास्तुकला अभी भी अत्याधुनिक थी, और यह दृष्टि उपयोग मामलों के लिए बेहद उपयोगी पाई गई।
आप यहां पायथन में कार्यान्वयन देख सकते हैं:
और यह माम्बा एल्गोरिथम का एक उत्कृष्ट विवरण है, जिसमें सिद्धांत भी प्रदान किया गया है।
और यहां PyPI में मानक Mamba कार्यान्वयन है:
माम्बा एल्गोरिथम का समय आ गया है और यह अभी भी शोध का एक अत्यधिक सक्रिय क्षेत्र है। जल्द ही इसका उत्तराधिकारी सामने आया, लेकिन हम सबसे अच्छा आखिर में रखेंगे।
हम अगले प्रतियोगी की ओर बढ़ेंगे - xLSTM एल्गोरिथ्म
आप यहां शोध पत्र देख सकते हैं:
xLSTM: विस्तारित दीर्घ अल्पकालिक स्मृति - arXiv .
शोध पत्र के सारांश से:
1990 के दशक में, निरंतर त्रुटि कैरोसेल और गेटिंग को दीर्घ-अल्पकालिक स्मृति (LSTM) के केंद्रीय विचारों के रूप में पेश किया गया था।
तब से, एलएसटीएम समय की कसौटी पर खरा उतरा है और कई गहन शिक्षण सफलता की कहानियों में योगदान दिया है, विशेष रूप से उन्होंने पहले बड़े भाषा मॉडल (एलएलएम) का गठन किया।
हालाँकि, ट्रांसफॉर्मर प्रौद्योगिकी के आगमन ने, जिसके मूल में समानांतर स्व-ध्यान है, एक नए युग की शुरुआत को चिह्नित किया, जिसने पैमाने पर LSTM को पीछे छोड़ दिया।
अब हम एक सरल प्रश्न उठाते हैं: LSTM को अरबों पैरामीटरों तक विस्तारित करते हुए, आधुनिक LLM की नवीनतम तकनीकों का लाभ उठाते हुए, लेकिन LSTM की ज्ञात सीमाओं को कम करते हुए, हम भाषा मॉडलिंग में कितनी दूर तक पहुंच पाते हैं?
सबसे पहले, हम उचित सामान्यीकरण और स्थिरीकरण तकनीकों के साथ घातांकीय गेटिंग का परिचय देते हैं।
दूसरे, हम LSTM मेमोरी संरचना को संशोधित करते हैं, और प्राप्त करते हैं:
(i) स्केलर मेमोरी, स्केलर अपडेट और नई मेमोरी मिक्सिंग के साथ sLSTM,
(ii) mLSTM जो मैट्रिक्स मेमोरी और सहप्रसरण अद्यतन नियम के साथ पूरी तरह से समानांतर है।
इन LSTM एक्सटेंशन को अवशिष्ट ब्लॉक बैकबोन में एकीकृत करने से xLSTM ब्लॉक प्राप्त होते हैं, जिन्हें फिर xLSTM आर्किटेक्चर में अवशिष्ट रूप से स्टैक किया जाता है।
एक्सपोनेंशियल गेटिंग और संशोधित मेमोरी संरचनाएं, प्रदर्शन और स्केलिंग दोनों में, अत्याधुनिक ट्रांसफॉर्मर्स और स्टेट स्पेस मॉडल्स की तुलना में xLSTM क्षमताओं को बेहतर प्रदर्शन करने में मदद करती हैं।
दीर्घ-अल्पकालिक स्मृति (एलएसटीएम) एल्गोरिथ्म अपने समय में अत्यधिक उपयोगी था और इसमें काफी सफलता भी मिली थी।
xLSTM में उसी मॉडल का उपयोग किया गया, लेकिन पूरी तरह से अलग आर्किटेक्चर में।
यह मुख्य नवाचार था, जिसे शोध पत्र में इस चित्र में संक्षेपित किया गया है:
xLSTM के मुख्य लाभ थे:
लंबे अनुक्रमों को संभालना :
xLSTM को विशेष रूप से अपने गेटिंग तंत्र के साथ लंबे अनुक्रमों को संभालने के लिए डिज़ाइन किया गया था जो सूचना के प्रवाह को नियंत्रित करता था। इसने पारंपरिक LSTM की तुलना में अनुक्रमिक डेटा में दीर्घकालिक निर्भरताओं को पकड़ने में इसे अधिक प्रभावी बना दिया।
कम्प्यूटेशनल दक्षता :
xLSTM कुछ कार्यों के लिए कम्प्यूटेशनली अधिक कुशल हो सकता है, विशेष रूप से छोटे डेटासेट के साथ काम करते समय या जब अनुक्रम की लंबाई अत्यधिक बड़ी न हो।
दूसरी ओर, ट्रांसफॉर्मर्स को अपने स्व-ध्यान तंत्र के कारण महत्वपूर्ण कम्प्यूटेशनल संसाधनों की आवश्यकता होती है, जो अनुक्रम की लंबाई के साथ द्विघात रूप से बढ़ता है।
स्मृति प्रयोग :
xLSTM को सामान्यतः ट्रांसफॉर्मर्स की तुलना में कम मेमोरी की आवश्यकता होती है।
ट्रांसफॉर्मर्स में स्व-ध्यान तंत्र के लिए बड़े ध्यान मैट्रिसेस को संग्रहीत करने की आवश्यकता होती है, जो विशेष रूप से लंबे अनुक्रमों के लिए स्मृति-गहन हो सकता है।
प्रशिक्षण स्थिरता :
xLSTM अपनी पुनरावर्ती प्रकृति और गेटिंग तंत्र के कारण प्रशिक्षण के दौरान अधिक स्थिर हो सकता है, जो लुप्त ग्रेडिएंट समस्या को कम करने में मदद करता है।
ट्रांसफॉर्मर्स, शक्तिशाली होते हुए भी, कभी-कभी प्रशिक्षित करने के लिए अधिक चुनौतीपूर्ण हो सकते हैं और इसके लिए हाइपरपैरामीटर्स और रेग्यूलराइजेशन तकनीकों की सावधानीपूर्वक ट्यूनिंग की आवश्यकता हो सकती है।
सरलता और व्याख्याशीलता :
ट्रांसफॉर्मर्स की तुलना में xLSTM मॉडल को समझना और व्याख्या करना अधिक सरल हो सकता है।
एलएसटीएम की पुनरावर्ती प्रकृति ने नेटवर्क के माध्यम से सूचना के प्रवाह का पता लगाना आसान बना दिया, जबकि ट्रांसफॉर्मर्स में ध्यान तंत्र अधिक अमूर्त और व्याख्या करने में कठिन हो सकता है।
छोटे डेटासेट पर प्रदर्शन :
xLSTM छोटे डेटासेट पर या जब लेबल वाला डेटा सीमित हो, तब बेहतर प्रदर्शन कर सकता है।
ट्रांसफॉर्मर्स को अपनी पूरी क्षमता प्राप्त करने के लिए आम तौर पर बड़ी मात्रा में डेटा की आवश्यकता होती है, जिससे सीमित डेटा उपलब्धता वाले परिदृश्यों में xLSTM एक बेहतर विकल्प बन जाता है
.
अनुक्रमिक डेटा :
कुछ प्रकार के अनुक्रमिक डेटा के लिए, जैसे समय श्रृंखला या कुछ प्रकार के प्राकृतिक भाषा प्रसंस्करण कार्यों के लिए, xLSTM अनुक्रमों को संभालने के लिए अपने अंतर्निहित डिजाइन के कारण बेहतर प्रदर्शन प्रदान कर सकता है।
हालांकि, यह ध्यान रखना महत्वपूर्ण था कि ट्रांसफॉर्मर्स के अपने फायदे थे, जैसे बेहतर समानांतरकरण क्षमताएं, बड़े डेटासेट पर बेहतर प्रदर्शन और कई एनएलपी कार्यों में अत्याधुनिक परिणाम।
xLSTM और ट्रांसफॉर्मर के बीच चयन, कार्य की विशिष्ट आवश्यकताओं और बाधाओं पर आधारित होना चाहिए।
आप PyTorch में xLSTM का कार्यान्वयन यहां देख सकते हैं:
आप xLSTM का विस्तृत विवरण यहां देख सकते हैं:
इसकी वर्तमान स्थिति का सारांश इस प्रकार है:
लेकिन माम्बा का एक उत्तराधिकारी था जिसने पवित्र ग्रिल को मारा - एलएलएम एल्गोरिदम के लिए इष्टतम समय जटिलता
शोध पत्र यहां पाया जा सकता है:
जाम्बा: एक हाइब्रिड ट्रांसफॉर्मर-माम्बा भाषा मॉडल
शोध पत्र के सार से:
हम जाम्बा प्रस्तुत करते हैं, जो एक नवीन हाइब्रिड ट्रांसफॉर्मर-माम्बा मिक्सचर-ऑफ-एक्सपर्ट्स (एमओई) आर्किटेक्चर पर आधारित एक नया बेस लार्ज लैंग्वेज मॉडल है।
विशेष रूप से, जाम्बा ट्रांसफॉर्मर और माम्बा परतों के ब्लॉकों को आपस में जोड़ता है, जिससे दोनों मॉडल परिवारों के लाभ प्राप्त होते हैं।
सक्रिय पैरामीटर उपयोग को प्रबंधनीय बनाए रखते हुए मॉडल क्षमता को बढ़ाने के लिए इनमें से कुछ परतों में MoE जोड़ा गया है।
यह लचीली वास्तुकला संसाधन- और उद्देश्य-विशिष्ट विन्यास की अनुमति देती है।
हमने जो विशेष कॉन्फ़िगरेशन क्रियान्वित किया है, उसके परिणामस्वरूप हमें एक शक्तिशाली मॉडल प्राप्त हुआ है जो एक 80GB GPU में फिट हो जाता है।
बड़े पैमाने पर निर्मित, जाम्बा वेनिला ट्रांसफॉर्मर्स की तुलना में उच्च थ्रूपुट और छोटी मेमोरी फुटप्रिंट प्रदान करता है, और साथ ही मानक भाषा मॉडल बेंचमार्क और दीर्घकालिक संदर्भ मूल्यांकन पर अत्याधुनिक प्रदर्शन भी प्रदान करता है।
उल्लेखनीय रूप से, मॉडल 256K टोकन संदर्भ लंबाई तक के लिए मजबूत परिणाम प्रस्तुत करता है।
हम विभिन्न वास्तुशिल्प निर्णयों का अध्ययन करते हैं, जैसे कि ट्रांसफॉर्मर और माम्बा परतों को कैसे संयोजित किया जाए, और विशेषज्ञों को कैसे मिलाया जाए, और यह दर्शाते हैं कि उनमें से कुछ बड़े पैमाने पर मॉडलिंग में महत्वपूर्ण हैं।
हम इन आर्किटेक्चर के कई दिलचस्प गुणों का भी वर्णन करते हैं, जो जाम्बा के प्रशिक्षण और मूल्यांकन से पता चले हैं, और इस नवीन आर्किटेक्चर के आगे के अन्वेषण को प्रोत्साहित करने के लिए विभिन्न एब्लेशन रन से चेकपॉइंट जारी करने की योजना बना रहे हैं।
हम जाम्बा के अपने कार्यान्वयन के भार को अनुमेय लाइसेंस के तहत सार्वजनिक रूप से उपलब्ध कराते हैं।
कार्यान्वयन हगिंगफेस रिपोजिटरी पर यहां उपलब्ध है:
मॉडल: https://huggingface.co/ai21labs/Jamba-v0.1
अन्य मॉडलों से तुलना :
विभिन्न मानकों पर मूल्यांकन करने पर, जाम्बा ने अन्य अत्याधुनिक मॉडलों जैसे कि मिस्ट्रल-8x7B , लामा-2 70B , और मिक्सट्रल-8x7B के साथ तुलनीय प्रदर्शन प्रदर्शित किया है।
उल्लेखनीय रूप से, जाम्बा 256K टोकन तक की संदर्भ लंबाई का समर्थन करता है , जो सार्वजनिक रूप से उपलब्ध मॉडलों में सबसे लंबी है
हेलस्वैग , आर्क चैलेंज और पीआईक्यूए जैसे कार्यों में , जाम्बा लामा 2 , मिक्सट्रल 8x7बी और जेम्मा जैसे मॉडलों से बेहतर प्रदर्शन करता है।
संक्षेप में, जाम्बा की हाइब्रिड वास्तुकला ट्रांसफॉर्मर्स और माम्बा परतों की शक्तियों को जोड़ती है, जिसके परिणामस्वरूप प्रभावशाली प्रदर्शन और मापनीयता होती है।
याद रखने योग्य मुख्य आरेख ऊपर दिए गए शोध पत्र में प्रस्तुत किया गया है:
माम्बा और ट्रांसफॉर्मर मॉडल के अंतर्संबंध से समय जटिलता में अविश्वसनीय वृद्धि होती है, जिसे नीचे दिए गए लेख में खूबसूरती से संक्षेपित किया गया है:
लेखक : निमृता कौल
दिनांक : 1 अप्रैल, 2024
सारांश :
जाम्बा AI21 द्वारा प्रस्तुत पहला उत्पादन-ग्रेड माम्बा-आधारित वृहद भाषा मॉडल है।
इसमें ट्रांसफॉर्मर और माम्बा दोनों आर्किटेक्चर की ताकतें सम्मिलित हैं।
ट्रांसफार्मर-आधारित मॉडल O(n²) की प्रशिक्षण समय जटिलता के कारण लंबे अनुक्रमों के साथ संघर्ष करते हैं।
माम्बा आर्किटेक्चर रैखिक प्रशिक्षण समय जटिलता ( O(n) ) और स्थिर अनुमान समय ( O(1) ) प्रदान करता है।
माम्बा स्टेट स्पेस मॉडल (एसएसएम) आर्किटेक्चर पर आधारित है।
एसएसएम, विभेदक या अंतर समीकरणों का उपयोग करके किसी प्रणाली का वर्णन करने के लिए अवस्था चरों का उपयोग करते हैं।
माम्बा के हाइब्रिड दृष्टिकोण का लक्ष्य मौजूदा मॉडलों की सीमाओं को संबोधित करना है।
आप यहां पर पूरा लेख पढ़ सकते हैं:
माम्बा और जाम्बा - सरलता से समझाया गया , निम्रिता कौल द्वारा, मीडियम.कॉम पर।
यहां ध्यान देने योग्य मुख्य बात यह है कि प्रशिक्षण के लिए, एल्गोरिथ्म को प्रत्येक इनपुट टोकन को कम से कम एक बार देखना होगा, जिससे समय जटिलता O(n) होगी।
इसके अलावा, किसी भी एलएलएम मॉडल के लिए अनुमान लगाने की सबसे तेज़ गति O(1) है - स्थिर समय, टोकन की लंबाई से स्वतंत्र (एक अविश्वसनीय उपलब्धि)!
इसलिए निरंतर-समय सुधारों के अंतर्गत - जो अभी भी बहुत अधिक हो सकते हैं (ये संख्याएं सैकड़ों अरबों में हैं):
जाम्बा ने ट्रांसफॉर्मर एल्गोरिथ्म के लिए समय जटिलता की इष्टतम सीमा तक पहुंच बना ली है!
दी गई प्रणाली स्थितियों के अंतर्गत, जब तक कि नई तकनीक (क्वांटम कंप्यूटिंग, कोई भी) पेश नहीं की जाती है, तब तक हमारे पास तीव्र असिमोटोटिक समय जटिलता नहीं हो सकती है!
जो कि एक बहुत ही महत्वपूर्ण परिणाम है!
A121 लैब्स द्वारा आधिकारिक घोषणा:
मीडियम पर जाम्बा पर एक और अच्छा लेख:
इस समय उपलब्ध जाम्बा के सर्वोत्तम कार्यान्वयनों में से एक:
एक बार फिर, हगिंगफेस हब का जाम्बा मॉडल:
इस प्रकार जाम्बा उस अंतिम समय जटिलता तक पहुँच जाता है जिसे मौजूदा सिस्टम के तहत करंट ट्रांसफॉर्मर एल्गोरिदम द्वारा एक स्थिर स्तर भिन्नता तक प्राप्त किया जा सकता है। दोहराएँ; स्थिरांक बहुत बड़े हो सकते हैं, क्योंकि ये सैकड़ों अरबों पदों के क्रम में हैं! हालाँकि, यह अभी भी एक महत्वपूर्ण उपलब्धि है। और इस पर शोध की कोई सीमा नहीं है जहाँ तक यह जा सकता है, खासकर जब इसे DPO (डायरेक्ट प्रेफरेंस ऑप्टिमाइज़ेशन) और क्वांटिज़ेशन के साथ जोड़ा जाता है - अधिक जानकारी के लिए उपसंहार देखें।
इसका एक पक्ष ऐसा भी है जिस पर कोई भी खुलकर काम नहीं कर रहा है।
क्या माम्बा, xLSTM और जाम्बा मॉडल को 1-बिट परिशुद्धता तक परिमाणित किया जा सकता है?
बिल्कुल!
मैं एक-बिट में परिमाणित होने के बाद माम्बा और जाम्बा के प्रदर्शन में सुधार देखने के लिए उत्सुक हूँ! या 1.58 बिट {-1, 0, 1}।
एक बार फिर, अधिक जानकारी के लिए यह आलेख देखें:
इस तकनीक का भविष्य अविश्वसनीय रूप से रोमांचक होने वाला है!
इस क्षेत्र में काम करने का आनंद और रोमांच सदैव आपके साथ बना रहे!
प्रोत्साहित करना!
क्वांटीकरण के लिए यह पेपर निश्चित रूप से पढ़ने लायक है:
शोध पत्र - बिटनेट: बड़े भाषा मॉडल के लिए 1-बिट ट्रांसफॉर्मर स्केलिंग :
सार : बड़े भाषा मॉडल के बढ़ते आकार ने तैनाती के लिए चुनौतियां पेश की हैं और उच्च ऊर्जा खपत के कारण पर्यावरणीय प्रभाव के बारे में चिंताएं जताई हैं। इस काम में, हम BitNet को पेश करते हैं, जो बड़े भाषा मॉडल के लिए डिज़ाइन किया गया एक स्केलेबल और स्थिर 1-बिट ट्रांसफॉर्मर आर्किटेक्चर है। विशेष रूप से, हम nn.Linear
परत के लिए एक ड्रॉप-इन प्रतिस्थापन के रूप में BitLinear को स्क्रैच से 1-बिट वेट को प्रशिक्षित करने के लिए पेश करते हैं। भाषा मॉडलिंग पर प्रायोगिक परिणाम दिखाते हैं कि BitNet अत्याधुनिक 8-बिट क्वांटिज़ेशन विधियों और FP16 ट्रांसफॉर्मर बेसलाइन की तुलना में मेमोरी फ़ुटप्रिंट और ऊर्जा खपत को काफी कम करते हुए प्रतिस्पर्धी प्रदर्शन प्राप्त करता है। इसके अलावा, BitNet पूर्ण-सटीक ट्रांसफ़ॉर्मर्स के समान स्केलिंग कानून प्रदर्शित करता है
https://arxiv.org/abs/2310.11453
और हगिंगफेस पर मॉडल:
इस रिपॉजिटरी में बिटनेट b1.58-3B मॉडल का क्वांटाइज्ड संस्करण शामिल है।
जबकि मूल रिपोजिटरी प्रभावशाली सत्यापन परिणाम प्रदर्शित करती है, यह बिटनेट की रैखिक परतों का अनुकरण करती है, जिसके परिणामस्वरूप मेमोरी उपयोग FP16 मॉडल के समान होता है।
हगिंग फेस मॉडल का अन्वेषण करें