paint-brush
1-बिट भाषा मॉडल (एलएलएम) की क्रांतिकारी क्षमताद्वारा@thebojda
6,807 रीडिंग
6,807 रीडिंग

1-बिट भाषा मॉडल (एलएलएम) की क्रांतिकारी क्षमता

द्वारा Laszlo Fazekas4m2024/03/03
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

1-बिट एलएलएम अधिक कुशल तंत्रिका नेटवर्क बनाने का एक संभावित तरीका है जो जैविक रूप से अधिक प्रशंसनीय है और विशेष हार्डवेयर पर अधिक कुशलता से चलता है। यह जांचना कि 1-बिट नेटवर्क को ग्रेडिएंट-मुक्त तरीकों से कितने प्रभावी ढंग से प्रशिक्षित किया जा सकता है, एक बहुत ही दिलचस्प शोध विषय हो सकता है।
featured image - 1-बिट भाषा मॉडल (एलएलएम) की क्रांतिकारी क्षमता
Laszlo Fazekas HackerNoon profile picture
0-item
1-item

आर्टिफिशियल इंटेलिजेंस तकनीक के विकास में रुचि रखने वाला कोई भी व्यक्ति जानता है कि आज के समाधान बड़े भाषा मॉडल (एलएलएम) और ट्रांसफार्मर के बारे में हैं। संक्षेप में, एलएलएम तंत्रिका नेटवर्क हैं जो इनपुट टोकन के आधार पर अगले टोकन की भविष्यवाणी कर सकते हैं। आमतौर पर, ये टोकन शब्द होते हैं (यह पूरी तरह से सटीक नहीं है, लेकिन इस तरह से अवधारणा बनाना आसान है), और नेटवर्क का आउटपुट भी एक शब्द है। चैटजीपीटी इस प्रकार काम करता है। आप एक प्रश्न इनपुट करते हैं, और नेटवर्क एक शब्द उत्पन्न करता है। फिर, प्रश्न और शब्द मिलकर नेटवर्क इनपुट बन जाते हैं, एक और शब्द उत्पन्न करते हैं, और इसी तरह, जब तक कि एक पूर्ण उत्तर नहीं बन जाता।


हालाँकि, टोकन केवल शब्दों से अधिक भी हो सकते हैं। GPT-4 या जेमिनी जैसे उन्नत भाषा मॉडल अब मल्टीमॉडल हैं, जिसका अर्थ है कि उनके इनपुट में चित्र और शब्द शामिल हो सकते हैं। जिस तरह एक वाक्य को शब्दों में तोड़ा जा सकता है, उसी तरह एक छवि को छोटे-छोटे टुकड़ों में विभाजित किया जा सकता है, और वहां से, वही ट्रांसफार्मर वास्तुकला उन्हें संसाधित कर सकती है। उदाहरण के लिए, एक मल्टीमॉडल नेटवर्क को यह बताने के लिए कहा जा सकता है कि किसी छवि में क्या है या चित्र में दिखाई दे रहे उपयोगकर्ता इंटरफ़ेस को कोड करने के लिए कहा जा सकता है।

स्रोत: https://production-media.paperswithcode.com/methods/Screen_Shot_2021-01-26_at_9.43.31_PM_uI4jjMq.png



यह वास्तुकला और भी सामान्य है. डीपमाइंड का गैटो सिस्टम एक प्रमुख उदाहरण है, जहां एक एकल ट्रांसफार्मर नेटवर्क एक साथ सवालों के जवाब दे सकता है, वीडियो गेम खेल सकता है, या रोबोट को नियंत्रित कर सकता है, और रोबोट को चैटजीपीटी का उपयोग करके भी नियंत्रित किया गया है। चूंकि एलएलएम टोकन के साथ काम करता है और किसी भी कार्य को टोकन किया जा सकता है, एलएलएम किसी भी कार्य के लिए एक सार्वभौमिक समाधान प्रदान करता है।


स्रोत: https://depmind.google/discover/blog/a-generalist-agent/



हाल ही में सबसे अधिक प्रचारित तकनीकी समाचारों में से एक कंपनी ग्रोक द्वारा एक ASIC (एप्लिकेशन-स्पेसिफिक इंटीग्रेटेड सर्किट) विकसित करने के बारे में थी जो एलएलएम को पारंपरिक जीपीयू की तुलना में अधिक कुशलता से और कम ऊर्जा के साथ चला सकता है। इससे स्पष्ट रूप से पता चलता है कि एलएलएम आर्किटेक्चर इतना मौलिक हो गया है कि अब इसके लिए विशेष हार्डवेयर बनाना सार्थक है।


हाल ही में, " 1-बिट एलएलएम का युग: सभी बड़े भाषा मॉडल 1.58 बिट्स में हैं " शीर्षक से एक प्रकाशन सामने आया। आकार और कम्प्यूटेशनल मांग को कम करने के लिए तंत्रिका नेटवर्क का परिमाणीकरण एक सामान्य तरीका है। समाधान का सार फ्लोटिंग-पॉइंट नंबरों का उपयोग करके बड़े जीपीयू क्लस्टर पर प्रशिक्षण करना है, और फिर तैयार नेटवर्क के वजन को कम सटीक प्रारूप में परिवर्तित करना है, जो उपयोगकर्ता उपकरणों के प्रोसेसर को अधिक कुशलता से काम करने की अनुमति देता है। उदाहरण के लिए, प्रशिक्षण 16 या 32-बिट फ़्लोटिंग-पॉइंट नंबरों के साथ किया जाता है, जिन्हें बाद में तेज़ क्लाइंट-साइड संचालन के लिए 8 या 4-बिट फिक्स्ड-पॉइंट नंबरों में परिवर्तित किया जाता है। इस तरह, मॉडल मोबाइल या IoT डिवाइस पर भी अच्छा काम कर सकता है। इस परिमाणीकरण का एक चरम रूप तब होता है जब वज़न को 1-बिट संख्याओं में परिवर्तित किया जाता है। यह पूर्ण बाइनरी रूपांतरण हो सकता है, या जैसा कि प्रकाशन सुझाव देता है, मानों {-1,0,1} (इसलिए 1.58 बिट्स) का उपयोग करके। कोई सोच सकता है कि इस तरह का अत्यधिक परिमाणीकरण नेटवर्क को पूरी तरह से अनुपयोगी बना देगा, लेकिन वास्तव में, इसके विपरीत सच है; ये 1-बिट नेटवर्क असाधारण रूप से अच्छा प्रदर्शन करते हैं।


यह इतनी बड़ी बात क्यों है?

यदि ये तीन मान वजन का प्रतिनिधित्व करने के लिए पर्याप्त हैं, तो गुणन, जो वर्तमान में तंत्रिका नेटवर्क में सबसे अधिक उपयोग किया जाने वाला ऑपरेशन है, अब आवश्यक नहीं है। यही कारण है कि GPU क्लस्टर का उपयोग तंत्रिका नेटवर्क के लिए किया जाता है, क्योंकि GPU बहुत कुशलता से गुणन कर सकता है। गुणन की आवश्यकता के बिना, जीपीयू की कोई आवश्यकता नहीं है, और मॉडल को सीपीयू पर भी कुशलतापूर्वक चलाया जा सकता है, या विशेष हार्डवेयर (एएसआईसी) बनाना संभव है जो (एनालॉग तरीके से भी) इन 1-बिट नेटवर्क को चला सकता है।


वर्तमान में, परिमाणीकरण एक प्रशिक्षण के बाद का ऑपरेशन है। इस प्रकार, 1-बिट नेटवर्क का उपयोग प्रशिक्षण प्रक्रिया को गति नहीं देता है। फिर भी, वे अभी भी उपयोगी हैं क्योंकि प्रशिक्षण एक बार का ऑपरेशन है, लेकिन तंत्रिका नेटवर्क को अनगिनत बार चलाया जाता है। नतीजतन, नेटवर्क चलाना प्रशिक्षण की तुलना में काफी अधिक ऊर्जा खपत का प्रतिनिधित्व करता है। इसलिए, प्रशिक्षण के संदर्भ में भी हमें इस तकनीक से लाभ हो सकता है।


चूंकि ग्रेडिएंट-आधारित प्रशिक्षण 1-बिट या बाइनराइज्ड नेटवर्क के साथ काम नहीं करता है, इसलिए गैर-ग्रेडिएंट-आधारित प्रौद्योगिकियां प्रासंगिक हो जाती हैं ( नेवरग्रेड और PyGAD की जांच करें), जैसे आनुवंशिक एल्गोरिदम या अन्य ग्रेडिएंट-मुक्त प्रौद्योगिकियां। हालाँकि अधिकांश मामलों में बैकप्रॉपैगेशन ग्रेडिएंट-मुक्त समाधानों की तुलना में बहुत अधिक कुशल है, 1-बिट नेटवर्क को उनके फ़्लोटिंग-पॉइंट समकक्षों की तुलना में बहुत अधिक कुशलता से चलाया जा सकता है। तो, ऐसा हो सकता है कि बैकप्रॉपैगेशन के साथ, हम आनुवंशिक एल्गोरिदम की तुलना में फ्लोटिंग-पॉइंट नंबरों का उपयोग करके 10 गुना तेजी से इष्टतम नेटवर्क पाते हैं। लेकिन यदि 1-बिट नेटवर्क 20 गुना तेज चलता है, तो आनुवंशिक एल्गोरिदम का उपयोग करके प्रशिक्षण अभी भी दोगुना तेज होगा। यह जांचना कि 1-बिट नेटवर्क को ग्रेडिएंट-मुक्त तरीकों से कितने प्रभावी ढंग से प्रशिक्षित किया जा सकता है, एक बहुत ही दिलचस्प शोध विषय हो सकता है।


इस विषय के इतना आकर्षक होने का एक और कारण यह है कि ये नेटवर्क प्राकृतिक मस्तिष्क में पाए जाने वाले तंत्रिका नेटवर्क से अधिक मिलते-जुलते हैं (जैविक रूप से प्रशंसनीय)। इसलिए, मेरा मानना है कि एक अच्छा ग्रेडिएंट-मुक्त प्रशिक्षण एल्गोरिदम चुनकर और इन 1-बिट नेटवर्क को लागू करके, हम ऐसे सिस्टम बना सकते हैं जो मानव मस्तिष्क के समान हैं। इसके अलावा, यह ASIC से परे तकनीकी समाधानों की संभावना को खोलता है जो पहले संभव नहीं थे, जैसे एनालॉग, प्रकाश-आधारित, या यहां तक कि जैविक रूप से आधारित प्रोसेसर।


यह संभव है कि यह दिशा लंबे समय में एक गतिरोध साबित हो सकती है, लेकिन अभी के लिए, इसकी क्रांतिकारी क्षमता स्पष्ट है, जो इसे कृत्रिम बुद्धिमत्ता के क्षेत्र में शामिल किसी भी व्यक्ति के लिए एक बहुत ही आशाजनक अनुसंधान अवसर बनाती है।