आर्टिफिशियल इंटेलिजेंस तकनीक के विकास में रुचि रखने वाला कोई भी व्यक्ति जानता है कि आज के समाधान और के बारे में हैं। संक्षेप में, एलएलएम तंत्रिका नेटवर्क हैं जो इनपुट टोकन के आधार पर अगले टोकन की भविष्यवाणी कर सकते हैं। आमतौर पर, ये टोकन शब्द होते हैं (यह पूरी तरह से सटीक नहीं है, लेकिन इस तरह से अवधारणा बनाना आसान है), और नेटवर्क का आउटपुट भी एक शब्द है। चैटजीपीटी इस प्रकार काम करता है। आप एक प्रश्न इनपुट करते हैं, और नेटवर्क एक शब्द उत्पन्न करता है। फिर, प्रश्न और शब्द मिलकर नेटवर्क इनपुट बन जाते हैं, एक और शब्द उत्पन्न करते हैं, और इसी तरह, जब तक कि एक पूर्ण उत्तर नहीं बन जाता। बड़े भाषा मॉडल (एलएलएम) ट्रांसफार्मर हालाँकि, टोकन केवल शब्दों से अधिक भी हो सकते हैं। GPT-4 या जेमिनी जैसे उन्नत भाषा मॉडल अब मल्टीमॉडल हैं, जिसका अर्थ है कि उनके इनपुट में चित्र और शब्द शामिल हो सकते हैं। जिस तरह एक वाक्य को शब्दों में तोड़ा जा सकता है, उसी तरह एक छवि को छोटे-छोटे टुकड़ों में विभाजित किया जा सकता है, और वहां से, वही ट्रांसफार्मर वास्तुकला उन्हें संसाधित कर सकती है। उदाहरण के लिए, एक मल्टीमॉडल नेटवर्क को यह बताने के लिए कहा जा सकता है कि किसी छवि में क्या है या चित्र में दिखाई दे रहे उपयोगकर्ता इंटरफ़ेस को कोड करने के लिए कहा जा सकता है। यह वास्तुकला और भी सामान्य है. सिस्टम एक प्रमुख उदाहरण है, जहां एक एकल ट्रांसफार्मर नेटवर्क एक साथ सवालों के जवाब दे सकता है, वीडियो गेम खेल सकता है, या रोबोट को नियंत्रित कर सकता है, और रोबोट को गया है। चूंकि एलएलएम टोकन के साथ काम करता है और किसी भी कार्य को टोकन किया जा सकता है, एलएलएम किसी भी कार्य के लिए एक सार्वभौमिक समाधान प्रदान करता है। डीपमाइंड का गैटो चैटजीपीटी का उपयोग करके भी नियंत्रित किया हाल ही में सबसे अधिक प्रचारित तकनीकी समाचारों में से एक कंपनी एक विकसित करने के बारे में थी जो एलएलएम को पारंपरिक जीपीयू की तुलना में अधिक कुशलता से और कम ऊर्जा के साथ चला सकता है। इससे स्पष्ट रूप से पता चलता है कि एलएलएम आर्किटेक्चर इतना मौलिक हो गया है कि अब इसके लिए विशेष हार्डवेयर बनाना सार्थक है। ग्रोक द्वारा ASIC (एप्लिकेशन-स्पेसिफिक इंटीग्रेटेड सर्किट) हाल ही में, " " शीर्षक से एक प्रकाशन सामने आया। आकार और कम्प्यूटेशनल मांग को कम करने के लिए तंत्रिका नेटवर्क का परिमाणीकरण एक सामान्य तरीका है। समाधान का सार फ्लोटिंग-पॉइंट नंबरों का उपयोग करके बड़े जीपीयू क्लस्टर पर प्रशिक्षण करना है, और फिर तैयार नेटवर्क के वजन को कम सटीक प्रारूप में परिवर्तित करना है, जो उपयोगकर्ता उपकरणों के प्रोसेसर को अधिक कुशलता से काम करने की अनुमति देता है। उदाहरण के लिए, प्रशिक्षण 16 या 32-बिट फ़्लोटिंग-पॉइंट नंबरों के साथ किया जाता है, जिन्हें बाद में तेज़ क्लाइंट-साइड संचालन के लिए 8 या 4-बिट फिक्स्ड-पॉइंट नंबरों में परिवर्तित किया जाता है। इस तरह, मॉडल मोबाइल या IoT डिवाइस पर भी अच्छा काम कर सकता है। इस परिमाणीकरण का एक चरम रूप तब होता है जब वज़न को 1-बिट संख्याओं में परिवर्तित किया जाता है। यह हो सकता है, या जैसा कि प्रकाशन सुझाव देता है, मानों {-1,0,1} (इसलिए 1.58 बिट्स) का उपयोग करके। कोई सोच सकता है कि इस तरह का अत्यधिक परिमाणीकरण नेटवर्क को पूरी तरह से अनुपयोगी बना देगा, लेकिन वास्तव में, इसके विपरीत सच है; ये 1-बिट नेटवर्क असाधारण रूप से अच्छा प्रदर्शन करते हैं। 1-बिट एलएलएम का युग: सभी बड़े भाषा मॉडल 1.58 बिट्स में हैं पूर्ण बाइनरी रूपांतरण यह इतनी बड़ी बात क्यों है? यदि ये तीन मान वजन का प्रतिनिधित्व करने के लिए पर्याप्त हैं, तो गुणन, जो वर्तमान में तंत्रिका नेटवर्क में सबसे अधिक उपयोग किया जाने वाला ऑपरेशन है, अब आवश्यक नहीं है। यही कारण है कि GPU क्लस्टर का उपयोग तंत्रिका नेटवर्क के लिए किया जाता है, क्योंकि GPU बहुत कुशलता से गुणन कर सकता है। गुणन की आवश्यकता के बिना, जीपीयू की कोई आवश्यकता नहीं है, और मॉडल को सीपीयू पर भी कुशलतापूर्वक चलाया जा सकता है, या विशेष हार्डवेयर (एएसआईसी) बनाना संभव है जो (एनालॉग तरीके से भी) इन 1-बिट नेटवर्क को चला सकता है। वर्तमान में, परिमाणीकरण एक प्रशिक्षण के बाद का ऑपरेशन है। इस प्रकार, 1-बिट नेटवर्क का उपयोग प्रशिक्षण प्रक्रिया को गति नहीं देता है। फिर भी, वे अभी भी उपयोगी हैं क्योंकि प्रशिक्षण एक बार का ऑपरेशन है, लेकिन तंत्रिका नेटवर्क को अनगिनत बार चलाया जाता है। नतीजतन, नेटवर्क चलाना प्रशिक्षण की तुलना में काफी अधिक ऊर्जा खपत का प्रतिनिधित्व करता है। इसलिए, प्रशिक्षण के संदर्भ में भी हमें इस तकनीक से लाभ हो सकता है। चूंकि ग्रेडिएंट-आधारित प्रशिक्षण 1-बिट या बाइनराइज्ड नेटवर्क के साथ काम नहीं करता है, इसलिए गैर-ग्रेडिएंट-आधारित प्रौद्योगिकियां प्रासंगिक हो जाती हैं ( और की जांच करें), जैसे आनुवंशिक एल्गोरिदम या अन्य ग्रेडिएंट-मुक्त प्रौद्योगिकियां। हालाँकि अधिकांश मामलों में बैकप्रॉपैगेशन ग्रेडिएंट-मुक्त समाधानों की तुलना में बहुत अधिक कुशल है, 1-बिट नेटवर्क को उनके फ़्लोटिंग-पॉइंट समकक्षों की तुलना में बहुत अधिक कुशलता से चलाया जा सकता है। तो, ऐसा हो सकता है कि बैकप्रॉपैगेशन के साथ, हम आनुवंशिक एल्गोरिदम की तुलना में फ्लोटिंग-पॉइंट नंबरों का उपयोग करके 10 गुना तेजी से इष्टतम नेटवर्क पाते हैं। लेकिन यदि 1-बिट नेटवर्क 20 गुना तेज चलता है, तो आनुवंशिक एल्गोरिदम का उपयोग करके प्रशिक्षण अभी भी दोगुना तेज होगा। यह जांचना कि 1-बिट नेटवर्क को ग्रेडिएंट-मुक्त तरीकों से कितने प्रभावी ढंग से प्रशिक्षित किया जा सकता है, एक बहुत ही दिलचस्प शोध विषय हो सकता है। नेवरग्रेड PyGAD इस विषय के इतना आकर्षक होने का एक और कारण यह है कि ये नेटवर्क प्राकृतिक मस्तिष्क में पाए जाने वाले तंत्रिका नेटवर्क से अधिक मिलते-जुलते हैं (जैविक रूप से प्रशंसनीय)। इसलिए, मेरा मानना है कि एक अच्छा ग्रेडिएंट-मुक्त प्रशिक्षण एल्गोरिदम चुनकर और इन 1-बिट नेटवर्क को लागू करके, हम ऐसे सिस्टम बना सकते हैं जो मानव मस्तिष्क के समान हैं। इसके अलावा, यह ASIC से परे तकनीकी समाधानों की संभावना को खोलता है जो पहले संभव नहीं थे, जैसे एनालॉग, प्रकाश-आधारित, या यहां तक कि जैविक रूप से आधारित प्रोसेसर। यह संभव है कि यह दिशा लंबे समय में एक गतिरोध साबित हो सकती है, लेकिन अभी के लिए, इसकी क्रांतिकारी क्षमता स्पष्ट है, जो इसे कृत्रिम बुद्धिमत्ता के क्षेत्र में शामिल किसी भी व्यक्ति के लिए एक बहुत ही आशाजनक अनुसंधान अवसर बनाती है।