आर्टिफिशियल इंटेलिजेंस तकनीक के विकास में रुचि रखने वाला कोई भी व्यक्ति जानता है कि आज के समाधान   और   के बारे में हैं। संक्षेप में, एलएलएम तंत्रिका नेटवर्क हैं जो इनपुट टोकन के आधार पर अगले टोकन की भविष्यवाणी कर सकते हैं। आमतौर पर, ये टोकन शब्द होते हैं (यह पूरी तरह से सटीक नहीं है, लेकिन इस तरह से अवधारणा बनाना आसान है), और नेटवर्क का आउटपुट भी एक शब्द है। चैटजीपीटी इस प्रकार काम करता है। आप एक प्रश्न इनपुट करते हैं, और नेटवर्क एक शब्द उत्पन्न करता है। फिर, प्रश्न और शब्द मिलकर नेटवर्क इनपुट बन जाते हैं, एक और शब्द उत्पन्न करते हैं, और इसी तरह, जब तक कि एक पूर्ण उत्तर नहीं बन जाता। बड़े भाषा मॉडल (एलएलएम) ट्रांसफार्मर  हालाँकि, टोकन केवल शब्दों से अधिक भी हो सकते हैं। GPT-4 या जेमिनी जैसे उन्नत भाषा मॉडल अब मल्टीमॉडल हैं, जिसका अर्थ है कि उनके इनपुट में चित्र और शब्द शामिल हो सकते हैं। जिस तरह एक वाक्य को शब्दों में तोड़ा जा सकता है, उसी तरह एक छवि को छोटे-छोटे टुकड़ों में विभाजित किया जा सकता है, और वहां से, वही ट्रांसफार्मर वास्तुकला उन्हें संसाधित कर सकती है। उदाहरण के लिए, एक मल्टीमॉडल नेटवर्क को यह बताने के लिए कहा जा सकता है कि किसी छवि में क्या है या चित्र में दिखाई दे रहे उपयोगकर्ता इंटरफ़ेस को कोड करने के लिए कहा जा सकता है।   यह वास्तुकला और भी सामान्य है.   सिस्टम एक प्रमुख उदाहरण है, जहां एक एकल ट्रांसफार्मर नेटवर्क एक साथ सवालों के जवाब दे सकता है, वीडियो गेम खेल सकता है, या रोबोट को नियंत्रित कर सकता है, और रोबोट को   गया है। चूंकि एलएलएम टोकन के साथ काम करता है और किसी भी कार्य को टोकन किया जा सकता है, एलएलएम किसी भी कार्य के लिए एक सार्वभौमिक समाधान प्रदान करता है।  डीपमाइंड का गैटो चैटजीपीटी का उपयोग करके भी नियंत्रित किया  हाल ही में सबसे अधिक प्रचारित तकनीकी समाचारों में से एक कंपनी   एक   विकसित करने के बारे में थी जो एलएलएम को पारंपरिक जीपीयू की तुलना में अधिक कुशलता से और कम ऊर्जा के साथ चला सकता है। इससे स्पष्ट रूप से पता चलता है कि एलएलएम आर्किटेक्चर इतना मौलिक हो गया है कि अब इसके लिए विशेष हार्डवेयर बनाना सार्थक है। ग्रोक द्वारा ASIC (एप्लिकेशन-स्पेसिफिक इंटीग्रेटेड सर्किट)  हाल ही में, "   " शीर्षक से एक प्रकाशन सामने आया। आकार और कम्प्यूटेशनल मांग को कम करने के लिए तंत्रिका नेटवर्क का परिमाणीकरण एक सामान्य तरीका है। समाधान का सार फ्लोटिंग-पॉइंट नंबरों का उपयोग करके बड़े जीपीयू क्लस्टर पर प्रशिक्षण करना है, और फिर तैयार नेटवर्क के वजन को कम सटीक प्रारूप में परिवर्तित करना है, जो उपयोगकर्ता उपकरणों के प्रोसेसर को अधिक कुशलता से काम करने की अनुमति देता है। उदाहरण के लिए, प्रशिक्षण 16 या 32-बिट फ़्लोटिंग-पॉइंट नंबरों के साथ किया जाता है, जिन्हें बाद में तेज़ क्लाइंट-साइड संचालन के लिए 8 या 4-बिट फिक्स्ड-पॉइंट नंबरों में परिवर्तित किया जाता है। इस तरह, मॉडल मोबाइल या IoT डिवाइस पर भी अच्छा काम कर सकता है। इस परिमाणीकरण का एक चरम रूप तब होता है जब वज़न को 1-बिट संख्याओं में परिवर्तित किया जाता है। यह   हो सकता है, या जैसा कि प्रकाशन सुझाव देता है, मानों {-1,0,1} (इसलिए 1.58 बिट्स) का उपयोग करके। कोई सोच सकता है कि इस तरह का अत्यधिक परिमाणीकरण नेटवर्क को पूरी तरह से अनुपयोगी बना देगा, लेकिन वास्तव में, इसके विपरीत सच है; ये 1-बिट नेटवर्क असाधारण रूप से अच्छा प्रदर्शन करते हैं। 1-बिट एलएलएम का युग: सभी बड़े भाषा मॉडल 1.58 बिट्स में हैं पूर्ण बाइनरी रूपांतरण   यह इतनी बड़ी बात क्यों है?  यदि ये तीन मान वजन का प्रतिनिधित्व करने के लिए पर्याप्त हैं, तो गुणन, जो वर्तमान में तंत्रिका नेटवर्क में सबसे अधिक उपयोग किया जाने वाला ऑपरेशन है, अब आवश्यक नहीं है। यही कारण है कि GPU क्लस्टर का उपयोग तंत्रिका नेटवर्क के लिए किया जाता है, क्योंकि GPU बहुत कुशलता से गुणन कर सकता है। गुणन की आवश्यकता के बिना, जीपीयू की कोई आवश्यकता नहीं है, और मॉडल को सीपीयू पर भी कुशलतापूर्वक चलाया जा सकता है, या विशेष हार्डवेयर (एएसआईसी) बनाना संभव है जो (एनालॉग तरीके से भी) इन 1-बिट नेटवर्क को चला सकता है।  वर्तमान में, परिमाणीकरण एक प्रशिक्षण के बाद का ऑपरेशन है। इस प्रकार, 1-बिट नेटवर्क का उपयोग प्रशिक्षण प्रक्रिया को गति नहीं देता है। फिर भी, वे अभी भी उपयोगी हैं क्योंकि प्रशिक्षण एक बार का ऑपरेशन है, लेकिन तंत्रिका नेटवर्क को अनगिनत बार चलाया जाता है। नतीजतन, नेटवर्क चलाना प्रशिक्षण की तुलना में काफी अधिक ऊर्जा खपत का प्रतिनिधित्व करता है। इसलिए, प्रशिक्षण के संदर्भ में भी हमें इस तकनीक से लाभ हो सकता है।  चूंकि ग्रेडिएंट-आधारित प्रशिक्षण 1-बिट या बाइनराइज्ड नेटवर्क के साथ काम नहीं करता है, इसलिए गैर-ग्रेडिएंट-आधारित प्रौद्योगिकियां प्रासंगिक हो जाती हैं (   और   की जांच करें), जैसे आनुवंशिक एल्गोरिदम या अन्य ग्रेडिएंट-मुक्त प्रौद्योगिकियां। हालाँकि अधिकांश मामलों में बैकप्रॉपैगेशन ग्रेडिएंट-मुक्त समाधानों की तुलना में बहुत अधिक कुशल है, 1-बिट नेटवर्क को उनके फ़्लोटिंग-पॉइंट समकक्षों की तुलना में बहुत अधिक कुशलता से चलाया जा सकता है। तो, ऐसा हो सकता है कि बैकप्रॉपैगेशन के साथ, हम आनुवंशिक एल्गोरिदम की तुलना में फ्लोटिंग-पॉइंट नंबरों का उपयोग करके 10 गुना तेजी से इष्टतम नेटवर्क पाते हैं। लेकिन यदि 1-बिट नेटवर्क 20 गुना तेज चलता है, तो आनुवंशिक एल्गोरिदम का उपयोग करके प्रशिक्षण अभी भी दोगुना तेज होगा। यह जांचना कि 1-बिट नेटवर्क को ग्रेडिएंट-मुक्त तरीकों से कितने प्रभावी ढंग से प्रशिक्षित किया जा सकता है, एक बहुत ही दिलचस्प शोध विषय हो सकता है। नेवरग्रेड PyGAD  इस विषय के इतना आकर्षक होने का एक और कारण यह है कि ये नेटवर्क प्राकृतिक मस्तिष्क में पाए जाने वाले तंत्रिका नेटवर्क से अधिक मिलते-जुलते हैं (जैविक रूप से प्रशंसनीय)। इसलिए, मेरा मानना है कि एक अच्छा ग्रेडिएंट-मुक्त प्रशिक्षण एल्गोरिदम चुनकर और इन 1-बिट नेटवर्क को लागू करके, हम ऐसे सिस्टम बना सकते हैं जो मानव मस्तिष्क के समान हैं। इसके अलावा, यह ASIC से परे तकनीकी समाधानों की संभावना को खोलता है जो पहले संभव नहीं थे, जैसे एनालॉग, प्रकाश-आधारित, या यहां तक कि जैविक रूप से आधारित प्रोसेसर।  यह संभव है कि यह दिशा लंबे समय में एक गतिरोध साबित हो सकती है, लेकिन अभी के लिए, इसकी क्रांतिकारी क्षमता स्पष्ट है, जो इसे कृत्रिम बुद्धिमत्ता के क्षेत्र में शामिल किसी भी व्यक्ति के लिए एक बहुत ही आशाजनक अनुसंधान अवसर बनाती है।

The is an opinion piece based on the author’s POV and does not necessarily reflect the views of HackerNoon.

This story contains AI-generated text. The author has used AI either for research, to generate outlines, or write the text itself. 

2022 - HackerNoon Contributor of the Year - Dao

2022 - HackerNoon Contributor of the Year - Neural Networks

2022 - HackerNoon Contributor of the Year - Proof Of Stake

2022 - Ios Writer of the Year

Nominated for 2022 - HackerNoon Contributor of the Year - Neural Networks

Nominated for 2022 - HackerNoon Contributor of the Year - Proof Of Stake

Nominated for 2022 - HackerNoon Contributor of the Year - Dao

Nominated for 2022 - Ios Writer of the Year

यह ऑडियो कहानी की मूल भाषा में निर्मित है!

1-बिट भाषा मॉडल (एलएलएम) की क्रांतिकारी क्षमता

About Author

टिप्पणियाँ

लेबल

इस लेख में चित्रित किया गया था

Related Stories

हैकरनून कोडेड: शीर्ष 10 देश जहां हैकरनून सबसे अधिक सक्रिय है

HackerNoon एक बहुभाषी प्लेटफ़ॉर्म है: सभी शीर्ष कहानियाँ अब 13 भाषाओं में उपलब्ध हैं

AI की शक्ति को उन्मुक्त करना। अत्याधुनिक तकनीकों की एक व्यवस्थित समीक्षा: सार और परिचय

फ़ोरम से फ़ीड तक: सोशल मीडिया एल्गोरिदम डिजिटल इंटरैक्शन को कैसे आकार देते हैं

हैकरनून कोडेड: शीर्ष 10 देश जहां हैकरनून सबसे अधिक सक्रिय है

HackerNoon एक बहुभाषी प्लेटफ़ॉर्म है: सभी शीर्ष कहानियाँ अब 13 भाषाओं में उपलब्ध हैं

AI की शक्ति को उन्मुक्त करना। अत्याधुनिक तकनीकों की एक व्यवस्थित समीक्षा: सार और परिचय

फ़ोरम से फ़ीड तक: सोशल मीडिया एल्गोरिदम डिजिटल इंटरैक्शन को कैसे आकार देते हैं

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps