वर्तमान में, AI के प्रमुख खिलाड़ियों को दो प्रमुख समूहों में विभाजित किया जा सकता है: ओपन-सोर्स AI के समर्थक और क्लोज्ड AI के समर्थक।
दिलचस्प बात यह है कि बंद AI के सबसे बड़े समर्थकों में से एक OpenAI खुद है, जो अपने मॉडलों का स्रोत कोड जारी नहीं करता है, केवल उन तक पहुँच प्रदान करता है। वे आमतौर पर तर्क देते हैं कि इन मॉडलों को प्रकाशित करना बहुत खतरनाक होगा, इसलिए केंद्रीकृत नियंत्रण आवश्यक है, ठीक वैसे ही जैसे परमाणु ऊर्जा के मामले में होता है। जाहिर है, इस तर्क के लिए एक आधार है, लेकिन निर्णय के पीछे व्यावसायिक हितों को देखना मुश्किल नहीं है। यदि ChatGPT का स्रोत कोड सभी के लिए उपलब्ध होता, तो सेवा के लिए कौन भुगतान करता?!
इसके विपरीत, ओपन-सोर्स एआई के समर्थक, जैसे कि मेटा (फेसबुक), का मानना है कि बंद एआई प्रगति में बाधा डालता है और ओपन-सोर्स एआई सही दिशा है। बेशक, यहाँ व्यावसायिक पहलुओं को भी देखना उचित है। मेटा के लिए, एआई मॉडल मुख्य उत्पाद नहीं है। उनके लिए, एआई केवल एक उपकरण है, और मॉडल को साझा करना व्यावसायिक नुकसान नहीं है। इसके विपरीत, यह एक व्यावसायिक लाभ प्रदान करता है, क्योंकि मेटा बाद में समुदाय के विकास का उपयोग कर सकता है। हालाँकि, इस मॉडल के साथ एक छोटी सी समस्या भी है। यह वास्तव में ओपन-सोर्स नहीं है।
AI मॉडल अनिवार्य रूप से समायोज्य मापदंडों के साथ एक विशाल गणितीय समीकरण है। ये पैरामीटर प्रशिक्षण प्रक्रिया के दौरान सेट किए जाते हैं। जब भी कोई कंपनी ओपन-सोर्स AI के बारे में बात करती है, तो इसका मतलब है कि इन मापदंडों को स्वतंत्र रूप से सुलभ बनाया गया है ताकि कोई भी अपनी मशीन पर मॉडल चला सके। लेकिन यह पूरी तरह से ओपन-सोर्स नहीं है!
एआई के मामले में, प्रशिक्षण पारंपरिक कार्यक्रमों के निर्माण के समान है। इसके आधार पर, मॉडल पैरामीटर बाइनरी फ़ाइल का प्रतिनिधित्व करते हैं। इसलिए जब मेटा, एक्स (ट्विटर), या अन्य कंपनियां अपने मॉडल स्रोत को खुला बनाती हैं, तो वे वास्तव में केवल परिणाम दे रही होती हैं।
तो हमें एक निश्चित आर्किटेक्चर का पैरामीटराइजेशन मिलता है। अगर हम आर्किटेक्चर में कुछ भी बदलना या सुधारना चाहते हैं, उदाहरण के लिए, ट्रांसफॉर्मर आर्किटेक्चर के बजाय माम्बा आर्किटेक्चर का उपयोग करें, तो हमें मॉडल को फिर से प्रशिक्षित करना होगा, जो हम प्रशिक्षण सेट के बिना नहीं कर सकते। इसलिए, इन मॉडलों को केवल ठीक किया जा सकता है, आगे विकसित नहीं किया जा सकता।
तथाकथित ओपन-सोर्स मॉडल वास्तव में ओपन-सोर्स नहीं हैं, क्योंकि आर्किटेक्चर तय है। इन मॉडलों को केवल ठीक किया जा सकता है, लेकिन आगे विकसित नहीं किया जा सकता, क्योंकि इसके लिए प्रशिक्षण सेट की भी आवश्यकता होगी। सच्चे ओपन-सोर्स AI में मॉडल और प्रशिक्षण सेट दोनों शामिल हैं!
"ओपन-सोर्स" एआई मॉडल आम तौर पर बड़ी कंपनियों के उत्पाद होते हैं। यह समझ में आता है, क्योंकि एक बड़े मॉडल को प्रशिक्षित करने के लिए बहुत ज़्यादा कम्प्यूटेशनल क्षमता की ज़रूरत होती है और इसके परिणामस्वरूप, बहुत ज़्यादा पैसे की ज़रूरत होती है। केवल बड़ी कंपनियों के पास ही ऐसे संसाधन होते हैं, यही वजह है कि एआई विकास केंद्रीकृत होता है।
जिस प्रकार बिटकॉइन के रूप में ब्लॉकचेन प्रौद्योगिकी ने विकेन्द्रीकृत धन की संभावना पैदा की है, उसी प्रकार यह हमें वास्तव में ओपन-सोर्स एआई बनाने की भी अनुमति देता है, जिसका स्वामित्व किसी कंपनी के बजाय समुदाय के पास होता है।
यह आलेख इस बात पर आधारित है कि ब्लॉकचेन प्रौद्योगिकी का उपयोग करके वास्तव में ओपन-सोर्स, समुदाय-संचालित एआई कैसे विकसित किया जा सकता है।
जैसा कि मैंने पहले बताया, एक सच्चे ओपन-सोर्स AI की नींव एक ओपन डेटासेट है। डेटासेट वास्तव में सबसे मूल्यवान संसाधन है। उदाहरण के लिए, ChatGPT के मामले में, भाषा मॉडल को सार्वजनिक रूप से उपलब्ध डेटाबेस (जैसे, कॉमन क्रॉल) पर प्रशिक्षित किया गया था, और फिर बाद के चरण में मानव सहायता (RLHF) के साथ ठीक किया गया था। इसमें शामिल मानव श्रम के कारण यह फाइन-ट्यूनिंग बेहद महंगी है, लेकिन यही वह चीज है जो ChatGPT को इसकी ताकत देती है। आर्किटेक्चर अपने आप में (संभवतः) एक सामान्य ट्रांसफॉर्मर या इसका संशोधित संस्करण है, विशेषज्ञों का मिश्रण, जिसका अर्थ है कई समानांतर ट्रांसफॉर्मर। मुख्य बात यह है कि आर्किटेक्चर विशेष नहीं है। ChatGPT (और हर दूसरे मॉडल) को जो चीज अद्वितीय बनाती है, वह है अच्छा डेटासेट। यही वह चीज है जो मॉडल को इसकी शक्ति देती है।
एक AI प्रशिक्षण डेटासेट आम तौर पर कई टेराबाइट्स आकार का होता है, और इस तरह के डेटासेट में क्या शामिल किया जा सकता है या नहीं, यह समूह और संस्कृति के अनुसार अलग-अलग हो सकता है। डेटा का चुनाव बहुत महत्वपूर्ण है, क्योंकि यह, उदाहरण के लिए, एक बड़े भाषा मॉडल के 'व्यक्तित्व' को निर्धारित करेगा। कई बड़े घोटाले सामने आए हैं क्योंकि बड़ी कंपनियों (Google, Microsoft, आदि) के AI मॉडल ने नस्लवादी तरीके से व्यवहार किया है। यह डेटासेट के अनुचित चयन के कारण है। चूंकि डेटासेट की आवश्यकताएं संस्कृति के अनुसार अलग-अलग हो सकती हैं, इसलिए कई फोर्क्स आवश्यक हो सकते हैं। IPFS या Ethereum Swarm जैसे विकेंद्रीकृत, सामग्री-संबोधित संग्रहण समाधान ऐसे संस्करणित, बहु-फोर्क बड़े डेटासेट को संग्रहीत करने के लिए आदर्श हैं। ये संग्रहण समाधान GIT संस्करण नियंत्रण प्रणाली के समान काम करते हैं, जहाँ अलग-अलग फ़ाइलों को सामग्री से उत्पन्न हैश के साथ संबोधित किया जा सकता है। ऐसी प्रणालियों में, फोर्क्स को सस्ते में बनाया जा सकता है क्योंकि केवल परिवर्तनों को संग्रहीत करने की आवश्यकता होती है, और दो डेटासेट का सामान्य भाग एक ही उदाहरण में संग्रहीत होता है।
एक बार जब हमारे पास उपयुक्त डेटासेट आ जाए, तो हम मॉडल के प्रशिक्षण के लिए आगे बढ़ सकते हैं।
जैसा कि परिचय में बताया गया है, एक AI मॉडल अनिवार्य रूप से कई मुक्त मापदंडों वाला एक विशाल गणितीय समीकरण है। यह आम तौर पर सच है कि एक मॉडल में जितने अधिक मुक्त पैरामीटर होते हैं, वह उतना ही 'स्मार्ट' होता है, इसलिए मापदंडों की संख्या अक्सर मॉडल के नाम में इंगित की जाती है। उदाहरण के लिए, llma-2-7b मॉडल का मतलब है कि मॉडल आर्किटेक्चर llma-2 है और इसमें 7 बिलियन पैरामीटर हैं। प्रशिक्षण के दौरान, इन मापदंडों को डेटासेट का उपयोग करके सेट किया जाता है ताकि मॉडल दिए गए इनपुट के लिए निर्दिष्ट आउटपुट प्रदान करे। प्रशिक्षण के लिए बैकप्रोपेगेशन का उपयोग किया जाता है, जो आंशिक व्युत्पन्नों की मदद से सबसे उपयुक्त मापदंडों को ढूंढता है।
प्रशिक्षण के दौरान, डेटासेट को बैचों में विभाजित किया जाता है। प्रत्येक चरण में, एक दिया गया बैच इनपुट और आउटपुट पैरामीटर प्रदान करता है, और बैकप्रोपेगेशन का उपयोग यह गणना करने के लिए किया जाता है कि दिए गए इनपुट से दिए गए आउटपुट की सटीक गणना करने के लिए मॉडल के मापदंडों को कैसे संशोधित किया जाना चाहिए। इस प्रक्रिया को दिए गए डेटासेट पर कई बार दोहराया जाना चाहिए जब तक कि मॉडल वांछित सटीकता प्राप्त न कर ले। सटीकता की जाँच परीक्षण डेटासेट से की जा सकती है।
बड़ी कंपनियाँ विशाल GPU क्लस्टर पर प्रशिक्षण आयोजित करती हैं क्योंकि प्रशिक्षण के लिए बहुत अधिक कम्प्यूटेशनल क्षमता की आवश्यकता होती है। विकेंद्रीकृत प्रणाली में, एक अतिरिक्त चुनौती यह है कि व्यक्तिगत नोड्स अविश्वसनीय होते हैं, और अविश्वसनीयता के साथ हमेशा एक लागत जुड़ी होती है! यह अविश्वसनीयता ही है जिसके कारण बिटकॉइन में एक छोटे देश की ऊर्जा खपत होती है। बिटकॉइन प्रूफ़ ऑफ़ वर्क सर्वसम्मति का उपयोग करता है, जहाँ कम्प्यूटेशनल क्षमता विश्वसनीयता की जगह लेती है। व्यक्तिगत नोड्स पर भरोसा करने के बजाय, हम भरोसा करते हैं कि नेटवर्क में दुर्भावनापूर्ण नोड्स की तुलना में नेक इरादे वाले नोड्स में अधिक कम्प्यूटेशनल क्षमता होती है। सौभाग्य से, अन्य सहमति तंत्र हैं, जैसे कि एथेरियम द्वारा उपयोग किया जाने वाला प्रूफ़ ऑफ़ स्टेक, जहाँ दांव पर लगा पैसा कम्प्यूटेशनल क्षमता के बजाय हमारी विश्वसनीयता की गारंटी देता है। इस मामले में, बड़ी कम्प्यूटेशनल क्षमता की आवश्यकता नहीं है, जिसके परिणामस्वरूप ऊर्जा की मांग और पर्यावरणीय प्रभाव काफी कम हो जाते हैं।
विकेंद्रीकृत प्रशिक्षण में, प्रशिक्षण नोड और अनुरोधकर्ता के बीच विश्वास को बदलने के लिए कुछ तंत्र की आवश्यकता होती है। एक संभावित समाधान यह है कि प्रशिक्षण नोड संपूर्ण प्रशिक्षण प्रक्रिया का लॉग बनाए, और एक तीसरा पक्ष, एक सत्यापनकर्ता नोड, कुछ बिंदुओं पर लॉग को यादृच्छिक रूप से जांचता है। यदि सत्यापनकर्ता नोड को प्रशिक्षण संतोषजनक लगता है, तो प्रशिक्षण नोड को प्रस्तावित भुगतान प्राप्त होता है। सत्यापनकर्ता संपूर्ण लॉग की जांच नहीं कर सकता, क्योंकि इसका मतलब होगा सभी गणनाओं को फिर से करना, और सत्यापन की गणना संबंधी आवश्यकताएं प्रशिक्षण की आवश्यकताओं के बराबर होंगी।
दूसरा विकल्प आशावादी समाधान है, जहाँ हम मानते हैं कि नोड ने गणना सही ढंग से की है और एक चुनौती अवधि प्रदान करते हैं जिसके दौरान कोई भी अन्यथा साबित कर सकता है। इस मामले में, गणना करने वाला नोड एक बड़ी राशि (जुर्माना) लगाता है, और गणना का अनुरोध करने वाला नोड भी एक राशि (इनाम) लगाता है। नोड गणना करता है और फिर परिणाम प्रकाशित करता है। इसके बाद चुनौती अवधि (उदाहरण के लिए, 1 दिन) आती है। अगर किसी को इस अवधि के दौरान रैंडम जाँच के साथ गणना में कोई त्रुटि मिलती है और वह इसे प्रकाशित करता है, तो उसे कंप्यूटिंग नोड द्वारा लगाया गया जुर्माना मिलता है, और अनुरोधकर्ता को उसका इनाम वापस मिल जाता है। अगर चुनौती अवधि के दौरान कोई भी यह साबित नहीं कर पाता है कि गणना गलत है, तो कंप्यूटिंग नोड को इनाम मिलता है।
शून्य-ज्ञान प्रमाणों का एक प्रकार है जिसे zkSNARK कहा जाता है, जो यह सत्यापित करने के लिए भी उपयुक्त है कि किसी ने गणना की है। इस पद्धति का मुख्य लाभ यह है कि सत्यापन सस्ते में किया जा सकता है, लेकिन प्रमाण उत्पन्न करना एक कम्प्यूटेशनल रूप से गहन कार्य है। चूँकि यह विधि सरल गणनाओं के लिए भी बहुत महंगी है, इसलिए इसे प्रशिक्षण की तुलना में AI प्रशिक्षण के लिए काफी अधिक कम्प्यूटेशनल संसाधनों की आवश्यकता होगी, इसलिए हम वर्तमान में इस उद्देश्य के लिए इसका उपयोग नहीं कर सकते हैं। फिर भी, zkML एक सक्रिय शोध क्षेत्र है, और यह कल्पना की जा सकती है कि भविष्य में, तीसरे पक्ष को SNARK को सत्यापित करने वाले स्मार्ट अनुबंध द्वारा प्रतिस्थापित किया जा सकता है।
उपरोक्त से यह स्पष्ट है कि गणनाओं को सत्यापित करने के लिए कई समाधान हैं। इनके आधार पर, आइए देखें कि हमारा ब्लॉकचेन-आधारित विकेंद्रीकृत प्रशिक्षण सहायता सिस्टम कैसे बनाया जाएगा।
इस प्रणाली में, डेटासेट का स्वामित्व DAO के माध्यम से समुदाय के पास होता है। DAO तय करता है कि डेटासेट में कौन सा डेटा शामिल किया जा सकता है। यदि सदस्यों का एक समूह निर्णय से असहमत है, तो वे DAO से अलग हो सकते हैं और एक नया DAO बना सकते हैं, जहाँ वे मौजूदा डेटासेट को फोर्क करते हैं और इसे स्वतंत्र रूप से बनाना जारी रखते हैं। इस प्रकार, DAO को डेटासेट के साथ फोर्क किया जाता है। चूँकि डेटासेट को कंटेंट-एड्रेस्ड विकेन्द्रीकृत स्टोरेज (जैसे, एथेरियम स्वार्म) में संग्रहीत किया जाता है, इसलिए फोर्किंग महंगा नहीं है। डेटासेट के भंडारण का वित्तपोषण समुदाय द्वारा किया जाता है।
प्रशिक्षण प्रक्रिया को भी DAO द्वारा नियंत्रित किया जाता है। DAO के माध्यम से, प्रशिक्षण नोड जो अपनी अतिरिक्त कम्प्यूटेशनल क्षमता को बेचना चाहते हैं, वे पंजीकरण कर सकते हैं। आवेदन करने के लिए, उन्हें स्मार्ट अनुबंध में हिस्सेदारी रखनी होगी। यदि कोई नोड कम्प्यूटेशन के दौरान धोखा देने का प्रयास करता है, तो वह यह हिस्सेदारी खो देगा।
अनुरोधकर्ता उस डेटासेट और मॉडल का चयन करता है जिसे वे प्रशिक्षित करना चाहते हैं और फिर एक इनाम प्रदान करता है। यह प्रस्ताव सार्वजनिक है, इसलिए कोई भी प्रशिक्षण नोड कार्य करने के लिए आवेदन कर सकता है। प्रशिक्षण नोड प्रशिक्षण प्रक्रिया का एक पूरा लॉग बनाता है, जहाँ प्रत्येक प्रविष्टि एक बैच के प्रशिक्षण से मेल खाती है। प्रविष्टि में इनपुट, आउटपुट, वेट मैट्रिक्स और सभी प्रासंगिक पैरामीटर शामिल हैं (उदाहरण के लिए, ड्रॉपआउट लेयर द्वारा ड्रॉप किए जाने वाले डेटा का चयन करने के लिए उपयोग किया जाने वाला यादृच्छिक बीज)। इस प्रकार, संपूर्ण गणना लॉग के आधार पर पुन: प्रस्तुत की जा सकती है।
जैसा कि पहले बताया गया है, गणना को सत्यापित करने के लिए कई तरीकों का इस्तेमाल किया जा सकता है। सबसे सरल तरीका आशावादी दृष्टिकोण है। इस मामले में, अनुरोधकर्ता स्मार्ट अनुबंध में इनाम रखता है, और प्रशिक्षण नोड प्रशिक्षण लॉग प्रकाशित करता है। प्रकाशन के बाद, गणना को सत्यापित करने के लिए एक निर्दिष्ट समय सीमा (जैसे, 1 दिन) उपलब्ध है। यदि इस समय के दौरान अनुरोधकर्ता या कोई अन्य व्यक्ति यह प्रमाण प्रस्तुत करता है कि कोई विशेष चरण गलत है, तो प्रशिक्षण नोड अपनी हिस्सेदारी खो देता है, और अनुरोधकर्ता को इनाम वापस मिल जाता है। इस मामले में, जो नोड सही प्रमाण प्रस्तुत करता है, उसे हिस्सेदारी मिलती है, जिससे सभी को गणनाओं को मान्य करने के लिए प्रोत्साहन मिलता है। यदि कोई भी ऐसा प्रमाण प्रस्तुत नहीं करता है, तो प्रशिक्षण नोड को समय समाप्त होने के बाद इनाम मिलता है।
संक्षेप में कहें तो यह सिस्टम इसी तरह काम करता है। बेशक, कुछ सवाल उठते हैं।
सिस्टम का व्यवसाय मॉडल अधिकांश मुफ़्त और ओपन-सोर्स समाधानों, जैसे कि लिनक्स व्यवसाय मॉडल के समान है। अगर किसी कंपनी को किसी मॉडल की ज़रूरत है और उसे इसके मुफ़्त और ओपन-सोर्स होने से कोई समस्या नहीं है, तो अपने खुद के मॉडल को प्रशिक्षित करने की तुलना में इसमें निवेश करना ज़्यादा किफ़ायती है। कल्पना करें कि 10 कंपनियों को एक ही भाषा मॉडल की ज़रूरत है। अगर उन्हें मॉडल के खुले होने से कोई परेशानी नहीं है, तो प्रत्येक के लिए प्रशिक्षण लागत का 1/10 हिस्सा चुकाना ज़्यादा किफ़ायती है बजाय इसके कि प्रत्येक पूरी राशि का भुगतान करे। यही बात प्रशिक्षण के लिए आधार बनाने वाले डेटासेट पर भी लागू होती है। मॉडल को प्रशिक्षित करने के लिए क्राउडफ़ंडिंग अभियान भी बनाए जा सकते हैं, जहाँ मॉडल के भावी उपयोगकर्ता इसके विकास में योगदान दे सकते हैं।
चूंकि ऐसी प्रणाली में कीमतें बाजार द्वारा नियंत्रित होती हैं, इसलिए इसका निश्चित उत्तर देना मुश्किल है। यह इस बात पर निर्भर करता है कि उपयोगकर्ताओं के लिए कितनी निःशुल्क कम्प्यूटेशनल क्षमता उपलब्ध है। हम बिटकॉइन के साथ समुदाय की शक्ति को पहले ही देख चुके हैं। बिटकॉइन नेटवर्क की कम्प्यूटेशनल क्षमता किसी भी सुपरकंप्यूटर से अधिक है। क्लाउड प्रदाताओं को लाभ कमाने की आवश्यकता होती है, जबकि इस तरह की विकेंद्रीकृत प्रणाली में, उपयोगकर्ता अपनी अतिरिक्त कम्प्यूटेशनल क्षमता प्रदान करते हैं। उदाहरण के लिए, शक्तिशाली गेमिंग पीसी वाला कोई व्यक्ति जब खेल नहीं रहा होता है, तो अपनी अतिरिक्त क्षमता प्रदान कर सकता है। इस मामले में, यदि सेवा उपयोग की गई ऊर्जा से थोड़ी अधिक उत्पन्न करती है, तो यह उपयोगकर्ता के लिए पहले से ही सार्थक है। इसके अतिरिक्त, दुनिया में बहुत सारी बेकार ऊर्जा है जिसका पारंपरिक तरीकों से उपयोग नहीं किया जा सकता है। इसका एक उदाहरण ज्वालामुखियों द्वारा उत्पादित तापीय ऊर्जा है। इन स्थानों पर आमतौर पर एक स्थापित विद्युत ग्रिड नहीं होता है, जिससे वे उपयोग करने योग्य बिजली उत्पन्न करने के लिए अनुपयुक्त हो जाते हैं। बिटकॉइन माइनिंग के लिए इस ऊर्जा का उपयोग करने वाले स्टार्टअप पहले से ही हैं। इसका उपयोग 'इंटेलिजेंस माइनिंग' के लिए क्यों नहीं किया जाता? चूँकि इस मामले में ऊर्जा लगभग मुफ़्त है, इसलिए केवल हार्डवेयर की लागत को कवर करने की आवश्यकता है। इस प्रकार, यह स्पष्ट है कि ऐसे कई कारक हैं जो इस तरह के विकेन्द्रीकृत सिस्टम में प्रशिक्षण को क्लाउड की तुलना में बहुत सस्ता बना सकते हैं।
AI मॉडल चलाने के मामले में, गोपनीयता एक बहुत ही महत्वपूर्ण मुद्दा है। बड़े सेवा प्रदाता स्वाभाविक रूप से गारंटी देते हैं कि वे हमारे डेटा को गोपनीय रूप से संभालते हैं, लेकिन क्या हम यह सुनिश्चित कर सकते हैं कि ChatGPT के साथ हमारी बातचीत पर कोई भी नज़र नहीं रख रहा है? ऐसे तरीके हैं (जैसे, होमोमोर्फिक एन्क्रिप्शन) जो सर्वर को एन्क्रिप्टेड डेटा पर गणना करने की अनुमति देते हैं, लेकिन इनमें उच्च ओवरहेड होते हैं। सबसे सुरक्षित समाधान स्थानीय रूप से मॉडल चलाना है। सौभाग्य से, हार्डवेयर मजबूत हो रहा है, और AI चलाने के लिए पहले से ही विशेष हार्डवेयर समाधान हैं। मॉडल खुद भी काफी हद तक बेहतर हो रहे हैं। शोध से पता चलता है कि कई मामलों में, क्वांटिज़ेशन के बाद भी प्रदर्शन में बहुत गिरावट नहीं आती है, यहाँ तक कि चरम मामलों में भी जहाँ वज़न को दर्शाने के लिए केवल 1.5 बिट्स का उपयोग किया जाता है। यह बाद वाला समाधान विशेष रूप से आशाजनक है क्योंकि यह गुणन को समाप्त करता है, जो सबसे महंगा ऑपरेशन है। इस प्रकार, भविष्य में, मॉडल और हार्डवेयर के विकास के लिए धन्यवाद, हम स्थानीय रूप से मानव स्तर से आगे के मॉडल चलाने की संभावना रखते हैं। इसके अलावा, हम इन मॉडलों को LoRA जैसे समाधानों के साथ अपनी पसंद के अनुसार अनुकूलित कर सकते हैं।
एक और बहुत ही आशाजनक दिशा पुनर्प्राप्ति-संवर्धित पीढ़ी (RAG) है। इसका मतलब है कि 'शब्दावली ज्ञान' एक वेक्टर डेटाबेस में संग्रहीत है, और हमारा भाषा मॉडल दिए गए प्रश्न के लिए इस डेटाबेस से उपयुक्त संदर्भ एकत्र करता है। यह बहुत हद तक हम मनुष्यों के काम करने के तरीके के समान है। स्पष्ट रूप से, कोई भी व्यक्ति संपूर्ण शब्दकोश को याद नहीं रखता है। जब कोई प्रश्न पूछा जाता है, तो यह जानना पर्याप्त होता है कि आवश्यक ज्ञान कहाँ मिलेगा। प्रासंगिक प्रविष्टियों को पढ़कर और उनकी व्याख्या करके, हम एक सुसंगत उत्तर प्रदान कर सकते हैं। इस समाधान के कई फायदे हैं। एक तरफ, एक छोटा मॉडल पर्याप्त है, जिसे स्थानीय रूप से चलाना आसान है, और दूसरी तरफ, भाषा मॉडल के साथ एक बड़ी समस्या, मतिभ्रम को कम किया जा सकता है। इसके अतिरिक्त, मॉडल के ज्ञान को बिना किसी पुनर्प्रशिक्षण के आसानी से बढ़ाया जा सकता है, बस वेक्टर डेटाबेस में नया ज्ञान जोड़कर। एथेरियम स्वार्म ऐसे वेक्टर डेटाबेस बनाने के लिए एक आदर्श समाधान है, क्योंकि यह न केवल एक विकेन्द्रीकृत भंडारण इंजन है, बल्कि एक संचार समाधान भी है। उदाहरण के लिए, समूह संदेश को स्वार्म पर लागू किया जा सकता है, जिससे एक सरल वितरित वेक्टर डेटाबेस का निर्माण संभव हो जाता है। नोड खोज क्वेरी प्रकाशित करता है, और अन्य नोड्स संबंधित ज्ञान लौटाकर प्रतिक्रिया देते हैं।
एलएलएम ओएस का विचार आंद्रेज कारपैथी से आया है, जिसे उन्होंने ट्विटर पर प्रकाशित किया था। एलएलएम ओएस एक काल्पनिक ऑपरेटिंग सिस्टम है जो एक बड़े भाषा मॉडल के आसपास केंद्रित है। हमारे ब्लॉकचेन-आधारित वितरित सिस्टम में, हम इसे उपयोगकर्ता के नोड पर चलने वाले एजेंट के रूप में मान सकते हैं। यह एजेंट अन्य एजेंटों और पारंपरिक सॉफ्टवेयर 1.0 उपकरणों के साथ संवाद कर सकता है। इनमें कैलकुलेटर, पायथन इंटरप्रेटर या यहां तक कि एक भौतिक रोबोट, कार या स्मार्ट होम को नियंत्रित करना शामिल हो सकता है। हमारे सिस्टम में, फ़ाइल सिस्टम को स्वार्म और स्वार्म पर बनाए गए वेक्टर डेटाबेस द्वारा दर्शाया जाता है, जहाँ सामान्य ज्ञान सुलभ होता है। संपूर्ण सिस्टम (एजेंटों का समूह) को सामूहिक बुद्धिमत्ता के रूप में देखा जा सकता है।
मेरा मानना है कि भविष्य में आर्टिफिशियल इंटेलिजेंस हमारी रोज़मर्रा की ज़िंदगी का हिस्सा बन जाएगा, आज की तुलना में कहीं ज़्यादा अभिन्न रूप से। AI हमारा हिस्सा बन जाएगा! मोबाइल फ़ोन की जगह हम स्मार्ट ग्लास पहनेंगे, जिसमें कैमरे होंगे जो सब कुछ रिकॉर्ड करेंगे और माइक्रोफ़ोन होंगे जो सब कुछ सुनेंगे। हम अपने स्थानीय रूप से चल रहे भाषा मॉडल और दूसरे एजेंटों के साथ लगातार संवाद करेंगे, जो समय के साथ फाइन-ट्यूनिंग के ज़रिए हमारी ज़रूरतों के हिसाब से ढल जाएँगे। लेकिन ये एजेंट सिर्फ़ हमसे ही नहीं बल्कि एक-दूसरे से भी संवाद करेंगे, पूरे समुदाय द्वारा उत्पादित सामूहिक ज्ञान का लगातार उपयोग करते हुए। यह सिस्टम मानवता को सामूहिक बुद्धिमत्ता के रूप में संगठित करेगा, जो एक बहुत ही महत्वपूर्ण बात है। इस सामूहिक बुद्धिमत्ता का किसी एक कंपनी या इकाई की संपत्ति बन जाना स्वीकार्य नहीं है। इसलिए हमें ऊपर बताए गए सिस्टम या इसी तरह के सिस्टम की ज़रूरत है!