यह एलएलएम उर्फ एआई और इतिहास में हमारे वर्तमान बिंदु पर विशेष ध्यान देने के साथ मशीन सीखने की तकनीक की वर्तमान स्थिति पर कुछ सप्ताहांत प्रतिबिंबों वाला एक निबंध है।
इससे पहले कि हम इस रोमांचक विलक्षणता में कूदें, मैं यह उल्लेख करना चाहता हूं कि, एक निबंध के रूप में, यह एक अधिक व्यक्तिगत और कम औपचारिक लेखन है, जो प्राकृतिक भाषा के विकास को समझने पर मेरे दृष्टिकोण को साझा करता है और कुछ विचारों को उजागर करता है जो उस संदर्भ में महत्वपूर्ण लगते हैं। . यह एक व्यापक उद्योग रिपोर्ट नहीं है और न ही यह एक होने का मतलब था, लेकिन मुझे उम्मीद है कि यह मशीन लर्निंग इंजीनियर्स और वर्तमान एआई उत्थान में रुचि रखने वाले व्यापक दर्शकों के लिए एक दिलचस्प रीडिंग होगी।
कहानी के तीन भाग हैं:
इतिहास का हिस्सा हमें संक्षेप में याद दिलाता है कि हम केवल बारह वर्षों में एक बहुपरत परसेप्ट्रॉन से अपने वर्तमान एजीआई राज्य में कैसे पहुंचे।
वर्तमान समय का खंड एलएलएम की नवीनतम उपलब्धियों और वर्तमान उद्योग प्रवृत्तियों पर केंद्रित है। यदि आप संदर्भ में गहरे हैं और कुछ नए विचारों की तलाश कर रहे हैं, तो उस भाग को छोड़ दें।
रहस्य का हिस्सा कुछ विचार प्रस्तुत करता है कि वर्तमान एजीआई चरण का पालन क्या हो सकता है।
इसलिए, सबसे पहले, मशीन लर्निंग कुछ समय के लिए, लगभग एक दशक या दो दशक के आसपास रहा है, यह इस बात पर निर्भर करता है कि आप टॉमस मिकोलोव के word2vec प्रकाशन से गिनती करते हैं या कौरसेरा पर एंड्रयू एनजी के मशीन लर्निंग कोर्स से। कागल को 2010 में लॉन्च किया गया था, और फी-फी ली ने 2009 में इमेजनेट इकट्ठा किया था। बहुत पहले नहीं, आप शायद सहमत होंगे यदि आप 30 से अधिक हैं।
कुछ लोग यह तर्क देंगे कि मशीन लर्निंग बहुत लंबे समय से है, लेकिन अब मैं गहन शिक्षण एल्गोरिदम उर्फ प्रौद्योगिकी गति को अपनाने के बारे में बात कर रहा हूं, न कि शुद्ध शोध के बारे में। और यहां हम scikitlearn में शामिल क्लासिक एमएल एल्गोरिदम, सभी प्रतिगमन, क्लस्टरिंग, और समय श्रृंखला की भविष्यवाणी करने वाली चीजों को नहीं छू रहे हैं। वे चुपचाप अपना महत्वपूर्ण काम कर रहे हैं लेकिन लोग उन्हें एआई नहीं कहते, चारों ओर कोई प्रचार नहीं, आप जानते हैं।
12 साल पहले एआई स्प्रिंग क्यों हुआ? डीप लर्निंग (त्रुटियों के प्रसार के साथ एक बहु-परत तंत्रिका नेटवर्क का प्रशिक्षण) आखिरकार एक औसत जीपीयू पर संभव हो गया। 2010 में सबसे सरल न्यूरल नेटवर्क आर्किटेक्चर, एक मल्टी-लेयर परसेप्ट्रॉन, ने हस्तलिखित अंकों की पहचान (प्रसिद्ध MNIST डेटासेट) में अन्य एल्गोरिदम को पछाड़ दिया था, जिसका परिणाम Juergen Schmidhuber et al द्वारा प्राप्त किया गया था ।
उस बिंदु से 2010 के आसपास, प्रौद्योगिकी अधिक से अधिक मजबूत हो गई। कुछ गेम-चेंजिंग मोमेंट्स रहे हैं - कहा गया है कि word2vec मॉडल रिलीज़ जो नेचुरल लैंग्वेज प्रोसेसिंग (NLP) की दुनिया में सिमेंटिक समझ लाती है, थोड़ी देर बाद Tensorflow और Keras डीप लर्निंग फ्रेमवर्क की सार्वजनिक रिलीज़, और निश्चित रूप से, का आविष्कार 2017 में ट्रांसफॉर्मर , जो अभी भी एक SOTA न्यूरल नेटवर्क आर्किटेक्चर है, एनएलपी की दुनिया से परे विस्तारित है। ऐसा क्यों? क्योंकि ट्रांसफॉर्मर का ध्यान है और ओ (एन 2) जटिलता वाले ग्रंथों जैसे अनुक्रमों को संभालने में सक्षम है जो मैट्रिक्स गुणा दृष्टिकोण द्वारा सक्षम है जिससे हमें पूरे इनपुट अनुक्रम को देखने की अनुमति मिलती है। मेरी राय में ट्रांसफॉर्मर की सफलता का दूसरा कारण लचीला एनकोडर-डिकोडर आर्किटेक्चर है जो हमें संयुक्त रूप से और अलग-अलग मॉडल (अनुक्रम-से-अनुक्रम या अनुक्रम-टू-वेक्टर) को प्रशिक्षित करने और उपयोग करने की अनुमति देता है।
OpenAI GPT परिवार के मॉडल (ट्रांसफॉर्मर डिकोडर) ने तकनीकी उद्योग से परे कुछ शोर मचाया है क्योंकि GPT-3 पहले से ही काफी मानवीय ग्रंथों का उत्पादन कर सकता था और कुछ-शॉट और कुछ शून्य-शॉट सीखने में सक्षम था। अंतिम भाग अधिक महत्वपूर्ण है, GPT-3 पेपर का नाम "लैंग्वेज मॉडल्स फ्यू-शॉट लर्नर्स" भी है - उदाहरणों से जल्दी से सीखने के लिए बड़े भाषा मॉडल की यह क्षमता पहली बार 2020 में OpenAI द्वारा बताई गई थी।
लेकिन धमाका!
ChatGPT की रिलीज प्रचार के साथ आई है जिसे हमने पहले कभी नहीं देखा, अंत में भारी जनता का ध्यान आकर्षित किया। और अब, GPT-4 उससे आगे जा रहा है।
ऐसा क्यों? पिछले 7 वर्षों से, चूंकि तंत्रिका नेटवर्क ने अच्छे परिणाम दिखाना शुरू कर दिया है, जिसे हम एआई कह रहे हैं, वह वास्तव में एक संकीर्ण कृत्रिम बुद्धिमत्ता थी - हमारे मॉडल को कुछ विशिष्ट कार्यों को हल करने के लिए प्रशिक्षित किया गया था - वस्तुओं को पहचानना, वर्गीकरण करना या निम्नलिखित टोकन की भविष्यवाणी करना क्रम में। और लोग केवल एजीआई का सपना देख रहे हैं - एक कृत्रिम सामान्य बुद्धि, जो मानव स्तर पर कई कार्यों को पूरा करने में सक्षम है।
वास्तव में, निर्देश-आधारित एलएलएम ट्यूनिंग के साथ क्या हुआ, या, जैसा कि वे इसे ओपनएआई में कहते हैं, मानव प्रतिक्रिया से सुदृढीकरण सीखना -
GPT-3.5+ मॉडल ने अंततः प्रदान की गई जानकारी पर तर्क करने की क्षमता सीख ली । और यह चीजों को बदलता है - पहले एलएलएम एक अच्छे सांख्यिकीय तोते के करीब थे, लेकिन अभी भी बहुत सारे अनुप्रयोगों जैसे कि टेक्स्ट एम्बेडिंग, वेक्टर खोज, चैटबॉट आदि के लिए बहुत उपयोगी हैं, लेकिन निर्देश-आधारित प्रशिक्षण के साथ, वे प्रभावी रूप से मनुष्यों से तर्क करना सीखते हैं। .
वास्तव में तर्क क्या है?
कुछ तार्किक संचालन के माध्यम से निष्कर्ष निकालने के लिए प्रदान की गई जानकारी का उपयोग करने की क्षमता। कहें कि A, B से जुड़ा है और B, C से जुड़ा है, तो क्या A, C से जुड़ा है? GPT-4 उनके आधिकारिक उत्पाद पृष्ठ पर एक अधिक जटिल तर्क का उदाहरण पेश करता है। मॉडल की तर्क करने की क्षमता इतनी मजबूत और लचीली है कि यह "सामान्य ज्ञान" या "सामान्य ज्ञान" का उपयोग करके दिए गए लक्ष्य को प्राप्त करने के लिए निर्देशों या तार्किक संचालन का एक संरचित अनुक्रम उत्पन्न कर सकता है, न कि केवल प्रदान की गई जानकारी शीघ्र में।
ऐसी तर्क क्षमता वाले एलएलएम से पहले, तर्क के लिए अच्छी तरह से डिज़ाइन किया गया अन्य उपकरण एक ज्ञान ग्राफ था , जिसमें संस्थाओं और किनारों को विधेय या संस्थाओं के संबंध के रूप में शामिल किया गया था। यह सूचना भंडारण का एक रूप है जो स्पष्ट तर्क क्षमता प्रदान करता है। किसी बिंदु पर, मैं एक प्रश्न-उत्तर प्रणाली के निर्माण में शामिल था, जिसमें अन्य बातों के अलावा, पूछी गई जानकारी को खोजने के लिए एक ज्ञान ग्राफ का उपयोग किया गया था - आपको केवल इरादे का पता लगाना था, देखें कि क्या ग्राफ में हमारे इस तरह के संबंध हैं, के लिए जाँच करें उल्लेखित विशेष संस्थाएं, और, यदि वे मौजूद हैं, तो इस सबग्राफ को क्वेरी करें। वास्तव में, इस पाइपलाइन ने प्राकृतिक भाषा में क्वेरी का एक SPARQL क्वेरी में अनुवाद प्रदान किया।
अब आप इस तथ्यात्मक जानकारी को अपने प्रांप्ट के संदर्भ भाग के रूप में सादे पाठ में मॉडल को प्रदान कर सकते हैं और यह इसे शून्य-शॉट में "सीख" लेगा और उस पर तर्क करने में सक्षम होगा। वाह, सही?
और आप ग्राफ़ में निहित संस्थाओं और संबंध प्रकारों की संख्या तक सीमित नहीं हैं। साथ ही, आपके पास "सामान्य ज्ञान", हमारी दुनिया की अवधारणाओं और उनके संबंधों की सामान्य समझ है, जो मशीन सीखने के मॉडल को मानव अनुभूति से अलग करने का सबसे पेचीदा हिस्सा था। हमने यह भी ध्यान नहीं दिया कि कैसे हम प्राकृतिक भाषा में निर्देश देने में सक्षम हो गए और वे बहुत स्पष्ट स्पष्टीकरण के बिना सही ढंग से काम करने लगे।
रीजनिंग प्लस नॉलेज, इंटेलिजेंस के दो महत्वपूर्ण घटक हैं। पिछले 20 वर्षों से, हमने लगभग सभी मानव ज्ञान को विकिपीडिया, वैज्ञानिक प्रकाशनों, सेवा विवरणों, ब्लॉगों, कोड की अरबों पंक्तियों और स्टैकओवरफ़्लो उत्तरों, और सोशल मीडिया में अरबों राय के रूप में इंटरनेट पर डाल दिया है।
अब हम उस ज्ञान से तर्क कर सकते हैं।
GPT4 पर आधिकारिक OpenAI टेक रिपोर्ट में इन तर्क क्षमताओं का अच्छी तरह से प्रदर्शन किया गया है:
GPT-4 इनमें से अधिकांश व्यावसायिक और शैक्षणिक परीक्षाओं में मानव-स्तर के प्रदर्शन को प्रदर्शित करता है। विशेष रूप से, यह परीक्षार्थियों के शीर्ष 10% में स्कोर के साथ यूनिफ़ॉर्म बार परीक्षा का सिम्युलेटेड संस्करण पास करता है।
कई मानव परीक्षणों पर GPT-4 के परिणामों के अनुसार, हम कहीं न कहीं AGI के आसपास हैं - OpenAI इन शब्दों का उपयोग अपने वेबपेज पर भी करता है, और हाल ही में Microsoft 150+ पेज का पेपर GPT-4 क्षमताओं के गहन अध्ययन के साथ अलग-अलग "स्पार्क्स ऑफ़ आर्टिफिशियल जनरल इंटेलिजेंस: अर्ली एक्सपेरिमेंट्स विथ GPT-4" नाम के डोमेन सावधानीपूर्वक लेकिन स्पष्ट रूप से दावा करते हैं कि AGI यहाँ है:
GPT-4 की क्षमताओं की चौड़ाई और गहराई को देखते हुए, हम मानते हैं कि इसे कृत्रिम सामान्य बुद्धि (AGI) प्रणाली के प्रारंभिक (अभी तक अपूर्ण) संस्करण के रूप में देखा जा सकता है।
और बाद में:
GPT-4 की क्षमताओं की व्यापकता का संयोजन, डोमेन के व्यापक क्षेत्र में फैली कई क्षमताओं के साथ, और मानव-स्तर पर या उससे परे कार्यों के व्यापक स्पेक्ट्रम पर इसका प्रदर्शन, हमें यह कहने में सहज बनाता है कि GPT-4 एक महत्वपूर्ण कदम है एजीआई की ओर।
उस दावे का कारण है:
विशुद्ध रूप से एक भाषा मॉडल होने के बावजूद, GPT-4 का यह प्रारंभिक संस्करण अमूर्तता, समझ, दृष्टि, कोडिंग, गणित, चिकित्सा, कानून, मानवीय उद्देश्यों और भावनाओं की समझ सहित विभिन्न डोमेन और कार्यों पर उल्लेखनीय क्षमताओं का प्रदर्शन करता है, और अधिक।
और इसे कील करने के लिए:
हालांकि, पहले कदम के रूप में, GPT-4 मशीन इंटेलिजेंस के बारे में व्यापक रूप से आयोजित धारणाओं की एक बड़ी संख्या को चुनौती देता है, और उभरते हुए व्यवहार और क्षमताओं को प्रदर्शित करता है, जिनके स्रोत और तंत्र इस समय ठीक से समझ पाना मुश्किल है <…>। इस पेपर को तैयार करने में हमारा प्राथमिक लक्ष्य हमारे मूल्यांकन के समर्थन में GPT-4 की क्षमताओं और सीमाओं की हमारी खोज को साझा करना है कि एक तकनीकी छलांग हासिल की गई है। हम मानते हैं कि GPT-4 की बुद्धिमत्ता कंप्यूटर विज्ञान और उससे आगे के क्षेत्र में एक सच्चे प्रतिमान बदलाव का संकेत देती है।
मैं अत्यधिक अनुशंसा करता हूं कि आप इस अध्ययन के साथ कुछ समय बिताएं क्योंकि इन जोरदार दावों के पीछे एक बहुत ही दिलचस्प विश्लेषण है कि मॉडल कैसे काम करते हैं और विभिन्न डोमेन से विभिन्न प्रकार के गैर-तुच्छ कार्यों पर GPT-4 की चैटजीपीटी परिणामों की व्यापक तुलना करते हैं।
यदि हमें कुछ विशिष्ट सूचनाओं पर निष्कर्ष निकालने के लिए एलएलएम की तर्क क्षमता को लागू करने की आवश्यकता है , जो प्रशिक्षण के दौरान मॉडल द्वारा सीखे जाने की उम्मीद नहीं है, तो हम किसी भी प्रकार की खोज-पुनर्प्राप्ति प्लस रैंकिंग तंत्र का उपयोग कर सकते हैं , भले ही आप अपने डेटा को वेक्टर एम्बेडिंग के रूप में संग्रहीत करते हों। कुछ ANN इंडेक्स जैसे Faiss या पुराने स्कूल के फुल-टेक्स्ट इंडेक्स जैसे Elastic - और फिर इन खोज परिणामों को एक LLM को एक संदर्भ के रूप में फीड करें, इसे एक प्रॉम्प्ट में इंजेक्ट करें। Bing 2.0 और Bard (अब PaLM2 द्वारा संचालित) की खोजें अब इसी तरह की हैं।
मैंने इस खोज + एलएलएम कॉल सिस्टम को डीपीआर आर्किटेक्चर के साथ लागू किया है, जहां चैटजीपीटी ने रीडर मॉडल को बदल दिया है, और पूर्ण-पाठ लोचदार खोज के साथ, दोनों ही मामलों में, सिस्टम की समग्र गुणवत्ता आपके पास मौजूद डेटा की गुणवत्ता पर निर्भर करती है। आपकी अनुक्रमणिका — यदि यह विशिष्ट और पूर्ण है, तो आप वैनिला चैटजीपीटी द्वारा प्रदान किए जाने वाले उत्तरों से बेहतर उत्तरों पर भरोसा कर सकते हैं।
कुछ लोग GPT के आसपास एक स्विस नाइफ लाइब्रेरी बनाने में भी कामयाब रहे, इसे वेक्टर डेटाबेस कहते हैं, और उस पर एक अच्छा दौर बढ़ाते हैं - मेरी टोपी चली जाती है!
लेकिन GPT मॉडल के पाठ्य इंटरफ़ेस के कारण, आप इसके चारों ओर कुछ भी बना सकते हैं जिससे आप परिचित हैं, किसी एडेप्टर की आवश्यकता नहीं है।
प्रश्नों में से एक जो आगे के मॉडल की प्रगति के लिए एक सुराग दे सकता है कि ये बड़े मॉडल वास्तव में कैसे सीखते हैं और मॉडल वज़न में उन प्रभावशाली तर्क क्षमताओं को कहाँ संग्रहीत किया जाता है।
इस हफ्ते OpenAI ने एक पेपर जारी किया है "भाषा मॉडल भाषा मॉडल में न्यूरॉन्स की व्याख्या कर सकते हैं" और एक ओपन-सोर्स प्रोजेक्ट है जिसका उद्देश्य एलएलएम की परतों को छीलकर इन सवालों का जवाब देना है। जिस तरह से यह काम करता है - वे ज्ञान के कुछ डोमेन पर अक्सर सक्रिय होने वाले मॉडल के तंत्रिका नेटवर्क के कुछ हिस्से की गतिविधि का निरीक्षण करते हैं, फिर एक अधिक शक्तिशाली GPT-4 मॉडल अपनी व्याख्या लिखता है कि यह विशेष भाग या अध्ययन किए जा रहे एलएलएम का एक न्यूरॉन क्या है के लिए जिम्मेदार हैं और फिर वे GPT-4 के साथ कई प्रासंगिक पाठ अनुक्रमों पर मूल LLM के आउटपुट की भविष्यवाणी करने का प्रयास करते हैं, जिसके परिणामस्वरूप इसके प्रत्येक स्पष्टीकरण को एक अंक दिया जाता है।
हालाँकि, इस तकनीक में कुछ कमियाँ हैं। सबसे पहले, जैसा कि लेखक कहते हैं, उनकी पद्धति ने अध्ययन किए गए लगभग 300000 न्यूरॉन्स में से केवल 1000 न्यूरॉन्स को अच्छी व्याख्या दी।
यहाँ कागज उद्धरण है:
हालाँकि, हमने पाया कि GPT-4-आधारित और मानव ठेकेदार स्पष्टीकरण दोनों अभी भी निरपेक्ष रूप से खराब स्कोर करते हैं। न्यूरॉन्स को देखते समय, हमने यह भी पाया कि विशिष्ट न्यूरॉन काफी पॉलीसेमेंटिक दिखाई देते हैं। इससे पता चलता है कि हम जो समझा रहे हैं उसे बदलना चाहिए।
दूसरा बिंदु यह है कि यह तकनीक वर्तमान में इस बात की जानकारी नहीं देती है कि प्रशिक्षण प्रक्रिया को कैसे बेहतर बनाया जा सकता है। लेकिन मॉडल व्याख्यात्मक अध्ययन के संदर्भ में यह एक अच्छा प्रयास है।
हो सकता है कि अगर अध्ययन किए गए न्यूरॉन्स उनकी अन्योन्याश्रितताओं के आधार पर कुछ समूहों में एकजुट हो जाते हैं और ये समूह कुछ व्यवहारिक पैटर्न प्रदर्शित करते हैं जो विभिन्न प्रशिक्षण प्रक्रियाओं के कारण बदले जा सकते हैं, जो हमें कुछ समझ देगा कि कैसे कुछ मॉडल क्षमताएं प्रशिक्षण डेटा से संबंधित हैं और प्रशिक्षण नीति। किसी तरह, यह क्लस्टरिंग और भेदभाव विशेष कौशल के लिए जिम्मेदार विभिन्न क्षेत्रों में मस्तिष्क के विभाजन की तरह लग सकता है। यह हमें कुछ विशेष नए कौशल हासिल करने के लिए एलएलएम को कुशलतापूर्वक ठीक करने के तरीके के बारे में अंतर्दृष्टि प्रदान कर सकता है।
एक और ट्रेंडिंग विचार लूप एलएलएम के साथ एक स्वायत्त एजेंट बना रहा है - ट्विटर AutoGPT, AgentGPT, BabyAGI , et al जैसे प्रयोगों से भरा है। विचार ऐसे एजेंट के लिए एक लक्ष्य निर्धारित करना है और इसे कुछ बाहरी उपकरण जैसे कि अन्य सेवाओं के एपीआई प्रदान करना है ताकि यह पुनरावृत्तियों या चेनिंग मॉडल के लूप के माध्यम से वांछित परिणाम प्रदान कर सके।
पिछले हफ्ते हगिंगफेस ने एजेंटों को उनके प्रसिद्ध ट्रांसफॉर्मर पुस्तकालय में जारी किया:
"OpenAssistant, StarCoder, OpenAI, और अधिक जैसे LLM का उपयोग करके आसानी से जनरेटिवएआई अनुप्रयोगों और स्वायत्त एजेंटों का निर्माण करें"। (सी) फिलिप श्मिट
पुस्तकालय प्राकृतिक भाषा में जटिल प्रश्नों का उत्तर देने और मल्टीमॉडल डेटा (पाठ, चित्र, वीडियो, ऑडियो) का समर्थन करने में सक्षम चेन मॉडल और एपीआई के लिए एक इंटरफ़ेस प्रदान करता है। इस मामले में संकेत में एजेंट का विवरण, उपकरणों का एक सेट (ज्यादातर कुछ अन्य संकीर्ण केस न्यूरल नेटवर्क), कुछ उदाहरण और एक कार्य शामिल है। एजेंट गैर-इंजीनियरों के लिए मॉडल के उपयोग की सुविधा प्रदान करेंगे, लेकिन एलएलएम के शीर्ष पर एक अधिक जटिल प्रणाली बनाने के लिए भी एक अच्छी शुरुआत है। और वैसे, यहां नेचुरल लैंग्वेज एपीआई है, एक अलग तरह का इंटरनेट जो आप जानते हैं।
बीटीडब्ल्यू, ट्विटर इन दिनों एआई के इर्द-गिर्द पागल हो रहा है, हर कोई एलएलएम मॉडल के शीर्ष पर कुछ बना रहा है और इसे दुनिया को दिखा रहा है - मैंने उद्योग में इतना उत्साह कभी नहीं देखा। यदि आप जांच करना चाहते हैं कि क्या हो रहा है - मैं एंड्रयू कारपैथी के हालिया ट्वीट के साथ उस खरगोश छेद गोता को शुरू करने की सलाह दूंगा।
कोडेक्स , जीथब सह-पायलट को शक्ति प्रदान कर रहा है, और कुछ दिनों पहले कोलाब प्रो ग्राहक के रूप में मुझे Google से एक पत्र मिला, जिसमें कहा गया था कि जून में वे (पत्र का हवाला देते हुए)
Colab में AI प्रोग्रामिंग सुविधाओं को धीरे-धीरे जोड़ना शुरू करें सबसे पहले दिखाई देने वालों में:
- कोड पूरा करने के लिए सिंगल और मल्टी-लाइन संकेत;
- प्राकृतिक भाषा कोड जनरेशन, जो आपको Google मॉडल को कोड जेनरेशन अनुरोध भेजने और इसे एक नोटबुक में पेस्ट करने की अनुमति देता है।
वैसे, पिछले हफ्ते Google ने मॉडलों के PaLM 2 परिवार की घोषणा की, जिसमें कोडी, कोडिंग और डिबगिंग के लिए Google का विशेष मॉडल है, जो शायद इन घोषित सुविधाओं को शक्ति प्रदान करेगा।
इस खंड को समाप्त करने के लिए, मैं यह कहना चाहता हूं कि 2016 के आसपास सीवी पर एनएलपी की मेरी व्यक्तिगत पसंद इस तथ्य के कारण बनी थी कि भाषा सार्वभौमिक और अंतिम तरीका है जिससे लोग जानकारी स्थानांतरित करते हैं। हम अपनी भाषा की अवधारणाओं के साथ भी सोचते हैं, इसलिए प्रणाली स्वयं को और हमारे आसपास की दुनिया को परिभाषित करने के लिए काफी जटिल है। और यह तार्किक क्षमताओं और चेतना के साथ एक भाषा-संचालित प्रणाली बनाने की संभावना लाता है जो मानवीय या उस स्तर से भी अधिक है। हमने लगभग आधा साल पहले ही उस सच्चे तर्क की सतह को खंगाला है। कल्पना कीजिए कि हम कहां हैं और आगे क्या होगा ।
यदि किसी भी कारण से आप वेटबटव्हाई ब्लॉग के लेखक टिम अर्बन से अपरिचित हैं, तो एजीआई पर उनकी पोस्ट , दिनांक 2015 पढ़ें - देखें कि यह अतीत से कैसा दिखता है, सिर्फ 7 साल पहले, जब आसपास कोई एलएलएम नहीं था और कोई ट्रांसफॉर्मर नहीं था मॉडल या तो। मैं यहां उनकी पोस्ट की कुछ पंक्तियां उद्धृत कर रहा हूं, सिर्फ आपको याद दिलाने के लिए कि हम 7 साल पहले कहां थे।
एआई बनाएं जो शतरंज में किसी भी इंसान को हरा सके? पूर्ण। एक ऐसा बनाएं जो छह साल की तस्वीर वाली किताब से एक पैराग्राफ पढ़ सके और न केवल शब्दों को पहचान सके बल्कि उनका अर्थ समझ सके? Google वर्तमान में इसे करने की कोशिश में अरबों डॉलर खर्च कर रहा है।
लेकिन जब हम एजीआई हासिल कर लेंगे, तो चीजें बहुत तेज गति से आगे बढ़ने लगेंगी, वह वादा करता है। यह रे कुर्ज़वील द्वारा तैयार किए गए त्वरित रिटर्न के कानून के कारण है:
रे कुर्ज़वील मानव इतिहास को त्वरित प्रतिफल का नियम कहते हैं। ऐसा इसलिए होता है क्योंकि अधिक उन्नत समाजों में कम उन्नत समाजों की तुलना में तेज गति से प्रगति करने की क्षमता होती है - क्योंकि वे अधिक उन्नत होते हैं।
इस कानून को मौजूदा एलएलएम पर लागू करना आसान है और यह कहना आसान है कि इंटरनेट में सहेजे गए सभी डेटा को सीखने और तर्क करने की क्षमता इस अलौकिक स्मृति को मानव-स्तर के तर्क में लाएगी और जल्द ही आसपास के सबसे चतुर लोगों को आउटसोर्स कर दिया जाएगा। मशीन ठीक उसी तरह जैसे शतरंज चैंपियन कास्परोव को 1997 में डीप ब्लू कंप्यूटर ने हराया था।
यह हमें आर्टिफिशियल सुपर इंटेलिजेंस (ASI) तक ले जाएगा लेकिन हम नहीं जानते कि यह कैसा दिखता है। हो सकता है कि हमें इसे प्रशिक्षित करने के लिए एक और फीडबैक लूप की आवश्यकता हो क्योंकि GPT-4 ह्यूमन फीडबैक लर्निंग सिर्फ मानव-स्तर का तर्क प्रदान करता है। यह बहुत संभव है कि बेहतर मॉडल कमजोर लोगों को सिखाएं और यह एक पुनरावृत्त प्रक्रिया होगी। **बस अनुमान लगाया जा रहा है — हम देखेंगे।
एजीआई पर अपने पोस्ट के दूसरे भाग में टिम वास्तव में जिस चीज की रूपरेखा देते हैं, वह यह है कि त्वरित रिटर्न के इस कानून के कारण, हम उस बिंदु पर ध्यान भी नहीं दे सकते हैं जब हमारे सिस्टम एजीआई से आगे निकल जाते हैं और तब चीजें हमारी समझ से थोड़ी बाहर होंगी।
अभी के लिए, टेक में काम करने वाले लोगों का केवल एक छोटा प्रतिशत प्रगति की वास्तविक गति को समझता है और आश्चर्यजनक संभावित निर्देश-आधारित एलएलएम ट्यूनिंग लाता है। जेफ्री हिंटन उनमें से एक हैं, जो सार्वजनिक रूप से नौकरी के बाजार के दबाव, नकली सामग्री के उत्पादन और दुर्भावनापूर्ण उपयोग जैसे जोखिमों के बारे में बात कर रहे हैं। जो मुझे और भी महत्वपूर्ण लगता है वह यह है कि वह बताते हैं कि जटिल कौशल के शून्य-शॉट सीखने में सक्षम मौजूदा प्रणालियों में इंसानों की तुलना में बेहतर सीखने वाला एल्गोरिदम हो सकता है ।
आधुनिक एलएलएम के साथ चिंता इस तथ्य से आती है कि जब वे बहुत सारे कार्यों में एक बड़ा उत्तोलन प्रदान करते हैं, तो इन मॉडलों के साथ काम करने की क्षमता- प्री-ट्रेन, फाइन-ट्यून, अर्थपूर्ण संकेत देना, या उन्हें डिजिटल उत्पादों में शामिल करना- है स्पष्ट रूप से समाज के चारों ओर असमान, प्रशिक्षण/उपयोग लागत और कौशल दोनों के मामले में। ट्विटर या हगिंगफेस समुदाय के कुछ लोग यह तर्क देंगे कि अब हमारे पास OpenAI आधिपत्य के विकल्प के रूप में काफी सक्षम ओपन सोर्स LLM हैं, लेकिन फिर भी, वे इस प्रवृत्ति का अनुसरण कर रहे हैं और कम शक्तिशाली हैं, साथ ही उन्हें संभालने के लिए कुछ कौशल की आवश्यकता होती है। और जबकि OpenAI मॉडल इतनी सफल हैं, Microsoft और Google उस शोध में और भी अधिक निवेश करेंगे, ताकि उन्हें रोकने की कोशिश की जा सके। ओह, मेटा भी, अगर वे अंततः मेटावर्स को जाने देते हैं।
आजकल सबसे अधिक मांग वाले कौशल में से एक कोड लिख रहा है - सॉफ्टवेयर इंजीनियरिंग पिछले 20 वर्षों से तकनीकी दृश्य और वेतन पर हावी है। कोडिंग सह-पायलटों की वर्तमान स्थिति के साथ ऐसा लगता है कि बॉयलरप्लेट कोड का एक अच्छा हिस्सा जल्द ही या तो उत्पन्न होगा या कुशलता से लाया जाएगा और अनुकूलित किया जाएगा, जो उपयोगकर्ता के लिए उसी तरह दिखेगा, जिससे डेवलपर्स का बहुत समय बचेगा और शायद कुछ समय लगेगा बाजार से बाहर नौकरी के अवसर।
AGI पर उस बहुत अच्छी पोस्ट में एक और विचार है और इससे परे लग रहा है कि AGI स्वायत्त आत्म-सुधार में सक्षम होगा । अभी के लिए वेनिला एलएलएम अभी भी स्वायत्त एजेंट नहीं हैं और किसी भी तरह से किसी भी तरह की इच्छाशक्ति को शामिल नहीं करते हैं - दो विचार जो लोगों को डराते हैं। शायद ज़रुरत पड़े। मानव प्रतिक्रिया के साथ सुदृढीकरण सीखने को शामिल करने वाले मॉडल की प्रशिक्षण प्रक्रिया को भ्रमित न करें, जहां आरएल एल्गोरिथ्म का उपयोग ओपनएआई की समीपस्थ नीति अनुकूलन है, जिसमें अंतिम मॉडल ट्रांसफॉर्मर से टोकन अनुक्रमों की भविष्यवाणी करने वाला एक डिकोडर हिस्सा है।
संभवत: आपने देखा होगा कि मेरे द्वारा उद्धृत किए गए कुछ कागजात पिछले सप्ताह जारी किए गए थे - मुझे यकीन है कि अगले सप्ताह नए रिलीज और विचार लाएंगे जो मैं चाहता हूं कि मैंने इस पोस्ट में शामिल किया था, लेकिन यह समय का संकेत है।
ऐसा लगता है कि हम सॉफ्टवेयर के नए युग में तेजी से प्रवेश कर रहे हैं और विलक्षणता बिंदु की ओर कुछ कदम उठाए हैं , क्योंकि मशीन लर्निंग उद्योग में नवाचार पहले से ही एक अभूतपूर्व गति से हो रहे हैं - जैसे कई महीने जबकि पिछले साल हमने देखा है बस कुछ बड़ी रिलीज़। सवारी का आनंद!
पुनश्च अगला विस्फोट तब होगा जब मस्क हमें न्यूरालिंक के माध्यम से एलएलएम से जोड़ता है।
पीपीएस । इस लेख को लिखने के लिए एक भी OpenAI API कॉल नहीं किया गया था। मैं शर्त लगा सकता हूं।