ठीक है, ChatGPT को रिलीज़ हुए एक साल से अधिक समय हो गया है। इस महत्वपूर्ण मोड़ से पहले, अनुसंधान समुदाय और उद्योग के नेता पहले से ही स्थिर प्रसार निष्कर्षों और अनुप्रयोगों की एक श्रृंखला के साथ, विशेष रूप से कंप्यूटर विज़न के क्षेत्र में जेनरेटिव एआई पर सक्रिय रूप से काम कर रहे थे। संक्षेप में संक्षेप में कहें तो, 2022 को स्थिर प्रसार का वर्ष माना जा सकता है, और 2023 को बड़े भाषा मॉडल (एलएलएम) का वर्ष माना जा सकता है।
2023 की शुरुआत में एलएलएम के प्रभुत्व को चिह्नित किया गया, जिसमें चैटजीपीटी ने व्यापक रूप से अपनाने और नवाचार में नेतृत्व किया। इस वर्ष एलएलएम विभिन्न क्षेत्रों में व्यापक होता जा रहा है, जिससे सैद्धांतिक अनुसंधान और व्यावहारिक उद्योग अनुप्रयोगों के बीच अंतर को प्रभावी ढंग से कम किया जा रहा है। आइए 2023 में एलएलएम परिदृश्य को आकार देने वाले प्रमुख मील के पत्थर और रुझानों का पता लगाएं, साथ ही इस बात की भी जानकारी लें कि उन्होंने प्रौद्योगिकी के साथ हमारी बातचीत में कैसे क्रांति ला दी है।
ओपन-सोर्स एलएलएम का वर्ष
2023 में, हमने ओपन-सोर्स बड़े भाषा मॉडल (एलएलएम) के लिए एक उल्लेखनीय वर्ष देखा। सबसे महत्वपूर्ण रिलीज़ मेटा द्वारा LLaMa श्रृंखला थी, जिसने उसके बाद लगातार रिलीज़ के लिए एक मिसाल कायम की, जिसमें हर महीने, सप्ताह और कभी-कभी दैनिक रूप से नए मॉडल सामने आए। मेटा, एलुथेरएआई, मोज़ेकएमएल, टीआईआईयूएई और स्टेबिलिटीएआई जैसे प्रमुख खिलाड़ियों ने एआई समुदाय के भीतर विविध आवश्यकताओं को पूरा करते हुए, सार्वजनिक डेटासेट पर प्रशिक्षित विभिन्न प्रकार के मॉडल पेश किए। इनमें से अधिकांश मॉडल डिकोडर-केवल ट्रांसफॉर्मर थे, जो चैटजीपीटी द्वारा स्थापित प्रवृत्ति को जारी रखते थे। इस वर्ष जारी किए गए कुछ सबसे उल्लेखनीय मॉडल यहां दिए गए हैं:
मेटा द्वारा LLaMa: LLaMa परिवार विभिन्न आकारों के मॉडल पेश करता है, जिसमें सबसे बड़ा मॉडल 65 बिलियन मापदंडों का दावा करता है, जिसे 1.4 ट्रिलियन टोकन पर प्रशिक्षित किया गया है। विशेष रूप से, छोटे मॉडल, विशेष रूप से 1 ट्रिलियन टोकन पर प्रशिक्षित 13 बिलियन मापदंडों वाले मॉडल ने, अधिक डेटा पर विस्तारित प्रशिक्षण अवधि का लाभ उठाकर बेहतर प्रदर्शन का प्रदर्शन किया, यहां तक कि कुछ बेंचमार्क में बड़े मॉडल को भी पीछे छोड़ दिया। 13B LLaMa मॉडल ने अधिकांश बेंचमार्क में GPT-3 से बेहतर प्रदर्शन किया, और सबसे बड़े मॉडल ने अपनी रिलीज़ पर नए अत्याधुनिक प्रदर्शन बेंचमार्क स्थापित किए।
एलुथर एआई द्वारा पाइथिया: पाइथिया में 154 आंशिक रूप से प्रशिक्षित चौकियों के साथ 16 मॉडलों का एक सूट शामिल है, जिसे खुले तौर पर सुलभ और पारदर्शी रूप से प्रशिक्षित एलएलएम पर नियंत्रित वैज्ञानिक अनुसंधान की सुविधा के लिए डिज़ाइन किया गया है। यह श्रृंखला एलएलएम के प्रशिक्षण के लिए विस्तृत पेपर और एक व्यापक कोडबेस प्रदान करके शोधकर्ताओं को बहुत सहायता करती है।
मोज़ेकएमएल द्वारा एमपीटीऔरTIIUAE द्वारा फाल्कन श्रृंखला: दोनों को 1T से 1.5T टोकन तक विभिन्न प्रकार के डेटा स्रोतों पर प्रशिक्षित किया गया था, और 7B और 30B मापदंडों के साथ संस्करण तैयार किए गए थे। विशेष रूप से, बाद में वर्ष में, TIIUAE ने 180B मॉडल जारी किया, जो अब तक का सबसे बड़ा ओपन-सोर्स मॉडल है।
मिस्ट्राल,पीएचआईऔरओर्का: ये मॉडल 2023 में एक और प्रवृत्ति को उजागर करते हैं, सीमित हार्डवेयर और बजट बाधाओं के लिए उपयुक्त छोटे और अधिक कुशल मॉडल के प्रशिक्षण पर ध्यान केंद्रित करते हुए, एआई मॉडल विकास में पहुंच और व्यावहारिकता की दिशा में एक महत्वपूर्ण बदलाव को चिह्नित करते हैं।
छोटा और कुशल मॉडल
2023 में, हमने कई छोटे और कुशल मॉडल भी जारी होते देखे हैं। इस प्रवृत्ति का प्राथमिक कारण अधिकांश अनुसंधान समूहों के लिए बड़े मॉडलों के प्रशिक्षण की अत्यधिक उच्च लागत है। इसके अतिरिक्त, बड़े मॉडल अक्सर अपनी महंगी प्रशिक्षण और तैनाती लागत के साथ-साथ अपनी महत्वपूर्ण मेमोरी और कम्प्यूटेशनल पावर आवश्यकताओं के कारण कई वास्तविक दुनिया के अनुप्रयोगों के लिए अनुपयुक्त होते हैं। इसलिए, छोटे और कुशल मॉडल वर्ष के मुख्य रुझानों में से एक बनकर उभरे हैं। जैसा कि पहले उल्लेख किया गया है, मिस्ट्रल और ओर्का श्रृंखला इस प्रवृत्ति में प्रमुख खिलाड़ी रहे हैं। मिस्ट्रल ने 7बी मॉडल के साथ समुदाय को आश्चर्यचकित कर दिया, जिसने अधिकांश बेंचमार्क में अपने बड़े समकक्षों से बेहतर प्रदर्शन किया, जबकि फाई श्रृंखला और भी छोटी है, केवल 1.3बी से 2.7बी मापदंडों के साथ, फिर भी यह प्रभावशाली प्रदर्शन प्रदान करता है।
एक और नवीन दृष्टिकोण हैओर्का 2: छोटे भाषा मॉडलों को तर्क करना सिखाना , जिसमें GPT-4 जैसे बड़े मॉडल से ज्ञान को छोटे मॉडल में वितरित करना शामिल है। पिछले अध्ययनों के विपरीत, जो मुख्य रूप से बड़े मॉडलों के आउटपुट को दोहराने के लिए नकल सीखने पर निर्भर थे, ओर्का 2 का लक्ष्य "छोटे" एलएलएम को, विशेष रूप से 7बी और 13बी मापदंडों वाले, विभिन्न तर्क विधियों, जैसे चरण-दर-चरण विश्लेषण और रिकॉल से लैस करना है। -फिर-उत्पन्न तकनीकें। यह दृष्टिकोण इन मॉडलों को प्रत्येक कार्य के लिए सबसे उपयुक्त विधि की पहचान करने और लागू करने की अनुमति देता है, जिससे ओर्का 2 समान आकार के मॉडल से बेहतर प्रदर्शन करने और यहां तक कि 5 से 10 गुना बड़े मॉडल के साथ प्रतिस्पर्धा करने में सक्षम होता है।
छोटे और कुशल मॉडलों की सफलता काफी हद तक डेटा गुणवत्ता और तेजी से ध्यान देने वाली युक्तियों पर निर्भर करती है। जबकि मिस्ट्रल ने अपने प्रशिक्षण डेटा की विशिष्टताओं का खुलासा नहीं किया है, विभिन्न शोधों और मॉडलों से पता चला है कि प्रभावी मॉडलों के प्रशिक्षण के लिए डेटा गुणवत्ता महत्वपूर्ण है। इस वर्ष की सबसे उल्लेखनीय खोजों में से एक हैलीमा: "संरेखण के लिए कम अधिक है" , जिसने प्रदर्शित किया कि केवल 1,000 प्रशिक्षण उदाहरणों से युक्त एक मानव-जनित, उच्च गुणवत्ता वाले डेटासेट का उपयोग 50,000 ChatGPT-जनरेटेड प्रतिक्रियाओं पर उसी मॉडल को बेहतर प्रदर्शन करने के लिए फाइन-ट्यूनिंग के लिए किया जा सकता है।
निम्न-रैंक अनुकूलन ट्यूनिंग
ठीक है, चलो बात करते हैंलोरा , जो पिछले साल शुरू की गई पैरामीटर-कुशल फ़ाइन-ट्यूनिंग विधियों में सबसे चमकीले सितारे के रूप में चमका है। निम्न-रैंक अनुकूलन (एलओआरए) एलएलएम को कुशलतापूर्वक ठीक करने के लिए एक गेम-चेंजर के रूप में उभरा। पूर्व-प्रशिक्षित मॉडलों में निम्न-रैंक मैट्रिसेस सन्निकटन को शुरू करके, LoRA पैरामीटर-कुशल फाइन-ट्यूनिंग की अनुमति देता है, जिससे कम्प्यूटेशनल लोड और भंडारण आवश्यकताओं को काफी कम किया जा सकता है। यह दृष्टिकोण न केवल संसाधनों को बचाता है बल्कि बेस मॉडल की मुख्य क्षमताओं से समझौता किए बिना विभिन्न अनुप्रयोगों के लिए अनुकूलन को भी सक्षम बनाता है।
लोरा मूल रूप से पूर्व-प्रशिक्षित मॉडल वजन को फ्रीज करता है और प्रशिक्षित परतों ( रैंक-डीकंपोजीशन मैट्रिक्स ) को इंजेक्ट करता है। ये मैट्रिक्स कॉम्पैक्ट हैं फिर भी मॉडल के व्यवहार के लिए आवश्यक अनुकूलन को अनुमानित करने में सक्षम हैं, जो मूल मॉडल के ज्ञान की अखंडता को बनाए रखते हुए कुशल फाइन-ट्यूनिंग की अनुमति देते हैं। LoRA का सबसे अधिक उपयोग किया जाने वाला संस्करण हैQLoRA (मात्राबद्ध निम्न-रैंक अनुकूलन) . यह निम्न-रैंक मैट्रिक्स को परिमाणित करके वेनिला लोरा का मेमोरी कुशल संस्करण है। यह दृष्टिकोण मेमोरी फ़ुटप्रिंट को बढ़ाए बिना और कम कम्प्यूटेशनल-गहन के बिना फाइन-ट्यूनिंग प्रक्रिया में निम्न-रैंक मैट्रिसेस के उपयोग की अनुमति देता है।
विशेषज्ञों का मिश्रण
विशेषज्ञों का मिश्रण (एमओई) दृष्टिकोण पिछले वर्ष एलएलएम वास्तुकला में एक महत्वपूर्ण छलांग का प्रतिनिधित्व करता है। MoE एक लंबे इतिहास वाला मशीन लर्निंग प्रतिमान है जो जटिल समस्याओं को छोटी, अधिक प्रबंधनीय उप-समस्याओं में विभाजित करके सरल बनाता है, प्रत्येक को एक विशेष उप-मॉडल या "विशेषज्ञ" द्वारा संबोधित किया जाता है। यह विशेषज्ञों की एक टीम के समान है, जहां प्रत्येक सदस्य एक विशेष क्षेत्र में उत्कृष्टता प्राप्त करता है। MoE मॉडल में, प्रत्येक विशेषज्ञ डेटा या कार्य के एक विशिष्ट उपसमूह पर ध्यान केंद्रित करता है। किसी दिए गए इनपुट के लिए किस विशेषज्ञ का उपयोग करना है इसका निर्णय "गेटिंग मैकेनिज्म" द्वारा किया जाता है, जो ट्रैफ़िक निदेशक के रूप में कार्य करता है, कार्यों को सबसे उपयुक्त विशेषज्ञ तक पहुंचाता है। यह विधि MoE मॉडल को कार्यों के व्यापक स्पेक्ट्रम को कुशलतापूर्वक और सटीक रूप से संभालने की अनुमति देती है। MoE विशेष रूप से फायदेमंद है क्योंकि यह विविध मॉडलों की शक्तियों को जोड़ता है, जिससे जटिल कार्यों पर बेहतर प्रदर्शन होता है जिन्हें संबोधित करना एकल, समान मॉडल के लिए मुश्किल हो सकता है। यह आपके पास विशेषज्ञों की एक टीम रखने के समान है, जो यह सुनिश्चित करती है कि किसी समस्या के हर पहलू को अपेक्षित विशेषज्ञता वाले किसी व्यक्ति द्वारा प्रबंधित किया जाता है, जिससे अधिक परिष्कृत और प्रभावी समाधान मिलते हैं।
पिछले वर्ष जारी किए गए सबसे उल्लेखनीय MoE मॉडलों में से एक हैमिक्सट्राल-8x-7बी , जिसने MoE दृष्टिकोण का उपयोग करके 7B मापदंडों वाले प्रत्येक आठ छोटे मॉडलों को मिलाकर प्रभावशाली प्रदर्शन हासिल किया। ऐसी अफवाहें भी हैं कि GPT-4 एक MoE मॉडल हो सकता है, जिसमें आठ विशेषज्ञ मॉडल शामिल होंगे, जिनमें से प्रत्येक में 220 बिलियन पैरामीटर होंगे।
भाषा से लेकर सामान्य आधार मॉडल तक
एलएलएम सामान्य आधार मॉडल में विकसित हो रहे हैं, जो भाषा प्रसंस्करण से परे अपनी क्षमताओं का विस्तार कर रहे हैं। यह परिवर्तन उन मॉडलों की ओर बदलाव का प्रतीक है जो न केवल पाठ को समझ सकते हैं और उत्पन्न कर सकते हैं बल्कि कोड, दृश्य सामग्री, ऑडियो और भी बहुत कुछ उत्पन्न कर सकते हैं। पिछले साल, हमने जैसे मॉडलों की शुरूआत देखीएलएलएवीए और दृष्टि के लिए GPT-4, जिसने दृश्य सामग्री को समझने में प्रभावशाली क्षमताएं प्रदान कीं। इसने सामान्य फाउंडेशन मॉडल के क्षेत्र में आशाजनक शोध को बढ़ावा दिया है। निकट भविष्य में, सामान्य फाउंडेशन मॉडल अपने आस-पास की दुनिया को देखने, सुनने और समझने में सक्षम होंगे, जिससे मनुष्यों के साथ अधिक प्राकृतिक और सहज बातचीत संभव हो सकेगी।
उपकरण से सुसज्जित एजेंट
विभिन्न उपकरणों और प्लेटफार्मों के साथ एलएलएम का एकीकरण एआई को रोजमर्रा के उपयोग के लिए अधिक सुलभ और व्यावहारिक बना रहा है। इन उपकरणों से लैस एजेंटों को कोडिंग सहायता से लेकर रचनात्मक लेखन तक विशिष्ट कार्यों के लिए तैयार किया जा रहा है, जिससे एआई कई पेशेवर वर्कफ़्लो का एक अनिवार्य हिस्सा बन गया है। यह विकास एलएलएम की तर्कशक्ति और कार्य क्षमताओं के कारण संभव हुआ है। इस प्रकार की सुविधा को अक्सर फ़ंक्शन कॉलिंग के रूप में संदर्भित किया जाता हैप्रतिक्रिया रूपरेखा। डेटासेट पर प्रशिक्षित कई मॉडल भी हैं जिनमें इस सुविधा को सक्षम करने के लिए फ़ंक्शन कॉलिंग शामिल है। यह कार्यक्षमता डेवलपर्स को सरल कार्यों और वर्कफ़्लो की एक विस्तृत श्रृंखला को स्वचालित करने में सक्षम एलएलएम एजेंट बनाने की अनुमति देती है।
OpenAI अभी भी उद्योग परिदृश्य पर हावी है
ओपनएआई ने अनुसंधान और अनुप्रयोग के मामले में अपना नेतृत्व बनाए रखते हुए उद्योग परिदृश्य पर अपना दबदबा बनाए रखा है। GPT-4 और नयाजीपीटी स्टोर चैटजीपीटी की सुविधा उद्योग के मानक बने हुए हैं, जो उच्च गुणवत्ता वाले जेनरेटिव एआई अनुप्रयोगों की पेशकश करते हैं जो अद्वितीय और अद्वितीय हैं, इस समय कोई भी प्रतिस्पर्धी उनके करीब नहीं है। ओपनएआई ने पहला आयोजन करके अपने उपयोगकर्ता समुदाय के लिए महत्वपूर्ण समर्थन का प्रदर्शन भी किया हैओपनएआई देव दिवस और 2023 में विभिन्न डेवलपर-अनुकूल सुविधाएं प्रदान कर रहा है। एंथ्रोपिक सबसे आशाजनक प्रतिस्पर्धियों में से एक के रूप में उभरा है, हालांकि इसका प्रमुख एलएलएम,क्लाउड , अभी तक व्यापक रूप से उपलब्ध नहीं है। एक और तकनीकी दिग्गज, Google, जारी किया गयामिथुन राशि रिपोर्ट के मुताबिक, पिछले साल ओपनएआई की जीपीटी श्रृंखला की तुलना में यह काफी प्रभावशाली रहा है। हालाँकि, इसने अभी तक समुदाय के भीतर पर्याप्त आकर्षण हासिल नहीं किया है। हम देखेंगे कि 2024 में क्या होता है जब वे जेमिनी का सबसे बड़ा संस्करण जारी करने की योजना बनाते हैं।
निष्कर्ष
वर्ष 2023 बड़े भाषा मॉडल (एलएलएम) के क्षेत्र में महत्वपूर्ण विकास और नवाचार की अवधि को चिह्नित करता है। ओपन-सोर्स मॉडल के माध्यम से एआई के लोकतंत्रीकरण से लेकर अधिक कुशल और विशिष्ट प्रणालियों के विकास तक, ये प्रगति न केवल तकनीकी उपलब्धियां हैं, बल्कि एआई को विभिन्न डोमेन में अधिक सुलभ और लागू बनाने की दिशा में भी कदम हैं। आगे देखते हुए, इन प्रौद्योगिकियों के लिए उद्योगों को बदलने और मानव क्षमताओं को बढ़ाने की क्षमता एक रोमांचक संभावना बनी हुई है। 2024 में, हम और भी उल्लेखनीय मील के पत्थर की आशा करते हैं, मेटा ने एलएलएएमए-3 को प्रशिक्षित करने की योजना की घोषणा की है और इसे ओपन-सोर्स करने की योजना बनाई है। उद्योग परिदृश्य में, यह देखने में भी गहरी दिलचस्पी है कि क्या Google जैसे दिग्गज या एंथ्रोपिक जैसे स्टार्टअप OpenAI से आगे निकल सकते हैं।