paint-brush
2023 में एलएलएम की स्थिति: नवीनतम प्रगति पर एक त्वरित पुनर्कथनद्वारा@vndee
620 रीडिंग
620 रीडिंग

2023 में एलएलएम की स्थिति: नवीनतम प्रगति पर एक त्वरित पुनर्कथन

द्वारा Duy Huynh8m2024/01/26
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

वर्ष 2023 बड़े भाषा मॉडल (एलएलएम) के क्षेत्र में महत्वपूर्ण विकास और नवाचार की अवधि को चिह्नित करता है।
featured image - 2023 में एलएलएम की स्थिति: नवीनतम प्रगति पर एक त्वरित पुनर्कथन
Duy Huynh HackerNoon profile picture
0-item

ठीक है, ChatGPT को रिलीज़ हुए एक साल से अधिक समय हो गया है। इस महत्वपूर्ण मोड़ से पहले, अनुसंधान समुदाय और उद्योग के नेता पहले से ही स्थिर प्रसार निष्कर्षों और अनुप्रयोगों की एक श्रृंखला के साथ, विशेष रूप से कंप्यूटर विज़न के क्षेत्र में जेनरेटिव एआई पर सक्रिय रूप से काम कर रहे थे। संक्षेप में संक्षेप में कहें तो, 2022 को स्थिर प्रसार का वर्ष माना जा सकता है, और 2023 को बड़े भाषा मॉडल (एलएलएम) का वर्ष माना जा सकता है।


लामा गिरोह शहर में आया - छवि DALL-E 3 द्वारा।


2023 की शुरुआत में एलएलएम के प्रभुत्व को चिह्नित किया गया, जिसमें चैटजीपीटी ने व्यापक रूप से अपनाने और नवाचार में नेतृत्व किया। इस वर्ष एलएलएम विभिन्न क्षेत्रों में व्यापक होता जा रहा है, जिससे सैद्धांतिक अनुसंधान और व्यावहारिक उद्योग अनुप्रयोगों के बीच अंतर को प्रभावी ढंग से कम किया जा रहा है। आइए 2023 में एलएलएम परिदृश्य को आकार देने वाले प्रमुख मील के पत्थर और रुझानों का पता लगाएं, साथ ही इस बात की भी जानकारी लें कि उन्होंने प्रौद्योगिकी के साथ हमारी बातचीत में कैसे क्रांति ला दी है।

ओपन-सोर्स एलएलएम का वर्ष

2023 में, हमने ओपन-सोर्स बड़े भाषा मॉडल (एलएलएम) के लिए एक उल्लेखनीय वर्ष देखा। सबसे महत्वपूर्ण रिलीज़ मेटा द्वारा LLaMa श्रृंखला थी, जिसने उसके बाद लगातार रिलीज़ के लिए एक मिसाल कायम की, जिसमें हर महीने, सप्ताह और कभी-कभी दैनिक रूप से नए मॉडल सामने आए। मेटा, एलुथेरएआई, मोज़ेकएमएल, टीआईआईयूएई और स्टेबिलिटीएआई जैसे प्रमुख खिलाड़ियों ने एआई समुदाय के भीतर विविध आवश्यकताओं को पूरा करते हुए, सार्वजनिक डेटासेट पर प्रशिक्षित विभिन्न प्रकार के मॉडल पेश किए। इनमें से अधिकांश मॉडल डिकोडर-केवल ट्रांसफॉर्मर थे, जो चैटजीपीटी द्वारा स्थापित प्रवृत्ति को जारी रखते थे। इस वर्ष जारी किए गए कुछ सबसे उल्लेखनीय मॉडल यहां दिए गए हैं:

  • मेटा द्वारा LLaMa: LLaMa परिवार विभिन्न आकारों के मॉडल पेश करता है, जिसमें सबसे बड़ा मॉडल 65 बिलियन मापदंडों का दावा करता है, जिसे 1.4 ट्रिलियन टोकन पर प्रशिक्षित किया गया है। विशेष रूप से, छोटे मॉडल, विशेष रूप से 1 ट्रिलियन टोकन पर प्रशिक्षित 13 बिलियन मापदंडों वाले मॉडल ने, अधिक डेटा पर विस्तारित प्रशिक्षण अवधि का लाभ उठाकर बेहतर प्रदर्शन का प्रदर्शन किया, यहां तक कि कुछ बेंचमार्क में बड़े मॉडल को भी पीछे छोड़ दिया। 13B LLaMa मॉडल ने अधिकांश बेंचमार्क में GPT-3 से बेहतर प्रदर्शन किया, और सबसे बड़े मॉडल ने अपनी रिलीज़ पर नए अत्याधुनिक प्रदर्शन बेंचमार्क स्थापित किए।

  • एलुथर एआई द्वारा पाइथिया: पाइथिया में 154 आंशिक रूप से प्रशिक्षित चौकियों के साथ 16 मॉडलों का एक सूट शामिल है, जिसे खुले तौर पर सुलभ और पारदर्शी रूप से प्रशिक्षित एलएलएम पर नियंत्रित वैज्ञानिक अनुसंधान की सुविधा के लिए डिज़ाइन किया गया है। यह श्रृंखला एलएलएम के प्रशिक्षण के लिए विस्तृत पेपर और एक व्यापक कोडबेस प्रदान करके शोधकर्ताओं को बहुत सहायता करती है।

  • मोज़ेकएमएल द्वारा एमपीटी और TIIUAE द्वारा फाल्कन श्रृंखला: दोनों को 1T से 1.5T टोकन तक विभिन्न प्रकार के डेटा स्रोतों पर प्रशिक्षित किया गया था, और 7B और 30B मापदंडों के साथ संस्करण तैयार किए गए थे। विशेष रूप से, बाद में वर्ष में, TIIUAE ने 180B मॉडल जारी किया, जो अब तक का सबसे बड़ा ओपन-सोर्स मॉडल है।

  • मिस्ट्राल , पीएचआई और ओर्का : ये मॉडल 2023 में एक और प्रवृत्ति को उजागर करते हैं, सीमित हार्डवेयर और बजट बाधाओं के लिए उपयुक्त छोटे और अधिक कुशल मॉडल के प्रशिक्षण पर ध्यान केंद्रित करते हुए, एआई मॉडल विकास में पहुंच और व्यावहारिकता की दिशा में एक महत्वपूर्ण बदलाव को चिह्नित करते हैं।


लामा 2 को सार्वजनिक रूप से उपलब्ध ऑनलाइन डेटा का उपयोग करके पूर्व-प्रशिक्षित किया गया है। फिर पर्यवेक्षित फ़ाइन-ट्यूनिंग के उपयोग के माध्यम से लामा चैट का प्रारंभिक संस्करण बनाया जाता है। इसके बाद, लामा चैट को मानव प्रतिक्रिया (आरएलएचएफ) से सुदृढीकरण सीखने का उपयोग करके पुनरावृत्त रूप से परिष्कृत किया जाता है, जिसमें अस्वीकृति नमूनाकरण और समीपस्थ नीति अनुकूलन (पीपीओ) शामिल है। - लामा 2: खुला स्रोत, अनुसंधान और व्यावसायिक उपयोग के लिए निःशुल्क

छोटा और कुशल मॉडल

2023 में, हमने कई छोटे और कुशल मॉडल भी जारी होते देखे हैं। इस प्रवृत्ति का प्राथमिक कारण अधिकांश अनुसंधान समूहों के लिए बड़े मॉडलों के प्रशिक्षण की अत्यधिक उच्च लागत है। इसके अतिरिक्त, बड़े मॉडल अक्सर अपनी महंगी प्रशिक्षण और तैनाती लागत के साथ-साथ अपनी महत्वपूर्ण मेमोरी और कम्प्यूटेशनल पावर आवश्यकताओं के कारण कई वास्तविक दुनिया के अनुप्रयोगों के लिए अनुपयुक्त होते हैं। इसलिए, छोटे और कुशल मॉडल वर्ष के मुख्य रुझानों में से एक बनकर उभरे हैं। जैसा कि पहले उल्लेख किया गया है, मिस्ट्रल और ओर्का श्रृंखला इस प्रवृत्ति में प्रमुख खिलाड़ी रहे हैं। मिस्ट्रल ने 7बी मॉडल के साथ समुदाय को आश्चर्यचकित कर दिया, जिसने अधिकांश बेंचमार्क में अपने बड़े समकक्षों से बेहतर प्रदर्शन किया, जबकि फाई श्रृंखला और भी छोटी है, केवल 1.3बी से 2.7बी मापदंडों के साथ, फिर भी यह प्रभावशाली प्रदर्शन प्रदान करता है।

LLaMA श्रृंखला की तुलना में मिस्ट्रल-7बी का प्रदर्शन - https://mistral.ai/news/aघोषणा-मिस्ट्रल-7b/


एक और नवीन दृष्टिकोण है ओर्का 2: छोटे भाषा मॉडलों को तर्क करना सिखाना , जिसमें GPT-4 जैसे बड़े मॉडल से ज्ञान को छोटे मॉडल में वितरित करना शामिल है। पिछले अध्ययनों के विपरीत, जो मुख्य रूप से बड़े मॉडलों के आउटपुट को दोहराने के लिए नकल सीखने पर निर्भर थे, ओर्का 2 का लक्ष्य "छोटे" एलएलएम को, विशेष रूप से 7बी और 13बी मापदंडों वाले, विभिन्न तर्क विधियों, जैसे चरण-दर-चरण विश्लेषण और रिकॉल से लैस करना है। -फिर-उत्पन्न तकनीकें। यह दृष्टिकोण इन मॉडलों को प्रत्येक कार्य के लिए सबसे उपयुक्त विधि की पहचान करने और लागू करने की अनुमति देता है, जिससे ओर्का 2 समान आकार के मॉडल से बेहतर प्रदर्शन करने और यहां तक कि 5 से 10 गुना बड़े मॉडल के साथ प्रतिस्पर्धा करने में सक्षम होता है।

भाषा समझ, सामान्य ज्ञान तर्क, बहु-चरण को कवर करने वाले विभिन्न बेंचमार्क (शून्य-शॉट सेटिंग में) पर ओर्का 2 (7बी और 13बी) की एलएलएएमए-2-चैट (13बी और 70बी) और विज़ार्डएलएम (13बी और 70बी) से तुलना करने वाले परिणाम तर्क करना, गणित की समस्या हल करना, आदि - ओर्का 2: छोटे भाषा मॉडलों को तर्क करना सिखाना


छोटे और कुशल मॉडलों की सफलता काफी हद तक डेटा गुणवत्ता और तेजी से ध्यान देने वाली युक्तियों पर निर्भर करती है। जबकि मिस्ट्रल ने अपने प्रशिक्षण डेटा की विशिष्टताओं का खुलासा नहीं किया है, विभिन्न शोधों और मॉडलों से पता चला है कि प्रभावी मॉडलों के प्रशिक्षण के लिए डेटा गुणवत्ता महत्वपूर्ण है। इस वर्ष की सबसे उल्लेखनीय खोजों में से एक है लीमा: "संरेखण के लिए कम अधिक है" , जिसने प्रदर्शित किया कि केवल 1,000 प्रशिक्षण उदाहरणों से युक्त एक मानव-जनित, उच्च गुणवत्ता वाले डेटासेट का उपयोग 50,000 ChatGPT-जनरेटेड प्रतिक्रियाओं पर उसी मॉडल को बेहतर प्रदर्शन करने के लिए फाइन-ट्यूनिंग के लिए किया जा सकता है।

निम्न-रैंक अनुकूलन ट्यूनिंग

ठीक है, चलो बात करते हैं लोरा , जो पिछले साल शुरू की गई पैरामीटर-कुशल फ़ाइन-ट्यूनिंग विधियों में सबसे चमकीले सितारे के रूप में चमका है। निम्न-रैंक अनुकूलन (एलओआरए) एलएलएम को कुशलतापूर्वक ठीक करने के लिए एक गेम-चेंजर के रूप में उभरा। पूर्व-प्रशिक्षित मॉडलों में निम्न-रैंक मैट्रिसेस सन्निकटन को शुरू करके, LoRA पैरामीटर-कुशल फाइन-ट्यूनिंग की अनुमति देता है, जिससे कम्प्यूटेशनल लोड और भंडारण आवश्यकताओं को काफी कम किया जा सकता है। यह दृष्टिकोण न केवल संसाधनों को बचाता है बल्कि बेस मॉडल की मुख्य क्षमताओं से समझौता किए बिना विभिन्न अनुप्रयोगों के लिए अनुकूलन को भी सक्षम बनाता है।


लोरा और नियमित फाइन-ट्यूनिंग के बीच अंतर - लोआरए (निम्न-रैंक अनुकूलन) का उपयोग करके एलएलएम को फाइनट्यूनिंग करने के लिए व्यावहारिक सुझाव


लोरा मूल रूप से पूर्व-प्रशिक्षित मॉडल वजन को फ्रीज करता है और प्रशिक्षित परतों ( रैंक-डीकंपोजीशन मैट्रिक्स ) को इंजेक्ट करता है। ये मैट्रिक्स कॉम्पैक्ट हैं फिर भी मॉडल के व्यवहार के लिए आवश्यक अनुकूलन को अनुमानित करने में सक्षम हैं, जो मूल मॉडल के ज्ञान की अखंडता को बनाए रखते हुए कुशल फाइन-ट्यूनिंग की अनुमति देते हैं। LoRA का सबसे अधिक उपयोग किया जाने वाला संस्करण है QLoRA (मात्राबद्ध निम्न-रैंक अनुकूलन) . यह निम्न-रैंक मैट्रिक्स को परिमाणित करके वेनिला लोरा का मेमोरी कुशल संस्करण है। यह दृष्टिकोण मेमोरी फ़ुटप्रिंट को बढ़ाए बिना और कम कम्प्यूटेशनल-गहन के बिना फाइन-ट्यूनिंग प्रक्रिया में निम्न-रैंक मैट्रिसेस के उपयोग की अनुमति देता है।


QLORA ट्रांसफार्मर मॉडल को 4-बिट परिशुद्धता में परिमाणित करके और मेमोरी स्पाइक्स को संभालने के लिए पेजेड ऑप्टिमाइज़र का उपयोग करके LoRA से बेहतर बनाता है। - कागज से छवि: QLoRA (क्वांटाइज्ड लो-रैंक अनुकूलन)

विशेषज्ञों का मिश्रण

विशेषज्ञों का मिश्रण (एमओई) दृष्टिकोण पिछले वर्ष एलएलएम वास्तुकला में एक महत्वपूर्ण छलांग का प्रतिनिधित्व करता है। MoE एक लंबे इतिहास वाला मशीन लर्निंग प्रतिमान है जो जटिल समस्याओं को छोटी, अधिक प्रबंधनीय उप-समस्याओं में विभाजित करके सरल बनाता है, प्रत्येक को एक विशेष उप-मॉडल या "विशेषज्ञ" द्वारा संबोधित किया जाता है। यह विशेषज्ञों की एक टीम के समान है, जहां प्रत्येक सदस्य एक विशेष क्षेत्र में उत्कृष्टता प्राप्त करता है। MoE मॉडल में, प्रत्येक विशेषज्ञ डेटा या कार्य के एक विशिष्ट उपसमूह पर ध्यान केंद्रित करता है। किसी दिए गए इनपुट के लिए किस विशेषज्ञ का उपयोग करना है इसका निर्णय "गेटिंग मैकेनिज्म" द्वारा किया जाता है, जो ट्रैफ़िक निदेशक के रूप में कार्य करता है, कार्यों को सबसे उपयुक्त विशेषज्ञ तक पहुंचाता है। यह विधि MoE मॉडल को कार्यों के व्यापक स्पेक्ट्रम को कुशलतापूर्वक और सटीक रूप से संभालने की अनुमति देती है। MoE विशेष रूप से फायदेमंद है क्योंकि यह विविध मॉडलों की शक्तियों को जोड़ता है, जिससे जटिल कार्यों पर बेहतर प्रदर्शन होता है जिन्हें संबोधित करना एकल, समान मॉडल के लिए मुश्किल हो सकता है। यह आपके पास विशेषज्ञों की एक टीम रखने के समान है, जो यह सुनिश्चित करती है कि किसी समस्या के हर पहलू को अपेक्षित विशेषज्ञता वाले किसी व्यक्ति द्वारा प्रबंधित किया जाता है, जिससे अधिक परिष्कृत और प्रभावी समाधान मिलते हैं।

कागज से MoE परत अपमानजनक रूप से बड़े तंत्रिका नेटवर्क: स्पार्सली-गेटेड मिश्रण-विशेषज्ञ परत, 2017।


पिछले वर्ष जारी किए गए सबसे उल्लेखनीय MoE मॉडलों में से एक है मिक्सट्राल-8x-7बी , जिसने MoE दृष्टिकोण का उपयोग करके 7B मापदंडों वाले प्रत्येक आठ छोटे मॉडलों को मिलाकर प्रभावशाली प्रदर्शन हासिल किया। ऐसी अफवाहें भी हैं कि GPT-4 एक MoE मॉडल हो सकता है, जिसमें आठ विशेषज्ञ मॉडल शामिल होंगे, जिनमें से प्रत्येक में 220 बिलियन पैरामीटर होंगे।

मिक्सट्राल-8x-7बी प्रदर्शन - मिक्सट्राल-8x-7बी

भाषा से लेकर सामान्य आधार मॉडल तक

एलएलएम सामान्य आधार मॉडल में विकसित हो रहे हैं, जो भाषा प्रसंस्करण से परे अपनी क्षमताओं का विस्तार कर रहे हैं। यह परिवर्तन उन मॉडलों की ओर बदलाव का प्रतीक है जो न केवल पाठ को समझ सकते हैं और उत्पन्न कर सकते हैं बल्कि कोड, दृश्य सामग्री, ऑडियो और भी बहुत कुछ उत्पन्न कर सकते हैं। पिछले साल, हमने जैसे मॉडलों की शुरूआत देखी एलएलएवीए और दृष्टि के लिए GPT-4, जिसने दृश्य सामग्री को समझने में प्रभावशाली क्षमताएं प्रदान कीं। इसने सामान्य फाउंडेशन मॉडल के क्षेत्र में आशाजनक शोध को बढ़ावा दिया है। निकट भविष्य में, सामान्य फाउंडेशन मॉडल अपने आस-पास की दुनिया को देखने, सुनने और समझने में सक्षम होंगे, जिससे मनुष्यों के साथ अधिक प्राकृतिक और सहज बातचीत संभव हो सकेगी।


LLaVA परियोजना से एक उदाहरण.

उपकरण से सुसज्जित एजेंट

विभिन्न उपकरणों और प्लेटफार्मों के साथ एलएलएम का एकीकरण एआई को रोजमर्रा के उपयोग के लिए अधिक सुलभ और व्यावहारिक बना रहा है। इन उपकरणों से लैस एजेंटों को कोडिंग सहायता से लेकर रचनात्मक लेखन तक विशिष्ट कार्यों के लिए तैयार किया जा रहा है, जिससे एआई कई पेशेवर वर्कफ़्लो का एक अनिवार्य हिस्सा बन गया है। यह विकास एलएलएम की तर्कशक्ति और कार्य क्षमताओं के कारण संभव हुआ है। इस प्रकार की सुविधा को अक्सर फ़ंक्शन कॉलिंग के रूप में संदर्भित किया जाता है प्रतिक्रिया रूपरेखा। डेटासेट पर प्रशिक्षित कई मॉडल भी हैं जिनमें इस सुविधा को सक्षम करने के लिए फ़ंक्शन कॉलिंग शामिल है। यह कार्यक्षमता डेवलपर्स को सरल कार्यों और वर्कफ़्लो की एक विस्तृत श्रृंखला को स्वचालित करने में सक्षम एलएलएम एजेंट बनाने की अनुमति देती है।


अन्य संकेत तकनीकों के साथ रिएक्ट विधि की तुलना करना - रिएक्ट: भाषा मॉडल में तर्क और अभिनय का समन्वय करना

OpenAI अभी भी उद्योग परिदृश्य पर हावी है

ओपनएआई ने अनुसंधान और अनुप्रयोग के मामले में अपना नेतृत्व बनाए रखते हुए उद्योग परिदृश्य पर अपना दबदबा बनाए रखा है। GPT-4 और नया जीपीटी स्टोर चैटजीपीटी की सुविधा उद्योग के मानक बने हुए हैं, जो उच्च गुणवत्ता वाले जेनरेटिव एआई अनुप्रयोगों की पेशकश करते हैं जो अद्वितीय और अद्वितीय हैं, इस समय कोई भी प्रतिस्पर्धी उनके करीब नहीं है। ओपनएआई ने पहला आयोजन करके अपने उपयोगकर्ता समुदाय के लिए महत्वपूर्ण समर्थन का प्रदर्शन भी किया है ओपनएआई देव दिवस और 2023 में विभिन्न डेवलपर-अनुकूल सुविधाएं प्रदान कर रहा है। एंथ्रोपिक सबसे आशाजनक प्रतिस्पर्धियों में से एक के रूप में उभरा है, हालांकि इसका प्रमुख एलएलएम, क्लाउड , अभी तक व्यापक रूप से उपलब्ध नहीं है। एक और तकनीकी दिग्गज, Google, जारी किया गया मिथुन राशि रिपोर्ट के मुताबिक, पिछले साल ओपनएआई की जीपीटी श्रृंखला की तुलना में यह काफी प्रभावशाली रहा है। हालाँकि, इसने अभी तक समुदाय के भीतर पर्याप्त आकर्षण हासिल नहीं किया है। हम देखेंगे कि 2024 में क्या होता है जब वे जेमिनी का सबसे बड़ा संस्करण जारी करने की योजना बनाते हैं।


OpenAI देव दिवस - https://www.youtube.com/watch?v=U9mJuUkhUzk

निष्कर्ष

वर्ष 2023 बड़े भाषा मॉडल (एलएलएम) के क्षेत्र में महत्वपूर्ण विकास और नवाचार की अवधि को चिह्नित करता है। ओपन-सोर्स मॉडल के माध्यम से एआई के लोकतंत्रीकरण से लेकर अधिक कुशल और विशिष्ट प्रणालियों के विकास तक, ये प्रगति न केवल तकनीकी उपलब्धियां हैं, बल्कि एआई को विभिन्न डोमेन में अधिक सुलभ और लागू बनाने की दिशा में भी कदम हैं। आगे देखते हुए, इन प्रौद्योगिकियों के लिए उद्योगों को बदलने और मानव क्षमताओं को बढ़ाने की क्षमता एक रोमांचक संभावना बनी हुई है। 2024 में, हम और भी उल्लेखनीय मील के पत्थर की आशा करते हैं, मेटा ने एलएलएएमए-3 को प्रशिक्षित करने की योजना की घोषणा की है और इसे ओपन-सोर्स करने की योजना बनाई है। उद्योग परिदृश्य में, यह देखने में भी गहरी दिलचस्पी है कि क्या Google जैसे दिग्गज या एंथ्रोपिक जैसे स्टार्टअप OpenAI से आगे निकल सकते हैं।


अधिक लेखों के लिए मेरे व्यक्तिगत ब्लॉग पर जाएँ और सदस्यता लें।