334 रीडिंग

जनरेटिव एआई: विकास, चुनौतियों और भविष्य के रुझानों पर विशेषज्ञ अंतर्दृष्टि

द्वारा ELEKS11m2024/07/23

बहुत लंबा; पढ़ने के लिए

ELEKS के विशेषज्ञ विश्लेषण के साथ जनरेटिव AI की दुनिया में गोता लगाएँ, चुनौतियों की खोज करें और देखें कि भविष्य में क्या है।

featured image - जनरेटिव एआई: विकास, चुनौतियों और भविष्य के रुझानों पर विशेषज्ञ अंतर्दृष्टि

AI ने काफी समय से तकनीक के शौकीनों और उद्योग विशेषज्ञों का ध्यान अपनी ओर खींचा है। इस लेख में, हम AI के विकास पर विस्तार से चर्चा करेंगे, इससे उत्पन्न होने वाले मुद्दों और भविष्य में उभरते रुझानों पर प्रकाश डालेंगे।

जैसा कि हम AI तकनीक की घातीय वृद्धि को देखते हैं, इसके संभावित लाभों को अधिकतम करने के लिए इसकी क्षमताओं की व्यापक समझ होना बहुत ज़रूरी हो जाता है। इस जटिल क्षेत्र में गहराई से जाने पर, ELEKS में डेटा साइंस ऑफिस के प्रमुख वोलोडिमिर गेटमांस्की इस ट्रेंडिंग टॉपिक पर अपनी अंतर्दृष्टि और विशेषज्ञता साझा करते हैं।

AI बनाम GenAI – मुख्य अंतरों की व्याख्या

सबसे पहले, जनरेटिव AI, AI क्षेत्र का हिस्सा है। जबकि AI मुख्य रूप से मानव कार्यों को स्वचालित या अनुकूलित करने पर केंद्रित है, जनरेटिव AI विभिन्न वस्तुओं को बनाने पर केंद्रित है। बातचीत या निर्णय लेने वाले एजेंटों का निर्माण, बुद्धिमान स्वचालन, छवि पहचान और प्रसंस्करण, साथ ही अनुवाद जैसे विशिष्ट AI कार्यों को GenAI के साथ बढ़ाया जा सकता है। यह पाठ और रिपोर्ट, चित्र और डिज़ाइन, भाषण और संगीत, और बहुत कुछ बनाने की अनुमति देता है।

परिणामस्वरूप, रोज़मर्रा के कार्यों और वर्कफ़्लो में जनरेटिव एआई का एकीकरण तेजी से सहज और प्रभावशाली हो गया है। कोई सोच सकता है कि किस प्रकार का डेटा जनरेशन सबसे लोकप्रिय है। हालाँकि, इसका उत्तर सीधा नहीं है।

मल्टीमॉडल मॉडल विविध इनपुट के आधार पर विभिन्न प्रकार के डेटा उत्पन्न करने की अनुमति देते हैं। इसलिए, भले ही हमारे पास उपयोग के आँकड़े हों, फिर भी उत्पन्न होने वाले डेटा के सबसे लोकप्रिय प्रकार को निर्धारित करना चुनौतीपूर्ण होगा। हालाँकि, वर्तमान व्यावसायिक आवश्यकताओं के आधार पर, बड़े भाषा मॉडल सबसे लोकप्रिय हैं।

ये मॉडल टेक्स्ट और संख्यात्मक जानकारी दोनों को प्रोसेस कर सकते हैं और इनका इस्तेमाल सवाल-जवाब, टेक्स्ट ट्रांसफॉर्मेशन (अनुवाद, वर्तनी-जांच, संवर्धन) और रिपोर्ट तैयार करने जैसे कार्यों के लिए किया जा सकता है। यह कार्यक्षमता विभिन्न उद्योगों में उद्यमों के लिए परिचालन गतिविधियों का एक महत्वपूर्ण हिस्सा है, छवि या वीडियो निर्माण के विपरीत, जो कम आम है।

बड़े भाषा मॉडल: पाठ पीढ़ी से लेकर आधुनिक दिग्गजों तक

बड़े भाषा मॉडल (LLM) बहुत बड़े ट्रांसफॉर्मर होते हैं, जो एक तरह के डीप लर्निंग मॉडल या, सरल शब्दों में कहें तो, विशिष्ट न्यूरल नेटवर्क होते हैं। आम तौर पर, LLM में 8 बिलियन से लेकर 70 बिलियन तक पैरामीटर होते हैं और उन्हें बहुत ज़्यादा डेटा पर प्रशिक्षित किया जाता है। उदाहरण के लिए, क्रॉल, सबसे बड़े डेटासेट में से एक है, जिसमें पिछले दशक के वेब पेज और जानकारी शामिल है, जो दर्जनों पेटाबाइट डेटा के बराबर है।

इसे परिप्रेक्ष्य में रखें तो, टाइटैनिक डेटासेट, जिसमें लगभग 900 नमूने हैं, जो यह वर्णन करते हैं कि टाइटैनिक जहाज़ के डूबने के बाद कौन-कौन यात्री जीवित बचे थे, का आकार 1 एमबी से भी कम है, तथा जो मॉडल जीवित बचने की संभावना का कुशलतापूर्वक पूर्वानुमान लगा सकता है, उसमें लगभग 25 से 100 पैरामीटर हो सकते हैं।

एलएलएम का भी एक लंबा इतिहास है, और वे अचानक प्रकट नहीं हुए। उदाहरण के लिए, ELEKS डेटा विज्ञान विभाग ने 2019 में प्रतिक्रिया निर्माण के लिए GPT-2 का उपयोग किया, जबकि पहला GPT (जनरेटिव प्री-ट्रेन्ड ट्रांसफॉर्मर) मॉडल 2018 में जारी किया गया था। हालाँकि, वह भी टेक्स्ट जनरेशन मॉडल की पहली उपस्थिति नहीं थी। 2017 में ट्रांसफॉर्मर युग शुरू होने से पहले, टेक्स्ट जनरेशन जैसे कार्यों को विभिन्न तरीकों का उपयोग करके संबोधित किया गया था, उदाहरण के लिए:

जनरेटिव एडवर्सरियल नेटवर्क - एक दृष्टिकोण जहां जनरेटर किसी अन्य नेटवर्क या डिस्क्रिमिनेटर से प्राप्त फीडबैक के आधार पर प्रशिक्षण करता है,
ऑटोएनकोडर्स - एक सामान्य और प्रसिद्ध दृष्टिकोण जहां मॉडल इनपुट को पुन: प्रस्तुत करने का प्रयास करता है।

2013 में, word2vec जैसे कुशल वेक्टर शब्द एम्बेडिंग का प्रस्ताव रखा गया था, और इससे भी पहले, पिछली शताब्दी में, संभाव्यता और पैटर्न-आधारित पीढ़ी के उदाहरण थे, जैसे कि 1964 में एलिजा चैटबॉट। इसलिए, जैसा कि हम देख सकते हैं, प्राकृतिक भाषा पीढ़ी (एनएलजी) कार्य और प्रयास कई वर्षों से अस्तित्व में हैं।

चैटजीपीटी, जीपीटी, जेमिनी, कोपायलट, क्लाउड आदि जैसे अधिकांश मौजूदा एलएलएम उपयोगकर्ता शायद इस बारे में नहीं जानते होंगे क्योंकि इंस्ट्रक्टजीपीटी की पहली रिलीज के बाद परिणाम उतने आशाजनक नहीं थे, जहां ओपनएआई ने इसे बढ़ावा देते हुए सार्वजनिक पहुंच का प्रस्ताव रखा था। नवंबर 2022 में चैटजीपीटी की पहली रिलीज के बाद, जिसे सोशल मीडिया पर लाखों लोगों ने उल्लेख किया।

एआई विनियमन बहस: नवाचार और सुरक्षा में संतुलन

आजकल, AI समुदाय AI जोखिमों और अनुपालन आवश्यकताओं के विषय पर विभाजित है, कुछ लोग AI विनियमन और सुरक्षा नियंत्रण की वकालत करते हैं जबकि अन्य उनका विरोध करते हैं। आलोचकों में मेटा (फेसबुक) AI के प्रमुख यान लेकुन भी शामिल हैं, जिन्होंने कहा कि ऐसे AI एजेंटों की बुद्धिमत्ता कुत्ते के बराबर भी नहीं होती।

मेटा एआई ग्रुप (पूर्व में फेसबुक एआई रिसर्च) डिटेक्टरॉन, लामा, सेगमेंटएनीथिंग और ईएलएफ जैसे मुफ्त और सार्वजनिक रूप से उपलब्ध एआई मॉडल के डेवलपर्स में से एक है, जिन्हें केवल कुछ व्यावसायिक सीमाओं के साथ स्वतंत्र रूप से डाउनलोड और उपयोग किया जा सकता है। ओपन एक्सेस को निश्चित रूप से दुनिया भर के एआई समुदाय द्वारा अनुकूल रूप से प्राप्त किया गया है।

वे प्रणालियाँ अभी भी बहुत सीमित हैं; उन्हें वास्तविक दुनिया की अंतर्निहित वास्तविकता की कोई समझ नहीं है क्योंकि वे विशुद्ध रूप से पाठ, यानी बहुत बड़ी मात्रा में पाठ पर प्रशिक्षित हैं।

— यान लेकुन, मेटा में मुख्य एआई वैज्ञानिक

अधिकारियों ने भी विनियमनों के बारे में चिंता जताई है। उदाहरण के लिए, फ्रांस के राष्ट्रपति इमैनुएल मैक्रों ने चेतावनी दी कि कृत्रिम बुद्धिमत्ता के विकास से निपटने के लिए बनाए गए ऐतिहासिक यूरोपीय संघ के कानून से अमेरिका, ब्रिटेन और चीन की प्रतिद्वंद्वियों की तुलना में यूरोपीय तकनीकी कंपनियों को नुकसान हो सकता है।

दूसरी ओर, एआई विनियमन के समर्थक भी हैं। टेस्ला के सीईओ एलन मस्क के अनुसार, एआई सभ्यता के भविष्य के लिए सबसे बड़े जोखिमों में से एक है। यह गैर-सार्वजनिक/भुगतान वाले एआई प्रतिनिधियों के समान ही है, लेकिन यहां, इस तरह की स्थिति के वास्तविक उत्तेजक बाजार प्रतिस्पर्धा हो सकते हैं - प्रतिस्पर्धी एआई मॉडल के प्रसार को सीमित करने के लिए।

यूरोपीय संघ के कृत्रिम बुद्धिमत्ता अधिनियम का अवलोकन

2023 में, यूरोपीय संघ की संसद ने AI अधिनियम पारित किया, जो यूरोपीय संघ के भीतर AI प्रौद्योगिकियों के उपयोग को नियंत्रित करने वाले व्यापक नियमों का पहला सेट है। यह कानून जिम्मेदार और नैतिक AI विकास और कार्यान्वयन के लिए एक मिसाल कायम करता है।

यूरोपीय संघ के एआई अधिनियम द्वारा संबोधित प्रमुख मुद्दे:

सबसे पहले, व्यक्तिगत डेटा पर तार्किक सीमाएं हैं, जैसा कि पहले से ही विभिन्न मानकों द्वारा रेखांकित किया गया है, जैसे GDPR (EU), APPI (जापान), HIPPA (US), और PIPEDA (कनाडा), जो व्यक्तिगत डेटा प्रसंस्करण, बायोमेट्रिक पहचान आदि को कवर करते हैं।

इससे संबंधित स्कोरिंग प्रणालियां या लोगों का वर्गीकरण का कोई भी रूप है, जहां मॉडल पूर्वाग्रह का महत्वपूर्ण प्रभाव हो सकता है, जिससे संभावित रूप से भेदभाव हो सकता है।

अंत में, व्यवहारिक हेरफेर है, जहां कुछ मॉडल किसी भी व्यवसाय के KPI (रूपांतरण दर, अति उपभोग) को बढ़ाने की कोशिश कर सकते हैं।

एआई मॉडल तैयार करना और उसका उपयोग: चुनौतियाँ और चिंताएँ

मॉडल की तैयारी, उपयोग और अन्य छिपी गतिविधियों से जुड़े कई मुद्दे और चिंताएँ हैं। उदाहरण के लिए, मॉडल प्रशिक्षण के लिए उपयोग किए जाने वाले डेटा में व्यक्तिगत डेटा शामिल है, जिसे ऐसे उद्देश्यों के लिए अधिकृत नहीं किया गया था। वैश्विक प्रदाता निजी पत्राचार (ईमेल) या अन्य निजी परिसंपत्तियों (फ़ोटो, वीडियो) पर केंद्रित सेवाएँ प्रदान करते हैं जिनका उपयोग बिना किसी घोषणा के छिपे हुए मोड में मॉडल प्रशिक्षण के लिए किया जा सकता है।

हाल ही में ओपनएआई के सीटीओ से एसओआरए प्रशिक्षण के लिए निजी वीडियो के उपयोग के संबंध में एक प्रश्न पूछा गया था, जो पाठ्य प्रश्नों के आधार पर वीडियो बनाने के लिए एक गैर-सार्वजनिक ओपनएआई सेवा है, लेकिन वह कोई स्पष्ट उत्तर नहीं दे सकीं।

एक और मुद्दा डेटा लेबलिंग और फ़िल्टरिंग से संबंधित हो सकता है - हम इसमें शामिल विशेषज्ञों की व्यक्तिगत विशेषताओं, कौशल, रूढ़िवादिता और ज्ञान को नहीं जानते हैं, और यह डेटा में अवांछित कथन/सामग्री पेश कर सकता है। इसके अलावा, एक नैतिक मुद्दा भी था - ऐसी जानकारी थी कि कुछ वैश्विक GenAI प्रदाताओं ने केन्या के लेबलर्स को शामिल किया और उन्हें कम भुगतान किया।

मॉडल पूर्वाग्रह और तथाकथित मॉडल मतिभ्रम, जिसमें मॉडल गलत या आंशिक रूप से गलत उत्तर प्रदान करते हैं जो सही प्रतीत होते हैं, भी समस्याएं हैं। हाल ही में, ELEKS डेटा विज्ञान टीम हमारे ग्राहकों के रिट्रीवल ऑगमेंटेड जेनरेशन (RAG) समाधान को बेहतर बनाने पर काम कर रही थी, जिसमें मॉडल के लिए कुछ डेटा दिखाना शामिल है, और मॉडल उस डेटा के आधार पर उत्तरों को सारांशित करता है या प्रदान करता है।

इस प्रक्रिया के दौरान, हमारी टीम को एहसास हुआ कि कई आधुनिक ऑनलाइन (बड़े लेकिन भुगतान वाले) या ऑफलाइन (छोटे और सार्वजनिक) मॉडल उद्यम के नाम और संख्याओं को लेकर भ्रमित करते हैं।

हमारे पास कुछ कंपनियों के वित्तीय विवरण और ऑडिट जानकारी वाला डेटा था, और अनुरोध कंपनी A का राजस्व दिखाने का था। हालाँकि, कंपनी A का राजस्व सीधे डेटा में प्रदान नहीं किया गया था और इसकी गणना करने की आवश्यकता थी। LLM Arena बेंचमार्क में अग्रणी सहित अधिकांश मॉडल ने गलत राजस्व स्तर के साथ प्रतिक्रिया दी जो कंपनी B से संबंधित थी। यह त्रुटि कंपनियों के नामों जैसे "लिमिटेड", "सेवा", आदि में आंशिक रूप से समान वर्ण संयोजनों के कारण हुई।

यहां, त्वरित शिक्षण से भी कोई मदद नहीं मिली; "यदि आप आश्वस्त नहीं हैं या कुछ जानकारी छूट गई है, तो कृपया उत्तर दें कि मुझे नहीं पता" जैसे कथन जोड़ने से समस्या हल नहीं हुई।
एक और बात संख्यात्मक प्रतिनिधित्व के बारे में है - एलएलएम संख्याओं को टोकन के रूप में या यहां तक कि कई टोकन के रूप में समझते हैं, जैसे 0.33333 को बाइट-जोड़ी एन्कोडिंग दृष्टिकोण के अनुसार '0.3' और '3333' के रूप में एन्कोड किया जा सकता है, इसलिए अतिरिक्त एडाप्टर के बिना जटिल संख्यात्मक परिवर्तनों से निपटना कठिन है।

ओपनएआई के निदेशक मंडल में सेवानिवृत्त अमेरिकी सेना जनरल पॉल एम. नाकासोने की हाल ही में हुई नियुक्ति ने मिश्रित प्रतिक्रिया को जन्म दिया है। एक ओर, साइबर सुरक्षा और खुफिया जानकारी में नाकासोने की व्यापक पृष्ठभूमि को एक महत्वपूर्ण संपत्ति के रूप में देखा जाता है, जो साइबर हमलों से बचाव के लिए मजबूत रणनीतियों को लागू करने की संभावना है, जो एआई अनुसंधान और विकास से निपटने वाली कंपनी के लिए महत्वपूर्ण है।

दूसरी ओर, नाकासोन की नियुक्ति के संभावित प्रभावों के बारे में चिंताएं हैं, क्योंकि उनकी सैन्य और खुफिया पृष्ठभूमि (राष्ट्रीय सुरक्षा एजेंसी (एनएसए) और अमेरिकी साइबर कमांड के पूर्व प्रमुख) के कारण, सरकारी निगरानी और हस्तक्षेप में वृद्धि हो सकती है।

डर यह है कि नाकासोन सरकारी एजेंसियों को ओपनएआई के डेटा और सेवाओं तक अधिक व्यापक पहुंच प्रदान कर सकता है। इस प्रकार, कुछ लोगों को डर है कि यह नियुक्ति सेवा के उपयोग, डेटा, सरकारी एजेंसियों के अनुरोधों और सेवा की सीमाओं दोनों को प्रभावित कर सकती है।

अंत में, अन्य चिंताएं भी हैं, जैसे उत्पन्न कोड की भेद्यता, विरोधाभासी सुझाव, अनुचित उपयोग (परीक्षा उत्तीर्ण करना या बम बनाने के निर्देश प्राप्त करना), तथा अन्य।

अधिक मजबूत परिणामों के लिए एलएलएम के उपयोग में सुधार कैसे करें

सबसे पहले, यह निर्धारित करना महत्वपूर्ण है कि क्या एलएलएम का उपयोग करना आवश्यक है और क्या इसे एक सामान्य आधारभूत मॉडल होना चाहिए। कुछ मामलों में, उद्देश्य और विघटित कार्य इतने जटिल नहीं होते हैं और उन्हें सरल ऑफ़लाइन मॉडल जैसे कि गलत वर्तनी, पैटर्न-आधारित पीढ़ी और पार्सिंग/सूचना पुनर्प्राप्ति द्वारा हल किया जा सकता है। इसके अतिरिक्त, सामान्य मॉडल एलएलएम एकीकरण के इच्छित उद्देश्य से संबंधित नहीं प्रश्नों का उत्तर दे सकता है।

ऐसे कई उदाहरण हैं जब कंपनी ने बिना किसी अतिरिक्त एडाप्टर (प्री और पोस्ट-प्रोसेसर) के ऑनलाइन एलएलएम एकीकरण (जैसे, जीपीटी, जेमिनी) को प्रोत्साहित किया और अप्रत्याशित व्यवहार का सामना किया। उदाहरण के लिए, उपयोगकर्ता ने कार डीलर चैटबॉट से नेवियर-स्टोक्स द्रव प्रवाह समीकरण को हल करने के लिए पायथन स्क्रिप्ट लिखने के लिए कहा, और चैटबॉट ने कहा, "ज़रूर! मैं ऐसा करूँगा।"

इसके बाद, यह सवाल आता है कि किस LLM का उपयोग किया जाए- सार्वजनिक और ऑफ़लाइन या सशुल्क और ऑफ़लाइन। यह निर्णय कार्य की जटिलता और कंप्यूटिंग संभावनाओं पर निर्भर करता है। ऑनलाइन और सशुल्क मॉडल बड़े होते हैं और उनका प्रदर्शन बेहतर होता है, जबकि ऑफ़लाइन और सार्वजनिक मॉडल को होस्टिंग के लिए महत्वपूर्ण व्यय की आवश्यकता होती है, अक्सर कम से कम 40 जीबी वीआरएएम की आवश्यकता होती है। ऑनलाइन मॉडल का उपयोग करते समय, प्रदाता के साथ साझा किए जाने वाले संवेदनशील डेटा पर सख्त नियंत्रण रखना आवश्यक है।

आमतौर पर, ऐसी चीजों के लिए, हम प्रीप्रोसेसिंग मॉड्यूल बनाते हैं जो व्यक्तिगत या संवेदनशील जानकारी, जैसे वित्तीय विवरण या निजी समझौते, को संदर्भ को संरक्षित करने के लिए क्वेरी में महत्वपूर्ण बदलाव किए बिना हटा सकता है, और यदि आवश्यक हो तो उद्यम के आकार या अनुमानित स्थान जैसी जानकारी को छोड़ सकता है।

मॉडल के पूर्वाग्रह को कम करने और भ्रम से बचने के लिए पहला कदम सही डेटा या संदर्भ चुनना या उम्मीदवारों को रैंक करना है (उदाहरण के लिए RAG के लिए)। कभी-कभी, वेक्टर प्रतिनिधित्व और समानता मीट्रिक, जैसे कि कोसाइन समानता, प्रभावी नहीं हो सकती है। ऐसा इसलिए है क्योंकि छोटे बदलाव, जैसे कि "नहीं" शब्द की उपस्थिति या नामों में मामूली अंतर (उदाहरण के लिए ओरेकल बनाम ओराचे), का महत्वपूर्ण प्रभाव हो सकता है।

जहां तक पोस्ट-प्रोसेसिंग का प्रश्न है, हम मॉडल को निर्देश दे सकते हैं कि यदि आत्मविश्वास कम हो तो वह "पता नहीं" के साथ प्रतिक्रिया दे तथा एक सत्यापन एडाप्टर विकसित करे जो मॉडल की प्रतिक्रियाओं की सटीकता की जांच करे।

एलएलएम क्षेत्र में उभरते रुझान और भविष्य की दिशाएँ

एलएलएम के क्षेत्र में कई शोध दिशाएँ मौजूद हैं, और हर हफ़्ते नए वैज्ञानिक लेख सामने आते हैं। ये लेख कई विषयों को कवर करते हैं, जिनमें ट्रांसफॉर्मर/एलएलएम ऑप्टिमाइज़ेशन, मजबूती, दक्षता (जैसे कि मॉडल का आकार या पैरामीटर की संख्या में उल्लेखनीय वृद्धि किए बिना उन्हें सामान्यीकृत कैसे किया जाए), विशिष्ट अनुकूलन तकनीकें (जैसे आसवन), और इनपुट (संदर्भ) लंबाई बढ़ाने के तरीके शामिल हैं।

हाल के समय में विभिन्न दिशाओं में प्रमुख हैं टोकन का मिश्रण, विशेषज्ञों का मिश्रण, गहराई का मिश्रण, विचारों का कंकाल, RoPE, और विचारों की श्रृंखला संकेत। आइए संक्षेप में बताएं कि इनमें से प्रत्येक का क्या अर्थ है।

विशेषज्ञों का मिश्रण (MoEs) एक अलग ट्रांसफॉर्मर आर्किटेक्चर है। इसमें आम तौर पर एक गतिशील परत होती है जिसमें कई (मिक्सट्रल में 8) या कई सघन/चपटी परतें होती हैं जो अलग-अलग ज्ञान का प्रतिनिधित्व करती हैं। इस आर्किटेक्चर में स्विच या रूटिंग विधियाँ शामिल हैं, उदाहरण के लिए, एक गेटिंग फ़ंक्शन जो यह चुनने की अनुमति देता है कि कौन से टोकन को किस विशेषज्ञ द्वारा संसाधित किया जाना चाहिए, जिससे एक टोकन या टोकन के समूह के लिए परतों ("विशेषज्ञों") की संख्या कम हो जाती है (स्विच परत)।

यह कुशल मॉडल स्केलिंग की अनुमति देता है और इनपुट भागों के लिए विभिन्न उपमॉडलों (विशेषज्ञों) का उपयोग करके प्रदर्शन में सुधार करता है, जिससे यह एक सामान्य और यहां तक कि बड़ी परत का उपयोग करने की तुलना में अधिक प्रभावी हो जाता है।
टोकनों का मिश्रण, ऊपर वर्णित विशेषज्ञों के मिश्रण से जुड़ा हुआ है, जहां हम किसी विशिष्ट विशेषज्ञ के लिए टोकनों को उनके महत्व (सॉफ्टमैक्स सक्रियण) के आधार पर समूहीकृत करते हैं।
मिक्सचर-ऑफ-डेप्थ तकनीक भी उल्लिखित MoEs से जुड़ी हुई है, खास तौर पर, रूटिंग के मामले में। इसका उद्देश्य कंप्यूटिंग ग्राफ (कंप्यूट बजट) को कम करना है, इसे उन शीर्ष टोकन तक सीमित करना है जिनका उपयोग ध्यान तंत्र में किया जाएगा। विशिष्ट अनुक्रम के लिए कम महत्वपूर्ण माने जाने वाले टोकन (जैसे विराम चिह्न) को छोड़ दिया जाता है। इसके परिणामस्वरूप गतिशील टोकन भागीदारी होती है, लेकिन टोकन की k (शीर्ष k टोकन) संख्या स्थिर होती है, इसलिए हम कंप्यूट बजट (या k, जिसे हमने चुना है) के अनुसार आकार घटा सकते हैं।
विचारों का कंकाल एलएलएम स्केलिंग के लिए कुशल है और प्राथमिक कंकाल अनुरोध के आधार पर समानांतर रूप से पूर्णता (मॉडल प्रतिक्रिया) के भागों की पीढ़ी की अनुमति देता है, जिसमें ऐसे बिंदु शामिल होते हैं जिन्हें समानांतर किया जा सकता है।
अन्य चुनौतियाँ भी हैं, उदाहरण के लिए, इनपुट का आकार। उपयोगकर्ता अक्सर LLM को बड़ी मात्रा में जानकारी प्रदान करना चाहते हैं, कभी-कभी तो पूरी किताबें भी, जबकि मापदंडों की संख्या अपरिवर्तित रहती है। यहाँ दो ज्ञात विधियाँ हैं ALiBi (अटेंशन लेयर विद लीनियर बायसेस) और RoPE (रोटरी पोजिशन एम्बेडिंग) , जो डायनेमिक पोजिशनल एन्कोडिंग और स्केलिंग फैक्टर का उपयोग करके इनपुट एम्बेडिंग को एक्सट्रपलेशन या संभवतः इंटरपोलेशन कर सकती हैं, जिससे उपयोगकर्ता प्रशिक्षण के लिए उपयोग की गई संदर्भ लंबाई की तुलना में अधिक लंबाई बढ़ा सकते हैं।
चेन-ऑफ-थॉट्स प्रॉम्प्टिंग, जो कुछ-शॉट प्रॉम्प्टिंग का एक उदाहरण है (उपयोगकर्ता संदर्भ में LLM के लिए पर्यवेक्षण प्रदान करता है), का उद्देश्य प्रश्न को कई चरणों में विघटित करना है। ज़्यादातर, इसे तर्क समस्याओं पर लागू किया जाता है, जैसे कि जब आप तर्क को किसी कम्प्यूटेशनल योजना में विभाजित कर सकते हैं। मूल पेपर से उदाहरण: "रोजर के पास 5 टेनिस बॉल हैं। वह टेनिस बॉल के 2 और डिब्बे खरीदता है। प्रत्येक डिब्बे में 3 टेनिस बॉल हैं। अब उसके पास कितनी टेनिस बॉल हैं? विचार योजना: रोजर ने 5 गेंदों से शुरुआत की। 3 टेनिस बॉल वाले 2 डिब्बे 6 टेनिस बॉल हैं। 5 + 6 = 11. उत्तर 11 है।"

इसके अलावा, कई अन्य दिशाएँ हैं, और हर हफ़्ते, उनके इर्द-गिर्द कई नए महत्वपूर्ण शोधपत्र प्रकाशित होते हैं। कभी-कभी, इन सभी चुनौतियों और उपलब्धियों का अनुसरण करने में डेटा वैज्ञानिकों के लिए एक अतिरिक्त समस्या होती है।

नवीनतम AI विकास से अंतिम उपयोगकर्ता क्या उम्मीद कर सकते हैं?

इसके अलावा भी कई रुझान हैं, संक्षेप में कहें तो, मजबूत एआई विनियमन हो सकते हैं, जो विभिन्न समाधानों को सीमित करेंगे और अंततः उपलब्ध मॉडलों के सामान्यीकरण या क्षेत्र कवरेज में परिणामित होंगे। अन्य रुझान ज्यादातर मौजूदा दृष्टिकोणों के सुधार के बारे में हैं, उदाहरण के लिए, आवश्यक मापदंडों और मेमोरी की संख्या को कम करना (जैसे क्वांटिज़ेशन या यहां तक कि 1-बिट एलएलएम - जहां प्रत्येक पैरामीटर त्रिगुणात्मक है (-1, 0, 1 मान ले सकता है))।

इसलिए, हम उम्मीद कर सकते हैं कि ऑफ़लाइन LLM या डिफ्यूजन ट्रांसफॉर्मर्स (DiT - आधुनिक डिफ्यूजन मॉडल और विजुअल ट्रांसफॉर्मर्स उत्तराधिकारी (छवि निर्माण कार्यों के लिए प्राथमिक)) हमारे फोन पर भी चलेंगे (आजकल, कई उदाहरण हैं, उदाहरण के लिए, आधुनिक स्नैपड्रैगन-आधारित एंड्रॉइड डिवाइसों पर पीढ़ी की गति के साथ माइक्रोसॉफ्ट का Phi-2 मॉडल लगभग 3-10 टोकन प्रति सेकंड है)।

साथ ही, अधिक उन्नत वैयक्तिकरण (अधिक उपयुक्त परिणाम प्रदान करने के लिए सभी पिछले उपयोगकर्ता अनुभव और प्रतिक्रिया का उपयोग करना) होगा, यहां तक कि डिजिटल जुड़वाँ तक भी। कई अन्य चीजें जो अभी उपलब्ध हैं, उनमें सुधार किया गया होगा - सहायक/मॉडल अनुकूलन और बाज़ार, हर चीज के लिए एक मॉडल (मल्टीमॉडल दिशा), सुरक्षा (व्यक्तिगत डेटा के साथ काम करने, इसे एनकोड करने आदि के लिए एक अधिक कुशल तंत्र), और अन्य।

अपने व्यवसाय के लिए AI की क्षमता को अनलॉक करने के लिए तैयार हैं? ELEKS विशेषज्ञ से संपर्क करें ।