जेनरेटिव एआई नवीनतम तकनीक का प्रतिनिधित्व करता है जिसे एक उद्यम अपनी सीमाओं के भीतर फंसे डेटा को अनलॉक करने के लिए नियोजित कर सकता है। जेनरेटिव एआई के साथ क्या संभव है, इसकी संकल्पना करने का सबसे आसान तरीका एक अनुकूलित बड़े भाषा मॉडल की कल्पना करना है - जो आपके फ़ायरवॉल के अंदर चलने वाले चैटजीपीटी के समान है। अब, यह कस्टम एलएलएम वैसा नहीं है जिसे ओपनएआई सार्वजनिक इंटरनेट पर होस्ट कर रहा है। इसके बजाय, इसने आपके व्यवसाय पर "उन्नत शिक्षा" प्राप्त कर ली है। यह बाहरी दुनिया के लिए दुर्गम दस्तावेज़ों के संग्रह तक पहुंच प्रदान करके किया जाता है। हालाँकि, यह नया टूल कोई पारंपरिक खोज इंजन नहीं है जो लिंक की एक सूची प्रदान करेगा जिसकी समीक्षा करने और आगे फ़िल्टर करने में आपको घंटों लगेंगे। बल्कि, यह एक समाधान है जो आपके लिए आवश्यक सामग्री तैयार कर सकता है। समय के साथ, आप स्वयं को इसे आदेश देने के साथ-साथ प्रश्न भी पूछते हुए पाएंगे। नीचे कुछ उदाहरण दिए गए हैं जो आपको यह अहसास दिलाएंगे कि क्या संभव है:
"यूरोपीय शेयर बाज़ार में हमारे हालिया निष्कर्ष खोजें।"
"जेनरेटिव एआई पर मेरी बातचीत के लिए एक सार बनाएं।"
"इस तिमाही में हमने जो कुछ भी प्रकाशित किया है, उसे ढूंढें।"
ऊपर दिए गए उदाहरण अनुसंधान परिदृश्य हैं, लेकिन एक अच्छी तरह से निर्मित बड़े भाषा मॉडल (एलएलएम) का उपयोग ग्राहक सहायता (चैटबॉट), संक्षेपण, अनुसंधान, अनुवाद और दस्तावेज़ निर्माण के लिए भी किया जा सकता है, बस कुछ का नाम बताएं।
ये सरल उदाहरण जेनरेटिव एआई की शक्ति को उजागर करते हैं - यह पढ़ने की सूची तैयार करने के बजाय आपके काम को अधिक कुशलता से पूरा करने का एक उपकरण है।
इस तरह के उपकरण को इच्छानुसार अस्तित्व में नहीं लाया जा सकता है, और यदि सुरक्षा और डेटा गुणवत्ता जैसी चिंताओं पर विचार नहीं किया गया तो चीजें बहुत गलत हो सकती हैं। इसके अतिरिक्त, वे मॉडल जो जेनरेटर एआई को पावर देते हैं, पारंपरिक डेटा सेंटर के भीतर नहीं चल सकते हैं। उन्हें असंरचित डेटा (डेटा लेक) के प्रबंधन, आपके एलएलएम (एमएलओपी टूलिंग) के लिए एआई/एमएल पाइपलाइन बनाने और नए टूलींग के लिए आधुनिक उपकरणों के साथ एक आधुनिक वातावरण की आवश्यकता है जो एलएलएम को आपके कस्टम कॉर्पस के संबंध में आवश्यक शिक्षा प्राप्त करने की अनुमति देता है। (मैं पुनर्प्राप्ति संवर्धित पीढ़ी को लागू करने के लिए वेक्टर डेटाबेस के बारे में बात कर रहा हूं - मैं इस पोस्ट में बाद में समझाऊंगा)।
इस पोस्ट में, मैं वैचारिक स्तर पर यह बताना चाहता हूं कि जेनरेटिव एआई को सफलतापूर्वक लागू करने के लिए किसी उद्यम को क्या विचार करना चाहिए।
आइए डेटा के बारे में बातचीत शुरू करें।
एक महत्वपूर्ण अंतर यह है कि जेनरेटिव एआई के लिए आवश्यक डेटा पारंपरिक एआई के लिए उपयोग किए जाने वाले डेटा के समान नहीं है। डेटा असंरचित होगा - विशेष रूप से, आपको जिस डेटा की आवश्यकता होगी वह SharePoint, Confluence और नेटवर्क फ़ाइल शेयर जैसे टूल में लॉक किए गए दस्तावेज़ होंगे। एक अच्छा जेनरेटिव एआई समाधान ऑडियो और वीडियो फ़ाइलों जैसी गैर-पाठ्य सामग्री को भी संभाल सकता है। आपको एक डेटा पाइपलाइन की आवश्यकता होगी जो यह सारा डेटा एकत्र करे और इसे एक छत के नीचे रखे।
यह जनरेटिव एआई पहल का सबसे चुनौतीपूर्ण कार्य हो सकता है। हम सभी जानते हैं कि किसी संगठन के भीतर कॉन्फ्लुएंस साइटें और शेयरपॉइंट साइटें कितनी तेजी से सामने आती हैं। इस बात की कोई गारंटी नहीं है कि उनमें मौजूद दस्तावेज़ पूर्ण, सच्चे और सटीक हैं। अन्य चिंताएँ सुरक्षा, व्यक्तिगत पहचान योग्य जानकारी और यदि दस्तावेज़ किसी बाहरी स्रोत से आए हैं तो लाइसेंसिंग शर्तें हैं।
एक बार जब आप उन दस्तावेज़ों की पहचान कर लेते हैं जिनमें सच्ची बुद्धिमत्ता होती है, तो आपको उन्हें रखने के लिए एक जगह की आवश्यकता होती है। दुर्भाग्य से, वे अपने मूल स्थान पर नहीं रह सकते। SharePoint, Confluence, और नेटवर्क फ़ाइल शेयर ऐसे उपकरण हैं जिन्हें प्रशिक्षण और अनुमान के लिए दस्तावेज़ों को शीघ्रता से प्रस्तुत करने के लिए डिज़ाइन नहीं किया गया था। यहीं पर मिनियो काम में आता है। आप अपने दस्तावेज़ों को एक भंडारण समाधान में संग्रहीत करना चाहेंगे जिसमें वे सभी क्षमताएं हों जिनका आप उपयोग करते हैं: आपकी आवश्यकताओं के अनुरूप पैमाने , पैमाने पर प्रदर्शन , विश्वसनीय , दोष सहनशील और एक क्लाउड नेटिव इंटरफ़ेस । लब्बोलुआब यह है कि आपको एक डेटा पाइपलाइन बनाने की ज़रूरत है जो कई स्रोतों से कच्चे डेटा को एकत्र करती है और फिर इसे एलएलएम द्वारा उपभोग के लिए बदल देती है। नीचे दिया गया चित्र किसी संगठन के भीतर मौजूद विभिन्न प्रकार के स्रोतों और होने वाली उच्च-स्तरीय जांच को दर्शाता है।
आइए कच्चे डेटा को गुणवत्ता वाले डेटा में बदलने के लिए आवश्यक सुरक्षा और गुणवत्ता जांच पर गौर करके डेटा पाइपलाइन पर करीब से नज़र डालें।
संगठनों को सभी दस्तावेज़ स्रोतों की एक सूची लेकर शुरुआत करनी चाहिए। प्रत्येक दस्तावेज़ स्रोत के लिए, पाए गए सभी दस्तावेज़ों को सूचीबद्ध किया जाना चाहिए। लाइसेंसिंग और सुरक्षा से संबंधित दस्तावेजों की समीक्षा की जानी चाहिए। कुछ दस्तावेज़ों को आपके समाधान से बाहर करने की आवश्यकता हो सकती है। इस प्रक्रिया का एक महत्वपूर्ण हिस्सा प्रतिबंधित डेटा की पहचान करना है जिसे आपके जेनरेटिव एआई समाधान में शामिल करने से पहले संशोधित करने की आवश्यकता है।
एक बार जब आप सुरक्षा और लाइसेंसिंग के लिए अपने दस्तावेज़ों की समीक्षा कर लेते हैं, तो उसके बाद गुणवत्ता की जाँच होती है। उदाहरण के लिए, सत्यता, विविधता (यदि वे लोगों के बारे में हैं) और अतिरेक। उच्च गुणवत्ता वाले डेटा के बिना सटीक मॉडल नहीं बनाए जा सकते। यह पारंपरिक एआई (पर्यवेक्षित शिक्षण, अनपर्यवेक्षित शिक्षण और सुदृढीकरण शिक्षण) के साथ सच है - और यह जेनरेटिव एआई के साथ विशेष रूप से सच है। निम्न-गुणवत्ता वाले दस्तावेज़, अनावश्यक दस्तावेज़ और गलत डेटा वाले दस्तावेज़ एलएलएम से प्रतिक्रियाओं को कमजोर कर देंगे या यहां तक कि मतिभ्रम भी पैदा करेंगे।
अधिक विस्तृत पाइपलाइन का दृश्य इस प्रकार दिखता है:
भंडारण समाधान के महत्व पर कुछ विचार: आपके गुणवत्ता दस्तावेज़ों को एक भंडारण समाधान में होना चाहिए जो प्रशिक्षण, फाइन-ट्यूनिंग और अनुमान के लिए आपके डेटा को तुरंत प्रदान कर सके। आपके इंजीनियर जितने अधिक प्रयोग चला सकेंगे, अंततः आपके मॉडल उतना ही बेहतर प्रदर्शन करेंगे। आप प्रयोगों पर नज़र रखना, संसाधित डेटा सहेजना और अपने मॉडलों का संस्करण भी रखना चाहेंगे। यह जानकारी सीधे MiniIO में सहेजकर या अपनी पसंद के MLOP टूल का उपयोग करके मैन्युअल रूप से किया जा सकता है। कई एमएलओपी उपकरण हुड के नीचे ऑब्जेक्ट स्टोरेज का उपयोग करते हैं। उदाहरण के लिए, DataBricks से MLFlow और Google से KubeFlow दोनों MiniIO का उपयोग करते हैं। इसके अतिरिक्त, उपरोक्त आरेखों में दर्शाया गया मिनिओ का उदाहरण एक आधुनिक डेटा लेक के कार्यान्वयन से आना चाहिए। एक आधुनिक डेटा लेक एक सिस्टम आर्किटेक्चर का केंद्र है जो एआई का समर्थन कर सकता है।
आइए आगे बढ़ें और चर्चा करें कि एलएलएम आपके गुणवत्ता दस्तावेजों वाले ऑब्जेक्ट स्टोर का उपयोग कैसे कर सकते हैं।
इस अनुभाग में, हम डोमेन-विशिष्ट सामग्री उत्पन्न करने के लिए ओपन-सोर्स एलएलएम और आपके गुणवत्ता दस्तावेज़ों का उपयोग करने के दो तरीकों पर गौर करेंगे। ये दो तकनीकें फाइन-ट्यूनिंग और पुनर्प्राप्ति संवर्धित पीढ़ी (आरएजी) हैं।
जब हम किसी मॉडल को फाइन-ट्यून करते हैं, तो हम उसे कस्टम जानकारी के साथ थोड़ा और प्रशिक्षित करते हैं। यह डोमेन-विशिष्ट एलएलएम प्राप्त करने का एक अच्छा तरीका हो सकता है। हालाँकि इस विकल्प के लिए आपके कस्टम कॉर्पस के विरुद्ध फाइन-ट्यूनिंग करने के लिए गणना की आवश्यकता होती है, लेकिन यह किसी मॉडल को स्क्रैच से प्रशिक्षित करने जितना गहन नहीं है और इसे मामूली समय सीमा में पूरा किया जा सकता है।
यदि आपके डोमेन में रोजमर्रा के उपयोग में नहीं मिलने वाले शब्द शामिल हैं, तो फाइन-ट्यूनिंग से एलएलएम की प्रतिक्रियाओं की गुणवत्ता में सुधार होगा। उदाहरण के लिए, ऐसी परियोजनाएँ जो चिकित्सा अनुसंधान, पर्यावरण अनुसंधान और प्राकृतिक विज्ञान से संबंधित किसी भी चीज़ के दस्तावेज़ों का उपयोग करेंगी, उन्हें फाइन-ट्यूनिंग से लाभ होगा। फ़ाइन-ट्यूनिंग आपके दस्तावेज़ों में पाए जाने वाले अत्यधिक विशिष्ट स्थानीय भाषा को लेती है और उन्हें मॉडल के पैरामीट्रिक मापदंडों में बदल देती है।
नुकसान
फाइन-ट्यूनिंग के लिए कंप्यूट संसाधनों की आवश्यकता होगी।
व्याख्या संभव नहीं है.
जैसे-जैसे आपका कोष विकसित होगा, आपको समय-समय पर नए डेटा को फिर से दुरुस्त करने की आवश्यकता होगी।
मतिभ्रम एक चिंता का विषय है.
लाभ
एलएलएम में फाइन-ट्यूनिंग के माध्यम से आपके कस्टम कॉर्पस का ज्ञान होता है।
RAG की तुलना में मूल्य निर्धारण के लिए बेहतर समय।
जबकि फाइन-ट्यूनिंग आपके व्यवसाय की भाषा के बारे में एलएलएम को सिखाने का एक अच्छा तरीका है, यह डेटा को कमजोर कर देता है क्योंकि अधिकांश एलएलएम में अरबों पैरामीटर होते हैं और आपका डेटा इन सभी मापदंडों में फैला हुआ होगा।
आइए एक ऐसी तकनीक पर नजर डालें जो अनुमान के समय आपके कस्टम डेटा और पैरामीट्रिक डेटा को जोड़ती है।
रिट्रीवल ऑगमेंटेड जेनरेशन (आरएजी) एक ऐसी तकनीक है जो पूछे गए प्रश्न से शुरू होती है - इसे अतिरिक्त डेटा के साथ जोड़ती है, और फिर सामग्री निर्माण के लिए प्रश्न और डेटा को एलएलएम और एक वेक्टर डेटाबेस में भेजती है। आरएजी के साथ, किसी प्रशिक्षण की आवश्यकता नहीं है क्योंकि हम अपने गुणवत्ता दस्तावेजों के संग्रह से प्रासंगिक टेक्स्ट स्निपेट भेजकर एलएलएम को शिक्षित करते हैं।
यह प्रश्न-उत्तर कार्य का उपयोग करके इस तरह काम करता है: एक उपयोगकर्ता आपके एप्लिकेशन के उपयोगकर्ता इंटरफ़ेस में एक प्रश्न पूछता है। आपका एप्लिकेशन प्रश्न लेगा - विशेष रूप से इसमें मौजूद शब्द - और, एक वेक्टर डेटाबेस का उपयोग करके, प्रासंगिक रूप से प्रासंगिक टेक्स्ट स्निपेट्स के लिए अपने गुणवत्ता दस्तावेज़ों के संग्रह की खोज करेगा। ये स्निपेट, मूल प्रश्न के साथ, एलएलएम को भेजे जाते हैं। यह संपूर्ण पैकेज - प्रश्न प्लस स्निपेट्स (संदर्भ) को एक संकेत के रूप में जाना जाता है। एलएलएम आपका उत्तर तैयार करने के लिए इस जानकारी का उपयोग करेगा। ऐसा करना एक मूर्खतापूर्ण कार्य प्रतीत हो सकता है - यदि आप पहले से ही उत्तर (स्निपेट्स) जानते हैं, तो एलएलएम से परेशान क्यों हों? ठीक है - याद रखें - यह वास्तविक समय में हो रहा है और लक्ष्य उत्पन्न पाठ है - जिसे आप कॉपी कर सकते हैं और अपने शोध में पेस्ट कर सकते हैं। आपको वह टेक्स्ट बनाने के लिए एलएलएम की आवश्यकता है जिसमें आपके कस्टम कॉर्पस से जानकारी शामिल हो।
यह फ़ाइन-ट्यूनिंग से अधिक जटिल है। आपने वेक्टर डेटाबेस के बारे में सुना होगा - किसी प्रश्न के लिए सर्वोत्तम संदर्भ की तलाश करते समय वे एक महत्वपूर्ण घटक होते हैं। वेक्टर डेटाबेस सेट करना मुश्किल हो सकता है। यदि आपको एक सरल अंतरिम समाधान की आवश्यकता है, तो आप इलास्टिक सर्च जैसे टेक्स्ट सर्च टूल का उपयोग कर सकते हैं। हालाँकि, वेक्टर डेटाबेस बेहतर हैं क्योंकि वे शब्दों के अर्थ संबंधी अर्थ सीख सकते हैं और एक ऐसे संदर्भ को खींच सकते हैं जो समान या समान अर्थ वाले विभिन्न शब्दों का उपयोग करता है।
नुकसान
एक वेक्टर डेटाबेस की आवश्यकता है.
फ़ाइन-ट्यूनिंग की तुलना में मूल्य निर्धारित करने में अधिक समय लगता है। (वेक्टर डेटाबेस और एलएलएम को अनुरोध भेजने से पहले आवश्यक प्री-प्रोसेसिंग के कारण।)
लाभ
जेनेरिक एआई का सफल कार्यान्वयन उचित योजना बनाने के इच्छुक किसी भी उद्यम की पहुंच के भीतर है।
सभी चीज़ों की तरह AI - जेनरेटिव AI डेटा से शुरू होता है। बड़े भाषा मॉडलों के लिए आवश्यक डेटा जो पावर जेनरेटर एआई कस्टम कॉर्पस है जो आपके फ़ायरवॉल के भीतर अद्वितीय ज्ञान को परिभाषित करता है। अपने आप को पाठ-आधारित दस्तावेज़ों तक सीमित न रखें। प्रशिक्षण वीडियो, रिकॉर्ड की गई बैठकें और ऑडियो और वीडियो दोनों प्रारूपों में रिकॉर्ड किए गए कार्यक्रमों का उपयोग किया जा सकता है। डेटा पाइपलाइन बनाना आसान नहीं होगा, सुरक्षा और लाइसेंसिंग को बनाए रखने के साथ-साथ गुणवत्ता सुनिश्चित करने का भी ध्यान रखना होगा।
ओपन-सोर्स मॉडल डिजाइनिंग मॉडल की जटिलता को दूर करते हैं और चूंकि अधिकांश पूर्व-प्रशिक्षित होते हैं, इसलिए वे प्रारंभिक प्रशिक्षण की उच्च लागत को भी हटा देते हैं। संगठनों को यह देखने के लिए फाइन-ट्यूनिंग का प्रयोग करना चाहिए कि क्या इससे उत्पन्न सामग्री की गुणवत्ता में सुधार होता है।
अंत में, पुनर्प्राप्ति संवर्धित पीढ़ी (आरएजी) एक शक्तिशाली तकनीक है जिसका उपयोग आपके संगठन के दस्तावेजों के कस्टम कॉर्पस में ज्ञान को एलएलएम के पैरामीट्रिक ज्ञान के साथ संयोजित करने के लिए किया जा सकता है। फ़ाइन-ट्यूनिंग के विपरीत, आपके कॉर्पस की जानकारी को मॉडल के पैरामीट्रिक मापदंडों में प्रशिक्षित नहीं किया जाता है। बल्कि, प्रासंगिक स्निपेट अनुमान के समय स्थित होते हैं और संदर्भ के रूप में मॉडल को पास कर दिए जाते हैं।
जेनरेटिव एआई एक नई तकनीक है और नई तकनीकों के लिए बुनियादी ढांचे के अपडेट की आवश्यकता होती है। जेनरेटिव एआई के बारे में गंभीर संगठनों के लिए, अगला कदम एक सिस्टम आर्किटेक्चर बनाना है जिसमें एक एआई/एमएल पाइपलाइन, एक डेटा पाइपलाइन, एक आधुनिक डेटा लेक और एक वेक्टर डेटाबेस (यदि आरएजी का उपयोग किया जा रहा है) शामिल है। इस पोस्ट में, मैंने इन तकनीकों को उच्च स्तर पर कवर किया है।
जेनरेटिव एआई सिस्टम आर्किटेक्चर की अधिक विस्तृत व्याख्या के लिए इस ब्लॉग पर बने रहें। यदि आपके कोई प्रश्न हैं, तो हमें [email protected] पर पिंग करें या स्लैक समुदाय में शामिल हों।
यहाँ भी दिखाई देता है.