paint-brush
एजीआई के भविष्य के लिए एक पेटाबाइट-स्केल वेक्टर स्टोरद्वारा@datastax
867 रीडिंग
867 रीडिंग

एजीआई के भविष्य के लिए एक पेटाबाइट-स्केल वेक्टर स्टोर

द्वारा DataStax5m2023/07/18
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

डेटास्टैक्स ने वेक्टर खोज के साथ डेटास्टैक्स एस्ट्रा डीबी की सामान्य उपलब्धता की घोषणा की।
featured image - एजीआई के भविष्य के लिए एक पेटाबाइट-स्केल वेक्टर स्टोर
DataStax HackerNoon profile picture
0-item

आपको एक दिलचस्प यूट्यूब वीडियो मिलता है जो आपको अपना स्वयं का चैटबॉट बनाने में मार्गदर्शन करता है। विज़ुअल स्टूडियो में एक घंटे के प्रयोग के बाद, आपके पास अपने सहकर्मियों को दिखाने के लिए एक शानदार छोटा प्रोजेक्ट है।


हालाँकि, जब आपका बॉस पूरी कंपनी में AI लागू करने का आदेश देता है, तो आपको एहसास होता है कि अवधारणा का यह प्रमाण केवल लैपटॉप के लिए उपयुक्त है; यह उत्पादन के लिए व्यावहारिक नहीं है.


इस कृत्रिम बुद्धिमत्ता प्रौद्योगिकी परिवर्तन में, केवल कुछ प्रतिशत कंपनियों ने जेनरेटिव एआई के साथ बड़े पैमाने पर कुछ किया है। एक लैपटॉप पीओसी गीगाबाइट-स्केल से दूर हो सकता है वेक्टर स्टोर .


लेकिन यह जल्दी से बदल जाएगा, और जब यह होगा, तो डेटास्टैक्स और अपाचे कैसेंड्रा® प्रोजेक्ट में मेरे सहकर्मी और मैं पहले से ही इस पर हैं - एक डेटा सेंटर में वेक्टर डेटा के गीगाबाइट से कहीं अधिक सीमाओं को आगे बढ़ाने के लिए सिद्ध तकनीक का उपयोग कर रहे हैं।


उस अंत तक, आज, हमने वेक्टर खोज के साथ डेटास्टैक्स एस्ट्रा डीबी की सामान्य उपलब्धता की घोषणा की . हम जेनरेटिव एआई के लिए भविष्य का निर्माण कर रहे हैं जिसमें स्वायत्त एजेंट शामिल हैं। इन एआई एजेंटों को प्रासंगिक रिकॉल के लिए बहुत तेज़-एक्सेस मेमोरी की आवश्यकता होगी। और क्या?


वेक्टर स्टोर्स स्मृति की इस प्रचंड भूख को संतुष्ट करने की कुंजी होंगे।

हर जगह अधिक डेटा

जितना अधिक वेक्टर डेटा हम उपयोग करते हैं, यह उतना ही स्पष्ट हो जाता है कि पैमाना अनिवार्य रूप से सीमित कारक होगा। लेकिन यहीं पर कैसेंड्रा वास्तव में चमकती है। हम एक वेक्टर स्टोर के पेटाबाइट को हिट करने के दावे में आश्वस्त हैं क्योंकि यह कैसेंड्रा पर बनाया गया है।


हां, वही कैसंड्रा हमारे उपयोगकर्ता पहले से ही पेटाबाइट-आकार के क्लस्टर के साथ चला रहे हैं। पिछले 12 वर्षों से, हम, एक ओपन-सोर्स प्रोजेक्ट के रूप में, दुनिया में सबसे बड़े लेनदेन संबंधी डेटा वर्कलोड के लिए एक प्रणाली का निर्माण और अनुकूलन कर रहे हैं।


वैक्टर को संग्रहीत करना और खोजना पहले से ही अविश्वसनीय तकनीक में जोड़ने के लिए एक और सुविधा है।


बोनस के रूप में, कैसेंड्रा को वेक्टर स्टोर के रूप में उपयोग करने का सबसे महत्वपूर्ण लाभ इसकी अंतर्निहित प्रतिकृति तंत्र है। यह विश्व स्तर पर सक्रिय-सक्रिय प्रतिकृति की अनुमति देता है, जिसका अर्थ है कि आपका डेटा मौजूद हो सकता है और कई स्थानों पर वास्तविक समय में अपडेट किया जा सकता है। बड़े डेटा के युग में, यह कई संगठनों के लिए एक महाशक्ति थी।


जेनेरिक एआई के युग में, यह अस्तित्व का मामला होगा क्योंकि एजेंट स्वतंत्र रूप से और विश्व स्तर पर कार्य करते हैं। कहीं भी आवश्यकता पड़ने पर लगातार डेटा भंडारण, बड़े पैमाने पर इसे किफायती बनाने के लिए आवश्यक लोच के साथ।

क्या हमें सचमुच इसकी आवश्यकता है?

अब, आप पूछ सकते हैं, "वास्तव में वेक्टर स्टोर की आवश्यकता किसे है जो पेटाबाइट को स्टोर कर सके?" यदि इतिहास ने हमें कुछ भी सिखाया है, तो डेटा भंडारण क्षमता की आवश्यकता किसी के अनुमान से कहीं अधिक तेजी से बढ़ती है।


एंटरप्राइज़ डेटा को फ़ाउंडेशन मॉडल में शामिल करने के लिए वैक्टर का उपयोग करना तेजी से प्रमुख तरीका बन गया है। भले ही फ़ाइन-ट्यूनिंग सैद्धांतिक रूप से समान परिणाम प्राप्त कर सकती है, कई व्यवसायों ने पाया है कि वैक्टर को शामिल करने से महत्वपूर्ण लाभ मिलते हैं।


यह डेटा उद्गम प्रदान करता है, जो स्वास्थ्य देखभाल और कानून जैसे विनियमित क्षेत्रों में विशेष रूप से महत्वपूर्ण है, और मॉडल ट्यूनिंग की जटिलताओं से बचने में मदद करता है।


पुनर्प्राप्ति-संवर्धित पीढ़ी ( खपरैल ) और नई दूरदर्शी सक्रिय पुनर्प्राप्ति संवर्धित पीढ़ी ( चमक ) प्रभावशाली समाधान हैं जो सबसे गतिशील और अद्यतित जानकारी का उपयोग करते हुए बड़े भाषा मॉडल मतिभ्रम की समस्या को कम कर सकते हैं।


यदि आप सर्वोत्तम परिणामों की तलाश में हैं, तो एलएलएम को वेक्टर खोज के साथ जोड़ना ही रास्ता है।


बेहतर एलएलएम ने वैक्टर की आवश्यकता को कम नहीं किया है। कंप्यूटिंग, नेटवर्क और भंडारण संसाधनों की खपत के साथ, एलएलएम बुनियादी ढांचे पर खर्च करने में अग्रणी बन रहे हैं। वे उस मौजूदा नेता को पीछे छोड़ देंगे जिसे कुछ लोगों ने "पेटाकोस्ट" बुनियादी ढांचे की संज्ञा दी है: एंटरप्राइज़ डेटा लेक।


हालाँकि, वेक्टर खोज के साथ एलएलएम का संयोजन उचित लागत पर इष्टतम प्रदर्शन और गुणवत्ता प्रदान कर सकता है।


यह केवल समय की बात है कि हमें विभिन्न प्रकार की चीजों के आधार पर पेटाबाइट आकार के वेक्टर स्टोर की आवश्यकता होगी जिन्हें हमें एम्बेड करना होगा। समानता खोज की प्रभावशीलता में एक महत्वपूर्ण कारक कुशल भंडारण और पुनर्प्राप्ति के साथ-साथ उपयोग किए गए एम्बेडिंग एल्गोरिदम की गुणवत्ता है।


ऐसा नहीं है कि सिस्टम तब तक कुशल है जब तक बहुत अधिक डेटा न हो। जिस बिंदु पर आपके पास देने के लिए डेटा समाप्त हो जाए, उसके बाद भी सिस्टम को कुशल होना चाहिए।

एआई ब्रेन के लिए कोई दर्द नहीं

चैटजीपीटी ने हर किसी का ध्यान खींचा और भारी मात्रा में "क्या होगा अगर" अटकलें लगाईं, लेकिन अंत में, यह एक ऐसा उत्पाद है जो डेटा आर्किटेक्चर के एक नए वर्ग को प्रदर्शित करता है। एलएलएम में सुधार जारी रहेगा, लेकिन आप एलएलएम के साथ जो करते हैं वही मूल्य पैदा करता है।


क्षेत्र के विशेषज्ञ जो आगे देख रहे हैं वे रहे हैं वास्तविक क्रांति दो भागों में घटित होगी:


  1. कृत्रिम सामान्य बुद्धि (एजीआई)


  2. वितरित स्वायत्त एआई एजेंट


इनमें से कोई भी एक भारी संसाधन तनाव का कारण बनेगा और, संयुक्त रूप से, उन संगठनों के लिए बहुत परेशानी पैदा कर सकता है जो सीमाओं के खिलाफ चलते हैं। एजेंट इंसानों के समान होते हैं: जितना अधिक वे जानते हैं, उतना बेहतर निर्णय ले सकते हैं।


यदि आपके पास एक साधारण उड़ान बुकिंग एजेंट है, तो उन सभी प्रासंगिक चीजों पर विचार करें जिन्हें तत्काल वापस बुलाने की आवश्यकता है। न केवल शेड्यूल बदलना और मौसम की स्थिति जैसी चीजें बल्कि कई उड़ानें बुक करने के बाद प्राप्त अनुभव भी। रुको-अनुभव?


मानव ट्रैवल एजेंटों के पास अराजक प्रणाली के साथ काम करने का गहरा अनुभव है, और उस अनुभव को एक चीज़ के रूप में वर्णित किया जा सकता है: स्मृति। एआई एजेंट अधिक मूल्यवान हो जाएंगे क्योंकि वे अपने कार्यों में अंतर्दृष्टि प्राप्त करेंगे, और उन यादों को एम्बेडिंग के रूप में संग्रहीत किया जाएगा।


हम नहीं चाहते कि हमारे एजेंटों को फिल्म में देखी गई समान समस्याओं का सामना करना पड़े स्मृति चिन्ह , तो आइए सीमाओं से शुरुआत न करें।

कल से आज ही शुरू करें

तो, मेरी सलाह? एआई एजेंटों के बारे में सोचना शुरू करें और आज आप उन्हें कैसे स्केल करेंगे। कल, अगले सप्ताह, या जब आप उस अपरिहार्य बाधा का सामना करेंगे, तब तक प्रतीक्षा न करें। अभी सफलता के लिए खुद को तैयार करें।


विकास और स्केलेबिलिटी के लिए योजना बनाएं. अपने आप को ऐसी स्थिति में न रखें जहां आपको बाद में बड़े पैमाने पर प्रवास करने के लिए मजबूर होना पड़े। मैं कुछ बड़ी डेटा माइग्रेशन परियोजनाओं में शामिल रहा हूं जो हमेशा इस तरह से शुरू होती हैं, "ठीक है, हमने नहीं सोचा था कि हमें और अधिक पैमाने की आवश्यकता होगी।"


कैसेंड्रा खुला-स्रोत है और उपयोग के लिए मुफ़्त है। यदि आप एक बड़े क्लस्टर को चलाने की मेहनत नहीं चाहते हैं, डेटास्टैक्स एस्ट्रा डीबी यह आपको कुछ ही क्लिक में चालू कर देगा और जितना चाहें उतना स्वतः-स्केल कर देगा।


और जो लोग ट्रेंडलाइन को देख रहे हैं और अगले कदम की योजना बनाने की कोशिश कर रहे हैं, उनके लिए एआई एजेंटों पर आपको विचार करने की आवश्यकता है। एआई का भविष्य विशाल है, और यह रोमांचक है। लेकिन इसके लिए तैयार रहने के लिए हमें आज ही तैयारी करने की जरूरत है।


जैसे फ़्रेमवर्क के बारे में जानें लैंगचेन और लामाइंडेक्स और उपयोग करें केसियो मजबूत और विश्वसनीय कैसेंड्रा पर निर्मित पेटाबाइट-स्केल वेक्टर स्टोर तक पहुंचने के लिए। आज ही दाहिने पैर से शुरुआत करें और बाद में प्रवास के लिए खुद को तैयार न करें।


आइए एक साथ मिलकर AI के भविष्य की शुरुआत करें, एक समय में एक पेटाबाइट-स्केल वेक्टर स्टोर।


पैट्रिक मैकफैडिन, डेटास्टैक्स द्वारा