डेटा के बिना कोई आर्टिफिशियल इंटेलिजेंस नहीं है। और जब आपका डेटा हर जगह बिखरा हुआ है, तो आप सबसे महत्वपूर्ण क्या है: एप्लिकेशन बनाने पर ध्यान केंद्रित करने के बजाय कार्यान्वयन प्रक्रिया का प्रबंधन करने में अधिक समय व्यतीत करेंगे। दुनिया के सबसे प्रमुख एप्लिकेशन पहले से ही अपाचे कैसेंड्रा का उपयोग करते हैं, इसलिए डेटा दक्षता बढ़ाना एक महत्वपूर्ण लक्ष्य है। एआई सभी पैमाने के बारे में है, और कैसेंड्रा में वेक्टर खोज - एआई मॉडल का उपयोग करने में एक प्रमुख घटक - लाने से संगठनों को लागत कम करने, उनके डेटा प्रबंधन को कारगर बनाने और उनके डेटा से मूल्य की हर आखिरी बूंद को निचोड़ने में मदद मिलेगी।
यह अत्याधुनिक सुविधा, हाल ही में कैसेंड्रा एन्हांसमेंट प्रस्ताव में रेखांकित की गई है (
पाठ खोज की अवधारणा लंबे समय से आसपास रही है। इसमें दस्तावेज़ों के भीतर किसी विशेष कीवर्ड की खोज करना शामिल है। लेकिन महत्वपूर्ण डेटा केवल पाठ से अधिक में पाया जा सकता है: ऑडियो, चित्र और वीडियो (या कुछ संयोजन) में प्रासंगिक जानकारी भी होती है जिसके लिए खोज विधि की आवश्यकता होती है। यहीं पर सदिश खोज काम आती है। यह उपयोग में है
सदिश समानता खोज के रूप में भी जाना जाता है, आपके खोज गेम को उन्नत करने के लिए दो भागों की आवश्यकता होती है।
सबसे पहले, कच्चे डेटा को एक वेक्टर प्रतिनिधित्व (संख्याओं की एक सरणी) में अनुक्रमित किया जाना चाहिए जो गणितीय विवरण के रूप में कार्य करता है।
दूसरा, वेक्टर डेटा को इस तरह से संग्रहीत करने की आवश्यकता है कि डेवलपर्स पूछ सकें, "एक चीज को देखते हुए, अन्य चीजें समान हैं?" डेवलपर्स के लिए यह सरल और शक्तिशाली है, सर्वर साइड पर बड़े पैमाने पर लागू करना चुनौतीपूर्ण है। यह वह जगह है जहां कैसंड्रा वास्तव में दुनिया भर में किसी भी पैमाने पर लगातार डेटा की सेवा करके लचीलापन के साथ चमकता है जो मन की शांति प्रदान करता है।
किसी भी तरह से इसका मतलब सदिश खोज में पूरी तरह से गोता लगाना नहीं है, लेकिन कोड की जटिलता को कम करने और सुविधाओं के उपयोगकर्ताओं के साथ तेजी से उत्पादन में आने के लिए उपयोगी डेटा का एक पूरी तरह से नया आयाम बनाकर यह आपके एप्लिकेशन के लिए क्या कर सकता है, इसकी अधिक व्याख्या चाहना।
सदिश खोज के वास्तविक-विश्व व्यावहारिक उदाहरणों में शामिल हैं:
सामग्री-आधारित छवि पुनर्प्राप्ति, जहां नेत्रहीन समान छवियों की पहचान उनके फीचर वैक्टर के आधार पर की जाती है। जैसे पुस्तकालय का उपयोग करना
अनुशंसा प्रणाली, जहां उपभोक्ताओं को उत्पादों या सामग्री की सिफारिश की जाती है, जो उन वस्तुओं की समानता के आधार पर होती है जिनके साथ उन्होंने पहले बातचीत की थी।
प्राकृतिक भाषा प्रसंस्करण अनुप्रयोग, जहां पाठ्य सामग्री के बीच शब्दार्थ समानता की पहचान की जा सकती है और भावना विश्लेषण, दस्तावेज़ क्लस्टरिंग और विषय मॉडलिंग जैसे कार्यों के लिए इसका लाभ उठाया जा सकता है। यह आमतौर पर जैसे टूल का उपयोग करके किया जाता है
चैटजीपीटी का प्रयोग करें? वेक्टर खोज बड़े भाषा मॉडल (एलएलएम) के उपयोग के मामले के लिए महत्वपूर्ण है क्योंकि यह एलएलएम प्रशिक्षण प्रक्रिया के दौरान प्राप्त आसुत ज्ञान का प्रतिनिधित्व करने वाले वेक्टर एम्बेडिंग के कुशल भंडारण और पुनर्प्राप्ति को सक्षम बनाता है। समानता खोज करके, वेक्टर खोज उपयोगकर्ता के संकेत के अनुरूप सबसे प्रासंगिक एम्बेडिंग की तुरंत पहचान कर सकती है।
यह एलएलएम को मॉडल के लिए दीर्घकालिक स्मृति का एक रूप प्रदान करते हुए अधिक सटीक और प्रासंगिक रूप से उपयुक्त प्रतिक्रिया उत्पन्न करने में मदद करता है। संक्षेप में, वेक्टर खोज एलएलएम और विशाल ज्ञान के आधार पर एक महत्वपूर्ण पुल है जिस पर उन्हें प्रशिक्षित किया जाता है।
कैसेंड्रा परियोजना डेटाबेस ब्रह्मांड में कैसेंड्रा को परम बिजलीघर बनाने के लिए कभी न खत्म होने वाली खोज पर है। जैसा कि पहले उल्लेख किया गया है, अपने डेटा को वेक्टर एम्बेडिंग में बदलने के बाद, आपको उन्हें संग्रहीत करने और उपयोग करने के लिए एक स्थान की आवश्यकता होगी। उन क्षमताओं को कैसेंड्रा में जोड़ा जा रहा है, एक सरल लेकिन शक्तिशाली तरीके से उजागर किया गया।
उच्च-आयामी वैक्टर के भंडारण का समर्थन करने के लिए, हम एक नया डेटा प्रकार पेश कर रहे हैं, ` VECTOR<type, dimension>
`। यह हैंडलिंग और भंडारण को सक्षम करेगा
CREATE TABLE products(
id UUID PRIMARY KEY,
name varchar,
description varchar,
item_vector VECTOR<float, 3>
);
हम "वेक्टरमेमटेबलइंडेक्स" नामक एक नया स्टोरेज-अटैच्ड इंडेक्स (एसएआई) जोड़ेंगे, जो अनुमानित निकटतम पड़ोसी (एएनएन) खोज कार्यक्षमता को समायोजित करेगा। कैसेंड्रा के भीतर कुशल वेक्टर खोज क्षमताओं को सक्षम करने के लिए यह इंडेक्स नए डेटा प्रकार और अपाचे ल्यूसीन की पदानुक्रमित नेविगेशनल स्मॉल वर्ल्ड (HNSW) लाइब्रेरी के साथ मिलकर काम करेगा।
CREATE CUSTOM INDEX item_ann_index ON product(item_vector)
USING 'VectorMemtableIndex';
उपयोगकर्ताओं के लिए अपने डेटा पर ANN खोज करना आसान बनाने के लिए, हम एक नया कैसेंड्रा क्वेरी लैंग्वेज (CQL) ऑपरेटर, ANN OF पेश करेंगे। यह ऑपरेटर उपयोगकर्ताओं को सरल और परिचित क्वेरी सिंटैक्स के साथ अपने डेटा पर एएनएन खोजों को कुशलतापूर्वक करने की अनुमति देगा। उदाहरण को जारी रखते हुए, डेवलपर्स डेटाबेस से विवरण से बनाए गए वेक्टर के समान कुछ के लिए पूछ सकते हैं।
SELECT * FROM product WHERE item_vector ANN OF [3.4, 7.8, 9.1]
जब कैसंड्रा 4.0 को जारी किया गया था, तो आसानी से अनदेखी की गई हाइलाइट्स में से एक बढ़ी हुई प्लगबिलिटी की अवधारणा थी। Cassandra में नई वेक्टर खोज कार्यक्षमता मौजूदा SAI ढांचे के विस्तार के रूप में बनाई गई है, जो कोर इंडेक्सिंग इंजन के पुनर्लेखन से बचती है। यह प्रसिद्ध और व्यापक रूप से उपयोग किया जाता है
Cassandra 4 का नया जोड़ इसकी उल्लेखनीय मॉड्यूलरिटी और विस्तारशीलता पर प्रकाश डालता है। HNSW ल्यूसीन के एकीकरण और SAI ढांचे के विस्तार के साथ, डेवलपर्स अब उत्पादन-तैयार सुविधाओं की एक विस्तृत श्रृंखला तक बहुत तेजी से पहुंच सकते हैं। डेवलपर्स के पास कई वेक्टर डेटाबेस तक पहुंच है, और उनमें से कई स्टोरेज जोड़ने से पहले एक वेक्टर इंडेक्सिंग इंजन बनाना पसंद करते हैं। कैसेंड्रा ने एक दशक से भी अधिक समय से बड़े पैमाने पर डेटा भंडारण के चुनौतीपूर्ण मुद्दे का सफलतापूर्वक सामना किया है। हमें पूरा विश्वास है कि कैसेंड्रा में वेक्टर खोज सहित और भी असाधारण उत्पादन-तैयार सुविधाएँ प्रदान करेगा।
कैसेंड्रा मशीन लर्निंग और एआई वर्कलोड के लिए नया नहीं है। लंबे समय से कैसेंड्रा उपयोगकर्ता कैसेंड्रा का उपयोग वर्षों से एक तेज और कुशल फीचर स्टोर के रूप में कर रहे हैं। यह भी अफवाह है कि ओपनएआई एलएलएम के निर्माण में कैसेंड्रा का अत्यधिक उपयोग करता है। ये उपयोग मामले कैसेंड्रा की मौजूदा कार्यक्षमता को नियोजित करते हैं। नई सदिश खोज का उपयोग करने के कई तरीके होंगे। यह देखना रोमांचक होगा कि हमारा समुदाय क्या लेकर आता है लेकिन वे संभवतः दो श्रेणियों में फिट होंगे:
यदि आपके पास पहले से कैसेंड्रा पर निर्मित एक एप्लिकेशन है, तो आप एएनएन ("अनुमानित निकटतम पड़ोसी") खोज को शामिल करके इसकी क्षमताओं को बढ़ा सकते हैं। उदाहरण के लिए, यदि आपके पास सामग्री अनुशंसा प्रणाली है, तो आप समान आइटम खोजने और अपनी अनुशंसाओं की प्रासंगिकता में सुधार करने के लिए एएनएन खोज का उपयोग कर सकते हैं। उत्पाद कैटलॉग एक ही रिकॉर्ड में संग्रहीत एम्बेडेड वैक्टर में सुविधाओं को असामान्य कर सकते हैं। धोखाधड़ी का पता लगाने के लिए व्यवहारों को विशेषताओं के साथ मैप करके और बढ़ाया जा सकता है। उपयोग के मामले के बारे में सोचें और यह शायद प्रासंगिक है।
यदि आप एक नई परियोजना शुरू कर रहे हैं जिसमें तेजी से समानता खोज क्षमताओं की आवश्यकता होती है, तो कैसेंड्रा की नई सदिश खोज सुविधा डेटा भंडारण और पुनर्प्राप्ति के लिए एक उत्कृष्ट विकल्प होगी। यह जानकर कि आप एक ही सिस्टम पर गीगाबाइट्स से पेटाबाइट्स तक जा सकते हैं, आपको अपने एप्लिकेशन के निर्माण पर ध्यान केंद्रित करने और ट्रेडऑफ़्स के बारे में चिंता करने की अनुमति नहीं देगा। सदिश एम्बेडिंग को संग्रहीत करने के अलावा, आपके पास CQL की पूरी शक्ति होगी और एक पूर्ण विशेषताओं वाले डेटाबेस का सारणीबद्ध भंडारण होगा।
हालाँकि आप कैसेंड्रा का सेवन करते हैं, ये सभी विकल्प उपलब्ध होंगे। यदि यह ओपन सोर्स कैसेंड्रा का उपयोग करके आपकी खुद की तैनाती है, तो कुबेरनेट्स में तैनात
जैसा कि हम कैसेंड्रा की क्षमताओं का नवाचार और विस्तार करना जारी रखते हैं, हम डेटा प्रबंधन में आपकी आवश्यकता के मामले में सबसे आगे रहने के लिए प्रतिबद्ध हैं। सदिश खोज की शुरूआत एक रोमांचक नया उपयोग मामला है जो आपके डेटा-चालित अनुप्रयोगों को और भी अधिक शक्तिशाली और बहुमुखी बना देगा। यह, वितरित जैसी कुछ अन्य अत्याधुनिक सुविधाओं के साथ
हमें पूरा विश्वास है कि यह जुड़ाव न केवल एआई डेवलपर्स बल्कि बड़े डेटा सेट का प्रबंधन करने वाले संगठनों की भी मदद करेगा जो तेजी से समानता खोज से लाभ उठा सकते हैं। इसलिए तीसरी तिमाही में कुछ समय के लिए निर्धारित सदिश खोज कार्यक्षमता के साथ कैसेंड्रा के अल्फा रिलीज पर नजर रखें। हम इस नई सुविधा के साथ आपके द्वारा बनाए गए शानदार एप्लिकेशन को देखने के लिए उत्सुक हैं, और यदि आप अपने उपयोग के मामलों को समुदाय के साथ साझा करते हैं तो हमें अच्छा लगेगा
डेटास्टैक्स के पैट्रिक मैकफैडिन द्वारा भी यहां प्रकाशित किया गया है।