paint-brush
AI विकास में क्रांति लाना: Apache Cassandra ने वेक्टर खोज की शुरुआत कीद्वारा@datastax
1,951 रीडिंग
1,951 रीडिंग

AI विकास में क्रांति लाना: Apache Cassandra ने वेक्टर खोज की शुरुआत की

द्वारा DataStax7m2023/05/22
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

दुनिया के सबसे स्केलेबल डेटाबेस Apache Cassandra के साथ मिलकर शक्तिशाली वेक्टर खोज, AI अनुप्रयोगों के लिए गेम चेंजर है।
featured image - AI विकास में क्रांति लाना: Apache Cassandra ने वेक्टर खोज की शुरुआत की
DataStax HackerNoon profile picture


डेटा के बिना कोई आर्टिफिशियल इंटेलिजेंस नहीं है। और जब आपका डेटा हर जगह बिखरा हुआ है, तो आप सबसे महत्वपूर्ण क्या है: एप्लिकेशन बनाने पर ध्यान केंद्रित करने के बजाय कार्यान्वयन प्रक्रिया का प्रबंधन करने में अधिक समय व्यतीत करेंगे। दुनिया के सबसे प्रमुख एप्लिकेशन पहले से ही अपाचे कैसेंड्रा का उपयोग करते हैं, इसलिए डेटा दक्षता बढ़ाना एक महत्वपूर्ण लक्ष्य है। एआई सभी पैमाने के बारे में है, और कैसेंड्रा में वेक्टर खोज - एआई मॉडल का उपयोग करने में एक प्रमुख घटक - लाने से संगठनों को लागत कम करने, उनके डेटा प्रबंधन को कारगर बनाने और उनके डेटा से मूल्य की हर आखिरी बूंद को निचोड़ने में मदद मिलेगी।


यह अत्याधुनिक सुविधा, हाल ही में कैसेंड्रा एन्हांसमेंट प्रस्ताव में रेखांकित की गई है ( सीईपी-30 ), कैसेंड्रा समुदाय की विश्वसनीय सुविधाओं को तेजी से बनाने की प्रतिबद्धता का और सबूत है। यह बड़े पैमाने पर डेटा सेट के साथ जूझ रहे एआई डेवलपर्स और संगठनों के लिए कैसंड्रा की बढ़ती अपील का भी एक वसीयतनामा है, जो उन्हें उन्नत, डेटा-संचालित एप्लिकेशन बनाने के लिए उपकरण प्रदान करता है।


सदिश खोज क्या है?

पाठ खोज की अवधारणा लंबे समय से आसपास रही है। इसमें दस्तावेज़ों के भीतर किसी विशेष कीवर्ड की खोज करना शामिल है। लेकिन महत्वपूर्ण डेटा केवल पाठ से अधिक में पाया जा सकता है: ऑडियो, चित्र और वीडियो (या कुछ संयोजन) में प्रासंगिक जानकारी भी होती है जिसके लिए खोज विधि की आवश्यकता होती है। यहीं पर सदिश खोज काम आती है। यह उपयोग में है कुछ समय के लिए , और यह विभिन्न अनुप्रयोगों में, विशेष रूप से AI और मशीन लर्निंग क्षेत्रों में काफी मूल्यवान साबित हुआ है।


सदिश समानता खोज के रूप में भी जाना जाता है, आपके खोज गेम को उन्नत करने के लिए दो भागों की आवश्यकता होती है।


सबसे पहले, कच्चे डेटा को एक वेक्टर प्रतिनिधित्व (संख्याओं की एक सरणी) में अनुक्रमित किया जाना चाहिए जो गणितीय विवरण के रूप में कार्य करता है।


दूसरा, वेक्टर डेटा को इस तरह से संग्रहीत करने की आवश्यकता है कि डेवलपर्स पूछ सकें, "एक चीज को देखते हुए, अन्य चीजें समान हैं?" डेवलपर्स के लिए यह सरल और शक्तिशाली है, सर्वर साइड पर बड़े पैमाने पर लागू करना चुनौतीपूर्ण है। यह वह जगह है जहां कैसंड्रा वास्तव में दुनिया भर में किसी भी पैमाने पर लगातार डेटा की सेवा करके लचीलापन के साथ चमकता है जो मन की शांति प्रदान करता है।


किसी भी तरह से इसका मतलब सदिश खोज में पूरी तरह से गोता लगाना नहीं है, लेकिन कोड की जटिलता को कम करने और सुविधाओं के उपयोगकर्ताओं के साथ तेजी से उत्पादन में आने के लिए उपयोगी डेटा का एक पूरी तरह से नया आयाम बनाकर यह आपके एप्लिकेशन के लिए क्या कर सकता है, इसकी अधिक व्याख्या चाहना।


सदिश खोज के वास्तविक-विश्व व्यावहारिक उदाहरणों में शामिल हैं:

  • सामग्री-आधारित छवि पुनर्प्राप्ति, जहां नेत्रहीन समान छवियों की पहचान उनके फीचर वैक्टर के आधार पर की जाती है। जैसे पुस्तकालय का उपयोग करना img2vec , आप एक छवि फ़ाइल को 512 विशिष्ट पहचानकर्ताओं में परिवर्तित कर सकते हैं जिनका उपयोग समानता खोज के लिए किया जा सकता है।


  • अनुशंसा प्रणाली, जहां उपभोक्ताओं को उत्पादों या सामग्री की सिफारिश की जाती है, जो उन वस्तुओं की समानता के आधार पर होती है जिनके साथ उन्होंने पहले बातचीत की थी।


  • प्राकृतिक भाषा प्रसंस्करण अनुप्रयोग, जहां पाठ्य सामग्री के बीच शब्दार्थ समानता की पहचान की जा सकती है और भावना विश्लेषण, दस्तावेज़ क्लस्टरिंग और विषय मॉडलिंग जैसे कार्यों के लिए इसका लाभ उठाया जा सकता है। यह आमतौर पर जैसे टूल का उपयोग करके किया जाता है word2vec और कैसेंड्रा द्वारा प्रदान किए जाने वाले पैमाने की आवश्यकता हो सकती है।


  • चैटजीपीटी का प्रयोग करें? वेक्टर खोज बड़े भाषा मॉडल (एलएलएम) के उपयोग के मामले के लिए महत्वपूर्ण है क्योंकि यह एलएलएम प्रशिक्षण प्रक्रिया के दौरान प्राप्त आसुत ज्ञान का प्रतिनिधित्व करने वाले वेक्टर एम्बेडिंग के कुशल भंडारण और पुनर्प्राप्ति को सक्षम बनाता है। समानता खोज करके, वेक्टर खोज उपयोगकर्ता के संकेत के अनुरूप सबसे प्रासंगिक एम्बेडिंग की तुरंत पहचान कर सकती है।


    यह एलएलएम को मॉडल के लिए दीर्घकालिक स्मृति का एक रूप प्रदान करते हुए अधिक सटीक और प्रासंगिक रूप से उपयुक्त प्रतिक्रिया उत्पन्न करने में मदद करता है। संक्षेप में, वेक्टर खोज एलएलएम और विशाल ज्ञान के आधार पर एक महत्वपूर्ण पुल है जिस पर उन्हें प्रशिक्षित किया जाता है।


कैसेंड्रा में क्या आ रहा है?

कैसेंड्रा परियोजना डेटाबेस ब्रह्मांड में कैसेंड्रा को परम बिजलीघर बनाने के लिए कभी न खत्म होने वाली खोज पर है। जैसा कि पहले उल्लेख किया गया है, अपने डेटा को वेक्टर एम्बेडिंग में बदलने के बाद, आपको उन्हें संग्रहीत करने और उपयोग करने के लिए एक स्थान की आवश्यकता होगी। उन क्षमताओं को कैसेंड्रा में जोड़ा जा रहा है, एक सरल लेकिन शक्तिशाली तरीके से उजागर किया गया।


वेक्टर डेटा प्रकार

उच्च-आयामी वैक्टर के भंडारण का समर्थन करने के लिए, हम एक नया डेटा प्रकार पेश कर रहे हैं, ` VECTOR<type, dimension> `। यह हैंडलिंग और भंडारण को सक्षम करेगा फ्लोट32 एम्बेडिंग, जो आमतौर पर एआई अनुप्रयोगों में उपयोग की जाती हैं। यह कैसेंड्रा को एआई पुस्तकालयों में जोड़ने के लिए पहले से ही चर्चा का परिणाम है लैंगचैन . इस उदाहरण में, सिमेंटिक समानता खोज को सक्षम करने के लिए विवरण से वेक्टर के निर्माण की कल्पना करें।



CREATE TABLE products(

id UUID PRIMARY KEY,

name varchar,

description varchar,

item_vector VECTOR<float, 3>

);



एएनएन खोज सूचकांक

हम "वेक्टरमेमटेबलइंडेक्स" नामक एक नया स्टोरेज-अटैच्ड इंडेक्स (एसएआई) जोड़ेंगे, जो अनुमानित निकटतम पड़ोसी (एएनएन) खोज कार्यक्षमता को समायोजित करेगा। कैसेंड्रा के भीतर कुशल वेक्टर खोज क्षमताओं को सक्षम करने के लिए यह इंडेक्स नए डेटा प्रकार और अपाचे ल्यूसीन की पदानुक्रमित नेविगेशनल स्मॉल वर्ल्ड (HNSW) लाइब्रेरी के साथ मिलकर काम करेगा।


CREATE CUSTOM INDEX item_ann_index ON product(item_vector)

USING 'VectorMemtableIndex';


सीक्यूएल में एएनएन ऑपरेटर

उपयोगकर्ताओं के लिए अपने डेटा पर ANN खोज करना आसान बनाने के लिए, हम एक नया कैसेंड्रा क्वेरी लैंग्वेज (CQL) ऑपरेटर, ANN OF पेश करेंगे। यह ऑपरेटर उपयोगकर्ताओं को सरल और परिचित क्वेरी सिंटैक्स के साथ अपने डेटा पर एएनएन खोजों को कुशलतापूर्वक करने की अनुमति देगा। उदाहरण को जारी रखते हुए, डेवलपर्स डेटाबेस से विवरण से बनाए गए वेक्टर के समान कुछ के लिए पूछ सकते हैं।


SELECT * FROM product WHERE item_vector ANN OF [3.4, 7.8, 9.1]



कैसंड्रा की व्यापकता पर प्रकाश डालना

जब कैसंड्रा 4.0 को जारी किया गया था, तो आसानी से अनदेखी की गई हाइलाइट्स में से एक बढ़ी हुई प्लगबिलिटी की अवधारणा थी। Cassandra में नई वेक्टर खोज कार्यक्षमता मौजूदा SAI ढांचे के विस्तार के रूप में बनाई गई है, जो कोर इंडेक्सिंग इंजन के पुनर्लेखन से बचती है। यह प्रसिद्ध और व्यापक रूप से उपयोग किया जाता है एचएनएसडब्ल्यू कार्यक्षमता लुसीन में, जो उच्च-आयामी अंतरिक्ष में निकटतम निकटतम पड़ोसियों को खोजने के लिए एक तेज़ और कुशल समाधान प्रदान करता है।


Cassandra 4 का नया जोड़ इसकी उल्लेखनीय मॉड्यूलरिटी और विस्तारशीलता पर प्रकाश डालता है। HNSW ल्यूसीन के एकीकरण और SAI ढांचे के विस्तार के साथ, डेवलपर्स अब उत्पादन-तैयार सुविधाओं की एक विस्तृत श्रृंखला तक बहुत तेजी से पहुंच सकते हैं। डेवलपर्स के पास कई वेक्टर डेटाबेस तक पहुंच है, और उनमें से कई स्टोरेज जोड़ने से पहले एक वेक्टर इंडेक्सिंग इंजन बनाना पसंद करते हैं। कैसेंड्रा ने एक दशक से भी अधिक समय से बड़े पैमाने पर डेटा भंडारण के चुनौतीपूर्ण मुद्दे का सफलतापूर्वक सामना किया है। हमें पूरा विश्वास है कि कैसेंड्रा में वेक्टर खोज सहित और भी असाधारण उत्पादन-तैयार सुविधाएँ प्रदान करेगा।


नए उपयोग के मामले

कैसेंड्रा मशीन लर्निंग और एआई वर्कलोड के लिए नया नहीं है। लंबे समय से कैसेंड्रा उपयोगकर्ता कैसेंड्रा का उपयोग वर्षों से एक तेज और कुशल फीचर स्टोर के रूप में कर रहे हैं। यह भी अफवाह है कि ओपनएआई एलएलएम के निर्माण में कैसेंड्रा का अत्यधिक उपयोग करता है। ये उपयोग मामले कैसेंड्रा की मौजूदा कार्यक्षमता को नियोजित करते हैं। नई सदिश खोज का उपयोग करने के कई तरीके होंगे। यह देखना रोमांचक होगा कि हमारा समुदाय क्या लेकर आता है लेकिन वे संभवतः दो श्रेणियों में फिट होंगे:


एएनएन खोज के साथ मौजूदा उपयोग के मामले को बढ़ाएँ

यदि आपके पास पहले से कैसेंड्रा पर निर्मित एक एप्लिकेशन है, तो आप एएनएन ("अनुमानित निकटतम पड़ोसी") खोज को शामिल करके इसकी क्षमताओं को बढ़ा सकते हैं। उदाहरण के लिए, यदि आपके पास सामग्री अनुशंसा प्रणाली है, तो आप समान आइटम खोजने और अपनी अनुशंसाओं की प्रासंगिकता में सुधार करने के लिए एएनएन खोज का उपयोग कर सकते हैं। उत्पाद कैटलॉग एक ही रिकॉर्ड में संग्रहीत एम्बेडेड वैक्टर में सुविधाओं को असामान्य कर सकते हैं। धोखाधड़ी का पता लगाने के लिए व्यवहारों को विशेषताओं के साथ मैप करके और बढ़ाया जा सकता है। उपयोग के मामले के बारे में सोचें और यह शायद प्रासंगिक है।

कुछ नया बनाएं जिसमें सदिश खोज की आवश्यकता हो

यदि आप एक नई परियोजना शुरू कर रहे हैं जिसमें तेजी से समानता खोज क्षमताओं की आवश्यकता होती है, तो कैसेंड्रा की नई सदिश खोज सुविधा डेटा भंडारण और पुनर्प्राप्ति के लिए एक उत्कृष्ट विकल्प होगी। यह जानकर कि आप एक ही सिस्टम पर गीगाबाइट्स से पेटाबाइट्स तक जा सकते हैं, आपको अपने एप्लिकेशन के निर्माण पर ध्यान केंद्रित करने और ट्रेडऑफ़्स के बारे में चिंता करने की अनुमति नहीं देगा। सदिश एम्बेडिंग को संग्रहीत करने के अलावा, आपके पास CQL की पूरी शक्ति होगी और एक पूर्ण विशेषताओं वाले डेटाबेस का सारणीबद्ध भंडारण होगा।


हालाँकि आप कैसेंड्रा का सेवन करते हैं, ये सभी विकल्प उपलब्ध होंगे। यदि यह ओपन सोर्स कैसेंड्रा का उपयोग करके आपकी खुद की तैनाती है, तो कुबेरनेट्स में तैनात K8ssandra या क्लाउड में जैसे सेवाओं के साथ डेटास्टैक्स एस्ट्रा डीबी , आपको वही शानदार सिस्टम मिलेगा। ओपन सोर्स के साथ आपको जो आजादी मिलती है, वह यह चुनने की आजादी है कि आप अपने एप्लिकेशन कैसे बनाते हैं।


डेवलपर्स द्वारा और उनके लिए निर्मित

जैसा कि हम कैसेंड्रा की क्षमताओं का नवाचार और विस्तार करना जारी रखते हैं, हम डेटा प्रबंधन में आपकी आवश्यकता के मामले में सबसे आगे रहने के लिए प्रतिबद्ध हैं। सदिश खोज की शुरूआत एक रोमांचक नया उपयोग मामला है जो आपके डेटा-चालित अनुप्रयोगों को और भी अधिक शक्तिशाली और बहुमुखी बना देगा। यह, वितरित जैसी कुछ अन्य अत्याधुनिक सुविधाओं के साथ बड़े पैमाने पर ACID लेनदेन , Cassandra 5.0 को आपके द्वारा किया जा सकने वाला सबसे महत्वपूर्ण अपग्रेड बना देगा। हम यहां भी नहीं रुक रहे हैं। Cassandra का समर्थन करने वाली कंपनियाँ और डेवलपर आपके डेटा को समेकित करने, प्रबंधन को सरल बनाने और पैसे बचाने के लिए अधिक तरीके सोचने के लिए कड़ी मेहनत कर रहे हैं।


हमें पूरा विश्वास है कि यह जुड़ाव न केवल एआई डेवलपर्स बल्कि बड़े डेटा सेट का प्रबंधन करने वाले संगठनों की भी मदद करेगा जो तेजी से समानता खोज से लाभ उठा सकते हैं। इसलिए तीसरी तिमाही में कुछ समय के लिए निर्धारित सदिश खोज कार्यक्षमता के साथ कैसेंड्रा के अल्फा रिलीज पर नजर रखें। हम इस नई सुविधा के साथ आपके द्वारा बनाए गए शानदार एप्लिकेशन को देखने के लिए उत्सुक हैं, और यदि आप अपने उपयोग के मामलों को समुदाय के साथ साझा करते हैं तो हमें अच्छा लगेगा ग्रह कैसेंड्रा .



डेटास्टैक्स के पैट्रिक मैकफैडिन द्वारा भी यहां प्रकाशित किया गया है।