paint-brush
क्या आप वेक्टर बोलते हैं? एलएलएम और जेनरेटिव एआई की भाषा को समझनाद्वारा@datastax
1,665 रीडिंग
1,665 रीडिंग

क्या आप वेक्टर बोलते हैं? एलएलएम और जेनरेटिव एआई की भाषा को समझना

द्वारा DataStax4m2023/07/24
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

वेक्टर, वेक्टर खोज और उस प्रकार के डेटाबेस की स्पष्ट समझ प्राप्त करने के लिए इसे पढ़ें जो वेक्टर को संग्रहीत और क्वेरी कर सकते हैं।
featured image - क्या आप वेक्टर बोलते हैं? एलएलएम और जेनरेटिव एआई की भाषा को समझना
DataStax HackerNoon profile picture

हम यह कहना पसंद करते हैं कि डेटा के बिना कोई कृत्रिम बुद्धिमत्ता नहीं है। लेकिन यह किसी भी तरह का डेटा नहीं हो सकता. बड़े भाषा मॉडल, या एलएलएम - गहन शिक्षण मॉडल लें, जैसे कि ओपनएआई का जीपीटी-4 जो ऐसा पाठ उत्पन्न कर सकता है जो एक इंसान के लिखने के समान है।


एलएलएम में शब्दों को "समझने" के लिए, उन्हें टेक्स्ट "वेक्टर" के रूप में संग्रहीत करने की आवश्यकता होती है - शब्दों के अर्थ और संख्याओं के साथ उपयोग पैटर्न को कैप्चर करने का एक तरीका। आप कह सकते हैं कि वेक्टर एआई की भाषा हैं।


वेक्टर कुछ समय से मौजूद हैं, लेकिन जेनेरिक एआई इंटरफेस चैटजीपीटी की लोकप्रियता और पहुंच के साथ, वे एक गर्म विषय बन गए हैं, खासकर क्योंकि इन तकनीकों के साथ संगठन जो सबसे लोकप्रिय ऐप बनाएंगे, वे अपने स्वयं के वैक्टर बनाकर एलएलएम के लिए अपने निजी डेटा का लाभ उठाएंगे।


लेकिन वे कैसे काम करते हैं, उन्हें कैसे संग्रहीत किया जाता है, एप्लिकेशन उन्हें कैसे खोजते हैं और वे एआई को संभव बनाने में कैसे मदद करते हैं? आइए वेक्टर, वेक्टर खोज और उन डेटाबेस के प्रकारों के बारे में जानें जो वेक्टर को संग्रहीत और क्वेरी कर सकते हैं।

वैक्टर

वेक्टर डेटा के एक टुकड़े की विशेषताओं के संख्यात्मक प्रतिनिधित्व को संदर्भित करता है। प्रत्येक डेटा बिंदु को कई संख्यात्मक मानों के साथ एक वेक्टर के रूप में दर्शाया जाता है, जहां प्रत्येक मान डेटा की एक विशिष्ट सुविधा या विशेषता से मेल खाता है।


जब आप किसी छवि या टेक्स्ट जैसे डेटा को वेक्टर प्रतिनिधित्व में बदलते हैं, तो इसे "एम्बेडिंग" के रूप में जाना जाता है।


उदाहरण के लिए, वेक्टर खोज के लिए छवि एम्बेडिंग का चुनाव विशिष्ट उपयोग के मामले, उपलब्ध संसाधनों और छवि डेटासेट की विशेषताओं जैसे विभिन्न कारकों पर निर्भर करता है।


ई-कॉमर्स या उत्पाद छवि खोज अनुप्रयोगों में, उत्पाद छवियों पर विशेष रूप से प्रशिक्षित एम्बेडिंग का उपयोग करना फायदेमंद हो सकता है; दूसरी ओर, तथाकथित उदाहरण पुनर्प्राप्ति में एक बड़े दृश्य या छवियों के भीतर वस्तुओं के उदाहरणों की खोज करना शामिल है।


डेटा को वेक्टर प्रतिनिधित्व के रूप में संग्रहीत करने से आप डेटा पर विभिन्न ऑपरेशन और गणना कर सकते हैं, सबसे महत्वपूर्ण रूप से खोज कर सकते हैं। उन प्रश्नों के प्रकार के लिए वेक्टर विशेषताओं का चयन करना महत्वपूर्ण है जिन्हें आप बाद में पूछने में सक्षम होना चाहते हैं।


उदाहरण के लिए, यदि आप पौधों वाली छवि में केवल रंगों के बारे में जानकारी संग्रहीत करते हैं, तो आप देखभाल आवश्यकताओं के बारे में नहीं पूछ सकते। आप केवल देखने में समान पौधे ही पा सकेंगे।

वेक्टर खोज

डेटा को वैक्टर के रूप में प्रस्तुत करके, आप सटीक मिलान के बिना बहुत बड़े डेटासेट को कुशलतापूर्वक खोजने और तुलना करने के लिए गणितीय तकनीकों का लाभ उठा सकते हैं।


लाखों ग्राहक प्रोफ़ाइल, या छवियां, या लेख जिन्हें वैक्टर के रूप में दर्शाया गया है - संख्याओं की एक सूची जो प्रत्येक आइटम की प्रमुख विशेषताओं को कैप्चर करती है - को वेक्टर समानता खोज (या "निकटतम पड़ोसी खोज") के साथ बहुत जल्दी से खोजा जा सकता है।


पारंपरिक कीवर्ड-आधारित खोज के विपरीत, जो विशिष्ट शब्दों की घटना के आधार पर दस्तावेजों से मेल खाती है, वेक्टर खोज प्रश्नों की समानता पर केंद्रित होती है; उदाहरण के लिए, क्या उनके अर्थ संबंधी अर्थ समान हैं?


यह क्षमता उनके वेक्टर प्रतिनिधित्व के आधार पर समान वस्तुओं को खोजने में सक्षम बनाती है। समानता खोज एल्गोरिदम वैक्टर के बीच "दूरी" या समानता को माप सकते हैं ताकि यह निर्धारित किया जा सके कि वे कितने निकट से संबंधित हैं।


अनुशंसा प्रणालियों में, वेक्टर खोज का उपयोग उनकी प्राथमिकताओं के आधार पर सबसे समान और भिन्न वस्तुओं या उपयोगकर्ताओं को खोजने के लिए किया जा सकता है। छवि प्रसंस्करण में, यह वस्तु पहचान और छवि पुनर्प्राप्ति जैसे कार्यों को सक्षम बनाता है।


उदाहरण के लिए, दुनिया का सबसे बड़ा खोज इंजन, Google, Google छवि खोज, YouTube और अन्य सूचना पुनर्प्राप्ति सेवाओं के बैकएंड को सशक्त बनाने के लिए वेक्टर खोज पर निर्भर करता है। (वेक्टर खोज के बारे में और जानें यहाँ .)

वेक्टर और डेटाबेस

इलास्टिक्स खोज जैसी स्टैंडअलोन वेक्टर खोज प्रौद्योगिकियां मौजूद हैं। लेकिन एआई अनुप्रयोगों द्वारा मांग की गई प्रतिक्रिया और पैमाने को वितरित करने के लिए वैक्टर को स्केलेबल और तेज़ डेटाबेस से संग्रहीत और पुनर्प्राप्त करने की आवश्यकता होती है।


आज कुछ ऐसे डेटाबेस हैं जो वेक्टर खोज को एक सुविधा के रूप में पेश करते हैं।


वेक्टर खोज को सक्षम करने वाले डेटाबेस का मुख्य लाभ गति है। पारंपरिक डेटाबेस को डेटाबेस में प्रत्येक आइटम के साथ एक क्वेरी की तुलना करनी होती है।


इसके विपरीत, एकीकृत वेक्टर खोज अनुक्रमण के एक रूप को सक्षम करती है और इसमें खोज एल्गोरिदम शामिल होते हैं जो प्रक्रिया को काफी तेज करते हैं, जिससे मानक डेटाबेस में लगने वाले समय के एक अंश में भारी मात्रा में डेटा खोजना संभव हो जाता है।


व्यावसायिक संदर्भ में, यह बेहद मूल्यवान है जब एआई अनुप्रयोगों का उपयोग उन उत्पादों की सिफारिश करने के लिए किया जाता है जो पिछली खरीद के समान हैं या धोखाधड़ी वाले लेनदेन की पहचान करते हैं जो ज्ञात पैटर्न से मिलते-जुलते हैं, या विसंगतियां जो मानक से भिन्न दिखती हैं।


वेक्टर खोज की पेशकश करने वाले डेटाबेस का एक उदाहरण डेटास्टैक्स है एस्ट्रा डीबी , जो अत्यधिक स्केलेबल, उच्च-थ्रूपुट, ओपन-सोर्स अपाचे कैसेंड्रा पर बनाया गया है। कैसंड्रा को एआई अनुप्रयोगों के लिए नेटफ्लिक्स, उबर और ऐप्पल जैसी कंपनियों द्वारा एआई को सशक्त बनाने के पैमाने पर पहले ही साबित किया जा चुका है।


वेक्टर खोज को जोड़ने से एस्ट्रा डीबी उच्च-स्तरीय डेटाबेस संचालन के लिए वन-स्टॉप शॉप बन जाता है।


एस्ट्रा डीबी जैसे स्केलेबल डेटा स्टोर के साथ वेक्टर खोज को एकीकृत करने से सीधे डेटाबेस के भीतर गणना और रैंकिंग सक्षम हो जाती है, जिससे बड़ी मात्रा में डेटा को बाहरी सिस्टम में स्थानांतरित करने की आवश्यकता समाप्त हो जाती है।


यह विलंबता को कम करता है और समग्र क्वेरी प्रदर्शन में सुधार करता है। और भी अधिक शक्तिशाली प्रश्नों के लिए वेक्टर खोज को एस्ट्रा डीबी के भीतर अन्य इंडेक्स के साथ जोड़ा जा सकता है। (वेक्टर डेटाबेस के बारे में और जानें यहाँ .)

वेक्टर खोज का बढ़ता महत्व

वेक्टर और उन्हें संग्रहीत करने वाले डेटाबेस एआई के क्षेत्र में कुशल खोज, समानता गणना और डेटा अन्वेषण को सक्षम करने में एक बड़ी भूमिका निभाते हैं।


जैसे-जैसे संगठन अपने जेनेरिक एआई प्रयासों को मापते हैं और अपने डेटा के साथ अंतिम-उपयोगकर्ता अनुभव को अनुकूलित करना चाहते हैं, वेक्टर प्रतिनिधित्व और वेक्टर-खोज सक्षम स्केलेबल, तेज़ डेटाबेस के साथ काम करने की क्षमता तेजी से महत्वपूर्ण हो जाएगी।


डॉ. चार्ना पार्की, डेटास्टैक्स द्वारा