paint-brush
प्रमुख टेक कंपनियों द्वारा वेक्टर सर्च के लिए 5 उपयोग मामलों पर एक नज़रद्वारा@rocksetcloud
7,165 रीडिंग
7,165 रीडिंग

प्रमुख टेक कंपनियों द्वारा वेक्टर सर्च के लिए 5 उपयोग मामलों पर एक नज़र

द्वारा Rockset12m2024/05/03
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

वेक्टर सर्च के शुरुआती 5 उपयोगकर्ताओं - पिनटेरेस्ट, स्पॉटिफाई, ईबे, एयरबीएनबी और डोरडैश - के बारे में गहन जानकारी, जिन्होंने अपने अनुप्रयोगों में एआई को एकीकृत किया है।
featured image - प्रमुख टेक कंपनियों द्वारा वेक्टर सर्च के लिए 5 उपयोग मामलों पर एक नज़र
Rockset HackerNoon profile picture


हमने जिन कई संगठनों से बात की है, वे AI-संचालित वैयक्तिकरण, अनुशंसाओं, अर्थपूर्ण खोज और विसंगति का पता लगाने के लिए वेक्टर खोज का उपयोग करने के अन्वेषण चरण में हैं। BERT और OpenAI सहित बड़े भाषा मॉडल (LLM) की सटीकता और पहुँच में हाल ही में हुए और खगोलीय सुधारों ने कंपनियों को प्रासंगिक खोज और विश्लेषण अनुभव बनाने के तरीके पर पुनर्विचार करने पर मजबूर कर दिया है।


इस ब्लॉग में, हम वेक्टर सर्च के शुरुआती 5 उपयोगकर्ताओं- Pinterest, Spotify, eBay, Airbnb और Doordash- की इंजीनियरिंग कहानियों को कैप्चर करते हैं, जिन्होंने अपने अनुप्रयोगों में AI को एकीकृत किया है। हमें उम्मीद है कि ये कहानियाँ उन इंजीनियरिंग टीमों के लिए मददगार होंगी जो एम्बेडिंग बनाने से लेकर प्रोडक्शन डिप्लॉयमेंट तक वेक्टर सर्च के पूरे जीवनचक्र के बारे में सोच रही हैं।

वेक्टर खोज क्या है?

वेक्टर खोज एक उच्च-आयामी स्थान में डेटा के प्रतिनिधित्व के आधार पर एक बड़े डेटासेट से समान आइटम को कुशलतापूर्वक खोजने और पुनर्प्राप्त करने की एक विधि है। इस संदर्भ में, आइटम कुछ भी हो सकते हैं, जैसे कि दस्तावेज़, चित्र या ध्वनियाँ, और उन्हें वेक्टर एम्बेडिंग के रूप में दर्शाया जाता है। वस्तुओं के बीच समानता की गणना दूरी मेट्रिक्स का उपयोग करके की जाती है, जैसे कि कोसाइन समानता या यूक्लिडियन दूरी , जो दो वेक्टर एम्बेडिंग की निकटता को मापती है।


वेक्टर खोज प्रक्रिया में आमतौर पर निम्नलिखित शामिल होते हैं:


  • एम्बेडिंग उत्पन्न करना : जहां प्रासंगिक विशेषताओं को कच्चे डेटा से निकाला जाता है ताकि word2vec , BERT या यूनिवर्सल सेंटेंस एनकोडर जैसे मॉडलों का उपयोग करके वेक्टर प्रतिनिधित्व बनाया जा सके
  • अनुक्रमण : वेक्टर एम्बेडिंग को एक डेटा संरचना में व्यवस्थित किया जाता है जो FAISS या HNSW जैसे एल्गोरिदम का उपयोग करके कुशल खोज को सक्षम बनाता है
  • वेक्टर खोज : जहां किसी दिए गए क्वेरी वेक्टर के सबसे समान आइटम को कोसाइन समानता या यूक्लिडियन दूरी जैसे चुने हुए दूरी मीट्रिक के आधार पर पुनर्प्राप्त किया जाता है


वेक्टर खोज को बेहतर ढंग से देखने के लिए, हम एक 3D स्पेस की कल्पना कर सकते हैं जहाँ प्रत्येक अक्ष एक विशेषता से मेल खाता है। स्पेस में किसी बिंदु का समय और स्थिति इन विशेषताओं के मानों द्वारा निर्धारित होती है। इस स्पेस में, समान आइटम एक दूसरे के करीब स्थित होते हैं और असमान आइटम एक दूसरे से दूर होते हैं।


गिटहब जूली-मिल्स

 ^ | x Item 1 | / | / | /x Item 2 | / | / | /x Item 3 | / | / | / +------------------->


किसी क्वेरी को दिए जाने पर, हम डेटासेट में सबसे समान आइटम ढूँढ़ सकते हैं। क्वेरी को आइटम एम्बेडिंग के समान स्थान पर वेक्टर एम्बेडिंग के रूप में दर्शाया जाता है, और क्वेरी एम्बेडिंग और प्रत्येक आइटम एम्बेडिंग के बीच की दूरी की गणना की जाती है। क्वेरी एम्बेडिंग से सबसे कम दूरी वाले आइटम एम्बेडिंग को सबसे समान माना जाता है।


 Query item: x | ^ | | x Item 1| | / | | / | | /x Item 2 | | / | | / | | /x Item 3 | | / | | / | | / | +------------------->


यह स्पष्टतः एक सरलीकृत दृश्य है क्योंकि वेक्टर खोज उच्च-आयामी स्थानों में संचालित होती है।


अगले अनुभागों में, हम वेक्टर खोज पर 5 इंजीनियरिंग ब्लॉगों का सारांश प्रस्तुत करेंगे और मुख्य कार्यान्वयन विचारों पर प्रकाश डालेंगे। संपूर्ण इंजीनियरिंग ब्लॉग नीचे पाए जा सकते हैं:



Pinterest: रुचि खोज और खोज

Pinterest अपने प्लेटफॉर्म के कई क्षेत्रों में छवि खोज और खोज के लिए वेक्टर खोज का उपयोग करता है, जिसमें होम फीड पर अनुशंसित सामग्री, संबंधित पिन और मल्टीटास्क लर्निंग मॉडल का उपयोग करके खोज शामिल है।


विभिन्न उपयोगकर्ता इंटरैक्शन और डेटा बिंदु जिनका उपयोग Pinterest पर वेक्टर एम्बेडिंग बनाने के लिए किया जाता है।


मल्टी-टास्क मॉडल को एक साथ कई कार्य करने के लिए प्रशिक्षित किया जाता है, अक्सर अंतर्निहित प्रतिनिधित्व या विशेषताओं को साझा करते हुए, जो संबंधित कार्यों में सामान्यीकरण और दक्षता में सुधार कर सकता है। Pinterest के मामले में, टीम ने होमफ़ीड, संबंधित पिन और खोज पर अनुशंसित सामग्री को चलाने के लिए उसी मॉडल को प्रशिक्षित और उपयोग किया।


Pinterest उपयोगकर्ता की खोज क्वेरी (q) को उनके द्वारा क्लिक की गई सामग्री या उनके द्वारा सहेजे गए पिन (p) के साथ जोड़कर मॉडल को प्रशिक्षित करता है। यहाँ बताया गया है कि Pinterest ने प्रत्येक कार्य के लिए (q,p) जोड़े कैसे बनाए:


  • संबंधित पिन : शब्द एम्बेडिंग चयनित विषय (q) और उपयोगकर्ता द्वारा क्लिक किए गए या सहेजे गए पिन (p) से प्राप्त होते हैं।

  • खोज : शब्द एम्बेडिंग खोज क्वेरी पाठ (q) और उपयोगकर्ता द्वारा क्लिक किए गए या सहेजे गए पिन (p) से बनाए जाते हैं।

  • होमफीड : शब्द एम्बेडिंग उपयोगकर्ता की रुचि (q) और उपयोगकर्ता द्वारा क्लिक किए गए या सहेजे गए पिन (p) के आधार पर उत्पन्न होते हैं।


समग्र इकाई एम्बेडिंग प्राप्त करने के लिए, Pinterest संबंधित पिन, खोज और होमफीड के लिए संबद्ध शब्द एम्बेडिंग का औसत निकालता है।


Pinterest ने GloVe, word2vec के साथ-साथ एकल-कार्य शिक्षण मॉडल, PinText-SR सहित अपर्यवेक्षित शिक्षण मॉडल के विरुद्ध अपने स्वयं के पर्यवेक्षित Pintext-MTL (बहु-कार्य शिक्षण) का निर्माण और मूल्यांकन किया। PinText-MTL में अन्य एम्बेडिंग मॉडल की तुलना में अधिक परिशुद्धता थी, जिसका अर्थ है कि इसमें सभी सकारात्मक भविष्यवाणियों के बीच सच्चे सकारात्मक भविष्यवाणियों का अनुपात अधिक था।

Pinterest द्वारा मूल्यांकन किए गए विभिन्न एम्बेडिंग मॉडल की सटीकता। यह परिणाम तालिका ब्लॉग PinText: A Multitask Text Embedding System in Pinterest से ली गई है।



पिनटेरेस्ट ने यह भी पाया कि बहु-कार्य शिक्षण मॉडलों में स्मरण शक्ति अधिक थी, या मॉडल द्वारा प्रासंगिक उदाहरणों की सही पहचान का अनुपात अधिक था, जिससे वे खोज और डिस्कवरी के लिए अधिक उपयुक्त थे।


उत्पादन में यह सब एक साथ रखने के लिए, Pinterest के पास होमफीड, खोज और संबंधित पिन से स्ट्रीमिंग डेटा पर प्रशिक्षित एक मल्टीटास्क मॉडल है। एक बार जब वह मॉडल प्रशिक्षित हो जाता है, तो Kubernetes+Docker या मैप-रिड्यूस सिस्टम का उपयोग करके बड़े बैच जॉब में वेक्टर एम्बेडिंग बनाए जाते हैं। प्लेटफ़ॉर्म वेक्टर एम्बेडिंग का एक खोज इंडेक्स बनाता है और उपयोगकर्ताओं के लिए सबसे अधिक प्रासंगिक सामग्री खोजने के लिए K-निकटतम पड़ोसी (KNN) खोज चलाता है। Pinterest प्लेटफ़ॉर्म की प्रदर्शन आवश्यकताओं को पूरा करने के लिए परिणाम कैश किए जाते हैं।


Pinterest पर वेक्टर खोज के लिए डेटा स्टैक.



Spotify: पॉडकास्ट खोज

Spotify उपयोगकर्ताओं के लिए प्रासंगिक पॉडकास्ट एपिसोड परिणाम प्राप्त करने के लिए कीवर्ड और सिमेंटिक खोज को जोड़ता है। उदाहरण के तौर पर, टीम ने “इलेक्ट्रिक कार जलवायु प्रभाव” क्वेरी के लिए कीवर्ड खोज की सीमाओं पर प्रकाश डाला, एक क्वेरी जिसने 0 परिणाम दिए, भले ही Spotify लाइब्रेरी में प्रासंगिक पॉडकास्ट एपिसोड मौजूद हों। रिकॉल को बेहतर बनाने के लिए, Spotify टीम ने तेज़, प्रासंगिक पॉडकास्ट खोज के लिए अनुमानित निकटतम पड़ोसी (ANN) का उपयोग किया।


स्पॉटिफ़ाई में "इलेक्ट्रिक कारों का जलवायु प्रभाव" के लिए एक वर्तमान खोज।


टीम यूनिवर्सल सेंटेंस एनकोडर CMLM मॉडल का उपयोग करके वेक्टर एम्बेडिंग उत्पन्न करती है क्योंकि यह बहुभाषी है, पॉडकास्ट की वैश्विक लाइब्रेरी का समर्थन करता है, और उच्च गुणवत्ता वाले वेक्टर एम्बेडिंग का उत्पादन करता है। अन्य मॉडलों का भी मूल्यांकन किया गया जिसमें BERT भी शामिल है, जो टेक्स्ट डेटा के एक बड़े कॉर्पस पर प्रशिक्षित मॉडल है, लेकिन पाया गया कि BERT वाक्य एम्बेडिंग की तुलना में शब्द एम्बेडिंग के लिए बेहतर था और इसे केवल अंग्रेजी में ही पूर्व-प्रशिक्षित किया गया था।


Spotify क्वेरी टेक्स्ट को इनपुट एम्बेडिंग और पॉडकास्ट एपिसोड एम्बेडिंग के लिए शीर्षक और विवरण सहित टेक्स्टुअल मेटाडेटा फ़ील्ड के संयोजन के साथ वेक्टर एम्बेडिंग बनाता है। समानता निर्धारित करने के लिए, Spotify ने क्वेरी और एपिसोड एम्बेडिंग के बीच कोसाइन दूरी को मापा।


बेस यूनिवर्सल सेंटेंस एनकोडर CMLM मॉडल को प्रशिक्षित करने के लिए, Spotify ने सफल पॉडकास्ट खोजों और एपिसोड के सकारात्मक जोड़े का उपयोग किया। उन्होंने इन-बैच नेगेटिव को शामिल किया, एक तकनीक जिसे ओपन-डोमेन क्वेश्चन आंसरिंग (DPR) और Que2Search: फेसबुक पर सर्च के लिए फास्ट एंड एक्यूरेट क्वेरी और डॉक्यूमेंट अंडरस्टैंडिंग सहित पेपर में हाइलाइट किया गया है, ताकि यादृच्छिक नकारात्मक जोड़े उत्पन्न किए जा सकें। सिंथेटिक क्वेरी और मैन्युअल रूप से लिखे गए क्वेरी का उपयोग करके भी परीक्षण किया गया था।


प्रोडक्शन में पॉडकास्ट अनुशंसाएं प्रदान करने के लिए वेक्टर खोज को शामिल करने के लिए, स्पॉटिफ़ाई ने निम्नलिखित चरणों और प्रौद्योगिकियों का उपयोग किया:


  • इंडेक्स एपिसोड वेक्टर : Spotify, ANN के लिए मूल समर्थन वाले सर्च इंजन वेस्पा का उपयोग करके बैच में एपिसोड वेक्टर को ऑफ़लाइन इंडेक्स करता है। वेस्पा को चुने जाने के कारणों में से एक यह है कि यह एपिसोड लोकप्रियता जैसी सुविधाओं पर पोस्ट-सर्च मेटाडेटा फ़िल्टरिंग को भी शामिल कर सकता है।

  • ऑनलाइन अनुमान : Spotify क्वेरी वेक्टर बनाने के लिए Google Cloud Vertex AI का उपयोग करता है। Vertex AI को GPU अनुमान के लिए इसके समर्थन के लिए चुना गया था, जो एम्बेडिंग बनाने के लिए बड़े ट्रांसफॉर्मर मॉडल का उपयोग करते समय अधिक लागत प्रभावी है, और इसके क्वेरी कैश के लिए। क्वेरी वेक्टर एम्बेडिंग बनने के बाद, इसका उपयोग वेस्पा से शीर्ष 30 पॉडकास्ट एपिसोड प्राप्त करने के लिए किया जाता है।


सिमेंटिक सर्च प्रासंगिक पॉडकास्ट एपिसोड की पहचान करने में योगदान देता है, फिर भी यह कीवर्ड सर्च को पूरी तरह से बदलने में असमर्थ है। ऐसा इसलिए है क्योंकि जब उपयोगकर्ता कोई सटीक एपिसोड या पॉडकास्ट नाम खोजते हैं तो सिमेंटिक सर्च सटीक शब्द मिलान करने में विफल हो जाता है। Spotify एक हाइब्रिड सर्च दृष्टिकोण का उपयोग करता है, वेस्पा में सिमेंटिक सर्च को Elasticsearch में कीवर्ड सर्च के साथ मिलाता है, इसके बाद उपयोगकर्ताओं को दिखाए जाने वाले एपिसोड को स्थापित करने के लिए एक निर्णायक री-रैंकिंग चरण होता है।


स्पॉटिफ़ाई पर वेक्टर खोज के लिए कार्यप्रवाह.


eBay: छवि खोज

परंपरागत रूप से, खोज इंजन खोज क्वेरी टेक्स्ट को आइटम या दस्तावेज़ों के पाठ्य विवरण के साथ संरेखित करके परिणाम प्रदर्शित करते हैं। यह विधि वरीयताओं का अनुमान लगाने के लिए भाषा पर बहुत अधिक निर्भर करती है और शैली या सौंदर्यशास्त्र के तत्वों को पकड़ने में उतनी प्रभावी नहीं है। eBay उपयोगकर्ताओं को प्रासंगिक, समान आइटम खोजने में मदद करने के लिए छवि खोज शुरू करता है जो उनकी तलाश की शैली से मेल खाते हैं।


ईबे एक मल्टी-मोडल मॉडल का उपयोग करता है जिसे कई मोडैलिटी या इनपुट प्रकारों, जैसे कि टेक्स्ट, इमेज, ऑडियो या वीडियो से डेटा को प्रोसेस और एकीकृत करने के लिए डिज़ाइन किया गया है, ताकि पूर्वानुमान लगाए जा सकें या कार्य किए जा सकें। ईबे अपने मॉडल में टेक्स्ट और इमेज दोनों को शामिल करता है, एक कन्वोल्यूशनल न्यूरल नेटवर्क (CNN) मॉडल, विशेष रूप से Resnet-50 का उपयोग करके इमेज एम्बेडिंग का उत्पादन करता है, और BERT जैसे टेक्स्ट-आधारित मॉडल का उपयोग करके शीर्षक एम्बेडिंग करता है। प्रत्येक लिस्टिंग को एक वेक्टर एम्बेडिंग द्वारा दर्शाया जाता है जो छवि और शीर्षक एम्बेडिंग दोनों को जोड़ती है।


ईबे पर प्रयुक्त बहु-मॉडल एम्बेडिंग मॉडल का एक निरूपण।



एक बार जब मल्टी-मोडल मॉडल को इमेज-टाइटल लिस्टिंग जोड़े और हाल ही में बेची गई लिस्टिंग के बड़े डेटासेट का उपयोग करके प्रशिक्षित किया जाता है, तो इसे साइट सर्च अनुभव में उत्पादन में डालने का समय आ जाता है। eBay पर लिस्टिंग की बड़ी संख्या के कारण, डेटा को eBay के डेटा वेयरहाउस HDFS में बैचों में लोड किया जाता है। लिस्टिंग एम्बेडिंग बनाने सहित लिस्टिंग की आगे की प्रक्रिया के लिए आवश्यक छवि और प्रासंगिक फ़ील्ड को पुनः प्राप्त करने और संग्रहीत करने के लिए eBay अपाचे स्पार्क का उपयोग करता है। लिस्टिंग एम्बेडिंग को HBase जैसे कॉलमर स्टोर में प्रकाशित किया जाता है जो बड़े पैमाने पर डेटा एकत्र करने में अच्छा है। HBase से, लिस्टिंग एम्बेडिंग को eBay पर बनाए गए एक खोज इंजन कैसिनी में अनुक्रमित और परोसा जाता है।


ईबे पर वेक्टर खोज के लिए कार्यप्रवाह.


पाइपलाइन को अपाचे एयरफ्लो का उपयोग करके प्रबंधित किया जाता है, जो कार्यों की उच्च मात्रा और जटिलता होने पर भी स्केलिंग करने में सक्षम है। यह स्पार्क, हडूप और पायथन के लिए भी समर्थन प्रदान करता है, जिससे मशीन लर्निंग टीम के लिए इसे अपनाना और उपयोग करना सुविधाजनक हो जाता है।


विज़ुअल सर्च उपयोगकर्ताओं को फर्नीचर और घर की सजावट की श्रेणियों में समान शैलियों और वरीयताओं को खोजने की अनुमति देता है, जहाँ शैली और सौंदर्यशास्त्र खरीद निर्णयों के लिए महत्वपूर्ण हैं। भविष्य में, eBay सभी श्रेणियों में विज़ुअल सर्च का विस्तार करने और उपयोगकर्ताओं को संबंधित वस्तुओं को खोजने में मदद करने की योजना बना रहा है ताकि वे अपने घर में समान रूप और अनुभव स्थापित कर सकें।

AirBnb: वास्तविक समय में वैयक्तिकृत लिस्टिंग

AirBnb साइट पर 99% बुकिंग सर्च और समान लिस्टिंग सुविधाओं के कारण होती हैं। AirBnb ने समान लिस्टिंग अनुशंसाओं को बेहतर बनाने और सर्च रैंकिंग में रीयल-टाइम वैयक्तिकरण प्रदान करने के लिए लिस्टिंग एम्बेडिंग तकनीक बनाई है।


AirBnb को जल्दी ही यह एहसास हो गया कि वे एम्बेडिंग के अनुप्रयोग को केवल शब्द प्रतिनिधित्व से आगे बढ़ा सकते हैं, तथा इसमें क्लिक और बुकिंग सहित उपयोगकर्ता व्यवहार को भी शामिल कर सकते हैं।


एम्बेडिंग मॉडल को प्रशिक्षित करने के लिए, AirBnb ने 4.5 मिलियन से अधिक सक्रिय लिस्टिंग और 800 मिलियन खोज सत्रों को शामिल किया, ताकि उपयोगकर्ता द्वारा सत्र में क्लिक की गई और छोड़ी गई लिस्टिंग के आधार पर समानता निर्धारित की जा सके। एक सत्र में एक ही उपयोगकर्ता द्वारा क्लिक की गई लिस्टिंग को एक-दूसरे के करीब धकेल दिया जाता है; उपयोगकर्ता द्वारा छोड़ी गई लिस्टिंग को और दूर धकेल दिया जाता है। टीम ने ऑफ़लाइन प्रदर्शन और ऑनलाइन सेवा के लिए आवश्यक मेमोरी के बीच ट्रेडऑफ़ को देखते हुए d=32 की लिस्टिंग एम्बेडिंग की आयामीता पर समझौता किया।


AirBnb ने पाया कि कुछ लिस्टिंग विशेषताओं को सीखने की आवश्यकता नहीं है, क्योंकि उन्हें सीधे मेटाडेटा से प्राप्त किया जा सकता है, जैसे कि कीमत। हालाँकि, वास्तुकला, शैली और माहौल जैसी विशेषताओं को मेटाडेटा से प्राप्त करना काफी चुनौतीपूर्ण है।


उत्पादन में जाने से पहले, AirBnb ने अपने मॉडल को यह परीक्षण करके मान्य किया कि मॉडल ने उन लिस्टिंग की कितनी अच्छी तरह से अनुशंसा की है जिन्हें उपयोगकर्ता ने वास्तव में बुक किया था। टीम ने वेक्टर एम्बेडिंग-आधारित एल्गोरिदम के विरुद्ध मौजूदा लिस्टिंग एल्गोरिदम की तुलना करते हुए एक A/B परीक्षण भी चलाया। उन्होंने पाया कि वेक्टर एम्बेडिंग वाले एल्गोरिदम के परिणामस्वरूप CTR में 21% की वृद्धि हुई और उपयोगकर्ताओं द्वारा बुक की गई लिस्टिंग की खोज में 4.9% की वृद्धि हुई।


टीम ने यह भी महसूस किया कि वेक्टर एम्बेडिंग का उपयोग खोज में वास्तविक समय के वैयक्तिकरण के लिए मॉडल के हिस्से के रूप में किया जा सकता है। प्रत्येक उपयोगकर्ता के लिए, उन्होंने पिछले दो सप्ताह में उपयोगकर्ता क्लिक और स्किप का एक अल्पकालिक इतिहास, काफ़्का का उपयोग करके, वास्तविक समय में एकत्र और बनाए रखा। उपयोगकर्ता द्वारा की गई प्रत्येक खोज के लिए, उन्होंने दो समानता खोज की:


  • हाल ही में खोजे गए भौगोलिक बाज़ारों के आधार पर और फिर

  • उम्मीदवारों की सूची और उपयोगकर्ता द्वारा क्लिक/छोड़े गए उम्मीदवारों के बीच समानता


एम्बेडिंग का मूल्यांकन ऑफ़लाइन और ऑनलाइन प्रयोगों में किया गया और वे वास्तविक समय वैयक्तिकरण सुविधाओं का हिस्सा बन गए।


डोरडैश: व्यक्तिगत स्टोर फ़ीड

डोरडैश में विभिन्न प्रकार के स्टोर हैं, जहां से उपयोगकर्ता ऑर्डर कर सकते हैं और व्यक्तिगत प्राथमिकताओं का उपयोग करके सबसे अधिक प्रासंगिक स्टोर को सामने लाने से खोज और खोज में सुधार होता है।


डोरडैश वेक्टर एम्बेडिंग का उपयोग करके अपने स्टोर फ़ीड एल्गोरिदम में अव्यक्त जानकारी लागू करना चाहता था। इससे डोरडैश को उन स्टोरों के बीच समानताओं को उजागर करने में मदद मिलेगी जो अच्छी तरह से प्रलेखित नहीं हैं, जिसमें यह भी शामिल है कि क्या स्टोर में मीठे आइटम हैं, क्या इसे ट्रेंडी माना जाता है या क्या इसमें शाकाहारी विकल्प हैं।


डोरडैश ने प्राकृतिक भाषा प्रसंस्करण में उपयोग किए जाने वाले एम्बेडिंग मॉडल वर्ड2वेक के व्युत्पन्न का उपयोग किया, जिसे स्टोर2वेक कहा जाता है जिसे उसने मौजूदा डेटा के आधार पर अनुकूलित किया। टीम ने प्रत्येक स्टोर को एक शब्द के रूप में माना और एकल उपयोगकर्ता सत्र के दौरान देखे गए स्टोर की सूची का उपयोग करके वाक्य बनाए, जिसमें प्रति वाक्य 5 स्टोर की अधिकतम सीमा थी। उपयोगकर्ता वेक्टर एम्बेडिंग बनाने के लिए, डोरडैश ने उन स्टोर के वेक्टरों को जोड़ा, जिनसे उपयोगकर्ताओं ने पिछले 6 महीनों में या 100 ऑर्डर तक ऑर्डर दिए थे।


उदाहरण के लिए, डोरडैश ने सैन फ्रांसिस्को में लोकप्रिय, ट्रेंडी जॉइंट 4505 बर्गर और न्यू नागानो सुशी में हाल ही में की गई खरीदारी के आधार पर उपयोगकर्ता के लिए समान रेस्तराँ खोजने के लिए वेक्टर खोज का उपयोग किया। डोरडैश ने क्षेत्र में उपयोगकर्ता एम्बेडिंग से स्टोर एम्बेडिंग तक कोसाइन दूरी को मापते हुए समान रेस्तराँ की एक सूची तैयार की। आप देख सकते हैं कि कोसाइन दूरी में सबसे नज़दीकी स्टोर में केज़र पब और वुडन चारकोल कोरियन विलेज BBQ शामिल हैं।


डोरडैश पर वेक्टर खोज का एक उदाहरण पर्सनलाइज्ड स्टोर फीड विद वेक्टर एम्बेडिंग्स ब्लॉग से लिया गया है।


डोरडैश ने अपने बड़े अनुशंसा और वैयक्तिकरण मॉडल में स्टोर2वेक डिस्टेंस फीचर को एक फीचर के रूप में शामिल किया है। वेक्टर सर्च के साथ, डोरडैश क्लिक-थ्रू-रेट में 5% की वृद्धि देखने में सक्षम था। टीम seq2seq , मॉडल ऑप्टिमाइजेशन और उपयोगकर्ताओं से वास्तविक समय की ऑनसाइट गतिविधि डेटा को शामिल करने जैसे नए मॉडल के साथ भी प्रयोग कर रही है।


वेक्टर खोज के लिए मुख्य विचार

Pinterest, Spotify, eBay, Airbnb और Doordash वेक्टर सर्च के साथ बेहतर खोज और खोज अनुभव बनाते हैं। इनमें से कई टीमों ने टेक्स्ट सर्च का उपयोग करना शुरू किया और फ़ज़ी सर्च या विशिष्ट शैलियों या सौंदर्यशास्त्र की खोजों के साथ सीमाएँ पाईं। इन परिदृश्यों में, अनुभव में वेक्टर सर्च को जोड़ने से प्रासंगिक और अक्सर वैयक्तिकृत पॉडकास्ट, तकिए, किराये की चीज़ें, पिन और खाने-पीने की जगहें ढूँढ़ना आसान हो गया।


वेक्टर सर्च को लागू करते समय इन कंपनियों द्वारा लिए गए कुछ निर्णय ध्यान देने योग्य हैं:


  • मॉडल एम्बेड करना : कई लोगों ने ऑफ-द-शेल्फ मॉडल का उपयोग करना शुरू किया और फिर इसे अपने स्वयं के डेटा पर प्रशिक्षित किया। उन्होंने यह भी पहचाना कि वर्ड2वेक जैसे भाषा मॉडल का उपयोग शब्दों और उनके विवरणों को हाल ही में क्लिक किए गए आइटम और समान आइटम के साथ स्वैप करके किया जा सकता है। AirBnb जैसी टीमों ने पाया कि छवि मॉडल के बजाय भाषा मॉडल के व्युत्पन्न का उपयोग करना अभी भी दृश्य समानताओं और अंतरों को पकड़ने के लिए अच्छा काम कर सकता है।
  • प्रशिक्षण : इनमें से कई कंपनियों ने मौजूदा बड़े पैमाने के डेटासेट का उपयोग करते हुए, पिछले खरीद और क्लिक डेटा पर अपने मॉडलों को प्रशिक्षित करने का विकल्प चुना।
  • अनुक्रमण : जबकि कई कंपनियों ने ANN खोज को अपनाया, हमने देखा कि Pinterest बड़े पैमाने पर दक्षता के लिए KNN खोज के साथ मेटाडेटा फ़िल्टरिंग को संयोजित करने में सक्षम था।
  • हाइब्रिड सर्च : वेक्टर सर्च शायद ही कभी टेक्स्ट सर्च की जगह लेता है। कई बार, Spotify के उदाहरण की तरह, यह निर्धारित करने के लिए अंतिम रैंकिंग एल्गोरिदम का उपयोग किया जाता है कि वेक्टर सर्च या टेक्स्ट सर्च ने सबसे प्रासंगिक परिणाम उत्पन्न किया है या नहीं।
  • उत्पादनीकरण : हम देख रहे हैं कि कई टीमें वेक्टर एम्बेडिंग बनाने के लिए बैच-आधारित सिस्टम का उपयोग करती हैं, यह देखते हुए कि इन एम्बेडिंग को शायद ही कभी अपडेट किया जाता है। वे क्वेरी वेक्टर एम्बेडिंग को लाइव कंप्यूट करने और अपनी खोज में वास्तविक समय मेटाडेटा को शामिल करने के लिए एक अलग सिस्टम, अक्सर इलास्टिकसर्च का उपयोग करते हैं।


रॉकसेट, एक वास्तविक समय खोज और विश्लेषण डेटाबेस, ने हाल ही में वेक्टर खोज के लिए समर्थन जोड़ा है। रॉकसेट पर वेक्टर खोज को वास्तविक समय वैयक्तिकरण, अनुशंसाओं, विसंगति का पता लगाने और अधिक के लिए आज ही $ 300 क्रेडिट के साथ एक निःशुल्क परीक्षण शुरू करके आज़माएँ।