paint-brush
कैसे लिंक्डइन एनएलपी का उपयोग उनकी सहायता खोज प्रणाली को डिजाइन करने के लिए करता हैद्वारा@harshit158
568 रीडिंग
568 रीडिंग

कैसे लिंक्डइन एनएलपी का उपयोग उनकी सहायता खोज प्रणाली को डिजाइन करने के लिए करता है

द्वारा Harshit Sharma2m2022/07/18
Read on Terminal Reader
Read this story w/o Javascript

बहुत लंबा; पढ़ने के लिए

लिंक्डइन के हेल्प सर्च सिस्टम का इस्तेमाल (2019** तक) इसके हेल्प सर्च सिस्टम को डिजाइन करने में किया जा रहा है। यह समस्या कथन और उनकी कमियों के साथ अपनाए गए समाधानों के विभिन्न पुनरावृत्तियों पर प्रकाश डालता है। लिंक्डइन द्वारा मूल पोस्ट से यह सारांश और मेरा मुख्य निष्कर्ष है कि कैसे एनएलपी का उपयोग सहायता खोज प्रणालियों को डिजाइन करने में किया जाता है। दी गई क्वेरी का उपयोग ल्यूसीन इंडेक्सिंग का उपयोग करके सभी प्रासंगिक दस्तावेजों (हिट) को लाने के लिए किया जाता है। प्रत्येक हिट को [BM25F](https://www.google.com/article/53174626597/) एल्गोरिथम का उपयोग करके स्कोर किया जाता है।

Companies Mentioned

Mention Thumbnail
Mention Thumbnail

Coin Mentioned

Mention Thumbnail
featured image - कैसे लिंक्डइन एनएलपी का उपयोग उनकी सहायता खोज प्रणाली को डिजाइन करने के लिए करता है
Harshit Sharma HackerNoon profile picture

यह सारांश और मेरी मुख्य बातें है मूल पोस्ट लिंक्डइन द्वारा एनएलपी का उपयोग कैसे किया जा रहा है ( 2019 तक) इसकी सहायता खोज प्रणाली को डिजाइन करने में। यह समस्या कथन और उनकी कमियों के साथ अपनाए गए समाधानों के विभिन्न पुनरावृत्तियों पर प्रकाश डालता है।

समस्या का विवरण:

किसी उपयोगकर्ता द्वारा एक प्रश्न को देखते हुए, डेटाबेस से सबसे प्रासंगिक सहायता आलेख प्राप्त करें।

(लेखक द्वारा छवि) समस्या वक्तव्य

पुनरावृति 1: प्रारंभिक समाधान

  1. ल्यूसीन इंडेक्स का उपयोग करके डेटाबेस में सभी सहायता लेखों (दस्तावेजों) को अनुक्रमित किया। संक्षेप में, यह एक उल्टा शब्दकोश उत्पन्न करता है जो उन सभी दस्तावेज़ों के लिए शब्दों को मैप करता है जिनमें यह दिखाई देता है। स्रोत: मूल ब्लॉग

2. दी गई क्वेरी का उपयोग ल्यूसीन इंडेक्सिंग का उपयोग करके सभी प्रासंगिक दस्तावेजों (हिट) को लाने के लिए किया जाता है।

3. प्रत्येक हिट को BM25F एल्गोरिथम का उपयोग करके स्कोर किया जाता है, जो दस्तावेज़ संरचना को ध्यान में रखता है, शीर्षक में हिट को उच्चतम भार देता है, फिर कीवर्ड और फिर बॉडी में हिट करता है, और एक भारित स्कोर देता है।

4. सर्वश्रेष्ठ स्कोर वाले लेख लौटाएं।

यह विफल क्यों हुआ

चूंकि दस्तावेज़ पुनर्प्राप्ति प्रणाली शब्द आधारित ( वाक्यविन्यास ) है, शब्दार्थ को ध्यान में रखे बिना, निम्नलिखित दो उदाहरण विफलता मामले हैं: (लेखक द्वारा छवि) उपयोग के मामलों के उदाहरण जो विफल रहे

पुनरावृति 2: अंतिम समाधान

चरण 1: पाठ सामान्यीकरण

" मेरे प्रीमियम खातों को तुरंत कैसे रद्द करना" को " प्रीमियम खाता रद्द करना " के लिए सामान्यीकृत किया गया स्रोत: मूल ब्लॉग

चरण 2: क्वेरी मैपिंग

ऐसा हो सकता है कि सामान्यीकृत क्वेरी में लेखों के शब्दों के साथ कोई शब्द समान न हो। इसलिए, उपयोगकर्ता की शब्दावली और लेख की शब्दावली के बीच के अंतर को भरने के लिए प्रत्येक क्वेरी को अधिक प्रतिनिधि क्वेरी के लिए मैप किया जाता है।

निम्नलिखित दो चरणों में किया गया:

  1. क्वेरी ग्रुपिंग: समानता मेट्रिक्स के आधार पर प्रश्नों को एक साथ समूहीकृत किया जाता है (लेखक द्वारा छवि) क्वेरी समूहीकरण का चित्रण

2. टॉपिक माइनिंग और रेप स्कोरिंग: क्वेरी समूह में प्रत्येक क्वेरी के लिए, एक रिपस्कोर की गणना की जाती है और शीर्ष K क्वेरी को रेप क्वेरी के रूप में चुना जाता है (लेखक द्वारा छवि) विषय खनन और प्रतिनिधि स्कोरिंग का चित्रण

सिम (आरक्यू, क्यू 2) समूह में कच्ची क्वेरी और अन्य क्वेरी के बीच समानता है

sim(Q2, title) Q2 और शीर्षक से किसी एक विषय के बीच अधिकतम समानता है (इसी तरह शरीर के लिए)

चरण 3: इरादा वर्गीकरण

लंबी-पूंछ वाले प्रश्नों में एक प्रतिनिधि क्वेरी नहीं हो सकती है, इस मामले में एक सीएनएन का उपयोग क्वेरी के इरादे को वर्गीकृत करने के लिए किया जाता है।

उदाहरण के लिए: "अपनी प्रीमियम सदस्यता रद्द करना" और "आपके Apple डिवाइस पर खरीदी गई प्रीमियम सदस्यता को रद्द करना या अपडेट करना" को "प्रीमियम रद्द करें" का एक ही इरादा माना जाता है।

कुल प्रवाह (लेखक द्वारा छवि) समग्र प्रवाह


यहाँ भी प्रकाशित