यह सारांश और मेरी मुख्य बातें है
किसी उपयोगकर्ता द्वारा एक प्रश्न को देखते हुए, डेटाबेस से सबसे प्रासंगिक सहायता आलेख प्राप्त करें।
2. दी गई क्वेरी का उपयोग ल्यूसीन इंडेक्सिंग का उपयोग करके सभी प्रासंगिक दस्तावेजों (हिट) को लाने के लिए किया जाता है।
3. प्रत्येक हिट को BM25F एल्गोरिथम का उपयोग करके स्कोर किया जाता है, जो दस्तावेज़ संरचना को ध्यान में रखता है, शीर्षक में हिट को उच्चतम भार देता है, फिर कीवर्ड और फिर बॉडी में हिट करता है, और एक भारित स्कोर देता है।
4. सर्वश्रेष्ठ स्कोर वाले लेख लौटाएं।
चूंकि दस्तावेज़ पुनर्प्राप्ति प्रणाली शब्द आधारित ( वाक्यविन्यास ) है, शब्दार्थ को ध्यान में रखे बिना, निम्नलिखित दो उदाहरण विफलता मामले हैं:
" मेरे प्रीमियम खातों को तुरंत कैसे रद्द करना" को " प्रीमियम खाता रद्द करना " के लिए सामान्यीकृत किया गया
ऐसा हो सकता है कि सामान्यीकृत क्वेरी में लेखों के शब्दों के साथ कोई शब्द समान न हो। इसलिए, उपयोगकर्ता की शब्दावली और लेख की शब्दावली के बीच के अंतर को भरने के लिए प्रत्येक क्वेरी को अधिक प्रतिनिधि क्वेरी के लिए मैप किया जाता है।
निम्नलिखित दो चरणों में किया गया:
2. टॉपिक माइनिंग और रेप स्कोरिंग: क्वेरी समूह में प्रत्येक क्वेरी के लिए, एक रिपस्कोर की गणना की जाती है और शीर्ष K क्वेरी को रेप क्वेरी के रूप में चुना जाता है
सिम (आरक्यू, क्यू 2) समूह में कच्ची क्वेरी और अन्य क्वेरी के बीच समानता है
sim(Q2, title) Q2 और शीर्षक से किसी एक विषय के बीच अधिकतम समानता है (इसी तरह शरीर के लिए)
लंबी-पूंछ वाले प्रश्नों में एक प्रतिनिधि क्वेरी नहीं हो सकती है, इस मामले में एक सीएनएन का उपयोग क्वेरी के इरादे को वर्गीकृत करने के लिए किया जाता है।
उदाहरण के लिए: "अपनी प्रीमियम सदस्यता रद्द करना" और "आपके Apple डिवाइस पर खरीदी गई प्रीमियम सदस्यता को रद्द करना या अपडेट करना" को "प्रीमियम रद्द करें" का एक ही इरादा माना जाता है।
यहाँ भी प्रकाशित