paint-brush
अमेज़न की अनुशंसा प्रणाली में बैरियर-टू-एग्जिट को समझनाद्वारा@escholar
678 रीडिंग
678 रीडिंग

अमेज़न की अनुशंसा प्रणाली में बैरियर-टू-एग्जिट को समझना

बहुत लंबा; पढ़ने के लिए

यह खंड अमेज़न की अनुशंसा प्रणाली में बैरियर-टू-एग्जिट विश्लेषण के पीछे की कार्यप्रणाली का विवरण देता है, जिसमें समय के साथ उपयोगकर्ता की वरीयता गतिशीलता और बदलावों को समझने के लिए गणना प्रक्रिया, डेटा विचार, सांख्यिकीय मॉडल निर्माण और परिकल्पना परीक्षण की रूपरेखा दी गई है।
featured image - अमेज़न की अनुशंसा प्रणाली में बैरियर-टू-एग्जिट को समझना
EScholar: Electronic Academic Papers for Scholars HackerNoon profile picture
0-item

लेखक:

(1) जोनाथन एच. रिस्ट्रॉम.

लिंक की तालिका

सार और परिचय

पिछला साहित्य

विधियाँ और डेटा

परिणाम

चर्चाएँ

निष्कर्ष और संदर्भ

क. मान्यताओं का सत्यापन

बी. अन्य मॉडल

C. पूर्व प्रसंस्करण चरण

3 विधियाँ और डेटा

3.1 निकास बाधा को परिभाषित करना

उच्च स्तर पर, बैरियर-टू-एग्जिट मापता है कि उपयोगकर्ताओं को यह संकेत देने के लिए कितना प्रयास करना चाहिए कि उनकी प्राथमिकताएँ बदल गई हैं (राकोवा और चौधरी, 2019)। इसे इस संदर्भ में परिभाषित किया जाता है कि किसी विशिष्ट श्रेणी के लिए उपयोगकर्ताओं की प्रकट प्राथमिकताएँ कितनी तेज़ी से इंटरैक्शन थ्रेसहोल्ड के बीच बदलती हैं। इस खंड में, हम बैरियर-टू-एग्जिट के लिए अंतर्ज्ञान को प्रेरित करेंगे और साथ ही अमेज़ॅन की अनुशंसा प्रणाली के संदर्भ में अवधारणा को औपचारिक रूप देंगे।


चित्र 1: उपयोगकर्ता (ए) और एआईमॉडल (बी) के दृष्टिकोण से देखा गया रेकमेंडर सिस्टम में नियंत्रण प्रवाह का एक योजनाबद्ध प्रतिनिधित्व। राकोवा और चौधरी (2019) से अनुकूलित।


बैरियर-टू-एग्जिट की भूमिका को समझने और रेटिंग से इसकी गणना कैसे की जा सकती है, यह समझने के लिए, आइए हम उपयोगकर्ता और अनुशंसा प्रणाली ("एआई मॉडल") के बीच बातचीत के एक आरेख पर विचार करें जैसा कि चित्र 1 में देखा गया है।


दोनों आरेख (ए) और (बी) उपयोगकर्ता और मॉडल के साथ फीडबैक लूप दिखाते हैं, क्रमशः, "पर्यवेक्षक" के रूप में। यह तुलना जियांग एट अल. (2019) में तर्क के अनुसार दोहरे-पक्षीय इंटरैक्शन को दर्शाती है। आरेख में कई तत्व हैं: µ उपयोगकर्ता की रुचि है, Θ मॉडल है, α दिखाई गई सिफारिशें हैं, और c प्रकट प्राथमिकताएँ हैं (यानी मॉडल द्वारा सिफारिशों को अपडेट करने के लिए उपयोग किया जाने वाला संकेत)। सबस्क्रिप्ट बाएं से दाएं जाने वाले टाइमस्टेप को दर्शाते हैं।


जबकि आरेख बातचीत को समझने के लिए एक वैचारिक ढांचे के रूप में कार्य करता है, हमें इस बात पर विचार करना चाहिए कि हम किन भागों को माप सकते हैं और किन भागों को हमें मॉडल करने की आवश्यकता है। राकोवा और चौधरी (2019) का तर्क है कि केवल यह विश्लेषण करके कि समय के साथ प्रकट प्राथमिकताएँ कैसे बदलती हैं, हम प्राथमिकताओं को बदलने के लिए आवश्यक प्रयास के एक उपाय की गणना कर सकते हैं; बैरियर-टू-एग्जिट।


ध्यान दें कि जब समग्र फीडबैक लूप पूरे मॉडल से संबंधित होता है, तो बैरियर-टू-एग्जिट को प्रत्येक श्रेणी के अनुसार परिभाषित किया जाता है। श्रेणियाँ शैलियाँ हो सकती हैं, जैसे कि "थ्रिलर" या "साइंस फिक्शन", या पुस्तक प्रकार जैसे कि "सेल्फ-हेल्प" या "कुक बुक"। प्रत्येक पुस्तक में कई श्रेणियाँ हो सकती हैं।



श्रेणी प्रासंगिकता हमारे डेटा की स्वचालित रूप से उपलब्ध विशेषता नहीं है (देखें 3.2)। इसके विपरीत, राकोवा और चौधरी (2019) मूवीलेंस डेटासेट (हार्पर और कोंस्टन, 2016) का उपयोग करते हैं, जहाँ डेटा के सबसेट के लिए श्रेणी-प्रासंगिकता को मैन्युअल रूप से एनोटेट किया गया है। इससे डेटा के बाकी हिस्सों (यानी किपफ और वेलिंग, 2017) को एनोटेट करने के लिए (अर्ध-) पर्यवेक्षित सीखने का उपयोग करना संभव हो जाता है।


दुर्भाग्य से, Amazon डेटा में कोई लेबल नहीं है। इसके बजाय, हम श्रेणी सह-घटना के आधार पर एक अप्रशिक्षित दृष्टिकोण का उपयोग करते हैं। पुस्तकों को एक विशिष्ट श्रेणी के लिए उच्च श्रेणी प्रासंगिकता दी जाती है यदि वे उन श्रेणियों से संबंधित हैं जो अक्सर एक साथ होती हैं। उदाहरण के लिए, "थ्रिलर" और "हॉरर" श्रेणियों वाली एक पुस्तक में "थ्रिलर" के लिए श्रेणी-प्रासंगिकता स्कोर 1 होगा यदि यह हमेशा "हॉरर" के साथ सह-घटित होती है, लेकिन "बागवानी" के लिए 0 का स्कोर होगा यदि यह कभी भी "बागवानी" के साथ सह-घटित नहीं होती है। हम स्कोर को सामान्य करते हैं ताकि वे 0 से 1 तक हों। कार्यान्वयन विवरण के लिए GitHub रिपॉजिटरी देखें।


अब हम बातचीत की सीमाओं पर चलते हैं (राकोवा और चौधरी, 2019)। वैचारिक रूप से, बातचीत की सीमा किसी दी गई श्रेणी में उपयोगकर्ताओं की प्राथमिकताओं की सीमा होती है। मान लीजिए, कोई उपयोगकर्ता थ्रिलर को हमेशा 4 स्टार देता है, लेकिन कुछ कुकबुक को 1 स्टार और अन्य को 5 स्टार देता है, तो थ्रिलर के लिए उनकी बातचीत की सीमा संकीर्ण होगी और कुकबुक के लिए बातचीत की सीमा व्यापक होगी।



बैरियर-टू-एग्जिट की परिभाषा के बारे में ध्यान देने योग्य कुछ महत्वपूर्ण बातें हैं। सबसे पहले, प्रति उपयोगकर्ता और श्रेणी के लिए बैरियर-टू-एग्जिट के कई मान हो सकते हैं। जब भी किसी उपयोगकर्ता की किसी श्रेणी में कोई प्राथमिकता होती है जो इंटरैक्शन थ्रेसहोल्ड से ऊपर से नीचे जाती है, तो उस अवधि के लिए बैरियर-टू-एग्जिट परिभाषित किया जाता है।


दूसरा, बैरियर-टू-एग्जिट उन उपयोगकर्ताओं को परिभाषित करता है जो प्राथमिकताएं बदलते हैं। बदलती प्राथमिकताओं को उपयोगकर्ताओं द्वारा इंटरैक्शन थ्रेसहोल्ड से ऊपर से नीचे की ओर जाने के रूप में परिभाषित किया जाता है।


तीसरा, बैरियर-टू-एग्जिट बिल्कुल शून्य नहीं हो सकता। ऐसा इसलिए है क्योंकि इसे केवल तभी परिभाषित किया जाता है जब उपयोगकर्ता के पास थ्रेसहोल्ड के बीच मध्यवर्ती रेटिंग होती है। यदि किसी उपयोगकर्ता की रेटिंग इंटरैक्शन थ्रेसहोल्ड से ऊपर है और अगली रेटिंग नीचे है, तो यह बैरियर-टू-एग्जिट में दर्ज नहीं होगा।


अंत में (और महत्वपूर्ण रूप से), बैरियर-टू-एग्जिट केवल उपयोगकर्ताओं के एक उपसमूह के लिए परिभाषित किया गया है। किसी उपयोगकर्ता के लिए एक अच्छी तरह से परिभाषित बैरियर-टू-एग्जिट होने के लिए दोनों की आवश्यकता होती है: क) पर्याप्त रेटिंग और ख) कि ये रेटिंग किसी श्रेणी के सापेक्ष बदलती रहें। इस प्रकार हम केवल उपयोगकर्ताओं के इस उपसमूह के लिए निष्कर्ष निकाल सकते हैं। हम चर्चा में इसके निहितार्थों पर आगे चर्चा करेंगे (अनुभाग 5.2)।


इस अनुभाग में, हमने बैरियर-टू-एग्जिट का गणितीय सूत्रीकरण महत्वपूर्ण चेतावनियों के साथ प्रदान किया है। कोड कार्यान्वयन के लिए, कृपया रिपॉजिटरी देखें।

3.2 डेटा

इस विश्लेषण के लिए, हम अमेज़न पुस्तक समीक्षाओं (नी एट अल., 2019) के डेटासेट का उपयोग करते हैं। कच्चे डेटासेट में 1998 से 2018 की अवधि में लगभग 15 मिलियन उपयोगकर्ताओं द्वारा लगभग 51 मिलियन रेटिंग शामिल हैं[2]। सभी रेटिंग 1-5 लिकर्ट स्केल पर हैं।


डेटासेट को मैकऑली एट अल. (2015) की कार्यप्रणाली के आधार पर Amazon वेब स्टोर बिल्डिंग से स्क्रैप किया गया था। दुर्भाग्य से, चूंकि डेटासेट में डेटाशीट (गेब्रु एट अल., 2021) का अभाव है, इसलिए यह पता लगाना मुश्किल है कि इसमें कवरेज या पूर्वाग्रह के साथ कोई समस्या है या नहीं। इससे डेटा संग्रह को स्क्रैच से दोहराना भी मुश्किल हो जाता है। इसके अलावा, डेटासेट आसानी से सुलभ और अच्छी तरह से प्रलेखित है।


कवरेज से संबंधित एक पहलू जिसके बारे में हमें जागरूक होने की आवश्यकता है, वह यह है कि हम रेटिंग का उपयोग इंटरैक्शन के लिए प्रॉक्सी के रूप में कर रहे हैं। डेटासेट में, हमारे पास ऐसे लोगों तक पहुँच नहीं है जिन्होंने कोई उत्पाद खरीदा लेकिन उसे रेट नहीं किया, न ही ऐसे लोग जिन्होंने न तो कोई उत्पाद खरीदा और न ही उसे रेट किया। यह हमें वास्तविक अनुशंसा प्रक्रिया का काफी अप्रत्यक्ष माप देता है - विशेष रूप से मूवीलेंस डेटासेट (हार्पर और कोंस्टन, 2016; राकोवा और चौधरी, 2019) की तुलना में।


डेटा के आकार के कारण, प्री-प्रोसेसिंग गैर-तुच्छ हो जाती है। आवश्यक चरणों का विवरण परिशिष्ट C में देखा जा सकता है।


जबकि मूल डेटासेट बड़ा है, हम केवल एक उपसमूह में रुचि रखते हैं। विशेष रूप से, हम उन उपयोगकर्ताओं में रुचि रखते हैं जिन्होंने अपनी प्राथमिकताएँ बदल दी हैं। इसलिए, हम केवल 20 से अधिक रेटिंग वाले उपयोगकर्ताओं को शामिल करने के लिए फ़िल्टर करते हैं, जो मूवीलेंस (हार्पर और कोंस्टन, 2016) में सम्मेलनों का पालन करता है जिसके लिए बैरियर-टू-एग्जिट मूल रूप से परिभाषित किया गया था (राकोवा और चौधरी, 2019)।


चित्र 2: विभिन्न रेटिंग-गतिविधि समूहों में कुल रेटिंग (बाएं) और लोगों (दाएं) का वितरण। जबकि 20 से अधिक रेटिंग वाला समूह कुल रेटिंग का एक बड़ा हिस्सा है, वे कुल रेटिंग का केवल एक छोटा सा हिस्सा हैं


चित्र 2 चयनित उपसमूह को दर्शाता है। यह ध्यान देने योग्य है कि जबकि हमारा उपसमूह रेटिंग का एक बड़ा हिस्सा (≈ 30%) बनाए रखता है, हम केवल लगभग 350,000 उपयोगकर्ताओं (0.6%) को बनाए रखते हैं। यह उपयोगकर्ता गतिविधि के लिए विशिष्ट है, जो कि फैट-टेल्ड (पापाकिरियाकोपोलोस एट अल., 2020) होती है। हम चर्चा (5.2) में अपनी व्याख्या के निहितार्थों पर चर्चा करेंगे।


जैसा कि हम बाद में देखेंगे, इनमें से केवल एक अंश ने ही हमारी परिभाषा के अनुसार प्राथमिकताएं बदली हैं (देखें अनुभाग 3.1)।


हमारे अंतिम विश्लेषण के लिए, हमारे पास 50,626 उपयोगकर्ता हैं जो हमारी परिभाषा के अनुरूप हैं (कुल का लगभग 0.1%)।


रेटिंग डेटासेट को प्रत्येक पुस्तक के लिए श्रेणियाँ प्रदान करने वाले डेटासेट के साथ मिला दिया गया था। श्रेणी डेटासेट एक ही स्रोत (यानी नी एट अल., 2019) से था। श्रेणी-समानता की गणना के लिए गणनाओं को सरल रखने के लिए (GitHub पर कोड देखें), हम केवल उन श्रेणियों पर विचार करते हैं जिनका उपयोग 100 से अधिक पुस्तकों पर किया गया है। यह दृष्टिकोण मान्य है क्योंकि श्रेणियों का वितरण बहुत अधिक विषम है, जिसका अर्थ है कि बहुत कम संख्या में श्रेणियों का उपयोग बड़ी संख्या में पुस्तकों पर किया जाता है। (यह उपयोगकर्ता गतिविधि के समान गतिशील है; चित्र 2 देखें)।

3.3 मॉडल

अब जबकि हमने वरीयताओं को बदलने में कठिनाई के एक उपाय के रूप में बैरियर-टू-एग्जिट को क्रियान्वित कर लिया है, तो आइए प्रवृत्ति का विश्लेषण करने के लिए सांख्यिकीय मॉडल प्रस्तुत करें।


ध्यान देने वाली पहली बात यह है कि हमें एक क्रॉस्ड मल्टी-लेवल मॉडल की आवश्यकता है (बायेन एट अल., 2008)। हमारे मॉडल में दो स्तर होने चाहिए: उपयोगकर्ता और श्रेणी। उपयोगकर्ता स्तर सैद्धांतिक रूप से सबसे स्पष्ट है। चूँकि प्रत्येक उपयोगकर्ता के पास कई वरीयता परिवर्तन हो सकते हैं (संबंधित बैरियर-टू-एग्जिट के साथ), हमें उनके व्यक्तिगत अंतरों को नियंत्रित करना चाहिए (बायेन एट अल., 2008)। यह इसलिए भी महत्वपूर्ण है क्योंकि अनुशंसा प्रणाली उन पूर्वानुमानित विशेषताओं का उपयोग करेगी जो डेटासेट में सुलभ नहीं हैं (स्मिथ और लिंडेन, 2017)।


श्रेणियाँ दूसरे स्तर का निर्माण करती हैं। हमारे मॉडल में श्रेणी स्तर की भूमिका आइटम-स्तर की विशेषताओं को ध्यान में रखना है। जैसा कि परिचय में बताया गया है, वाणिज्यिक (यानी कंपनियाँ भविष्यवाणी अनिवार्यता का पालन कर रही हैं; (ज़ुबॉफ़, 2019)) और एल्गोरिदमिक कारण (यानी परिवर्तनशीलता को कम करने से इनाम उद्देश्य में सुधार हो सकता है (कैरोल एट अल., 2022)) यह मानने के लिए कि विभिन्न श्रेणियों में अलग-अलग बैरियर-टू-एग्जिट होंगे। इसलिए श्रेणियाँ इन प्रभावों के लिए एक प्रॉक्सी के रूप में कार्य कर सकती हैं। इस क्रॉस्ड डिज़ाइन का उपयोग अक्सर मनोविज्ञान अनुसंधान (बायेन एट अल., 2008) के भीतर किया जाता है।


श्रेणियों को यादृच्छिक प्रभावों के रूप में शामिल करने और निश्चित प्रभावों के रूप में नहीं शामिल करने के दो कारण हैं। पहला है श्रेणियों की संख्या। हमारे डेटासेट में 300 से ज़्यादा श्रेणियाँ हैं। इसलिए इन्हें निश्चित प्रभावों के रूप में मॉडल करना असंभव होगा। दूसरे, चूँकि हम उन्हें आइटम-स्तर के विचरण के लिए प्रॉक्सी के रूप में उपयोग करते हैं, इसलिए केवल यादृच्छिक घटकों को मॉडल करना अधिक सुविधाजनक है (मैडाला, 1971)


इससे हमें निम्नलिखित मॉडल प्राप्त होता है:



ध्यान देने वाली एक महत्वपूर्ण बात यह है कि लॉग-ट्रांसफ़ॉर्मिंग बैरियर-टू-एग्जिट गुणांकों की व्याख्या को बदल देता है। उन्हें रैखिक पैमाने पर व्याख्या करने के बजाय, उन्हें लॉगरिदमिक पैमाने पर व्याख्या किया जाना चाहिए (विलाडसेन और वुल्फ़, 2021)। ऐसा करने का सबसे स्वाभाविक तरीका प्रभावों को घातांकित करना और इसे प्रतिशत परिवर्तन के रूप में व्याख्या करना है। हालाँकि, परिवर्तन सांख्यिकीय मुद्दों को पेश करता है, जिस पर हम अनुभाग 5.2 में चर्चा करेंगे।



यह भी ध्यान देने योग्य है कि गतिविधि का स्तर समय के साथ अपेक्षाकृत असंबंधित है (चित्र 3 बी देखें)। ऐसा इसलिए है क्योंकि गतिविधि बैरियर-टू-एग्जिट अवधि के भीतर की गतिविधि को संदर्भित करती है, न कि अमेज़न पर कुल गतिविधि को। उत्तरार्द्ध में काफी वृद्धि हुई है जैसा कि चित्र 3 बी में बिंदुओं के घनत्व से देखा जा सकता है।


चित्र 3: गतिविधि स्तर के प्लॉट, जिसे बैरियर-टू-एग्जिट की अवधि में रेटिंग की संख्या के रूप में परिभाषित किया गया है। 3a: गतिविधि-स्तर और बैरियर-टू-एग्जिट के बीच संबंध। मजबूत रैखिकता पर ध्यान दें। 3b समय के साथ गतिविधि-स्तर में बदलाव।


वैधता का आकलन करने के लिए, हम मॉडल के लिए मान्यताओं का परीक्षण करते हैं। पूरी जाँच के लिए परिशिष्ट A देखें। ध्यान देने योग्य कुछ उल्लंघन हैं: अवशिष्ट और यादृच्छिक प्रभाव सामान्यता से विचलित हो गए - विशेष रूप से श्रेणी-स्तरीय यादृच्छिक प्रभावों के लिए। हालाँकि, इसका निश्चित प्रभावों के अनुमान पर बहुत कम प्रभाव होना चाहिए (शिएलज़ेथ एट अल., 2020)। फिर भी, हम निष्कर्षों की मजबूती का आकलन करने के लिए समस्याग्रस्त श्रेणियों को हटाकर एक अतिरिक्त विश्लेषण चलाते हैं (बी.2 देखें)।

3.4 परिकल्पनाएँ बनाना और उनका परीक्षण करना

हमारे शोध प्रश्न का उत्तर एक अनुमानात्मक ढांचे में देने के लिए, हमें उन्हें परीक्षण योग्य निहितार्थों वाली परिकल्पनाओं में बदलने की आवश्यकता है (पॉपर, 1970)। हम निम्नलिखित परिकल्पना का प्रस्ताव करते हैं:


परिकल्पना : 1998-2018 की अवधि में अमेज़न बुक रिकमेंडर सिस्टम के लिए बैरियर-टू-एक्ज़िट में उल्लेखनीय वृद्धि हुई है।


परिकल्पना का परीक्षण करने के लिए, हम समय (β1) के गुणांक का आकलन करने के लिए lmerTest-पैकेज (कुज़नेत्सोवा एट अल., 2017; सैटरथवेट, 1946) से सैटरथवेट के महत्व परीक्षण का उपयोग करते हैं। हालांकि, यह ध्यान रखना महत्वपूर्ण है कि मिश्रित प्रभाव मॉडल (सैटरथवेट, 1946) में स्वतंत्रता की डिग्री की गणना करने की विधि नमूना आकार छोटा होने पर टाइप I त्रुटियों को बढ़ा सकती है (बायेन एट अल., 2008)। हमारे मामले में, नमूना आकार बड़ा है, इसलिए यह चिंता का विषय नहीं है।


बड़े सैंपल साइज़ का मतलब यह भी है कि छोटे प्रभावों के लिए भी p-values शून्य के करीब हैं (घासेमी और ज़ाहेदियासल, 2012)। इस प्रकार, हम सिर्फ़ महत्व के बजाय प्रभाव आकार के परिमाण में भी रुचि रखते हैं।


ध्यान दें, यह वृद्धि रैखिक वृद्धि के बजाय वृद्धि दर है। यह इस बात को प्रभावित करता है कि हम प्रभाव आकार के परिमाण की व्याख्या कैसे करते हैं।





[2] दस्तावेज़ीकरण के लिए देखें: https://nijianmo.github.io/amazon/index.html


यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।