लेखक:
(1) जोनाथन एच. रिस्ट्रॉम.
उच्च स्तर पर, बैरियर-टू-एग्जिट मापता है कि उपयोगकर्ताओं को यह संकेत देने के लिए कितना प्रयास करना चाहिए कि उनकी प्राथमिकताएँ बदल गई हैं (राकोवा और चौधरी, 2019)। इसे इस संदर्भ में परिभाषित किया जाता है कि किसी विशिष्ट श्रेणी के लिए उपयोगकर्ताओं की प्रकट प्राथमिकताएँ कितनी तेज़ी से इंटरैक्शन थ्रेसहोल्ड के बीच बदलती हैं। इस खंड में, हम बैरियर-टू-एग्जिट के लिए अंतर्ज्ञान को प्रेरित करेंगे और साथ ही अमेज़ॅन की अनुशंसा प्रणाली के संदर्भ में अवधारणा को औपचारिक रूप देंगे।
बैरियर-टू-एग्जिट की भूमिका को समझने और रेटिंग से इसकी गणना कैसे की जा सकती है, यह समझने के लिए, आइए हम उपयोगकर्ता और अनुशंसा प्रणाली ("एआई मॉडल") के बीच बातचीत के एक आरेख पर विचार करें जैसा कि चित्र 1 में देखा गया है।
दोनों आरेख (ए) और (बी) उपयोगकर्ता और मॉडल के साथ फीडबैक लूप दिखाते हैं, क्रमशः, "पर्यवेक्षक" के रूप में। यह तुलना जियांग एट अल. (2019) में तर्क के अनुसार दोहरे-पक्षीय इंटरैक्शन को दर्शाती है। आरेख में कई तत्व हैं: µ उपयोगकर्ता की रुचि है, Θ मॉडल है, α दिखाई गई सिफारिशें हैं, और c प्रकट प्राथमिकताएँ हैं (यानी मॉडल द्वारा सिफारिशों को अपडेट करने के लिए उपयोग किया जाने वाला संकेत)। सबस्क्रिप्ट बाएं से दाएं जाने वाले टाइमस्टेप को दर्शाते हैं।
जबकि आरेख बातचीत को समझने के लिए एक वैचारिक ढांचे के रूप में कार्य करता है, हमें इस बात पर विचार करना चाहिए कि हम किन भागों को माप सकते हैं और किन भागों को हमें मॉडल करने की आवश्यकता है। राकोवा और चौधरी (2019) का तर्क है कि केवल यह विश्लेषण करके कि समय के साथ प्रकट प्राथमिकताएँ कैसे बदलती हैं, हम प्राथमिकताओं को बदलने के लिए आवश्यक प्रयास के एक उपाय की गणना कर सकते हैं; बैरियर-टू-एग्जिट।
ध्यान दें कि जब समग्र फीडबैक लूप पूरे मॉडल से संबंधित होता है, तो बैरियर-टू-एग्जिट को प्रत्येक श्रेणी के अनुसार परिभाषित किया जाता है। श्रेणियाँ शैलियाँ हो सकती हैं, जैसे कि "थ्रिलर" या "साइंस फिक्शन", या पुस्तक प्रकार जैसे कि "सेल्फ-हेल्प" या "कुक बुक"। प्रत्येक पुस्तक में कई श्रेणियाँ हो सकती हैं।
श्रेणी प्रासंगिकता हमारे डेटा की स्वचालित रूप से उपलब्ध विशेषता नहीं है (देखें 3.2)। इसके विपरीत, राकोवा और चौधरी (2019) मूवीलेंस डेटासेट (हार्पर और कोंस्टन, 2016) का उपयोग करते हैं, जहाँ डेटा के सबसेट के लिए श्रेणी-प्रासंगिकता को मैन्युअल रूप से एनोटेट किया गया है। इससे डेटा के बाकी हिस्सों (यानी किपफ और वेलिंग, 2017) को एनोटेट करने के लिए (अर्ध-) पर्यवेक्षित सीखने का उपयोग करना संभव हो जाता है।
दुर्भाग्य से, Amazon डेटा में कोई लेबल नहीं है। इसके बजाय, हम श्रेणी सह-घटना के आधार पर एक अप्रशिक्षित दृष्टिकोण का उपयोग करते हैं। पुस्तकों को एक विशिष्ट श्रेणी के लिए उच्च श्रेणी प्रासंगिकता दी जाती है यदि वे उन श्रेणियों से संबंधित हैं जो अक्सर एक साथ होती हैं। उदाहरण के लिए, "थ्रिलर" और "हॉरर" श्रेणियों वाली एक पुस्तक में "थ्रिलर" के लिए श्रेणी-प्रासंगिकता स्कोर 1 होगा यदि यह हमेशा "हॉरर" के साथ सह-घटित होती है, लेकिन "बागवानी" के लिए 0 का स्कोर होगा यदि यह कभी भी "बागवानी" के साथ सह-घटित नहीं होती है। हम स्कोर को सामान्य करते हैं ताकि वे 0 से 1 तक हों। कार्यान्वयन विवरण के लिए GitHub रिपॉजिटरी देखें।
अब हम बातचीत की सीमाओं पर चलते हैं (राकोवा और चौधरी, 2019)। वैचारिक रूप से, बातचीत की सीमा किसी दी गई श्रेणी में उपयोगकर्ताओं की प्राथमिकताओं की सीमा होती है। मान लीजिए, कोई उपयोगकर्ता थ्रिलर को हमेशा 4 स्टार देता है, लेकिन कुछ कुकबुक को 1 स्टार और अन्य को 5 स्टार देता है, तो थ्रिलर के लिए उनकी बातचीत की सीमा संकीर्ण होगी और कुकबुक के लिए बातचीत की सीमा व्यापक होगी।
बैरियर-टू-एग्जिट की परिभाषा के बारे में ध्यान देने योग्य कुछ महत्वपूर्ण बातें हैं। सबसे पहले, प्रति उपयोगकर्ता और श्रेणी के लिए बैरियर-टू-एग्जिट के कई मान हो सकते हैं। जब भी किसी उपयोगकर्ता की किसी श्रेणी में कोई प्राथमिकता होती है जो इंटरैक्शन थ्रेसहोल्ड से ऊपर से नीचे जाती है, तो उस अवधि के लिए बैरियर-टू-एग्जिट परिभाषित किया जाता है।
दूसरा, बैरियर-टू-एग्जिट उन उपयोगकर्ताओं को परिभाषित करता है जो प्राथमिकताएं बदलते हैं। बदलती प्राथमिकताओं को उपयोगकर्ताओं द्वारा इंटरैक्शन थ्रेसहोल्ड से ऊपर से नीचे की ओर जाने के रूप में परिभाषित किया जाता है।
तीसरा, बैरियर-टू-एग्जिट बिल्कुल शून्य नहीं हो सकता। ऐसा इसलिए है क्योंकि इसे केवल तभी परिभाषित किया जाता है जब उपयोगकर्ता के पास थ्रेसहोल्ड के बीच मध्यवर्ती रेटिंग होती है। यदि किसी उपयोगकर्ता की रेटिंग इंटरैक्शन थ्रेसहोल्ड से ऊपर है और अगली रेटिंग नीचे है, तो यह बैरियर-टू-एग्जिट में दर्ज नहीं होगा।
अंत में (और महत्वपूर्ण रूप से), बैरियर-टू-एग्जिट केवल उपयोगकर्ताओं के एक उपसमूह के लिए परिभाषित किया गया है। किसी उपयोगकर्ता के लिए एक अच्छी तरह से परिभाषित बैरियर-टू-एग्जिट होने के लिए दोनों की आवश्यकता होती है: क) पर्याप्त रेटिंग और ख) कि ये रेटिंग किसी श्रेणी के सापेक्ष बदलती रहें। इस प्रकार हम केवल उपयोगकर्ताओं के इस उपसमूह के लिए निष्कर्ष निकाल सकते हैं। हम चर्चा में इसके निहितार्थों पर आगे चर्चा करेंगे (अनुभाग 5.2)।
इस अनुभाग में, हमने बैरियर-टू-एग्जिट का गणितीय सूत्रीकरण महत्वपूर्ण चेतावनियों के साथ प्रदान किया है। कोड कार्यान्वयन के लिए, कृपया रिपॉजिटरी देखें।
इस विश्लेषण के लिए, हम अमेज़न पुस्तक समीक्षाओं (नी एट अल., 2019) के डेटासेट का उपयोग करते हैं। कच्चे डेटासेट में 1998 से 2018 की अवधि में लगभग 15 मिलियन उपयोगकर्ताओं द्वारा लगभग 51 मिलियन रेटिंग शामिल हैं[2]। सभी रेटिंग 1-5 लिकर्ट स्केल पर हैं।
डेटासेट को मैकऑली एट अल. (2015) की कार्यप्रणाली के आधार पर Amazon वेब स्टोर बिल्डिंग से स्क्रैप किया गया था। दुर्भाग्य से, चूंकि डेटासेट में डेटाशीट (गेब्रु एट अल., 2021) का अभाव है, इसलिए यह पता लगाना मुश्किल है कि इसमें कवरेज या पूर्वाग्रह के साथ कोई समस्या है या नहीं। इससे डेटा संग्रह को स्क्रैच से दोहराना भी मुश्किल हो जाता है। इसके अलावा, डेटासेट आसानी से सुलभ और अच्छी तरह से प्रलेखित है।
कवरेज से संबंधित एक पहलू जिसके बारे में हमें जागरूक होने की आवश्यकता है, वह यह है कि हम रेटिंग का उपयोग इंटरैक्शन के लिए प्रॉक्सी के रूप में कर रहे हैं। डेटासेट में, हमारे पास ऐसे लोगों तक पहुँच नहीं है जिन्होंने कोई उत्पाद खरीदा लेकिन उसे रेट नहीं किया, न ही ऐसे लोग जिन्होंने न तो कोई उत्पाद खरीदा और न ही उसे रेट किया। यह हमें वास्तविक अनुशंसा प्रक्रिया का काफी अप्रत्यक्ष माप देता है - विशेष रूप से मूवीलेंस डेटासेट (हार्पर और कोंस्टन, 2016; राकोवा और चौधरी, 2019) की तुलना में।
डेटा के आकार के कारण, प्री-प्रोसेसिंग गैर-तुच्छ हो जाती है। आवश्यक चरणों का विवरण परिशिष्ट C में देखा जा सकता है।
जबकि मूल डेटासेट बड़ा है, हम केवल एक उपसमूह में रुचि रखते हैं। विशेष रूप से, हम उन उपयोगकर्ताओं में रुचि रखते हैं जिन्होंने अपनी प्राथमिकताएँ बदल दी हैं। इसलिए, हम केवल 20 से अधिक रेटिंग वाले उपयोगकर्ताओं को शामिल करने के लिए फ़िल्टर करते हैं, जो मूवीलेंस (हार्पर और कोंस्टन, 2016) में सम्मेलनों का पालन करता है जिसके लिए बैरियर-टू-एग्जिट मूल रूप से परिभाषित किया गया था (राकोवा और चौधरी, 2019)।
चित्र 2 चयनित उपसमूह को दर्शाता है। यह ध्यान देने योग्य है कि जबकि हमारा उपसमूह रेटिंग का एक बड़ा हिस्सा (≈ 30%) बनाए रखता है, हम केवल लगभग 350,000 उपयोगकर्ताओं (0.6%) को बनाए रखते हैं। यह उपयोगकर्ता गतिविधि के लिए विशिष्ट है, जो कि फैट-टेल्ड (पापाकिरियाकोपोलोस एट अल., 2020) होती है। हम चर्चा (5.2) में अपनी व्याख्या के निहितार्थों पर चर्चा करेंगे।
जैसा कि हम बाद में देखेंगे, इनमें से केवल एक अंश ने ही हमारी परिभाषा के अनुसार प्राथमिकताएं बदली हैं (देखें अनुभाग 3.1)।
हमारे अंतिम विश्लेषण के लिए, हमारे पास 50,626 उपयोगकर्ता हैं जो हमारी परिभाषा के अनुरूप हैं (कुल का लगभग 0.1%)।
रेटिंग डेटासेट को प्रत्येक पुस्तक के लिए श्रेणियाँ प्रदान करने वाले डेटासेट के साथ मिला दिया गया था। श्रेणी डेटासेट एक ही स्रोत (यानी नी एट अल., 2019) से था। श्रेणी-समानता की गणना के लिए गणनाओं को सरल रखने के लिए (GitHub पर कोड देखें), हम केवल उन श्रेणियों पर विचार करते हैं जिनका उपयोग 100 से अधिक पुस्तकों पर किया गया है। यह दृष्टिकोण मान्य है क्योंकि श्रेणियों का वितरण बहुत अधिक विषम है, जिसका अर्थ है कि बहुत कम संख्या में श्रेणियों का उपयोग बड़ी संख्या में पुस्तकों पर किया जाता है। (यह उपयोगकर्ता गतिविधि के समान गतिशील है; चित्र 2 देखें)।
अब जबकि हमने वरीयताओं को बदलने में कठिनाई के एक उपाय के रूप में बैरियर-टू-एग्जिट को क्रियान्वित कर लिया है, तो आइए प्रवृत्ति का विश्लेषण करने के लिए सांख्यिकीय मॉडल प्रस्तुत करें।
ध्यान देने वाली पहली बात यह है कि हमें एक क्रॉस्ड मल्टी-लेवल मॉडल की आवश्यकता है (बायेन एट अल., 2008)। हमारे मॉडल में दो स्तर होने चाहिए: उपयोगकर्ता और श्रेणी। उपयोगकर्ता स्तर सैद्धांतिक रूप से सबसे स्पष्ट है। चूँकि प्रत्येक उपयोगकर्ता के पास कई वरीयता परिवर्तन हो सकते हैं (संबंधित बैरियर-टू-एग्जिट के साथ), हमें उनके व्यक्तिगत अंतरों को नियंत्रित करना चाहिए (बायेन एट अल., 2008)। यह इसलिए भी महत्वपूर्ण है क्योंकि अनुशंसा प्रणाली उन पूर्वानुमानित विशेषताओं का उपयोग करेगी जो डेटासेट में सुलभ नहीं हैं (स्मिथ और लिंडेन, 2017)।
श्रेणियाँ दूसरे स्तर का निर्माण करती हैं। हमारे मॉडल में श्रेणी स्तर की भूमिका आइटम-स्तर की विशेषताओं को ध्यान में रखना है। जैसा कि परिचय में बताया गया है, वाणिज्यिक (यानी कंपनियाँ भविष्यवाणी अनिवार्यता का पालन कर रही हैं; (ज़ुबॉफ़, 2019)) और एल्गोरिदमिक कारण (यानी परिवर्तनशीलता को कम करने से इनाम उद्देश्य में सुधार हो सकता है (कैरोल एट अल., 2022)) यह मानने के लिए कि विभिन्न श्रेणियों में अलग-अलग बैरियर-टू-एग्जिट होंगे। इसलिए श्रेणियाँ इन प्रभावों के लिए एक प्रॉक्सी के रूप में कार्य कर सकती हैं। इस क्रॉस्ड डिज़ाइन का उपयोग अक्सर मनोविज्ञान अनुसंधान (बायेन एट अल., 2008) के भीतर किया जाता है।
श्रेणियों को यादृच्छिक प्रभावों के रूप में शामिल करने और निश्चित प्रभावों के रूप में नहीं शामिल करने के दो कारण हैं। पहला है श्रेणियों की संख्या। हमारे डेटासेट में 300 से ज़्यादा श्रेणियाँ हैं। इसलिए इन्हें निश्चित प्रभावों के रूप में मॉडल करना असंभव होगा। दूसरे, चूँकि हम उन्हें आइटम-स्तर के विचरण के लिए प्रॉक्सी के रूप में उपयोग करते हैं, इसलिए केवल यादृच्छिक घटकों को मॉडल करना अधिक सुविधाजनक है (मैडाला, 1971)
इससे हमें निम्नलिखित मॉडल प्राप्त होता है:
ध्यान देने वाली एक महत्वपूर्ण बात यह है कि लॉग-ट्रांसफ़ॉर्मिंग बैरियर-टू-एग्जिट गुणांकों की व्याख्या को बदल देता है। उन्हें रैखिक पैमाने पर व्याख्या करने के बजाय, उन्हें लॉगरिदमिक पैमाने पर व्याख्या किया जाना चाहिए (विलाडसेन और वुल्फ़, 2021)। ऐसा करने का सबसे स्वाभाविक तरीका प्रभावों को घातांकित करना और इसे प्रतिशत परिवर्तन के रूप में व्याख्या करना है। हालाँकि, परिवर्तन सांख्यिकीय मुद्दों को पेश करता है, जिस पर हम अनुभाग 5.2 में चर्चा करेंगे।
यह भी ध्यान देने योग्य है कि गतिविधि का स्तर समय के साथ अपेक्षाकृत असंबंधित है (चित्र 3 बी देखें)। ऐसा इसलिए है क्योंकि गतिविधि बैरियर-टू-एग्जिट अवधि के भीतर की गतिविधि को संदर्भित करती है, न कि अमेज़न पर कुल गतिविधि को। उत्तरार्द्ध में काफी वृद्धि हुई है जैसा कि चित्र 3 बी में बिंदुओं के घनत्व से देखा जा सकता है।
वैधता का आकलन करने के लिए, हम मॉडल के लिए मान्यताओं का परीक्षण करते हैं। पूरी जाँच के लिए परिशिष्ट A देखें। ध्यान देने योग्य कुछ उल्लंघन हैं: अवशिष्ट और यादृच्छिक प्रभाव सामान्यता से विचलित हो गए - विशेष रूप से श्रेणी-स्तरीय यादृच्छिक प्रभावों के लिए। हालाँकि, इसका निश्चित प्रभावों के अनुमान पर बहुत कम प्रभाव होना चाहिए (शिएलज़ेथ एट अल., 2020)। फिर भी, हम निष्कर्षों की मजबूती का आकलन करने के लिए समस्याग्रस्त श्रेणियों को हटाकर एक अतिरिक्त विश्लेषण चलाते हैं (बी.2 देखें)।
हमारे शोध प्रश्न का उत्तर एक अनुमानात्मक ढांचे में देने के लिए, हमें उन्हें परीक्षण योग्य निहितार्थों वाली परिकल्पनाओं में बदलने की आवश्यकता है (पॉपर, 1970)। हम निम्नलिखित परिकल्पना का प्रस्ताव करते हैं:
• परिकल्पना : 1998-2018 की अवधि में अमेज़न बुक रिकमेंडर सिस्टम के लिए बैरियर-टू-एक्ज़िट में उल्लेखनीय वृद्धि हुई है।
परिकल्पना का परीक्षण करने के लिए, हम समय (β1) के गुणांक का आकलन करने के लिए lmerTest-पैकेज (कुज़नेत्सोवा एट अल., 2017; सैटरथवेट, 1946) से सैटरथवेट के महत्व परीक्षण का उपयोग करते हैं। हालांकि, यह ध्यान रखना महत्वपूर्ण है कि मिश्रित प्रभाव मॉडल (सैटरथवेट, 1946) में स्वतंत्रता की डिग्री की गणना करने की विधि नमूना आकार छोटा होने पर टाइप I त्रुटियों को बढ़ा सकती है (बायेन एट अल., 2008)। हमारे मामले में, नमूना आकार बड़ा है, इसलिए यह चिंता का विषय नहीं है।
बड़े सैंपल साइज़ का मतलब यह भी है कि छोटे प्रभावों के लिए भी p-values शून्य के करीब हैं (घासेमी और ज़ाहेदियासल, 2012)। इस प्रकार, हम सिर्फ़ महत्व के बजाय प्रभाव आकार के परिमाण में भी रुचि रखते हैं।
ध्यान दें, यह वृद्धि रैखिक वृद्धि के बजाय वृद्धि दर है। यह इस बात को प्रभावित करता है कि हम प्रभाव आकार के परिमाण की व्याख्या कैसे करते हैं।
[2] दस्तावेज़ीकरण के लिए देखें: https://nijianmo.github.io/amazon/index.html
यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।