"प्रोपेन्सिटी स्कोर मिल्दो प्रवृति स्कोरको समान मूल्य साझा गर्ने उपचार गरिएका र उपचार नगरिएका विषयहरूको मिल्दो सेटहरू बनाउन समावेश गर्दछ। एक पटक मिल्दो नमूना गठन भएपछि, उपचार प्रभाव सीधा परिणाम तुलना गरेर अनुमान गर्न सकिन्छ।
परिभाषा पहिलो पटक रोसेनबम पीआर, रुबिन डीबी द्वारा 1983 को लेख "बाइनरी नतिजाको साथ एक अवलोकन अध्ययनमा एक अब्जर्भेटेड बाइनरी कोभेरिएट को संवेदनशीलता को आकलन" मा दिइएको थियो।
यसलाई सरल भाषामा भन्नुपर्दा, यो एक अतिरिक्त A/B परीक्षण प्रविधि हो जब नमूना अनियमितताले काम गर्दैन । प्रत्येक प्रयोगकर्ताको लागि उपचार समूहको प्रपेन्सिटी स्कोर (परीक्षण समूहमा तोकिएको सम्भावना) गणना गरिन्छ र त्यसपछि प्रयोगकर्तालाई नियन्त्रण समूहको रूपमा उत्पादन प्रयोगको ऐतिहासिक डेटाको आधारमा अर्को प्रयोगकर्तासँग मिलाइन्छ। पछि, सांख्यिकीय परीक्षण प्रयोग गरेर दुई समूहहरूको नतिजा तुलना गरिन्छ र एक प्रयोग प्रभाव मापन गरिन्छ।
तर A/B प्लेटफर्मले यसको सट्टामा गर्न सक्छ भने नियन्त्रण समूह खोज्ने जटिल प्रविधि किन प्रयोग गर्ने? कतिपय अवस्थामा बिल्ट-इन स्प्लिटिंग प्रकार्यको साथ A/B प्लेटफर्म प्रयोग गर्न सम्भव छैन। यहाँ सम्भावित केसहरू छन्:
मसँग मेरो अभ्यासमा चौथो केस थियो र यो ई-वाणिज्य उत्पादनसँग काम गर्दा भयो। एउटा उत्पादन टोलीले पहिलो अर्डर गरेपछि प्रयोगकर्ताहरूलाई बोनस दिने कार्य परीक्षण गर्ने तयारी गरिरहेको थियो। समस्या यो थियो कि प्रकार्यले पहिलो अर्डर राख्ने सबै प्रयोगकर्ताहरूमा काम गरिरहेको थिएन। केही शर्तहरू, जस्तै अर्डरको मूल्य, इत्यादि, भेट्नुपर्ने थियो। यस अवस्थामा, यो परीक्षण र नियन्त्रण समूहहरू बीच ट्राफिक विभाजित गर्न A/B परीक्षण प्लेटफर्मको सीमाभन्दा बाहिर छ। यहाँ किन प्रोपेन्सिटी स्कोर मिलान विकल्प थियो।
एक c पूर्ण ढाँचा लगभग एउटा लेखमा आधारित छ " R सँग मेल खाने प्रवृत्ति स्कोर: परम्परागत विधिहरू र नयाँ सुविधाहरू " र पाँच चरणहरू समावेश गर्दछ (चित्र 2)।
पहिलो चरण डेटा सङ्कलन गर्न हो जसमा एक प्रवृत्ति स्कोर अनुमान गरिएको छ र एक मिल्दो प्रयोगकर्ता फेला पर्यो।
दोस्रो चरण भनेको विधिहरू प्रयोग गरेर प्रवृति स्कोर अनुमान गर्नु हो, जस्तै लजिस्टिक रिग्रेसन, र डेटासेटमा प्रशिक्षित गर्नको लागि प्रयोगकर्तालाई परीक्षण समूहमा तोक्ने छ कि छैन भनेर भविष्यवाणी गर्न। प्रत्येक प्रयोगकर्ताको लागि, प्रशिक्षित मोडेलले परीक्षण समूहमा हुने सम्भावना उत्पन्न गर्छ।
तेस्रो चरणले प्रवृति स्कोरमा आधारित मिलानलाई जनाउँछ, जहाँ विभिन्न मिल्दो विधिहरू प्रयास गरिन्छ, जस्तै नजिकको छिमेकी।
चौथो चरणमा, उपचार र नियन्त्रण समूहहरू बीचको कोभेरिएट्सको सन्तुलन सन्तुलन तथ्याङ्कहरू गणना गरेर र प्लटहरू उत्पन्न गरेर जाँच गरिन्छ। कमजोर सन्तुलनले मोडेल अनुमान गर्ने प्रवृत्ति स्कोर पुन: निर्दिष्ट गर्न आवश्यक छ भनेर संकेत गर्दछ।
पाँचौं अन्तिम चरणमा, मिलान गरिएको डाटा प्रयोग गरेर परीक्षणको प्रभावहरू अनुमान गरिन्छ र सांख्यिकीय परीक्षण सञ्चालन गरिन्छ।
यो चरण आवश्यक चर, covariates र confounders सङ्कलन सम्बन्धमा छ। Covariate (X) एक स्वतन्त्र चर हो जसले प्रयोग (Y) को नतिजालाई प्रभाव पार्न सक्छ, तर जुन प्रत्यक्ष चासोको होइन। कन्फाउन्डर एक अध्ययन गरिएको एक बाहेक अन्य कारक हो जुन परीक्षण समूह (W) मा आवंटन र प्रयोग (Y) को नतिजा संग सम्बन्धित छ।
तलको ग्राफले चरको सम्बन्धलाई चित्रण गर्दछ। X एक covariate हो, W उपचार असाइनमेन्टको सूचक हो, र Y परिणाम हो। बायाँको ग्राफले कन्फउन्डरको सम्बन्धलाई चित्रण गर्दछ र दायाँमा रहेको एउटाले प्रयोगको नतिजा (Y) र समूह आवंटन (W) परीक्षण गर्न कोभेरिएटको स्वतन्त्र जडान देखाउँछ।
यहाँ यो अधोरेखित गर्न महत्त्वपूर्ण छ कि परीक्षण समूह (W) मा प्रयोगकर्ताहरूको असाइनमेन्टसँग सम्बन्धित चरहरू मात्र चयन गर्न सिफारिस गरिएको छैन किनभने यसले पूर्वाग्रह घटाइ बिना समूह भिन्नताको मूल्याङ्कनमा शुद्धता कम गर्न सक्छ ( https://www.ncbi .nlm.nih.gov/pmc/articles/PMC1513192/ )।
तपाईंले मलाई कति चरहरू चयन गर्न आवश्यक छ भनेर सोध्न सक्नुहुन्छ? जवाफ सरल छ - नतिजाहरूको उच्च अनुमान प्राप्त गर्न र अध्ययन पूर्वाग्रह कम गर्नको लागि जति धेरै, राम्रो । र यहाँ म 20-50 वा अझ बढीको रूपमा ठूलो संख्याको बारेमा कुरा गर्दैछु।
अर्को चरणमा सर्दै, यो डेटा सङ्कलन गर्न र उपचार समूहसँग सम्बन्धित झण्डा सेट गर्न आवश्यक छ। अन्य सबै प्रयोगकर्ताहरूले सम्भावित रूपमा नियन्त्रण समूह बनाउनेछन्। पछि प्रवृति स्कोर विभिन्न विधिहरू प्रयोग गरी अनुमान गरिएको छ, जस्तै लजिस्टिक रिग्रेसन वा अनियमित वन।
मैले पढेका धेरै जसो लेखहरूले लजिस्टिक रिग्रेसनमा टाँसिने र उच्च शुद्धताको रूपमा अन्य जटिल मोडेलहरू प्रयोग नगर्ने सुझाव दिन्छ । यद्यपि, सफल मिलान प्रविधि शुद्धतामा केन्द्रित हुन्छ।
विधि चयन गरेपछि, प्रयोगकर्ता परीक्षण समूहको हो कि होइन भनेर भविष्यवाणी गर्न चयन गरिएको कोभेरिएट्स प्रयोग गरेर डेटामा भविष्यवाणी गर्ने मोडेललाई तालिम दिइन्छ। अन्तमा, मोडेलले प्रत्येक प्रयोगकर्ताको लागि भविष्यवाणी गर्दछ, र प्रवृत्ति स्कोर, परीक्षण समूहमा हुने सम्भावना, गणना गरिन्छ। सफ्टवेयरको सन्दर्भमा, पाइथनमा तपाईंले आधारभूत स्किट-लर्नबाट सुरु हुने र प्रोफेटमा सर्ने कुनै पनि पूर्वानुमान पुस्तकालय प्रयोग गर्न सक्नुहुन्छ।
निम्न कार्य भनेको परीक्षण समूहबाट प्रयोगकर्तामा मेल खाएको प्रयोगकर्ता फेला पार्न मिल्दो प्रविधि लागू गर्नु हो। त्यसैले, एक नियन्त्रण समूह गठन गरिएको छ।
त्यहाँ छनौट गर्न विभिन्न मिल्दो विधिहरू छन्, उदाहरणका लागि सटीक मिलान वा Mahalanobis दूरी मिलान। यस लेखमा म मुख्यतया निकटतम छिमेकी मिल्दोजुल्दो र यसको भिन्नताहरूको साझा प्रविधिको बारेमा छलफल गर्न जाँदैछु।
निकटतम छिमेकी मिलान (NNM) दुई चरणहरू मिलेर बनेको छ। पहिले, एल्गोरिथ्मले प्रयोगकर्ताहरूलाई, एक उपचार समूहबाट, एक निर्दिष्ट क्रममा छान्छ। पछि, परीक्षण समूहको प्रत्येक प्रयोगकर्ताको लागि, एल्गोरिथ्मले निकटतम प्रवृत्ति स्कोरको साथ नियन्त्रण समूहमा प्रयोगकर्ता फेला पार्छ। यी चरणहरू दोहोर्याइन्छ जबसम्म कुनै प्रयोगकर्ताहरू परीक्षण वा नियन्त्रण समूहहरूमा नछोडिन्छन्। Python मा, PSM का लागि PyTorch, Psmpy , causallib को रूपमा विशिष्ट पुस्तकालयहरू छन्। वा तपाईं सँधै मिल्दो एल्गोरिदमको साथ कुनै पनि क्लासिक पुस्तकालयमा टाँस्न सक्नुहुन्छ।
क्लासिक A/B परीक्षण जस्तै नियन्त्रण समूह सिर्जना गर्दा, जहाँ समूहका प्रयोगकर्ताहरू अद्वितीय छन् र नमूना आकारहरू बराबर छन्, प्रतिस्थापन विधि बिना नै NNM लागू गरिनुपर्छ भन्ने कुरालाई रेखांकित गर्न महत्त्वपूर्ण छ। यो विधिले मिल्दोजुल्दो जोडीलाई हटाइने छ, जसले गर्दा कन्ट्रोल समूहमा प्रयोगकर्तालाई एक पटक मात्र प्रयोग गरिनेछ।
क्यालिपरको साथ वा बिना NNM मोडेल चयन गर्ने विकल्प पनि छ। एक क्यालिपरले मेल खाएको जोडीमा प्रवृति स्कोरको दूरीको माथिल्लो सीमा सेट गर्दछ। यसरी, प्रत्येक प्रयोगकर्तालाई सीमित दायरा भित्रको प्रवृति स्कोरका प्रयोगकर्ताहरूसँग मात्र मिलाउन सकिन्छ। यदि योग्य प्रयोगकर्ताहरू मिलाउन सकिँदैन भने, प्रयोगकर्ता खारेज गरिनेछ।
मैले किन क्यालिपर प्रयोग गर्नुपर्छ? मिल्दो जोडीमा प्रवृति स्कोरको दूरी ठूलो हुन सक्छ भने यसलाई लागू गर्न सल्लाह दिइन्छ। क्यालिपर साइजमा निर्णय गर्दा, निम्नलाई विचार गर्नुहोस्: यदि मिल्दो कार्यसम्पादन सन्तोषजनक छैन भने, मिल्दो क्यालिपरसँग मिलाउन सकिन्छ र यदि मिल्दो सफल भए तर मिल्दो जोडीहरूको संख्या सानो छ भने, क्यालिपर फराकिलो गर्न सकिन्छ ( https:/ /www.ncbi.nlm.nih.gov/pmc/articles/PMC8246231/ )।
यस चरणको समयमा यो जाँच गरिएको छ कि परीक्षण र मिल्दो नियन्त्रण समूहहरू सन्तुलित छन् कि छैनन्, यसैले, यो दावी गर्छ कि मिलान सही छ कि छैन।
यो एक महत्त्वपूर्ण कदम हो किनकि असन्तुलित कोभेरिएट्सले गलत A/B परीक्षण नतिजाहरूको तुलनामा नेतृत्व गर्नेछ।
सन्तुलन निदानका तीनवटा माध्यमहरू छन्:
- वर्णनात्मक तथ्याङ्क: मानकीकृत औसत भिन्नता (SMD) वा भिन्नता अनुपात (VR)
- सांख्यिकीय परीक्षण
- दृश्य: qq-प्लट, हिस्टोग्राम वा प्रेम कथानक
लेखमा म मुख्यतया पहिलो र तेस्रो विकल्पहरूमा ध्यान केन्द्रित गर्दछु।
पहिले, मानकीकृत औसत भिन्नता र भिन्नता अनुपातमा छलफल गरौं। कुन मानहरूले कोभेरिएट सन्तुलित छ भनेर संकेत गर्छ? म सुझाव दिन्छु कि SMD मान ०.१ भन्दा कम छ VR को सन्दर्भमा, 1.0 नजिकको मानले ब्यालेन्सलाई जनाउँछ ।
दोस्रो स्थानमा, भिजुअलाइजेशन विधिहरूको सन्दर्भमा, माथिको वर्णनात्मक तथ्याङ्कहरू मध्ये एक प्रत्येक कोभिएरको लागि गणना गरिन्छ र ग्राफिक रूपमा प्रदर्शित हुन्छ। म व्यक्तिगत रूपमा एक प्रेम प्लट रुचाउँछु किनकि सबै covariates एक ग्राफ मा राख्न सकिन्छ र covariates पहिले र मिल्दो सजिलै संग तुलना गर्न सकिन्छ। म तल ग्राफको उदाहरण राख्छु।
के हुन्छ यदि covariates मिलान पछि पनि असन्तुलित छन्? उदाहरणका लागि, खरीद र AOV को कोभेरिएट्स फ्रिक्वेन्सीको मानकीकृत औसत भिन्नता (SMD) लगभग ०.५ छ, जुन आवश्यक ०.१ भन्दा माथि छ। यसले कोभेरिएट्स असन्तुलित छन् र पुन: मिलान आवश्यक छ भनेर संकेत गर्दछ।
असन्तुलित covariates संकेत PSM मोडेल प्रभावकारी छैन र पुनर्निर्माण गर्न आवश्यक छ। त्यसकारण, यो केहि कदम पछाडि जानु र मिल्दो दोहोर्याउन आवश्यक छ।
मिल्दो पुन: गर्न चार तरिकाहरू छन्:
1. नयाँ covariates थप्नुहोस्
2. बस मिल्ने विधि परिवर्तन गर्नुहोस् किनकि त्यहाँ धेरै छन्
3. सही मिलान विधि संग प्रवृति स्कोर मिलान संयोजन
4. नमूना आकार बढाउनुहोस्
अन्तमा, हामी अन्तिम चरणमा पुग्दैछौं जब प्रयोग प्रभाव अनुमान गरिएको छ। त्यहाँ मुख्यतया तीन प्रकारका प्रभाव अनुमानहरू छन्: औसत उपचार प्रभाव (ATE), उपचारमा औसत उपचार प्रभाव (ATT), र नियन्त्रणमा औसत उपचार प्रभाव (ATC)। सामान्यतया, ATE परीक्षण र नियन्त्रण समूहहरू बीचको मुख्य मेट्रिकमा गणना गरिएको भिन्नता हो (ए/बी परीक्षणमा मुख्य मेट्रिक नाप्ने समान)। यसलाई उपचार प्रभावको माध्यमको रूपमा गणना गरिएको छ, ATE = avg (Y1 - Y1) तल चित्रमा देखाइएको छ।
जबकि ATT र ATC क्रमशः परीक्षण र नियन्त्रण समूहको औसत उपचार प्रभाव हो। सबै सीधा र बुझ्ने अनुमान विधिहरू छन्।
ATE सबैभन्दा सामान्य प्रकार हो र प्रयोग गरिन्छ जब नियन्त्रण र परीक्षण समूहहरूको प्रमुख मेट्रिक तुलना गरिन्छ र परीक्षण प्रभाव मापन गरिन्छ। प्रत्येक समूहको लागि निरपेक्ष मेट्रिक्स आवश्यक हुँदा ATT र ATC लाई प्राथमिकता दिइन्छ। अन्ततः, नतिजाको सांख्यिकीय महत्व जाँच गर्न उपयुक्त सांख्यिकीय परीक्षण गरिन्छ।
प्रोपेन्सिटी स्कोर मिलान विधिको विस्तृत व्याख्या पछि, यो तपाइँको काममा लागू गर्न सुरु गर्ने समय हुन सक्छ, तर त्यहाँ केहि सीमितताहरू विचार गर्नुपर्छ।
1. बुटस्ट्र्यापलाई प्रोपेन्सिटी स्कोर म्याचिङसँग प्रयोग गर्न सिफारिस गरिँदैन किनभने यसले भिन्नता बढाउँछ। ( https://economics.mit.edu/sites/default/files/publications/ ON The Failure of The Bootstrap for.pdf )
2. Stable unit treatment value assumption (SUTVA) principle must be met. 3. Propensity Score Matching implies using two machine learning algorithms (one for propensity score calculations and the second one for matching), which can be a pricy method to use for a company. On that account, it's advisable to negotiate with your team on A/B test conduction. 4. Finally, as discussed above, a big number of covariates are suggested to be used in the models. Thus, it requires a high-powered machine(-s) to calculate the results of the models. Again, it's a costly method to implement.
के तपाइँ यी केहि प्रश्नहरूको जवाफ दिँदै छुरा लिन चाहनुहुन्छ? टेम्प्लेटको लागि लिङ्क हो