यह पसंद है या नहीं, वास्तविकता यह है: सिर्फ यह तथ्य कि आपका उत्पाद या सुविधा एआई / एमएल का उपयोग करती है, पर्याप्त नहीं है। कम से कम अगर आप एक स्थायी, सकारात्मक प्रभाव चाहते हैं. हाईप और वायरल बज़ के अलावा, व्यवसाय अभी भी लाभ, ROI, और बढ़ते मीट्रिक के बारे में है. अधिकांश मामलों में इसकी प्रकृति यही है. जिसका अर्थ है कि हमारे लिए, इन परियोजनाओं का निर्माण करने वाले लोगों के लिए, यह जानना आवश्यक है कि एआई / एमएल के प्रभाव को कैसे मापना है. दोनों प्रारंभिक चरण में और हर सुधार के बाद। इस लेख में, हम टूलकिट को देखेंगे जो हमें एआई को अपनाने के प्रभाव को मापने में मदद करता है और इन तरीकों के काम का एक एहसास मिलता है. मैं बहुत सारी चीजें सरल बनाऊंगा और बाड़ के पीछे कई विवरण रखूंगा (या अलग-अलग खंडों के लिए), बस प्रवेश बाधा को कम करने के लिए। अंत तक, आपके पास अपने प्रोजेक्ट के व्यवसाय पर प्रभाव को मापने के लिए मुख्य दृष्टिकोणों की एक समझ होगी. आपके पास विधियों का एक कच्चा नक्शा होगा और जानना होगा कि खुद को कैसे निर्देशित करना है - जो आपके मामले में सबसे अच्छा फिट है. वहां से, आप गहराई से डूबने के लिए तैयार होंगे. नाटक नक्शा - आपको नेविगेट करने में मदद करने के लिए हम मूल बातें से शुरू करेंगे - क्यों और कब यह मापने लायक है। फिर हम देखेंगे कि क्या गलत हो सकता है और क्यों हर परिवर्तन एक प्रयोग के लायक नहीं है। वहां से, हम सोने के मानक में डूबेंगे - ए / बी परीक्षण - और जब आप एक नहीं चला सकते हैं तो क्या करें। अंत में, हम प्रयोगों से परे चयापचय निष्कर्षण विधियों के लिए जाएंगे - और आप जो पाते हैं उस पर भरोसा कैसे करें। प्रभाव का मापना: क्यों, कब, और कैसे नहीं When it’s worth measuring जब यह मापने लायक है सबसे पहले, मुख्य कारण जो आप वास्तव में परेशान करना चाहते हैं। Risk & Value हम पहले से ही मूल्य पर छू चुके हैं. हम यह मापना चाहते हैं कि क्या एक सुविधा आगे के निवेश को उचित बनाने के लिए पर्याप्त प्रदान करती है. कितना, इसका भविष्य क्या होना चाहिए. और ये काफी सुखद काम हैं. लेकिन महत्वपूर्ण कारक को मत भूलना - यदि आपका चमकदार नया बदलाव वास्तव में चीजों को बदतर बनाता है - रूपांतरण दरें गिर गई हैं, उपयोगकर्ता निराशा में छोड़ रहे हैं, कम पैसा है - आप एक विफलता से बचने से भी एक विफलता को पकड़ने की तुलना में अधिक मायने रख सकता है। risk management. निश्चित रूप से Innovation एजिल के शुरुआती दिनों से, उत्पाद विकास तेजी से पुनरावृत्ति, बाजार हथियारों की दौड़, और उत्पाद-मार्केट फिट के लिए अंतहीन खोज के बारे में है। कंपनियां प्रतिस्पर्धी रहने के लिए एक साथ दर्जनों चीजें करती हैं, और आप केवल अच्छे लोगों के बीच वास्तव में शानदार समाधानों को प्राथमिकता देना चाहते हैं। Optimization एक जागरूक, माप-आधारित दृष्टिकोण की सुंदरता यह है कि यह आपको गहराई से खोदने की अनुमति देता है। आपके परिणामों के बारे में. शायद आय तुरंत कूद नहीं गई, लेकिन उपयोगकर्ता नई कार्यक्षमता से प्यार करते हैं और हर दिन इसके साथ जुड़ते हैं. शायद यह एक विशिष्ट सेगमेंट के साथ rezonates लेकिन दूसरों को परेशान करता है. ये और अन्य विचार आगे अनुकूलन के लिए अवसर खोलते हैं. आप बेहतर हो रहे हैं. प्रकृति Organization क्या आप एक ऐसी जगह पर काम करते हैं जो "डेटा-ड्राइविंग" होने के बारे में बात करती है? या शायद आप व्यक्तिगत रूप से ऐसे प्रकार के हैं जो आंतों की भावना के बारे में तथ्यों पर भरोसा करते हैं? फिर यह वहां है जहां आप होना चाहते हैं: प्रभाव को मापने के लिए सीखना, और सुनिश्चित करना कि आपके परिणाम वास्तव में आपको अपने निर्धारित लक्ष्यों की ओर ले जाते हैं। When Not to Test जब परीक्षण नहीं किया जाए कहा जाता है कि वहां cases where experiments don’t make sense - or aren’t possible at all. Let’s go through the big ones. है Methodological limits कभी-कभी यह विधियों को लागू करना असंभव है. परिणाम प्राप्त करने के लिए बहुत कम डेटा. परिवर्तन का पता लगाने के लिए बहुत छोटा है. या बिल्कुल भी सुधार करने की आवश्यकता के बारे में कोई अनुमान नहीं है (इस मामले में - क्यों किसी भी चीज को विकसित करने की आवश्यकता थी? Non-optional work कुछ परिवर्तन अनिवार्य हैं। कानूनी या अनुपालन आवश्यकताएं क्लासिक मामले हैं. एआई-विशिष्ट नहीं, लेकिन स्पष्ट: आपको GDPR का पालन करने की आवश्यकता है, अपने उत्पाद को सुलभता के लिए अनुकूलित करने की आवश्यकता है, आदि। ऐसा ही चलता है साइट एक 502 त्रुटि नहीं वापस करती है. व्यवसाय मूल्य के लिए यह कैसे है? critical fixes or infrastructure updates. Ethical red lines कुछ मापने की प्रथाएं नैतिक सीमाओं को पार करती हैं, जो उपयोगकर्ता को नुकसान पहुंचाती हैं या प्रयोगशील डिजाइन का जोखिम लेती हैं. ऐसे प्रयोगों को सोचें जो वित्तीय नुकसान पैदा कर सकते हैं या उपयोगकर्ता डेटा को बाधित कर सकते हैं. सब कुछ उचित खेल नहीं है. Better alternatives कभी-कभी यह बस इसके लायक नहीं है. यदि माप पर खर्च किए गए प्रयास (साधन) मूल्य से अधिक हो सकते हैं, तो इसे छोड़ दें. समय, पैसा, अवसर लागत. सब कुछ मायने रखता है. सबसे सरल उदाहरण: केवल कुछ ग्राहकों के साथ युवा, तेजी से चलने वाली स्टार्टअप आमतौर पर छोटे पुनरावृत्ति और प्रत्यक्ष उपयोगकर्ता प्रतिक्रिया के माध्यम से उत्पाद-मार्केट फिट का पीछा करने से बेहतर होते हैं। कैसे नहीं मापें पहले के बाद अंतर्निहित रूप से, प्रेरणा निम्नलिखित करने के लिए है: देखें कि यह कैसे था नई सुविधा को लॉन्च करें देखिए अब कैसा है एक सकारात्मक परिणाम देखें लाभ But "it seems better now" has a dark side. Many things change over time (seasonality, external events, traffic shifts). You can't isolate the effect of one feature. पर्यावरण परिवर्तनों को प्रभाव के साथ भ्रमित करता है। Core issue: YoY (Year-over-Year) तुलना यह परिचित और पारंपरिक व्यापार चाल सवाल का जवाब देने के लिए आदर्श है, "क्या हम पूरे व्यवसाय के रूप में बढ़ रहे हैं? और यह कई स्थितियों में उपयोगी है, लेकिन एक सुविधा के कार्यान्वयन या सुधार की एक अकेली मूल्यांकन में नहीं। बस कल्पना करें कि इस साल व्यापार में कितना हुआ है. मार्केटर, एसईओ, विक्रेता, आप इसे नाम देते हैं - आपके चारों ओर हर कोई विकास सुनिश्चित करने के लिए थकावट से काम कर रहा है. हमारे आसपास की दुनिया भी खड़े नहीं है. टैरिफ, कोविड-19 और युद्ध हो रहे हैं. ब्लॉगर और प्रसिद्धि अपनी राय व्यक्त कर रहे हैं. TikTok रुझान उपभोक्ता व्यवहार को बदल रहे हैं, और आपके प्रतिस्पर्धी भी अपना हिस्सा कर रहे हैं। लेकिन इस जनवरी में आयात में 10 प्रतिशत वृद्धि केवल आपके एआई चैटबोट के लिए ही थी (सही? एक खिड़की बहुत लंबी है - एक साथ कई अन्य परिवर्तन होते हैं. कोई भी YoY अंतर सब कुछ प्रतिबिंबित करता है, आपकी विशेषता नहीं। Core issue: कारण » कारण » कारण आपने शायद वाक्यांश सुना है, "संरचना का मतलब कारण नहीं है." लेकिन यह वास्तव में अभ्यास में क्या मतलब है? कल्पना कीजिए कि आप एक एआई चैटबॉट लॉन्च करते हैं, और थोड़ी देर के बाद, पूरा किए गए खरीदों की संख्या बढ़ जाती है। ऐसा लगता है कि चैटबॉट ने वृद्धि का कारण बनाया, सही? शायद - या शायद नहीं। जब उपयोग और परिणाम एक साथ चलते हैं, तो यह कारण और प्रभाव की तरह दिखता है। लेकिन एक ही समय में, आपका मार्केटिंग टीम एक नया अभियान लॉन्च कर रही है। या एक मौसम की ऊंचाई थी, जो साल के इस समय हमेशा बिक्री की ऊंचाई है। या एक प्रतिस्पर्धी स्टॉक से बाहर निकला। या... आप जानते हैं, कई कारण हो सकते हैं। और वे सभी एक साथ या आपके बॉट के बजाय संख्याओं को प्रभावित कर सकते हैं। जटिल हिस्सा यह है कि डेटा केवल संबंधित दिख सकता है क्योंकि दो चीजें एक ही समय में होती हैं. हमारे मस्तिष्क पैटर्न को पहचानने में अच्छे हैं, लेकिन व्यवसाय समानांतर घटनाओं और शोर से भरा है. यदि हम कारण को संयोग से अलग नहीं करते हैं, तो हम बुरे निर्णय लेने का जोखिम उठाते हैं - जैसे कि एक सुविधा में अधिक निवेश करना जो वास्तव में सफलता के लिए जिम्मेदार नहीं था। संदर्भ केवल यह दर्शाता है कि दो चीजें एक ही समय में बदल गई हैं, लेकिन यह वादा नहीं करता है कि एक ने दूसरे का कारण बनाया है। Core issue: उद्योग के सोने के मानक - यादृच्छिक नियंत्रित प्रयोग (आरसीई) 10 में से 10 बार आप यहां होना चाहते हैं. सौभाग्य से 10 में से 8-9 बार आप यहां होंगे. और यह उन मामलों के कारण है कि आरसीई पर्याप्त नहीं है कि यह लेख आया। हालांकि, चलो अच्छी चीजों से शुरू करते हैं। क्लासिक ए / बी परीक्षण आप शायद इस विधि से परिचित हैं. यह निम्नलिखित रूप से संक्षेप में है: For example, that the description of goods and services generated with GenAI will be as good (or better) than the one written by a human. Or the block “Customers Also Bought / Frequently Bought Together” in an online store will stimulate customers to buy more staff. Personalized emails engage users more. And so on. We form a hypothesis. by which to determine the success/failure of the hypothesis. Define one or more metrics Consider possible cycles of product use. Calculate the sample size and duration of the experiment. into two (or more) groups and . The control group (a) sees the product without the new feature, and the experimental group sees the new version of the product containing the change we are testing. We check that the groups differ only in the presence or absence of the new feature. Randomly split the traffic run the experiment . We apply statistical methods, calculate the difference in metrics and make sure that it is statistically significant. Stage 0 could be an A/A test (when both groups see the same version of the product and we do not see any difference in their behavior) to make sure that the traffic separation and methodology works correctly Analysis Based on the analysis, a decision is made: use, refine or reject. Decision making and iteration. Its magical, wonderful world where there is a lot of control, a chance to double-check yourself, to measure your confidence in your results. Plenty of learning resources and experienced colleagues around. What could possibly go wrong? The main reasons why we will have to give up cozy classical AB tests: 1. is when the behavior of one group affects another. That means the control group also changes - even though it shouldn't. Spillover Effect A textbook example is the Facebook friend recommendation block. We hope that it will help users build social connections. Let's imagine that group A doesn't have such a block, but group B sees it. User John from group B sees such a block, sees user Michael from group A in it, and adds him as a friend. Both users have +1 friend, although Michael should have been in a group that is not affected by the tested feature. Let's look at a few different examples where the might occur Spillover Effect or . If we have very few users (unpopular part of the product, B2B, etc.) or we work with a very rare event (buying a very expensive product or someone actually read the Terms & Conditions). In such cases, it will take a huge amount of time to get a little bit significant result. 2. Few users rare events . If we launch a change that affects the environment and cannot be isolated to individual users. For example, we are testing an advertising auction algorithm - prices will change for all advertisers, not just for those we try to isolate into an experimental group. 3. Impact on external factors . Our chip can change the composition of groups. For example, it repels or attracts certain types of users. For example, if a new feature starts to attract newcomers (this is not our goal) and increases their share in the test group, while in the control group it remains unchanged - the groups will not be comparable. 4. Brand's Effect अच्छी खबर यह है कि समस्या का हिस्सा आरसीई के बाहर जाने के बिना हल किया जाता है, मूल रूप से एक ही यांत्रिक का उपयोग करते हुए। There’s more to split than traffic! यातायात से अधिक विभाजित करने के लिए है! उपरोक्त समस्याओं में से कुछ को पूरे परीक्षण डिजाइन का केवल हिस्सा बदलकर हल किया जा सकता है। कई संक्षेपों और विश्लेषकों के अनुसार, अलग-अलग सह-पायलट और सहायक एलएलएम आधारित उत्पादों के शीर्ष पर आते हैं. वे लोकप्रियता और "जीवन दर" दोनों में नेतृत्व करते हैं, अर्थात् उनके पास एमवीपी की तुलना में लंबे समय तक जीने का मौका है. इस तरह के परियोजनाओं की सामान्य विशेषता यह है कि हमारे पास एक समाधान है जो एक कर्मचारी के काम को सरल / तेज करने के लिए डिज़ाइन किया गया है. यह कॉल सेंटर ऑपरेटरों, बिक्री लोगों, वित्त लोगों और इतने पर हो सकता है. लेकिन अक्सर हमारे पास उन्हें दो समूहों में विभाजित करने के लिए इतने कई कर्मचारी नहीं हैं और कॉलोपोट के साथ और बिना उनकी गति / दक्षता को माप सकते हैं. यहां ( ) is a real-life example. As part of the experiment, the researchers wanted to see how the use of AI tools affects the work of engineers. Would they close tasks faster if they were given a modern arsenal? But only 16 developers took part in the experiment, which is desperately small enough to hope to get confident results. लिंक इसके बजाय, लेखकों ने विभाजित इसलिए यहां नमूना 16 डेवलपर्स नहीं है, बल्कि 246 कार्य हैं यह अभी भी एक विशाल नमूना नहीं है, लेकिन: tasks P-value ठीक है। लेखकों ने विश्लेषण किया और स्क्रीन रिकॉर्डिंग को चिह्नित किया, साक्षात्कार किए. संक्षेप में, उन्होंने गुणवत्तात्मक अनुसंधान किया. जब गुणवत्तात्मक और मात्रात्मक अनुसंधान के परिणाम लगातार होते हैं तो यह एक मजबूत संकेत है. लेकिन अब हमारे लिए क्या महत्वपूर्ण है कि हमारे विषय के ढांचे के भीतर निष्कर्ष निकालें, हम इस अध्ययन में रुचि नहीं रखते हैं, लेकिन दृष्टिकोण के एक समझने योग्य उदाहरण में। Let’s give this idea a skeleton. एआई कॉपीलोट (कंटैक्ट सेंटर / डेवलपर टीम / आदि) Case: Why not user-split? यहां "उपयोगकर्ता" एजेंट / डेवस हैं; छोटे आबादी + प्रसार (साझा मैक्रो, कोचिंग, Shift Effects)। Instead, randomize: टिकट / वार्तालाप (पोषण पर उपचार निर्धारित करें)। या क्लस्टर के रूप में लाइन / इरादा (बिलिंग, तकनीक, रिटर्न, आदि)। चैनल (चैट / ईमेल / वॉयस) और प्राथमिकता / एसएलए के अनुसार विभाजन; मॉनिटर ऑटोमेशन बाधा; क्लस्टर-रोबस्ट एसई के साथ विश्लेषण करें। Design notes: Once you understand this principle, you can apply it to other entities as well. You can split time, geoposition, and more. Look for similar cases, get inspired and adapt. एक बार जब आप इस सिद्धांत को समझते हैं, तो आप इसे अन्य इकाइयों के लिए भी लागू कर सकते हैं. आप समय, भौगोलिक स्थिति और अधिक को विभाजित कर सकते हैं. समान मामलों की तलाश करें, प्रेरणा प्राप्त करें और अनुकूलित करें. मैं एक अन्य आम प्रकार के कार्यों के लिए एक नोट छोड़ दूंगा जहां क्लासिक एबी परीक्षण फिट नहीं हो सकता है - मूल्य निर्धारण एल्गोरिथ्म। गतिशील कीमतें (Retail) Case: Why not user-split? दुकान में यह असंभव है (और भ्रमित) विभिन्न लोगों को अलग-अलग मूल्य दिखाना। ऑनलाइन यह अक्सर अवैध / अनैतिक होता है और ईमानदारी के मुद्दों को उजागर करता है। Instead, randomize: समय (स्विचबैक) एक ही SKU×स्टोर के लिए (उदाहरण के लिए, शॉट्स / दिनों द्वारा)। (अधिकारिक) क्लस्टर - SKU×स्टोर (या स्टोर क्लस्टर), श्रेणी / ट्रैफ़िक के अनुसार विभाजित balance days of week/seasonality; use cluster-robust SE; guardrails on promo/stock overlaps. Design notes: जब Randomization एक विकल्प नहीं है आप अपने कोर एआई सुविधा के प्रभाव को कैसे मापते हैं जब यह पहले से ही हर किसी के लिए लाइव है या आप नियंत्रण समूह के साथ प्रयोग चलाने में सक्षम नहीं हैं? हमने स्थापित किया है कि आरसीई एक कारण के लिए सोने का मानक है, लेकिन नियंत्रित प्रयोगों की शुद्ध दुनिया अक्सर व्यापार की गड़बड़ी की वास्तविकता के लिए जगह देता है. जैसा कि हमने देखा है, आरसीई की सभी सीमाएं विशेष तकनीकों के साथ भी हल नहीं हो सकती हैं. जल्दी या बाद में, प्रत्येक उत्पाद टीम एक महत्वपूर्ण सवाल का सामना करती है जिसे एक क्लासिक ए / बी परीक्षण उत्तर नहीं दे सकता है। आइए सबसे लोकप्रिय में से कुछ का पता लगाते हैं और उनके सार को पकड़ने की कोशिश करते हैं. जब समय आता है, तो आप जानते हैं कि कहां खोदना है। विधि की समीक्षा Propensity Score Matching (PSM) का प्रयोग करें जीएसटी के लिए: आप इस विधि पर विचार कर सकते हैं जब एक उपचार के संपर्क को यादृच्छिक नहीं होता है (उदाहरण के लिए, जब एक उपयोगकर्ता खुद तय करता है कि क्या आप एक सुविधा का उपयोग करने के लिए विकसित किया गया है)। प्रत्येक उपयोगकर्ता के लिए जो उपचार प्राप्त किया गया है, हम एक उपयोगकर्ता पाते हैं जो नहीं था, लेकिन इसे प्राप्त करने की समान संभावना थी. अनिवार्य रूप से, यह एक "विदेशी जुड़वां" बनाता है. हम प्रभाव निर्धारित करने के लिए इन जोड़ों की तुलना करते हैं. Use Case: कल्पना कीजिए कि आपने अपने उत्पाद के लिए एक बहुत ही शानदार, गेमिटेड onboarding बनाया है - उदाहरण के लिए, एक मस्कोट के साथ एक इंटरैक्टिव ट्यूटोरियल। In this case, motivation is a key factor. Users who choose to complete the onboarding are likely already more interested in exploring the product. To measure the "pure" effect of the onboarding itself, you need to compare them with similar users. Decision Guide निर्णय मार्गदर्शिका तकनीकी नोट: (For the Advanced) : There are several ways to form pairs, each with its own trade-offs. Common methods include matching, matching, and matching . The choice depends on your data and research question. Matching Strategy Matters one-to-one one-to-many with or without replacement : After matching, you must verify that the characteristics (the covariates used to calculate the propensity score) are actually balanced between the treated and the newly formed control group. If they aren't, you may need to adjust your propensity score model or matching strategy. Always Check for Balance : The causal effect estimated with PSM is technically the "average treatment effect on the treated" (ATT). This means the result applies only to the types of users who were able to be matched, not necessarily to the entire population. The Effect is Not for Everyone : The final estimate is highly dependent on how the propensity score (the probability of treatment) was calculated. A poorly specified model will lead to biased results. The Result is Sensitive to the Model : PSM is intuitive, but sometimes simpler methods like regression adjustments or more advanced techniques (e.g., doubly robust estimators) can be more powerful or reliable. It's a good tool to have, but it's not a silver bullet. It's Not Always the Best Tool मैचिंग रणनीति मायने रखती है: जोड़ों को बनाने के कई तरीके हैं, जिनमें से प्रत्येक के अपने स्वयं के समझौते के साथ है. आम तरीकों में एक-एक मैचिंग, एक-कई मैचिंग, और प्रतिस्थापन के साथ या बिना मैचिंग शामिल हैं. विकल्प आपके डेटा और शोध प्रश्न पर निर्भर करता है. हमेशा संतुलन के लिए चेक करें: मेलिंग के बाद, आपको यह सुनिश्चित करने की आवश्यकता है कि विशेषताएं (प्रचलन स्कोर की गणना करने के लिए उपयोग की जाने वाली कवरेट) वास्तव में इलाज किए गए और नए गठन किए गए नियंत्रण समूह के बीच संतुलित हैं. यदि वे नहीं हैं, तो आपको अपनी प्रचलन स्कोर मॉडल या मेलिंग रणनीति को समायोजित करने की आवश्यकता हो सकती है. प्रभाव हर किसी के लिए नहीं है: पीएसएम के साथ अनुमानित कारण प्रभाव तकनीकी रूप से "प्रेरित व्यक्ति पर औसत उपचार प्रभाव" (एटीटी) है. इसका मतलब है कि परिणाम केवल उन उपयोगकर्ता प्रकारों पर लागू होता है जिन्हें मेल खाया जा सकता था, जरूरी नहीं कि पूरे आबादी पर। परिणाम मॉडल के प्रति संवेदनशील है: अंतिम अनुमान इस बात पर अत्यधिक निर्भर करता है कि प्रजनन स्कोर ( उपचार की संभावना) कैसे गणना की गई थी। यह हमेशा सबसे अच्छा उपकरण नहीं है: पीएसएम सहज है, लेकिन कभी-कभी पुनरावृत्ति समायोजन या अधिक उन्नत तकनीकों (उदाहरण के लिए, दोगुना मजबूत अनुमानक) जैसे सरल तरीके अधिक शक्तिशाली या विश्वसनीय हो सकते हैं। सिंथेटिक नियंत्रण (SC) जीएसटी के लिए: लक्ष्य कई अप्रिय इकाइयों को ढूंढना है जो उपचार प्राप्त करने वाले इकाइयों के समान हैं. इस पूल से, हम उन्हें एक तरह से जोड़कर एक "सांथेटिक" नियंत्रण समूह बनाते हैं जो उनके विशेषताओं को इलाज किए गए इकाइयों के समान बनाता है। This "combination" is essentially a नियंत्रण समूह (कभी-कभी "डोनर पूल" कहा जाता है) से इकाइयों का चयन किया जाता है ताकि उपचार की गई इकाई और सिंथेटिक संस्करण के बीच अंतर को कम किया जा सके। . weighted average pre-treatment period Use Case: कल्पना कीजिए कि आपका भोजन वितरण कंपनी एक पूरे शहर, जैसे मैनचेस्टर में डिलीवरी समय को कम करने के लिए एक नया एआई-आधारित रसद प्रणाली लागू कर रही है. क्लासिक ए / बी परीक्षण असंभव है क्योंकि सिस्टम सभी कूरियरों और ग्राहकों को एक ही समय में प्रभावित करता है. आप मैनचेस्टर की प्रदर्शन को किसी अन्य शहर के साथ तुलना नहीं कर सकते हैं, जैसे कि बर्मिंघम, क्योंकि अद्वितीय स्थानीय घटनाएं या आर्थिक रुझान वहां तुलना को विकृत करेंगे. वास्तविक प्रभाव को मापने के लिए, आपको एक "सांथेटिक" नियंत्रण बनाना होगा जो मैनचेस्टर के पूर्व लॉन्च रुझानों को पूरी तरह से दर्शाता है. यहां यह है कि "सिंथेटिक जुड़वा" कैसे बनाया जाता है. विधि अवधि को देखती है the launch and uses a "donor pool" of other cities (e.g., Birmingham, Leeds, and Bristol) to create the perfect "recipe" for replicating Manchester's past. By analyzing historical data on key predictors (like population or past delivery times), the algorithm finds the ideal weighted blend. It might discover, for instance, that a combination of उनके पास एक प्रदर्शन इतिहास था जो मैनचेस्टर के लिए लगभग एकदम सही मैच था। before "40% Birmingham + 35% Leeds + 25% Bristol" एक बार जब यह नुस्खा लॉक हो जाता है, तो इसका उपयोग यह प्रोजेक्ट करने के लिए किया जाता है कि नया सिस्टम के बिना क्या हुआ होगा. लॉन्च के दिन से आगे, मॉडल "सिंथेटिक मैनचेस्टर" प्रदर्शन का गणना करता है, जो नुस्खा को दानकर्ता शहरों से वास्तविक, वास्तविक समय डेटा पर लागू करता है. यह सिंथेटिक संस्करण सबसे अधिक संभावित मार्ग का प्रतिनिधित्व करता है जो वास्तविक मैनचेस्टर ले जाएगा। Decision Guide निर्णय मार्गदर्शिका तकनीकी नोट: (For the Advanced) Always inspect the weights assigned to the units in the donor pool. If one unit receives almost all the weight (e.g., 99%), your "synthetic control" has essentially collapsed into a simple (DiD) model with a single, chosen control unit. This can indicate that your donor pool is not diverse enough. Weight Transparency and Diagnostics: Difference-in-Differences The original Synthetic Control method has inspired more advanced versions. Two popular ones are: Modern Extensions Exist: An extension that allows for multiple treated units and can perform better when a perfect pre-treatment fit is not achievable. Generalized Synthetic Control (GSC): A hybrid method that combines the strengths of both synthetic controls (for weighting control units) and difference-in-differences (for weighting time periods). It is often more robust to noisy data. Synthetic Difference-in-Differences (SDID): वजन पारदर्शिता और निदान: हमेशा दानकर्ता पूल में इकाइयों के लिए आवंटित वजन की जांच करें. यदि एक इकाई लगभग सभी वजन (उदाहरण के लिए, 99%) प्राप्त करती है, तो आपका "सांथेटिक नियंत्रण" मूल रूप से एक सरल Difference-in-DiD (differences-in-DiD) मॉडल में गिर गया है, जिसमें एक एकल, चुने गए नियंत्रण इकाई है. यह इंगित कर सकता है कि आपका दानकर्ता पूल पर्याप्त विविध नहीं है. The original Synthetic Control method has inspired more advanced versions. Two popular ones are: Modern Extensions Exist: An extension that allows for multiple treated units and can perform better when a perfect pre-treatment fit is not achievable. Generalized Synthetic Control (GSC): A hybrid method that combines the strengths of both synthetic controls (for weighting control units) and difference-in-differences (for weighting time periods). It is often more robust to noisy data. Synthetic Difference-in-Differences (SDID): मतभेदों में अंतर (DID) जीएसटी के लिए: हम एक समूह लेते हैं जहां कुछ बदल गया है (उदाहरण के लिए, हमें एक नई सुविधा मिली है) और एक समूह जहां सब कुछ एक ही रहता है। The second group should be such that historically the trend of the key metric in it was the same as in the group with the feature. On the basis of this we assume that without our intervention the trends of metrics would be parallel. We look at the before and after differences in the two groups. Then we compare these two differences. (that's why the method is called Difference-in-Differences). विचार सरल है: हमारे बिना, दोनों समूह परिवर्तन के बिना एक ही विकसित करेंगे, लेकिन हमारे साथ, उनके परिवर्तनों के बीच का अंतर हमारी सुविधा को लागू करने का "नेट" प्रभाव होगा। Use Case(s): The method is very popular, let's even look at a few case studies. एक क्षेत्र (देश, शहर) नई छूट प्रणाली (या एआई सेवा) प्राप्त करता है, जबकि दूसरा नहीं है. हम दोनों के बीच बिक्री या भागीदारी में परिवर्तन की तुलना करते हैं। एक एलएलएम का उपयोग एक उत्पाद श्रेणी के लिए Google शॉपिंग के लिए एक अनुकूलित XML फ़ीड उत्पन्न करने के लिए किया जाता है. इसमें अधिक आकर्षक शीर्षक और विस्तृत उत्पाद विवरण बनाना शामिल है. एक मानक, टेम्पलेट-आधारित फ़ीड के साथ एक दूसरा, समान श्रेणी को नियंत्रण समूह के रूप में उपयोग किया जाता है. हम फिर सीटीआर या दो समूहों के बीच रूपांतरण जैसे मापों में परिवर्तन की तुलना करते हैं. समान तंत्र SEO के साथ काम कर सकते हैं. चेतावनी : A good and understandable case, but it requires careful group selection. Organic traffic trends for different categories (e.g., "laptops" and "dog food") can differ greatly due to seasonality or competitor actions. The method will be reliable if the categories are very similar (e.g., "men's running shoes" and "women's running shoes"). चेतावनी : Measuring the impact of a feature launched only on Android, using iOS users as a control group to account for general market trends. Caveat: A very common case in practice, but methodologically risky. Android and iOS audiences often have different demographics, purchasing power, and behavioral patterns. Any external event (e.g., a marketing campaign targeting iOS users) can break the parallel trends and distort the results. Caveat: Decision Guide Decision Guide तकनीकी नोट: (For the Advanced) The power of DiD lies in shifting the core assumption from the often-unrealistic "the groups are identical" to the more plausible "the groups' are identical." A simple post-launch comparison between Android and iOS is flawed because the user bases can be fundamentally different. A simple before-and-after comparison on Android alone is also flawed due to seasonality and other time-based factors. DiD elegantly addresses both issues by assuming that while the absolute levels of a metric might differ, their "rhythm" or dynamics would have been the same in the absence of the intervention. This makes it a robust tool for analyzing natural experiments. The Core Strength: trends While DiD is simple in its basic 2x2 case, it can become quite complex. Challenges arise when dealing with multiple time periods, different start times for the treatment across groups (staggered adoption), and when using machine learning techniques to control for additional covariates. Deceptive Simplicity: The problem of : the classical DiD model is ideal for cases where one group receives the intervention at one point in time. But in life, as you know, different subgroups (e.g. different regions or user groups) often receive the function at different times. and this is when applying standard DiD regression can lead to highly biased results. This is because groups already treated may be implicitly used as controls for groups treated later, which can sometimes even change the sign of the estimated effect. "Staggered Adoption" of the treatment effect: a simple DiD model implicitly assumes that the treatment effect is constant across all and over time. In reality, the effect may evolve (e.g., it may increase as users become accustomed to the feature) or vary between different subgroups. There are studies that show this and there are specific evaluation methods that take this effect into account. At least we think so until a new study comes out, right? Heterogeneity Core Strength: DiD की शक्ति अक्सर अवास्तविक "गर्मों समान हैं" से अधिक सचमुच "गर्मों के प्रवृत्तियों समान हैं" के मूल धारणा को स्थानांतरित करने में स्थित है। Android और iOS के बीच एक सरल पोस्ट लॉन्च तुलना दोषपूर्ण है क्योंकि उपयोगकर्ता आधार मूल रूप से अलग हो सकते हैं। एंड्रॉइड पर एक सरल पूर्व और बाद की तुलना भी मौसमीता और अन्य समय-आधारित कारकों के कारण दोषपूर्ण है। DiD आदर्श रूप से मानते हुए दोनों मुद्दों को संबोधित करता है कि जबकि एक मीट्रिक के पूर्ण स्तर भिन्न हो सकते हैं, उनके "रिथम" या गतिशीलता हस्तक्षेप की अनुपस्थिति में समान होंगे। While DiD is simple in its basic 2x2 case, it can become quite complex. Challenges arise when dealing with multiple time periods, different start times for the treatment across groups (staggered adoption), and when using machine learning techniques to control for additional covariates. Deceptive Simplicity: "स्टैगरेड अधिग्रहण" की समस्या : क्लासिक डीडी मॉडल उन मामलों के लिए आदर्श है जहां एक समूह एक समय में हस्तक्षेप प्राप्त करता है. लेकिन जीवन में, जैसा कि आप जानते हैं, विभिन्न उप समूह (उदाहरण के लिए, विभिन्न क्षेत्रों या उपयोगकर्ता समूहों) अक्सर अलग-अलग समय पर कार्य प्राप्त करते हैं. और यह है जब मानक डीडी पुनरावृत्ति लागू करना अत्यधिक पारंपरिक परिणामों का कारण बन सकता है. यह इसलिए है क्योंकि पहले से ही इलाज किए गए समूहों को बाद में इलाज किए गए समूहों के लिए नियंत्रण के रूप में संदिग्ध रूप से उपयोग किया जा सकता है, जो कभी-कभी अनुमानित प्रभाव के संकेत को भी बदल सकता है. उपचार प्रभाव का विरोधाभास: एक सरल डीडी मॉडल अंतर्निहित रूप से मानता है कि उपचार प्रभाव हर जगह और समय के साथ स्थिर है. वास्तव में, प्रभाव विकसित हो सकता है (उदाहरण के लिए, यह उपयोगकर्ताओं को सुविधा के लिए आदत बनने के रूप में बढ़ सकता है) या अलग-अलग उपसमूहों के बीच भिन्न हो सकता है. ऐसे अध्ययन हैं जो यह दिखाते हैं और ऐसे विशिष्ट मूल्यांकन तरीके हैं जो इस प्रभाव को ध्यान में रखते हैं। Regression Discontinuity Design (RDD) The Gist: यदि एक उपयोगकर्ता को एक कटौती मूल्य के साथ एक नियम के आधार पर एक उपचार प्राप्त होता है (उदाहरण के लिए, "100 ऑर्डर किए गए" या "1 महीने मौजूद हैं"), तो हम मानते हैं कि कटौती के तुरंत नीचे वाले उन लोगों के साथ बहुत समान होते हैं। Use Case(s): एक वफादारी कार्यक्रम प्रदान करता है to users who have spent over $1000 in a year. RDD would compare the behavior (e.g., retention, future spending) of users who spent with those who spent . A sharp difference in their behavior right at the $1000 mark would be the effect of receiving "Gold Status." "Gold Status" $1001 $999 एक ई-कॉमर्स साइट ग्राहकों को उनकी पहुंच के समय के आधार पर विभिन्न शिपिंग विकल्प प्रदान करती है। 2 दिन की शिपिंग मिलती है, जबकि कोई भी ग्राहक पहुंचता है एक 3-दिवसीय शिपिंग विंडो प्राप्त करता है. साइट चेकअप संभावना पर इस नीति के कारण प्रभाव को मापना चाहती है. before noon just after noon Decision Guide निर्णय मार्गदर्शिका तकनीकी नोट: (For the Advanced) This article focuses on , where crossing the cutoff guarantees the treatment. A variation called exists for cases where crossing the cutoff only of receiving the treatment. Sharp RDD Fuzzy RDD increases the probability The first step in any RDD analysis is to . You should plot the outcome variable against the running variable. The "jump" or discontinuity at the cutoff should be clearly visible to the naked eye. plot the data A crucial step is choosing the right , or how far from the cutoff you look for data. It's a trade-off between bias and variance: bandwidth More accurate assumption (users are very similar), but fewer data points (high variance, low power). Narrow Bandwidth: More data points (low variance, high power), but a riskier assumption (users might be too different). Wide Bandwidth: यह लेख शार्प आरडीडी पर ध्यान केंद्रित करता है, जहां कटौती का पार करना उपचार की गारंटी देता है. Fuzzy आरडीडी नामक एक बदलाव ऐसे मामलों के लिए मौजूद है जहां कटौती का पार करना केवल उपचार प्राप्त करने की संभावना बढ़ाता है। किसी भी आरडीडी विश्लेषण में पहला कदम डेटा को प्लॉट करना है. आपको चलने वाले परिवर्तनीय के खिलाफ परिणाम परिवर्तनीय को प्लॉट करना चाहिए. कटौती पर "खेल" या अस्थिरता को नंगा आंख के लिए स्पष्ट रूप से दिखाई देनी चाहिए. A crucial step is choosing the right , or how far from the cutoff you look for data. It's a trade-off between bias and variance: bandwidth More accurate assumption (users are very similar), but fewer data points (high variance, low power). Narrow Bandwidth: More data points (low variance, high power), but a riskier assumption (users might be too different). Wide Bandwidth: Bayesian Structural Time Series (BSTS) बेयज़ियन संरचनात्मक समय श्रृंखला (Bayesian Structural Time Series - BSTS) घटना से पहले के डेटा के आधार पर, मॉडल एक पूर्वानुमान बनाता है कि हमारे हस्तक्षेप के बिना क्या हुआ होगा। ऐसा करने के लिए, यह अन्य, समान समय श्रृंखला पर भरोसा करता है जो परिवर्तन से प्रभावित नहीं थे। इस पूर्वानुमान और वास्तविकता के बीच का अंतर अनुमानित प्रभाव है। हमने पहले सिंथेटिक नियंत्रण को देखा; बीएसटीएस को समान, अपरिवर्तित इकाइयों के माध्यम से प्रभाव का अनुमान लगाने के समान विचार के रूप में सोचते हैं, लेकिन . In Simple Terms: on steroids सिंथेटिक नियंत्रण से मुख्य अंतर यह है कि पूर्वानुमान का निर्माण करने के लिए, यह वजनों की बहुतायत के बजाय एक बेयज़ियन मॉडल का उपयोग करता है। Key Idea: आप एक उत्पाद श्रेणी के लिए मूल्य नीति को बदल चुके हैं. प्रभाव को मापने के लिए, मॉडल अन्य, समान श्रेणियों से बिक्री का उपयोग करता है ताकि भविष्यवाणी हो सके कि आपकी श्रेणी में बिक्री क्या होगी कीमत में बदलाव Use Case: बिना BSTS के साथ काम करने के लिए उत्कृष्ट तैयार पुस्तकालय हैं (जैसे Google का CausalImpact), जिसके साथ आप इसे कोड के 10-20 पंक्तियों में पूरा कर सकते हैं। BSTS के साथ काम करने के लिए उत्कृष्ट तैयार पुस्तकालय हैं (जैसे Google के ), जिसके साथ आप इसे कोड के 10-20 पंक्तियों में पूरा कर सकते हैं. बस परीक्षण चलाने के लिए मत भूलना (नीचे ब्लॉक देखें)। CausalImpact Instrumental Variables (IV) वैश्विक परिवर्तन (IV) A method for situations where a hidden factor (like motivation) influences both the user's choice and the final outcome. We find an external factor (an "instrument") that pushes the user towards the action but doesn't directly affect the outcome itself. In Simple Terms: केवल आवश्यक चीजों को स्थानांतरित करने के लिए एक "अनिरपेक्ष लिवर" खोजने के लिए। Key Idea: (academic) You want to measure the effect of TV ads on sales, but the ads are shown in regions where people already buy more. The मौसम हो सकता है: बारिश के दिनों में, लोग अधिक टीवी देखते हैं (और विज्ञापन देखते हैं), लेकिन मौसम स्वयं उन्हें आपके उत्पाद को खरीदने के लिए सीधे नहीं बनाता है। Use Case: instrument डबल मशीन सीखने (Double Machine Learning - DML) एक आधुनिक दृष्टिकोण जो दो एमएल मॉडल का उपयोग करके उपचार और परिणाम दोनों को सैकड़ों अन्य कारकों के प्रभाव से "सफाई" करने के लिए करता है. इस "सफाई" के बाद केवल क्या बाकी है (रसदों) का विश्लेषण करके, विधि शुद्ध कारण और प्रभाव प्रभाव पाती है. डीएमएल की मुख्य ताकत - जहां ए / बी परीक्षण करना असंभव या बहुत मुश्किल है। अक्सर ये स्वयं-सफाई स्थितियां हैं, जब उपयोगकर्ता खुद निर्णय लेते हैं कि क्या एक विशेषता का उपयोग करना है या नहीं। In Simple Terms: सभी "शोर" को हटाने के लिए एमएल का उपयोग करने के लिए और केवल शुद्ध "उत्पत्ति और प्रभाव" सिग्नल छोड़ दें। Key Idea: उदाहरण के लिए, एक fintech अनुप्रयोग में. आप एक नया प्रीमियम सुविधा लॉन्च करते हैं: एक एआई सहायक जो खर्च का विश्लेषण करता है और व्यक्तिगत बचत सलाह देता है. सेवा डिफ़ॉल्ट रूप से सक्षम नहीं है, उपयोगकर्ता को इसे सेटिंग्स में स्वयं सक्रिय करना होगा. Use Case: यह अन्य तरीकों के साथ एक साथ उपयोग करने के लिए अच्छा है और अक्सर उपयोग किया जा सकता है जब सरल दृष्टिकोण उपयुक्त नहीं हैं। यह अन्य तरीकों के साथ एक साथ उपयोग करने के लिए अच्छा है और अक्सर उपयोग किया जा सकता है जब सरल दृष्टिकोण उपयुक्त नहीं हैं। मैं कैसे सुनिश्चित करूँ कि सब कुछ सही ढंग से चल रहा है? Congratulations, you've come a long way by reading this entire review. उचित रूप से, आपके पास एक विचार हो सकता है: ये तरीके काफी जटिल हैं, मैं यह कैसे सुनिश्चित कर सकता हूं कि मैंने इसे सही तरीके से किया है? And heck, that's the most correct view. अनुमान के तरीकों की सहीता की जांच करने का सामान्य विचार निम्नलिखित में संक्षेप में है: We’re measuring the effect where it clearly shouldn’t be — just to make sure it isn’t there. आरसीई के साथ, यह काफी सरल है - हमें एक ए / ए परीक्षण की आवश्यकता है। हम अपने डिजाइन के अनुसार प्रयोग चलाते हैं: सटीक रूप से एक ही मीट्रिक, विभाजन, आदि इसके अलावा कि हम दोनों समूहों को अपनी नई सुविधा नहीं दिखाते हैं. नतीजतन, हमें उन दोनों के बीच कोई अंतर नहीं देखना चाहिए। लेकिन क्वास-इस्पेस थोड़ा अधिक जटिल हैं. विधियों में से प्रत्येक की अपनी विशिष्टता है और कार्यान्वयन की सहीता की जांच करने के लिए अपने स्वयं के विशेष तरीकों को शामिल कर सकते हैं. यहां हम अपेक्षाकृत सार्वभौमिक तरीकों के बारे में बात करेंगे, जिन्हें मैं ज्यादातर मामलों में अनुशंसा करता हूं। Robustness की जांच यह सुनिश्चित करने के लिए कि हमने पाया है कि प्रभाव एक दुर्घटना या मॉडल त्रुटि नहीं है, हम एक श्रृंखला "स्ट्रेस टेस्ट" करते हैं। विचार एक ही है: हम उन स्थितियों का निर्माण करते हैं जहां प्रभाव नहीं होना चाहिए. यदि हमारा तरीका इसे वहां भी नहीं पाता है, तो परिणाम में हमारी भरोसा बढ़ जाती है. Here are some key checks: Placebo Tests Placebo परीक्षण यह परीक्षण आपके डेटासेट के भीतर अन्य वस्तुओं की तुलना में आपके प्रभाव की अद्वितीयता की जांच करता है। उदाहरण के लिए, सिंथेटिक नियंत्रण विधि लीजिए. हमारे पास एक "प्रेरित" विषय है (जो प्रकट किया गया था) और एक नियंत्रण समूह में कई "सफाई" विषय हैं (कोई प्रवाह नहीं है). हम बदले में दावा करते हैं कि नियंत्रण समूह में प्रत्येक वस्तु को प्रभावित किया गया था, और उनके लिए हमारे "सफाई नियंत्रण" का निर्माण करते हैं। How to do: एक आदर्श दुनिया में, इन सभी "फैक्स" परीक्षणों के लिए, हमें अपने वास्तविक मामले के रूप में एक मजबूत प्रभाव नहीं देखना चाहिए। What to expect: यदि हमारी विधि उन विषयों में महत्वपूर्ण प्रभाव पाती है जहां कुछ भी नहीं हुआ, तो यह भी संभव है कि हमारा मुख्य निष्कर्ष सिर्फ शोर या सांख्यिकीय असामान्यता है, न कि एक वास्तविक प्रभाव। Why it's needed: In-time Placebo उदाहरण के लिए, यदि वास्तविक विज्ञापन अभियान 1 मई को शुरू हुआ, तो हम मॉडल को बताते हैं कि यह 1 अप्रैल को शुरू हुआ जब वास्तव में कुछ भी नहीं हुआ। How to do it: मॉडल को इस नकली तारीख पर कोई अर्थपूर्ण प्रभाव नहीं पाना चाहिए। What to expect: This helps ensure that the model is responding to our event and not to random fluctuations in the data or some seasonal trend that coincidentally occurred on the date of our intervention. Why: अंतरिक्ष में Placebo This test checks the reliability of your model by testing it for its tendency to produce false positives on completely independent data. यदि आपके पास आपके लक्षित डेटा के समान डेटा है, लेकिन यह निश्चित रूप से हस्तक्षेप से प्रभावित नहीं था, तो इसका उपयोग करें. उदाहरण के लिए, आपने एक क्षेत्र में एक प्रचार शुरू किया. किसी अन्य क्षेत्र से बिक्री डेटा लें जहां प्रचार नहीं हुआ था और इसके लिए अपने मॉडल को उसी वास्तविक हस्तक्षेप की तारीख के साथ लागू करें. How to do: मॉडल को इस "नियंत्रण" डेटा के लिए कोई प्रभाव नहीं पाना चाहिए। What to expect: यदि आपका मॉडल हर जगह प्रभाव पाता है जहां आप इसे लागू करते हैं, तो आप लक्ष्य श्रृंखला पर इसके निष्कर्षों पर भरोसा नहीं कर सकते। Why: निर्णय का नक्शा (उत्तरों के बजाय निष्कर्षों) यदि आपने यहां तक पढ़ा है (या स्क्रॉल किया है), तो मुझे लगता है कि आपको एक सुविधा के एआई / एमएल कार्यान्वयन के परिणामों को मापने के लिए इतना महत्वपूर्ण क्यों है, इसके एक और अच्छे संदर्भ की आवश्यकता नहीं है। यह आपके लिए बहुत अधिक मूल्यवान है यदि आपको एक उपयोगी निर्णय लेने का उपकरण मिलता है. और मेरे पास एक है. ढांचे इस तरह दिखते हैं। AB परीक्षण के माध्यम से मापें एबी परीक्षण के माध्यम से मापें. गंभीरता से। RCE को लागू करने के लिए अलग-अलग विभाजित इकाइयों और क्लस्टर के बारे में सोचें। नीचे एक धोखाधड़ी है कि आपके लिए कौन सा सही है जल्दी से पता लगाने के लिए एक कारण निर्धारण विधि चुनने के बारे में। Go back to the part of the article where I explain it in layman's terms. इसके बाद, इस विधि पर मैनुअल और गाइड पर जाएं उपयोगी सामग्री: इस लेख को लिखने में इस्तेमाल किया और विषय में गहराई से डूबने के लिए अत्यधिक अनुशंसित एआई / एमएल समाधान बनाने के पूरे चक्र को समझें के और Machine Learning System Design वैलेरी बाबुशकिन Arseny Kravchenko RCE की दुनिया में रास्ता Ron Kohavi, Diane Tang और Ya Xu विश्वसनीय ऑनलाइन नियंत्रित प्रयोग जहाँ के कारणों को विस्तार से समझने के लिए: Miguel Hernan और Jamie Robins - Causal Inference: What If बहादुर और सच्चे के लिए कारण का निष्कर्ष एमएल किताब के कारण