좋아하든 싫어하든 현실은 이것입니다 : 귀하의 제품이나 기능이 AI / ML을 사용한다는 사실만으로는 충분하지 않습니다. 적어도 당신이 지속적이고 긍정적 인 효과를 원한다면 그렇지 않습니다. 히프와 바이러스 바즈 외에도 비즈니스는 여전히 이익, ROI 및 성장 계수에 관한 것입니다. 대부분의 경우 그것의 본질입니다. 이는 우리가이 프로젝트를 구축하는 사람들에게 AI / ML의 영향을 측정하는 방법을 아는 것이 필수적이라는 것을 의미합니다. 이 기사에서는 AI 채택의 효과를 측정하고 이러한 방법이 어떻게 작동하는지 이해하는 데 도움이되는 도구 키트를 살펴볼 것입니다.나는 많은 것을 단순화하고 많은 세부 사항을 커튼 뒤에 (또는 별도의 섹션을 위해) 유지할 것입니다. 끝까지, 당신은 당신의 프로젝트가 비즈니스에 미치는 영향을 측정하는 주요 접근 방식을 이해할 수있을 것입니다.당신은 방법의 거친지도와 자신을 지향하는 방법을 알고있을 것입니다 - 무엇이 당신의 경우에 가장 적합합니다.그곳에서,당신은 더 깊은 다이빙을 준비 할 것입니다. Narrative Map - 당신의 항해를 돕기 위해 우리는 기본 사항 - 왜 그리고 언제 측정할 가치가 있는지 시작할 것입니다. 그런 다음 무엇이 잘못 될 수 있으며 왜 모든 변화가 실험을받을 가치가있는지 살펴 보겠습니다. 거기에서 우리는 금 표준 - A / B 테스트 -과 당신이 하나를 실행할 수없을 때해야 할 일에 뛰어들 것입니다. 마지막으로, 우리는 실험을 넘어 원인 추론 방법에 갈 것입니다 - 그리고 당신이 찾는 것을 신뢰하는 방법. 영향을 측정 : 왜, 언제, 어떻게 하지 않는가 When it’s worth measuring 측정할 가치가 있을 때 첫째, 당신이 실제로 괴롭히고 싶은 주요 이유. Risk & Value 우리는 이미 처음에 가치에 닿았습니다.우리는 특징이 추가 투자를 정당화하기에 충분한 성과를 제공하는지 측정하고 싶습니다. 얼마나 많은, 미래가 어떻게 될 것인가. 그러나 중요한 요소를 잊지 마십시오 - 당신의 빛나는 새로운 변화가 실제로 상황을 악화시킨다면 - 전환율이 떨어졌고, 사용자는 좌절하고, 돈이 적습니다. 실패를 피하는 것은 반대편을 잡는 것보다 더 중요할 수 있다. risk management. 확실히 Innovation Agile 초기부터 제품 개발은 빠른 반복, 시장 무기 경주, 제품과 시장에 맞는 무한한 검색에 관한 것이었습니다.기업은 경쟁력을 유지하기 위해 동시에 수십 가지 일을하고, 당신은 단순히 좋은 것들 중에서 진정한 훌륭한 솔루션을 우선 순위에 두고 싶을 수도 있습니다. Optimization 의식적이고 측정 주도적인 접근의 아름다움은 당신이 더 깊이 파는 것을 허용한다는 것입니다. 아마도 수익은 즉시 점프하지 않았지만 사용자는 새로운 기능을 좋아하고 매일 그것을 사용합니다. 어쩌면 그것은 특정 세그먼트와 호소하지만 다른 사람들을 귀찮게합니다.이와 다른 아이디어는 추가적인 최적화를위한 기회를 열어줍니다. 자연 Organization 당신은 "데이터 주도"에 대해 이야기하는 장소에서 일하고 있습니까?또는 아마도 당신은 실제로 당신이 설정한 목표를 향해 당신을 이끌어 낸 결과를 확인하는 방법을 배우고, 효과를 측정하는 방법을 배우고 싶어하는 곳입니다. When Not to Test 테스트를 하지 않을 때 이 말은, 거기 실험이 의미가없는 경우 - 또는 전혀 불가능합니다. 그들은 Methodological limits 때때로 방법을 적용하는 것은 단순히 불가능합니다. 결과를 얻을 수있는 데이터는 너무 적습니다. 변화는 감지하기에 너무 작습니다.또는 무엇이 개선되어야하는지에 대한 가설이 전혀 없습니다. Non-optional work 일부 변경 사항은 필수입니다.법적 또는 준수 요구 사항은 고전적인 경우입니다.AI 특정한 것이 아니라 명확합니다 : GDPR에 준수해야하며 제품을 접근성에 적응해야합니다.당신은 여기에 변환 엘리베이터를 기대하지 않습니다.당신이해야하기 때문에 그렇게합니다. 똑같은 경우를 위해 사이트가 502 오류를 반환하지 않습니다. critical fixes or infrastructure updates. Ethical red lines 일부 측정 관행은 윤리적 경계를 넘어 사용자 손상 또는 조작 디자인의 위험을 감수합니다. 재정적 손실을 유발하거나 사용자 데이터를 타협 할 수있는 실험을 생각하십시오. Better alternatives 때때로 그것은 단순히 가치가 없습니다. 측정에 지출 된 노력이 (자원) 가치 그 자체보다 높을 수 있다면, 그것을 건너 니다. The simplest example: young, fast-moving startups with only a handful of clients are usually better off chasing product–market fit through short iterations and direct user feedback. By the time they’d run a full A/B test, they could have built something much better already. How not to measure 이전 / 후 Intuitively, the urge is to do the following: 어떻게 됐는지 보세요~ 새로운 기능을 출시하기 지금은 어떻게 되는지 보세요~ 긍정적인 결과 보기 이익 그러나 "지금은 더 좋아 보인다"는 어두운 측면이 있습니다.많은 것들이 시간이 지남에 따라 변화합니다 ( 시즌, 외부 사건, 교통 변화). 환경 변화와 특징 영향을 혼동합니다. Core issue: YoY (Year-over-Year) 비교 이 친숙하고 전통적인 비즈니스 트릭은 "우리는 전체적으로 비즈니스로 성장하고 있습니까?"라는 질문에 대답하기에 완벽합니다. 그리고 그것은 많은 상황에서 유용하지만 기능의 구현이나 개선에 대한 고립된 평가에서는 유용하지 않습니다. 올해 비즈니스에서 얼마나 많은 일이 일어났는지 상상해보십시오. 마케팅 담당자, SEO, 영업 담당자, 당신의 이름 - 당신 주변의 모든 사람들이 성장을 보장하기 위해 피곤하게 노력했습니다. 우리 주변의 세계는 멈추지 않습니다. 관세, Covid-19 및 전쟁이 일어나고 있습니다. 블로거와 유명 인사들은 자신의 의견을 표현합니다. TikTok 트렌드는 소비자 행동을 변화시키고 있으며 경쟁자도 그들의 역할을하고 있습니다. 그러나 올해 1 월 매출의 10 % 증가는 AI 채팅봇 덕분에만 발생했습니다 (심각하게?). 너무 긴 창 - 수십 개의 다른 변화가 동시에 발생합니다. YoY 차이는 모든 것을 반영합니다. Core issue: 연관성 > 원인 당신은 아마도 "연관성은 원인을 의미하지 않는다"라는 말을 들었을 것입니다.하지만 실제로 그것은 무엇을 의미합니까? AI 채팅 봇을 시작한 후 약간의 시간이 지나면 완료 된 구매 수가 증가합니다. 채팅 봇이 증가를 일으켰던 것처럼 들립니다, 맞습니까? 아마도 - 또는 아마도 그렇지 않습니다. 사용과 결과가 함께 움직일 때 원인과 결과처럼 보입니다. 그러나 동시에 마케팅 팀이 새로운 캠페인을 시작했습니다. 또는 계절 상승이 있었고, 올해는 항상 판매 상승이었습니다. 또는 경쟁자가 재고를 잃었습니다. 또는 ... 당신은 알고 있습니다. 많은 이유가있을 수 있습니다. 그리고 그들은 모두 함께 숫자에 영향을 미칠 수 있습니다. 어려운 부분은 데이터가 두 가지 일들이 동시에 일어나고 있기 때문에 유사하게 보일 수 있다는 것입니다.우리의 두뇌는 패턴을 인식하는 데 좋지만 비즈니스는 병렬 이벤트와 소음으로 가득합니다.우리가 우연과 원인을 분리하지 않으면 성공에 책임이없는 기능에 더 많이 투자하는 것과 같은 나쁜 결정을 내릴 위험이 있습니다. 상관 관계는 단지 두 가지가 동시에 변했음을 보여주지만, 하나가 다른 것을 일으켰다는 것을 약속하지는 않습니다. Core issue: 산업의 황금 표준 - 무작위 통제 실험 (Randomized Controlled Experiments (RCE) 10 번 중 10 번은 당신이 여기에 있고 싶습니다. 다행히 10 번 중 8-9 번은 당신이 여기에있을 것입니다.그리고 RCE가 충분하지 않기 때문에이 기사가 발생했습니다. 그럼에도 불구하고, 좋은 것들로부터 시작하자. 클래식 A/B 테스트 당신은 아마도이 방법에 익숙합니다.그것은 다음과 같이 요약됩니다 : For example, that the description of goods and services generated with GenAI will be as good (or better) than the one written by a human. Or the block “Customers Also Bought / Frequently Bought Together” in an online store will stimulate customers to buy more staff. Personalized emails engage users more. And so on. We form a hypothesis. by which to determine the success/failure of the hypothesis. Define one or more metrics Consider possible cycles of product use. Calculate the sample size and duration of the experiment. into two (or more) groups and . The control group (a) sees the product without the new feature, and the experimental group sees the new version of the product containing the change we are testing. We check that the groups differ only in the presence or absence of the new feature. Randomly split the traffic run the experiment . We apply statistical methods, calculate the difference in metrics and make sure that it is statistically significant. Stage 0 could be an A/A test (when both groups see the same version of the product and we do not see any difference in their behavior) to make sure that the traffic separation and methodology works correctly Analysis Based on the analysis, a decision is made: use, refine or reject. Decision making and iteration. Its magical, wonderful world where there is a lot of control, a chance to double-check yourself, to measure your confidence in your results. Plenty of learning resources and experienced colleagues around. What could possibly go wrong? The main reasons why we will have to give up cozy classical AB tests: 1. is when the behavior of one group affects another. That means the control group also changes - even though it shouldn't. Spillover Effect A textbook example is the Facebook friend recommendation block. We hope that it will help users build social connections. Let's imagine that group A doesn't have such a block, but group B sees it. User John from group B sees such a block, sees user Michael from group A in it, and adds him as a friend. Both users have +1 friend, although Michael should have been in a group that is not affected by the tested feature. Let's look at a few different examples where the might occur Spillover Effect or . If we have very few users (unpopular part of the product, B2B, etc.) or we work with a very rare event (buying a very expensive product or someone actually read the Terms & Conditions). In such cases, it will take a huge amount of time to get a little bit significant result. 2. Few users rare events . If we launch a change that affects the environment and cannot be isolated to individual users. For example, we are testing an advertising auction algorithm - prices will change for all advertisers, not just for those we try to isolate into an experimental group. 3. Impact on external factors . Our chip can change the composition of groups. For example, it repels or attracts certain types of users. For example, if a new feature starts to attract newcomers (this is not our goal) and increases their share in the test group, while in the control group it remains unchanged - the groups will not be comparable. 4. Brand's Effect 좋은 소식은 문제의 일부는 기본적으로 동일한 기계를 사용하여 RCE 밖으로 가지 않고 해결된다는 것입니다. There’s more to split than traffic! 교통보다 나누어야 할 것이 더 많습니다! 위의 문제 중 일부는 전체 테스트 디자인의 일부만 변경하여 해결할 수 있습니다. 많은 요약과 분석가에 따르면, 다른 공동 조종사와 조수는 LLM 기반 제품의 상단에 나옵니다.그들은 인기를 선도하고 "생존률", 즉 MVP보다 더 오래 살 수있는 기회가 있습니다. 이 유형의 프로젝트의 공통적인 특징은 직원 작업을 단순화 / 가속화하도록 설계된 솔루션이 있다는 것입니다. 그것은 콜 센터 운영자, 판매 사람, 금융 사람 등등이 될 수 있습니다.하지만 대부분의 경우 우리는 그들을 두 그룹으로 나누고 콜로보트와 함께 및없이 그들의 속도 / 효율을 측정 할 수있는 많은 직원이 없습니다. 여기서 ( 실험의 일환으로, 연구자들은 AI 도구의 사용이 엔지니어의 작업에 어떻게 영향을 미치는지보고 싶었습니다.그들이 현대적인 무기를 부여받았다면 작업을 더 빨리 마무리 할 것입니까?그러나 실험에는 16 명의 개발자가 참여했는데, 이는 자신감있는 결과를 얻을 수 있기를 희망하기에 충분히 작습니다. 링크 대신 작가들은 분리되어 그리고 완료 시간을 비교.그래서 여기에 샘플은 16 개발자가 아니라 246 작업입니다.그것은 여전히 거대한 샘플이 아닙니다,하지만 : tasks P 값은 괜찮습니다. The authors analyzed and marked up screen recordings, conducted interviews. In short, they did qualitative research. When the results of qualitative and quantitative research are consistent it is a strong signal. 당신은 위의 링크에서 방법론의 결과와 세부 사항을 읽을 수 있습니다.하지만 지금 우리에게 중요한 것은 우리의 주제의 틀 내에서 결론을 내리는 것입니다, 우리는이 연구 자체에 관심이 없습니다, 그러나 접근법의 이해할 수있는 예입니다. Let’s give this idea a skeleton. AI Copilots (Contact Centers / Dev Teams / etc) Case: Why not user-split? 여기서 “사용자”는 에이전트/데브, 소규모 인구 + 유출(공유 매크로, 코칭, Shift Effects)입니다. Instead, randomize: 티켓 / 대화 (섭취시 치료를 할당하십시오). 또는 클러스터로서의 꼬리 / 의도 (리딩, 기술, 반환 등). 채널(chat/email/voice) 및 Priority/SLA; 모니터 자동화 편견; 클러스터-robust SE로 분석 Design notes: 이 원칙을 이해하면 다른 엔터테인먼트에도 적용할 수 있습니다.당신은 시간, 지리적 위치 등을 분할할 수 있습니다. 이 원칙을 이해하면 다른 엔터테인먼트에도 적용할 수 있습니다.당신은 시간, 지리적 위치 등을 분할할 수 있습니다. 나는 클래식 AB 테스트가 적합하지 않을 수있는 또 다른 종류의 작업에 대한 메모를 남기겠다 - 가격 알고리즘. 동적 가격 (Retail) Case: Why not user-split? 상점에서 다른 사람들에게 다른 가격을 보여주는 것은 불가능합니다 (그리고 혼란 스럽습니다). 온라인은 종종 불법 / 비 윤리적이며 공정성 문제를 유발합니다. Instead, randomize: 시간 (switchback) 동일한 SKU × 스토어 (예를 들어, Shifts/days) (선택) 클러스터 - SKU × 스토어 (또는 스토어 클러스터), 카테고리 / 트래픽에 따라 계층화 균형 일주일 / 계절; 클러스터 robust SE를 사용; 프로모션 / 주식 중복에 대한 경계. Design notes: 랜덤화가 옵션이 아닌 경우 모든 사람에게 이미 실행되었거나 컨트롤 그룹으로 실험을 실행할 수 없을 때 핵심 AI 기능의 영향을 어떻게 측정합니까? We’ve established that RCE is the gold standard for a reason, but the clean world of controlled experiments often gives way to the messy reality of business. As we've seen, not all limitations of RCE can be solved even with specialized techniques. 조만간 모든 제품 팀은 고전적인 A/B 테스트가 대답할 수 없는 중요한 질문에 직면하게 된다. 가장 인기있는 것들 중 일부를 탐험하고 그들의 본질을 캡처하려고합시다. 메서드 Overview Propensity Score Matching (PSM) GIST 는 : 치료에 노출이 무작위가 아니었을 때 (예를 들어, 사용자가 개발한 기능을 사용하는지 여부를 스스로 결정할 때)이 방법을 고려할 수 있습니다.처리를받은 각 사용자에 대해, 우리는 그 효과를 결정하기 위해 이러한 쌍을 비교합니다. Use Case: 예를 들어 마스코트가있는 대화형 튜토리얼을 사용하여 제품에 대해 매우 멋지고 게임화 된 탑재를 만들었다고 상상해보십시오.You expect this to impact future user efficiency and retention. 이 경우, 동기 부여가 핵심 요소입니다.온보딩을 완료하기로 선택한 사용자는 이미 제품을 탐구하는 것에 더 관심이 있습니다.온보딩 자체의 "순수한"효과를 측정하려면 유사한 사용자와 비교해야 합니다. Decision Guide Decision Guide 기술적 노트 : (For the Advanced) : There are several ways to form pairs, each with its own trade-offs. Common methods include matching, matching, and matching . The choice depends on your data and research question. Matching Strategy Matters one-to-one one-to-many with or without replacement : After matching, you must verify that the characteristics (the covariates used to calculate the propensity score) are actually balanced between the treated and the newly formed control group. If they aren't, you may need to adjust your propensity score model or matching strategy. Always Check for Balance : The causal effect estimated with PSM is technically the "average treatment effect on the treated" (ATT). This means the result applies only to the types of users who were able to be matched, not necessarily to the entire population. The Effect is Not for Everyone : The final estimate is highly dependent on how the propensity score (the probability of treatment) was calculated. A poorly specified model will lead to biased results. The Result is Sensitive to the Model : PSM is intuitive, but sometimes simpler methods like regression adjustments or more advanced techniques (e.g., doubly robust estimators) can be more powerful or reliable. It's a good tool to have, but it's not a silver bullet. It's Not Always the Best Tool Matching Strategy Matters: 커플을 형성하는 여러 가지 방법이 있으며, 각각 자신의 거래와 관련이 있습니다.일반적인 방법은 하나에 하나의 일치, 하나에 많은 일치 및 교체와 일치하는 것을 포함합니다. 항상 균형을 확인하십시오 : 일치 한 후, 특성 (전향 점수를 계산하는 데 사용되는 커바리아트)이 실제로 처리 된 컨트롤 그룹과 새로 형성 된 컨트롤 그룹 사이에 균형을 유지하는지 확인해야합니다. PSM에 의해 추정되는 원인 효과는 기술적으로 "치료받는 사람에 대한 평균 치료 효과" (ATT)입니다.이 결과는 반드시 전체 인구에 적용되지 않는 사용자 유형에만 적용됩니다. 결과는 모델에 민감하다: 최종 추정은 경향 점수(치료 가능성)가 어떻게 계산되었는지에 크게 의존한다. 그것은 항상 최고의 도구가 아닙니다 : PSM은 직관적이지만 때로는 회귀 조정이나 더 진보 된 기술 (예를 들어, 두 배 강력한 추정기)와 같은 간단한 방법이 더 강력하거나 신뢰할 수 있습니다. Syntetic Control (SC) GIST 는 : The goal is to find several untreated units that are similar to the one that received the treatment. From this pool, we create a "synthetic" control group by combining them in a way that makes their characteristics closely resemble the treated unit. 이 ‘연합’은 기본적으로 A 컨트롤 그룹의 단위 (종종 "기증자 풀"이라고 부른다) 중량은 치료 단위와 합성 버전 사이의 차이를 최소화하기 위해 선택됩니다. . weighted average pre-treatment period Use Case: Imagine your food delivery company is implementing a new AI-based logistics system to reduce delivery times across an entire city, like Manchester. A classic A/B test is impossible because the system affects all couriers and customers at once. You also can't simply compare Manchester's performance to another city, such as Birmingham, because unique local events or economic trends there would skew the comparison. To measure the true impact, you need to build a "synthetic" control that perfectly mirrors Manchester's pre-launch trends. 이 방법은 "합성 쌍둥이"를 구축하는 방법입니다.The method looks at the period 맨체스터의 과거를 복제하기위한 완벽한 "제법"을 만들기 위해 다른 도시 (예를 들어, 버밍엄, 리드스, 브리스톨)의 "donor pool"를 사용합니다. by analyzing historical data on key predictors (like population or past delivery times), the algorithm finds the ideal weighted mix. had a performance history that was a near-perfect match for Manchester's own. before "40% Birmingham + 35% Leeds + 25% Bristol" 이 조리법이 잠겨있을 때, 그것은 새로운 시스템 없이는 무슨 일이 일어날 것인지 예측하는 데 사용됩니다. 출시 날부터 모델은 기증 도시의 실제, 실시간 데이터에 대한 조리법을 적용하여 "합성 맨체스터"의 성능을 계산합니다.이 합성 버전은 실제 맨체스터가 취한 가장 가능성이 높은 경로를 나타냅니다.진짜 맨체스터의 향상된 배달 시간과 합성 쌍둥이의 성능 사이의 차이는 새로운 AI 시스템의 진정한 고립 된 효과입니다. Decision Guide 결정 가이드 Technical Notes: (For the Advanced) Always inspect the weights assigned to the units in the donor pool. If one unit receives almost all the weight (e.g., 99%), your "synthetic control" has essentially collapsed into a simple (DiD) model with a single, chosen control unit. This can indicate that your donor pool is not diverse enough. Weight Transparency and Diagnostics: Difference-in-Differences The original Synthetic Control method has inspired more advanced versions. Two popular ones are: Modern Extensions Exist: An extension that allows for multiple treated units and can perform better when a perfect pre-treatment fit is not achievable. Generalized Synthetic Control (GSC): A hybrid method that combines the strengths of both synthetic controls (for weighting control units) and difference-in-differences (for weighting time periods). It is often more robust to noisy data. Synthetic Difference-in-Differences (SDID): 무게 투명성 및 진단: 기증자 수용소의 단위에 할당 된 무게를 항상 검사합니다. 한 단위가 거의 모든 무게 (예를 들어, 99 %)를받는 경우, 귀하의 "합성 제어"는 기본적으로 단일 선택된 제어 단위로 간단한 차이 (DiD) 모델로 붕괴되었습니다. The original Synthetic Control method has inspired more advanced versions. Two popular ones are: Modern Extensions Exist: An extension that allows for multiple treated units and can perform better when a perfect pre-treatment fit is not achievable. Generalized Synthetic Control (GSC): A hybrid method that combines the strengths of both synthetic controls (for weighting control units) and difference-in-differences (for weighting time periods). It is often more robust to noisy data. Synthetic Difference-in-Differences (SDID): 차이점 차이점 (DID) GIST 는 : We take a group where something has changed (e.g., we got a new feature) and a group where everything remains the same. 두 번째 그룹은 역사적으로 키 메트릭의 추세가 특징을 가진 그룹과 동일해야합니다.이를 바탕으로 우리는 우리의 개입이 없이는 메트릭의 추세가 병렬 될 것이라고 가정합니다.우리는 두 그룹의 전후 차이를보고 있습니다.그런 다음이 두 차이를 비교합니다. (이런 이유로이 방법은 Difference-in-Differences라고합니다). 아이디어는 간단합니다 : 우리 없이는 두 그룹은 변화없이 동일하게 발전했을 것이지만, 우리와 함께, 그들의 변화의 차이는 우리의 기능을 구현하는 "넷"효과가 될 것입니다. Use Case(s): 이 방법은 매우 인기가 있습니다, 심지어 몇 가지 사례 연구를 살펴 보자. 한 지역 (국가, 도시)은 새로운 할인 시스템 (또는 AI 서비스)을 얻고 다른 지역은 그렇지 않습니다. LLM은 하나의 제품 카테고리에 대한 Google 쇼핑에 대한 최적화된 XML 피드를 생성하는 데 사용됩니다. 이것은 더 매력적인 제목과 상세한 제품 설명을 만드는 것을 포함합니다. 표준, 템플릿 기반 피드와 같은 두 번째 카테고리는 제어 그룹으로 사용됩니다. 경고 : 좋은 그리고 이해할 수 있는 사례이지만 신중한 그룹 선택이 필요합니다. 다른 카테고리의 유기적 트래픽 트렌드 (예를 들어, "노트북" 및 "개 음식")는 계절성 또는 경쟁자의 행동으로 인해 크게 다를 수 있습니다. 경고 : Measuring the impact of a feature launched only on Android, using iOS users as a control group to account for general market trends. Caveat: A very common case in practice, but methodologically risky. Android and iOS audiences often have different demographics, purchasing power, and behavioral patterns. Any external event (e.g., a marketing campaign targeting iOS users) can break the parallel trends and distort the results. 경고 : Decision Guide Decision Guide 기술적 노트 : (For the Advanced) The power of DiD lies in shifting the core assumption from the often-unrealistic "the groups are identical" to the more plausible "the groups' are identical." A simple post-launch comparison between Android and iOS is flawed because the user bases can be fundamentally different. A simple before-and-after comparison on Android alone is also flawed due to seasonality and other time-based factors. DiD elegantly addresses both issues by assuming that while the absolute levels of a metric might differ, their "rhythm" or dynamics would have been the same in the absence of the intervention. This makes it a robust tool for analyzing natural experiments. The Core Strength: trends While DiD is simple in its basic 2x2 case, it can become quite complex. Challenges arise when dealing with multiple time periods, different start times for the treatment across groups (staggered adoption), and when using machine learning techniques to control for additional covariates. Deceptive Simplicity: The problem of : the classical DiD model is ideal for cases where one group receives the intervention at one point in time. But in life, as you know, different subgroups (e.g. different regions or user groups) often receive the function at different times. and this is when applying standard DiD regression can lead to highly biased results. This is because groups already treated may be implicitly used as controls for groups treated later, which can sometimes even change the sign of the estimated effect. "Staggered Adoption" of the treatment effect: a simple DiD model implicitly assumes that the treatment effect is constant across all and over time. In reality, the effect may evolve (e.g., it may increase as users become accustomed to the feature) or vary between different subgroups. There are studies that show this and there are specific evaluation methods that take this effect into account. At least we think so until a new study comes out, right? Heterogeneity 핵심 강도 : DiD의 힘은 종종 비현실적인 "그룹은 동일하다"라는 핵심 가정에서 더 확실한 "그룹의 추세는 동일하다"로 전환하는 데 있습니다. Android와 iOS 사이의 간단한 출시 후 비교는 사용자 기반이 근본적으로 다를 수 있기 때문에 결함이 있습니다. 안드로이드에서만 간단한 이전과 후 비교는 계절성 및 기타 시간 기반 요소로 인해 결함이 있습니다. DiD는 측정의 절대 수준이 다를 수 있지만 " 리듬"또는 역학은 개입이 없었을 때 동일할 수 있습니다. While DiD is simple in its basic 2x2 case, it can become quite complex. Challenges arise when dealing with multiple time periods, different start times for the treatment across groups (staggered adoption), and when using machine learning techniques to control for additional covariates. Deceptive Simplicity: The problem of : the classical DiD model is ideal for cases where one group receives the intervention at one point in time. But in life, as you know, different subgroups (e.g. different regions or user groups) often receive the function at different times. and this is when applying standard DiD regression can lead to highly biased results. This is because groups already treated may be implicitly used as controls for groups treated later, which can sometimes even change the sign of the estimated effect. "Staggered Adoption" of the treatment effect: a simple DiD model implicitly assumes that the treatment effect is constant across all and over time. In reality, the effect may evolve (e.g., it may increase as users become accustomed to the feature) or vary between different subgroups. There are studies that show this and there are specific evaluation methods that take this effect into account. At least we think so until a new study comes out, right? Heterogeneity Regression Discontinuity Design (RDD)에 해당되는 글 1건 GIST 는 : 사용자가 절단 값을 가진 규칙에 근거한 치료를받는 경우 (예를 들어, "100 개의 주문을 했습니다"또는 "1 개월 존재합니다") 우리는 절단 밑에있는 사용자가 99 개의 주문을 가진 사용자가 101 개의 주문을 가진 사용자와 거의 동일하다고 가정합니다. Use Case(s): 충성도 프로그램 제공 RDD는 1년에 1천 달러 이상을 지출한 사용자에 대한 행동(예를 들어, 보유, 미래 지출)을 비교할 것입니다. with those who spent $1000 마크에서 그들의 행동에 대한 눈에 띄는 차이는 "Gold Status"을받는 효과가 될 것입니다. "Gold Status" $1001 $999 전자 상거래 사이트는 고객에게 도착 시간에 따라 다른 배송 옵션을 제공합니다. 2일 배송, 고객이 도착할 때 3 일 배송 창을 얻습니다.이 사이트는 체크 아웃 확률에 대한이 정책의 원인 효과를 측정하고자합니다. before noon just after noon Decision Guide 결정 가이드 기술적 노트 : (For the Advanced) This article focuses on , where crossing the cutoff guarantees the treatment. A variation called exists for cases where crossing the cutoff only of receiving the treatment. Sharp RDD Fuzzy RDD increases the probability The first step in any RDD analysis is to . You should plot the outcome variable against the running variable. The "jump" or discontinuity at the cutoff should be clearly visible to the naked eye. plot the data A crucial step is choosing the right , or how far from the cutoff you look for data. It's a trade-off between bias and variance: bandwidth More accurate assumption (users are very similar), but fewer data points (high variance, low power). Narrow Bandwidth: More data points (low variance, high power), but a riskier assumption (users might be too different). Wide Bandwidth: 이 문서는 절단을 건너면 치료를 보장하는 Sharp RDD에 초점을 맞추고 있습니다.Fuzzy RDD라고 불리는 변형은 절단을 건너면 치료를받을 확률을 증가시킵니다. 모든 RDD 분석의 첫 번째 단계는 데이터를 계획하는 것입니다.당신은 실행 변수에 대한 결과 변수를 계획해야합니다.Cutoff에서 " 점프"또는 중단은 빈 눈에 명확하게 볼 수 있어야합니다. A crucial step is choosing the right , or how far from the cutoff you look for data. It's a trade-off between bias and variance: bandwidth More accurate assumption (users are very similar), but fewer data points (high variance, low power). Narrow Bandwidth: More data points (low variance, high power), but a riskier assumption (users might be too different). Wide Bandwidth: Bayesian Structural Time Series (BSTS) Bayesian Structural Time Series (BSTS) 이벤트 전 데이터를 기반으로 모델은 우리의 개입없이 일어날 것에 대한 예측을 구축합니다.이를 위해, 그것은 변화에 영향을받지 않은 다른, 유사한 시간 시리즈에 의존합니다.이 예측과 현실 사이의 차이점은 예상 효과입니다.우리는 이전에 합성 제어를 보았습니다; 비슷한 영향을받지 않은 단위를 통해 영향을 추정하는 동일한 아이디어로 BSTS를 생각하지만, . In Simple Terms: 스테로이드 귀하의 기능이 존재하지 않았던 "대체 우주"를 구축하려면 합성 제어와의 주요 차이점은 예측을 구축하기 위해, 그것은 무게의 복제 대신 바이에시 모델을 사용한다는 것입니다. Key Idea: You changed the pricing policy for one product category. To measure the effect, the model uses sales from other, similar categories to forecast what the sales in your category would have been 가격이 달라진다 Use Case: 없음 BSTS (Google의 CausalImpact와 같은)와 함께 작업 할 수있는 훌륭한 준비 도서관이 있으며, 10-20 줄의 코드로 작업을 수행 할 수 있습니다. BSTS와 함께 작업할 수 있는 훌륭한 준비된 라이브러리가 있습니다(Google의 , 당신은 코드의 10-20 줄에서 그것을 할 수 있습니다. 그냥 테스트를 실행하는 것을 잊지 마십시오 (아래의 블록을 참조). CausalImpact Instrumental Variables (IV) Instrumental Variables (IV) 숨겨진 요소(예: 동기)가 사용자의 선택과 최종 결과에 영향을 미치는 상황에 대한 방법.우리는 사용자를 행동으로 밀어넣는 외부 요소(“기구”)를 발견하지만 직접적으로 결과 자체에 영향을 미치지 않는다. In Simple Terms: To find an "indirect lever" to move only what's needed. Key Idea: TV 광고가 판매에 미치는 영향을 측정하고 싶지만 광고는 사람들이 이미 더 많이 구매하는 지역에서 표시됩니다. 날씨가 될 수 있습니다 : 비가 오는 날에 사람들은 TV를 더 많이보고 (그리고 광고를보고), 그러나 날씨 자체는 직접적으로 그들이 당신의 제품을 구입하게하지 않습니다. Use Case: instrument 이중 기계 학습(Double Machine Learning, DML) A modern approach that uses two ML models to "cleanse" both the treatment and the outcome from the influence of hundreds of other factors. By analyzing only what's left after this "cleansing" (the residuals), the method finds the pure cause-and-effect impact. Main strength of DML - where A/B-test is impossible or very difficult to conduct. Most often these are self-selection situations, when users decide for themselves whether to use a feature or not. In Simple Terms: To use ML to remove all the "noise" and leave only the pure "cause-and-effect" signal. Key Idea: For example, in a fintech application. You launch a new premium feature: an AI assistant that analyzes spending and gives personalized savings advice. The service is not enabled by default, the user has to activate it himself in the settings. Use Case: 그것은 다른 방법과 함께 사용하기에 좋으며 간단한 접근법이 적합하지 않을 때 종종 사용할 수 있습니다. 그것은 다른 방법과 함께 사용하기에 좋으며 간단한 접근법이 적합하지 않을 때 종종 사용할 수 있습니다. 모든 것이 제대로 작동하고 있는지 어떻게 확인할 수 있습니까? 축하합니다, 당신은이 전체 리뷰를 읽고 먼 길을 갔다. Fair enough, you may have had a thought: these methods are quite complex, how can I be sure I've done it right? How can I trust the final results? 그리고 heck, 그것은 가장 올바른 견해입니다. 추정 방법의 정확성을 확인하는 일반적인 아이디어는 다음과 같이 요약됩니다 : We’re measuring the effect where it clearly shouldn’t be — just to make sure it isn’t there. With RCE, it's pretty simple - we need an A/A test. We run the experiment according to our design: exactly the same metrics, splitting, etc. Except that we do NOT show our new feature to both groups. As a result, we shouldn't see any difference between them. Sometimes it makes sense to do backtesting in the same way: after the feature has worked for a while, roll it back for some traffic and check that the effect is still the same as what we saw when we did the AB test the first time. 그러나 사소한 실험은 조금 더 복잡합니다.모든 방법은 그 자체의 특이성을 가지고 있으며 구현의 정확성을 확인하는 특별한 방법을 포함 할 수 있습니다. robustness 체크 우리가 발견한 효과가 우연이나 모델 오류가 아니라는 것을 확인하기 위해 우리는 일련의 "스트레스 테스트"를 수행합니다.이 아이디어는 동일합니다 : 우리는 효과가 발생해서는 안되는 조건을 만듭니다. 여기에 몇 가지 핵심 체크: Placebo Tests Placebo 테스트 This test checks the uniqueness of your effect compared to other objects within your dataset. 예를 들어, 합성 제어 방법을 가리키십시오.우리는 하나의 "처리 된"체험체 (배출 된)와 많은 "순수한"체험체를 제어 그룹 (배출되지 않은)에 가지고 있습니다.우리는 반대로 제어 그룹의 각 개체가 영향을받는 척하고, 그들을 위해 우리의 "합성 제어"를 구축합니다. How to do: 이상적인 세계에서, 이러한 모든 "가짜"테스트를 위해, 우리는 우리의 실제 사례만큼 강한 효과를 볼 필요가 없습니다. What to expect: 이 테스트는 우리의 결과가 독특한지 여부를 보여줍니다.우리의 방법이 아무 일도 일어나지 않은 주제에서 중요한 효과를 발견한다면, 우리의 주요 발견은 단순히 소음이나 통계적 변칙이 아니라 실제 효과일 가능성이 높습니다. Why it's needed: 시간제 플래시보 We artificially shift the date of our intervention into the past. For example, if the actual ad campaign started on May 1st, we “tell” the model that it started on April 1st when nothing actually happened. How to do it: 모델은이 가짜 날짜에 의미있는 영향을 감지해서는 안됩니다. What to expect: 이것은 모델이 우리의 이벤트에 반응하고 있으며 데이터의 무작위 변동이나 우리의 개입 날짜에 우연히 발생한 계절 추세에 반응하지 않는다는 것을 보장합니다. Why: 우주 플래시보 이 테스트는 완전히 독립적 인 데이터에서 거짓 긍정적 인 결과를 생산하는 경향을 테스트함으로써 모델의 신뢰성을 확인합니다. 대상 데이터와 비슷한 데이터가 있지만 개입에 영향을 미치지 않은 경우, 이를 사용하십시오.예를 들어 한 지역에서 프로모션을 시작했습니다.개선이 일어나지 않은 다른 지역에서 판매 데이터를 가져 가서 실제 개입 날짜와 동일한 모델을 적용하십시오. How to do: 모델은 이러한 "통제"데이터에 영향을 미치지 않아야 한다. What to expect: 모델이 당신이 그것을 적용할 때마다 효과를 발견한다면, 당신은 목표 시리즈에 대한 결론을 신뢰할 수 없습니다.이 테스트는 모델이 아무것도에서 효과를 만드는 것에 의해 "망상화"되지 않는다는 것을 보여줍니다. Why: Decision Map (Instead of conclusions) 당신이 여기까지 읽은 (또는 스크롤) 경우, 나는 당신이 기능의 AI / ML 구현의 결과를 측정하는 것이 왜 중요한지에 대한 또 다른 좋은 초안이 필요하지 않을 것이라고 생각합니다. 당신이 유용한 의사 결정 도구를 얻으면 당신에게 훨씬 더 가치가 있습니다. The framework looks like this. Measure through AB test. 진지하게 AB 테스트를 통과하십시오. Think about different split units and clusters to still apply RCE. Below is a cheat sheet on choosing a Causal Inference method to quickly figure out which one is right for you. 글의 부분으로 돌아가서 나는 그것을 종교인의 용어로 설명한다. 그 후,이 방법에 대한 매뉴얼 및 가이드로 이동 Helpful materials: 이 글을 쓰기 위해 사용되었으며 주제에 더 깊은 다이빙을 위해 강력히 권장합니다. AI/ML 솔루션을 만드는 전체 사이클을 이해합니다. 에서 그리고 기계 학습 시스템 디자인 Valerii Babushkin 아르세니 Kravchenko RCE의 세계로 가는 길 Ron Kohavi, Diane Tang 및 Ya Xu 신뢰할 수 있는 온라인 통제 실험 원인 추론을 자세히 이해하는 방법: Where to understand Causal Inference in detail: Miguel Hernan and Jamie Robins “Causal Inference: What If” 용감한 자와 진실한 자를 위한 원인적 추론(Causal Inference for the Brave and True) 원인 ML 책