Một hướng dẫn thực tế để đo lường tác động kinh doanh trong các dự án AI / ML

Thích hay không, thực tế là như thế này: chỉ thực tế là sản phẩm hoặc tính năng của bạn sử dụng AI / ML là không đủ. Ít nhất không phải nếu bạn muốn có một hiệu ứng tích cực lâu dài. Ngoài sự lan tỏa và ồn ào, kinh doanh vẫn là về lợi nhuận, ROI và số liệu tăng trưởng. Đó là bản chất của nó, trong hầu hết các trường hợp. Điều đó có nghĩa là đối với chúng tôi, những người xây dựng các dự án này, điều quan trọng là phải biết làm thế nào để đo lường tác động của AI / ML. Cả ở giai đoạn đầu và sau mỗi cải tiến. Trong bài viết này, chúng tôi sẽ xem xét bộ công cụ giúp chúng tôi đo lường tác động của việc áp dụng AI và có được một cảm giác về cách các phương pháp này hoạt động. tôi sẽ đơn giản hóa rất nhiều thứ và giữ nhiều chi tiết đằng sau rèm cửa (hoặc cho các phần riêng biệt), chỉ để giảm rào cản nhập cảnh. Đến cuối, bạn sẽ có một cái nhìn sâu sắc về các cách tiếp cận chính để đo lường tác động của dự án của bạn đối với doanh nghiệp. Bạn sẽ có một bản đồ thô của các phương pháp và biết làm thế nào để định hướng bản thân - những gì phù hợp nhất với trường hợp của bạn. Bản đồ kể chuyện - để giúp bạn điều hướng Chúng ta sẽ bắt đầu với những điều cơ bản - tại sao và khi nào nó đáng để đo lường. Sau đó, chúng ta sẽ xem xét những gì có thể sai và tại sao không phải mọi thay đổi đều xứng đáng với một thí nghiệm. Từ đó, chúng tôi sẽ đi sâu vào tiêu chuẩn vàng - kiểm tra A / B - và phải làm gì khi bạn không thể chạy một. Cuối cùng, chúng tôi sẽ đi xa hơn các thí nghiệm đến các phương pháp kết luận nhân quả - và làm thế nào để tin tưởng những gì bạn tìm thấy. Đo lường tác động: Tại sao, khi nào và làm thế nào để không When it’s worth measuring Khi nó đáng để đo lường Đầu tiên, những lý do chính mà bạn có thể thực sự muốn làm phiền. Risk & Value Chúng tôi đã chạm vào giá trị ngay từ đầu.Chúng tôi muốn đo lường xem một tính năng có đủ để biện minh cho việc đầu tư thêm không.Có bao nhiêu, tương lai của nó nên là gì. Nhưng đừng quên yếu tố quan trọng - Nếu sự thay đổi mới rực rỡ của bạn thực sự làm cho mọi thứ tồi tệ hơn - tỷ lệ chuyển đổi đã giảm, người dùng đang rời khỏi trong sự thất vọng, có ít tiền hơn - bạn Muốn biết rằng đủ nhanh để phản ứng.Tránh một thất bại có thể quan trọng hơn là bắt được một đòn bẩy. risk management. Chắc chắn Innovation Kể từ những ngày đầu tiên của Agile, phát triển sản phẩm đã liên quan đến sự lặp lại nhanh chóng, cuộc chạy đua vũ khí thị trường và tìm kiếm vô tận để phù hợp sản phẩm với thị trường. Các doanh nghiệp làm hàng chục điều cùng một lúc để duy trì tính cạnh tranh, và bạn có thể muốn ưu tiên các giải pháp thực sự rực rỡ trong số những giải pháp chỉ tốt. Optimization Vẻ đẹp của một cách tiếp cận có ý thức, được đo lường là nó cho phép bạn đào sâu hơn. Có lẽ doanh thu không nhảy ngay lập tức, nhưng người dùng yêu thích chức năng mới và tham gia với nó hàng ngày. Có lẽ nó cộng hưởng với một phân khúc cụ thể nhưng làm phiền người khác. Những ý tưởng này và các ý tưởng khác mở ra cơ hội để tối ưu hóa hơn nữa. thiên nhiên Organization Bạn có làm việc ở một nơi nói về việc “dẫn dữ liệu”? Hoặc có lẽ bạn là người tin tưởng vào sự thật hơn là cảm giác ruột? Sau đó, đây là nơi bạn muốn được: học cách đo lường hiệu quả và đảm bảo kết quả của bạn thực sự dẫn bạn đến các mục tiêu bạn đặt ra. When Not to Test Khi không thử nghiệm Như đã nói, ở đó cases where experiments don’t make sense - or aren’t possible at all. Let’s go through the big ones. Có Methodological limits Đôi khi nó chỉ đơn giản là không thể áp dụng các phương pháp. quá ít dữ liệu để có được một kết quả. thay đổi quá nhỏ để phát hiện. hoặc không có giả thuyết về những gì nên được cải thiện (trong trường hợp đó - tại sao nó là cần thiết để phát triển bất cứ điều gì?). Non-optional work Một số thay đổi là bắt buộc. Yêu cầu pháp lý hoặc tuân thủ là trường hợp cổ điển. Không phải là AI cụ thể, nhưng rõ ràng: bạn cần tuân thủ GDPR, điều chỉnh sản phẩm của bạn cho khả năng tiếp cận, v.v. Bạn không mong đợi nâng chuyển đổi ở đây - bạn đang làm điều đó bởi vì bạn phải. Tương tự cho Trang web không trả về lỗi 502. làm thế nào để có giá trị kinh doanh? critical fixes or infrastructure updates. Ethical red lines Some measurement practices cross ethical boundaries, carrying risks of user harm or manipulative design. Think experiments that could trigger financial loss or compromise user data. Not everything is fair game. Better alternatives Đôi khi nó chỉ đơn giản là không đáng.Nếu nỗ lực (các nguồn lực) chi tiêu cho các phép đo có thể cao hơn giá trị chính nó, bỏ qua nó.Thời gian, tiền bạc, chi phí cơ hội. Ví dụ đơn giản nhất: các công ty khởi nghiệp trẻ, nhanh chóng với chỉ một số ít khách hàng thường tốt hơn trong việc theo đuổi sự phù hợp của sản phẩm với thị trường thông qua các lần lặp ngắn và phản hồi trực tiếp của người dùng. Làm thế nào để không đo Trước / Sau Theo trực giác, sự thúc đẩy là làm như sau: Xem nó như thế nào Khởi động tính năng mới Xem như thế nào bây giờ Xem kết quả tích cực lợi nhuận Nhưng "nó có vẻ tốt hơn bây giờ" có một mặt tối. Nhiều thứ thay đổi theo thời gian (mùa, sự kiện bên ngoài, thay đổi giao thông). Nhầm lẫn sự thay đổi môi trường với tác động tính năng. Core issue: YoY (Year-over-Year) so sánh Bí quyết kinh doanh quen thuộc và truyền thống này là hoàn hảo để trả lời câu hỏi, "Chúng ta đang phát triển như một doanh nghiệp nói chung?". Và nó hữu ích trong nhiều tình huống, nhưng không phải trong một đánh giá cô lập về việc thực hiện hoặc cải tiến một tính năng. Chỉ cần tưởng tượng có bao nhiêu điều đã xảy ra trong kinh doanh trong năm nay. Các nhà tiếp thị, SEO, người bán hàng, bạn đặt tên nó - mọi người xung quanh bạn đã làm việc không mệt mỏi để đảm bảo tăng trưởng. Thế giới xung quanh chúng ta cũng không đứng yên. Thuế, Covid-19 và chiến tranh đang xảy ra. Các blogger và người nổi tiếng bày tỏ ý kiến của họ. xu hướng TikTok đang thay đổi hành vi của người tiêu dùng, và các đối thủ cạnh tranh của bạn cũng đang làm phần của họ. Nhưng sự gia tăng 10% trong doanh thu trong tháng 1 này chỉ là nhờ vào chatbot AI của bạn ( nghiêm túc?). Một cửa sổ quá dài - hàng chục thay đổi khác xảy ra song song. Bất kỳ sự khác biệt YoY phản ánh mọi thứ, không phải tính năng của bạn. Core issue: Nguyên nhân > Cause > Cause Bạn có thể đã nghe thấy cụm từ, “Correlation không có nghĩa là nhân quả.” nhưng nó thực sự có nghĩa là gì trong thực tế? Imagine you launch an AI chatbot, and a little while after that, the number of completed purchases increases. Sounds like the chatbot caused the increase, right? Maybe - or maybe not. When usage and outcomes move together, it looks like cause and effect. But. At the same time, your marketing team launched a new campaign. Or there was a seasonal peak, which is always a sales spike this time of year. Or a competitor ran out of stock. Or... you know, there could be a lot of reasons. And they could all affect the numbers together or instead of your bot. Phần khó khăn là dữ liệu chỉ có thể trông có liên quan bởi vì hai điều đang xảy ra cùng một lúc. bộ não của chúng ta rất giỏi trong việc nhận ra các mô hình, nhưng kinh doanh đầy những sự kiện song song và tiếng ồn.Nếu chúng ta không tách nguyên nhân khỏi sự trùng hợp, chúng ta có nguy cơ đưa ra quyết định tồi tệ - chẳng hạn như đầu tư nhiều hơn vào một tính năng không thực sự chịu trách nhiệm cho sự thành công. Sự tương quan chỉ cho thấy hai điều thay đổi cùng một lúc, nhưng không hứa hẹn rằng một điều đã gây ra cái khác. Core issue: Tiêu chuẩn vàng của ngành công nghiệp - Thí nghiệm ngẫu nhiên có kiểm soát (RCE) 10 lần trong số 10 bạn muốn ở đây. May mắn là 8-9 lần trong số 10 bạn sẽ ở đây. Tuy nhiên, hãy bắt đầu với những thứ tốt. Classic A/B tests Bạn có thể đã quen thuộc với phương pháp này. nó được tóm tắt như sau: For example, that the description of goods and services generated with GenAI will be as good (or better) than the one written by a human. Or the block “Customers Also Bought / Frequently Bought Together” in an online store will stimulate customers to buy more staff. Personalized emails engage users more. And so on. We form a hypothesis. by which to determine the success/failure of the hypothesis. Define one or more metrics Consider possible cycles of product use. Calculate the sample size and duration of the experiment. into two (or more) groups and . The control group (a) sees the product without the new feature, and the experimental group sees the new version of the product containing the change we are testing. We check that the groups differ only in the presence or absence of the new feature. Randomly split the traffic run the experiment . We apply statistical methods, calculate the difference in metrics and make sure that it is statistically significant. Stage 0 could be an A/A test (when both groups see the same version of the product and we do not see any difference in their behavior) to make sure that the traffic separation and methodology works correctly Analysis Based on the analysis, a decision is made: use, refine or reject. Decision making and iteration. Its magical, wonderful world where there is a lot of control, a chance to double-check yourself, to measure your confidence in your results. Plenty of learning resources and experienced colleagues around. What could possibly go wrong? The main reasons why we will have to give up cozy classical AB tests: 1. is when the behavior of one group affects another. That means the control group also changes - even though it shouldn't. Spillover Effect A textbook example is the Facebook friend recommendation block. We hope that it will help users build social connections. Let's imagine that group A doesn't have such a block, but group B sees it. User John from group B sees such a block, sees user Michael from group A in it, and adds him as a friend. Both users have +1 friend, although Michael should have been in a group that is not affected by the tested feature. Let's look at a few different examples where the might occur Spillover Effect or . If we have very few users (unpopular part of the product, B2B, etc.) or we work with a very rare event (buying a very expensive product or someone actually read the Terms & Conditions). In such cases, it will take a huge amount of time to get a little bit significant result. 2. Few users rare events . If we launch a change that affects the environment and cannot be isolated to individual users. For example, we are testing an advertising auction algorithm - prices will change for all advertisers, not just for those we try to isolate into an experimental group. 3. Impact on external factors . Our chip can change the composition of groups. For example, it repels or attracts certain types of users. For example, if a new feature starts to attract newcomers (this is not our goal) and increases their share in the test group, while in the control group it remains unchanged - the groups will not be comparable. 4. Brand's Effect Tin tốt là một phần của vấn đề được giải quyết mà không đi ra ngoài RCE, sử dụng cơ bản cùng một cơ chế. There’s more to split than traffic! Có nhiều thứ để chia sẻ hơn là giao thông! Một số vấn đề trên có thể được giải quyết bằng cách thay đổi chỉ một phần của thiết kế thử nghiệm tổng thể. Chúng ta hãy xem xét một trong những trường hợp thực tế. Theo nhiều tóm tắt và các nhà phân tích, các đồng thí điểm và trợ lý khác nhau xuất hiện ở đầu các sản phẩm dựa trên LLM. Họ dẫn đầu cả về phổ biến và "tỷ lệ sống sót", tức là họ có cơ hội sống lâu hơn MVP. Đặc điểm chung của loại dự án này là chúng tôi có một giải pháp được thiết kế để đơn giản hóa / tăng tốc công việc của một nhân viên. Nó có thể là các nhà điều hành trung tâm cuộc gọi, người bán hàng, tài chính người và như vậy. nhưng thường xuyên nhất chúng tôi không có nhiều nhân viên để chia chúng thành hai nhóm và đo tốc độ / hiệu quả của họ với và không có copilot. Ở đây ( Là một phần của thí nghiệm, các nhà nghiên cứu muốn xem việc sử dụng các công cụ AI ảnh hưởng đến công việc của các kỹ sư như thế nào.Họ có đóng các nhiệm vụ nhanh hơn nếu họ được cung cấp một kho vũ khí hiện đại không?Nhưng chỉ có 16 nhà phát triển tham gia vào thí nghiệm, đó là tuyệt vọng đủ nhỏ để hy vọng có được kết quả tự tin. liên kết Thay vào đó, các tác giả chia và so sánh thời gian hoàn thành. Vì vậy, mẫu ở đây không phải là 16 nhà phát triển, mà là 246 nhiệm vụ. tasks Giá trị P là ok. Các tác giả đã phân tích và đánh dấu các bản ghi màn hình, tiến hành các cuộc phỏng vấn.Tóm lại, họ đã thực hiện nghiên cứu định tính.Khi kết quả của nghiên cứu định tính và định lượng là nhất quán, đó là một tín hiệu mạnh mẽ. Nhưng điều quan trọng đối với chúng tôi bây giờ là rút ra kết luận trong khuôn khổ chủ đề của chúng tôi, chúng tôi không quan tâm đến bản thân nghiên cứu này, mà là một ví dụ dễ hiểu về cách tiếp cận. Let’s give this idea a skeleton. AI Copilots (Trung tâm liên lạc / Nhóm phát triển / vv) Case: Why not user-split? “Người dùng” ở đây là các đại lý / nghĩa vụ; dân số nhỏ + rò rỉ (macro chia sẻ, huấn luyện, hiệu ứng thay đổi). Instead, randomize: Vé / cuộc trò chuyện (chỉ định điều trị khi tiếp nhận). Hoặc hàng đợi / ý định như là cụm (tính toán, công nghệ, trả về, v.v.). phân tầng theo kênh (chat/email/voice) và ưu tiên/SLA; giám sát sự thiên vị tự động hóa; phân tích với SE mạnh mẽ. Design notes: Một khi bạn hiểu nguyên tắc này, bạn có thể áp dụng nó cho các thực thể khác cũng vậy. Bạn có thể chia thời gian, vị trí địa lý, và nhiều hơn nữa. Một khi bạn hiểu nguyên tắc này, bạn có thể áp dụng nó cho các thực thể khác cũng vậy. Bạn có thể chia thời gian, vị trí địa lý, và nhiều hơn nữa. I'll leave a note for another frequent type of tasks where the classic AB test may not fit - pricing algorithms. Dynamic Pricing (Giá bán lẻ) Case: Why not user-split? Trong cửa hàng nó là không thể (và gây nhầm lẫn) để hiển thị giá khác nhau cho những người khác nhau. Trực tuyến thường là bất hợp pháp / phi đạo đức và kích hoạt các vấn đề công bằng. Instead, randomize: Thời gian (switchback) cho cùng một SKU×store (ví dụ, theo shifts/days). (Tùy chọn) Các cụm - SKU×store (hoặc các cụm cửa hàng), phân tầng theo loại / giao thông các ngày cân đối của tuần / theo mùa; sử dụng cluster-robust SE; hàng rào bảo vệ trên chương trình khuyến mãi / cổ phiếu trùng lặp. Design notes: Khi randomization không phải là một lựa chọn Làm thế nào để bạn đo lường tác động của tính năng AI cốt lõi của bạn khi nó đã có sẵn cho tất cả mọi người hoặc bạn không thể chạy thử nghiệm với nhóm điều khiển? Chúng tôi đã thiết lập rằng RCE là tiêu chuẩn vàng vì một lý do nào đó, nhưng thế giới sạch sẽ của các thí nghiệm có kiểm soát thường tạo ra chỗ cho thực tế lộn xộn của kinh doanh. Sớm hay muộn, mỗi nhóm sản phẩm phải đối mặt với một câu hỏi quan trọng mà một bài kiểm tra A / B cổ điển không thể trả lời. Hãy khám phá một số trong những phổ biến nhất và cố gắng nắm bắt bản chất của họ.Khi thời gian đến, bạn sẽ biết nơi để đào. Phương pháp Overview Phù hợp Propensity Score Matching (PSM) Của Gist: Bạn có thể xem xét phương pháp này khi tiếp xúc với một phương pháp điều trị không phải là ngẫu nhiên (ví dụ, khi một người dùng tự quyết định có nên sử dụng một tính năng mà bạn đã phát triển hay không). Đối với mỗi người dùng nhận được phương pháp điều trị, chúng tôi tìm thấy một người dùng không nhưng có cùng khả năng nhận được nó. Use Case: Hãy tưởng tượng bạn đã tạo ra một trò chơi rất mát mẻ, chơi game cho sản phẩm của bạn - ví dụ, một hướng dẫn tương tác với một mascot. bạn mong đợi điều này sẽ ảnh hưởng đến hiệu quả và bảo quản người dùng trong tương lai. Trong trường hợp này, động lực là một yếu tố quan trọng.Những người sử dụng chọn hoàn thành việc lên tàu có thể đã quan tâm nhiều hơn đến việc khám phá sản phẩm.Để đo lường hiệu quả "tinh khiết" của chính việc lên tàu, bạn cần so sánh chúng với những người sử dụng tương tự. Decision Guide Hướng dẫn Quyết định Note kỹ thuật: (For the Advanced) : There are several ways to form pairs, each with its own trade-offs. Common methods include matching, matching, and matching . The choice depends on your data and research question. Matching Strategy Matters one-to-one one-to-many with or without replacement : After matching, you must verify that the characteristics (the covariates used to calculate the propensity score) are actually balanced between the treated and the newly formed control group. If they aren't, you may need to adjust your propensity score model or matching strategy. Always Check for Balance : The causal effect estimated with PSM is technically the "average treatment effect on the treated" (ATT). This means the result applies only to the types of users who were able to be matched, not necessarily to the entire population. The Effect is Not for Everyone : The final estimate is highly dependent on how the propensity score (the probability of treatment) was calculated. A poorly specified model will lead to biased results. The Result is Sensitive to the Model : PSM is intuitive, but sometimes simpler methods like regression adjustments or more advanced techniques (e.g., doubly robust estimators) can be more powerful or reliable. It's a good tool to have, but it's not a silver bullet. It's Not Always the Best Tool Phù hợp chiến lược quan trọng: Có nhiều cách để hình thành cặp, mỗi với sự thỏa hiệp của riêng mình. Các phương pháp phổ biến bao gồm một-to-một phù hợp, một-to-nhiều phù hợp, và phù hợp với hoặc không có thay thế. sự lựa chọn phụ thuộc vào dữ liệu và câu hỏi nghiên cứu của bạn. Luôn luôn kiểm tra cân bằng: Sau khi phù hợp, bạn phải xác minh rằng các đặc điểm (covariates được sử dụng để tính toán điểm số khuynh hướng) thực sự được cân bằng giữa nhóm kiểm soát được điều trị và nhóm kiểm soát mới được hình thành. Hiệu quả không dành cho tất cả mọi người: Hiệu quả nhân quả được ước tính với PSM về mặt kỹ thuật là "hiệu quả điều trị trung bình đối với người được điều trị" (ATT). Kết quả là nhạy cảm với mô hình: ước tính cuối cùng phụ thuộc rất nhiều vào cách điểm số khuynh hướng (tỷ lệ khả năng điều trị) đã được tính toán. Nó không phải luôn luôn là công cụ tốt nhất: PSM là trực quan, nhưng đôi khi các phương pháp đơn giản hơn như điều chỉnh hồi quy hoặc các kỹ thuật tiên tiến hơn (ví dụ, ước tính mạnh mẽ gấp đôi) có thể mạnh mẽ hơn hoặc đáng tin cậy. Kiểm soát tổng hợp (SC) Của Gist: Mục tiêu là tìm thấy một số đơn vị chưa được điều trị tương tự như đơn vị đã được điều trị. Từ nhóm này, chúng tôi tạo ra một nhóm kiểm soát "synthetic" bằng cách kết hợp chúng theo cách khiến các đặc điểm của chúng gần giống với đơn vị được điều trị. Sự kết hợp này về cơ bản là một của các đơn vị từ nhóm kiểm soát (thường được gọi là "nhóm người hiến tặng"). Trọng lượng được chọn để giảm thiểu sự khác biệt giữa đơn vị được điều trị và phiên bản tổng hợp trong quá trình . weighted average pre-treatment period Use Case: Imagine your food delivery company is implementing a new AI-based logistics system to reduce delivery times across an entire city, like Manchester. A classic A/B test is impossible because the system affects all couriers and customers at once. You also can't simply compare Manchester's performance to another city, such as Birmingham, because unique local events or economic trends there would skew the comparison. To measure the true impact, you need to build a "synthetic" control that perfectly mirrors Manchester's pre-launch trends. Đây là cách mà "cặp song sinh tổng hợp" được xây dựng. phương pháp nhìn vào giai đoạn Bằng cách phân tích dữ liệu lịch sử về các yếu tố quan trọng (như dân số hoặc thời gian giao hàng trong quá khứ), thuật toán tìm thấy sự pha trộn cân đối lý tưởng. Có một lịch sử về hiệu suất gần như hoàn hảo cho trận đấu của Manchester. before "40% Birmingham + 35% Leeds + 25% Bristol" Once this recipe is locked in, it's used to project what would have happened without the new system. From the launch day forward, the model calculates the "Synthetic Manchester's" performance by applying the recipe to the actual, real-time data from the donor cities. This synthetic version represents the most likely path the real Manchester would have taken. The difference between the real Manchester's improved delivery times and the performance of its synthetic twin is the true, isolated effect of your new AI system. Decision Guide Hướng dẫn Quyết định Technical Notes: (For the Advanced) Always inspect the weights assigned to the units in the donor pool. If one unit receives almost all the weight (e.g., 99%), your "synthetic control" has essentially collapsed into a simple (DiD) model with a single, chosen control unit. This can indicate that your donor pool is not diverse enough. Weight Transparency and Diagnostics: Difference-in-Differences The original Synthetic Control method has inspired more advanced versions. Two popular ones are: Modern Extensions Exist: An extension that allows for multiple treated units and can perform better when a perfect pre-treatment fit is not achievable. Generalized Synthetic Control (GSC): A hybrid method that combines the strengths of both synthetic controls (for weighting control units) and difference-in-differences (for weighting time periods). It is often more robust to noisy data. Synthetic Difference-in-Differences (SDID): Tính minh bạch và chẩn đoán trọng lượng: Luôn luôn kiểm tra trọng lượng được gán cho các đơn vị trong hồ sơ của người hiến tặng.Nếu một đơn vị nhận được gần như tất cả trọng lượng (ví dụ, 99%), "kiểm soát tổng hợp" của bạn về cơ bản đã sụp đổ thành một mô hình Difference-in-Differences (DiD) đơn giản với một đơn vị điều khiển duy nhất được chọn. The original Synthetic Control method has inspired more advanced versions. Two popular ones are: Modern Extensions Exist: An extension that allows for multiple treated units and can perform better when a perfect pre-treatment fit is not achievable. Generalized Synthetic Control (GSC): A hybrid method that combines the strengths of both synthetic controls (for weighting control units) and difference-in-differences (for weighting time periods). It is often more robust to noisy data. Synthetic Difference-in-Differences (SDID): Sự khác biệt trong sự khác biệt (DID) Của Gist: Chúng ta có một nhóm nơi một cái gì đó đã thay đổi (ví dụ, chúng ta có một tính năng mới) và một nhóm nơi mọi thứ vẫn như cũ. Nhóm thứ hai nên là như vậy mà theo lịch sử xu hướng của các chỉ số chính trong đó là giống như trong nhóm với các tính năng. Trên cơ sở này, chúng tôi giả định rằng nếu không có sự can thiệp của chúng tôi các xu hướng của các chỉ số sẽ song song. Chúng tôi nhìn vào trước và sau sự khác biệt trong hai nhóm. Sau đó chúng tôi so sánh hai sự khác biệt này. (đó là lý do tại sao phương pháp được gọi là sự khác biệt trong sự khác biệt). Ý tưởng rất đơn giản: nếu không có chúng tôi, cả hai nhóm sẽ phát triển giống nhau mà không có sự thay đổi, nhưng với chúng tôi, sự khác biệt giữa những thay đổi của họ sẽ là hiệu ứng “tài chính” của việc thực hiện tính năng của chúng tôi. Use Case(s): Phương pháp này rất phổ biến, chúng ta thậm chí hãy xem xét một vài nghiên cứu trường hợp. Một khu vực (quốc gia, thành phố) nhận được hệ thống giảm giá mới (hoặc dịch vụ AI), trong khi một khu vực khác không. An LLM is used to generate an optimized XML feed for Google Shopping for one product category. This includes creating more engaging titles and detailed product descriptions. A second, similar category with a standard, template-based feed is used as a control group. We then compare the change in metrics like CTR or conversions between the two groups. Similar mechanics may be at work with SEO. Cảnh báo : A good and understandable case, but it requires careful group selection. Organic traffic trends for different categories (e.g., "laptops" and "dog food") can differ greatly due to seasonality or competitor actions. The method will be reliable if the categories are very similar (e.g., "men's running shoes" and "women's running shoes"). Cảnh báo : Measuring the impact of a feature launched only on Android, using iOS users as a control group to account for general market trends. Caveat: A very common case in practice, but methodologically risky. Android and iOS audiences often have different demographics, purchasing power, and behavioral patterns. Any external event (e.g., a marketing campaign targeting iOS users) can break the parallel trends and distort the results. Caveat: Decision Guide Hướng dẫn Quyết định Note kỹ thuật: (For the Advanced) The power of DiD lies in shifting the core assumption from the often-unrealistic "the groups are identical" to the more plausible "the groups' are identical." A simple post-launch comparison between Android and iOS is flawed because the user bases can be fundamentally different. A simple before-and-after comparison on Android alone is also flawed due to seasonality and other time-based factors. DiD elegantly addresses both issues by assuming that while the absolute levels of a metric might differ, their "rhythm" or dynamics would have been the same in the absence of the intervention. This makes it a robust tool for analyzing natural experiments. The Core Strength: trends While DiD is simple in its basic 2x2 case, it can become quite complex. Challenges arise when dealing with multiple time periods, different start times for the treatment across groups (staggered adoption), and when using machine learning techniques to control for additional covariates. Deceptive Simplicity: The problem of : the classical DiD model is ideal for cases where one group receives the intervention at one point in time. But in life, as you know, different subgroups (e.g. different regions or user groups) often receive the function at different times. and this is when applying standard DiD regression can lead to highly biased results. This is because groups already treated may be implicitly used as controls for groups treated later, which can sometimes even change the sign of the estimated effect. "Staggered Adoption" of the treatment effect: a simple DiD model implicitly assumes that the treatment effect is constant across all and over time. In reality, the effect may evolve (e.g., it may increase as users become accustomed to the feature) or vary between different subgroups. There are studies that show this and there are specific evaluation methods that take this effect into account. At least we think so until a new study comes out, right? Heterogeneity Sức mạnh cốt lõi: Sức mạnh của DiD nằm ở việc thay đổi giả định cốt lõi từ "các nhóm giống hệt nhau" thường không thực tế sang "các xu hướng của các nhóm giống hệt nhau" đáng tin cậy hơn. Một so sánh đơn giản sau khi ra mắt giữa Android và iOS bị lỗi bởi vì cơ sở người dùng có thể khác nhau về cơ bản. Một so sánh đơn giản trước và sau trên Android một mình cũng bị lỗi do tính theo mùa và các yếu tố dựa trên thời gian khác. DiD thanh lịch giải quyết cả hai vấn đề bằng cách giả định rằng trong khi mức độ tuyệt đối của một thước đo có thể khác nhau, "rhythm" hoặc động lực của chúng sẽ giống nhau trong trường hợp không có sự can thiệp. Điều này làm cho nó trở thành một công cụ mạnh mẽ để phân tích các thí nghiệm tự nhiên. Đơn giản lừa dối: Trong khi DiD đơn giản trong trường hợp 2x2 cơ bản của nó, nó có thể trở nên khá phức tạp. những thách thức phát sinh khi đối phó với nhiều khoảng thời gian, thời gian bắt đầu khác nhau cho việc điều trị trên các nhóm (sử dụng gắn thẻ), và khi sử dụng các kỹ thuật học máy để kiểm soát đối với các biến thể bổ sung. Vấn đề của "Staggered Adoption" : mô hình DiD cổ điển là lý tưởng cho các trường hợp khi một nhóm nhận được sự can thiệp tại một thời điểm. nhưng trong cuộc sống, như bạn biết, các nhóm con khác nhau (ví dụ, các khu vực khác nhau hoặc nhóm người dùng) thường nhận được chức năng tại thời điểm khác nhau. và đây là khi áp dụng tiêu chuẩn DiD hồi quy có thể dẫn đến kết quả rất thiên vị. of the treatment effect: a simple DiD model implicitly assumes that the treatment effect is constant across all and over time. In reality, the effect may evolve (e.g., it may increase as users become accustomed to the feature) or vary between different subgroups. There are studies that show this and there are specific evaluation methods that take this effect into account. At least we think so until a new study comes out, right? Heterogeneity Thiết kế không liên tục hồi quy (RDD) Của Gist: Nếu một người dùng nhận được một điều trị dựa trên một quy tắc có giá trị cắt (ví dụ, "làm 100 đơn đặt hàng" hoặc "có 1 tháng"), chúng tôi giả định rằng những người chỉ dưới cắt là rất giống với những người chỉ ở trên nó. ví dụ, một người dùng với 99 đơn đặt hàng gần giống với một người dùng với 101 đơn đặt hàng. sự khác biệt duy nhất là người với 101 đã nhận được điều trị, và người với 99 đã không. Use Case(s): Chương trình Loyalty cung cấp to users who have spent over $1000 in a year. RDD would compare the behavior (e.g., retention, future spending) of users who spent with those who spent Một sự khác biệt rõ rệt trong hành vi của họ ngay ở mức 1.000 đô la sẽ là hiệu quả của việc nhận được "Tình trạng vàng". "Gold Status" $1001 $999 An e-commerce site offers customers different shipping options based on their arrival time. Any customer arriving gets 2-day shipping, while any customer arriving nhận được một cửa sổ giao hàng 3 ngày. trang web muốn đo lường tác động nhân quả của chính sách này trên xác suất thanh toán. before noon just after noon Decision Guide Hướng dẫn Quyết định Technical Notes: (For the Advanced) This article focuses on , where crossing the cutoff guarantees the treatment. A variation called exists for cases where crossing the cutoff only of receiving the treatment. Sharp RDD Fuzzy RDD increases the probability The first step in any RDD analysis is to . You should plot the outcome variable against the running variable. The "jump" or discontinuity at the cutoff should be clearly visible to the naked eye. plot the data A crucial step is choosing the right , or how far from the cutoff you look for data. It's a trade-off between bias and variance: bandwidth More accurate assumption (users are very similar), but fewer data points (high variance, low power). Narrow Bandwidth: More data points (low variance, high power), but a riskier assumption (users might be too different). Wide Bandwidth: Bài viết này tập trung vào Sharp RDD, nơi vượt qua cắt giảm đảm bảo điều trị. Một biến thể được gọi là Fuzzy RDD tồn tại cho các trường hợp nơi vượt qua cắt giảm chỉ làm tăng khả năng nhận được điều trị. The first step in any RDD analysis is to . You should plot the outcome variable against the running variable. The "jump" or discontinuity at the cutoff should be clearly visible to the naked eye. plot the data A crucial step is choosing the right , or how far from the cutoff you look for data. It's a trade-off between bias and variance: bandwidth More accurate assumption (users are very similar), but fewer data points (high variance, low power). Narrow Bandwidth: More data points (low variance, high power), but a riskier assumption (users might be too different). Wide Bandwidth: Bayesian Structural Time Series (BSTS) Dòng thời gian cấu trúc Bayesian (BSTS) Dựa trên dữ liệu trước sự kiện, mô hình xây dựng một dự đoán về những gì sẽ xảy ra nếu không có sự can thiệp của chúng tôi. Để làm điều này, nó dựa vào các chuỗi thời gian tương tự khác không bị ảnh hưởng bởi sự thay đổi. Sự khác biệt giữa dự đoán này và thực tế là hiệu ứng ước tính. Chúng tôi đã xem xét kiểm soát tổng hợp trước đó; nghĩ về BSTS như là cùng một ý tưởng ước tính tác động thông qua các đơn vị không bị ảnh hưởng tương tự, nhưng . In Simple Terms: với steroid Để xây dựng một "thế giới thay thế" nơi tính năng của bạn không bao giờ tồn tại. Sự khác biệt chính từ Synthetic Control là để xây dựng dự đoán, nó sử dụng một mô hình Bayesian thay vì nhân trọng lượng. Key Idea: Bạn đã thay đổi chính sách giá cho một danh mục sản phẩm.Để đo lường hiệu quả, mô hình sử dụng doanh số từ các danh mục tương tự khác để dự đoán doanh số trong danh mục của bạn sẽ như thế nào the price change. Use Case: without Có những thư viện sẵn sàng tuyệt vời để làm việc với BSTS (như CausalImpact của Google), với đó bạn có thể hoàn thành nó trong 10-20 dòng mã. There are excellent ready-made libraries for working with BSTS (like Google's ), with which you can get it done in 10-20 lines of code. Just don't forget to run the tests (see the block below). CausalImpact Instrumental Variables (IV) Các biến công cụ (IV) Một phương pháp cho các tình huống nơi một yếu tố ẩn (như động lực) ảnh hưởng đến cả sự lựa chọn của người dùng và kết quả cuối cùng.Chúng tôi tìm thấy một yếu tố bên ngoài (một "công cụ") đẩy người dùng hướng tới hành động nhưng không ảnh hưởng trực tiếp đến kết quả chính nó. In Simple Terms: Để tìm một "đòn bẩy gián tiếp" để di chuyển chỉ những gì cần thiết. Key Idea: (khoa học) Bạn muốn đo lường tác động của quảng cáo truyền hình đối với doanh số bán hàng, nhưng quảng cáo được hiển thị ở các khu vực nơi mọi người đã mua nhiều hơn. có thể là thời tiết: vào những ngày mưa, mọi người xem nhiều TV hơn (và xem quảng cáo), nhưng chính thời tiết không trực tiếp khiến họ mua sản phẩm của bạn. Use Case: instrument Double Machine Learning (DML) Một cách tiếp cận hiện đại sử dụng hai mô hình ML để "xóa" cả điều trị và kết quả khỏi ảnh hưởng của hàng trăm yếu tố khác. Bằng cách chỉ phân tích những gì còn lại sau "xóa" này (các chất dư thừa), phương pháp tìm thấy tác động nguyên nhân và hiệu ứng thuần túy. Sức mạnh chính của DML - nơi kiểm tra A / B là không thể hoặc rất khó thực hiện. Thông thường đây là các tình huống tự chọn, khi người dùng tự quyết định liệu sử dụng một tính năng hay không. In Simple Terms: To use ML to remove all the "noise" and leave only the pure "cause-and-effect" signal. Key Idea: Ví dụ, trong một ứng dụng fintech. Bạn ra mắt một tính năng cao cấp mới: trợ lý AI phân tích chi tiêu và cung cấp lời khuyên tiết kiệm cá nhân. dịch vụ không được bật theo mặc định, người dùng phải kích hoạt nó trong cài đặt. Use Case: Nó rất tuyệt vời để sử dụng song song với các phương pháp khác và thường có thể được sử dụng khi các phương pháp đơn giản hơn không phù hợp. Nó rất tuyệt vời để sử dụng song song với các phương pháp khác và thường có thể được sử dụng khi các phương pháp đơn giản hơn không phù hợp. Làm thế nào để đảm bảo mọi thứ đang hoạt động đúng cách? Chúc mừng, bạn đã đi một chặng đường dài bằng cách đọc toàn bộ bài đánh giá này. Công bằng đủ, bạn có thể đã có một suy nghĩ: các phương pháp này khá phức tạp, làm thế nào tôi có thể chắc chắn rằng tôi đã làm đúng? Và heck, đó là quan điểm chính xác nhất. The general idea of checking the correctness of estimation methods is summarized as follows: We’re measuring the effect where it clearly shouldn’t be — just to make sure it isn’t there. Với RCE, nó khá đơn giản - chúng tôi cần một thử nghiệm A / A. Chúng tôi chạy thử nghiệm theo thiết kế của chúng tôi: chính xác cùng một số liệu, tách, vv Ngoại trừ rằng chúng tôi KHÔNG hiển thị tính năng mới của chúng tôi cho cả hai nhóm. Kết quả là, chúng tôi không nên thấy bất kỳ sự khác biệt nào giữa chúng. Đôi khi nó có ý nghĩa để làm thử nghiệm ngược lại theo cùng một cách: sau khi tính năng đã hoạt động trong một thời gian, cuộn nó trở lại cho một số lưu lượng truy cập và kiểm tra rằng hiệu quả vẫn giống như những gì chúng tôi thấy khi chúng tôi thực hiện thử nghiệm AB lần đầu tiên. But quasi-experiments are a bit more complicated. Each of the methods has its own specificity and may contain its own special ways to check the correctness of implementation. Here we will talk about relatively universal methods, which I recommend in most cases. Robustness kiểm tra Để đảm bảo rằng hiệu ứng chúng tôi tìm thấy không phải là một tai nạn hoặc lỗi mô hình, chúng tôi tiến hành một loạt các “thử nghiệm căng thẳng”. Ý tưởng là như nhau: chúng tôi tạo ra các điều kiện trong đó hiệu ứng không nên xảy ra. Dưới đây là một số kiểm tra chính: Placebo Tests Thử nghiệm Placebo This test checks the uniqueness of your effect compared to other objects within your dataset. Lấy ví dụ, phương pháp kiểm soát tổng hợp.Chúng tôi có một đối tượng “được điều trị” (người đã được phơi bày) và nhiều đối tượng “xanh” trong một nhóm kiểm soát (không phơi bày).Chúng tôi lần lượt giả vờ rằng mỗi đối tượng trong nhóm kiểm soát đã bị ảnh hưởng, và xây dựng “kiểm soát tổng hợp” của chúng tôi cho họ. How to do: Trong một thế giới lý tưởng, đối với tất cả các thử nghiệm “giả” này, chúng ta không nên thấy một hiệu ứng mạnh mẽ như trong trường hợp thực của chúng ta. What to expect: Nếu phương pháp của chúng tôi tìm thấy hiệu ứng đáng kể ở các đối tượng mà không có gì xảy ra, nó cũng có khả năng rằng phát hiện chính của chúng tôi chỉ là tiếng ồn hoặc một sự bất thường thống kê, không phải là một hiệu ứng thực sự. Why it's needed: Thời gian Placebo Ví dụ, nếu chiến dịch quảng cáo thực sự bắt đầu vào ngày 1 tháng 5, chúng tôi “báo cáo” cho mô hình rằng nó bắt đầu vào ngày 1 tháng 4, khi không có gì thực sự xảy ra. How to do it: Mô hình không nên phát hiện bất kỳ hiệu ứng có ý nghĩa nào trên ngày giả mạo này. What to expect: Điều này giúp đảm bảo rằng mô hình đang đáp ứng với sự kiện của chúng tôi và không phải là sự biến động ngẫu nhiên trong dữ liệu hoặc một số xu hướng theo mùa xảy ra ngẫu nhiên vào ngày can thiệp của chúng tôi. Why: Placebo trong không gian Kiểm tra này kiểm tra độ tin cậy của mô hình của bạn bằng cách kiểm tra nó cho xu hướng sản xuất dương tính giả trên dữ liệu hoàn toàn độc lập. If you have data that is similar to your target data but that was definitely not affected by the intervention, use it. For example, you launched a promotion in one region. Take sales data from another region where the promotion did not take place and apply your model to it with the same actual intervention date. How to do: Mô hình không nên tìm thấy tác động đối với dữ liệu “kiểm soát” này. What to expect: Nếu mô hình của bạn tìm thấy hiệu ứng ở khắp mọi nơi bạn áp dụng nó, bạn không thể tin tưởng kết luận của nó trên loạt mục tiêu. Why: Bản đồ quyết định (thay vì kết luận) If you've read (or scrolled) all the way down here, I guess you don't need another nice outline of why it's so important to measure the results of AI/ML implementation of a feature. Nó có giá trị hơn nhiều đối với bạn nếu bạn có được một công cụ ra quyết định hữu ích. Cấu trúc trông như thế này. Kiểm tra bằng AB test. Measure through the AB test. Seriously. Hãy nghĩ về các đơn vị và cụm chia khác nhau để vẫn áp dụng RCE. Dưới đây là một trang lừa đảo về việc chọn phương pháp Causal Inference để nhanh chóng tìm ra phương pháp nào phù hợp với bạn. Trở lại phần của bài viết nơi tôi giải thích nó trong các điều khoản của giáo dân. Sau đó, đi đến các hướng dẫn và hướng dẫn về phương pháp này Helpful materials: Sử dụng trong việc viết bài viết này và rất khuyến khích cho một lặn sâu hơn vào chủ đề này Hiểu được toàn bộ chu kỳ tạo ra các giải pháp AI/ML bởi và Thiết kế hệ thống Machine Learning Valery Babushkin Đạo diễn Arseny Kravchenko Con đường vào thế giới của RCE Viết bởi Ron Kohavi, Diane Tang, Ya Xu Trustworthy Online Controlled Experiments Nơi để hiểu nguyên nhân dẫn đến chi tiết: Miguel Hernan và Jamie Robins trong Causal Inference: What If Lời bài hát: Causal Inference For The Brave And True Sách Causal ML