Ein praktischer Leitfaden zur Messung der Geschäftseffekte in AI/ML-Projekten

Ob es Ihnen gefällt oder nicht, die Realität ist dies: Nur die Tatsache, dass Ihr Produkt oder Ihre Funktion KI / ML verwendet, reicht nicht aus. Zumindest nicht, wenn Sie einen dauerhaften, positiven Effekt wollen. Über den Hype und den viralen Buzz hinaus geht das Geschäft immer noch um Gewinn, ROI und wachsende Metriken. Das ist seine Natur, in den meisten Fällen. Was bedeutet, dass für uns, die Menschen, die diese Projekte bauen, es wichtig ist, zu wissen, wie man die Auswirkungen von AI / ML misst. sowohl in der frühen Phase als auch nach jeder Verbesserung. In diesem Artikel werden wir uns das Toolkit ansehen, das uns hilft, die Wirkung der AI-Annahme zu messen und ein Gefühl dafür zu bekommen, wie diese Methoden funktionieren. Am Ende haben Sie einen Einblick in die wichtigsten Ansätze zur Messung der Auswirkungen Ihres Projekts auf das Geschäft. Sie haben eine grobe Karte von Methoden und wissen, wie Sie sich orientieren - was zu Ihrem Fall am besten passt. Von dort aus sind Sie bereit für ein tieferes Tauchen. Narrative Karte - um Ihnen zu helfen zu navigieren Wir beginnen mit den Grundlagen - warum und wann es sich lohnt, überhaupt zu messen. Dann schauen wir uns an, was schief gehen kann und warum nicht jede Veränderung ein Experiment verdient. Von dort aus tauchen wir in den Goldstandard ein - A / B-Tests - und was zu tun ist, wenn Sie keinen ausführen können. Schließlich werden wir über Experimente hinaus zu kausalen Schlussfolgerungsmethoden gehen - und wie man dem vertraut, was man findet. Messung der Auswirkungen: Warum, wann und wie nicht When it’s worth measuring Wenn es sich lohnt zu messen Zuerst die Hauptgründe, die Sie vielleicht wirklich stören möchten. Risk & Value Wir haben bereits am Anfang den Wert berührt.Wir wollen messen, ob ein Feature genug liefert, um weitere Investitionen zu rechtfertigen.Wie viel, was seine Zukunft sein sollte. Aber vergessen Sie nicht den kritischen Faktor - Wenn Ihre glänzende neue Änderung tatsächlich die Dinge schlimmer macht - die Conversion-Raten sind gesunken, Benutzer sind frustriert, es gibt weniger Geld - Sie Vermeiden eines Scheiterns kann noch wichtiger sein als einen Aufstieg zu fangen. risk management. Definitiv Innovation Since the early Agile days, product development has been about rapid iterations, market arms races, and endless searches for product–market fit. Businesses do dozens of things simultaneously to stay competitive, and you might want to prioritize truly brilliant solutions among the merely good ones. Features that can truly change the game, things users truly need, or areas where a positive impact can be achieved with minimal investment. Numbers are much easier to compare than feelings, aren’t they? Optimization Die Schönheit eines bewussten, messgesteuerten Ansatzes ist, dass es Ihnen erlaubt, tiefer zu graben. Vielleicht sprang der Umsatz nicht sofort, aber die Benutzer lieben die neue Funktionalität und engagieren sich täglich damit. Vielleicht resoniert es mit einem bestimmten Segment, aber ärgert andere. Diese und andere Ideen eröffnen Möglichkeiten für weitere Optimierung. Natur ist Organization Arbeiten Sie an einem Ort, der darüber spricht, "datengesteuert" zu sein? oder vielleicht sind Sie persönlich der Typ, der Fakten über das Empfinden des Darms vertraut? When Not to Test Wenn nicht getestet Das heißt, dort Fälle, in denen Experimente keinen Sinn haben - oder überhaupt nicht möglich sind. sind Methodological limits Manchmal ist es einfach unmöglich, die Methoden anzuwenden. zu wenig Daten, um ein Ergebnis zu erhalten. Veränderungen zu klein, um zu erkennen. oder keine Hypothese überhaupt darüber, was sich verbessern sollte (in welchem Fall - warum war es notwendig, überhaupt etwas zu entwickeln?). Non-optional work Some changes are mandatory. Legal or compliance requirements are the classic case. Not AI-specific, but clear: you need to comply with GDPR, adapt your product for accessibility, and so on. You’re not expecting conversion lifts here - you’re doing it because you must. Das Gleiche gilt für Die Website gibt keinen 502-Fehler zurück.Wie ist das für Business-Wert? critical fixes or infrastructure updates. Ethical red lines Einige Messpraktiken überschreiten ethische Grenzen und tragen Risiken für Benutzerschäden oder manipulatives Design.Denken Sie an Experimente, die finanzielle Verluste auslösen oder Benutzerdaten kompromittieren könnten. Better alternatives Wenn die Anstrengung (Ressourcen) für Messungen höher sein kann als der Wert selbst, überspringen Sie es. Das einfachste Beispiel: Junge, schnelllebige Start-ups mit nur einer Handvoll Kunden sind in der Regel besser, wenn sie durch kurze Iterationen und direkte Benutzerfeedback nach Produkt-Markt-Fitness suchen. Wie nicht zu messen vor / nach Intuitiv ist der Drang, Folgendes zu tun: Sehen Sie wie es war Starten Sie das neue Feature Sehen Sie, wie es jetzt ist Sehen Sie ein positives Ergebnis profitieren Aber "es scheint jetzt besser" hat eine dunkle Seite.Viele Dinge ändern sich im Laufe der Zeit (Saisonalität, äußere Ereignisse, Verkehrsschwankungen). Verwechseln Sie Umweltveränderungen mit Feature-Effekten. Core issue: YoY (Jahr über Jahr) Vergleich Dieser vertraute und traditionelle Geschäftstrick ist perfekt für die Antwort auf die Frage: "Wachsen wir als Unternehmen insgesamt?". Und es ist in vielen Situationen nützlich, aber nicht in einer isolierten Bewertung der Implementierung oder Verbesserung einer Funktion. Stellen Sie sich vor, wie viel in der Wirtschaft in diesem Jahr passiert ist. Marketer, SEOs, Verkäufer, nennen Sie es - jeder um Sie herum hat unermüdlich gearbeitet, um Wachstum zu gewährleisten. Die Welt um uns herum steht auch nicht still. Tarife, Covid-19 und Kriege geschehen. Blogger und Prominente äußern ihre Meinungen. TikTok Trends verändern das Verhalten der Verbraucher, und Ihre Konkurrenten machen auch ihren Teil. Aber diese 10% ige Umsatzsteigerung im Januar war nur dank Ihres AI-Chatbots (Ernsthaft?). Zu lange ein Fenster - Dutzende anderer Änderungen passieren parallel. Jeder YoY Unterschied spiegelt alles wider, nicht Ihre Funktion. Core issue: Korrelation > Ursache Sie haben wahrscheinlich den Satz gehört, „Korrelation bedeutet nicht Kausalität.“ Aber was bedeutet es wirklich in der Praxis? Stellen Sie sich vor, Sie starten einen AI-Chatbot, und ein wenig danach steigt die Anzahl der abgeschlossenen Einkäufe. Es klingt so, als hätte der Chatbot den Anstieg verursacht, richtig? Vielleicht - oder vielleicht nicht. Wenn sich Verwendung und Ergebnisse zusammen bewegen, sieht es aus wie Ursache und Wirkung. Aber zur gleichen Zeit startete Ihr Marketing-Team eine neue Kampagne. Oder es gab einen saisonalen Höhepunkt, der zu dieser Jahreszeit immer ein Verkaufspike ist. oder ein Wettbewerber war aus dem Lager. oder... Sie wissen, es könnte viele Gründe geben. Und sie könnten alle die Zahlen zusammen oder anstelle Ihres Bot beeinflussen. Der komplizierte Teil ist, dass Daten nur verwandt aussehen können, weil zwei Dinge gleichzeitig passieren.Unsere Gehirne sind gut in der Erkennung von Mustern, aber das Geschäft ist voller paralleler Ereignisse und Lärm.Wenn wir nicht Ursache von Zufall trennen, riskieren wir, schlechte Entscheidungen zu treffen - wie mehr in eine Funktion zu investieren, die nicht wirklich für den Erfolg verantwortlich war. Correlation only shows that two things changed at the same time, but does not promise that one caused the other. Core issue: Der Goldstandard der Branche - Randomized Controlled Experiments (RCE) Glücklicherweise 8-9 mal von 10 werden Sie hier sein. und es ist wegen jener Fälle, dass RCE nicht genug ist, dass dieser Artikel kam. Aber lasst uns mit den guten Dingen beginnen. Klassische A/B Tests You're probably familiar with this method. It is summarized as follows: For example, that the description of goods and services generated with GenAI will be as good (or better) than the one written by a human. Or the block “Customers Also Bought / Frequently Bought Together” in an online store will stimulate customers to buy more staff. Personalized emails engage users more. And so on. We form a hypothesis. by which to determine the success/failure of the hypothesis. Define one or more metrics Consider possible cycles of product use. Calculate the sample size and duration of the experiment. into two (or more) groups and . The control group (a) sees the product without the new feature, and the experimental group sees the new version of the product containing the change we are testing. We check that the groups differ only in the presence or absence of the new feature. Randomly split the traffic run the experiment . We apply statistical methods, calculate the difference in metrics and make sure that it is statistically significant. Stage 0 could be an A/A test (when both groups see the same version of the product and we do not see any difference in their behavior) to make sure that the traffic separation and methodology works correctly Analysis Based on the analysis, a decision is made: use, refine or reject. Decision making and iteration. Its magical, wonderful world where there is a lot of control, a chance to double-check yourself, to measure your confidence in your results. Plenty of learning resources and experienced colleagues around. What could possibly go wrong? The main reasons why we will have to give up cozy classical AB tests: 1. is when the behavior of one group affects another. That means the control group also changes - even though it shouldn't. Spillover Effect A textbook example is the Facebook friend recommendation block. We hope that it will help users build social connections. Let's imagine that group A doesn't have such a block, but group B sees it. User John from group B sees such a block, sees user Michael from group A in it, and adds him as a friend. Both users have +1 friend, although Michael should have been in a group that is not affected by the tested feature. Let's look at a few different examples where the might occur Spillover Effect or . If we have very few users (unpopular part of the product, B2B, etc.) or we work with a very rare event (buying a very expensive product or someone actually read the Terms & Conditions). In such cases, it will take a huge amount of time to get a little bit significant result. 2. Few users rare events . If we launch a change that affects the environment and cannot be isolated to individual users. For example, we are testing an advertising auction algorithm - prices will change for all advertisers, not just for those we try to isolate into an experimental group. 3. Impact on external factors . Our chip can change the composition of groups. For example, it repels or attracts certain types of users. For example, if a new feature starts to attract newcomers (this is not our goal) and increases their share in the test group, while in the control group it remains unchanged - the groups will not be comparable. 4. Brand's Effect Die gute Nachricht ist, dass ein Teil des Problems gelöst wird, ohne außerhalb von RCE zu gehen, wobei im Grunde dieselbe Mechanik verwendet wird. There’s more to split than traffic! Es gibt mehr zu teilen als Verkehr! Einige der oben genannten Probleme können durch die Änderung nur eines Teils des Gesamttestdesigns gelöst werden. Lassen Sie uns einen Blick auf einen der tatsächlichen Fälle werfen. Nach vielen Zusammenfassungen und Analysten kommen verschiedene Co-Piloten und Assistenten an die Spitze der LLM-basierten Produkte. Sie führen sowohl in Popularität als auch in der "Überlebensrate", dh sie haben eine Chance, länger zu leben als MVPs. Das gemeinsame Merkmal dieser Art von Projekten ist, dass wir eine Lösung haben, die entwickelt wurde, um die Arbeit eines Mitarbeiters zu vereinfachen / zu beschleunigen.Es kann Call-Center-Betreiber, Vertriebsmitarbeiter, Finanzierende und so weiter sein.Aber meistens haben wir nicht so viele Mitarbeiter, um sie in zwei Gruppen zu unterteilen und ihre Geschwindigkeit / Effizienz mit und ohne Co-Pop zu messen. Hier ist ( ) is a real-life example. As part of the experiment, the researchers wanted to see how the use of AI tools affects the work of engineers. Would they close tasks faster if they were given a modern arsenal? But only 16 developers took part in the experiment, which is desperately small enough to hope to get confident results. Link Stattdessen teilen sich die Autoren So ist die Stichprobe hier nicht 16 Entwickler, sondern 246 Aufgaben. tasks Der P-Wert ist in Ordnung. Die Autoren analysierten und markierten Bildschirmaufnahmen, führten Interviews durch. Kurz gesagt, sie führten qualitative Forschung durch. Aber was uns jetzt wichtig ist, ist, im Rahmen unseres Themas Schlussfolgerungen zu ziehen, wir sind nicht an dieser Studie selbst interessiert, sondern an einem verständlichen Beispiel des Ansatzes. Let’s give this idea a skeleton. AI Copilots (Contact Centers / Dev Teams / etc.) Case: Why not user-split? „Nutzer“ sind hier Agenten/Devs; kleine Populationen + Ausfluss (gemeinsame Makros, Coaching, Shift-Effekte). Instead, randomize: Ticket / Gespräch (Zuweisung der Behandlung bei der Aufnahme). Oder Warteschlange / Absicht als Cluster (Billing, Tech, Returns usw.). Stratifizierung nach Kanal (Chat/E-Mail/Stimme) und Priorität/SLA; Monitor Automation Bias; Analyse mit Cluster-Robust SE. Design notes: Once you understand this principle, you can apply it to other entities as well. You can split time, geoposition, and more. Look for similar cases, get inspired and adapt. Sobald Sie dieses Prinzip verstanden haben, können Sie es auch auf andere Entitäten anwenden. Sie können Zeit, Geoposition und mehr aufteilen. Suchen Sie nach ähnlichen Fällen, inspirieren und anpassen. Ich werde eine Notiz für eine andere häufige Art von Aufgaben hinterlassen, in denen der klassische AB-Test möglicherweise nicht passt - Preisalgorithmen. Dynamische Preisgestaltung (Retail) Case: Why not user-split? Im Laden ist es unmöglich (und verwirrend), unterschiedlichen Personen unterschiedliche Preise zu zeigen. Online ist es oft illegal / unethisch und löst Fairness-Probleme. Instead, randomize: Zeit (Switchback) für denselben SKU×Store (z.B. nach Schichten/Tagen). (Optional) Clusters - SKU×Store (oder Store Clusters), geschichtet nach Kategorie/Verkehr Balance Tage der Woche / Saisonalität; verwenden Cluster-Robust SE; Warteschlangen auf Promo / Aktienüberschneidungen. Design notes: Wenn Randomisierung keine Option ist Wie messen Sie die Auswirkungen Ihrer Kern-AI-Funktion, wenn sie bereits für alle live ist oder Sie kein Experiment mit der Kontrollgruppe laufen können? Wir haben festgestellt, dass RCE aus einem Grund der Goldstandard ist, aber die saubere Welt der kontrollierten Experimente gibt oft Platz für die chaotische Realität des Geschäfts. Sooner or later, every product team faces a critical question that a classic A/B test can't answer. The only way forward is to expand your arsenal through quasi-experiments. Lassen Sie uns einige der beliebtesten erkunden und versuchen, ihre Essenz zu erfassen. Methoden Übersicht Das Propensity Score Matching (PSM) Die Geste: Sie können diese Methode in Betracht ziehen, wenn die Exposition gegenüber einer Behandlung nicht zufällig ist (zum Beispiel, wenn ein Benutzer selbst entscheidet, ob er eine von Ihnen entwickelte Funktion verwenden soll). Für jeden Benutzer, der die Behandlung erhalten hat, finden wir einen Benutzer, der nicht, aber die gleiche Wahrscheinlichkeit hatte, sie zu erhalten. Use Case: Stellen Sie sich vor, Sie haben ein sehr cooles, spielerisches Onboarding für Ihr Produkt geschaffen – zum Beispiel ein interaktives Tutorial mit einem Mascot. Benutzer, die sich entscheiden, das Onboarding abzuschließen, sind wahrscheinlich bereits mehr daran interessiert, das Produkt zu erkunden.Um die „reine“ Wirkung des Onboarding selbst zu messen, müssen Sie sie mit ähnlichen Benutzern vergleichen. Decision Guide Entscheidungshandbuch Technische Hinweise : (For the Advanced) : There are several ways to form pairs, each with its own trade-offs. Common methods include matching, matching, and matching . The choice depends on your data and research question. Matching Strategy Matters one-to-one one-to-many with or without replacement : After matching, you must verify that the characteristics (the covariates used to calculate the propensity score) are actually balanced between the treated and the newly formed control group. If they aren't, you may need to adjust your propensity score model or matching strategy. Always Check for Balance : The causal effect estimated with PSM is technically the "average treatment effect on the treated" (ATT). This means the result applies only to the types of users who were able to be matched, not necessarily to the entire population. The Effect is Not for Everyone : The final estimate is highly dependent on how the propensity score (the probability of treatment) was calculated. A poorly specified model will lead to biased results. The Result is Sensitive to the Model : PSM is intuitive, but sometimes simpler methods like regression adjustments or more advanced techniques (e.g., doubly robust estimators) can be more powerful or reliable. It's a good tool to have, but it's not a silver bullet. It's Not Always the Best Tool Matching Strategy Matters: Es gibt mehrere Möglichkeiten, Paare zu bilden, jede mit ihren eigenen Kompromissen. Häufig verwendete Methoden umfassen One-to-One-Matching, One-to-Many-Matching und Matching mit oder ohne Ersatz. Überprüfen Sie immer das Gleichgewicht: Nach der Übereinstimmung müssen Sie überprüfen, ob die Merkmale (die Covariates, die zur Berechnung des Neigungswertes verwendet werden) tatsächlich zwischen der behandelten und der neu gebildeten Kontrollgruppe ausgewogen sind. Die Wirkung ist nicht für alle: Die mit PSM geschätzte kausale Wirkung ist technisch der "durchschnittliche Behandlungseffekt auf den behandelten" (ATT). Das Ergebnis ist Modellempfindlich: Die endgültige Schätzung hängt stark davon ab, wie die Neigungsscore (die Wahrscheinlichkeit der Behandlung) berechnet wurde. Es ist nicht immer das beste Tool: PSM ist intuitiv, aber manchmal einfachere Methoden wie Regressionsanpassungen oder fortschrittlichere Techniken (z. B. doppelt robuste Schätzungen) können leistungsfähiger oder zuverlässiger sein. Die synthetische Kontrolle (SC) Die Geste: Das Ziel ist es, mehrere unbehandelte Einheiten zu finden, die denen ähnlich sind, die die Behandlung erhalten haben. Aus diesem Pool erstellen wir eine „synthetische“ Kontrollgruppe, indem wir sie so kombinieren, dass ihre Eigenschaften der behandelten Einheit ähneln. Diese „Kombination“ ist im Wesentlichen eine von den Einheiten der Kontrollgruppe (häufig als „Spenderpool“ bezeichnet). Die Gewichte werden gewählt, um den Unterschied zwischen der behandelten Einheit und der synthetischen Version während der . weighted average pre-treatment period Use Case: Stellen Sie sich vor, Ihr Lebensmittellieferungsunternehmen implementiert ein neues KI-basiertes Logistiksystem, um die Lieferzeiten in einer ganzen Stadt wie Manchester zu reduzieren. Ein klassischer A/B-Test ist unmöglich, weil das System alle Kurier und Kunden gleichzeitig betrifft. Sie können auch die Leistung von Manchester nicht einfach mit einer anderen Stadt vergleichen, wie Birmingham, weil einzigartige lokale Ereignisse oder wirtschaftliche Trends dort den Vergleich verzerren würden. Um die wahre Wirkung zu messen, müssen Sie eine „synthetische“ Steuerung aufbauen, die perfekt die Trends vor dem Start von Manchester widerspiegelt. Hier ist, wie das "synthetische Zwilling" gebaut wird. Die Methode betrachtet die Periode Der Start nutzt einen „Spenderpool“ anderer Städte (z.B. Birmingham, Leeds und Bristol), um das perfekte „Rezept“ für die Replikation der Vergangenheit von Manchester zu erstellen. had a performance history that was a near-perfect match for Manchester's own. before "40% Birmingham + 35% Leeds + 25% Bristol" Sobald dieses Rezept eingeschlossen ist, wird es verwendet, um zu projizieren, was ohne das neue System geschehen wäre. Vom Starttag an berechnet das Modell die Leistung von "Synthetic Manchester" indem es das Rezept auf die tatsächlichen, Echtzeitdaten der Spenderstädte anwendet. Diese synthetische Version repräsentiert den wahrscheinlichsten Weg, den der echte Manchester genommen hätte. Der Unterschied zwischen der verbesserten Lieferzeit des echten Manchester und der Leistung seines synthetischen Zwillings ist der wahre, isolierte Effekt Ihres neuen KI-Systems. Decision Guide Entscheidungshandbuch Technische Hinweise : (For the Advanced) Always inspect the weights assigned to the units in the donor pool. If one unit receives almost all the weight (e.g., 99%), your "synthetic control" has essentially collapsed into a simple (DiD) model with a single, chosen control unit. This can indicate that your donor pool is not diverse enough. Weight Transparency and Diagnostics: Difference-in-Differences The original Synthetic Control method has inspired more advanced versions. Two popular ones are: Modern Extensions Exist: An extension that allows for multiple treated units and can perform better when a perfect pre-treatment fit is not achievable. Generalized Synthetic Control (GSC): A hybrid method that combines the strengths of both synthetic controls (for weighting control units) and difference-in-differences (for weighting time periods). It is often more robust to noisy data. Synthetic Difference-in-Differences (SDID): Gewicht Transparenz und Diagnose: Überprüfen Sie immer die den Einheiten im Spenderpool zugewiesenen Gewichte.Wenn eine Einheit fast das gesamte Gewicht (z.B. 99 %) erhält, ist Ihre „synthetische Steuerung“ im Wesentlichen in ein einfaches Differenz-in-Differenzen-Modell (DiD) mit einer einzigen, ausgewählten Steuerungseinheit zusammengebrochen. The original Synthetic Control method has inspired more advanced versions. Two popular ones are: Modern Extensions Exist: An extension that allows for multiple treated units and can perform better when a perfect pre-treatment fit is not achievable. Generalized Synthetic Control (GSC): A hybrid method that combines the strengths of both synthetic controls (for weighting control units) and difference-in-differences (for weighting time periods). It is often more robust to noisy data. Synthetic Difference-in-Differences (SDID): Differenz in Differenzen (DID) Die Geste: Wir nehmen eine Gruppe, in der sich etwas geändert hat (z.B. wir haben ein neues Feature) und eine Gruppe, in der alles gleich bleibt. Die zweite Gruppe sollte so sein, dass historisch der Trend der Schlüsselmetrik darin derselbe war wie in der Gruppe mit der Funktion. Auf dieser Grundlage gehen wir davon aus, dass ohne unsere Intervention die Trends der Metriken parallel wären. Wir betrachten die Vor- und Nachunterschiede in den beiden Gruppen. Die Idee ist einfach: Ohne uns hätten sich beide Gruppen ohne Veränderung das Gleiche entwickelt, aber bei uns wird der Unterschied zwischen ihren Veränderungen der „nette“ Effekt der Implementierung unserer Funktion sein. Use Case(s): The method is very popular, let's even look at a few case studies. Eine Region (Land, Stadt) erhält das neue Rabattsystem (oder AI-Dienst), während eine andere nicht. Ein LLM wird verwendet, um ein optimiertes XML-Feed für Google Shopping für eine Produktkategorie zu generieren. Dies umfasst das Erstellen von ansprechenderen Titeln und detaillierten Produktbeschreibungen. Eine zweite, ähnliche Kategorie mit einem Standard, Template-basierten Feed wird als Kontrollgruppe verwendet. Wir vergleichen dann die Änderung in Metriken wie CTR oder Conversions zwischen den beiden Gruppen. Ähnliche Mechaniken können mit SEO funktionieren. Die Warnung: Die organischen Verkehrstrends für verschiedene Kategorien (z.B. „Laptops“ und „Hundefutter“) können sich aufgrund der Saisonalität oder Wettbewerbsmaßnahmen stark unterscheiden. Die Warnung: Measuring the impact of a feature launched only on Android, using iOS users as a control group to account for general market trends. Caveat: A very common case in practice, but methodologically risky. Android and iOS audiences often have different demographics, purchasing power, and behavioral patterns. Any external event (e.g., a marketing campaign targeting iOS users) can break the parallel trends and distort the results. Die Warnung: Decision Guide Entscheidungshandbuch Technische Hinweise : (For the Advanced) The power of DiD lies in shifting the core assumption from the often-unrealistic "the groups are identical" to the more plausible "the groups' are identical." A simple post-launch comparison between Android and iOS is flawed because the user bases can be fundamentally different. A simple before-and-after comparison on Android alone is also flawed due to seasonality and other time-based factors. DiD elegantly addresses both issues by assuming that while the absolute levels of a metric might differ, their "rhythm" or dynamics would have been the same in the absence of the intervention. This makes it a robust tool for analyzing natural experiments. The Core Strength: trends While DiD is simple in its basic 2x2 case, it can become quite complex. Challenges arise when dealing with multiple time periods, different start times for the treatment across groups (staggered adoption), and when using machine learning techniques to control for additional covariates. Deceptive Simplicity: The problem of : the classical DiD model is ideal for cases where one group receives the intervention at one point in time. But in life, as you know, different subgroups (e.g. different regions or user groups) often receive the function at different times. and this is when applying standard DiD regression can lead to highly biased results. This is because groups already treated may be implicitly used as controls for groups treated later, which can sometimes even change the sign of the estimated effect. "Staggered Adoption" of the treatment effect: a simple DiD model implicitly assumes that the treatment effect is constant across all and over time. In reality, the effect may evolve (e.g., it may increase as users become accustomed to the feature) or vary between different subgroups. There are studies that show this and there are specific evaluation methods that take this effect into account. At least we think so until a new study comes out, right? Heterogeneity Die Kernstärke: Die Macht von DiD liegt darin, die Kernannahme von der oft unrealistischen "die Gruppen sind identisch" auf die plausibleren "die Trends der Gruppen sind identisch" zu verschieben. Ein einfacher Vergleich nach dem Launch zwischen Android und iOS ist fehlerhaft, weil die Benutzerbasen grundlegend unterschiedlich sein können. Ein einfacher Vor- und Nachvergleich auf Android allein ist auch aufgrund der Saisonalität und anderer zeitbasierter Faktoren fehlerhaft. DiD befasst sich elegant mit beiden Problemen, indem er davon ausgeht, dass die absoluten Ebenen einer Metrik sich unterscheiden könnten, ihr "Rhythmus" oder ihre Dynamik in Abwesenheit der Intervention gleich wäre. Betrügerische Einfachheit: Während DiD in seinem grundlegenden 2x2-Fall einfach ist, kann es ziemlich komplex werden. Herausforderungen entstehen, wenn man sich mit mehreren Zeiträumen, unterschiedlichen Startzeiten für die Behandlung in verschiedenen Gruppen (Staggered Adoption) beschäftigt und wenn man maschinelle Lerntechniken verwendet, um zusätzliche Covariates zu kontrollieren. Das Problem der "Staggered Adoption" : Das klassische DiD-Modell ist ideal für Fälle, in denen eine Gruppe die Intervention zu einem bestimmten Zeitpunkt erhält. Aber im Leben, wie Sie wissen, erhalten verschiedene Untergruppen (z. B. verschiedene Regionen oder Benutzergruppen) oft die Funktion zu verschiedenen Zeiten. und dies ist, wenn die Anwendung der Standard DiD-Regression zu hochvoreingenommenen Ergebnissen führen kann. of the treatment effect: a simple DiD model implicitly assumes that the treatment effect is constant across all and over time. In reality, the effect may evolve (e.g., it may increase as users become accustomed to the feature) or vary between different subgroups. There are studies that show this and there are specific evaluation methods that take this effect into account. At least we think so until a new study comes out, right? Heterogeneity Regressionsdiskontinuitätsdesign (RDD) The Gist: If a user gets a treatment based on a rule with a cutoff value (e.g., "made 100 orders" or “exist 1 month”), we assume that those just below the cutoff are very similar to those just above it. For example, a user with 99 orders is almost identical to a user with 101 orders. The only difference is that the person with 101 got the treatment, and the person with 99 didn't. This means we can try to compare them to see the effect. Use Case(s): Ein Treueprogramm bietet RDD würde das Verhalten (z. B. Aufbewahrung, zukünftige Ausgaben) von Nutzern vergleichen, die ausgegeben haben Diejenigen, die ausgegeben haben Ein scharfer Unterschied in ihrem Verhalten direkt bei der 1000-Dollar-Marke wäre der Effekt, den "Gold Status" zu erhalten. "Gold Status" $1001 $999 Eine E-Commerce-Website bietet Kunden verschiedene Versandoptionen basierend auf ihrer Ankunftszeit. erhalten 2-tägigen Versand, während jeder Kunde ankommt gets a 3-day shipping window. The site wants to measure the causal effect of this policy on the checkout probability. before noon just after noon Decision Guide Entscheidungshandbuch Technische Hinweise : (For the Advanced) This article focuses on , where crossing the cutoff guarantees the treatment. A variation called exists for cases where crossing the cutoff only of receiving the treatment. Sharp RDD Fuzzy RDD increases the probability The first step in any RDD analysis is to . You should plot the outcome variable against the running variable. The "jump" or discontinuity at the cutoff should be clearly visible to the naked eye. plot the data A crucial step is choosing the right , or how far from the cutoff you look for data. It's a trade-off between bias and variance: bandwidth More accurate assumption (users are very similar), but fewer data points (high variance, low power). Narrow Bandwidth: More data points (low variance, high power), but a riskier assumption (users might be too different). Wide Bandwidth: Dieser Artikel konzentriert sich auf Sharp RDD, wo das Überschreiten des Schnittes die Behandlung garantiert.Eine Variation namens Fuzzy RDDexistiert für Fälle, in denen das Überschreiten des Schnittes nur die Wahrscheinlichkeit erhöht, die Behandlung zu erhalten. Der erste Schritt in jeder RDD-Analyse besteht darin, die Daten zu entwerfen. Sie sollten die Ergebnisvariable gegen die laufende Variable entwerfen. Der "Sprung" oder die Diskontinuität beim Schneiden sollte mit bloßem Auge deutlich sichtbar sein. A crucial step is choosing the right , or how far from the cutoff you look for data. It's a trade-off between bias and variance: bandwidth More accurate assumption (users are very similar), but fewer data points (high variance, low power). Narrow Bandwidth: More data points (low variance, high power), but a riskier assumption (users might be too different). Wide Bandwidth: Bayesian Structural Time Series (BSTS) Die Bayesian Structural Time Series (BSTS) Basierend auf Daten vor dem Ereignis baut das Modell eine Vorhersage auf, was ohne unsere Intervention geschehen wäre. Um dies zu tun, stützt es sich auf andere, ähnliche Zeitserien, die von der Änderung nicht betroffen waren. Der Unterschied zwischen dieser Vorhersage und der Realität ist der geschätzte Effekt. Wir haben zuvor Synthetic Control angesehen; denken Sie an BSTS als die gleiche Idee, den Einfluss über ähnliche, unberührte Einheiten zu schätzen, aber . In Simple Terms: mit Steroiden Der Hauptunterschied von Synthetic Control ist, dass für den Bau der Prognose, es verwendet ein Bayesian-Modell anstelle einer Multiplikation von Gewichten. Key Idea: You changed the pricing policy for one product category. To measure the effect, the model uses sales from other, similar categories to forecast what the sales in your category would have been Der Preis ändert sich. Use Case: ohne Es gibt ausgezeichnete fertige Bibliotheken für die Arbeit mit BSTS (wie Google ), with which you can get it done in 10-20 lines of code. Just don't forget to run the tests (see the block below). CausalImpact Es gibt ausgezeichnete fertige Bibliotheken für die Arbeit mit BSTS (wie Google ), mit dem Sie es in 10-20 Zeilen des Codes fertig bekommen können. vergessen Sie nicht, die Tests auszuführen (siehe Block unten). CausalImpact Instrumental Variables (IV) Instrumentelle Variablen (IV) Eine Methode für Situationen, in denen ein versteckter Faktor (wie Motivation) sowohl die Wahl des Benutzers als auch das Endergebnis beeinflusst. In Simple Terms: Um einen "indirekten Hebel" zu finden, um nur das zu bewegen, was nötig ist. Key Idea: (akademisch) Sie möchten die Wirkung von TV-Anzeigen auf den Verkauf messen, aber die Anzeigen werden in Regionen angezeigt, in denen Menschen bereits mehr kaufen. could be the weather: on rainy days, people watch more TV (and see the ad), but the weather itself doesn't directly make them buy your product. This allows you to isolate the ad's effect from the region's wealth factor. Use Case: instrument Das Double Machine Learning (DML) Ein moderner Ansatz, der zwei ML-Modelle verwendet, um sowohl die Behandlung als auch das Ergebnis vom Einfluss von Hunderten anderer Faktoren „zu reinigen“. Indem man nur analysiert, was nach dieser „Reinigung“ (den Rückständen) übrigbleibt, findet die Methode die reine Ursache- und Wirkungseffektwirkung. Die Hauptstärke von DML - wo A/B-Test unmöglich oder sehr schwer durchzuführen ist. Meistens handelt es sich um Selbstselektionssituationen, wenn Benutzer für sich entscheiden, ob sie ein Feature verwenden oder nicht. In Simple Terms: Um ML zu verwenden, um alle "Lärm" zu entfernen und nur das reine "Ursache und Wirkung" -Signal zu hinterlassen. Key Idea: Zum Beispiel in einer Fintech-Anwendung. Sie starten eine neue Premium-Funktion: einen KI-Assistent, der Ausgaben analysiert und personalisierte Sparberatungen gibt. Der Service ist nicht standardmäßig aktiviert, der Benutzer muss ihn selbst in den Einstellungen aktivieren. Use Case: It's great for use in tandem with other methods and can often be used when simpler approaches are not suitable. Es ist großartig für den Einsatz im Tandem mit anderen Methoden und kann oft verwendet werden, wenn einfachere Ansätze nicht geeignet sind. Wie kann ich sicherstellen, dass alles richtig funktioniert? Herzlichen Glückwunsch, Sie haben einen langen Weg gemacht, indem Sie diese gesamte Rezension gelesen haben. Fair genug, Sie haben vielleicht einen Gedanken gehabt: Diese Methoden sind ziemlich komplex, wie kann ich sicher sein, dass ich es richtig gemacht habe? Heck, das ist die richtige Ansicht. The general idea of checking the correctness of estimation methods is summarized as follows: We’re measuring the effect where it clearly shouldn’t be — just to make sure it isn’t there. With RCE, it's pretty simple - we need an A/A test. We run the experiment according to our design: exactly the same metrics, splitting, etc. Except that we do NOT show our new feature to both groups. As a result, we shouldn't see any difference between them. Sometimes it makes sense to do backtesting in the same way: after the feature has worked for a while, roll it back for some traffic and check that the effect is still the same as what we saw when we did the AB test the first time. Aber Quasi-Experimente sind ein wenig komplizierter.Jede der Methoden hat ihre eigene Spezifität und kann ihre eigenen speziellen Möglichkeiten enthalten, um die Richtigkeit der Implementierung zu überprüfen. Robustness Checks Um sicherzustellen, dass der Effekt, den wir gefunden haben, kein Zufall oder Modellfehler ist, führen wir eine Reihe von „Stress-Tests“ durch. Die Idee ist die gleiche: Wir schaffen Bedingungen, unter denen der Effekt nicht auftreten sollte. Here are some key checks: Placebo Tests Der Placebo-Test Dieser Test überprüft die Einzigartigkeit Ihres Effekts im Vergleich zu anderen Objekten in Ihrem Datensatz. Take, for example, the synthetic control method. We have one “treated” subject (who was exposed) and many “clean” subjects in a control group (no exposure). We pretend in turn that each of the objects in the control group was affected, and construct our “synthetic control” for them. How to do: In einer idealen Welt sollten wir für all diese „falschen“ Tests keine so starke Wirkung wie für unseren echten Fall sehen. What to expect: Wenn unsere Methode signifikante Effekte in Subjekten findet, in denen nichts passiert ist, ist es auch wahrscheinlich, dass unsere Hauptfunde nur Lärm oder eine statistische Anomalie sind, keine wirkliche Wirkung. Why it's needed: Placebo in der Zeit We artificially shift the date of our intervention into the past. For example, if the actual ad campaign started on May 1st, we “tell” the model that it started on April 1st when nothing actually happened. How to do it: Das Modell sollte keine bedeutende Wirkung auf dieses gefälschte Datum erkennen. What to expect: Dies hilft sicherzustellen, dass das Modell auf unser Ereignis reagiert und nicht auf zufällige Schwankungen in den Daten oder einen saisonalen Trend, der zufällig am Tag unseres Eingriffs aufgetreten ist. Why: In-space Placebo This test checks the reliability of your model by testing it for its tendency to produce false positives on completely independent data. Wenn Sie Daten haben, die mit Ihren Zieldaten ähnlich sind, aber die von der Intervention definitiv nicht betroffen sind, verwenden Sie sie. Zum Beispiel haben Sie eine Promotion in einer Region gestartet. Nehmen Sie Verkaufsdaten aus einer anderen Region, in der die Promotion nicht stattgefunden hat, und wenden Sie Ihr Modell mit demselben tatsächlichen Interventionsdatum an. How to do: Das Modell sollte für diese "Kontroll" -Daten keine Wirkung finden. What to expect: Wenn Ihr Modell Effekte findet, wo immer Sie es anwenden, können Sie seinen Schlussfolgerungen auf der Zielreihe nicht trauen. Dieser Test zeigt, dass das Modell nicht "halluziniert", indem es Effekte aus dem Nichts schafft. Why: Beschlusskarte (Anstelle von Schlussfolgerungen) Wenn Sie hier alles gelesen (oder geschaut) haben, benötigen Sie vermutlich keine weitere schöne Übersicht darüber, warum es so wichtig ist, die Ergebnisse der AI / ML-Implementierung einer Funktion zu messen. Es ist viel wertvoller für Sie, wenn Sie ein nützliches Entscheidungsinstrument bekommen. Der Rahmen sieht so aus. Measure through AB test. Überprüfen Sie den AB-Test. Denken Sie an verschiedene Split-Einheiten und Clustern, um immer noch RCE anzuwenden. Below is a cheat sheet on choosing a Causal Inference method to quickly figure out which one is right for you. Gehen Sie zurück zum Teil des Artikels, wo ich es in Laienbegriffen erkläre. After that, go to the manuals and guides on this method Hilfreiches Material : Verwendet in diesem Artikel und sehr zu empfehlen für ein tieferes Tauchen in das Thema Verstehen Sie den gesamten Kreislauf der Erstellung von AI/ML-Lösungen durch und Maschinelles Lernen System Design Valerii Babushkin Arseny Kravchenko Der Weg in die Welt der RCE von Ron Kohavi, Diane Tang, Ya Xu Vertrauenswürdige online kontrollierte Experimente Wo die kausale Inferenz im Detail zu verstehen: Miguel Hernan und Jamie Robins: „Causal Inference: What If“ Kausale Inferenz für den Mutigen und wahren Ursache ML Buch