Qu’on le veuille ou non, la réalité est la suivante : le simple fait que votre produit ou votre fonctionnalité utilise l’IA/ML ne suffit pas. Au moins pas si vous voulez un effet positif durable. Au-delà de l'hype et du buzz viral, les affaires sont toujours sur le profit, le ROI et les mesures de croissance. C'est sa nature, dans la plupart des cas. Ce qui signifie que pour nous, les personnes qui construisons ces projets, il est essentiel de savoir comment mesurer l'impact de l'IA / ML. À la fois au début et après chaque amélioration. Dans cet article, nous allons examiner le kit d’outils qui nous aide à mesurer l’effet de l’adoption de l’IA et à avoir une idée de la façon dont ces méthodes fonctionnent.Je vais simplifier beaucoup de choses et garder beaucoup de détails derrière le rideau (ou pour des sections séparées), juste pour abaisser la barrière d’entrée. À la fin, vous aurez une compréhension des principales approches pour mesurer l'impact de votre projet sur les affaires. Vous aurez une carte brute de méthodes et saurez vous orienter - ce qui convient le mieux à votre cas. De là, vous serez prêt pour une plongée plus profonde. Carte narrative - pour vous aider à naviguer Nous allons commencer par les bases - pourquoi et quand il vaut la peine de mesurer du tout. Ensuite, nous allons examiner ce qui peut aller mal et pourquoi tous les changements ne méritent pas une expérience. De là, nous nous plongerons dans le standard d'or - les tests A / B - et ce qu'il faut faire lorsque vous ne pouvez pas en exécuter un. Enfin, nous allons aller au-delà des expériences aux méthodes de déduction causale - et comment faire confiance à ce que vous trouvez. Mesurer l’impact : pourquoi, quand et comment ne pas When it’s worth measuring Quand il vaut la peine de mesurer Tout d’abord, les principales raisons pour lesquelles vous pourriez vouloir vous déranger. Risk & Value Nous avons déjà touché à la valeur au début.Nous voulons mesurer si une fonctionnalité fournit assez pour justifier un investissement supplémentaire.Combien, quel devrait être son avenir. Mais n'oubliez pas le facteur critique - Si votre nouveau changement lumineux rend réellement les choses pires - les taux de conversion ont chuté, les utilisateurs quittent dans la frustration, il y a moins d'argent - vous Pour éviter un échec, cela peut être encore plus important que d’attraper un rebond. risk management. définitivement Innovation Depuis les premiers jours d’Agile, le développement de produits a été axé sur des itérations rapides, des courses d’armes sur le marché et des recherches sans fin pour trouver un produit adapté au marché.Les entreprises font des dizaines de choses en même temps pour rester compétitives, et vous voudrez peut-être privilégier les solutions vraiment brillantes parmi les simples bonnes.Fonctions qui peuvent vraiment changer le jeu, les choses dont les utilisateurs ont vraiment besoin, ou les domaines où un impact positif peut être atteint avec un investissement minimal.Les chiffres sont beaucoup plus faciles à comparer que les sentiments, n’est-ce pas? Optimization La beauté d'une approche consciente et axée sur la mesure est qu'elle vous permet de creuser plus profondément. de vos résultats. Peut-être que les revenus n'ont pas sauté immédiatement, mais les utilisateurs aiment la nouvelle fonctionnalité et s'y engagent quotidiennement. Peut-être que cela résonne avec un segment particulier mais dérange les autres.Ces idées et d'autres ouvrent des opportunités pour une optimisation plus approfondie. nature Organization Travaillez-vous dans un endroit qui parle d’être « basé sur les données » ? ou peut-être êtes-vous personnellement le type qui fait confiance aux faits au-delà du sentiment intestinal ? alors c’est là que vous voulez être : apprendre à mesurer l’effet et à vous assurer que vos résultats vous mènent effectivement vers les objectifs que vous avez fixés. When Not to Test When Not to Test Cela dit, là cas où les expériences n'ont pas de sens - ou ne sont pas possibles du tout. sont Methodological limits Parfois, il est tout simplement impossible d'appliquer les méthodes. Trop peu de données pour obtenir un résultat. Changements trop petits pour être détectés. Ou pas d'hypothèse du tout sur ce qui devrait s'améliorer (dans ce cas - pourquoi était-il nécessaire de développer quelque chose du tout?). Non-optional work Some changes are mandatory. Legal or compliance requirements are the classic case. Not AI-specific, but clear: you need to comply with GDPR, adapt your product for accessibility, and so on. You’re not expecting conversion lifts here - you’re doing it because you must. Il en va de même pour Le site ne renvoie pas une erreur 502. critical fixes or infrastructure updates. Ethical red lines Certaines pratiques de mesure franchissent les frontières éthiques, portant des risques de dommages aux utilisateurs ou de conception manipulative. pensez à des expériences qui pourraient déclencher des pertes financières ou compromettre les données des utilisateurs. Better alternatives Parfois, cela ne vaut tout simplement pas la peine.Si l'effort (ressources) dépensé sur les mesures peut être supérieur à la valeur elle-même, sautez-le. L’exemple le plus simple: les start-ups jeunes et en mouvement rapide avec seulement une poignée de clients sont généralement mieux à la poursuite du produit-marché à travers de courtes itérations et des commentaires directs des utilisateurs. Comment ne pas mesurer Avant et après Intuitivement, l’urgence est de faire ce qui suit : Voyez comment c'était Lancez la nouvelle fonctionnalité Voyez comme c'est maintenant Voir un résultat positif Le profit Mais "il semble mieux maintenant" a un côté sombre.De nombreuses choses changent au fil du temps (saisonnalité, événements externes, changements de trafic). Confondre les changements environnementaux avec les effets des caractéristiques. Core issue: Comparaison de l’année (YY) Cette astuce d’affaires familière et traditionnelle est parfaite pour répondre à la question « Sommes-nous en pleine croissance en tant qu’entreprise ? ». Et il est utile dans de nombreuses situations, mais pas dans une évaluation isolée de la mise en œuvre ou de l'amélioration d'une fonctionnalité. Imaginez combien de choses se sont passées dans les affaires cette année. Les marchands, les SEO, les vendeurs, vous le nommez - tout le monde autour de vous a travaillé sans relâche pour assurer la croissance. Le monde autour de nous ne se tient pas debout non plus. Les tarifs, Covid-19 et les guerres se produisent. Les blogueurs et les célébrités expriment leurs opinions. Les tendances TikTok changent le comportement des consommateurs et vos concurrents font leur part aussi. Mais cette augmentation de 10% du chiffre d'affaires en janvier a été seulement grâce à votre chatbot AI (Sérieusement?). Une fenêtre trop longue - des dizaines d'autres changements se produisent en parallèle. Toute différence de YoY reflète tout, pas votre fonctionnalité. Core issue: Corrélation > Cause Vous avez probablement entendu la phrase, « Corrélation ne signifie pas causalité. » Mais que signifie-t-il vraiment dans la pratique? Imaginez que vous lancez un chatbot d'IA, et un peu après cela, le nombre d'achats achetés augmente. Cela sonne comme si le chatbot a causé l'augmentation, non? Peut-être - ou peut-être pas. Quand l'utilisation et les résultats se déplacent ensemble, cela ressemble à une cause et à un effet. Mais en même temps, votre équipe de marketing a lancé une nouvelle campagne. Ou il y avait un pic saisonnier, qui est toujours un pic de ventes à cette époque de l'année. Ou un concurrent est sorti de stock. Ou... vous savez, il pourrait y avoir beaucoup de raisons. Et ils pourraient tous affecter les chiffres ensemble ou à la place de votre bot. La partie difficile est que les données ne peuvent paraître liées que parce que deux choses se produisent en même temps.Nos cerveaux sont bons à reconnaître les schémas, mais les affaires sont pleines d'événements parallèles et de bruit.Si nous ne séparons pas la cause de la coïncidence, nous risquons de prendre de mauvaises décisions - comme investir davantage dans une fonctionnalité qui n'était pas réellement responsable du succès. La corrélation montre seulement que deux choses ont changé en même temps, mais ne promet pas que l'une a causé l'autre. Core issue: La norme d'or de l'industrie - Expériences contrôlées randomisées (RCE) 10 fois sur 10 vous voulez être ici. Heureusement 8-9 fois sur 10 vous serez ici. Et c'est à cause de ces cas que RCE n'est pas suffisant que cet article est venu sur. Mais commençons par les bonnes choses. Les tests A/B classiques Vous êtes probablement familier avec cette méthode. Il est résumé comme suit: For example, that the description of goods and services generated with GenAI will be as good (or better) than the one written by a human. Or the block “Customers Also Bought / Frequently Bought Together” in an online store will stimulate customers to buy more staff. Personalized emails engage users more. And so on. We form a hypothesis. by which to determine the success/failure of the hypothesis. Define one or more metrics Consider possible cycles of product use. Calculate the sample size and duration of the experiment. into two (or more) groups and . The control group (a) sees the product without the new feature, and the experimental group sees the new version of the product containing the change we are testing. We check that the groups differ only in the presence or absence of the new feature. Randomly split the traffic run the experiment . We apply statistical methods, calculate the difference in metrics and make sure that it is statistically significant. Stage 0 could be an A/A test (when both groups see the same version of the product and we do not see any difference in their behavior) to make sure that the traffic separation and methodology works correctly Analysis Based on the analysis, a decision is made: use, refine or reject. Decision making and iteration. Its magical, wonderful world where there is a lot of control, a chance to double-check yourself, to measure your confidence in your results. Plenty of learning resources and experienced colleagues around. What could possibly go wrong? The main reasons why we will have to give up cozy classical AB tests: 1. is when the behavior of one group affects another. That means the control group also changes - even though it shouldn't. Spillover Effect A textbook example is the Facebook friend recommendation block. We hope that it will help users build social connections. Let's imagine that group A doesn't have such a block, but group B sees it. User John from group B sees such a block, sees user Michael from group A in it, and adds him as a friend. Both users have +1 friend, although Michael should have been in a group that is not affected by the tested feature. Let's look at a few different examples where the might occur Spillover Effect or . If we have very few users (unpopular part of the product, B2B, etc.) or we work with a very rare event (buying a very expensive product or someone actually read the Terms & Conditions). In such cases, it will take a huge amount of time to get a little bit significant result. 2. Few users rare events . If we launch a change that affects the environment and cannot be isolated to individual users. For example, we are testing an advertising auction algorithm - prices will change for all advertisers, not just for those we try to isolate into an experimental group. 3. Impact on external factors . Our chip can change the composition of groups. For example, it repels or attracts certain types of users. For example, if a new feature starts to attract newcomers (this is not our goal) and increases their share in the test group, while in the control group it remains unchanged - the groups will not be comparable. 4. Brand's Effect La bonne nouvelle est que une partie du problème est résolue sans aller en dehors de la RCE, en utilisant essentiellement la même mécanique. There’s more to split than traffic! Il y a plus à partager que le trafic ! Certains des problèmes ci-dessus peuvent être résolus en modifiant seulement une partie de la conception globale du test. Selon de nombreux résumés et analystes, différents co-pilotes et assistants sortent en tête des produits basés sur LLM. Ils sont à la fois à la pointe de la popularité et du « taux de survie », c'est-à-dire qu'ils ont une chance de vivre plus longtemps que les MVP. La caractéristique commune de ce type de projets est que nous avons une solution conçue pour simplifier / accélérer le travail d'un employé. Il peut s'agir d'opérateurs de centres d'appels, de personnes de vente, de personnes de financement, etc. Mais le plus souvent, nous n'avons pas assez d'employés pour les diviser en deux groupes et mesurer leur vitesse / efficacité avec et sans copilote. Ici ( Dans le cadre de l'expérience, les chercheurs ont voulu voir comment l'utilisation des outils d'IA affecte le travail des ingénieurs. - Est-ce qu'ils fermeraient les tâches plus rapidement s'ils avaient un arsenal moderne? - Mais seulement 16 développeurs ont participé à l'expérience, qui est désespérément assez petite pour espérer obtenir des résultats confiants. Le lien Les auteurs se partagent Donc l'échantillon ici n'est pas 16 développeurs, mais 246 tâches. tasks La valeur P est OK. Les auteurs ont analysé et marqué les enregistrements d'écran, ont mené des interviews. En bref, ils ont fait des recherches qualitatives. Quand les résultats de la recherche qualitative et quantitative sont cohérents, c'est un signal fort. Mais ce qui est important pour nous maintenant, c’est de tirer des conclusions dans le cadre de notre sujet, nous ne sommes pas intéressés par cette étude elle-même, mais par un exemple compréhensible de l’approche. Let’s give this idea a skeleton. Copilots d’IA (centres de contact / équipes de développement / etc) Case: Why not user-split? Les « utilisateurs » sont ici des agents/devs; petites populations + déversements (macros partagés, coaching, effets de changement). Instead, randomize: Billet / conversation (attribuer un traitement à la réception). Ou queue / intention en tant que cluster (facturation, technologie, rendements, etc.). Stratification par canal (chat/email/voix) et priorité/SLA; contrôle des préjugés d’automatisation; analyse avec cluster-robust SE. Design notes: Une fois que vous avez compris ce principe, vous pouvez également l'appliquer à d'autres entités. Vous pouvez diviser le temps, la géoposition et plus encore. Cherchez des cas similaires, soyez inspiré et adapté. Une fois que vous avez compris ce principe, vous pouvez également l'appliquer à d'autres entités. Vous pouvez diviser le temps, la géoposition et plus encore. Cherchez des cas similaires, soyez inspiré et adapté. Je vais laisser une note pour un autre type fréquent de tâches où le test AB classique ne convient peut-être pas - les algorithmes de prix. Les prix dynamiques (Retail) Case: Why not user-split? En magasin, il est impossible (et déroutant) de montrer des prix différents à des personnes différentes. En ligne, c’est souvent illégal / non éthique et déclenche des problèmes d’équité. Instead, randomize: Temps (switchback) pour le même SKU×store (par ex. par shifts/jours). (Optionnel) Clusters - SKU×store (ou clusters de magasins), stratifiés par catégorie/trafic balance days of week/seasonality; use cluster-robust SE; guardrails on promo/stock overlaps. Design notes: Quand la randomisation n’est pas une option Comment mesurer l'impact de votre fonctionnalité d'IA de base quand elle est déjà disponible pour tout le monde ou que vous ne pouvez pas exécuter une expérience avec un groupe de contrôle? Nous avons établi que RCE est la norme d'or pour une raison, mais le monde propre des expériences contrôlées donne souvent la place à la réalité confuse des affaires. Tôt ou tard, chaque équipe de produits est confrontée à une question critique à laquelle un test A/B classique ne peut pas répondre. Explorons quelques-uns des plus populaires et essayons de capturer leur essence.Quand le temps viendra, vous saurez où creuser. Méthodes d'examen Comparaison de score de propensité (PSM) Le Gist : Vous pouvez envisager cette méthode lorsque l’exposition à un traitement n’est pas aléatoire (par exemple, lorsqu’un utilisateur décide lui-même d’utiliser une fonctionnalité que vous avez développée).Pour chaque utilisateur qui a reçu le traitement, nous trouvons un utilisateur qui n’a pas, mais avait la même probabilité de le recevoir. Use Case: Imaginez que vous ayez créé un embarquement très cool et gamifié pour votre produit – par exemple, un tutoriel interactif avec une mascotte. In this case, motivation is a key factor. Users who choose to complete the onboarding are likely already more interested in exploring the product. To measure the "pure" effect of the onboarding itself, you need to compare them with similar users. Decision Guide Guide de décision Notes techniques : (For the Advanced) : There are several ways to form pairs, each with its own trade-offs. Common methods include matching, matching, and matching . The choice depends on your data and research question. Matching Strategy Matters one-to-one one-to-many with or without replacement : After matching, you must verify that the characteristics (the covariates used to calculate the propensity score) are actually balanced between the treated and the newly formed control group. If they aren't, you may need to adjust your propensity score model or matching strategy. Always Check for Balance : The causal effect estimated with PSM is technically the "average treatment effect on the treated" (ATT). This means the result applies only to the types of users who were able to be matched, not necessarily to the entire population. The Effect is Not for Everyone : The final estimate is highly dependent on how the propensity score (the probability of treatment) was calculated. A poorly specified model will lead to biased results. The Result is Sensitive to the Model : PSM is intuitive, but sometimes simpler methods like regression adjustments or more advanced techniques (e.g., doubly robust estimators) can be more powerful or reliable. It's a good tool to have, but it's not a silver bullet. It's Not Always the Best Tool Matching Strategy Matters: Il existe plusieurs façons de former des paires, chacune avec ses propres compromis. Les méthodes courantes comprennent la correspondance un à un, la correspondance un à plusieurs et la correspondance avec ou sans remplacement. Le choix dépend de vos données et de votre question de recherche. Toujours vérifier l'équilibre: Après la correspondance, vous devez vérifier que les caractéristiques (les covariations utilisées pour calculer le score de propensité) sont réellement équilibrées entre le groupe de contrôle traité et le groupe de contrôle nouvellement formé. L'effet n'est pas pour tout le monde: L'effet causal estimé avec PSM est techniquement l'«effet moyen du traitement sur le traité» (ATT). : The final estimate is highly dependent on how the propensity score (the probability of treatment) was calculated. A poorly specified model will lead to biased results. The Result is Sensitive to the Model Ce n’est pas toujours le meilleur outil : PSM est intuitif, mais parfois des méthodes plus simples comme les ajustements de régression ou des techniques plus avancées (par exemple, des estimateurs doublement robustes) peuvent être plus puissants ou fiables. Syntetic Control (SC) Le Gist : L'objectif est de trouver plusieurs unités non traitées qui sont similaires à celle qui a reçu le traitement. De ce pool, nous créons un groupe de contrôle "synthétique" en les combinant de manière à ce que leurs caractéristiques ressemblent étroitement à l'unité traitée. Cette « combinaison » est essentiellement une of the units from the control group (often called the "donor pool"). The weights are chosen to minimize the difference between the treated unit and the synthetic version during the . weighted average pre-treatment period Use Case: Imaginez que votre société de livraison de denrées alimentaires mette en œuvre un nouveau système logistique basé sur l’IA pour réduire les délais de livraison dans toute une ville, comme Manchester. Un test A/B classique est impossible car le système affecte tous les courriers et les clients à la fois. Vous ne pouvez pas non plus simplement comparer les performances de Manchester à une autre ville, comme Birmingham, car des événements locaux uniques ou des tendances économiques y détourneraient la comparaison. Pour mesurer l’impact réel, vous devez construire un contrôle « synthétique » qui reflète parfaitement les tendances de pré-lancement de Manchester. Voici comment ce « jumeau synthétique » est construit. le lancement et utilise un « pool de donateurs » d’autres villes (par exemple, Birmingham, Leeds et Bristol) pour créer la « recette » parfaite pour reproduire le passé de Manchester. En analysant les données historiques sur les prédicteurs clés (comme la population ou les délais de livraison passés), l’algorithme trouve le mélange pondéré idéal. Il avait une histoire de performance qui était un match presque parfait pour Manchester. before "40% Birmingham + 35% Leeds + 25% Bristol" Une fois cette recette verrouillée, elle est utilisée pour projeter ce qui aurait pu se passer sans le nouveau système. À partir du jour de lancement, le modèle calcule les performances de "Synthetic Manchester" en appliquant la recette aux données en temps réel réelles des villes donatrices. Cette version synthétique représente la voie la plus probable que le vrai Manchester aurait pris. La différence entre les délais de livraison améliorés du vrai Manchester et les performances de son jumeau synthétique est l'effet véritable, isolé de votre nouveau système d'IA. Decision Guide Decision Guide Notes techniques : (For the Advanced) Always inspect the weights assigned to the units in the donor pool. If one unit receives almost all the weight (e.g., 99%), your "synthetic control" has essentially collapsed into a simple (DiD) model with a single, chosen control unit. This can indicate that your donor pool is not diverse enough. Weight Transparency and Diagnostics: Difference-in-Differences The original Synthetic Control method has inspired more advanced versions. Two popular ones are: Modern Extensions Exist: An extension that allows for multiple treated units and can perform better when a perfect pre-treatment fit is not achievable. Generalized Synthetic Control (GSC): A hybrid method that combines the strengths of both synthetic controls (for weighting control units) and difference-in-differences (for weighting time periods). It is often more robust to noisy data. Synthetic Difference-in-Differences (SDID): Transparence et diagnostic des poids : inspectez toujours les poids attribués aux unités dans le pool des donneurs.Si une unité reçoit presque tout le poids (par exemple, 99%), votre « contrôle synthétique » s’est essentiellement effondré en un simple modèle de différence en différences (DiD) avec une seule unité de contrôle choisie. The original Synthetic Control method has inspired more advanced versions. Two popular ones are: Modern Extensions Exist: An extension that allows for multiple treated units and can perform better when a perfect pre-treatment fit is not achievable. Generalized Synthetic Control (GSC): A hybrid method that combines the strengths of both synthetic controls (for weighting control units) and difference-in-differences (for weighting time periods). It is often more robust to noisy data. Synthetic Difference-in-Differences (SDID): Difference-in-Differences (DID) Le Gist : We take a group where something has changed (e.g., we got a new feature) and a group where everything remains the same. Le deuxième groupe devrait être tel que historiquement la tendance de la métrique clé en elle était la même que dans le groupe avec la caractéristique. Sur la base de cela, nous supposons que sans notre intervention les tendances des métriques seraient parallèles. Nous regardons les différences avant et après dans les deux groupes. Ensuite, nous comparons ces deux différences. (c'est pourquoi la méthode est appelée Différence-en-Différences). L’idée est simple : sans nous, les deux groupes auraient développé la même chose sans changement, mais avec nous, la différence entre leurs changements sera l’effet « net » de la mise en œuvre de notre fonctionnalité. Use Case(s): La méthode est très populaire, regardons même quelques études de cas. Une région (pays, ville) reçoit le nouveau système de réduction (ou service d’IA), tandis qu’une autre ne le fait pas. Un LLM est utilisé pour générer un flux XML optimisé pour Google Shopping pour une catégorie de produit. Cela inclut la création de titres plus attrayants et des descriptions de produits détaillées. Une deuxième catégorie similaire avec un flux standard basé sur des modèles est utilisée comme un groupe de contrôle. Nous comparons ensuite le changement dans les mesures comme le CTR ou les conversions entre les deux groupes. Avertissement : Les tendances du trafic organique pour différentes catégories (par exemple, « ordinateurs portables » et « nourriture pour chiens ») peuvent varier considérablement en raison de la saison ou des actions des concurrents.La méthode sera fiable si les catégories sont très similaires (par exemple, « chaussures de course pour hommes » et « chaussures de course pour femmes »). Avertissement : Measuring the impact of a feature launched only on Android, using iOS users as a control group to account for general market trends. Caveat: A very common case in practice, but methodologically risky. Android and iOS audiences often have different demographics, purchasing power, and behavioral patterns. Any external event (e.g., a marketing campaign targeting iOS users) can break the parallel trends and distort the results. Avertissement : Decision Guide Guide de décision Notes techniques : (For the Advanced) The power of DiD lies in shifting the core assumption from the often-unrealistic "the groups are identical" to the more plausible "the groups' are identical." A simple post-launch comparison between Android and iOS is flawed because the user bases can be fundamentally different. A simple before-and-after comparison on Android alone is also flawed due to seasonality and other time-based factors. DiD elegantly addresses both issues by assuming that while the absolute levels of a metric might differ, their "rhythm" or dynamics would have been the same in the absence of the intervention. This makes it a robust tool for analyzing natural experiments. The Core Strength: trends While DiD is simple in its basic 2x2 case, it can become quite complex. Challenges arise when dealing with multiple time periods, different start times for the treatment across groups (staggered adoption), and when using machine learning techniques to control for additional covariates. Deceptive Simplicity: The problem of : the classical DiD model is ideal for cases where one group receives the intervention at one point in time. But in life, as you know, different subgroups (e.g. different regions or user groups) often receive the function at different times. and this is when applying standard DiD regression can lead to highly biased results. This is because groups already treated may be implicitly used as controls for groups treated later, which can sometimes even change the sign of the estimated effect. "Staggered Adoption" of the treatment effect: a simple DiD model implicitly assumes that the treatment effect is constant across all and over time. In reality, the effect may evolve (e.g., it may increase as users become accustomed to the feature) or vary between different subgroups. There are studies that show this and there are specific evaluation methods that take this effect into account. At least we think so until a new study comes out, right? Heterogeneity The power of DiD lies in shifting the core assumption from the often-unrealistic "the groups are identical" to the more plausible "the groups' are identical." A simple post-launch comparison between Android and iOS is flawed because the user bases can be fundamentally different. A simple before-and-after comparison on Android alone is also flawed due to seasonality and other time-based factors. DiD elegantly addresses both issues by assuming that while the absolute levels of a metric might differ, their "rhythm" or dynamics would have been the same in the absence of the intervention. This makes it a robust tool for analyzing natural experiments. The Core Strength: trends While DiD is simple in its basic 2x2 case, it can become quite complex. Challenges arise when dealing with multiple time periods, different start times for the treatment across groups (staggered adoption), and when using machine learning techniques to control for additional covariates. Deceptive Simplicity: Le problème de "Adoption stagnante" : le modèle DiD classique est idéal pour les cas où un groupe reçoit l'intervention à un moment donné. Mais dans la vie, comme vous le savez, différents sous-groupes (par exemple, différentes régions ou groupes d'utilisateurs) reçoivent souvent la fonction à des moments différents. et c'est lorsque l'application de la régression DiD standard peut conduire à des résultats très biaisés. Hétérogénéité de l'effet du traitement: un modèle simple de DiD suppose implicitement que l'effet du traitement est constant à travers tout le temps. En réalité, l'effet peut évoluer (par exemple, il peut augmenter à mesure que les utilisateurs s'habituent à la fonction) ou varier entre différents sous-groupes. Il y a des études qui montrent cela et il y a des méthodes d'évaluation spécifiques qui tiennent compte de cet effet. Conception de discontinuité de régression (RDD) Le Gist : Si un utilisateur reçoit un traitement basé sur une règle avec une valeur de coupe (par exemple, « 100 commandes faites » ou « 1 mois existent »), nous supposons que ceux juste en dessous de la coupe sont très similaires à ceux juste au-dessus de celle-ci. Use Case(s): A loyalty program gives RDD comparerait le comportement (par exemple, retenue, dépenses futures) des utilisateurs qui ont dépensé Pour ceux qui dépensent Une différence nette dans leur comportement juste à la marque de 1000 $ serait l’effet de recevoir le « statut d’or ». "Gold Status" $1001 $999 Un site de commerce électronique offre aux clients différentes options d'expédition en fonction de leur heure d'arrivée. livraison de 2 jours, tandis que tous les clients arrivent obtient une fenêtre d'expédition de 3 jours. Le site veut mesurer l'effet causal de cette politique sur la probabilité de paiement. before noon just after noon Decision Guide Decision Guide Notes techniques : (For the Advanced) This article focuses on , where crossing the cutoff guarantees the treatment. A variation called exists for cases where crossing the cutoff only of receiving the treatment. Sharp RDD Fuzzy RDD increases the probability The first step in any RDD analysis is to . You should plot the outcome variable against the running variable. The "jump" or discontinuity at the cutoff should be clearly visible to the naked eye. plot the data A crucial step is choosing the right , or how far from the cutoff you look for data. It's a trade-off between bias and variance: bandwidth More accurate assumption (users are very similar), but fewer data points (high variance, low power). Narrow Bandwidth: More data points (low variance, high power), but a riskier assumption (users might be too different). Wide Bandwidth: Cet article se concentre sur Sharp RDD, où la traversée de la coupe garantit le traitement. Une variation appelée Fuzzy RDDexiste pour les cas où la traversée de la coupe augmente seulement la probabilité de recevoir le traitement. La première étape de toute analyse RDD est de tracer les données. Vous devriez tracer la variable de résultat contre la variable en cours. Le "saut" ou la discontinuité à la coupure devrait être clairement visible à l'œil nu. A crucial step is choosing the right , or how far from the cutoff you look for data. It's a trade-off between bias and variance: bandwidth More accurate assumption (users are very similar), but fewer data points (high variance, low power). Narrow Bandwidth: More data points (low variance, high power), but a riskier assumption (users might be too different). Wide Bandwidth: Bayesian Structural Time Series (BSTS) Série de temps structurelle bayésienne (BSTS) Based on pre-event data, the model builds a forecast of what would have happened without our intervention. To do this, it relies on other, similar time series that were not affected by the change. The difference between this forecast and reality is the estimated effect. We looked at Synthetic Control earlier; think of BSTS as that same idea of estimating impact via similar, unaffected units, but . In Simple Terms: Les stéroïdes Pour construire un "univers alternatif" où votre fonctionnalité n'a jamais existé.La principale différence avec Synthetic Control est que pour construire la prédiction, il utilise un modèle bayésien au lieu d'une multiplication des poids. Key Idea: You changed the pricing policy for one product category. To measure the effect, the model uses sales from other, similar categories to forecast what the sales in your category would have been Le prix change. Use Case: sans There are excellent ready-made libraries for working with BSTS (like Google's ), with which you can get it done in 10-20 lines of code. Just don't forget to run the tests (see the block below). CausalImpact There are excellent ready-made libraries for working with BSTS (like Google's ), avec lequel vous pouvez le faire en 10-20 lignes de code. n'oubliez pas d'exécuter les tests (voir le bloc ci-dessous). CausalImpact Instrumental Variables (IV) Variables des instruments (IV) Une méthode pour les situations où un facteur caché (comme la motivation) influence à la fois le choix de l'utilisateur et le résultat final. Nous trouvons un facteur externe (un "instrument") qui pousse l'utilisateur vers l'action mais n'affecte pas directement le résultat lui-même. In Simple Terms: Trouver un « levier indirect » pour déplacer seulement ce qui est nécessaire. Key Idea: (academic) You want to measure the effect of TV ads on sales, but the ads are shown in regions where people already buy more. The could be the weather: on rainy days, people watch more TV (and see the ad), but the weather itself doesn't directly make them buy your product. This allows you to isolate the ad's effect from the region's wealth factor. Use Case: instrument Le Double Machine Learning (DML) Une approche moderne qui utilise deux modèles ML pour « nettoyer » à la fois le traitement et le résultat de l'influence de centaines d'autres facteurs. En analysant seulement ce qui reste après ce « nettoyage » (les résidus), la méthode trouve l'impact pure cause-effet. La force principale de DML - où le test A / B est impossible ou très difficile à mener. Le plus souvent, ce sont des situations d'auto-sélection, lorsque les utilisateurs décident eux-mêmes s'ils utilisent une fonctionnalité ou non. In Simple Terms: Pour utiliser ML pour éliminer tout le « bruit » et ne laisser que le signal pur « cause-effet ». Key Idea: Par exemple, dans une application fintech. Vous lancez une nouvelle fonctionnalité premium: un assistant d'IA qui analyse les dépenses et donne des conseils personnalisés sur les économies. Use Case: Il est idéal pour être utilisé en tandem avec d’autres méthodes et peut souvent être utilisé lorsque des approches plus simples ne conviennent pas. Il est idéal pour être utilisé en tandem avec d’autres méthodes et peut souvent être utilisé lorsque des approches plus simples ne conviennent pas. Comment s’assurer que tout fonctionne correctement ? Félicitations, vous avez parcouru un long chemin en lisant l'intégralité de cette revue. Fair enough, you may have had a thought: these methods are quite complex, how can I be sure I've done it right? How can I trust the final results? Et heck, c’est le point de vue le plus correct. L'idée générale de vérifier la correctité des méthodes d'estimation est résumée comme suit: We’re measuring the effect where it clearly shouldn’t be — just to make sure it isn’t there. Avec RCE, c'est assez simple - nous avons besoin d'un test A / A. Nous exécutons l'expérience selon notre conception: exactement les mêmes mesures, la division, etc. Sauf que nous NE montrons PAS notre nouvelle fonctionnalité aux deux groupes. En conséquence, nous ne devrions pas voir de différence entre eux. Parfois, il est logique de faire le backtesting de la même manière: après que la fonctionnalité ait fonctionné pendant un certain temps, roulez-la pour un peu de trafic et vérifiez que l'effet est toujours le même que ce que nous avons vu lorsque nous avons fait le test AB la première fois. Mais les quasi-expériences sont un peu plus compliquées.Chaque méthode a sa propre spécificité et peut contenir ses propres moyens spéciaux pour vérifier la correctité de la mise en œuvre.Ici, nous allons parler de méthodes relativement universelles, que je recommande dans la plupart des cas. Contrôle de robustesse To make sure that the effect we have found is not an accident or model error, we conduct a series of “stress tests”. The idea is the same: we create conditions in which the effect should not occur. If our method doesn't find it there either, our confidence in the result grows. Voici quelques contrôles clés : Placebo Tests Les tests placebo Ce test vérifie l’unicité de votre effet par rapport aux autres objets de votre ensemble de données. Nous avons un sujet « traité » (qui a été exposé) et de nombreux sujets « propres » dans un groupe de contrôle (pas d’exposition). Nous prétendons à son tour que chacun des objets du groupe de contrôle a été affecté, et construisons notre « contrôle synthétique » pour eux. How to do: Dans un monde idéal, pour tous ces tests « faux », nous ne devrions pas voir un effet aussi fort que pour notre cas réel. What to expect: This test shows whether our result is unique. If our method finds significant effects in subjects where nothing happened, it is also likely that our main finding is just noise or a statistical anomaly, not a real effect. Why it's needed: Le temps du placebo We artificially shift the date of our intervention into the past. For example, if the actual ad campaign started on May 1st, we “tell” the model that it started on April 1st when nothing actually happened. How to do it: The model should not detect any meaningful effect on this fake date. What to expect: Cela permet de s’assurer que le modèle répond à notre événement et non à des fluctuations aléatoires des données ou à une tendance saisonnière qui s’est produite au hasard à la date de notre intervention. Why: Placebo dans l'espace This test checks the reliability of your model by testing it for its tendency to produce false positives on completely independent data. Si vous disposez de données similaires à vos données cibles mais qui n'ont pas été affectées par l'intervention, utilisez-les.Par exemple, vous avez lancé une promotion dans une région.Prenez des données de ventes d'une autre région où la promotion n'a pas eu lieu et appliquez votre modèle à celle-ci avec la même date d'intervention réelle. How to do: The model should find no effect for this “control” data. What to expect: Si votre modèle trouve des effets partout où vous l'appliquez, vous ne pouvez pas faire confiance à ses conclusions sur la série cible.Ce test montre que le modèle n'est pas "hallucinant" en créant des effets à partir de rien. Why: Decision Map (Instead of conclusions) Si vous avez lu (ou parcouru) tout le chemin en bas ici, je suppose que vous n'avez pas besoin d'un autre beau contour de pourquoi il est si important de mesurer les résultats de la mise en œuvre d'IA / ML d'une fonctionnalité. C'est beaucoup plus précieux pour vous si vous obtenez un outil de prise de décision utile. The framework looks like this. Mesure à travers le test AB. Measure through the AB test. Seriously. Think about different split units and clusters to still apply RCE. Ci-dessous est une feuille de cheat sur le choix d'une méthode de déduction causale pour déterminer rapidement laquelle est la bonne pour vous. Go back to the part of the article where I explain it in layman's terms. Après cela, allez aux manuels et aux guides sur cette méthode Matériaux utiles : Utilisé dans l'écriture de cet article et fortement recommandé pour une plongée plus profonde dans le sujet Comprendre le cycle complet de la création de solutions AI/ML par and Conception de systèmes d’apprentissage machine Valérie Babouchkin Arseny Kravchenko The path to the world of RCE par Ron Kohavi, Diane Tang, Ya Xu Expériences contrôlées en ligne fiables Où comprendre l'inference causale en détail: Miguel Hernan and Jamie Robins “Causal Inference: What If” Inference causale pour le vrai et le courageux Causal ML Book