Um guia prático para medir o impacto empresarial em projetos de IA/ML

Goste ou não, a realidade é esta: apenas o fato de que seu produto ou recurso usa AI / ML não é suficiente. Pelo menos não se você quiser um efeito positivo duradouro. Além do hype e do buzz viral, o negócio ainda é sobre lucro, ROI e métricas de crescimento. Essa é a sua natureza, na maioria dos casos. O que significa que para nós, pessoas que construímos esses projetos, é essencial saber como medir o impacto da IA / ML. Tanto na fase inicial quanto após cada melhoria. Neste artigo, vamos olhar para o kit de ferramentas que nos ajuda a medir o efeito da adoção de IA e obter uma ideia de como esses métodos funcionam.Vou simplificar muitas coisas e manter muitos detalhes atrás da cortina (ou para seções separadas), apenas para baixar a barreira de entrada. No final, você terá uma compreensão das principais abordagens para medir o impacto do seu projeto no negócio.Você terá um mapa grosso de métodos e saberá como se orientar - o que melhor se encaixa no seu caso.A partir daí, você estará pronto para uma mergulha mais profunda. Mapa narrativo - para ajudá-lo a navegar Vamos começar com os fundamentos - por que e quando vale a pena medir. Então vamos olhar para o que pode dar errado e por que nem todas as mudanças merecem uma experiência. A partir daí, vamos mergulhar no padrão de ouro - teste A / B - e o que fazer quando você não pode executar um. Finalmente, vamos ir além das experiências para métodos de inferência causal - e como confiar no que você encontra. Medir o impacto: o porquê, quando e como não When it’s worth measuring Quando vale a pena medir Primeiro, as principais razões pelas quais você pode realmente querer incomodar. Risk & Value Já tocamos no valor no início.Queremos medir se um recurso oferece o suficiente para justificar mais investimentos.Quanto, qual deve ser o seu futuro.E estas são tarefas bastante agradáveis. Mas não se esqueça do fator crítico - Se sua nova mudança brilhante realmente piora as coisas - as taxas de conversão caíram, os usuários estão deixando em frustração, há menos dinheiro - você Quer saber que é rápido o suficiente para reagir.Evitar um fracasso pode importar ainda mais do que pegar um rebaixamento. risk management. Definitivamente Innovation Desde os primeiros dias da Agile, o desenvolvimento de produtos tem sido sobre iterações rápidas, corridas de armas de mercado e buscas intermináveis de produtos para o mercado.As empresas fazem dezenas de coisas ao mesmo tempo para permanecerem competitivas, e você pode querer priorizar soluções verdadeiramente brilhantes entre as simplesmente boas.Funções que podem realmente mudar o jogo, as coisas que os usuários realmente precisam, ou áreas onde um impacto positivo pode ser alcançado com um investimento mínimo.Os números são muito mais fáceis de comparar do que os sentimentos, não são? Optimization A beleza de uma abordagem consciente, orientada pela medição, é que ela permite que você cavar mais fundo. de seus resultados. Talvez a receita não tenha salto imediatamente, mas os usuários amam a nova funcionalidade e se envolvem com ela diariamente. Talvez ela ressoe com um segmento específico, mas irrita os outros. Essas e outras ideias abrem oportunidades para maior otimização. Natureza Organization Você trabalha em um lugar que fala sobre ser “data-driven”? ou talvez você é pessoalmente o tipo que confia em fatos sobre a sensação intestinal? When Not to Test Quando não testar Dito isto, ali casos em que as experiências não fazem sentido - ou não são possíveis de todo. São Methodological limits Às vezes é simplesmente impossível aplicar os métodos.Dados muito poucos para obter um resultado.Mudanças muito pequenas para detectar.Ou nenhuma hipótese sobre o que deveria melhorar (neste caso - por que era necessário desenvolver qualquer coisa?). Non-optional work Algumas mudanças são obrigatórias. Requisitos legais ou de conformidade são o caso clássico. Não específico de IA, mas claro: você precisa cumprir com o GDPR, adaptar seu produto para acessibilidade, e assim por diante. Same goes for O site não devolve um erro 502. critical fixes or infrastructure updates. Ethical red lines Algumas práticas de medição cruzam limites éticos, carregando riscos de danos ao usuário ou design manipulativo.Pense em experimentos que possam desencadear perdas financeiras ou comprometer dados do usuário. Better alternatives Às vezes, simplesmente não vale a pena.Se o esforço (recursos) gasto em medições pode ser maior do que o valor em si, salte-o. O exemplo mais simples: as startups jovens e em movimento rápido com apenas um punhado de clientes geralmente são melhores em perseguir o produto-mercado através de iterações curtas e feedback direto do usuário. Como não medir Antes Depois Intuitivamente, o impulso é fazer o seguinte: Veja como foi Lançamento do novo recurso Veja como é agora Veja um resultado positivo lucro Mas "parece melhor agora" tem um lado sombrio.Muitas coisas mudam ao longo do tempo (sazonalidade, eventos externos, mudanças de tráfego). Confunde mudanças ambientais com impactos de características. Core issue: Comparação YoY (Ano-Ano) Este truque de negócios familiar e tradicional é perfeito para responder à pergunta: "Estamos crescendo como um negócio em geral?". E é útil em muitas situações, mas não em uma avaliação isolada da implementação ou melhoria de um recurso. Imagine o quanto aconteceu no negócio este ano.Marketers, SEOs, vendedores, você nomeia - todo mundo ao seu redor tem trabalhado incansavelmente para garantir o crescimento.O mundo ao nosso redor também não está parado.Tarifas, Covid-19 e guerras estão acontecendo.Bloggers e celebridades expressam suas opiniões.TikTok tendências estão mudando o comportamento do consumidor, e seus concorrentes estão fazendo sua parte, também. Mas esse aumento de 10% no volume de negócios em janeiro foi apenas graças ao seu chatbot de IA (Seriously?). Uma janela muito longa - dezenas de outras mudanças ocorrem em paralelo. Qualquer diferença de YoY reflete tudo, não seu recurso. Core issue: Correlação > Causação Você provavelmente já ouviu a frase “Correlação não significa causalidade”, mas o que isso realmente significa na prática? Imagine que você lance um chatbot de IA, e um pouco depois disso, o número de compras concluídas aumenta. Soa como o chatbot causou o aumento, certo? Talvez - ou talvez não. Quando o uso e os resultados se movem juntos, parece causa e efeito. Mas. Ao mesmo tempo, sua equipe de marketing lançou uma nova campanha. Ou houve um pico sazonal, que é sempre um pico de vendas nesta época do ano. Ou um concorrente saiu de estoque. Ou... você sabe, poderia haver muitas razões. E todos eles poderiam afetar os números juntos ou em vez de seu bot. A parte complicada é que os dados só podem parecer relacionados porque duas coisas estão acontecendo ao mesmo tempo.Nossos cérebros são bons em reconhecer padrões, mas o negócio está cheio de eventos paralelos e ruído.Se não separamos causa da coincidência, corremos o risco de tomar decisões ruins - como investir mais em um recurso que não era realmente responsável pelo sucesso. A correlação só mostra que duas coisas mudaram ao mesmo tempo, mas não promete que uma causou a outra. Core issue: The Gold Standard of the industry - Randomized Controlled Experiments (RCE) 10 times out of 10 you want to be here. Luckily 8-9 times out of 10 you will be here. And it's because of those cases that RCE is not enough that this article came about. No entanto, vamos começar com as coisas boas. Teste A/B clássico Você provavelmente está familiarizado com este método. é resumido da seguinte forma: For example, that the description of goods and services generated with GenAI will be as good (or better) than the one written by a human. Or the block “Customers Also Bought / Frequently Bought Together” in an online store will stimulate customers to buy more staff. Personalized emails engage users more. And so on. We form a hypothesis. by which to determine the success/failure of the hypothesis. Define one or more metrics Consider possible cycles of product use. Calculate the sample size and duration of the experiment. into two (or more) groups and . The control group (a) sees the product without the new feature, and the experimental group sees the new version of the product containing the change we are testing. We check that the groups differ only in the presence or absence of the new feature. Randomly split the traffic run the experiment . We apply statistical methods, calculate the difference in metrics and make sure that it is statistically significant. Stage 0 could be an A/A test (when both groups see the same version of the product and we do not see any difference in their behavior) to make sure that the traffic separation and methodology works correctly Analysis Based on the analysis, a decision is made: use, refine or reject. Decision making and iteration. Its magical, wonderful world where there is a lot of control, a chance to double-check yourself, to measure your confidence in your results. Plenty of learning resources and experienced colleagues around. What could possibly go wrong? The main reasons why we will have to give up cozy classical AB tests: 1. is when the behavior of one group affects another. That means the control group also changes - even though it shouldn't. Spillover Effect A textbook example is the Facebook friend recommendation block. We hope that it will help users build social connections. Let's imagine that group A doesn't have such a block, but group B sees it. User John from group B sees such a block, sees user Michael from group A in it, and adds him as a friend. Both users have +1 friend, although Michael should have been in a group that is not affected by the tested feature. Let's look at a few different examples where the might occur Spillover Effect or . If we have very few users (unpopular part of the product, B2B, etc.) or we work with a very rare event (buying a very expensive product or someone actually read the Terms & Conditions). In such cases, it will take a huge amount of time to get a little bit significant result. 2. Few users rare events . If we launch a change that affects the environment and cannot be isolated to individual users. For example, we are testing an advertising auction algorithm - prices will change for all advertisers, not just for those we try to isolate into an experimental group. 3. Impact on external factors . Our chip can change the composition of groups. For example, it repels or attracts certain types of users. For example, if a new feature starts to attract newcomers (this is not our goal) and increases their share in the test group, while in the control group it remains unchanged - the groups will not be comparable. 4. Brand's Effect A boa notícia é que parte do problema é resolvido sem sair do RCE, usando basicamente a mesma mecânica. There’s more to split than traffic! Há mais para dividir do que o tráfego! Alguns dos problemas acima podem ser resolvidos alterando apenas parte do design geral do teste. De acordo com muitos resumos e analistas, diferentes co-pilotos e assistentes saem no topo dos produtos baseados em LLM. Eles lideram tanto em popularidade quanto em “taxa de sobrevivência”, ou seja, eles têm uma chance de viver mais tempo do que os MVPs. A característica comum deste tipo de projetos é que temos uma solução que é projetada para simplificar/acelerar o trabalho de um funcionário. Pode ser operadores de call center, pessoas de vendas, pessoas de financiamento e assim por diante.Mas na maioria das vezes não temos tantos funcionários para dividi-los em dois grupos e medir sua velocidade/eficiência com e sem copiloto. Aqui está ( Como parte do experimento, os pesquisadores queriam ver como o uso de ferramentas de IA afeta o trabalho dos engenheiros.Eles fechariam tarefas mais rapidamente se lhes fosse dado um arsenal moderno?Mas apenas 16 desenvolvedores participaram do experimento, que é desesperadamente pequeno o suficiente para esperar obter resultados confiantes. O link The authors instead split Assim, a amostra aqui não é 16 desenvolvedores, mas 246 tarefas. tasks O valor de P é OK. Os autores analisaram e marcaram as gravações de tela, realizaram entrevistas.Em suma, fizeram pesquisas qualitativas.Quando os resultados da pesquisa qualitativa e quantitativa são consistentes é um sinal forte. Mas o que é importante para nós agora é tirar conclusões dentro do quadro do nosso tópico, não estamos interessados neste estudo em si, mas em um exemplo compreensível da abordagem. Let’s give this idea a skeleton. AI Copilots (Contact Centers / Dev Teams / etc) Case: Why not user-split? “Users” aqui são agentes/devs; pequenas populações + spillovers (macros compartilhados, coaching, efeitos de mudança). Instead, randomize: Bilhete / conversa (assinar tratamento na recepção). Ou a fila / intenção como o aglomerado (faturamento, tecnologia, retornos, etc.). estratificação por canal (chat/email/voice) e prioridade/SLA; monitorização de preconceito de automação; análise com SE robusto em cluster. Design notes: Uma vez que você entenda este princípio, você pode aplicá-lo a outras entidades também. Você pode dividir tempo, geoposição e muito mais. Procure casos semelhantes, se inspire e se adapte. Once you understand this principle, you can apply it to other entities as well. You can split time, geoposition, and more. Look for similar cases, get inspired and adapt. Vou deixar uma nota para outro tipo frequente de tarefas onde o teste AB clássico pode não se encaixar - algoritmos de preços. Preço Dinâmico (Retail) Case: Why not user-split? Na loja é impossível (e confuso) mostrar preços diferentes para pessoas diferentes. On-line é muitas vezes ilegal / antiético e desencadeia questões de equidade. Instead, randomize: Tempo (switchback) para a mesma SKU×store (por exemplo, por mudanças/dias). (Opcional) Clusters - SKU×store (ou clusters de lojas), estratificados por categoria/tráfego balance days of week/seasonality; use cluster-robust SE; guardrails on promo/stock overlaps. Design notes: When randomization isn’t an option How do you measure the impact of your core AI feature when it's already live for everyone or you can't run experiment with control group? Nós estabelecemos que o RCE é o padrão de ouro por uma razão, mas o mundo limpo de experimentos controlados muitas vezes dá lugar à realidade confusa do negócio. Mais cedo ou mais tarde, cada equipe de produto enfrenta uma pergunta crítica que um teste A/B clássico não pode responder. Vamos explorar alguns dos mais populares e tentar capturar sua essência.Quando chegar o momento, você saberá onde cavar. Métodos Visão Geral Matching de pontuação de propensão (PSM) O gesto: Você pode considerar este método quando a exposição a um tratamento não é aleatória (por exemplo, quando um usuário decide por si mesmo se deve usar um recurso que você desenvolveu).Para cada usuário que recebeu o tratamento, encontramos um usuário que não recebeu, mas teve a mesma probabilidade de recebê-lo. Use Case: Imagine que você criou um onboarding muito legal e gamificado para o seu produto – por exemplo, um tutorial interativo com uma mascote. Neste caso, a motivação é um fator-chave.Os usuários que optam por completar o embarque provavelmente já estão mais interessados em explorar o produto.Para medir o efeito "puro" do próprio embarque, você precisa compará-los com usuários semelhantes. Decision Guide Guia de Decisão Notas Técnicas : (For the Advanced) : There are several ways to form pairs, each with its own trade-offs. Common methods include matching, matching, and matching . The choice depends on your data and research question. Matching Strategy Matters one-to-one one-to-many with or without replacement : After matching, you must verify that the characteristics (the covariates used to calculate the propensity score) are actually balanced between the treated and the newly formed control group. If they aren't, you may need to adjust your propensity score model or matching strategy. Always Check for Balance : The causal effect estimated with PSM is technically the "average treatment effect on the treated" (ATT). This means the result applies only to the types of users who were able to be matched, not necessarily to the entire population. The Effect is Not for Everyone : The final estimate is highly dependent on how the propensity score (the probability of treatment) was calculated. A poorly specified model will lead to biased results. The Result is Sensitive to the Model : PSM is intuitive, but sometimes simpler methods like regression adjustments or more advanced techniques (e.g., doubly robust estimators) can be more powerful or reliable. It's a good tool to have, but it's not a silver bullet. It's Not Always the Best Tool Matching Strategy Matters: Existem várias maneiras de formar pares, cada um com seus próprios compromissos. Métodos comuns incluem matching one-to-one, matching one-to-many e matching com ou sem substituição. A escolha depende de seus dados e pergunta de pesquisa. Sempre verifique o Equilíbrio: Após a correspondência, você deve verificar que as características (as covariantes usadas para calcular a pontuação de propensão) estão realmente equilibradas entre o grupo de controle tratado e o recém-formado. O efeito não é para todos: O efeito causal estimado com PSM é tecnicamente o "efeito médio do tratamento sobre o tratado" (ATT). O resultado é Sensível ao Modelo: a estimativa final é altamente dependente de como a pontuação de propensão (a probabilidade de tratamento) foi calculada. Não é sempre a melhor ferramenta: o PSM é intuitivo, mas às vezes métodos mais simples como ajustes de regressão ou técnicas mais avançadas (por exemplo, estimadores duplamente robustos) podem ser mais poderosos ou confiáveis. Sistema de Controle Sintético (SC) O gesto: O objetivo é encontrar várias unidades não tratadas que são semelhantes à que recebeu o tratamento.Deste pool, criamos um grupo de controle "sintético" combinando-os de uma forma que faz com que suas características se assemelhem de perto à unidade tratada. Esta “combinação” é essencialmente uma das unidades do grupo de controlo (muitas vezes chamadas de "poeira de doadores").Os pesos são escolhidos para minimizar a diferença entre a unidade tratada e a versão sintética durante o . weighted average pre-treatment period Use Case: Imagine your food delivery company is implementing a new AI-based logistics system to reduce delivery times across an entire city, like Manchester. A classic A/B test is impossible because the system affects all couriers and customers at once. You also can't simply compare Manchester's performance to another city, such as Birmingham, because unique local events or economic trends there would skew the comparison. To measure the true impact, you need to build a "synthetic" control that perfectly mirrors Manchester's pre-launch trends. Aqui está como esse "gêmeo sintético" é construído. o método olha para o período o lançamento e usa um "pouso de doadores" de outras cidades (por exemplo, Birmingham, Leeds e Bristol) para criar a "receita" perfeita para replicar o passado de Manchester. Ao analisar dados históricos sobre os principais preditores (como a população ou os tempos de entrega passados), o algoritmo encontra a mistura ponderada ideal. Ele teve uma história de desempenho que foi um jogo quase perfeito para o próprio Manchester. before "40% Birmingham + 35% Leeds + 25% Bristol" Once this recipe is locked in, it's used to project what would have happened without the new system. From the launch day forward, the model calculates the "Synthetic Manchester's" performance by applying the recipe to the actual, real-time data from the donor cities. This synthetic version represents the most likely path the real Manchester would have taken. The difference between the real Manchester's improved delivery times and the performance of its synthetic twin is the true, isolated effect of your new AI system. Decision Guide Guia de Decisão Notas Técnicas : (For the Advanced) Always inspect the weights assigned to the units in the donor pool. If one unit receives almost all the weight (e.g., 99%), your "synthetic control" has essentially collapsed into a simple (DiD) model with a single, chosen control unit. This can indicate that your donor pool is not diverse enough. Weight Transparency and Diagnostics: Difference-in-Differences The original Synthetic Control method has inspired more advanced versions. Two popular ones are: Modern Extensions Exist: An extension that allows for multiple treated units and can perform better when a perfect pre-treatment fit is not achievable. Generalized Synthetic Control (GSC): A hybrid method that combines the strengths of both synthetic controls (for weighting control units) and difference-in-differences (for weighting time periods). It is often more robust to noisy data. Synthetic Difference-in-Differences (SDID): Transparência e Diagnóstico de Peso: Sempre inspeccione os pesos atribuídos às unidades no pool doador.Se uma unidade recebe quase todo o peso (por exemplo, 99%), seu "controle sintético" basicamente colapsou em um modelo de Diferença-em-Diferenças (DiD) simples com uma única unidade de controle escolhida. The original Synthetic Control method has inspired more advanced versions. Two popular ones are: Modern Extensions Exist: An extension that allows for multiple treated units and can perform better when a perfect pre-treatment fit is not achievable. Generalized Synthetic Control (GSC): A hybrid method that combines the strengths of both synthetic controls (for weighting control units) and difference-in-differences (for weighting time periods). It is often more robust to noisy data. Synthetic Difference-in-Differences (SDID): Diferença em Diferenças (DID) O gesto: Tomamos um grupo onde algo mudou (por exemplo, recebemos um novo recurso) e um grupo onde tudo permanece o mesmo. O segundo grupo deve ser tal que historicamente a tendência da métrica chave nele era a mesma que no grupo com a característica. Com base nisso, assumimos que, sem a nossa intervenção, as tendências das métricas seriam paralelas. Olhamos para as diferenças antes e depois nos dois grupos. A ideia é simples: sem nós, ambos os grupos teriam desenvolvido o mesmo sem mudança, mas conosco, a diferença entre suas mudanças será o efeito “neto” de implementar nosso recurso. Use Case(s): O método é muito popular, vamos até olhar para alguns estudos de caso. Uma região (país, cidade) recebe o novo sistema de desconto (ou serviço de IA), enquanto outra não. Um LLM é usado para gerar um feed XML otimizado para o Google Shopping para uma categoria de produto. Isso inclui a criação de títulos mais envolventes e descrições de produtos detalhadas. Uma segunda categoria semelhante com um feed padrão baseado em modelo é usada como um grupo de controle. Então comparamos a mudança em métricas como CTR ou conversões entre os dois grupos. Mecânicas semelhantes podem estar trabalhando com SEO. O aviso: Trends de tráfego orgânicos para diferentes categorias (por exemplo, "laptops" e "cão de alimento") podem diferir muito devido à sazonalidade ou ações dos concorrentes. O método será confiável se as categorias forem muito semelhantes (por exemplo, "sapatos de corrida masculinos" e "sapatos de corrida femininos"). O aviso: Measuring the impact of a feature launched only on Android, using iOS users as a control group to account for general market trends. Caveat: A very common case in practice, but methodologically risky. Android and iOS audiences often have different demographics, purchasing power, and behavioral patterns. Any external event (e.g., a marketing campaign targeting iOS users) can break the parallel trends and distort the results. O aviso: Decision Guide Guia de Decisão Notas Técnicas : (For the Advanced) The power of DiD lies in shifting the core assumption from the often-unrealistic "the groups are identical" to the more plausible "the groups' are identical." A simple post-launch comparison between Android and iOS is flawed because the user bases can be fundamentally different. A simple before-and-after comparison on Android alone is also flawed due to seasonality and other time-based factors. DiD elegantly addresses both issues by assuming that while the absolute levels of a metric might differ, their "rhythm" or dynamics would have been the same in the absence of the intervention. This makes it a robust tool for analyzing natural experiments. The Core Strength: trends While DiD is simple in its basic 2x2 case, it can become quite complex. Challenges arise when dealing with multiple time periods, different start times for the treatment across groups (staggered adoption), and when using machine learning techniques to control for additional covariates. Deceptive Simplicity: The problem of : the classical DiD model is ideal for cases where one group receives the intervention at one point in time. But in life, as you know, different subgroups (e.g. different regions or user groups) often receive the function at different times. and this is when applying standard DiD regression can lead to highly biased results. This is because groups already treated may be implicitly used as controls for groups treated later, which can sometimes even change the sign of the estimated effect. "Staggered Adoption" of the treatment effect: a simple DiD model implicitly assumes that the treatment effect is constant across all and over time. In reality, the effect may evolve (e.g., it may increase as users become accustomed to the feature) or vary between different subgroups. There are studies that show this and there are specific evaluation methods that take this effect into account. At least we think so until a new study comes out, right? Heterogeneity A Força do Núcleo: O poder do DiD reside no deslocamento da suposição central do muitas vezes irrealista "os grupos são idênticos" para o mais plausível "as tendências dos grupos são idênticas". Uma comparação pós-lançamento simples entre o Android e o iOS é defeituosa porque as bases de usuários podem ser fundamentalmente diferentes. Uma comparação simples antes e depois no Android sozinho também é defeituosa devido à sazonalidade e outros fatores baseados no tempo. O DiD aborda elegantemente ambos os problemas assumindo que, embora os níveis absolutos de uma métrica possam diferir, seu "ritmo" ou dinâmica teria sido o mesmo na ausência da intervenção. Simplicidade enganosa: Enquanto o DiD é simples em seu caso básico 2x2, ele pode se tornar bastante complexo. Desafios surgem ao lidar com vários períodos de tempo, diferentes tempos de início para o tratamento entre grupos (adopção estágio), e quando usar técnicas de aprendizado de máquina para controlar para covariantes adicionais. O problema da "Adopção estagnada" : o modelo DiD clássico é ideal para casos em que um grupo recebe a intervenção em um momento.Mas na vida, como você sabe, diferentes subgrupos (por exemplo, diferentes regiões ou grupos de usuários) muitas vezes recebem a função em momentos diferentes. e isso é quando aplicar regressão padrão DiD pode levar a resultados altamente viciados. Isto é porque os grupos já tratados podem ser implicitamente usados como controles para grupos tratados mais tarde, o que às vezes pode até mudar o sinal do efeito estimado. of the treatment effect: a simple DiD model implicitly assumes that the treatment effect is constant across all and over time. In reality, the effect may evolve (e.g., it may increase as users become accustomed to the feature) or vary between different subgroups. There are studies that show this and there are specific evaluation methods that take this effect into account. At least we think so until a new study comes out, right? Heterogeneity Design de Discontinuidade de Regressão (RDD) O gesto: Se um usuário recebe um tratamento com base em uma regra com um valor de corte (por exemplo, "100 pedidos feitos" ou "existe 1 mês"), assumimos que aqueles logo abaixo do corte são muito semelhantes aos que estão logo acima dele. Por exemplo, um usuário com 99 pedidos é quase idêntico a um usuário com 101 pedidos. Use Case(s): O programa de fidelidade dá to users who have spent over $1000 in a year. RDD would compare the behavior (e.g., retention, future spending) of users who spent Para aqueles que gastam Uma diferença acentuada em seu comportamento na marca de US $ 1.000 seria o efeito de receber o "Status de Ouro". "Gold Status" $1001 $999 An e-commerce site offers customers different shipping options based on their arrival time. Any customer arriving gets 2-day shipping, while any customer arriving O site quer medir o efeito causal desta política sobre a probabilidade de pagamento. before noon just after noon Decision Guide Guia de Decisão Notas Técnicas : (For the Advanced) This article focuses on , where crossing the cutoff guarantees the treatment. A variation called exists for cases where crossing the cutoff only of receiving the treatment. Sharp RDD Fuzzy RDD increases the probability The first step in any RDD analysis is to . You should plot the outcome variable against the running variable. The "jump" or discontinuity at the cutoff should be clearly visible to the naked eye. plot the data A crucial step is choosing the right , or how far from the cutoff you look for data. It's a trade-off between bias and variance: bandwidth More accurate assumption (users are very similar), but fewer data points (high variance, low power). Narrow Bandwidth: More data points (low variance, high power), but a riskier assumption (users might be too different). Wide Bandwidth: Este artigo se concentra no Sharp RDD, onde a passagem do corte garante o tratamento.Uma variação chamada Fuzzy RDDexiste para casos em que a passagem do corte só aumenta a probabilidade de receber o tratamento. The first step in any RDD analysis is to . You should plot the outcome variable against the running variable. The "jump" or discontinuity at the cutoff should be clearly visible to the naked eye. plot the data A crucial step is choosing the right , or how far from the cutoff you look for data. It's a trade-off between bias and variance: bandwidth More accurate assumption (users are very similar), but fewer data points (high variance, low power). Narrow Bandwidth: More data points (low variance, high power), but a riskier assumption (users might be too different). Wide Bandwidth: Bayesian Structural Time Series (BSTS) Série de Tempo Estrutural Bayesiano (BSTS) Based on pre-event data, the model builds a forecast of what would have happened without our intervention. To do this, it relies on other, similar time series that were not affected by the change. The difference between this forecast and reality is the estimated effect. We looked at Synthetic Control earlier; think of BSTS as that same idea of estimating impact via similar, unaffected units, but . In Simple Terms: com esteróides To build an "alternate universe" where your feature never existed. The main difference from Synthetic Control is that to build the forecast, it uses a Bayesian model instead of a multiplication of weights. Key Idea: Você alterou a política de preços para uma categoria de produto. Para medir o efeito, o modelo usa vendas de outras categorias semelhantes para prever o que as vendas em sua categoria teriam sido A mudança de preço. Use Case: sem Existem excelentes bibliotecas prontas para trabalhar com o BSTS (como o CausalImpact do Google), com o qual você pode fazê-lo em 10-20 linhas de código. Existem excelentes bibliotecas prontas para trabalhar com o BSTS (como a do Google). ), com o qual você pode fazê-lo em 10-20 linhas de código. Simplesmente não se esqueça de executar os testes (veja o bloco abaixo). CausalImpact Instrumental Variables (IV) Variáveis instrumentais (IV) Um método para situações em que um fator oculto (como motivação) influencia tanto a escolha do usuário quanto o resultado final.Encontramos um fator externo (um "instrumento") que empurra o usuário para a ação, mas não afeta diretamente o resultado em si. In Simple Terms: Encontrar uma alavanca indireta para mover apenas o que é necessário. Key Idea: (acadêmico) Você quer medir o efeito dos anúncios de TV nas vendas, mas os anúncios são exibidos em regiões onde as pessoas já compram mais. could be the weather: on rainy days, people watch more TV (and see the ad), but the weather itself doesn't directly make them buy your product. This allows you to isolate the ad's effect from the region's wealth factor. Use Case: instrument Aprendizagem em Máquina Dupla (DML) A modern approach that uses two ML models to "cleanse" both the treatment and the outcome from the influence of hundreds of other factors. By analyzing only what's left after this "cleansing" (the residuals), the method finds the pure cause-and-effect impact. Main strength of DML - where A/B-test is impossible or very difficult to conduct. Most often these are self-selection situations, when users decide for themselves whether to use a feature or not. In Simple Terms: Para usar ML para remover todo o "ruído" e deixar apenas o sinal puro "causa e efeito". Key Idea: Por exemplo, em um aplicativo de fintech. Você lança um novo recurso premium: um assistente de IA que analisa gastos e dá conselhos de poupança personalizados. Use Case: É ótimo para uso em conjunto com outros métodos e muitas vezes pode ser usado quando abordagens mais simples não são adequadas. É ótimo para uso em conjunto com outros métodos e muitas vezes pode ser usado quando abordagens mais simples não são adequadas. Como garantir que tudo esteja funcionando corretamente? Parabéns, você percorreu um longo caminho lendo toda esta revisão. Justo o suficiente, você pode ter tido um pensamento: esses métodos são bastante complexos, como posso ter certeza de que eu fiz isso certo? And heck, that's the most correct view. A ideia geral de verificar a exatidão dos métodos de estimativa é resumida da seguinte forma: We’re measuring the effect where it clearly shouldn’t be — just to make sure it isn’t there. Com o RCE, é bastante simples - precisamos de um teste A/A. Nós executamos o experimento de acordo com o nosso design: exatamente as mesmas métricas, divisão, etc. Exceto que NÃO mostramos nosso novo recurso a ambos os grupos. Como resultado, não deveríamos ver nenhuma diferença entre eles. Às vezes faz sentido fazer o backtesting da mesma maneira: depois que o recurso funcionou por um tempo, rolá-lo de volta para algum tráfego e verifique se o efeito ainda é o mesmo que o que vimos quando fizemos o teste AB pela primeira vez. Mas os quase-experimentos são um pouco mais complicados.Cada um dos métodos tem sua própria especificidade e pode conter suas próprias maneiras especiais de verificar a correta implementação.Aqui vamos falar sobre métodos relativamente universais, que eu recomendo na maioria dos casos. Verificação de robustez Para garantir que o efeito que encontramos não é um acidente ou erro de modelo, realizamos uma série de “testes de estresse”.A ideia é a mesma: criamos condições em que o efeito não deveria ocorrer. Aqui estão alguns cheques-chave: Placebo Tests Teste de placebo Este teste verifica a singularidade do seu efeito em comparação com outros objetos dentro do seu conjunto de dados. Temos um sujeito “tratado” (que foi exposto) e muitos sujeitos “limpos” em um grupo de controle (não exposição). Nós, por sua vez, fingimos que cada um dos objetos no grupo de controle foi afetado e construímos nosso “controle sintético” para eles. How to do: Em um mundo ideal, para todos esses testes “falsos”, não devemos ver um efeito tão forte quanto para o nosso caso real. What to expect: Se o nosso método encontra efeitos significativos em sujeitos onde nada aconteceu, também é provável que a nossa principal descoberta seja apenas ruído ou uma anomalia estatística, não um efeito real. Why it's needed: Placebo em tempo real We artificially shift the date of our intervention into the past. For example, if the actual ad campaign started on May 1st, we “tell” the model that it started on April 1st when nothing actually happened. How to do it: O modelo não deve detectar qualquer efeito significativo nesta data falsa. What to expect: Isso ajuda a garantir que o modelo está respondendo ao nosso evento e não a flutuações aleatórias nos dados ou alguma tendência sazonal que ocorreu por acaso na data da nossa intervenção. Why: Placebo no espaço Este teste verifica a confiabilidade do seu modelo, testando-o para a sua tendência a produzir falsos positivos em dados completamente independentes. Se você tiver dados que são semelhantes aos seus dados alvo, mas que definitivamente não foram afetados pela intervenção, use-os.Por exemplo, você lançou uma promoção em uma região.Tome dados de vendas de outra região onde a promoção não ocorreu e aplique seu modelo a ela com a mesma data de intervenção real. How to do: O modelo não deve encontrar nenhum efeito para esses dados de “controle”. What to expect: Se o seu modelo encontrar efeitos onde quer que o aplique, você não pode confiar nas suas conclusões sobre a série-alvo.Este teste mostra que o modelo não é “hallucinante” criando efeitos do nada. Why: Mapa de decisão (em vez de conclusões) Se você leu (ou rolou) por aqui, eu acho que você não precisa de mais um bom esboço de por que é tão importante medir os resultados da implementação de AI / ML de um recurso. É muito mais valioso para você se você obter uma ferramenta de tomada de decisão útil. The framework looks like this. Measure through AB test. Comece a fazer o teste de AB. Com certeza. Think about different split units and clusters to still apply RCE. Abaixo está um cheat sheet sobre a escolha de um método de inferência causal para descobrir rapidamente qual é o certo para você. Volte para a parte do artigo onde eu explico isso em termos leigos. Depois disso, vá para os manuais e guias sobre este método Materiais úteis: Usado na escrita deste artigo e altamente recomendado para um mergulho mais profundo no assunto Entenda o ciclo completo de criação de soluções AI/ML por e Design de Sistemas de Aprendizagem de Máquina Valério Babushkin Arseny Kravchenko O caminho para o mundo do RCE Roteiro: Ron Kohavi, Diane Tang, Ya Xu Experimentos online controlados confiáveis Onde entender a Inferência Causal em detalhes: Miguel Hernan e Jamie Robins em “Causal Inference: What If” Inferência causal para o corajoso e verdadeiro Causal ML Livro