Le guste o no, la realidad es esta: sólo el hecho de que su producto o función utiliza AI / ML no es suficiente. Al menos no si desea un efecto positivo duradero. Más allá del hype y el buzz viral, el negocio todavía se centra en el beneficio, el ROI y las métricas de crecimiento. Esa es su naturaleza, en la mayoría de los casos. Lo que significa que para nosotros, las personas que construimos estos proyectos, es esencial saber cómo medir el impacto de la IA/ML. En este artículo, examinaremos el kit de herramientas que nos ayuda a medir el efecto de la adopción de la IA y obtener una idea de cómo funcionan estos métodos. simplificaré muchas cosas y guardaré muchos detalles detrás de la cortina (o para secciones separadas), solo para bajar la barrera de entrada. Al final, tendrá una comprensión de los principales enfoques para medir el impacto de su proyecto en el negocio.Tendrá un mapa grueso de métodos y sabe cómo orientarse - lo que se ajusta mejor a su caso. Desde allí, estará listo para una inmersión más profunda. Mapa narrativo - para ayudarle a navegar Empezaremos con los conceptos básicos: por qué y cuándo vale la pena medir. Luego veremos qué puede ir mal y por qué no todos los cambios merecen un experimento. Desde allí, nos sumergiremos en el estándar de oro - pruebas A / B - y qué hacer cuando no se puede ejecutar una. Finalmente, vamos a ir más allá de los experimentos a los métodos de inferencia causal - y cómo confiar en lo que encuentras. Medir el impacto: el por qué, cuándo y cómo no When it’s worth measuring Cuando vale la pena medir Primero, las principales razones por las que realmente puede querer molestar. Risk & Value Ya tocamos el valor al comienzo.Queremos medir si una función ofrece suficiente para justificar una inversión adicional.Cuánto, cuál debería ser su futuro.Y estas son tareas bastante agradables. Pero no se olvide del factor crítico - Si su nuevo cambio brillante realmente hace las cosas peor - las tasas de conversión han caído, los usuarios están dejando en frustración, hay menos dinero - usted Quieren saber que es lo suficientemente rápido como para reaccionar.Evitar un fracaso puede importar aún más que capturar una caída. risk management. Definitivamente Innovation Desde los primeros días de Agile, el desarrollo de productos ha estado en torno a iteraciones rápidas, carreras de armas del mercado y búsquedas interminables de productos que se ajustan al mercado. Las empresas hacen docenas de cosas simultáneamente para mantenerse competitivas, y es posible que desee priorizar soluciones verdaderamente brillantes entre las meramente buenas. características que realmente pueden cambiar el juego, las cosas que los usuarios realmente necesitan, o áreas donde se puede lograr un impacto positivo con una inversión mínima. Optimization La belleza de un enfoque consciente y orientado a la medición es que te permite cavar más profundamente. of your results. Maybe revenue didn’t jump immediately, but users love the new functionality and engage with it daily. Maybe it resonates with a particular segment but annoys others. These and other ideas open up opportunities for further optimization. You’re becoming better. Naturaleza Organization ¿Estás trabajando en un lugar que habla de ser "dirixido por datos"?O quizás eres personalmente el tipo que confía en los hechos sobre el sentimiento intestinal?Entonces esto es donde quieres estar: aprender a medir el efecto y asegurarte de que tus resultados realmente te lleven hacia los objetivos que has establecido. When Not to Test Cuando no se puede probar Dicho esto, allí casos en los que los experimentos no tienen sentido - o no son posibles en absoluto. son Methodological limits Sometimes it’s simply impossible to apply the methods. Too little data to get a result. Changes too small to detect. Or no hypothesis at all about what should improve (in which case - why was it necessary to develop anything at all?). Non-optional work Algunos cambios son obligatorios.Los requisitos legales o de conformidad son el caso clásico.No es específico de la IA, sino claro: necesita cumplir con el RGPD, adaptar su producto para la accesibilidad, y así sucesivamente. Lo mismo ocurre para El sitio no devuelve un error 502. ¿Cómo es eso para el valor de negocio? critical fixes or infrastructure updates. Ethical red lines Algunas prácticas de medición cruzan límites éticos, cargando riesgos de daño al usuario o diseño manipulativo.Piensa en experimentos que podrían desencadenar pérdidas financieras o comprometer los datos del usuario. Better alternatives A veces simplemente no vale la pena.Si el esfuerzo (recursos) gastado en mediciones puede ser mayor que el valor mismo, saltarlo. tiempo, dinero, costo de oportunidad. El ejemplo más simple: las startups jóvenes y rápidamente en movimiento con solo un puñado de clientes suelen ser mejores en perseguir la adecuación del producto al mercado a través de iteraciones cortas y comentarios directos de los usuarios. Cómo no medir Antes y después Intuitivamente, el impulso es hacer lo siguiente: Mira cómo fue Lanzamiento de la nueva característica Mira cómo es ahora Vea un resultado positivo El beneficio Pero "parece mejor ahora" tiene un lado oscuro.Muchas cosas cambian con el tiempo (seasonalidad, eventos externos, cambios de tráfico). Confundir los cambios ambientales con el impacto característico. Core issue: YoY (Año a año) Comparación Este truco familiar y tradicional de negocios es perfecto para responder a la pregunta, "¿Estamos creciendo como un negocio en general?". Y es útil en muchas situaciones, pero no en una evaluación aislada de la implementación o mejora de una función. Imagínese cuánto ha sucedido en el negocio este año. Marketing, SEO, vendedores, lo llaman - todo el mundo a su alrededor ha estado trabajando incansablemente para asegurar el crecimiento. El mundo a nuestro alrededor no está de pie tampoco. Tarifas, Covid-19, y guerras están sucediendo. Bloggers y celebridades expresan sus opiniones. Las tendencias de TikTok están cambiando el comportamiento del consumidor, y sus competidores están haciendo su parte, también. Pero ese aumento del 10% en la facturación este enero fue solo gracias a su chatbot de IA (¿Serio?). Too long a window - dozens of other changes happen in parallel. Any YoY difference reflects everything, not your feature. Misattributes long-term business trends to a single change. Core issue: Correlación > Causa Probablemente hayas oído la frase, “Correlación no significa causalidad”. Imagínese que lanza un chatbot de IA, y un poco después, el número de compras completadas aumenta. Suena como el chatbot causó el aumento, ¿verdad? Tal vez - o tal vez no. Cuando el uso y los resultados se mueven juntos, parece causa y efecto. Pero al mismo tiempo, su equipo de marketing lanzó una nueva campaña. O hubo un pico estacional, que siempre es un pico de ventas en esta época del año. O un competidor salió de stock. O... usted sabe, podría haber muchas razones. Y todos ellos podrían afectar a los números juntos o en lugar de su bot. La parte complicada es que los datos solo pueden parecer relacionados porque dos cosas están sucediendo al mismo tiempo.Nuestros cerebros son buenos en reconocer patrones, pero el negocio está lleno de eventos paralelos y ruido.Si no separamos la causa de la coincidencia, corremos el riesgo de tomar malas decisiones - como invertir más en una característica que no era realmente responsable del éxito. La correlación sólo muestra que dos cosas cambiaron al mismo tiempo, pero no promete que una causó la otra. Core issue: El estándar de oro de la industria - experimentos controlados aleatorios (RCE) 10 veces de 10 quieres estar aquí. Afortunadamente 8-9 veces de 10 estarás aquí.Y es debido a esos casos que RCE no es suficiente que este artículo se produjo. Sin embargo, empecemos con las cosas buenas. Las pruebas A/B clásicas Probablemente estés familiarizado con este método. se resume de la siguiente manera: For example, that the description of goods and services generated with GenAI will be as good (or better) than the one written by a human. Or the block “Customers Also Bought / Frequently Bought Together” in an online store will stimulate customers to buy more staff. Personalized emails engage users more. And so on. We form a hypothesis. by which to determine the success/failure of the hypothesis. Define one or more metrics Consider possible cycles of product use. Calculate the sample size and duration of the experiment. into two (or more) groups and . The control group (a) sees the product without the new feature, and the experimental group sees the new version of the product containing the change we are testing. We check that the groups differ only in the presence or absence of the new feature. Randomly split the traffic run the experiment . We apply statistical methods, calculate the difference in metrics and make sure that it is statistically significant. Stage 0 could be an A/A test (when both groups see the same version of the product and we do not see any difference in their behavior) to make sure that the traffic separation and methodology works correctly Analysis Based on the analysis, a decision is made: use, refine or reject. Decision making and iteration. Its magical, wonderful world where there is a lot of control, a chance to double-check yourself, to measure your confidence in your results. Plenty of learning resources and experienced colleagues around. What could possibly go wrong? The main reasons why we will have to give up cozy classical AB tests: 1. is when the behavior of one group affects another. That means the control group also changes - even though it shouldn't. Spillover Effect A textbook example is the Facebook friend recommendation block. We hope that it will help users build social connections. Let's imagine that group A doesn't have such a block, but group B sees it. User John from group B sees such a block, sees user Michael from group A in it, and adds him as a friend. Both users have +1 friend, although Michael should have been in a group that is not affected by the tested feature. Let's look at a few different examples where the might occur Spillover Effect or . If we have very few users (unpopular part of the product, B2B, etc.) or we work with a very rare event (buying a very expensive product or someone actually read the Terms & Conditions). In such cases, it will take a huge amount of time to get a little bit significant result. 2. Few users rare events . If we launch a change that affects the environment and cannot be isolated to individual users. For example, we are testing an advertising auction algorithm - prices will change for all advertisers, not just for those we try to isolate into an experimental group. 3. Impact on external factors . Our chip can change the composition of groups. For example, it repels or attracts certain types of users. For example, if a new feature starts to attract newcomers (this is not our goal) and increases their share in the test group, while in the control group it remains unchanged - the groups will not be comparable. 4. Brand's Effect The good news is that part of the problem is solved without going outside of RCE, using basically the same mechanics. There’s more to split than traffic! ¡Hay más que dividir que tráfico! Some of the above problems can be solved by changing only part of the overall test design. Veamos uno de los casos reales.De acuerdo con muchos resúmenes y analistas, diferentes co-pilotos y asistentes salen en la parte superior de los productos basados en LLM. Son líderes tanto en popularidad como en "taxa de supervivencia", es decir, tienen una oportunidad de vivir más tiempo que los MVPs. La característica común de este tipo de proyectos es que tenemos una solución que está diseñada para simplificar / acelerar el trabajo de un empleado. Puede ser operadores de call center, personas de ventas, personas de financiación y así sucesivamente. pero a menudo no tenemos tantos empleados para dividirlos en dos grupos y medir su velocidad / eficiencia con y sin copiloto. A continuación ( Como parte del experimento, los investigadores quisieron ver cómo el uso de herramientas de IA afecta al trabajo de los ingenieros. ¿cerrarían tareas más rápido si se les diera un arsenal moderno? pero sólo 16 desarrolladores participaron en el experimento, que es desesperadamente lo suficientemente pequeño como para esperar obtener resultados confiables. Enlace Los autores se dividen and compared completion times. So the sample here is not 16 developers, but 246 tasks. It's still not a huge sample, but: tasks El valor de P es OK. Los autores analizaron y marcaron las grabaciones de pantalla, realizaron entrevistas.En pocas palabras, hicieron investigación cualitativa.Cuando los resultados de la investigación cualitativa y cuantitativa son consistentes es una señal fuerte. Pero lo importante para nosotros ahora es sacar conclusiones dentro del marco de nuestro tema, no estamos interesados en este estudio en sí, sino en un ejemplo comprensible del enfoque. Let’s give this idea a skeleton. AI Copilots (Contact Centers / Dev Teams / etc) Case: Why not user-split? “Users” here are agents/devs; small populations + spillovers (shared macros, coaching, shift effects). Instead, randomize: Ticket / conversation (assign treatment at intake). O la cola / intención como el clúster (facturación, tecnología, retornos, etc.). estratificar por canal (chat/email/voz) y prioridad/SLA; monitorear los vicios de la automatización; analizar con SE robusto en clúster. Design notes: Una vez que entiendas este principio, puedes aplicarlo a otras entidades también.Puedes dividir el tiempo, la geoposición y más.Buscar casos similares, inspirarte y adaptarte. Una vez que entiendas este principio, puedes aplicarlo a otras entidades también.Puedes dividir el tiempo, la geoposición y más.Buscar casos similares, inspirarte y adaptarte. Dejaré una nota para otro tipo frecuente de tareas donde la prueba AB clásica puede no encajar - algoritmos de precios. Precios dinámicos (en el comercio al por menor) Case: Why not user-split? En la tienda es imposible (y confuso) mostrar precios diferentes a personas diferentes. En línea, a menudo es ilegal / no ético y desencadena problemas de equidad. Instead, randomize: Tiempo (switchback) para el mismo SKU×store (por ejemplo, por cambios/días). (Opcional) Clusters - SKU×store (o clusters de tiendas), estratificados por categoría/tráfico días de balance de la semana / estacionalidad; use SE robusto de clúster; guardias en superficies promocionales / de stock. Design notes: Cuando la aleatoriedad no es una opción ¿Cómo medes el impacto de tu función de IA principal cuando ya está en vivo para todos o no puedes ejecutar un experimento con un grupo de control? Hemos establecido que el RCE es el estándar de oro por una razón, pero el mundo limpio de los experimentos controlados a menudo da lugar a la realidad confusa del negocio. Tarde o temprano, cada equipo de producto se enfrenta a una pregunta crítica que una prueba A/B clásica no puede responder. Vamos a explorar algunos de los más populares y tratar de capturar su esencia.Cuando llegue el momento, sabrá dónde cavar. Métodos de visión general Comparación de puntos de propensión (PSM) El gesto: Puede considerar este método cuando la exposición a un tratamiento no es aleatoria (por ejemplo, cuando un usuario decide por sí mismo si utilizar una característica que ha desarrollado). Para cada usuario que recibió el tratamiento, encontramos un usuario que no lo hizo, pero tuvo la misma probabilidad de recibirlo. Use Case: Imagínese que ha creado un embarque muy cool y gamificado para su producto, por ejemplo, un tutorial interactivo con una mascota. En este caso, la motivación es un factor clave.Los usuarios que eligen completar la incorporación probablemente ya estén más interesados en explorar el producto.Para medir el efecto "puro" de la incorporación misma, es necesario compararlos con usuarios similares. Decision Guide Guía de Decisión Notas Técnicas : (For the Advanced) : There are several ways to form pairs, each with its own trade-offs. Common methods include matching, matching, and matching . The choice depends on your data and research question. Matching Strategy Matters one-to-one one-to-many with or without replacement : After matching, you must verify that the characteristics (the covariates used to calculate the propensity score) are actually balanced between the treated and the newly formed control group. If they aren't, you may need to adjust your propensity score model or matching strategy. Always Check for Balance : The causal effect estimated with PSM is technically the "average treatment effect on the treated" (ATT). This means the result applies only to the types of users who were able to be matched, not necessarily to the entire population. The Effect is Not for Everyone : The final estimate is highly dependent on how the propensity score (the probability of treatment) was calculated. A poorly specified model will lead to biased results. The Result is Sensitive to the Model : PSM is intuitive, but sometimes simpler methods like regression adjustments or more advanced techniques (e.g., doubly robust estimators) can be more powerful or reliable. It's a good tool to have, but it's not a silver bullet. It's Not Always the Best Tool Estrategia de Matching Matters: Hay varias maneras de formar pares, cada uno con sus propios compromisos. Métodos comunes incluyen la combinación de uno a uno, la combinación de uno a muchos y la combinación con o sin reemplazo. La elección depende de sus datos y la pregunta de investigación. Siempre verifique el equilibrio: Después de coincidir, debe verificar que las características (las covariantes utilizadas para calcular la puntuación de propensidad) están realmente equilibradas entre el grupo de control tratado y el grupo de control recién formado. El efecto no es para todos: El efecto causal estimado con PSM es técnicamente el "efecto medio del tratamiento sobre los tratados" (ATT). El resultado es Sensible al Modelo: la estimación final depende en gran medida de cómo se calculó la puntuación de propensidad (la probabilidad de tratamiento). No siempre es la mejor herramienta: PSM es intuitiva, pero a veces métodos más simples como ajustes de regresión o técnicas más avanzadas (por ejemplo, estimadores doblemente robustos) pueden ser más potentes o fiables. Sistema de control sintético (SC) El gesto: El objetivo es encontrar varias unidades no tratadas que sean similares a la que recibió el tratamiento. Desde este grupo, creamos un grupo de control "sintético" combinándolas de una manera que haga que sus características se asemejen estrechamente a la unidad tratada. Esta “combinación” es esencialmente una of the units from the control group (often called the "donor pool"). The weights are chosen to minimize the difference between the treated unit and the synthetic version during the . weighted average pre-treatment period Use Case: Imagínese que su empresa de entrega de alimentos está implementando un nuevo sistema logístico basado en la IA para reducir los tiempos de entrega en toda una ciudad, como Manchester. Una prueba A/B clásica es imposible porque el sistema afecta a todos los correos y clientes a la vez. Tampoco puede simplemente comparar el rendimiento de Manchester con otra ciudad, como Birmingham, porque eventos locales únicos o tendencias económicas allí distorsionarían la comparación. Para medir el verdadero impacto, necesita construir un control "sintético" que refleje perfectamente las tendencias previas al lanzamiento de Manchester. Here's how that "synthetic twin" is built. The method looks at the period el lanzamiento y utiliza un "poblado de donantes" de otras ciudades (por ejemplo, Birmingham, Leeds y Bristol) para crear la "receta" perfecta para replicar el pasado de Manchester. Al analizar datos históricos sobre predictores clave (como población o tiempos de entrega pasados), el algoritmo encuentra la mezcla ponderada ideal. Tenía una historia de rendimiento que fue un partido casi perfecto para el propio Manchester. before "40% Birmingham + 35% Leeds + 25% Bristol" Once this recipe is locked in, it's used to project what would have happened without the new system. From the launch day forward, the model calculates the "Synthetic Manchester's" performance by applying the recipe to the actual, real-time data from the donor cities. This synthetic version represents the most likely path the real Manchester would have taken. The difference between the real Manchester's improved delivery times and the performance of its synthetic twin is the true, isolated effect of your new AI system. Decision Guide Guía de Decisión Technical Notes: (For the Advanced) Always inspect the weights assigned to the units in the donor pool. If one unit receives almost all the weight (e.g., 99%), your "synthetic control" has essentially collapsed into a simple (DiD) model with a single, chosen control unit. This can indicate that your donor pool is not diverse enough. Weight Transparency and Diagnostics: Difference-in-Differences The original Synthetic Control method has inspired more advanced versions. Two popular ones are: Modern Extensions Exist: An extension that allows for multiple treated units and can perform better when a perfect pre-treatment fit is not achievable. Generalized Synthetic Control (GSC): A hybrid method that combines the strengths of both synthetic controls (for weighting control units) and difference-in-differences (for weighting time periods). It is often more robust to noisy data. Synthetic Difference-in-Differences (SDID): Always inspect the weights assigned to the units in the donor pool. If one unit receives almost all the weight (e.g., 99%), your "synthetic control" has essentially collapsed into a simple (DiD) model with a single, chosen control unit. This can indicate that your donor pool is not diverse enough. Weight Transparency and Diagnostics: Difference-in-Differences The original Synthetic Control method has inspired more advanced versions. Two popular ones are: Modern Extensions Exist: An extension that allows for multiple treated units and can perform better when a perfect pre-treatment fit is not achievable. Generalized Synthetic Control (GSC): A hybrid method that combines the strengths of both synthetic controls (for weighting control units) and difference-in-differences (for weighting time periods). It is often more robust to noisy data. Synthetic Difference-in-Differences (SDID): Diferencias en diferencias (DID) The Gist: Tomamos un grupo donde algo ha cambiado (por ejemplo, tenemos una nueva característica) y un grupo donde todo sigue igual. El segundo grupo debe ser tal que históricamente la tendencia de la métrica clave en él era la misma que en el grupo con la característica. Sobre la base de esto asumimos que sin nuestra intervención las tendencias de las métricas serían paralelas. Miramos las diferencias antes y después en los dos grupos. Luego comparamos estas dos diferencias. (es por eso que el método se llama Diferencias en Diferencias). La idea es simple: sin nosotros, ambos grupos habrían desarrollado lo mismo sin cambio, pero con nosotros, la diferencia entre sus cambios será el efecto “neto” de implementar nuestra función. Use Case(s): El método es muy popular, echemos un vistazo a algunos estudios de caso. Una región (país, ciudad) recibe el nuevo sistema de descuento (o servicio de IA), mientras que otra no. Comparamos el cambio en las ventas o el compromiso entre los dos. Un LLM se utiliza para generar un feed XML optimizado para Google Shopping para una categoría de producto. Esto incluye la creación de títulos más atractivos y descripciones detalladas de productos. Una segunda categoría similar con un feed estándar basado en plantillas se utiliza como un grupo de control. Luego comparamos el cambio en métricas como CTR o conversiones entre los dos grupos. El aviso: A good and understandable case, but it requires careful group selection. Organic traffic trends for different categories (e.g., "laptops" and "dog food") can differ greatly due to seasonality or competitor actions. The method will be reliable if the categories are very similar (e.g., "men's running shoes" and "women's running shoes"). El aviso: Measuring the impact of a feature launched only on Android, using iOS users as a control group to account for general market trends. Caveat: A very common case in practice, but methodologically risky. Android and iOS audiences often have different demographics, purchasing power, and behavioral patterns. Any external event (e.g., a marketing campaign targeting iOS users) can break the parallel trends and distort the results. El aviso: Decision Guide Guía de Decisión Notas Técnicas : (For the Advanced) The power of DiD lies in shifting the core assumption from the often-unrealistic "the groups are identical" to the more plausible "the groups' are identical." A simple post-launch comparison between Android and iOS is flawed because the user bases can be fundamentally different. A simple before-and-after comparison on Android alone is also flawed due to seasonality and other time-based factors. DiD elegantly addresses both issues by assuming that while the absolute levels of a metric might differ, their "rhythm" or dynamics would have been the same in the absence of the intervention. This makes it a robust tool for analyzing natural experiments. The Core Strength: trends While DiD is simple in its basic 2x2 case, it can become quite complex. Challenges arise when dealing with multiple time periods, different start times for the treatment across groups (staggered adoption), and when using machine learning techniques to control for additional covariates. Deceptive Simplicity: The problem of : the classical DiD model is ideal for cases where one group receives the intervention at one point in time. But in life, as you know, different subgroups (e.g. different regions or user groups) often receive the function at different times. and this is when applying standard DiD regression can lead to highly biased results. This is because groups already treated may be implicitly used as controls for groups treated later, which can sometimes even change the sign of the estimated effect. "Staggered Adoption" of the treatment effect: a simple DiD model implicitly assumes that the treatment effect is constant across all and over time. In reality, the effect may evolve (e.g., it may increase as users become accustomed to the feature) or vary between different subgroups. There are studies that show this and there are specific evaluation methods that take this effect into account. At least we think so until a new study comes out, right? Heterogeneity The power of DiD lies in shifting the core assumption from the often-unrealistic "the groups are identical" to the more plausible "the groups' are identical." A simple post-launch comparison between Android and iOS is flawed because the user bases can be fundamentally different. A simple before-and-after comparison on Android alone is also flawed due to seasonality and other time-based factors. DiD elegantly addresses both issues by assuming that while the absolute levels of a metric might differ, their "rhythm" or dynamics would have been the same in the absence of the intervention. This makes it a robust tool for analyzing natural experiments. The Core Strength: trends Simplicidad engañosa: Si bien DiD es simple en su caso básico 2x2, puede convertirse en bastante complejo.Los desafíos surgen cuando se trata de múltiples períodos de tiempo, diferentes tiempos de inicio para el tratamiento entre grupos (adopción estragada), y cuando se utilizan técnicas de aprendizaje automático para controlar covariantes adicionales. El problema de la "adopción estancada" : el modelo clásico de DiD es ideal para los casos en los que un grupo recibe la intervención en un momento.Pero en la vida, como sabes, diferentes subgrupos (por ejemplo, diferentes regiones o grupos de usuarios) a menudo reciben la función en diferentes momentos. y esto es cuando la aplicación de la regresión estándar de DiD puede conducir a resultados altamente prejuiciosos. of the treatment effect: a simple DiD model implicitly assumes that the treatment effect is constant across all and over time. In reality, the effect may evolve (e.g., it may increase as users become accustomed to the feature) or vary between different subgroups. There are studies that show this and there are specific evaluation methods that take this effect into account. At least we think so until a new study comes out, right? Heterogeneity Diseño de discontinuidad de regresión (RDD) El gesto: If a user gets a treatment based on a rule with a cutoff value (e.g., "made 100 orders" or “exist 1 month”), we assume that those just below the cutoff are very similar to those just above it. For example, a user with 99 orders is almost identical to a user with 101 orders. The only difference is that the person with 101 got the treatment, and the person with 99 didn't. This means we can try to compare them to see the effect. Use Case(s): Un programa de lealtad ofrece to users who have spent over $1000 in a year. RDD would compare the behavior (e.g., retention, future spending) of users who spent A los que gastan Una fuerte diferencia en su comportamiento en la marca de $1000 sería el efecto de recibir el "estado de oro". "Gold Status" $1001 $999 Un sitio de comercio electrónico ofrece a los clientes diferentes opciones de envío en función de su hora de llegada. gets 2-day shipping, while any customer arriving recibe una ventana de envío de 3 días. El sitio quiere medir el efecto causal de esta política en la probabilidad de pago. before noon just after noon Decision Guide Guía de Decisión Notas Técnicas : (For the Advanced) This article focuses on , where crossing the cutoff guarantees the treatment. A variation called exists for cases where crossing the cutoff only of receiving the treatment. Sharp RDD Fuzzy RDD increases the probability The first step in any RDD analysis is to . You should plot the outcome variable against the running variable. The "jump" or discontinuity at the cutoff should be clearly visible to the naked eye. plot the data A crucial step is choosing the right , or how far from the cutoff you look for data. It's a trade-off between bias and variance: bandwidth More accurate assumption (users are very similar), but fewer data points (high variance, low power). Narrow Bandwidth: More data points (low variance, high power), but a riskier assumption (users might be too different). Wide Bandwidth: Este artículo se centra en Sharp RDD, donde cruzar el corte garantiza el tratamiento.Una variación llamada Fuzzy RDDexiste para los casos en los que cruzar el corte solo aumenta la probabilidad de recibir el tratamiento. El primer paso en cualquier análisis de RDD es trazar los datos. Debe trazar la variable de resultado contra la variable en marcha. El "salto" o discontinuidad en el corte debe ser claramente visible a simple vista. A crucial step is choosing the right , or how far from the cutoff you look for data. It's a trade-off between bias and variance: bandwidth More accurate assumption (users are very similar), but fewer data points (high variance, low power). Narrow Bandwidth: More data points (low variance, high power), but a riskier assumption (users might be too different). Wide Bandwidth: Bayesian Structural Time Series (BSTS) Serie de tiempo estructural bayesiana (BSTS) Basado en los datos pre-evento, el modelo construye una predicción de lo que habría ocurrido sin nuestra intervención. Para ello, se basa en otras series de tiempo similares que no fueron afectadas por el cambio. La diferencia entre esta predicción y la realidad es el efecto estimado. Hemos mirado a Synthetic Control antes; pensamos en BSTS como la misma idea de estimar el impacto a través de unidades similares, no afectadas, pero . In Simple Terms: Los esteroides Para construir un "universo alternativo" donde su característica nunca existió.La principal diferencia con Synthetic Control es que para construir la predicción, utiliza un modelo Bayesiano en lugar de una multiplicación de pesos. Key Idea: Para medir el efecto, el modelo utiliza ventas de otras categorías similares para predecir cuáles habrían sido las ventas en su categoría El precio cambia. Use Case: sin Hay excelentes bibliotecas preparadas para trabajar con BSTS (como el CausalImpact de Google), con las que se puede conseguirlo en 10-20 líneas de código. Hay excelentes bibliotecas preparadas para trabajar con BSTS (como el CausalImpact de Google), con las que se puede conseguirlo en 10-20 líneas de código. Instrumental Variables (IV) Variables instrumentales (IV) A method for situations where a hidden factor (like motivation) influences both the user's choice and the final outcome. We find an external factor (an "instrument") that pushes the user towards the action but doesn't directly affect the outcome itself. In Simple Terms: To find an "indirect lever" to move only what's needed. Key Idea: (académico) Usted quiere medir el efecto de los anuncios de televisión en las ventas, pero los anuncios se muestran en regiones donde las personas ya compran más. Podría ser el tiempo: en días de lluvia, la gente ve más televisión (y ve el anuncio), pero el tiempo en sí no les hace comprar directamente su producto. Use Case: instrument Aprendizaje automático doble (DML) Un enfoque moderno que utiliza dos modelos de ML para "limpiar" tanto el tratamiento como el resultado de la influencia de cientos de otros factores. Al analizar sólo lo que queda después de esta "limpieza" (los residuos), el método encuentra el efecto causa-efecto puro. La fuerza principal de DML - donde la prueba A / B es imposible o muy difícil de llevar a cabo. A menudo estas son situaciones de auto-selección, cuando los usuarios deciden por sí mismos si usar una función o no. In Simple Terms: Para usar ML para eliminar todo el "ruido" y dejar sólo la pura "causa y efecto" señal. Key Idea: Por ejemplo, en una aplicación de fintech.Lanzas una nueva característica premium: un asistente de IA que analiza los gastos y da consejos de ahorro personalizados.El servicio no está habilitado por defecto, el usuario tiene que activarlo él mismo en las configuraciones. Use Case: Es excelente para usar en conjunto con otros métodos y a menudo se puede usar cuando los enfoques más simples no son adecuados. Es excelente para usar en conjunto con otros métodos y a menudo se puede usar cuando los enfoques más simples no son adecuados. How do I make sure everything is working correctly? Congratulations, you've come a long way by reading this entire review. Fair enough, you may have had a thought: these methods are quite complex, how can I be sure I've done it right? How can I trust the final results? Y heck, esa es la visión más correcta. The general idea of checking the correctness of estimation methods is summarized as follows: We’re measuring the effect where it clearly shouldn’t be — just to make sure it isn’t there. Con RCE, es bastante simple: necesitamos una prueba A/A. Ejecutamos el experimento de acuerdo con nuestro diseño: exactamente las mismas métricas, división, etc. Salvo que NO mostramos nuestra nueva característica a ambos grupos. Como resultado, no deberíamos ver ninguna diferencia entre ellos. A veces tiene sentido hacer el backtesting de la misma manera: después de que la característica haya funcionado durante un tiempo, vuelva a rodarlo para obtener algún tráfico y compruebe que el efecto sigue siendo el mismo que lo que vimos cuando hicimos la prueba AB por primera vez. Pero los cuasi-experimentos son un poco más complicados.Cada uno de los métodos tiene su propia especificidad y puede contener sus propias maneras especiales de comprobar la corrección de la implementación. Control de robustez To make sure that the effect we have found is not an accident or model error, we conduct a series of “stress tests”. The idea is the same: we create conditions in which the effect should not occur. If our method doesn't find it there either, our confidence in the result grows. Aquí hay algunos cheques clave: Placebo Tests Pruebas de placebo Esta prueba verifica la singularidad de su efecto en comparación con otros objetos dentro de su conjunto de datos. Tomemos, por ejemplo, el método de control sintético.Tenemos un sujeto “tratado” (que fue expuesto) y muchos sujetos “limpios” en un grupo de control (no exposición). How to do: En un mundo ideal, para todas estas pruebas “falsas”, no deberíamos ver un efecto tan fuerte como para nuestro caso real. What to expect: Si nuestro método encuentra efectos significativos en sujetos donde nada ocurrió, también es probable que nuestro hallazgo principal sea sólo ruido o una anomalía estadística, no un efecto real. Why it's needed: Placebo en el tiempo Por ejemplo, si la campaña de anuncios real comenzó el 1 de mayo, “decimos” al modelo que comenzó el 1 de abril cuando nada ocurrió realmente. How to do it: El modelo no debe detectar ningún efecto significativo en esta fecha falsa. What to expect: Esto ayuda a garantizar que el modelo está respondiendo a nuestro evento y no a fluctuaciones aleatorias en los datos o alguna tendencia estacional que ocurrió por casualidad en la fecha de nuestra intervención. Why: Placebo en el espacio Esta prueba verifica la fiabilidad de su modelo probándolo para su tendencia a producir falsos positivos en datos completamente independientes. Si tiene datos similares a sus datos de destino, pero que definitivamente no fueron afectados por la intervención, utilízalo.Por ejemplo, ha lanzado una promoción en una región.Toma datos de ventas de otra región donde la promoción no tuvo lugar y aplica su modelo a ella con la misma fecha de intervención real. How to do: El modelo no debe encontrar ningún efecto para estos datos de "control". What to expect: Si tu modelo encuentra efectos dondequiera que lo apliques, no puedes confiar en sus conclusiones sobre la serie objetivo.Esta prueba muestra que el modelo no es “hallucinante” al crear efectos de la nada. Why: Mapa de decisión (en lugar de conclusiones) Si has leído (o deslizado) todo el camino abajo, supongo que no necesitas otro buen resumen de por qué es tan importante medir los resultados de la implementación de AI / ML de una función. It is much more valuable for you if you get a useful decision-making tool. And I have one. The framework looks like this. Medición a través del test AB. Prueba de la prueba AB. En serio. Piense en diferentes unidades de división y clusters para seguir aplicando RCE. Below is a cheat sheet on choosing a Causal Inference method to quickly figure out which one is right for you. Go back to the part of the article where I explain it in layman's terms. Después de eso, vaya a los manuales y guías sobre este método Materiales útiles : Usado en la escritura de este artículo y altamente recomendado para una profundización en el tema Comprender el ciclo completo de la creación de soluciones AI/ML por y Diseño de sistemas de aprendizaje automático Valeria Babushkin Arseny Kravchenko El camino al mundo de la RCE por Ron Kohavi, Diane Tang, Ya Xu Experimentos controlados en línea confiables Dónde entender la inducción causal en detalle: Miguel Hernán y Jamie Robins en “Causal Inference: What If” Inferencia causal para los valientes y verdaderos Causas del libro ML