Нравится это или нет, реальность такова: простого факта, что ваш продукт или функция использует ИИ/МЛ, недостаточно. По крайней мере, не в том случае, если вы хотите долгосрочного положительного эффекта. Помимо шума и вирусного шума, бизнес по-прежнему о прибыли, рентабельности и растущих показателях. Это его природа, в большинстве случаев. Что означает, что для нас, людей, строящих эти проекты, важно знать, как измерить влияние ИИ / МЛ. Как на ранней стадии, так и после каждого улучшения. В этой статье мы рассмотрим набор инструментов, который помогает нам измерить эффект принятия ИИ и получить представление о том, как эти методы работают. я упрощу многое и сохраню многие детали за занавесом (или для отдельных разделов), просто чтобы снизить барьер входа. К концу, у вас будет понимание основных подходов к измерению влияния вашего проекта на бизнес.У вас будет грубая карта методов и знать, как ориентироваться - что лучше всего подходит для вашего случая. Карта повествования - чтобы помочь вам в навигации Начнем с основ — почему и когда вообще стоит измерять. Затем мы рассмотрим, что может пойти не так и почему не все изменения заслуживают эксперимента. Оттуда мы погрузимся в золотой стандарт - тестирование A / B - и что делать, когда вы не можете запустить один. Наконец, мы перейдем за рамки экспериментов к методам причинного вывода - и как доверять тому, что вы найдете. Измерение воздействия: почему, когда и как не делать When it’s worth measuring Когда стоит измерить Во-первых, основные причины, которые вы, возможно, действительно хотите беспокоить. Risk & Value Мы уже касались стоимости в начале.Мы хотим измерить, достаточна ли функция, чтобы оправдать дальнейшие инвестиции. Но не стоит забывать о критическом факторе – Если ваши блестящие новые изменения действительно ухудшают ситуацию - коэффициент конверсии упал, пользователи уходят с разочарованием, денег меньше - вы Хотите знать, что достаточно быстро, чтобы реагировать.Избегать неудачи может иметь значение даже больше, чем поймать вверх. risk management. определенно Innovation Начиная с ранних дней Agile, разработка продуктов была связана с быстрыми итерациями, рыночными гонками вооружений и бесконечными поисками продуктов, которые соответствуют рынку.Предприятия делают десятки вещей одновременно, чтобы оставаться конкурентоспособными, и вы можете предпочесть отдать приоритет поистине блестящим решениям среди просто хороших. Optimization Красота сознательного, ориентированного на измерение подхода заключается в том, что он позволяет вам копать глубже. Возможно, выручка не прыгнула сразу, но пользователи любят новую функциональность и ежедневно занимаются ею. Возможно, это резонирует с определенным сегментом, но раздражает других. Эти и другие идеи открывают возможности для дальнейшей оптимизации. Природа Organization Работаете ли вы в месте, которое говорит о том, чтобы быть «направленным на данные»? или, может быть, вы лично тип, который доверяет фактам над чувством кишечника? Тогда это то, где вы хотите быть: научиться измерять эффект и убедиться, что ваши результаты действительно приводят вас к поставленным целям. When Not to Test Когда не тестировать По его словам, там Случаи, когда эксперименты не имеют смысла - или вообще невозможны. Это Methodological limits Иногда просто невозможно применить методы.Слишком мало данных, чтобы получить результат.Изменения слишком малы, чтобы обнаружить.Или вообще нет гипотезы о том, что должно улучшиться (в этом случае - почему вообще нужно было что-то развивать?). Non-optional work Некоторые изменения обязательны.Правовые или требования к соответствию являются классическим случаем.Не специфичны для ИИ, но ясны: вы должны соответствовать GDPR, адаптировать свой продукт для доступности и так далее. То же самое относится к Сайт не возвращает ошибку 502.Как это для бизнес-ценности? critical fixes or infrastructure updates. Ethical red lines Некоторые методы измерения пересекают этические границы, несущие риск вреда пользователю или манипулятивного дизайна.Представьте эксперименты, которые могут вызвать финансовые потери или компрометировать данные пользователей. Better alternatives Иногда это просто не стоит того.Если усилия (ресурсы), затраченные на измерения, могут быть выше самой стоимости, пропустите ее.Время, деньги, стоимость возможности.Все дело. Самый простой пример: молодые, быстро развивающиеся стартапы с небольшим количеством клиентов, как правило, лучше преследуют продукт-рынок через короткие итерации и прямую обратную связь пользователей. Как не измерить До / После Интуитивно побуждение заключается в следующем: Посмотрите, как это было Запустите новую функцию Посмотрите, как это сейчас Увидеть положительный результат Profit Но «это кажется лучше сейчас» имеет темную сторону.Многие вещи меняются с течением времени (сезонность, внешние события, сдвиги трафика). Перепутать изменения окружающей среды с особенностями воздействия. Core issue: YoY (годовой) сравнение Этот знакомый и традиционный бизнес-трик идеально подходит для ответа на вопрос: «Растем ли мы как бизнес в целом?». И это полезно во многих ситуациях, но не в изолированной оценке реализации или улучшения функции. Только представьте, сколько произошло в бизнесе в этом году. Маркетологи, SEO, продавцы, вы называете это - все вокруг вас неустанно работали, чтобы обеспечить рост. Мир вокруг нас также не стоит. Тарифы, Covid-19 и войны происходят. Блогисты и знаменитости выражают свои мнения. Тенденции TikTok меняют поведение потребителей, и ваши конкуренты также выполняют свою роль. Но этот 10% рост оборота в январе был только благодаря вашему AI чатботу (серьезно?). Слишком длинное окно - десятки других изменений происходят параллельно. Любая разница YoY отражает все, а не вашу особенность. Core issue: Корреляция «Причина» Вы наверняка слышали фразу: «Кореляция не означает причинность», но что это на самом деле означает на практике? Представьте, что вы запустили чат-бот ИИ, и через некоторое время количество завершенных покупок увеличивается. Звучит так, как чат-бот вызвал рост, верно? Может быть - или, может быть, нет. Когда использование и результаты движутся вместе, это выглядит как причина и следствие. Но в то же время ваша маркетинговая команда запустила новую кампанию. Или был сезонный пик, который всегда является пиком продаж в это время года. Сложная часть заключается в том, что данные могут выглядеть связанными только потому, что одновременно происходят две вещи.Наши мозги хороши в распознавании моделей, но бизнес полон параллельных событий и шума.Если мы не отделяем причину от совпадения, мы рискуем принимать плохие решения - например, инвестировать больше в функцию, которая на самом деле не отвечает за успех. Корреляция только показывает, что две вещи изменились одновременно, но не обещает, что одна вызвала другую. Core issue: Золотой стандарт отрасли - рандомизированные контролируемые эксперименты (RCE) 10 раз из 10 вы хотите быть здесь. К счастью, 8-9 раз из 10 вы будете здесь. Тем не менее, начнем с хороших вещей. Классические A/B тесты Вы, вероятно, знакомы с этим методом, он обобщается следующим образом: For example, that the description of goods and services generated with GenAI will be as good (or better) than the one written by a human. Or the block “Customers Also Bought / Frequently Bought Together” in an online store will stimulate customers to buy more staff. Personalized emails engage users more. And so on. We form a hypothesis. by which to determine the success/failure of the hypothesis. Define one or more metrics Consider possible cycles of product use. Calculate the sample size and duration of the experiment. into two (or more) groups and . The control group (a) sees the product without the new feature, and the experimental group sees the new version of the product containing the change we are testing. We check that the groups differ only in the presence or absence of the new feature. Randomly split the traffic run the experiment . We apply statistical methods, calculate the difference in metrics and make sure that it is statistically significant. Stage 0 could be an A/A test (when both groups see the same version of the product and we do not see any difference in their behavior) to make sure that the traffic separation and methodology works correctly Analysis Based on the analysis, a decision is made: use, refine or reject. Decision making and iteration. Its magical, wonderful world where there is a lot of control, a chance to double-check yourself, to measure your confidence in your results. Plenty of learning resources and experienced colleagues around. What could possibly go wrong? The main reasons why we will have to give up cozy classical AB tests: 1. is when the behavior of one group affects another. That means the control group also changes - even though it shouldn't. Spillover Effect A textbook example is the Facebook friend recommendation block. We hope that it will help users build social connections. Let's imagine that group A doesn't have such a block, but group B sees it. User John from group B sees such a block, sees user Michael from group A in it, and adds him as a friend. Both users have +1 friend, although Michael should have been in a group that is not affected by the tested feature. Let's look at a few different examples where the might occur Spillover Effect or . If we have very few users (unpopular part of the product, B2B, etc.) or we work with a very rare event (buying a very expensive product or someone actually read the Terms & Conditions). In such cases, it will take a huge amount of time to get a little bit significant result. 2. Few users rare events . If we launch a change that affects the environment and cannot be isolated to individual users. For example, we are testing an advertising auction algorithm - prices will change for all advertisers, not just for those we try to isolate into an experimental group. 3. Impact on external factors . Our chip can change the composition of groups. For example, it repels or attracts certain types of users. For example, if a new feature starts to attract newcomers (this is not our goal) and increases their share in the test group, while in the control group it remains unchanged - the groups will not be comparable. 4. Brand's Effect Хорошая новость заключается в том, что часть проблемы решается, не выходя за рамки RCE, используя в основном ту же механику. There’s more to split than traffic! Есть больше разделить, чем трафик! Некоторые из вышеперечисленных проблем можно решить, изменив только часть общей конструкции теста. По мнению многих резюме и аналитиков, различные со-пилоты и помощники выходят в верхней части продуктов, основанных на LLM. Они ведут как по популярности, так и по «показателю выживания», т.е. у них есть шанс жить дольше, чем MVPs. Общая особенность этого типа проектов заключается в том, что у нас есть решение, которое предназначено для упрощения / ускорения работы сотрудника. Это могут быть операторы колл-центра, люди по продажам, финансирование людей и так далее. но чаще всего у нас нет такого количества сотрудников, чтобы разделить их на две группы и измерить их скорость / эффективность с и без копилота. Здесь ( В рамках эксперимента исследователи хотели увидеть, как использование инструментов ИИ влияет на работу инженеров.Заключат ли они задачи быстрее, если бы им дали современный арсенал?Но только 16 разработчиков приняли участие в эксперименте, который отчаянно достаточно мал, чтобы надеяться получить уверенные результаты. Линк Вместо этого авторы разделили Итак, выборка здесь не 16 разработчиков, а 246 задач. tasks P-значение в порядке Авторы проанализировали и обозначили скриншоты, провели интервью. Короче говоря, они провели качественные исследования. Когда результаты качественных и количественных исследований совпадают, это сильный сигнал. Но для нас сейчас важно сделать выводы в рамках нашей темы, нас интересует не само это исследование, а понятный пример подхода. Let’s give this idea a skeleton. Копилоты ИИ (контактные центры / команды разработчиков / и т.д.) Case: Why not user-split? «Пользователи» здесь представляют собой агентов/должников; небольшие популяции + выбросы (совместные макросы, коучинг, эффекты смены). Instead, randomize: Билет / беседа (назначается лечение при приеме). Или очередь / намерение в качестве кластера (счет, технология, возврат и т.д.). стратификация по каналам (чат / электронная почта / голос) и приоритет / SLA; мониторинг автоматизации предрассудков; анализ с cluster-robust SE. Design notes: Как только вы поймете этот принцип, вы также можете применить его к другим субъектам. Вы можете разделить время, геопозицию и многое другое. Once you understand this principle, you can apply it to other entities as well. You can split time, geoposition, and more. Look for similar cases, get inspired and adapt. Я оставлю заметку для другого частого типа задач, где классический тест AB может не вписываться - ценовые алгоритмы. Dynamic Pricing (Retail) Case: Why not user-split? В магазине невозможно (и запутанно) показать разные цены разным людям. Online it’s often illegal/unethical and triggers fairness issues. Instead, randomize: Время (переключение) для одного и того же SKU × магазина (например, по сменям / дням). Кластеры — SKU×store (или кластеры магазинов), слоированные по категории/трафику балансовые дни недели/сезонности; используйте кластерно-резистентные SE; ограждения на перекрытиях промо/акций. Design notes: Когда рандомизация не является вариантом Как вы измеряете влияние вашей основной функции ИИ, когда она уже жива для всех или вы не можете запустить эксперимент с контрольной группой? Мы установили, что RCE является золотым стандартом по какой-то причине, но чистый мир контролируемых экспериментов часто дает место беспорядочной реальности бизнеса. Рано или поздно каждая команда продуктов сталкивается с критическим вопросом, на который классический A/B-тест не может ответить. Давайте исследуем некоторые из самых популярных и постараемся захватить их сущность.Когда придет время, вы будете знать, где копать. Методы обзора Сопоставление показателей Propensity Score Matching (PSM) Это жест: Вы можете рассмотреть этот метод, когда воздействие на лечение не является случайным (например, когда пользователь сам решает, использовать ли вы разработанную функцию). Для каждого пользователя, который получил лечение, мы находим пользователя, который не получил, но имел такую же вероятность его получения. Use Case: Представьте, что вы создали очень крутой, игровой набор для вашего продукта — например, интерактивное руководство с маскотом. В этом случае, мотивация является ключевым фактором. Пользователи, которые решили завершить набор, скорее всего, уже более заинтересованы в изучении продукта. Чтобы измерить «чистый» эффект самого набора, вам нужно сравнить их с аналогичными пользователями. Decision Guide Руководство по решению Технические примечания : (For the Advanced) : There are several ways to form pairs, each with its own trade-offs. Common methods include matching, matching, and matching . The choice depends on your data and research question. Matching Strategy Matters one-to-one one-to-many with or without replacement : After matching, you must verify that the characteristics (the covariates used to calculate the propensity score) are actually balanced between the treated and the newly formed control group. If they aren't, you may need to adjust your propensity score model or matching strategy. Always Check for Balance : The causal effect estimated with PSM is technically the "average treatment effect on the treated" (ATT). This means the result applies only to the types of users who were able to be matched, not necessarily to the entire population. The Effect is Not for Everyone : The final estimate is highly dependent on how the propensity score (the probability of treatment) was calculated. A poorly specified model will lead to biased results. The Result is Sensitive to the Model : PSM is intuitive, but sometimes simpler methods like regression adjustments or more advanced techniques (e.g., doubly robust estimators) can be more powerful or reliable. It's a good tool to have, but it's not a silver bullet. It's Not Always the Best Tool Соответствующая стратегия имеет значение: Существует несколько способов формирования пар, каждый из которых имеет свои собственные компромиссы.Общие методы включают один-на-один соответствие, один-на-много соответствие и соответствие с заменой или без.Выбор зависит от ваших данных и исследовательского вопроса. Всегда проверяйте баланс: После сопоставления, вы должны проверить, что характеристики (ковариаты, используемые для расчета баллов наклонности) на самом деле сбалансированы между обрабатываемой и вновь сформированной контрольной группой. Эффект не для всех: причинно-следственный эффект, оцененный с помощью ПСМ, технически является «средним эффектом лечения на леченных» (АТТ). Результат чувствителен к модели: конечная оценка сильно зависит от того, как был рассчитан балл склонности (вероятность лечения). Это не всегда лучший инструмент: PSM интуитивен, но иногда более простые методы, такие как корректировки регрессии или более продвинутые методы (например, двойные надежные оценщики) могут быть более мощными или надежными. Синтетический контроль (SC) Это жест: Цель состоит в том, чтобы найти несколько необработанных единиц, которые похожи на тот, который получил лечение. Из этого бассейна, мы создаем «синтетическую» контрольную группу, объединяя их таким образом, что их характеристики близки к обрабатываемой единице. Эта «комбинация» является в основном of the units from the control group (often called the "donor pool"). The weights are chosen to minimize the difference between the treated unit and the synthetic version during the . weighted average pre-treatment period Use Case: Imagine your food delivery company is implementing a new AI-based logistics system to reduce delivery times across an entire city, like Manchester. A classic A/B test is impossible because the system affects all couriers and customers at once. You also can't simply compare Manchester's performance to another city, such as Birmingham, because unique local events or economic trends there would skew the comparison. To measure the true impact, you need to build a "synthetic" control that perfectly mirrors Manchester's pre-launch trends. Вот как этот «синтетический близнец» построен. запуск и использует «полу доноров» других городов (например, Бирмингема, Лидса и Бристоля) для создания идеального «рецепта» для воспроизведения прошлого Манчестера. had a performance history that was a near-perfect match for Manchester's own. before "40% Birmingham + 35% Leeds + 25% Bristol" Как только этот рецепт заблокирован, он используется для прогнозирования того, что произошло бы без новой системы. С дня запуска вперед, модель рассчитывает производительность «Синтетического Манчестера» путем применения рецепта к фактическим данным в режиме реального времени из городов-доноров. Эта синтетическая версия представляет собой наиболее вероятный путь, который настоящий Манчестер бы принял. Разница между улучшенными временами доставки настоящего Манчестера и производительностью его синтетического близнеца является истинным, изолированным эффектом вашей новой системы ИИ. Decision Guide Руководство по решению Технические примечания : (For the Advanced) Always inspect the weights assigned to the units in the donor pool. If one unit receives almost all the weight (e.g., 99%), your "synthetic control" has essentially collapsed into a simple (DiD) model with a single, chosen control unit. This can indicate that your donor pool is not diverse enough. Weight Transparency and Diagnostics: Difference-in-Differences The original Synthetic Control method has inspired more advanced versions. Two popular ones are: Modern Extensions Exist: An extension that allows for multiple treated units and can perform better when a perfect pre-treatment fit is not achievable. Generalized Synthetic Control (GSC): A hybrid method that combines the strengths of both synthetic controls (for weighting control units) and difference-in-differences (for weighting time periods). It is often more robust to noisy data. Synthetic Difference-in-Differences (SDID): Прозрачность веса и диагностика: Всегда проверяйте весы, присвоенные единицам в донорском бассейне.Если одна единица получает почти весь вес (например, 99%), ваш «синтетический контроль» по существу рухнул в простую модель Дифференциальности (DiD) с одним, выбранным контрольным блоком. The original Synthetic Control method has inspired more advanced versions. Two popular ones are: Modern Extensions Exist: An extension that allows for multiple treated units and can perform better when a perfect pre-treatment fit is not achievable. Generalized Synthetic Control (GSC): A hybrid method that combines the strengths of both synthetic controls (for weighting control units) and difference-in-differences (for weighting time periods). It is often more robust to noisy data. Synthetic Difference-in-Differences (SDID): Difference-in-Differences (DID) The Gist: Мы принимаем группу, где что-то изменилось (например, мы получили новую функцию) и группу, где все остается прежним. The second group should be such that historically the trend of the key metric in it was the same as in the group with the feature. On the basis of this we assume that without our intervention the trends of metrics would be parallel. We look at the before and after differences in the two groups. Then we compare these two differences. (that's why the method is called Difference-in-Differences). Идея проста: без нас обе группы развивались бы одинаково без изменений, но с нами разница между их изменениями будет «чистым» эффектом реализации нашей функции. Use Case(s): The method is very popular, let's even look at a few case studies. Один регион (страна, город) получает новую систему скидок (или услугу ИИ), а другой - нет. LLM используется для создания оптимизированного XML-потока для Google Shopping для одной категории продуктов. Это включает в себя создание более привлекательных заголовков и подробных описаний продуктов. Вторая, похожая категория со стандартным, на основе шаблона, используется в качестве контрольной группы. Мы затем сравниваем изменение показателей, таких как CTR или конверсии между двумя группами. Аналогичная механика может работать с SEO. Остерегайтесь : Органические тенденции трафика для разных категорий (например, «ноутбуки» и «пища для собак») могут сильно отличаться в зависимости от сезонности или действий конкурентов. Остерегайтесь : Measuring the impact of a feature launched only on Android, using iOS users as a control group to account for general market trends. Caveat: A very common case in practice, but methodologically risky. Android and iOS audiences often have different demographics, purchasing power, and behavioral patterns. Any external event (e.g., a marketing campaign targeting iOS users) can break the parallel trends and distort the results. Caveat: Decision Guide Руководство по решению Technical Notes: (For the Advanced) The power of DiD lies in shifting the core assumption from the often-unrealistic "the groups are identical" to the more plausible "the groups' are identical." A simple post-launch comparison between Android and iOS is flawed because the user bases can be fundamentally different. A simple before-and-after comparison on Android alone is also flawed due to seasonality and other time-based factors. DiD elegantly addresses both issues by assuming that while the absolute levels of a metric might differ, their "rhythm" or dynamics would have been the same in the absence of the intervention. This makes it a robust tool for analyzing natural experiments. The Core Strength: trends While DiD is simple in its basic 2x2 case, it can become quite complex. Challenges arise when dealing with multiple time periods, different start times for the treatment across groups (staggered adoption), and when using machine learning techniques to control for additional covariates. Deceptive Simplicity: The problem of : the classical DiD model is ideal for cases where one group receives the intervention at one point in time. But in life, as you know, different subgroups (e.g. different regions or user groups) often receive the function at different times. and this is when applying standard DiD regression can lead to highly biased results. This is because groups already treated may be implicitly used as controls for groups treated later, which can sometimes even change the sign of the estimated effect. "Staggered Adoption" of the treatment effect: a simple DiD model implicitly assumes that the treatment effect is constant across all and over time. In reality, the effect may evolve (e.g., it may increase as users become accustomed to the feature) or vary between different subgroups. There are studies that show this and there are specific evaluation methods that take this effect into account. At least we think so until a new study comes out, right? Heterogeneity Основная сила: Сила DiD заключается в смещении основного предположения от часто нереалистичного «группы идентичны» к более правдоподобным «трендам групп идентичны». Простое сопоставление после запуска между Android и iOS является недостаточным, потому что базы пользователей могут быть фундаментально разными. Простое сопоставление до и после только на Android также является недостаточным из-за сезонности и других факторов, основанных на времени. DiD элегантно решает оба вопроса, предполагая, что, хотя абсолютные уровни метрики могут отличаться, их «ритм» или динамика были бы одинаковыми при отсутствии вмешательства. Это делает его надежным инструментом для анализа естественных экспериментов. Обманчивая простота: В то время как ДиД является простым в своем базовом случае 2х2, он может стать довольно сложным. вызовы возникают, когда дело доходит до нескольких временных периодов, различных начальных сроков для лечения по группам (обобщенное принятие) и при использовании технологий машинного обучения для контроля за дополнительными ковариатами. The problem of : the classical DiD model is ideal for cases where one group receives the intervention at one point in time. But in life, as you know, different subgroups (e.g. different regions or user groups) often receive the function at different times. and this is when applying standard DiD regression can lead to highly biased results. This is because groups already treated may be implicitly used as controls for groups treated later, which can sometimes even change the sign of the estimated effect. "Staggered Adoption" of the treatment effect: a simple DiD model implicitly assumes that the treatment effect is constant across all and over time. In reality, the effect may evolve (e.g., it may increase as users become accustomed to the feature) or vary between different subgroups. There are studies that show this and there are specific evaluation methods that take this effect into account. At least we think so until a new study comes out, right? Heterogeneity Дизайн регрессионной непрерывности (RDD) The Gist: Если пользователь получает лечение, основанное на правиле с значением отрезка (например, «сделано 100 заказов» или «существует 1 месяц»), мы предполагаем, что те, которые находятся чуть ниже отрезка, очень похожи на те, которые находятся чуть выше него. Use Case(s): Программа лояльности дает RDD будет сравнивать поведение (например, сохранение, будущие расходы) пользователей, которые потратили более $1000 в год. with those who spent . A sharp difference in their behavior right at the $1000 mark would be the effect of receiving "Gold Status." "Gold Status" $1001 $999 Сайт электронной коммерции предлагает клиентам различные варианты доставки в зависимости от времени прибытия. получает 2-дневную доставку, в то время как любой клиент прибывает получает 3-дневное окно доставки. Сайт хочет измерить причинное воздействие этой политики на вероятность оплаты. before noon just after noon Decision Guide Руководство по решению Технические примечания : (For the Advanced) This article focuses on , where crossing the cutoff guarantees the treatment. A variation called exists for cases where crossing the cutoff only of receiving the treatment. Sharp RDD Fuzzy RDD increases the probability The first step in any RDD analysis is to . You should plot the outcome variable against the running variable. The "jump" or discontinuity at the cutoff should be clearly visible to the naked eye. plot the data A crucial step is choosing the right , or how far from the cutoff you look for data. It's a trade-off between bias and variance: bandwidth More accurate assumption (users are very similar), but fewer data points (high variance, low power). Narrow Bandwidth: More data points (low variance, high power), but a riskier assumption (users might be too different). Wide Bandwidth: This article focuses on , where crossing the cutoff guarantees the treatment. A variation called exists for cases where crossing the cutoff only of receiving the treatment. Sharp RDD Fuzzy RDD increases the probability The first step in any RDD analysis is to . You should plot the outcome variable against the running variable. The "jump" or discontinuity at the cutoff should be clearly visible to the naked eye. plot the data A crucial step is choosing the right , or how far from the cutoff you look for data. It's a trade-off between bias and variance: bandwidth More accurate assumption (users are very similar), but fewer data points (high variance, low power). Narrow Bandwidth: More data points (low variance, high power), but a riskier assumption (users might be too different). Wide Bandwidth: Bayesian Structural Time Series (BSTS) Серия структурного времени Байеса (Bayesian Structural Time Series, BSTS) Основываясь на данных до событий, модель создает прогноз того, что произошло бы без нашего вмешательства. Чтобы сделать это, она опирается на другие, похожие временные серии, которые не были затронуты изменением. Разница между этим прогнозом и реальностью - это оцененный эффект. Мы смотрели на Синтетический контроль ранее; думаем о BSTS как о той же идее оценки воздействия через похожие, не затронутые единицы, но . In Simple Terms: on steroids Для построения «альтернативной вселенной», где ваша функция никогда не существовала.Основное отличие от Синтетического контроля заключается в том, что для построения прогноза она использует модель Байе вместо умножения весов. Key Idea: Для измерения эффекта модель использует продажи из других, схожих категорий, чтобы предсказать, какими бы были продажи в вашей категории Изменения в цене. Use Case: Без Существуют отличные готовые библиотеки для работы с BSTS (например, Google CausalImpact), с помощью которых вы можете сделать это в 10-20 строках кода. Существуют отличные готовые библиотеки для работы с BSTS (например, Google CausalImpact), с помощью которых вы можете сделать это в 10-20 строках кода. Instrumental Variables (IV) Instrumental Variables (IV) Метод для ситуаций, когда скрытый фактор (например, мотивация) влияет как на выбор пользователя, так и на конечный результат.Мы находим внешний фактор («инструмент»), который подталкивает пользователя к действию, но не напрямую влияет на сам результат. In Simple Terms: To find an "indirect lever" to move only what's needed. Key Idea: Вы хотите измерить влияние телевизионных объявлений на продажи, но объявления отображаются в регионах, где люди уже покупают больше. Это может быть погода: в дождливые дни люди смотрят больше телевизора (и видят рекламу), но сама погода непосредственно не заставляет их покупать ваш продукт. Use Case: instrument Double Machine Learning (DML) Современный подход, который использует две модели ML для «очищения» как лечения, так и результата от влияния сотен других факторов. Анализируя только то, что осталось после этого «очищения» (остатки), метод находит чистое причинно-следственное воздействие. Основная сила DML - где A/B-тест невозможен или очень трудно провести. Чаще всего это самовыборные ситуации, когда пользователи сами решают, использовать ли функцию или нет. In Simple Terms: Использовать МЛ для удаления всех «шумов» и оставить только чистый сигнал «причина и следствие». Key Idea: For example, in a fintech application. You launch a new premium feature: an AI assistant that analyzes spending and gives personalized savings advice. The service is not enabled by default, the user has to activate it himself in the settings. Use Case: Он отлично подходит для использования в тандеме с другими методами и часто может быть использован, когда более простые подходы не подходят. Он отлично подходит для использования в тандеме с другими методами и часто может быть использован, когда более простые подходы не подходят. How do I make sure everything is working correctly? Congratulations, you've come a long way by reading this entire review. Достаточно справедливо, у вас может возникнуть мысль: эти методы довольно сложны, как я могу быть уверенным, что я сделал это правильно? И хек, это самый правильный взгляд. Общая идея проверки правильности методов оценки обобщается следующим образом: We’re measuring the effect where it clearly shouldn’t be — just to make sure it isn’t there. С RCE это довольно просто - нам нужен тест A / A. Мы выполняем эксперимент по нашему дизайну: точно такие же показатели, разделение и т. Д. За исключением того, что мы НЕ показываем нашу новую функцию обеим группам. В результате, мы не должны видеть никакой разницы между ними.Иногда имеет смысл делать бак-тестирование таким же образом: после того, как функция работает на некоторое время, переверните ее за некоторым трафиком и убедитесь, что эффект все еще тот же, что мы видели, когда мы делали тест AB в первый раз. Но квазиэксперименты немного сложнее.Каждый из методов имеет свою специфику и может содержать свои особые способы проверки правильности реализации. Проверка на прочность Чтобы убедиться, что наш эффект не является случайностью или ошибкой модели, мы проводим серию «стресс-тестов». Идея одна и та же: мы создаем условия, в которых эффект не должен происходить. Here are some key checks: Placebo Tests Тест на плацебо This test checks the uniqueness of your effect compared to other objects within your dataset. У нас есть один «леченный» субъект (который был подвергнут воздействию) и многие «чистые» субъекты в контрольной группе (без воздействия). How to do: В идеальном мире для всех этих «фальшивых» тестов мы не должны видеть эффекта так сильно, как для нашего реального случая. What to expect: This test shows whether our result is unique. If our method finds significant effects in subjects where nothing happened, it is also likely that our main finding is just noise or a statistical anomaly, not a real effect. Why it's needed: In-time Placebo Например, если фактическая рекламная кампания началась 1 мая, мы «скажем» модели, что она началась 1 апреля, когда ничего не произошло. How to do it: Модель не должна обнаруживать никакого существенного влияния на эту ложную дату. What to expect: This helps ensure that the model is responding to our event and not to random fluctuations in the data or some seasonal trend that coincidentally occurred on the date of our intervention. Why: In-space Placebo Этот тест проверяет надежность вашей модели, тестируя ее на склонность производить ложные положительные результаты на полностью независимых данных. If you have data that is similar to your target data but that was definitely not affected by the intervention, use it. For example, you launched a promotion in one region. Take sales data from another region where the promotion did not take place and apply your model to it with the same actual intervention date. How to do: Модель не должна оказывать никакого влияния на эти «контрольные» данные. What to expect: Если ваша модель находит эффекты везде, где вы ее применяете, вы не можете доверять ее выводам по целевой серии. Why: Карта решений (вместо выводов) Если вы читали (или прокрутили) всю эту тему, я думаю, что вам не нужен еще один хороший обзор того, почему так важно измерить результаты внедрения AI / ML функции. Это намного ценнее для вас, если вы получите полезный инструмент принятия решений. Рамка выглядит так. Измерение с помощью теста AB. Пройдите тест AB. Серьезно. Подумайте о разных подразделениях и кластерах, чтобы все равно применять RCE. Below is a cheat sheet on choosing a Causal Inference method to quickly figure out which one is right for you. Вернитесь к части статьи, где я объясняю это в терминах мирян. После этого перейдите к руководствам и руководствам по этому методу Полезные материалы : Используется в написании этой статьи и рекомендуется для более глубокого погружения в тему Understand the full cycle of creating AI/ML solutions by и Дизайн системы машинного обучения Валерий Бабушкин Arseny Kravchenko Путь в мир RCE Рон Кохави, Диана Тан, Я Су Надежные онлайн-контролируемые эксперименты Где понимать причинно-следственное заключение подробно: Мигель Эрнан и Джейми Робинз «Каузальное заключение: что если» Причинное заключение для храбрых и истинных Causal ML Книга