それが好きであろうと、現実はこれです:あなたの製品や機能がAI/MLを使用しているという事実は、十分ではありません。 少なくとも、あなたが持続可能なポジティブな効果を望む場合ではありません。ハイプとウィルスバズの他に、ビジネスはまだ利益、ROI、および成長指標についてです。それは、ほとんどの場合、その性質です。これは、私たち、これらのプロジェクトを構築する人々にとって、AI / MLの影響を測定する方法を知ることが不可欠であることを意味します。 この記事では、AIの採用の効果を測定し、これらの方法がどのように機能するかを理解するのに役立つツールキットを見ていきます. I will simplify a lot of things and keep many details behind the curtain (or for separate sections), just to lower the entry barrier. 最後まで、あなたはあなたのプロジェクトがビジネスに与える影響を測定するための主要なアプローチを把握するでしょう. あなたは方法の粗大なマップを持っているし、自分自身を指向する方法を知っています - あなたのケースに最適です。 ナラティブマップ - to help you navigate 私たちは、基本的なものから始めます - なぜか、そして何時かで測定する価値があります。 次に、何が間違っているのか、そしてなぜすべての変化が実験に値しないのかを見ていきましょう。 そこから、私たちはゴールドスタンダード - A / B テスト - を実行できないときに何をすべきかを掘り下げます。 最後に、我々は実験を超えて、因果推論の方法 - そしてあなたが見つけるものを信頼する方法へと進みます。 影響を測定する:なぜ、いつ、そしてどうやってしないか When it’s worth measuring 測る価値があるとき まず、あなたが実際に悩みたいかもしれない主な理由です。 Risk & Value 我々はすでに最初から価値に触れた。我々は、機能がさらなる投資を正当化するのに十分な効果があるかどうかを測定したい。 しかし、重要な要素を忘れてはならない――。 あなたの明るい新しい変更が事態を悪化させている場合 - 変換率が下がり、ユーザーは不満に陥り、お金が少なくなる - あなたは 失敗を避けることは、逆転を乗り越えることよりも重要である。 risk management. 間違いなく Innovation Agile の初期の頃から、製品開発は、急速なイテレーション、市場の武器競争、製品と市場の調和のための無限の検索にかかっています。ビジネスは、競争力を維持するために同時に何十ものことをしますが、あなたは単に良いものの中から本当に素晴らしいソリューションを優先したいかもしれません。 Optimization 意識的で測定に基づくアプローチの美しさは、あなたがより深く掘り下げることができるということです。 たぶん、収益は直ちに跳ね上がらなかったが、ユーザーは新しい機能を愛し、日々それに取り組んでいるかもしれない。たぶん、それは特定のセグメントと共鳴するが、他の人を悩ませているかもしれない。 自然 Organization あなたは「データ駆動」のことを話す場所で働いていますか? もしくは、あなたは、腸の感覚を超えて事実を信頼するタイプですか? それでは、ここにあなたがいたい場所です:効果を測定する方法を学び、あなたの結果が実際にあなたが設定した目標に向かってあなたを導くことを確認します。 When Not to Test テストしないとき そう言って、そこに 実験が意味を持たない場合 - あるいはまったく不可能な場合。 は Methodological limits 時には、方法を適用することは単に不可能である、結果を得るためのデータが少ない、変化が検出するには小さすぎる、あるいは何を改善すべきかについての仮説が全くありません(その場合 - 何故何かを開発する必要があったのですか?)。 Non-optional work いくつかの変更は必須です。法的またはコンプライアンス要件は古典的なケースです。AI特有ではなく、明確です:GDPRに準拠し、アクセシビリティのために製品を調整する必要があります。 同じことが、 サイトが502エラーを返しません ビジネス価値はどうですか? critical fixes or infrastructure updates. Ethical red lines いくつかの測定実践は倫理的境界を越え、ユーザーの損害や操作的な設計のリスクを伴います。 Better alternatives 測定に費やされた努力(リソース)が価値そのものよりも高い場合、それを省略してください 時間、お金、機会コスト。 最も単純な例:わずか数人の顧客を持つ若い、急速に動くスタートアップは、通常、短いイテレーションと直接的なユーザーフィードバックを通じて製品と市場の調和を追いかけるのが上手です。 どうやって測らないか 前後 直感的に言えば、やる気は次のとおりです。 見てどうだったか 新機能を立ち上げる 見よ、今はどう ポジティブな結果を見る 利益 しかし、「今は良くなっているように見える」には暗い側面があります。時間とともに多くのことが変化します(季節性、外部イベント、トラフィックの変化)。 環境の変化と特徴の影響を混同する。 Core issue: YoY (Year-over-Year) 比較 この既知で伝統的なビジネストリックは、「ビジネス全体として成長しているか?」という質問に答えるのに最適です。 それは多くの状況で有用ですが、機能の実装または改善の孤立した評価では有用ではありません。 今年のビジネスでどれだけのことが起こったか想像してみてください。マーケター、SEO、セールスマン、あなたはそれを名乗っています - あなたの周りの人々は成長を確保するために疲れ果てずに働いています。私たちの周りの世界も立ち止まらない。関税、Covid-19、戦争が起こっています。 ブロガーやセレブが彼らの意見を表現しています。 TikTokのトレンドは消費者の行動を変え、あなたの競合相手もその役割を果たしています。 しかし、今年1月の売上高の10%増加は、AIチャットボットのおかげでしかありませんでした(本気ですか?)。 ウィンドウが長すぎる - 他の何十もの変更が並行して起こります. Any YoY difference reflects everything, not your feature. 長期的なビジネストレンドを単一の変更に誤って割り当てます。 Core issue: 関連 > 因果関係 あなたは、「関連性は因果関係を意味しない」という言葉を聞いたことがあるかもしれませんが、実際には何を意味しますか? Imagine you launch an AI chatbot, and a little while after that, the number of completed purchases increases. Sounds like the chatbot caused the increase, right? Maybe - or maybe not. When usage and outcomes move together, it looks like cause and effect. But. At the same time, your marketing team launched a new campaign. Or there was a seasonal peak, which is always a sales spike this time of year. Or a competitor ran out of stock. Or... you know, there could be a lot of reasons. And they could all affect the numbers together or instead of your bot. 困難な部分は、データが関連しているように見えるのは、二つのことが同時に起こっているからである。私たちの脳はパターンを認識するのに優れているが、ビジネスは並行の出来事と騒音に満ちている。 関連性は、二つの事柄が同時に変化したことを示すだけですが、一つが他の事柄を引き起こしたことを約束しません。 Core issue: 業界のゴールド・スタンダード - Randomized Controlled Experiments (RCE) 10回のうち10回はあなたがここにいることを望んでいます。幸いなことに10回のうち8〜9回はあなたがここにいるでしょう。 それでも、良いものから始めましょう。 クラシックA/Bテスト おそらくあなたはこの方法に精通しているでしょう。それは次のようにまとめられています。 For example, that the description of goods and services generated with GenAI will be as good (or better) than the one written by a human. Or the block “Customers Also Bought / Frequently Bought Together” in an online store will stimulate customers to buy more staff. Personalized emails engage users more. And so on. We form a hypothesis. by which to determine the success/failure of the hypothesis. Define one or more metrics Consider possible cycles of product use. Calculate the sample size and duration of the experiment. into two (or more) groups and . The control group (a) sees the product without the new feature, and the experimental group sees the new version of the product containing the change we are testing. We check that the groups differ only in the presence or absence of the new feature. Randomly split the traffic run the experiment . We apply statistical methods, calculate the difference in metrics and make sure that it is statistically significant. Stage 0 could be an A/A test (when both groups see the same version of the product and we do not see any difference in their behavior) to make sure that the traffic separation and methodology works correctly Analysis Based on the analysis, a decision is made: use, refine or reject. Decision making and iteration. Its magical, wonderful world where there is a lot of control, a chance to double-check yourself, to measure your confidence in your results. Plenty of learning resources and experienced colleagues around. What could possibly go wrong? The main reasons why we will have to give up cozy classical AB tests: 1. is when the behavior of one group affects another. That means the control group also changes - even though it shouldn't. Spillover Effect A textbook example is the Facebook friend recommendation block. We hope that it will help users build social connections. Let's imagine that group A doesn't have such a block, but group B sees it. User John from group B sees such a block, sees user Michael from group A in it, and adds him as a friend. Both users have +1 friend, although Michael should have been in a group that is not affected by the tested feature. Let's look at a few different examples where the might occur Spillover Effect or . If we have very few users (unpopular part of the product, B2B, etc.) or we work with a very rare event (buying a very expensive product or someone actually read the Terms & Conditions). In such cases, it will take a huge amount of time to get a little bit significant result. 2. Few users rare events . If we launch a change that affects the environment and cannot be isolated to individual users. For example, we are testing an advertising auction algorithm - prices will change for all advertisers, not just for those we try to isolate into an experimental group. 3. Impact on external factors . Our chip can change the composition of groups. For example, it repels or attracts certain types of users. For example, if a new feature starts to attract newcomers (this is not our goal) and increases their share in the test group, while in the control group it remains unchanged - the groups will not be comparable. 4. Brand's Effect 良いニュースは、問題の一部がRCEの外に出ることなく解決され、基本的に同じメカニズムを使用することです。 There’s more to split than traffic! トラフィック以上に分けるべきことがあります! 上記の問題のいくつかは、全体的なテスト設計の一部だけを変更することによって解決することができます。 多くの概要やアナリストによると、さまざまなコパイロットやアシスタントがLLMベースの製品のトップに登場します。彼らは人気と「生存率」の両方をリードします、すなわち、彼らはMVPよりも長生きするチャンスを持っています。 このタイプのプロジェクトの共通の特徴は、従業員の仕事を簡素化/加速するように設計されたソリューションを持っていることです。それは、コールセンターオペレーター、販売の人、資金調達の人々などかもしれません。 こちら( 実験の一環として、研究者らはAIツールの使用がエンジニアの仕事にどのように影響するかを調べたかったが、現代の兵器が与えられた場合、タスクをより速く終わらせるだろうか?しかし、自信のある結果を得るために絶望的に小さい実験には16人の開発者が参加した。 link 著者は、むしろ分裂。 だから、サンプルは16の開発者ではなく、246のタスクです。 tasks P値はOKです。 著者はスクリーンレコーディングを分析し、記録し、インタビューを行いました. 要するに、彼らは質的研究を行いました. 質的および定量的な研究の結果が一貫しているとき、それは強力なシグナルです。 しかし、今私たちにとって重要なことは、私たちのトピックの枠組みの中で結論を出すことである、私たちはこの研究自体に興味はありませんが、アプローチの理解可能な例です。 Let’s give this idea a skeleton. AIコピロット(Contact Centers / Dev Teams / etc) Case: Why not user-split? ここで「ユーザー」とは、エージェント/devs 、小規模な人口 + 流出(共有マクロ、コーチング、シフトエフェクト)です。 Instead, randomize: チケット / 会話(接種時に治療を割り当てる)。 またはクラスターとしての列 / 意図(請求、テクノロジー、リターン等)。 チャンネル(chat/email/voice)および優先順位/SLAに分類し、モニター・オートメーションの偏見を分析し、クラスター・ロブス・SEで分析します。 Design notes: あなたがこの原則を理解すると、あなたはそれを他のエンティティにも適用することができます. あなたは時間、地理的位置、その他を分割することができます. 似たケースを探して、インスピレーションを得て、適応します。 あなたがこの原則を理解すると、あなたはそれを他のエンティティにも適用することができます. あなたは時間、地理的位置、その他を分割することができます. 似たケースを探して、インスピレーションを得て、適応します。 私は、古典的なABテストが合わない可能性のある別の頻繁なタイプのタスクのためのメモを残します - 価格アルゴリズム。 ダイナミック価格(Retail) Case: Why not user-split? 店内では、異なる人々に異なる価格を表示することは不可能です(そして混乱します)。 オンラインでは、それはしばしば違法/不倫的であり、公平性の問題を引き起こします。 Instead, randomize: Time (switchback) for the same SKU×store (e.g., by shifts/days) (同じ SKU×ストアの時間) (Optional) Clusters - SKU×store (or store clusters), stratified by category/traffic バランスの日 / 季節性; クラスター強力なSEを使用; プロモーション / 株式の重なりについてのガードレイル。 Design notes: ランダム化が選択肢ではないとき あなたは、すでにすべての人に活かされているか、またはコントロールグループで実験を実行できないときに、あなたのコアAI機能の影響をどのように測定しますか? 私たちはRCEがゴールデンスタンダードであることを確立しましたが、コントロールされた実験のクリーンな世界はしばしばビジネスの混乱した現実に移ります。 遅かれ早かれ、すべての製品チームは、古典的なA/Bテストが答えられない重要な質問に直面します。 Let's explore some of the most popular ones and try to capture their essence. When the time comes, you'll know where to dig. 方法概要 プロペシティ・スコア・マッチング(PSM) The Gist: この方法は、治療への曝露がランダムでない場合に考慮することができます(例えば、ユーザーが開発した機能を使用するかどうかを自分で決定する場合)。 治療を受けたすべてのユーザーに対して、私たちはそれを受け取る確率が同じでないユーザーを見つけることができます。 Use Case: たとえば、マスコットを搭載したインタラクティブなチュートリアルなど、製品のための非常にクールでゲーム化されたオンボードを作成したと想像してください。 この場合、動機は重要な要因です。オンボードを完了することを選択したユーザーは、おそらくすでに製品を探索することにより興味を持っています。オンボード自体の「純粋な」効果を測定するには、それらを類似したユーザーと比較する必要があります。 Decision Guide 決断ガイド テクニカルノート: (For the Advanced) : There are several ways to form pairs, each with its own trade-offs. Common methods include matching, matching, and matching . The choice depends on your data and research question. Matching Strategy Matters one-to-one one-to-many with or without replacement : After matching, you must verify that the characteristics (the covariates used to calculate the propensity score) are actually balanced between the treated and the newly formed control group. If they aren't, you may need to adjust your propensity score model or matching strategy. Always Check for Balance : The causal effect estimated with PSM is technically the "average treatment effect on the treated" (ATT). This means the result applies only to the types of users who were able to be matched, not necessarily to the entire population. The Effect is Not for Everyone : The final estimate is highly dependent on how the propensity score (the probability of treatment) was calculated. A poorly specified model will lead to biased results. The Result is Sensitive to the Model : PSM is intuitive, but sometimes simpler methods like regression adjustments or more advanced techniques (e.g., doubly robust estimators) can be more powerful or reliable. It's a good tool to have, but it's not a silver bullet. It's Not Always the Best Tool Matching Strategy Matters: カップルを形成するいくつかの方法があり、それぞれが独自のコミットオフを持っています。共通の方法は、1対1のマッチング、1対2のマッチング、または交換なしのマッチングを含みます。 Always Check for Balance: マッチした後、特性(傾向スコアを計算するために使用されるコバリアット)が実際に扱われたコントロールグループと新しく形成されたコントロールグループの間でバランスを取っていることを確認する必要があります。 : The causal effect estimated with PSM is technically the "average treatment effect on the treated" (ATT). This means the result applies only to the types of users who were able to be matched, not necessarily to the entire population. The Effect is Not for Everyone : The final estimate is highly dependent on how the propensity score (the probability of treatment) was calculated. A poorly specified model will lead to biased results. The Result is Sensitive to the Model It's Not Always the Best Tool: PSM is intuitive, but sometimes simpler methods such as regression adjustments or more advanced techniques (e.g., double robust estimators) can be more powerful or reliable. それは持つ良いツールですが、それは銀の弾ではありません。 合成コントロール(SC) The Gist: 目的は、治療を受けたユニットと似ているいくつかの未処理ユニットを見つけることです。このプールから、我々は、その特徴が治療されたユニットに近いようにする方法でそれらを組み合わせることによって「合成」コントロールグループを作成します。 この「組み合わせ」は、基本的に、 コントロールグループのユニット(しばしば「ドナープール」と呼ばれる)のうち、重量は、処理されたユニットと合成バージョンの間の違いを最小限に抑えるために選択されます。 . weighted average pre-treatment period Use Case: Imagine your food delivery company is implementing a new AI-based logistics system to reduce delivery times across an entire city, like Manchester. A classic A/B test is impossible because the system affects all couriers and customers at once. You also can't simply compare Manchester's performance to another city, such as Birmingham, because unique local events or economic trends there would skew the comparison. To measure the true impact, you need to build a "synthetic" control that perfectly mirrors Manchester's pre-launch trends. Here's how that "synthetic twin" is built. The method looks at the period the launch and uses a "donor pool" of other cities (e.g., Birmingham, Leeds, and Bristol) to create the perfect "recipe" for replicating Manchester's past. By analyzing historical data on key predictors (like population or past delivery times), the algorithm finds the ideal weighted blend. It might discover, for instance, that a combination of had a performance history that was a near-perfect match for Manchester's own. before "40% Birmingham + 35% Leeds + 25% Bristol" このレシピがロックされると、新しいシステムがなければ何が起こっていたかをプロジェクトするために使用されます。発売日から、モデルは、ドナー都市からの実際のリアルタイムデータにレシピを適用することによって「合成マンチェスター」のパフォーマンスを計算します。この合成バージョンは、実際のマンチェスターが取った最も確実な道を表します。実際のマンチェスターのより良い配達時間と合成双子のパフォーマンスの違いは、あなたの新しいAIシステムの真の、孤立した効果です。 Decision Guide 決断ガイド テクニカルノート: (For the Advanced) Always inspect the weights assigned to the units in the donor pool. If one unit receives almost all the weight (e.g., 99%), your "synthetic control" has essentially collapsed into a simple (DiD) model with a single, chosen control unit. This can indicate that your donor pool is not diverse enough. Weight Transparency and Diagnostics: Difference-in-Differences The original Synthetic Control method has inspired more advanced versions. Two popular ones are: Modern Extensions Exist: An extension that allows for multiple treated units and can perform better when a perfect pre-treatment fit is not achievable. Generalized Synthetic Control (GSC): A hybrid method that combines the strengths of both synthetic controls (for weighting control units) and difference-in-differences (for weighting time periods). It is often more robust to noisy data. Synthetic Difference-in-Differences (SDID): Always inspect the weights assigned to the units in the donor pool. If one unit receives almost all the weight (e.g., 99%), your "synthetic control" has essentially collapsed into a simple (DiD) model with a single, chosen control unit. This can indicate that your donor pool is not diverse enough. Weight Transparency and Diagnostics: Difference-in-Differences The original Synthetic Control method has inspired more advanced versions. Two popular ones are: Modern Extensions Exist: An extension that allows for multiple treated units and can perform better when a perfect pre-treatment fit is not achievable. Generalized Synthetic Control (GSC): A hybrid method that combines the strengths of both synthetic controls (for weighting control units) and difference-in-differences (for weighting time periods). It is often more robust to noisy data. Synthetic Difference-in-Differences (SDID): Difference-in-Differences (DID) The Gist: 私たちは、何かが変わったグループ(例えば、新しい機能を得た)と、すべてが同じままのグループを取ります。 二番目のグループは、歴史的に、そのキーメトリックの傾向は、その特徴を持つグループと同じであるべきである。これに基づいて、私たちは、私たちの介入がなければ、メトリックの傾向は並行するだろうと仮定します。我々は、2つのグループの前と後の違いを見ます。 The idea is simple: without us, both groups would have developed the same without change, but with us, the difference between their changes will be the “net” effect of implementing our feature. Use Case(s): この方法は非常に人気がありますので、いくつかのケーススタディを見てみましょう。 ある地域(国、都市)は、新しい割引システム(AIサービス)を受け取るが、別の地域はそうではない。 LLM は、1 つの製品カテゴリーの Google ショッピング用に最適化された XML フィードを生成するために使用されます。これには、より魅力的なタイトルと詳細な製品説明の作成が含まれます。標準的なテンプレートベースのフィードを含む 2 つ目の類似のカテゴリはコントロールグループとして使用されます。 警告: さまざまなカテゴリー(例えば、「ノートパソコン」や「犬の食べ物」)の有機トラフィックの傾向は、季節性や競合行動によって大きく異なる場合があります。 警告: Measuring the impact of a feature launched only on Android, using iOS users as a control group to account for general market trends. Caveat: A very common case in practice, but methodologically risky. Android and iOS audiences often have different demographics, purchasing power, and behavioral patterns. Any external event (e.g., a marketing campaign targeting iOS users) can break the parallel trends and distort the results. 警告: Decision Guide 決断ガイド テクニカルノート: (For the Advanced) The power of DiD lies in shifting the core assumption from the often-unrealistic "the groups are identical" to the more plausible "the groups' are identical." A simple post-launch comparison between Android and iOS is flawed because the user bases can be fundamentally different. A simple before-and-after comparison on Android alone is also flawed due to seasonality and other time-based factors. DiD elegantly addresses both issues by assuming that while the absolute levels of a metric might differ, their "rhythm" or dynamics would have been the same in the absence of the intervention. This makes it a robust tool for analyzing natural experiments. The Core Strength: trends While DiD is simple in its basic 2x2 case, it can become quite complex. Challenges arise when dealing with multiple time periods, different start times for the treatment across groups (staggered adoption), and when using machine learning techniques to control for additional covariates. Deceptive Simplicity: The problem of : the classical DiD model is ideal for cases where one group receives the intervention at one point in time. But in life, as you know, different subgroups (e.g. different regions or user groups) often receive the function at different times. and this is when applying standard DiD regression can lead to highly biased results. This is because groups already treated may be implicitly used as controls for groups treated later, which can sometimes even change the sign of the estimated effect. "Staggered Adoption" of the treatment effect: a simple DiD model implicitly assumes that the treatment effect is constant across all and over time. In reality, the effect may evolve (e.g., it may increase as users become accustomed to the feature) or vary between different subgroups. There are studies that show this and there are specific evaluation methods that take this effect into account. At least we think so until a new study comes out, right? Heterogeneity The Core Strength: DiDの力は、しばしば非現実的な「グループは同一である」から「グループのトレンドは同一である」というより信頼性の高い「グループのトレンドは同一である」というコア仮定を変えることにあります。AndroidとiOSの単純なリリース後の比較は、ユーザーベースが根本的に異なるので欠陥です。Androidでの単純な前後の比較は、季節性や他の時間ベースの要因によって欠陥です。 欺瞞的なシンプルさ: DiD は基本的な 2x2 ケースでは単純であるが、複雑になる可能性があります。複数の時間帯、グループ間の治療の異なる開始時間(スタガーされた採用)、および機械学習技術を使用して追加のコヴァリアットを制御する際に課題が生じます。 The problem of : the classical DiD model is ideal for cases where one group receives the intervention at one point in time. But in life, as you know, different subgroups (e.g. different regions or user groups) often receive the function at different times. and this is when applying standard DiD regression can lead to highly biased results. This is because groups already treated may be implicitly used as controls for groups treated later, which can sometimes even change the sign of the estimated effect. "Staggered Adoption" 治療効果の異質性:単純なDiDモデルは、治療効果がすべてにおいて、時間とともに恒久的であることを暗示的に仮定します。実際には、効果は進化する可能性があります(例えば、ユーザーが機能に慣れるにつれて増加する可能性があります)または異なるサブグループ間で異なります。 Regression Discontinuity Design(RDD)について The Gist: If a user gets a treatment based on a rule with a cutoff value (e.g., "made 100 orders" or “exist 1 month”), we assume that those just below the cutoff are very similar to those just above it. For example, a user with 99 orders is almost identical to a user with 101 orders. The only difference is that the person with 101 got the treatment, and the person with 99 didn't. This means we can try to compare them to see the effect. Use Case(s): Loyalty Program 提供 1年間に1000ドル以上を費やしたユーザーに RDDは、使用したユーザーの行動(例えば、保存、将来の支出)を比較します。 費やした人たちと . A sharp difference in their behavior right at the $1000 mark would be the effect of receiving "Gold Status." "Gold Status" $1001 $999 An e-commerce site offers customers different shipping options based on their arrival time. Any customer arriving gets 2-day shipping, while any customer arriving 3日間の配送ウィンドウを取得します. サイトは、チェックアウトの確率にこのポリシーの因果効果を測定することを望んでいます。 before noon just after noon Decision Guide 決断ガイド テクニカルノート: (For the Advanced) This article focuses on , where crossing the cutoff guarantees the treatment. A variation called exists for cases where crossing the cutoff only of receiving the treatment. Sharp RDD Fuzzy RDD increases the probability The first step in any RDD analysis is to . You should plot the outcome variable against the running variable. The "jump" or discontinuity at the cutoff should be clearly visible to the naked eye. plot the data A crucial step is choosing the right , or how far from the cutoff you look for data. It's a trade-off between bias and variance: bandwidth More accurate assumption (users are very similar), but fewer data points (high variance, low power). Narrow Bandwidth: More data points (low variance, high power), but a riskier assumption (users might be too different). Wide Bandwidth: この記事では、カットを越えることが治療を保証するSharp RDDに焦点を当てています。Fuzzy RDDと呼ばれる変異は、カットを越えることが治療を受ける確率を増やす場合にのみ存在します。 The first step in any RDD analysis is to . You should plot the outcome variable against the running variable. The "jump" or discontinuity at the cutoff should be clearly visible to the naked eye. plot the data A crucial step is choosing the right , or how far from the cutoff you look for data. It's a trade-off between bias and variance: bandwidth More accurate assumption (users are very similar), but fewer data points (high variance, low power). Narrow Bandwidth: More data points (low variance, high power), but a riskier assumption (users might be too different). Wide Bandwidth: Bayesian Structural Time Series (BSTS) Bayesian Structural Time Series (BSTS) イベント前のデータに基づき、モデルは、私たちの介入なしに何が起こっていたかを予測する。これを行うには、変更によって影響を受けなかった他の、類似したタイムシリーズに依存します。この予測と現実の違いは、推定効果です。私たちは以前、Synthetic Controlを調べました。BSTSは、類似した、影響を受けない単位を通じて影響を推定する同じアイデアとして考えますが、 . In Simple Terms: ステロイド あなたの機能が存在しなかった「代替宇宙」を構築するには、Synthetic Control との主な違いは、予測を構築するには、重量の倍増の代わりにベイエズのモデルを使用することです。 Key Idea: 1つの製品カテゴリーの価格ポリシーを変更しました. 効果を測定するために、モデルは他の類似カテゴリの売上を用いて、あなたのカテゴリの売上高を予測します。 価格が変わる。 Use Case: without BSTS (Google の CausalImpact のような) で作業するための素晴らしい準備済みライブラリがありますが、それを 10-20 行のコードで行うことができます。 BSTS (Google の CausalImpact のような) で作業するための素晴らしい準備済みライブラリがありますが、それを 10-20 行のコードで行うことができます。 Instrumental Variables (IV) 機器変数(IV) 隠された要因(例えば動機)がユーザーの選択と最終結果の両方に影響を及ぼす状況のための方法. We find an external factor (a "instrument") that pushes the user towards the action but does not directly affect the outcome itself. In Simple Terms: 必要なものだけを動かすための「間接的ペア」を見つけること。 Key Idea: (academic) You want to measure the effect of TV ads on sales, but the ads are shown in regions where people already buy more. The 雨の日に、人々はもっとテレビを見る(広告を見る)が、天気自体は直接あなたの製品を買うことを引き起こさない。 Use Case: instrument Double Machine Learning(DML)について 他の数百の要因の影響から治療と結果の両方を「浄化」するために2つのMLモデルを使用する現代的なアプローチ。この「浄化」(残留物)の後に残ったものを分析することによって、この方法は純粋な原因と結果の影響を見つける。 DMLの主な強み - A / B テストが不可能または非常に困難な場所です。 ほとんどの場合、これらは、ユーザーが機能を使用するかどうかを自分で決める場合の自己選択の状況です。 In Simple Terms: MLを使用してすべての「騒音」を除去し、純粋な「原因と結果」信号だけを残す。 Key Idea: たとえば、フィンテックアプリケーションで、新しいプレミアム機能を立ち上げます:支出を分析し、カスタマイズされた節約アドバイスを提供するAIアシスタント。 Use Case: それは他の方法と並行して使用するのに最適であり、しばしばより単純なアプローチが適切ではない場合に使用することができます。 それは他の方法と並行して使用するのに最適であり、しばしばより単純なアプローチが適切ではない場合に使用することができます。 すべてが正しく機能していることを確認するにはどうすればよいですか? おめでとうございます、このレビュー全体を読んで長い道のりを歩みました。 Fair enough, you may have had a thought: these methods are quite complex, how can I be sure I've done it right? How can I trust the final results? And heck, that's the most correct view. 推定方法の正しさをチェックするという一般的な考え方は、次のようにまとめられています。 We’re measuring the effect where it clearly shouldn’t be — just to make sure it isn’t there. RCE では、非常にシンプルです - 私たちは A / A テストが必要です. 私たちは私たちの設計に従って実験を実行します: 正確に同じメトリクス、分割、など 私たちは両グループに新しい機能を表示しません。結果として、私たちはそれらの間の違いを見るべきではありません。 But quasi-experiments are a bit more complicated. Each of the methods has its own specificity and may contain its own special ways to check the correctness of implementation. Here we will talk about relatively universal methods, which I recommend in most cases. 強度チェック To make sure that the effect we have found is not an accident or model error, we conduct a series of “stress tests”. The idea is the same: we create conditions in which the effect should not occur. If our method doesn't find it there either, our confidence in the result grows. Here are some key checks: Placebo Tests プラセボ検査 このテストでは、データセット内の他のオブジェクトと比較してあなたの効果のユニーク性を確認します。 たとえば、合成コントロール方法を挙げてみましょう。我々は1つの「処理された」対象(暴露された)と、コントロールグループ(暴露なし)の多くの「クリーン」対象を持っています。 How to do: 理想の世界では、これらのすべての「偽」のテストでは、私たちの実際のケースのように強力な効果を見るべきではありません。 What to expect: This test shows whether our result is unique. If our method finds significant effects in subjects where nothing happened, it is also likely that our main finding is just noise or a statistical anomaly, not a real effect. Why it's needed: タイム・プラセボ たとえば、実際の広告キャンペーンが5月1日に始まった場合、私たちはモデルに4月1日に始まったことを「言う」ので、実際には何も起こらなかった。 How to do it: モデルは、この偽の日付に有意義な影響を検出してはならない。 What to expect: これは、モデルが当社のイベントに反応していることを保証するのに役立ちますし、当社の介入の日に偶然発生したデータのランダムな変動や季節的な傾向ではありません。 Why: スペースプラセボ このテストは、完全に独立したデータ上で偽陽性を生成する傾向を検証することによって、あなたのモデルの信頼性をチェックします。 ターゲットデータに類似したデータがあるが、介入に影響されていないデータがある場合は、そのデータを使用してください. たとえば、一つの地域でプロモーションを開始しました. プロモーションが行われなかった別の地域からの販売データを取って、実際の介入日と同じモデルを適用します。 How to do: このモデルは、この「コントロール」データに影響を与えるべきではありません。 What to expect: モデルがどこにでも効果を見つけるなら、ターゲットシリーズでその結論を信頼することはできません。 Why: 決断地図(結論の代わりに) もしあなたがここまで読んだ(またはスロールした)なら、なぜAI/MLの実装の結果を測定することが重要なのかというもう一つの素晴らしい概要が必要ではないと思います。 It is much more valuable for you if you get a useful decision-making tool. And I have one. 枠組みはこんな感じです。 Measure through AB test. ABテストで、真面目に。 Think about different split units and clusters to still apply RCE. 以下は、あなたにとって適切な方法を迅速に把握するために原因推定方法を選択するための詐欺シートです。 記事の部分に戻り、それを世俗の言葉で説明します。 その後、この方法のマニュアルやガイドにアクセスしてください。 役立つ素材: Used in writing this article and highly recommended for a deeper dive into the topic AI/MLソリューションの作成の完全なサイクルを理解する ゆえに そして 機械学習システムの設計 ヴァレリア・バブシュキン アーセニー・クラヴチェンコ RCEの世界への道 Ron Kohavi, Diane Tang, Ya Xu 信頼できるオンラインコントロール実験 原因推定を詳細に理解する方法: ミゲル・ヘルナン&ジェイミー・ロビンズ『Causal Inference: What If』 Causal Inference for the Brave and True(勇者と真実のための因果推定) Causal ML Book