左のテーブル Introduction Hypothesis testing 2.1 Introduction 2.2 Bayesian statistics 2.3 Test martingales 2.4 p-values 2.5 Optional Stopping and Peeking 2.6 Combining p-values and Optional Continuation 2.7 A/B testing Safe Tests 3.1 Introduction 3.2 Classical t-test 3.3 Safe t-test 3.4 χ2 -test 3.5 Safe Proportion Test Safe Testing Simulations 4.1 Introduction and 4.2 Python Implementation 4.3 Comparing the t-test with the Safe t-test 4.4 Comparing the χ2 -test with the safe proportion test Mixture sequential probability ratio test 5.1 Sequential Testing 5.2 Mixture SPRT 5.3 mSPRT and the safe t-test Online Controlled Experiments 6.1 Safe t-test on OCE datasets Vinted A/B tests and 7.1 Safe t-test for Vinted A/B tests 7.2 Safe proportion test for sample ratio mismatch Conclusion and References 6 オンラインコントロール実験 A/B テストの採用が拡大するにつれて、新しい統計方法も同様に拡大している。 CUPED [Den+13] や mSPRT [Joh+17] などの新しい統計テストは、さまざまなテクノロジー企業の標準テクノロジーとなっています。 A/B テストの環境は、革新的な方法でますます混雑していますが、それらを比較し、比較するためのベンチマークはありません。この問題に対処するために、Imperial College London の研究者は、オンライン制御実験 (OCE) [Liu+22] のための一連のデータセットをまとめました。これらのデータセットには、オンラインで実施されたランダム制御された試験の実際のデータと、いくつかの合成された結果が含まれています。OCE OCEデータセットは、インターネット上で発見された13の匿名化されたデータセットのタクソノミーです。データセットには、78の実験で測定された4つのメトリックの毎日のスナップショットが含まれています。 OCEデータセットの潜在的な用例は、オプションの停止方法をベンチマークするため、新しく開発された方法は、結果の正当性を確保するために非現実的な仮定を持っている可能性があります。データセットにおける日々のスナップショットの可用性は、テストに半連続的なアプローチを適用することができることを意味します。 このセクションでは、OCEデータセットの収集について安全なtテストを実施し、クラシックのtテストとmSPRTの両方に結果を比較します。 6.1 OCE データセットでの安全な t テスト 安全なtテストのパフォーマンスを比較するためには、その結果をtテストと比較することができる。図4(右)で見たように、両テストは各データセットについて必ずしも同じ結論に達しない。しかし、tテストはA/Bテストのための最も広く使用されている統計テストであるため、結果が異なる状況を理解するために結果を比較することが重要である。 安全なtテストは、古典的なtテストよりも多くの効果を検出します。理論的には、安全なtテストの偽ポジティブ率はα以下であるべきですが、これらのH0のすべての拒否が真の効果に匹敵する可能性はないようです。これらの実験の過程でE値の行動を分析した後、我々は、H0の拒否の高い数が新しさの効果と関連する可能性があると結論づけます。前述したように、新しさの効果は、そのリリース直後に機能への注意を増加させることを指します。結果は、独立して同一に分布されたデータの仮定が破られ、ゼロ仮説に対する証拠が急速に蓄積されるということです。固定サンプルテストでは、これは分布が実験の過程で逆転する 驚くべきことに、図 8 で観察された行動を考慮すると、mSPRT によって拒否されたゼロ仮説は、安全な t テストによって同様に拒否されます。しかし、安全なテストは mSPRT よりもさらに多くの仮説を拒否します。これは、安全なテストが mSPRT より敏感で、ゼロ仮説に矛盾するデータにより強く反応しているためである可能性があります。 著者: (1)ダニエル・ビズリー Author: (1)ダニエル・ビズリー この論文は、ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL ライセンスの下でアーカイブで利用できます。 この論文は、ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL ライセンスの下でアーカイブで利用できます。 ARCHIV で利用可能