左のテーブル Introduction Hypothesis testing 2.1 Introduction 2.2 Bayesian statistics 2.3 Test martingales 2.4 p-values 2.5 Optional Stopping and Peeking 2.6 Combining p-values and Optional Continuation 2.7 A/B testing Safe Tests 3.1 Introduction 3.2 Classical t-test 3.3 Safe t-test 3.4 χ2 -test 3.5 Safe Proportion Test Safe Testing Simulations 4.1 Introduction and 4.2 Python Implementation 4.3 Comparing the t-test with the Safe t-test 4.4 Comparing the χ2 -test with the safe proportion test Mixture sequential probability ratio test 5.1 Sequential Testing 5.2 Mixture SPRT 5.3 mSPRT and the safe t-test Online Controlled Experiments 6.1 Safe t-test on OCE datasets Vinted A/B tests and 7.1 Safe t-test for Vinted A/B tests 7.2 Safe proportion test for sample ratio mismatch Conclusion and References Mixture Sequential Probability Ratio テスト 5.1 セクシーテスト 複雑なA/Bテストインフラストラクチャが普及するにつれて、テスト結果(Joh+17)に注目する機会もあります。私たちが目にしたように、これは偽ポジティブ率を膨らませることの意図されていない結果につながります。そのインフラストラクチャを活用するために、大手テクノロジー企業は、いつでも有効である統計方法を導入し始めています。この統計分野は連続テスト、またはいつでも有効な推測として知られています。連続テストは、Waldのセミナル・ペーパー(Wald’s Sequential Tests of Statistical Hypotheses [Wal45])で起源となりました。Waldは、連続確率テスト(SPRT)として知られる最初の連続テ ウォールドとウォルフォヴィッツは、SPRTが統計力(WW48)の観点で最適な連続テストであることを証明したが、連続テストの定義は安全なテストと一致していないことに留意すべきである。彼らの証明は、確率比空間を3つの領域に分けることに基づいている:H0を受け入れる、H0を拒否する、またはサンプルを継続する。逆に、安全なtテストはGROW(Pér+22)の観点で最適である、これは、E変数EがH0が真実でないときに最も速く成長することを意味する。H0を拒否する決定は、E ≥ 1/α で行われるが、H0を受け入れる反対の決定はいつでも行うことができる。 5.2 混合スプレッド 連続テストのためのA/Bテストの開発は、SPRTを2つのサンプルデータで機能するように拡張することに含まれました。これはジョハリ et al. [Joh+17]によって実現され、混合連続確率比テスト(mSPRT)として知られるA/Bテストの方法を先駆けました。このテストは、UberやNetflixのような大手テクノロジー企業で採用されています [SA23]。安全なtテストと同様に、mSPRTは細かい、連続データで最適に実行しています。 mSPRTは、実際のパラメータが θ0に近いという事前の信念と本質的に似ています。このテストの数学的詳細をより深く見ていきましょう。 mSPRT 統計をマーティンゲール形式で保管し、安全な t テストとのパフォーマンスを比較します。 著者: (1)ダニエル・ビズリー Author: (1)ダニエル・ビズリー この論文は、ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL ライセンスの下でアーカイブで利用できます。 この論文は、ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL ライセンスの下でアーカイブで利用できます。 ARCHIV で利用可能