著者: (1)ダニエル・ビズリー Author: (1)ダニエル・ビズリー 左のテーブル Introduction Hypothesis testing 2.1 Introduction 2.2 Bayesian statistics 2.3 Test martingales 2.4 p-values 2.5 Optional Stopping and Peeking 2.6 Combining p-values and Optional Continuation 2.7 A/B testing Safe Tests 3.1 Introduction 3.2 Classical t-test 3.3 Safe t-test 3.4 χ2 -test 3.5 Safe Proportion Test Safe Testing Simulations 4.1 Introduction and 4.2 Python Implementation 4.3 Comparing the t-test with the Safe t-test 4.4 Comparing the χ2 -test with the safe proportion test Mixture sequential probability ratio test 5.1 Sequential Testing 5.2 Mixture SPRT 5.3 mSPRT and the safe t-test Online Controlled Experiments 6.1 Safe t-test on OCE datasets Vinted A/B tests and 7.1 Safe t-test for Vinted A/B tests 7.2 Safe proportion test for sample ratio mismatch Conclusion and References 1 導入 ランダム化コントロール試験(RCTs)は、治療と効果の間の因果関係を推定するためのゴールデン・スタンダードである。それらは、科学者によって、彼らの分野の理解を深めるために広く適用されています。過去20年間、彼らは、A/Bテストという名の下で、デジタル製品にもアプリケーションを見つけました。A/Bテストは、治療(グループB)とコントロール(グループA)の効果を比較するためのシンプルなRCTです。 ほとんどすべてのA/Bテストの統計テストは、固定地平線テストに依存します。このテスト設定は、テストに必要なユーザーの数を決定し、データを収集し、最終的に結果を分析します。しかし、このテスト方法は、現代のデータインフラストラクチャのリアルタイムの能力と、実験者が迅速に意思決定を下す欲求と一致していません。 安全なテストは、これらの目標を達成するための新しい統計理論です。われわれが見るように、安全なA/Bテストは、実験者が間違った結論を出すリスクを増やすことなく、実験結果を継続的に監視することを可能にします。さらに、我々は、これらの結果を達成するために標準的な統計テストよりもデータが少なくなることを見るでしょう。大手テクノロジー企業は現在、限られた容量でAVIを探索していますが、安全なテストは、有意な効果を検出するために必要なサンプルの数で利用可能なテストを上回ります。 この論文は6つのセクションを含みます。セクション2には、読者にとって関連する他の統計概念と同様に仮説テストの紹介が含まれています。この論文はまた、古典的な統計テストの不柔軟性が専門家に問題を引き起こす方法を説明します。セクション3は、安全なテストの概念を紹介しています。さらに、セキュアなtテストと安全な比率テストのテストのためのテスト統計を引き出します。セクション4は、安全な統計のパフォーマンスをシミュレートし、それらを古典的な代替品と比較します。セクション5は、安全なtテストを、いつでも有効な別の一般的なテスト、混合の連続的確率比率テスト(mS この論文は、ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL ライセンスの下でアーカイブで利用できます。 この論文は、ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL ライセンスの下でアーカイブで利用できます。 ARCHIV で利用可能