左のテーブル Introduction Hypothesis testing 2.1 Introduction 2.2 Bayesian statistics 2.3 Test martingales 2.4 p-values 2.5 Optional Stopping and Peeking 2.6 Combining p-values and Optional Continuation 2.7 A/B testing Safe Tests 3.1 Introduction 3.2 Classical t-test 3.3 Safe t-test 3.4 χ2 -test 3.5 Safe Proportion Test Safe Testing Simulations 4.1 Introduction and 4.2 Python Implementation 4.3 Comparing the t-test with the Safe t-test 4.4 Comparing the χ2 -test with the safe proportion test Mixture sequential probability ratio test 5.1 Sequential Testing 5.2 Mixture SPRT 5.3 mSPRT and the safe t-test Online Controlled Experiments 6.1 Safe t-test on OCE datasets Vinted A/B tests and 7.1 Safe t-test for Vinted A/B tests 7.2 Safe proportion test for sample ratio mismatch Conclusion and References 7位 A/Bテスト Vintedは、2008年に設立されて以来、7500万人を超えるユーザーを獲得し、ヨーロッパ最大の二重服の市場に急速に発展させています。そのようなユーザーの多さに伴い、同時に多数のA/Bテストを実施し、ユーザーに最高の体験を提供しています。これにより、Vintedは安全テストの有効性を評価するための理想的な環境となっています。このセクションでは、安全tテストと安全比率テストをVintedの実験データに適用します。安全tテストは古典的なtテストと比較され、A/Bテストの結果を評価します。 7.1 Vinted A/B テストのための安全な t テスト この分析のために、2023年3月から2023年6月までの162件のVinted実験の測定値が評価されます。我々は、測定値の平均値、標準偏差、およびコントロールおよびテストグループのサンプルサイズを含む143個の測定値の累積的な日々のスナップショットをまとめました。複数の変数を含む実験は、同じコントロールグループと別々のテストとして扱われます。 テーブル7の結果は、安全なtテストと古典的なtテストは、メトリックの重要性について一貫して同じ結論に達することを示しています。安全なtテストがH0を拒否する379のケースは、テストが常に重要な結果を構成するものに合意しないことを示すシミュレーションと一致していません。TテストがH0を拒否する1645のケースは、安全なtテストがそれ以上に関心を持たない場合があります。安全なtテストは、データを順序的に観察するとより敏感であり、H0を拒否する機会を増加させます。これらのデータは、テストのパワーを効果的に低下させる毎日レベルで集計されます。より細かいデータで、安全なtテストは、このグループ順 混合の連続的確率比率(mSPRT)テストは、同じ実験のセットで実施されました。 表8の結果と表7の結果を比較すると、mSPRTが大幅に低下していることが示されています。 セキュアtテストよりも強力ですが、これは部分的にグループ順序設定のせいですが、私たちのシミュレーションの結果は、mSPRTはセキュアtテストよりも単に敏感な統計テストであることを示唆しています。 安全なtテストの結果に戻ると、安全なtテストは他のメトリクスよりもいくつかのメトリクスで有意に優れていることが判明しました。ここでは、メトリクスをさらに分析して、なぜそうであるかを理解します。メトリクスでの安全なtテストのパフォーマンスを定量化するために、私たちは、 phi コエクシエントを使用して、その決定をクラシックの t テストと比較することにしました。 phi コエクシエントは、マシューズの相関関係コエクシエントとも呼ばれ、バイナリ変数の相関関係を決定するために使用されます。各メトリクスの目的を理解するために、VintedのA/Bテストフレームワーク内のその使用例のテキスト説明があります。 A/B テストの紹介では、いくつかのメトリクスが実現するのにより長い時間がかかると述べられています。これは、データがテストの日々を通じて独立して同一に分散されないことを意味します。 テーブル9を調べてみると、セキュア T テストのパフォーマンスと、検索、セッション、および印刷を含むメトリクスに関する古典的な T テストの間の高い関連性が見られます。 これらはすべて、テストへの曝露とメトリクスの実現の間の短い時間を有する量です。逆に、セキュア T テストは、取引や注文のキャンセルに関連する長期メトリクスでうまく動作しません。これらの結果は、セキュア T テストが 7.2 サンプル比不一致のための安全比率テスト 安全比率テストと、サンプル比率不一致(SRM)を検出するための χ2テストの有効性を決定するために、Vintedの195実験の分布を分析します。安全比率テストは、分布の日々のスナップショットに適用されますが、 χ2テストは、実験の最終日に分布に適用されます。 SRMの場合、有意度レベルα = 0.01は、偽ポジティブの数を制限するために使用されます。 著者: (1)ダニエル・ビズリー Author: (1)ダニエル・ビズリー この論文は、ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL ライセンスの下でアーカイブで利用できます。 この紙は ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL ライセンス ARCHIV で利用可能 ARCHIV で利用可能