作者: (1)丹尼尔·比斯利 Author: (1)丹尼尔·比斯利 桌子左 Introduction Hypothesis testing 2.1 Introduction 2.2 Bayesian statistics 2.3 Test martingales 2.4 p-values 2.5 Optional Stopping and Peeking 2.6 Combining p-values and Optional Continuation 2.7 A/B testing Safe Tests 3.1 Introduction 3.2 Classical t-test 3.3 Safe t-test 3.4 χ2 -test 3.5 Safe Proportion Test Safe Testing Simulations 4.1 Introduction and 4.2 Python Implementation 4.3 Comparing the t-test with the Safe t-test 4.4 Comparing the χ2 -test with the safe proportion test Mixture sequential probability ratio test 5.1 Sequential Testing 5.2 Mixture SPRT 5.3 mSPRT and the safe t-test Online Controlled Experiments 6.1 Safe t-test on OCE datasets Vinted A/B tests and 7.1 Safe t-test for Vinted A/B tests 7.2 Safe proportion test for sample ratio mismatch Conclusion and References 1 介绍 随机控制试验(RCTs)是推断治疗与效果之间的因果关系的黄金标准,它们被科学家广泛应用,以深化他们学科的理解。在过去的二十年中,他们还发现了数字产品中的应用,名为A/B测试。A/B测试是一种简单的RCT来比较治疗(B组)与控制(A组)的效果。 几乎所有A/B测试的统计测试都依赖于固定地平线的测试。这项测试设置涉及确定测试所需的用户数量,收集数据,并最终分析结果。然而,这种测试方法不符合现代数据基础设施的实时能力,实验者想要快速做出决定。新开发的统计方法允许实验者随时放弃固定地平线的测试并分析测试结果。 安全测试是一种新的统计理论,实现了这些目标,正如我们所看到的那样,安全的A/B测试允许实验人员不断监测他们的实验结果,而不会增加得出错误的结论的风险。此外,我们将看到它需要比标准的统计测试更少的数据来实现这些结果。 大型技术公司目前正在以有限的容量探索AVI,但安全测试在检测显著影响所需的样本数量方面优于可用的测试。 该论文包含6个部分。第2节介绍了对假设测试的介绍,以及其他与读者相关的统计概念。它还解释了经典统计测试的不灵活性如何导致从业人员遇到问题。第3节介绍了安全测试的概念。此外,它引发了安全t测试和安全比例测试的测试统计数据。第4节模拟了安全统计数据的性能,并将其与其经典替代品进行比较。第5节将安全t测试与另一种常见的随时有效的测试,即混合序列概率测试(mSPRT)进行比较。第6节将安全t测试和mSPRT在广泛的在线实验数据上进行比较。最后,第7节致力于将安全测试与Vinted的经典统计测试进行比较,这是一种大型公司技术。 此论文在ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL许可证下存储。 此论文在ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL许可证下存储。 可用 档案