此分類上一篇: 在过去的十年中,A/B测试已成为技术公司做出产品决策的标准方法。它们提供了对产品开发的科学方法,使用统计假设测试来控制错误决策的风险。 通常,在A/B测试中使用多种指标用于不同的目的,例如建立成功的证据,防御回归,或验证测试的有效性。 为了减轻在A/B测试中具有多种结果的风险,对这些结果的不同角色进行设计和分析至关重要。 本文介绍了指导实验评估的规则的理论框架,例如Spotify。 首先,我们表明,如果使用非劣等性测试的防护指标,重要性水平不需要对这些测试进行多重调整。 其次,如果规则包括非劣等性测试,在测试中进行恶化,必须使用模拟的质量分析或类 作者: (1) Mårten Schultzberg,实验平台团队,Spotify,斯德哥尔摩,瑞典; (2) Sebastian Ankargren,实验平台团队,Spotify,斯德哥尔摩,瑞典; (3) Mattias Frånberg,实验平台团队,Spotify,斯德哥尔摩。 作者: 作者: (1) Mårten Schultzberg,实验平台团队,Spotify,斯德哥尔摩,瑞典; (2) Sebastian Ankargren,实验平台团队,Spotify,斯德哥尔摩,瑞典; (3) Mattias Frånberg,实验平台团队,Spotify,斯德哥尔摩,瑞典。 链接表 摘要和 1 介绍 摘要和 1 介绍 1.1 相关文献 1.1 相关文献 指数类型及其假设和 2.1 指数类型 2.2 指数类型的假设 指数类型及其假设和 2.1 指数类型 指数类型及其假设和 2.1 指数类型 2.2 不同类型的指标的假设 2.2 不同类型的指标的假设 Type I和Type II错误率的决定规则包括优越性和不劣等测试 3.1 组合假设优越性和不劣等测试 包括优越性和非劣等性测试在内的决策规则的I型和II型错误率 包括优越性和非劣等性测试在内的决策规则的I型和II型错误率 3.1 优越性和非劣等性测试的复合假设 3.1 优越性和非劣等性测试的复合假设 3.2 限制 UI 和 IU 测试的 I 和 II 类型的错误率 3.2 限制 UI 和 IU 测试的 I 和 II 类型的错误率 3.3 限制决策规则的错误率,包括成功和防线指标 3.3 限制决策规则的错误率,包括成功和防线指标 3.4 功率修复不低级测试 3.4 功率修正不低级别测试 延伸决策规则和质量指标 延伸决策规则和质量指标 通过评估和质量指标扩展决策规则 Monte Carlo 模拟研究 5.1 结果 马尔代夫模拟研究 蒙特卡洛模拟研究 5.1 结果 5.1 结果 讨论和结论 讨论和结论 讨论和结论 APPENDIX A: 改善本条款的有效性 4.1 附加问题 APPENDIX A: APPENDIX A: 改善本条款的有效性 4.1 与额外的问题 APPENDIX B: 全球假和真正的正面利率示例 APPENDIX B: 第2版: 全球假和真正的正面利率的例子 APPENDIX C: 关于连续检测的注意事项 APPENDIX C: APPENDIX C: 關於排序測試的注意事項 APPENDIX D: 使用NYHOLT的有效數量獨立測試方法 APPENDIX D: APPENDIX D: 使用NYHOLT的有效數量獨立測試方法 评论和参考 公认和参考 摘要 1 介绍 随机实验是提供因果关系证据的黄金标准。现代技术公司使用A/B测试,这是一种数字环境中的随机控制试验,广泛评估其产品新变化的有效性。 对于随机实验的统计推断的大多数文献都集中在单个结果的假设测试上,以及如何将类型I和类型II的错误率与该测试联系起来。然而,实验不是单一的孤立结果的测试。相反,所涉及的风险是对产品做出错误的决定的风险。例如,在像Spotify这样的技术公司,我们想要限制我们在实际上没有改进的情况下发布产品更改的频率,以及我们如何经常避免发布导致改进的更改,但我们无法找到。 在在线实验文献中,多测试决策的唯一方面是广泛涵盖的多测试纠正。多测试纠正,如Bonferroni,Holm [7]和Hommel [8],约束了暗示决策规则的I类错误率,该规则声明你将根据个别假设测试的结果做出什么决定。 在本文中,我们展示了如何在不离开标准假设测试框架的情况下正式化实验的决策过程。确保您获得产品决策的预期风险限制的关键是明确指定一个决策规则。 决定规则的阐述有几个原因。不清楚结果导致积极的产品决定意味着没有在公司重要水平上正确控制实验风险的机制,即决定是否发送该功能。 决策规则框架有助于标准化实验分析,是实验平台的有用工具。决策规则包含的内容可以更或更少地灵活化。例如,新的实验可以被迫证明重要的公司指标不会受到负面影响,而选择应该显示改进的指标组完全取决于实验者。 在这篇论文中,没有失去普遍性,我们只考虑两组实验来简化标记。此外,我们只考虑单方面测试,尽管每个指标可能适用于多于一个单方面测试。我们限制自己进行单方面测试,因为指标的改变必须有意向,以便对产品进行可测量的改进。为了简单性,我们假定所有指标在增加时会得到改善。此外,我们假定每个统计假设测试是有效的,并且如果实验被相应设计,就会达到其类型I和类型II的错误率。 本论文是 上可用。 在 CC BY 4.0 DEED 许可证下在 arxiv 本文是 根据 CC BY 4.0 DEED 许可证。 可用在 arxiv 在 arxiv 上可用 可在 arxiv 上找到