Автор : 1 Даниэль Бизли Author: 1 Даниэль Бизли Стол слева Introduction Hypothesis testing 2.1 Introduction 2.2 Bayesian statistics 2.3 Test martingales 2.4 p-values 2.5 Optional Stopping and Peeking 2.6 Combining p-values and Optional Continuation 2.7 A/B testing Safe Tests 3.1 Introduction 3.2 Classical t-test 3.3 Safe t-test 3.4 χ2 -test 3.5 Safe Proportion Test Safe Testing Simulations 4.1 Introduction and 4.2 Python Implementation 4.3 Comparing the t-test with the Safe t-test 4.4 Comparing the χ2 -test with the safe proportion test Mixture sequential probability ratio test 5.1 Sequential Testing 5.2 Mixture SPRT 5.3 mSPRT and the safe t-test Online Controlled Experiments 6.1 Safe t-test on OCE datasets Vinted A/B tests and 7.1 Safe t-test for Vinted A/B tests 7.2 Safe proportion test for sample ratio mismatch Conclusion and References 1 Введение Randomized controlled trials (RCTs) являются золотым стандартом для вывода причинно-следственных связей между методами лечения и эффектами. Они широко применяются учеными для углубления понимания их дисциплин. В течение последних двух десятилетий они нашли приложения в цифровых продуктах также, под названием A/B-тест. A/B-тест является простым RCT для сравнения эффекта лечения (группа B) с контролем (группа A). Эти две группы сравниваются с статистическим тестом, который используется для принятия решения об эффекте. Практически все статистические тесты для A/B тестов опираются на тестирование с фиксированным горизонтом. Эта настройка тестирования включает в себя определение количества пользователей, необходимых для тестирования, сбор данных и, наконец, анализ результатов. Однако, этот метод тестирования не соответствует возможностям в реальном времени современной инфраструктуры данных и желанию экспериментаторов принимать решения быстро. Новоразработанные статистические методологии позволяют экспериментаторам тестировать с фиксированным горизонтом и анализировать результаты тестирования в любое время. Безопасное тестирование является новой статистической теорией, которая достигает этих целей. Как мы увидим, безопасное A/B тестирование позволяет экспериментаторам постоянно контролировать результаты своих экспериментов без увеличения риска вывода ошибочных выводов. Кроме того, мы увидим, что для достижения этих результатов требуется меньше данных, чем стандартные статистические тесты. Большие технологические компании в настоящее время исследуют AVI в ограниченных возможностях, но безопасное тестирование превосходит доступные тесты по количеству образцов, необходимых для обнаружения значительных эффектов. Этот тезис содержит 6 разделов. Раздел 2 содержит введение к тестированию гипотез, а также другие статистические концепции, которые актуальны для читателя. Он также объясняет, как негибкость классических статистических тестов вызывает проблемы для практиков. Раздел 3 вводит концепции безопасного тестирования. Кроме того, он выводит тестовую статистику для безопасного t-теста и теста безопасной пропорции. Раздел 4 моделирует производительность безопасной статистики и сравнивает их с их классическими альтернативами. Раздел 5 сравнивает безопасный t-тест с другим популярным в любое время действительным тестом, тестом последовательного соотношения вероятности смеси (mSPRT). Раздел 6 сравнивает безопасный t-тест и mSPRT на широком диапазоне онлайн-данных Эта статья доступна в архиве под лицензией ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Эта бумага является Лицензия ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. available on arxiv Доступно в архиве