Лівий стіл Introduction Hypothesis testing 2.1 Introduction 2.2 Bayesian statistics 2.3 Test martingales 2.4 p-values 2.5 Optional Stopping and Peeking 2.6 Combining p-values and Optional Continuation 2.7 A/B testing Safe Tests 3.1 Introduction 3.2 Classical t-test 3.3 Safe t-test 3.4 χ2 -test 3.5 Safe Proportion Test Safe Testing Simulations 4.1 Introduction and 4.2 Python Implementation 4.3 Comparing the t-test with the Safe t-test 4.4 Comparing the χ2 -test with the safe proportion test Mixture sequential probability ratio test 5.1 Sequential Testing 5.2 Mixture SPRT 5.3 mSPRT and the safe t-test Online Controlled Experiments 6.1 Safe t-test on OCE datasets Vinted A/B tests and 7.1 Safe t-test for Vinted A/B tests 7.2 Safe proportion test for sample ratio mismatch Conclusion and References 6 Інтернет-контрольовані експерименти Оскільки прийняття тестування A/B збільшилося, нові статистичні методології також поширилися. Техніки зменшення відмінності, такі як CUPED [Den+13] і нові статистичні тести, такі як mSPRT [Joh+17] стали стандартними методами у різних технологічних компаніях. Ландшафт тестування A/B все більше переповнений інноваційними методами, але немає бенчмарку, з яким можна легко порівнювати і контрастувати їх. Щоб вирішити цю проблему, дослідники з Imperial College London склали серію наборів даних для онлайн-контрольованих експериментів (OCE) [Liu+22]. Ці набори даних містять реальні дані з рандомізованих контрольованих досліджень, проведених онлайн, а також деякі синтезовані результати. Набори даних OCE є таксономією з 13 анонімних наборів даних, знайдених по всьому інтернету. Набори даних містять щоденні знімки чотирьох метричних показників, виміряних на 78 експериментах і до трьох варіантів. Дані з експериментів можуть бути бінарними, цілісними або реальними, що дозволяє перевіряти широкий спектр статистичних методологій. Потенційним випадком використання наборів даних OCE є бенчмаркування факультативних методів зупинки, оскільки новорозроблені методи можуть мати нереальні припущення для забезпечення дійсності своїх результатів. Наявність щоденних знімків у наборах даних означає, що можна застосувати напівпослідовний підхід до тестування. У цьому розділі буде проведено безпечний t-тест з збору наборів даних OCE, а результати будуть порівняні як з класичним t-тестом, так і з mSPRT. 6.1 Безпечне t-тестування на наборах даних OCE Як ми бачили на малюнку 4 (справа), два тести не завжди приходять до одного і того ж висновку для кожного набору даних. Однак, оскільки t-тест є найбільш широко використовуваним статистичним тестом для A/B тестування, важливо контрастувати результати, щоб зрозуміти ситуації, в яких результати відрізняються. Таблиця 5 показує результати t-тестування та безпечного t-тестування на збитті наборів даних OCE. Безпечний t-тест виявляє набагато більше ефектів, ніж класичний t-тест. Хоча, в теорії, помилковий позитивний показник безпечного t-тесту повинен бути нижче α, здається малоймовірно, що всі ці відхилення H0 відповідають реальним ефектам. Після аналізу поведінки E-значень протягом цих експериментів, ми прийшли до висновку, що висока кількість відхилень H0, ймовірно, має відношення до ефекту новизни. Як вже згадувалося раніше, ефект новизни відноситься до підвищеної уваги до функції незабаром після її випуску. Результатом є те, що припущення незалежних і однаково розподілених даних порушується, з доказом проти нульової гіпотези, щоб накопичитися швидко. Для тестування фіксованого Однак, безпечний тест відкидає ще більше гіпотез, ніж mSPRT. Це ймовірно тому, що безпечний тест більш чутливий, ніж mSPRT і більш сильно реагує на дані, які суперечать нульовій гіпотезі. Автор : 1 Деніел Бізлі Author: 1 Деніел Бізлі Цей документ доступний на архіві під ліцензією ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Цей документ є Ліцензія ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 International. Доступно в архіві Доступно в архіві