Автор на: Даниел Бизли Author: Даниел Бизли Табела на левицата Introduction Hypothesis testing 2.1 Introduction 2.2 Bayesian statistics 2.3 Test martingales 2.4 p-values 2.5 Optional Stopping and Peeking 2.6 Combining p-values and Optional Continuation 2.7 A/B testing Safe Tests 3.1 Introduction 3.2 Classical t-test 3.3 Safe t-test 3.4 χ2 -test 3.5 Safe Proportion Test Safe Testing Simulations 4.1 Introduction and 4.2 Python Implementation 4.3 Comparing the t-test with the Safe t-test 4.4 Comparing the χ2 -test with the safe proportion test Mixture sequential probability ratio test 5.1 Sequential Testing 5.2 Mixture SPRT 5.3 mSPRT and the safe t-test Online Controlled Experiments 6.1 Safe t-test on OCE datasets Vinted A/B tests and 7.1 Safe t-test for Vinted A/B tests 7.2 Safe proportion test for sample ratio mismatch Conclusion and References 1 Вовед Рандомизирани контролирани испитувања (RCTs) се златен стандард за заклучување на каузални врски помеѓу третмани и ефекти. Тие се широко применети од страна на научниците за продлабочување на разбирањето на нивните дисциплини. Во текот на изминатите две децении, тие пронашле апликации во дигитални производи, исто така, под името А / Б тест. А / Б тест е едноставен RCT за да се спореди ефектот на третман (група Б) со контрола (група А). Двете групи се споредуваат со статистички тест кој се користи за да се донесе одлука за ефектот. Речиси сите статистички тестови за A/B тестови се потпираат на тестирање со фиксни хоризонти. Оваа поставка за тестирање вклучува одредување на бројот на корисници потребни за тестирањето, собирање на податоците и конечно анализирање на резултатите. Сепак, овој метод на тестирање не е усогласен со можностите во реално време на модерната инфраструктура за податоци и желбата на експериментите да донесуваат одлуки брзо. Новоразвиените статистички методологии им овозможуваат на експериментите да го напуштат тестирањето со фиксни хоризонти и да ги анализираат резултатите од тестовите во секое време. Безбедно тестирање е нова статистичка теорија која ги исполнува овие цели. Како што ќе видиме, безбедното A / B тестирање им овозможува на експериментаторите постојано да ги следат резултатите од нивните експерименти без да го зголемат ризикот од извлекување на погрешни заклучоци. Покрај тоа, ќе видиме дека за постигнување на овие резултати се потребни помалку податоци од стандардни статистички тестови. Големите технолошки компании во моментов го истражуваат AVI во ограничени капацитети, но безбедното тестирање ги надминува достапните тестови во однос на бројот на примероци потребни за да се откријат значајни ефекти. Оваа теза содржи 6 делови. Одделот 2 содржи вовед во тестирањето на хипотезата, како и други статистички концепти кои се релевантни за читателот. Исто така објаснува како нефлексибилноста на класичното статистичко тестирање предизвикува проблеми за практичарите. Одделот 3 ги воведува концептите за безбедно тестирање. Понатаму, тој ја изведува статистиката за тестирање на безбедниот t-тест и безбедниот пропорционален тест. Одделот 4 ги симулира перформансите на безбедната статистика и ги споредува со нивните класични алтернативи. Одделот 5 го споредува безбедниот t-тест со друг популарен во секое време валиден тест, мешавинскиот тест за секвенциски веројатност (mSPRT). Одделот 6 го споредува безбе Овој документ е достапен на архива под лиценца ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Овој документ е Во согласност со лиценцата ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Достапни за архивирање Достапни за архивирање