Табела на левицата Introduction Hypothesis testing 2.1 Introduction 2.2 Bayesian statistics 2.3 Test martingales 2.4 p-values 2.5 Optional Stopping and Peeking 2.6 Combining p-values and Optional Continuation 2.7 A/B testing Safe Tests 3.1 Introduction 3.2 Classical t-test 3.3 Safe t-test 3.4 χ2 -test 3.5 Safe Proportion Test Safe Testing Simulations 4.1 Introduction and 4.2 Python Implementation 4.3 Comparing the t-test with the Safe t-test 4.4 Comparing the χ2 -test with the safe proportion test Mixture sequential probability ratio test 5.1 Sequential Testing 5.2 Mixture SPRT 5.3 mSPRT and the safe t-test Online Controlled Experiments 6.1 Safe t-test on OCE datasets Vinted A/B tests and 7.1 Safe t-test for Vinted A/B tests 7.2 Safe proportion test for sample ratio mismatch Conclusion and References 6 онлајн контролирани експерименти Како што се зголемува усвојувањето на A/B тестирањето, новите статистички методологии исто така се размножуваат. Техники за намалување на варијациите како што се CUPED [Den+13] и нови статистички тестови како што се mSPRT [Joh+17] станаа стандардни техники во разни технолошки компании. А/Б тестирањето пејзаж станува се повеќе преполно со иновативни методи, но не постои бенчмарк со кој лесно може да се споредат и контрастираат. За да се справи со овој проблем, истражувачите од Империал Колеџот во Лондон собраа серија на податоци за онлајн контролирани експерименти (OCE) [Liu+22]. Овие податоци содржат вистински податоци од рандомизирани контролирани испитувања спроведени онлајн, како и некои синтетизирани резултати. OCE сет на податоци се таксономија од 13 анонимни сетови на податоци кои се наоѓаат на интернет. Сетите на податоци содржат дневни слики од четири метрики мерени на 78 експерименти и до три варијанти. Еден потенцијален случај на употреба за OCE сетови на податоци е бенчмаркирање на опционални методи за запирање, бидејќи новоразвиените методи може да имаат нереални претпоставки за да се обезбеди валидноста на нивните резултати. Достапноста на дневни слики во сетовите на податоци значи дека може да се примени полу-секвенциски пристап кон тестирање. Во документот, mSPRT се споредува со класичниот t-тест за да го потврди тестот на OCE сетовите на податоци. Табела 4 ги прикажува резултатите. Во овој дел, безбедниот t-тест ќе се спроведе на собирање на OCE сетови на податоци, и резултатите ќе се споредат со класичниот t-тест и mSPRT. 6.1 Безбедно t-тест на OCE сетови на податоци Како што видовме на сликата 4 (десно), двата теста не секогаш стигнуваат до истиот заклучок за секој сет на податоци. Сепак, бидејќи t-тестот е најшироко користениот статистички тест за A/B тестирање, важно е да се контрастираат резултатите за да се разберат ситуациите во кои резултатите се разликуваат. Табела 5 ги прикажува резултатите од t-тестот и безбедниот t-тест на собирањето на OCE податоци. Безбедниот t-тест открива многу повеќе ефекти од класичниот t-тест. Додека, во теорија, лажната позитивна стапка на безбедниот t-тест треба да биде под α, се чини дека не е веројатно дека сите овие отфрлања на H0 одговараат на вистинските ефекти. По анализата на однесувањето на E-вредностите во текот на овие експерименти, заклучуваме дека високиот број на H0 отфрлања веројатно има врска со ефектот на новината. Како што споменавме претходно, ефектот на новината се однесува на зголемено внимание за карактеристиката наскоро по неговото објавување. Резултатот е дека претпоставката за независни и идентични дистрибуирани податоци е прекршена, со докази против нула хипотеза да се акумулира брзо. За тест со фи Без изненадување, со оглед на однесувањето забележано на сликата 8, нул хипотезите отфрлени од mSPRT се исто така отфрлени од безбедниот t-тест. Сепак, безбедниот тест отфрла уште повеќе од хипотезите од mSPRT. Ова е веројатно затоа што безбедниот тест е повеќе чувствителен од mSPRT и реагира посилно на податоците кои се во спротивност со нултата хипотеза. Во следниот дел, ние продолжуваме да ги анализираме перформансите на безбедните тестови во голема технолошка компанија, Vinted. Автор на: Даниел Бизли Author: Даниел Бизли Овој документ е достапен на архива под лиценца ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Овој документ е достапен на архива под лиценца ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Достапни за архивирање