Taula de l'esquerra Introduction Hypothesis testing 2.1 Introduction 2.2 Bayesian statistics 2.3 Test martingales 2.4 p-values 2.5 Optional Stopping and Peeking 2.6 Combining p-values and Optional Continuation 2.7 A/B testing Safe Tests 3.1 Introduction 3.2 Classical t-test 3.3 Safe t-test 3.4 χ2 -test 3.5 Safe Proportion Test Safe Testing Simulations 4.1 Introduction and 4.2 Python Implementation 4.3 Comparing the t-test with the Safe t-test 4.4 Comparing the χ2 -test with the safe proportion test Mixture sequential probability ratio test 5.1 Sequential Testing 5.2 Mixture SPRT 5.3 mSPRT and the safe t-test Online Controlled Experiments 6.1 Safe t-test on OCE datasets Vinted A/B tests and 7.1 Safe t-test for Vinted A/B tests 7.2 Safe proportion test for sample ratio mismatch Conclusion and References 6 Experiments controlats en línia A mesura que l'adopció de proves A/B ha augmentat, les noves metodologies estadístiques s'han proliferat de manera similar. Tècniques de reducció de variacions com CUPED [Den+13] i noves proves estadístiques com mSPRT [Joh+17] s'han convertit en tècniques estàndard en diverses empreses de tecnologia. El paisatge de proves A/B està cada vegada més ple de mètodes innovadors, però no hi ha un punt de referència amb el qual es puguin comparar i contrastar fàcilment. Per abordar aquest problema, els investigadors de l'Imperial College London han compilat una sèrie de conjunts de dades per a experiments controlats en línia (OCE) [Liu+22]. Aquests conjunts de dades contenen dades reals d'assajos controlats aleator Els conjunts de dades OCE són una taxonomia de 13 conjunts de dades anònims que es troben a tot Internet. Els conjunts de dades contenen instantànies diàries de quatre mètriques mesurades en 78 experiments i fins a tres variants. Un cas d'ús potencial per als conjunts de dades OCE és el benchmarking de mètodes opcionals d'aturada, ja que els mètodes recentment desenvolupats poden tenir supòsits irrealistes per assegurar la validesa dels seus resultats. La disponibilitat de snapshots diaris en els conjunts de dades significa que es pot aplicar un enfocament semi-seqüencial al test. En el paper, mSPRT es compara amb el test clàssic t per validar el test en els conjunts de dades OCE. Taula 4 mostra els resultats. En aquesta secció, es durà a terme la prova segura t sobre la recopilació de conjunts de dades OCE, i es compararan els resultats tant amb la prova clàssica t com amb la mSPRT. 6.1 Prova segura t en els conjunts de dades OCE Com hem vist a la Figura 4 (dreta), les dues proves no sempre arriben a la mateixa conclusió per a cada conjunt de dades. Tanmateix, atès que la t-test és la prova estadística més àmpliament utilitzada per a les proves A/B, és important contrastar els resultats per entendre les situacions en què els resultats difereixen. El test T segur detecta molts més efectes que el test T clàssic. Mentre que, en teoria, la taxa positiva falsa del test T segur hauria de ser inferior a α, sembla improbable que tots aquests rebuigs de H0 corresponguin als efectes reals. Després d'analitzar el comportament dels valors E durant el curs d'aquests experiments, conclouem que el gran nombre de rebuigs H0 probablement tingui a veure amb l'efecte novetat. Com es va esmentar anteriorment, l'efecte novetat es refereix a una atenció augmentada a la funció poc després del seu llançament. El resultat és que es viola l'assumpció de dades independents i distribuïdes de manera idèntica, amb evidència contra la hipòtesi zero per acumular-se ràpidament. Per a una No és sorprenent que, donada la conducta observada a la Figura 8, les hipòtesis nul·les rebutjades pel mSPRT siguin rebutjades de la mateixa manera per la prova segura t. No obstant això, la prova segura rebutja encara més de les hipòtesis que la mSPRT. Això és probable perquè la prova segura és més sensible que la mSPRT i reacciona més fortament a les dades que contradiuen la hipòtesi nul·la. L’autor : Títol: Daniel Beasley Author: Títol: Daniel Beasley Aquest document està disponible en arxiu sota llicència ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Aquest paper és Llicència ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Disponible a l'Arxiu Disponible a l'Arxiu