Författare : Författaren Daniel Beasley Author: Författaren Daniel Beasley Tabell från vänster Introduction Hypothesis testing 2.1 Introduction 2.2 Bayesian statistics 2.3 Test martingales 2.4 p-values 2.5 Optional Stopping and Peeking 2.6 Combining p-values and Optional Continuation 2.7 A/B testing Safe Tests 3.1 Introduction 3.2 Classical t-test 3.3 Safe t-test 3.4 χ2 -test 3.5 Safe Proportion Test Safe Testing Simulations 4.1 Introduction and 4.2 Python Implementation 4.3 Comparing the t-test with the Safe t-test 4.4 Comparing the χ2 -test with the safe proportion test Mixture sequential probability ratio test 5.1 Sequential Testing 5.2 Mixture SPRT 5.3 mSPRT and the safe t-test Online Controlled Experiments 6.1 Safe t-test on OCE datasets Vinted A/B tests and 7.1 Safe t-test for Vinted A/B tests 7.2 Safe proportion test for sample ratio mismatch Conclusion and References 1 Introduktion Randomiserade kontrollerade prövningar (RCTs) är guldstandarden för att dra slutsatser om orsakssamband mellan behandlingar och effekter. De används i stor utsträckning av forskare för att fördjupa förståelsen av sina discipliner. Under de senaste två decennierna har de också funnit applikationer i digitala produkter, under namnet A/B-test. Ett A/B-test är en enkel RCT för att jämföra effekten av en behandling (grupp B) med en kontroll (grupp A). De två grupperna jämförs med ett statistiskt test som används för att fatta ett beslut om effekten. Nästan alla statistiska tester för A/B-tester förlitar sig på fasta horisontella tester. Denna testuppsättning innebär att man bestämmer antalet användare som krävs för testet, samlar in data och slutligen analyserar resultaten.Denna testmetod är dock inte anpassad till realtidskapaciteten hos modern datainfrastruktur och experternas önskemål om att fatta beslut snabbt. Nyutvecklade statistiska metoder gör det möjligt för experter att överge fasta horisontella tester och analysera testresultat när som helst. Säker testning är en ny statistisk teori som uppnår dessa mål. Som vi kommer att se, säker A/B-testning gör det möjligt för experter att kontinuerligt övervaka resultaten av sina experiment utan att öka risken för att dra felaktiga slutsatser. Dessutom kommer vi att se att det kräver färre data än standardstatistiska tester för att uppnå dessa resultat. Stora teknikföretag utforskar för närvarande AVI i begränsad kapacitet, men säker testning överträffar tillgängliga tester när det gäller antalet prover som krävs för att upptäcka betydande effekter. Denna avhandling innehåller 6 avsnitt. Avsnitt 2 innehåller en introduktion till hypotestestning, liksom andra statistiska begrepp som är relevanta för läsaren. Den förklarar också hur den klassiska statistiska testningens inflexibilitet orsakar problem för utövare. Avsnitt 3 introducerar begreppen säker testning. Dessutom härleds teststatistiken för det säkra t-testet och det säkra proportionstestet. Avsnitt 4 simulerar prestandan hos den säkra statistiken och jämför dem med deras klassiska alternativ. Avsnitt 5 jämför det säkra t-testet med ett annat populärt när som helst giltigt test, blandningssekventiell sannolikhetstest (mSPRT). Avsnitt 6 jämför det säkra t-testet och mSPRT på ett brett spektrum av online-försök Denna artikel finns tillgänglig på arkiv under ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL licens. Denna artikel finns tillgänglig på arkiv under ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL licens. Tillgänglig i Arkiv