Tabell från vänster Introduction Hypothesis testing 2.1 Introduction 2.2 Bayesian statistics 2.3 Test martingales 2.4 p-values 2.5 Optional Stopping and Peeking 2.6 Combining p-values and Optional Continuation 2.7 A/B testing Safe Tests 3.1 Introduction 3.2 Classical t-test 3.3 Safe t-test 3.4 χ2 -test 3.5 Safe Proportion Test Safe Testing Simulations 4.1 Introduction and 4.2 Python Implementation 4.3 Comparing the t-test with the Safe t-test 4.4 Comparing the χ2 -test with the safe proportion test Mixture sequential probability ratio test 5.1 Sequential Testing 5.2 Mixture SPRT 5.3 mSPRT and the safe t-test Online Controlled Experiments 6.1 Safe t-test on OCE datasets Vinted A/B tests and 7.1 Safe t-test for Vinted A/B tests 7.2 Safe proportion test for sample ratio mismatch Conclusion and References 7 Vinnande A/B tester Vinted är en online marknadsplats för kläder och accessoarer. Sedan starten 2008 har den fått över 75 miljoner användare för att snabbt utvecklas till Europas största marknadsplats för begagnade kläder. Med ett så stort antal användare utför den ett stort antal A/B-tester samtidigt för att leverera den bästa upplevelsen för sina användare. Detta gör Vinted till en idealisk miljö för att utvärdera effektiviteten av säkra tester. I det här avsnittet tillämpar vi det säkra t-testet och de säkra proportionstesterna på Vinteds experimentdata. Det säkra t-testet kommer att jämföras med det klassiska t-testet för att utvärdera resultaten av A/B-tester. 7.1 Säker t-test för Vinted A/B-tester Metrikerna för 162 Vinted-experiment från mars 2023 till juni 2023 kommer att utvärderas för denna analys. Vi sammanställde kumulativa dagliga ögonblicksbilder av 143 mätningar, som innehåller metrikens medelvärde, standardavvikelse och provstorlek för både kontroll- och testgrupper. Experiment med flera varianter behandlas som separata tester med samma kontrollgrupp. Det säkra t-testet och det klassiska t-testet jämfördes över alla 42115 experiment/metrikkombinationer i denna datamängd. Tabell 7 visar resultaten av de statistiska testerna på nivå α = 0.05. Resultaten från tabell 7 visar att det säkra t-testet och det klassiska t-testet konsekvent når samma slutsats om betydelsen av mätningarna. De 379 fallen där det säkra t-testet avvisar en H0 att t-testet inte är konsekvent med simuleringarna som visar att testerna inte alltid är överens om vad som utgör ett betydande resultat. Det höga antalet 1645 fall där t-testet avvisar H0 medan det säkra t-testet inte är mer angelägna. Det säkra t-testet är mer känsligt när det observerar data sekventiellt, vilket ger fler möjligheter att avvisa H0. Dessa data aggregeras på en daglig nivå, vilket effektivt minskar testets kraft. Med mer granulära data skulle det säkra t-testet upptäcka mer effekter än Blandningens sekventiella sannolikhetsförhållande test (mSPRT) utfördes på samma uppsättning experiment. Jämförelsen av resultaten från tabell 8 med tabell 7 visar att mSPRT är betydligt mindre. Även om detta delvis beror på gruppsekvensinställningen, tyder våra simuleringsresultat på att mSPRT är helt enkelt ett mindre känsligt statistiskt test än det säkra t-testet. Tillbaka till de säkra t-testresultaten fann vi att det säkra t-testet fungerade betydligt bättre på vissa mätvärden än andra. Här kommer vi att analysera mätvärdena ytterligare för att förstå varför detta är fallet. För att kvantifiera det säkra t-testets prestanda på en mätare använder vi phi-koefficienten för att jämföra sina beslut med det klassiska t-testet. phi-koefficienten, även känd som Matthews korrelationskoefficient, används för att bestämma korrelationen mellan binära variabler. För att förstå syftet med varje mätare finns det en textbeskrivning av dess användningsfall inom Vinteds A/B-testramverk. En sammanfattning av varje ämne i beskrivningen kan extraheras med Latent Dirichlet Allocation. Latent I introduktionen till A/B-testning nämndes det att vissa mätvärden tar mycket längre tid att realisera. Detta innebär att data inte kommer att vara oberoende och identiskt fördelade över testets dagar. Genom att undersöka tabell 9 ser vi en hög korrelation mellan prestandan hos det säkra t-testet och det klassiska t-testet på mätvärden som involverar sökningar, sessioner och intryck. Det här är alla mängder som har en kort tid mellan exponering för testet och realiseringen av mätvärdet. Omvänt fungerar det säkra t-testet inte bra på långsiktiga mätvärden som involverar transaktioner och orderavbokningar. Tillsammans tyder dessa resultat på att det säkra t-testet kommer att fungera optimalt på mätvärden för vilka resultat är tillgängliga omedelbart 7.2 Säker proportionstest för missmatchning av provförhållande För att bestämma effektiviteten av det säkra proportionstestet och χ2-testet vid detektering av missmatchning av provförhållandet (SRM) analyseras fördelningarna av 195 experiment från Vinted. Det säkra testet tillämpas på dagliga snapshots av fördelningarna, medan χ2-testet tillämpas på fördelningen på experimentets sista dag. För SRM används en signifikansnivå på α = 0,01 för att begränsa antalet falska positiva. Beta-förhandsvärden av α1, β1 = 1000 används för det säkra proportionstestet. Jämförelsen av resultaten mellan det säkra proportionstestet och χ2-testet kan ses i tabell 10. Författare : Författaren Daniel Beasley Author: Författaren Daniel Beasley Denna artikel finns tillgänglig på arkiv under ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL licens. Detta papper är Licensierad enligt ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Tillgänglig i Arkiv Tillgänglig i Arkiv