Kreisā galda Introduction Hypothesis testing 2.1 Introduction 2.2 Bayesian statistics 2.3 Test martingales 2.4 p-values 2.5 Optional Stopping and Peeking 2.6 Combining p-values and Optional Continuation 2.7 A/B testing Safe Tests 3.1 Introduction 3.2 Classical t-test 3.3 Safe t-test 3.4 χ2 -test 3.5 Safe Proportion Test Safe Testing Simulations 4.1 Introduction and 4.2 Python Implementation 4.3 Comparing the t-test with the Safe t-test 4.4 Comparing the χ2 -test with the safe proportion test Mixture sequential probability ratio test 5.1 Sequential Testing 5.2 Mixture SPRT 5.3 mSPRT and the safe t-test Online Controlled Experiments 6.1 Safe t-test on OCE datasets Vinted A/B tests and 7.1 Safe t-test for Vinted A/B tests 7.2 Safe proportion test for sample ratio mismatch Conclusion and References 7 A/B pārbaudes Vinted ir tiešsaistes tirgus apģērbiem un aksesuāriem. Kopš tā dibināšanas 2008. gadā tā ir ieguvusi vairāk nekā 75 miljonus lietotāju, lai ātri attīstītos Eiropas lielākajā otrreizējās lietošanas apģērbu tirgū. Ar tik lielu lietotāju skaitu tā vienlaikus veic lielu skaitu A/B testu, lai sniegtu vislabāko pieredzi saviem lietotājiem. Tas padara Vinted par ideālu vidi, lai novērtētu drošu testu efektivitāti. Šajā sadaļā mēs piemērojam drošo t-testu un drošo proporciju testus Vinted eksperimentu datiem. drošo t-testu salīdzinās ar klasisko t-testu, lai novērtētu A/B testu rezultātus. Turklāt drošās proporcijas testu salīdzinās ar χ2 testu kā līdzekli, lai atklātu eksperimentu parauga 7.1 Drošs t-tests Vinted A/B testēšanai Šajā analīzē tiks izvērtēti 162 Vinted eksperimentu rādītāji no 2023. gada marta līdz 2023. gada jūnijam. Mēs apkopojām kumulatīvus 143 metrikas ikdienas snapshots, kas satur vidējo rādītāju, standarta novirzi un parauga izmēru gan kontroles, gan testēšanas grupām. Eksperimenti ar vairākiem variantiem tiek apstrādāti kā atsevišķi testi ar to pašu kontroles grupu. Drošā t-tests un klasiskais t-tests tika salīdzināti visās 42115 eksperimentu/metrikas kombinācijās šajā datu kopumā. 7. tabula parāda statistikas testu rezultātus līmenī α = 0.05. 7. tabulas rezultāti liecina, ka drošais t-tests un klasiskais t-tests konsekventi nonāk pie tā paša secinājuma par metriku nozīmīgumu. 379 gadījumi, kad drošais t-tests noraida H0, ka t-tests nav saskaņots ar simulācijām, kas pierāda, ka testi ne vienmēr piekrīt tam, kas ir nozīmīgs rezultāts. 1645 gadījumi, kad t-tests noraida H0, bet drošais t-tests nav vairāk ieinteresēts. Drošais t-tests ir jutīgāks, kad tas novēro datus secīgi, dodot vairāk iespēju noraidīt H0. Šie dati tiek apkopoti ikdienas līmenī, kas efektīvi samazina testa jaudu. Ar vairāk granulētiem datiem drošais t-tests atklās vairāk efektu nekā šajā grupas secībā. Sastāvdaļas sekvenciālās varbūtības attiecības tests (mSPRT) tika veikts uz tā paša eksperimentu kopuma. Salīdzinot rezultātus no 8. tabulas ar 7. tabulu, mSPRT ir ievērojami mazāks Lai gan tas daļēji ir saistīts ar grupas sekvenciālo iestatījumu, mūsu simulācijas rezultāti liecina, ka mSPRT ir vienkārši mazāk jutīgs statistikas tests nekā drošais t-tests. Atgriežoties pie drošā t-testa rezultātiem, tika konstatēts, ka drošais t-tests ievērojami labāk darbojas dažās metrikās nekā citās. Šeit mēs tālāk analizēsim metrikas, lai saprastu, kāpēc tas tā ir. Lai kvantitatīvi novērtētu drošā t-testa veiktspēju uz metrikas, mēs izmantojam phi koeficientu, lai salīdzinātu savus lēmumus ar klasisko t-testu. phi koeficients, kas pazīstams arī kā Matthews korelācijas koeficients, tiek izmantots, lai noteiktu bināro mainīgo korelāciju. Lai saprastu katras metrikas mērķi, ir teksta apraksts par tās lietošanas gadījumu Vinted A/B testēšanas sistēmā. Katras tēmas kopsavilkumu aprakstā var iegūt ar Latī A/B testēšanas ievadā tika minēts, ka dažiem rādītājiem ir nepieciešams daudz ilgāks laiks, lai tos realizētu. Tas nozīmē, ka dati netiks neatkarīgi un vienādi sadalīti visās testa dienās. Pārbaudot 9. tabulu, mēs redzam augstu korelāciju starp drošā t-testa veiktspēju un klasiskā t-testa veiktspēju par rādītājiem, kas ietver meklējumus, sesijas un iespiedumus. Tie visi ir daudzumi, kuriem ir īss laiks starp ekspozīciju testam un rādītāja realizāciju. Pretēji, drošais t-tests nedarbojas labi ilgtermiņa rādītājos, kas ietver darījumus un pasūtījumu atcelšanu. Kopā šie rezultāti liecina, ka drošais t-tests optimāli darbosies par rādītā 7.2 Drošas proporcijas tests parauga attiecību neatbilstībai Lai noteiktu drošas proporcijas testa un χ2 testa efektivitāti parauga attiecību neatbilstības (SRM) noteikšanā, tiek analizēti 195 Vinted eksperimentu sadalījumi. Drošs tests tiek piemērots ikdienas sadalījumu snapshots, savukārt χ2 tests tiek piemērots sadalījumam eksperimenta pēdējā dienā. SRM nozīmīguma līmenis ir α = 0.01, lai ierobežotu viltus pozitīvu skaitu. Beta iepriekšējās vērtības α1, β1 = 1000 tiek izmantotas drošas proporcijas testam. Rezultātu salīdzinājumu starp drošas proporcijas testu un χ 2 testu var redzēt 10. tabulā. Autors : Daniels Beaslijs Author: Daniels Beaslijs Šis dokuments ir pieejams arhīvā saskaņā ar ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL licenci. Šis dokuments ir Atribūts saskaņā ar ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL licenci. Pieejams arhīvā Pieejams arhīvā