Kreisā galda Introduction Hypothesis testing 2.1 Introduction 2.2 Bayesian statistics 2.3 Test martingales 2.4 p-values 2.5 Optional Stopping and Peeking 2.6 Combining p-values and Optional Continuation 2.7 A/B testing Safe Tests 3.1 Introduction 3.2 Classical t-test 3.3 Safe t-test 3.4 χ2 -test 3.5 Safe Proportion Test Safe Testing Simulations 4.1 Introduction and 4.2 Python Implementation 4.3 Comparing the t-test with the Safe t-test 4.4 Comparing the χ2 -test with the safe proportion test Mixture sequential probability ratio test 5.1 Sequential Testing 5.2 Mixture SPRT 5.3 mSPRT and the safe t-test Online Controlled Experiments 6.1 Safe t-test on OCE datasets Vinted A/B tests and 7.1 Safe t-test for Vinted A/B tests 7.2 Safe proportion test for sample ratio mismatch Conclusion and References 6 tiešsaistes kontrolētie eksperimenti Tā kā A/B testa pieņemšana ir palielinājusies, jaunās statistikas metodoloģijas ir līdzīgi izplatījušās. Variance samazināšanas paņēmieni, piemēram, CUPED [Den+13] un jauni statistikas testi, piemēram, mSPRT [Joh+17] ir kļuvuši par standarta paņēmieniem dažādos tehnoloģiju uzņēmumos. A/B testa ainava kļūst arvien vairāk pārpildīta ar novatoriskām metodēm, bet nav atsauces punkta, ar kuru tos viegli salīdzināt un kontrastēt. Lai risinātu šo problēmu, Imperial College London pētnieki ir sastādījuši virkni tiešsaistes kontrolētu eksperimentu (OCE) [Liu+22] datu kopu. Šie datu kopumi satur reālus datus no tiešsaistē veiktajiem nejaušajiem kontrolētajiem pētījumiem, kā arī dažus sint OCE datu kopas ir 13 anonimizētu datu kopu taksonomija, kas atrodama visā internetā.Datu kopas satur ikdienas snapshots no četrām metrikām, kas izmērītas 78 eksperimentos un līdz trim variantiem.Dati no eksperimentiem var būt bināri, veseli vai reāli novērtēti, kas ļauj pārbaudīt plašu statistisko metodoloģiju klāstu. OCE datu kopu iespējamais lietojuma gadījums ir opcionālo apstāšanās metožu salīdzināšana, jo jaunizveidotajām metodēm var būt nereāli pieņēmumi, lai nodrošinātu to rezultātu derīgumu.Datu kopu ikdienas snapshots nozīmē, ka testēšanai var piemērot pussekvenciālu pieeju. Papīrā mSPRT tiek salīdzināts ar klasisko t-testu, lai apstiprinātu testu OCE datu kopās. Šajā sadaļā tiks veikts drošs t-tests par OCE datu kopu vākšanu, un rezultāti tiks salīdzināti gan ar klasisko t-testu, gan mSPRT. 6.1 Drošs t-tests uz OCE datu kopām Lai salīdzinātu drošā t-testa veiktspēju, mēs varam salīdzināt tā rezultātus ar t-testu.Kā mēs redzējām 4. attēlā (labajā pusē), abi testi ne vienmēr sasniedz vienu un to pašu secinājumu par katru datu kopumu.Tomēr, tā kā t-tests ir visbiežāk izmantotais statistikas tests A/B testēšanai, ir svarīgi kontrastēt rezultātus, lai saprastu situācijas, kurās rezultāti atšķiras.Tabula 5 parāda t-testa rezultātus un drošo t-testu par OCE datu kopumu vākšanu. Lai gan teorētiski drošā t-testa viltus pozitīvais rādītājs būtu zemāks par α, šķiet maz ticams, ka visi šie H0 noraidījumi atbilst patiesajiem efektiem. Pēc šo eksperimentu gaitā veikto E-vērtību uzvedības analīzes mēs secinām, ka lielajam H0 noraidījumu skaitam, iespējams, ir saistība ar jaunumu efektu. Kā minēts iepriekš, jaunuma efekts attiecas uz pieaugošu uzmanību funkcijai drīz pēc tās izlaišanas. Rezultāts ir tāds, ka tiek pārkāpts neatkarīgu un identiski sadalītu datu pieņēmums, ar pierādījumiem pret nulles hipotēzi, kas var ātri uzkrāties. Par fiksētu parauga testu tas ir mazāk problēma, jo sadalījums eksperimenta gaitā atgriežas atpakaļ. Tom Tomēr drošais tests noraida vēl vairāk hipotēzes nekā mSPRT. Tas ir iespējams tāpēc, ka drošais tests ir jutīgāks par mSPRT un spēcīgāk reaģē uz datiem, kas ir pretrunā ar nulles hipotēzi. Nākamajā sadaļā mēs turpinām analizēt drošu testu veiktspēju liela mēroga tehnoloģiju uzņēmumā Vinted. Autors : Daniels Beaslijs Author: Daniels Beaslijs Šis dokuments ir pieejams arhīvā saskaņā ar ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL licenci. Šis dokuments ir pieejams arhīvā saskaņā ar ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL licenci. Pieejams arhīvā