Stôl vľavo Introduction Hypothesis testing 2.1 Introduction 2.2 Bayesian statistics 2.3 Test martingales 2.4 p-values 2.5 Optional Stopping and Peeking 2.6 Combining p-values and Optional Continuation 2.7 A/B testing Safe Tests 3.1 Introduction 3.2 Classical t-test 3.3 Safe t-test 3.4 χ2 -test 3.5 Safe Proportion Test Safe Testing Simulations 4.1 Introduction and 4.2 Python Implementation 4.3 Comparing the t-test with the Safe t-test 4.4 Comparing the χ2 -test with the safe proportion test Mixture sequential probability ratio test 5.1 Sequential Testing 5.2 Mixture SPRT 5.3 mSPRT and the safe t-test Online Controlled Experiments 6.1 Safe t-test on OCE datasets Vinted A/B tests and 7.1 Safe t-test for Vinted A/B tests 7.2 Safe proportion test for sample ratio mismatch Conclusion and References 5 Test sekvenčného pomeru pravdepodobnosti 5.1 Sekvenčné testovanie Keďže sofistikovaná A/B testovacia infraštruktúra sa rozšírila, majú tiež príležitosti na sledovanie výsledkov testov [Joh+17]. Ako sme videli, vedie to k neočakávanému dôsledku nafukovania falošne pozitívnej rýchlosti. Ak chcete využiť svoju infraštruktúru, veľké technologické spoločnosti začali implementovať štatistické metódy, ktoré sú platné kedykoľvek. Toto pole štatistiky je známe ako sekvenčné testovanie alebo kedykoľvek platná záver. Sekvenčné testovanie vzniklo s Waldovým seminálnym papierom na tému, Sekvenčné testovanie štatistických hypotéz [Wal45]. Wald zavádza prvú sekvenčnú testovaciu metódu, známu ako sekvenčný pravdepodobnostný testovací pomer (SPRT). SPRT je test Wald a Wolfowitz dokázali, že SPRT je optimálny sekvenčný test z hľadiska štatistického výkonu [WW48]. Treba však poznamenať, že ich formulácia sekvenčného testu nie je v súlade s formuláciou bezpečných testov. Ich dôkaz je založený na rozdelení priestoru pravdepodobnostného pomeru do troch oblastí: prijať H0, odmietnuť H0, alebo pokračovať vo vzorkovaní. Naopak, bezpečný t-test je optimálny z hľadiska GROW [Pér+22], čo znamená, že E-variabilná E bude rásť najrýchlejšie, keď H0 nie je pravda. Rozhodnutie odmietnuť H0 sa prijíma, keď E ≥ 1/α, zatiaľ čo opačné rozhodnutie prijať H0 môže byť prijaté kedykoľvek. Pochopenie roz 5.2 Zmes SPRT Vývoj A/B testu pre sekvenčné testovanie zahŕňal rozšírenie SPRT tak, aby fungoval s dvoma vzorkovými údajmi. To bolo dosiahnuté Johari et al. [Joh+17] ktorý priekopníkom metódy A/B testovania známeho ako test mix Sequential Probability Ratio (mSPRT). Tento test bol prijatý vo veľkých technologických spoločnostiach, ako sú Uber a Netflix [SA23]. Rovnako ako s bezpečným t-testom, mSPRT funguje optimálne s granulárnymi, sekvenčnými údajmi. mSPRT je v podstate podobný SPRT, s predchádzajúcim presvedčením, že skutočný parameter je blízko θ0. Pozrime sa podrobnejšie na matematické detaily tohto testu. Štatistiky mSPRT budeme uchovávať v jeho martingale forme, aby sme mohli porovnať výkon s bezpečným t-testom. Spisovateľ : Kľúčové slová: Daniel Beasley Author: Kľúčové slová: Daniel Beasley Tento dokument je k dispozícii v archíve pod licenciou ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Tento dokument je k dispozícii v archíve pod licenciou ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Dostupné v archíve