Spisovateľ : Kľúčové slová: Daniel Beasley Author: Kľúčové slová: Daniel Beasley Stôl vľavo Introduction Hypothesis testing 2.1 Introduction 2.2 Bayesian statistics 2.3 Test martingales 2.4 p-values 2.5 Optional Stopping and Peeking 2.6 Combining p-values and Optional Continuation 2.7 A/B testing Safe Tests 3.1 Introduction 3.2 Classical t-test 3.3 Safe t-test 3.4 χ2 -test 3.5 Safe Proportion Test Safe Testing Simulations 4.1 Introduction and 4.2 Python Implementation 4.3 Comparing the t-test with the Safe t-test 4.4 Comparing the χ2 -test with the safe proportion test Mixture sequential probability ratio test 5.1 Sequential Testing 5.2 Mixture SPRT 5.3 mSPRT and the safe t-test Online Controlled Experiments 6.1 Safe t-test on OCE datasets Vinted A/B tests and 7.1 Safe t-test for Vinted A/B tests 7.2 Safe proportion test for sample ratio mismatch Conclusion and References 1 Úvod Randomizované kontrolované štúdie (RCT) sú zlatým štandardom na odvodenie príčinných vzťahov medzi liečbami a účinkami. Vedci ich široko používajú na prehĺbenie pochopenia ich disciplín. V priebehu posledných dvoch desaťročí našli aplikácie aj v digitálnych produktoch pod názvom A/B test. A/B test je jednoduchý RCT na porovnanie účinku liečby (skupina B) s kontrolou (skupina A). Obe skupiny sa porovnávajú so štatistickým testom, ktorý sa používa na rozhodnutie o účinku. Takmer všetky štatistické testy pre A/B testy sa spoliehajú na testovanie s pevným horizontom. Toto testovacie nastavenie zahŕňa určenie počtu používateľov potrebných na testovanie, zhromažďovanie údajov a nakoniec analýzu výsledkov. Avšak táto metóda testovania nie je v súlade s schopnosťami moderných dátových infraštruktúr v reálnom čase a túžbou experimentátorov urobiť rozhodnutia rýchlo. Novo vyvinuté štatistické metodiky umožňujú experimentátorom testovať s pevným horizontom a analyzovať výsledky testov kedykoľvek. Bezpečné testovanie je novou štatistickou teóriou, ktorá dosahuje tieto ciele. Ako uvidíme, bezpečné A/B testovanie umožňuje experimentátorom nepretržite monitorovať výsledky svojich experimentov bez zvýšenia rizika vyvodenia nesprávnych záverov. Okrem toho uvidíme, že na dosiahnutie týchto výsledkov sa vyžaduje menej údajov ako štandardné štatistické testy. Veľké technologické spoločnosti v súčasnosti skúmajú AVI v obmedzených kapacitách, ale bezpečné testovanie prevyšuje dostupné testy z hľadiska počtu vzoriek potrebných na detekciu významných účinkov. Táto práca obsahuje 6 oddielov. Oddiel 2 obsahuje úvod k testovaniu hypotézy, ako aj ďalšie štatistické koncepty, ktoré sú relevantné pre čitateľa. Vysvetľuje tiež, ako neflexibilita klasických štatistických testov spôsobuje problémy pre odborníkov. Oddiel 3 predstavuje pojmy bezpečného testovania. Okrem toho odvodzuje testovacie štatistiky pre bezpečný t-test a test bezpečného pomeru. Oddiel 4 simuluje výkon bezpečných štatistických údajov a porovnáva ich s ich klasickými alternatívami. Oddiel 5 porovnáva bezpečný t-test s iným populárnym kedykoľvek platným testom, testom sekvenčného pravdepodobnostného pomeru zmesí (mSPRT). Oddiel 6 porovnáva bezpečný t-test a mSPRT Tento dokument je k dispozícii v archíve pod licenciou ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Tento papier je Podlieha licencii ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Dostupné v archíve Dostupné v archíve