Stôl vľavo Introduction Hypothesis testing 2.1 Introduction 2.2 Bayesian statistics 2.3 Test martingales 2.4 p-values 2.5 Optional Stopping and Peeking 2.6 Combining p-values and Optional Continuation 2.7 A/B testing Safe Tests 3.1 Introduction 3.2 Classical t-test 3.3 Safe t-test 3.4 χ2 -test 3.5 Safe Proportion Test Safe Testing Simulations 4.1 Introduction and 4.2 Python Implementation 4.3 Comparing the t-test with the Safe t-test 4.4 Comparing the χ2 -test with the safe proportion test Mixture sequential probability ratio test 5.1 Sequential Testing 5.2 Mixture SPRT 5.3 mSPRT and the safe t-test Online Controlled Experiments 6.1 Safe t-test on OCE datasets Vinted A/B tests and 7.1 Safe t-test for Vinted A/B tests 7.2 Safe proportion test for sample ratio mismatch Conclusion and References 4 Bezpečné testovacie simulácie 4.1 Úvod V tejto časti porovnáme klasický t-test s bezpečným t-testom a test χ2 s bezpečným proporčným testom.V R [LTT20] bola vyvinutá dôkladná knižnica pre bezpečné testovanie.S cieľom zvýšiť prijatie v oblasti vedy o údajoch sme do Pythonu preniesli kód pre bezpečný t-test a bezpečný proporčný test. 4.2 Implementácia Pythonu Zatiaľ čo logika bezpečného t-testu zostáva rovnaká, v pôvodnom kóde bolo niekoľko neefektívností, ktoré bolo potrebné riešiť, aby bolo možné pracovať s veľkými veľkosťami vzoriek. Prvé zlepšenie spočíva v určení veľkosti vzorky požadovanej pre batériový proces údajov. Pôvodná funkcia vykonáva lineárne vyhľadávanie z 1 na ľubovoľné vysoké číslo. Pre každú možnú veľkosť vzorky v rozsahu vypočíta funkcia E-hodnotu na základe veľkosti vzorky, stupňov slobody a veľkosti účinku. Závit sa preruší, keď je hodnota E väčšia ako 1/α. Keďže ide o monotónne rastúcu funkciu, binárne vyhľadávanie výrazne urýchľuje výpočet, čím znižuje výpočtovú zložitosť z O(n) na O(log n). Táto optimalizácia sa ukázala ako potrebná pri práci s miliónmi vzoriek. Ďalším potrebným zlepšením rýchlosti je výpočet času zastavenia pre výkon 1 − β. To sa určuje simuláciou údajov, ktoré sa líšia minimálnou veľkosťou efektu. Počas simulácií N sa údaje o dĺžke m streamujú individuálne, aby sa určil bod, v ktorom hodnota E prekročí 1/α. Opäť sa tento proces vykonáva pomocou lineárneho vyhľadávania. Na optimalizáciu tejto funkcie je výpočet martingalu paralelizovaný po celom vektore dĺžky m. Výpočtová zložitosť zostáva O(Nm), ale výpočet vektorov prebieha v kóde Numpy, na rozdiel od Pythonovej slučky. Konečnou modifikáciou nie je zníženie výpočtovej zložitosti, ale zlepšenie schopností testu bezpečného pomeru. Tento test bol napísaný v R ako test dvoch vzoriek s pevnými veľkosťami dávok. Pre náš prípad použitia bol potrebný test jednej vzorky s premennými veľkosťami dávok na zistenie pomeru nezhody vzoriek, a preto bol vyvinutý pre balík Python. 4.3 Porovnanie t-testu s bezpečným t-testom Najjednoduchší spôsob, ako pochopiť bezpečný t-test, je porovnať ho s jeho klasickou alternatívou. Vykonávame simulácie veľkosti účinku δ a nulovej hypotézy H0 : δ = 0. Nastavením úrovne významnosti α = 0,05 môžeme simulovať veľkosť účinku δ medzi dvoma skupinami, aby sme zistili, kedy sa test zastaví. Ak sa simulovaná hodnota E prekročí 1/α = 20, test sa zastaví s odmietnutím H0. Ak sa nezistí žiadny účinok, test sa zastaví pri výkone 1 − β = 0,8, pretože táto sila je bežná v priemysle. Obrázok 3 ukazuje simulácie časov zastavenia a rozhodnutí bezpečného testu v porovnaní s t-testom. Ako môžeme vidieť z priemerného času zastavenia na obrázku 3, bezpečný t-test používa menej ako 500 000 vzoriek na poskytnutie štatisticky platných výsledkov, zatiaľ čo klasický t-test vyžaduje viac ako 600 000. Avšak veľkosť vzorky potrebná na dosiahnutie 1 − β výkonu pre bezpečný t-test je približne 850 000, oveľa väčšia ako v klasickom t-teste. Možno sa opýtať, či je prijateľné jednoducho vykonávať bezpečný t-test až do klasickej veľkosti vzorky t-test. Obrázok 4 (vľavo) ukazuje vplyv tejto akcie na štatistické chyby. Po dokončení testu, klasický t-test a bezpečný t-test spĺňajú požiadavku, že chyby typu I sú nižšie ako α = 0,05 a chyby Rovnako ako celkové závery dvoch testov, je zaujímavé zvážiť experimenty, pre ktoré sa klasický t-test a bezpečný t-test nezhodujú. Ako je vidieť na obrázku 4 (vpravo), zatiaľ čo oba testy majú takmer 80% výkonu, robia to veľmi odlišným spôsobom. Mnohé simulácie, pre ktoré klasický t-test akceptuje H0, sú odmietnuté bezpečným t-testom a naopak. Tento rozdiel vo výsledkoch bude pravdepodobne ťažké internalizovať pre praktizujúcich, ktorí zvažujú T-test by mal byť zdrojom pravdy pre ich platformu. Zatiaľ čo Obrázok 3 hodnotí bezpečné časy zastavenia pre pevnú veľkosť efektu, je dôležité zvážiť výsledky pre širokú škálu veľkostí efektu. Ak chcete agregovať výsledky veľkostí efektu od 0,01 do 0,3, normalizujeme časy zastavenia časom zastavenia t-test. Zápletka na obrázku 5 ukazuje priemerné zastavenie bezpečného t-testu a veľkosť vzorky požadovanej na 80% výkonu. V priemere bezpečný test používa o 18% menej dát ako t-test. Aby sa dosiahol rovnaký výkon 80%, bezpečný test však používa o 36% viac dát. Vzhľadom na to, že väčšina A / B testov nevedie k odmietnutiu H0 [Aze + 20], mohlo by to mať za následok dlhšie experimenty celkovo pre praktizujúcich. 4.4 Porovnanie testu χ2 s testom bezpečného pomeru Výsledky na obrázku 6 sú pozoruhodne podobné tým, ktoré vidíme pri porovnaní t-testu a bezpečného t-testu na obrázku 3. Bezpečný test opäť používa v priemere menej vzoriek ako jeho klasická alternatíva, zatiaľ čo maximálny čas zastavenia na dosiahnutie požadovaného výkonu je vyšší. Ako je znázornené na obrázku 7, priemerná veľkosť vzorky požadovaná pre test bezpečného pomeru je menšia ako veľkosť testu χ2 pre všetky hodnoty ε. To naznačuje, že test bezpečného pomeru bude konkurencieschopný s testom χ2, a to aj pri detekcii malých účinkov. Pri pohľade na tieto výsledky sa dá spochybniť, či je vhodné nastaviť predchádzajúcu veľkosť na základe neznámej veľkosti efektu. V tejto časti sme porovnali bezpečný t-test a test bezpečného pomeru s ich klasickými alternatívami. Zistilo sa, že priemerné veľkosti vzoriek pre bezpečný t-test sú menšie ako u klasického t-testu pre širokú škálu veľkostí účinkov. Avšak maximálna veľkosť vzorky môže byť oveľa väčšia, aby sa dosiahla rovnaká štatistická sila. Okrem toho sú priemerné veľkosti vzoriek v teste bezpečného pomeru menšie ako v teste χ2. Tieto zistenia motivujú ďalšie prijatie bezpečných testov vo vedeckých úsilí. V ďalšej časti porovnáme bezpečný t-test s iným kedykoľvek platným testom používaným v priemysle, testom sekvenčného pravdepodobnosti zmesi. Spisovateľ : Kľúčové slová: Daniel Beasley Author: Kľúčové slová: Daniel Beasley Tento dokument je k dispozícii v archíve pod licenciou ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Tento dokument je k dispozícii v archíve pod licenciou ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Dostupné v archíve