Stół po lewej Introduction Hypothesis testing 2.1 Introduction 2.2 Bayesian statistics 2.3 Test martingales 2.4 p-values 2.5 Optional Stopping and Peeking 2.6 Combining p-values and Optional Continuation 2.7 A/B testing Safe Tests 3.1 Introduction 3.2 Classical t-test 3.3 Safe t-test 3.4 χ2 -test 3.5 Safe Proportion Test Safe Testing Simulations 4.1 Introduction and 4.2 Python Implementation 4.3 Comparing the t-test with the Safe t-test 4.4 Comparing the χ2 -test with the safe proportion test Mixture sequential probability ratio test 5.1 Sequential Testing 5.2 Mixture SPRT 5.3 mSPRT and the safe t-test Online Controlled Experiments 6.1 Safe t-test on OCE datasets Vinted A/B tests and 7.1 Safe t-test for Vinted A/B tests 7.2 Safe proportion test for sample ratio mismatch Conclusion and References 6 Kontrolowane eksperymenty online W miarę wzrostu przyjmowania testów A/B, nowe metody statystyczne rozprzestrzeniły się podobnie. Techniki redukcji różnic, takie jak CUPED [Den+13] i nowe testy statystyczne, takie jak mSPRT [Joh+17] stały się standardowymi technikami w różnych firmach technologicznych. Krajobraz testów A/B staje się coraz bardziej zatłoczony innowacyjnymi metodami, ale nie ma punktu odniesienia, z którym można je łatwo porównać i kontrastować. Aby rozwiązać ten problem, naukowcy z Imperial College London skomponowali serię zestawów danych dla internetowych kontrolowanych eksperymentów (OCE) [Liu+22]. Te zestawy danych zawierają rzeczywiste dane z randomizowanych kontrolowanych badań prowadzonych w Internecie, a także niektóre syntetyczne Zbiory danych OCE są taksonomią 13 anonimowych zbiorów danych znajdujących się w Internecie. Zbiory danych zawierają codzienne zdjęcia czterech mierników mierzone na 78 eksperymentach i do trzech wariantów. Dane z eksperymentów mogą być binarne, całkowite lub rzeczywiste, co pozwala na testowanie szerokiej gamy metod statystycznych. Potencjalnym przykładem zastosowania zbiorów danych OCE jest porównywanie opcjonalnych metod zatrzymania, ponieważ nowo opracowane metody mogą mieć nierealne założenia, aby zapewnić ważność ich wyników.Dostępność codziennych zdjęć w zbiorach danych oznacza, że można zastosować podejście półsekwencyjne do testowania.W papierze mSPRT jest porównywany z klasycznym testem t, aby zweryfikować test na zbiorach danych OCE.Tabela 4 pokazuje wyniki. W tej sekcji bezpieczny test t zostanie przeprowadzony na gromadzeniu zbiorów danych OCE, a wyniki porównane z klasycznym testem t i mSPRT. 6.1 Bezpieczny test t na zestawach danych OCE Aby porównać wydajność bezpiecznego testu t, możemy porównać jego wyniki z testem t. Jak widzieliśmy na rysunku 4 (w prawo), oba testy nie zawsze osiągają ten sam wniosek dla każdego zestawu danych. jednak, ponieważ test t jest najczęściej stosowanym testem statystycznym dla testów A/B, ważne jest, aby kontrastować wyniki, aby zrozumieć sytuacje, w których wyniki różnią się. Bezpieczny test t wykrywa znacznie więcej efektów niż klasyczny test t. Podczas gdy w teorii fałszywy pozytywny wskaźnik bezpiecznego testu t powinien być poniżej α, wydaje się mało prawdopodobne, że wszystkie te odrzucenia H0 odpowiadają prawdziwym efektom. Po analizie zachowania wartości E w trakcie tych eksperymentów, dochodzimy do wniosku, że duża liczba odrzuczeń H0 prawdopodobnie ma związek z efektem nowości. Jak wspomniano wcześniej, efekt nowości odnosi się do zwiększonej uwagi do funkcji wkrótce po jej wydaniu. Wynikiem jest to, że założenie niezależnych i identycznie rozłożonych danych jest naruszone, z dowodami przeciwko hipotezie zerowej, aby szybko się gromadzić. W przypadku testu próbki stałej jest to Nic dziwnego, biorąc pod uwagę zachowanie obserwowane na rysunku 8, hipotezy zerowe odrzucone przez mSPRT są podobnie odrzucane przez bezpieczny test t. Jednak bezpieczny test odrzuca jeszcze więcej hipotez niż mSPRT. Jest to prawdopodobne, ponieważ bezpieczny test jest bardziej wrażliwy niż mSPRT i silniej reaguje na dane, które sprzeczają się z hipotezą zerową. Autorzy : 1 Daniel Beasley Author: 1 Daniel Beasley Niniejszy dokument jest dostępny w archiwum na podstawie licencji ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Ten dokument jest Licencja ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. available on arxiv Dostępne w Archiwum