Bàn trái Introduction Hypothesis testing 2.1 Introduction 2.2 Bayesian statistics 2.3 Test martingales 2.4 p-values 2.5 Optional Stopping and Peeking 2.6 Combining p-values and Optional Continuation 2.7 A/B testing Safe Tests 3.1 Introduction 3.2 Classical t-test 3.3 Safe t-test 3.4 χ2 -test 3.5 Safe Proportion Test Safe Testing Simulations 4.1 Introduction and 4.2 Python Implementation 4.3 Comparing the t-test with the Safe t-test 4.4 Comparing the χ2 -test with the safe proportion test Mixture sequential probability ratio test 5.1 Sequential Testing 5.2 Mixture SPRT 5.3 mSPRT and the safe t-test Online Controlled Experiments 6.1 Safe t-test on OCE datasets Vinted A/B tests and 7.1 Safe t-test for Vinted A/B tests 7.2 Safe proportion test for sample ratio mismatch Conclusion and References 5 Xét nghiệm tỷ lệ xác suất kết hợp 5.1 Thử nghiệm liên tục Như chúng ta đã thấy, điều này dẫn đến hậu quả không mong muốn của việc lấp đầy tỷ lệ dương tính giả. Để tận dụng lợi thế của cơ sở hạ tầng của họ, các công ty công nghệ lớn đã bắt đầu thực hiện các phương pháp thống kê có giá trị bất cứ lúc nào. Lĩnh vực thống kê này được gọi là kiểm tra chuỗi, hoặc kết luận có giá trị bất cứ lúc nào. Kiểm tra chuỗi bắt nguồn từ bài báo hạt giống của Wald về chủ đề, kiểm tra chuỗi các giả thuyết thống kê [Wal45]. Wald giới thiệu phương pháp kiểm tra chuỗi đầu tiên, được gọi là tỷ lệ xác suất chuỗi (SPRT). SPRT là một kích thước thử nghiệm một mẫu m chia không gian mẫu thành ba khu vực tương ứng với quyết định được đưa ra: chấp nhận H0, H0, từ chối hoặc tiếp tục lấy mẫu. Số lượng để xác định quyết định xác suất Wald và Wolfowitz chứng minh rằng SPRT là thử nghiệm liên tiếp tối ưu về sức mạnh thống kê [WW48]. Tuy nhiên, cần lưu ý rằng công thức của họ về một thử nghiệm liên tiếp không phù hợp với các thử nghiệm an toàn. Bằng chứng của họ dựa trên việc chia không gian tỷ lệ xác suất thành ba khu vực: chấp nhận H0, từ chối H0, hoặc tiếp tục lấy mẫu. Ngược lại, thử nghiệm t an toàn là tối ưu về GROW [Pér+22], có nghĩa là biến E sẽ phát triển nhanh nhất khi H0 không đúng. Quyết định từ chối H0 được đưa ra khi E ≥ 1/α, trong khi quyết định đối lập để chấp nhận H0 có thể được thực hiện bất cứ lúc nào. Hiểu được các công thức khác nhau của các thử nghiệm liên tiếp này và bằng chứng tối ưu hóa của chúng nên giúp nội tâm hóa hiệu suất tương 5.2 Hỗn hợp SPRT Phát triển một thử nghiệm A/B cho thử nghiệm liên tiếp liên quan đến việc mở rộng SPRT để hoạt động với dữ liệu hai mẫu. Điều này đã được thực hiện bởi Johari et al. [Joh+17] người tiên phong một phương pháp thử nghiệm A/B được gọi là thử nghiệm tỷ lệ xác suất liên tục hỗn hợp (mSPRT). thử nghiệm này đã được áp dụng trong các công ty công nghệ lớn như Uber và Netflix [SA23]. Giống như với thử nghiệm t an toàn, mSPRT hoạt động tối ưu với dữ liệu phân đoạn. mSPRT về cơ bản tương tự như SPRT, với niềm tin trước rằng tham số thực sự nằm gần θ0. Chúng ta hãy xem xét các chi tiết toán học của thử nghiệm này sâu hơn. Chúng tôi sẽ giữ số liệu thống kê mSPRT ở dạng martingale của nó để so sánh hiệu suất với thử nghiệm t an toàn. Tác giả : người hâm mộ lựa chọn: Daniel Beasley Author: người hâm mộ lựa chọn: Daniel Beasley Tài liệu này được lưu trữ dưới giấy phép ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Bài báo này là Giấy phép ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL Có sẵn trong Archive Có sẵn trong Archive