Bàn trái Introduction Hypothesis testing 2.1 Introduction 2.2 Bayesian statistics 2.3 Test martingales 2.4 p-values 2.5 Optional Stopping and Peeking 2.6 Combining p-values and Optional Continuation 2.7 A/B testing Safe Tests 3.1 Introduction 3.2 Classical t-test 3.3 Safe t-test 3.4 χ2 -test 3.5 Safe Proportion Test Safe Testing Simulations 4.1 Introduction and 4.2 Python Implementation 4.3 Comparing the t-test with the Safe t-test 4.4 Comparing the χ2 -test with the safe proportion test Mixture sequential probability ratio test 5.1 Sequential Testing 5.2 Mixture SPRT 5.3 mSPRT and the safe t-test Online Controlled Experiments 6.1 Safe t-test on OCE datasets Vinted A/B tests and 7.1 Safe t-test for Vinted A/B tests 7.2 Safe proportion test for sample ratio mismatch Conclusion and References 7 bài kiểm tra A/B Vinted là một thị trường trực tuyến cho quần áo và phụ kiện. Kể từ khi thành lập vào năm 2008, Vinted đã đạt được hơn 75 triệu người dùng để nhanh chóng phát triển thành thị trường quần áo thứ hai lớn nhất châu Âu. Với rất nhiều người dùng, nó thực hiện một số lượng lớn các thử nghiệm A / B cùng một lúc để cung cấp trải nghiệm tốt nhất cho người dùng. Điều này làm cho Vinted một môi trường lý tưởng để đánh giá hiệu quả của các thử nghiệm an toàn. Trong phần này, chúng tôi áp dụng thử nghiệm t an toàn và các thử nghiệm tỷ lệ an toàn cho dữ liệu thí nghiệm của Vinted. thử nghiệm t an toàn sẽ được so sánh với thử nghiệm t cổ điển để đánh giá kết quả của các thử nghiệm A / B. Ngoài ra, thử nghiệm tỷ lệ an toàn sẽ được so sánh với thử nghiệm χ2 như một phương tiện để phát hiện tỷ 7.1 Thử nghiệm t an toàn cho các bài kiểm tra A / B Các thước đo cho 162 thí nghiệm Vinted từ tháng 3 năm 2023 đến tháng 6 năm 2023 sẽ được đánh giá cho phân tích này. Chúng tôi đã thu thập các hình ảnh tức thời hàng ngày tích lũy của 143 thước đo, chứa trung bình của thước đo, độ lệch chuẩn và kích thước mẫu cho cả hai nhóm kiểm soát và thử nghiệm. Các thí nghiệm với nhiều biến thể được xử lý như các thử nghiệm riêng biệt với cùng một nhóm kiểm soát. thử nghiệm t an toàn và thử nghiệm t cổ điển đã được so sánh trên tất cả các kết hợp thử nghiệm / thước đo 42115 trong tập dữ liệu này. Bảng 7 cho thấy kết quả của các thử nghiệm thống kê ở mức α = 0.05. Các kết quả của Bảng 7 cho thấy rằng thử nghiệm t an toàn và thử nghiệm t cổ điển luôn đạt đến cùng một kết luận về tầm quan trọng của các số liệu. 379 trường hợp trong đó thử nghiệm t an toàn từ chối một H0 mà thử nghiệm t không phù hợp với các mô phỏng cho thấy các thử nghiệm không phải lúc nào cũng đồng ý về những gì tạo thành một kết quả đáng kể. Số lượng lớn 1645 trường hợp trong đó thử nghiệm t từ chối H0 trong khi thử nghiệm t an toàn không quan tâm nhiều hơn. thử nghiệm t an toàn nhạy cảm hơn khi nó quan sát dữ liệu theo thứ tự, mang lại nhiều cơ hội hơn để từ chối H0. Dữ liệu này được tổng hợp trên một mức hàng ngày, điều này làm giảm hiệu quả sức mạnh của thử nghiệm. Với dữ liệu chi tiết hơn, thử nghiệm t an toàn sẽ phát hiện nhiều tác động hơn trong thiết lập Các thử nghiệm tỷ lệ xác suất chuỗi hỗn hợp (mSPRT) được thực hiện trên cùng một tập hợp các thí nghiệm. kết quả có thể được tìm thấy trong Bảng 8. So sánh kết quả của Bảng 8 với Bảng 7 cho thấy mSPRT thấp hơn đáng kể Mặc dù điều này là một phần do thiết lập chuỗi nhóm, kết quả mô phỏng của chúng tôi cho thấy rằng mSPRT chỉ đơn giản là một thử nghiệm thống kê ít nhạy cảm hơn so với thử nghiệm t an toàn. Quay trở lại kết quả thử nghiệm t an toàn, chúng tôi thấy rằng thử nghiệm t an toàn thực hiện tốt hơn đáng kể trên một số thước đo so với những thước đo khác. Ở đây, chúng tôi sẽ phân tích thêm các thước đo để hiểu tại sao điều này xảy ra. Để định lượng hiệu suất của thử nghiệm t an toàn trên một thước đo, chúng tôi sử dụng tỷ lệ phi để so sánh các quyết định của nó với thử nghiệm t cổ điển. tỷ lệ phi, còn được gọi là tỷ lệ tương quan của Matthews, được sử dụng để xác định sự tương quan của các biến số nhị phân. Để hiểu mục đích của mỗi thước đo, có một mô tả văn bản về trường hợp sử dụng của nó trong khuôn khổ thử nghiệm A / B của Vinted. Một tóm tắt của các chủ đề trong mô tả có thể được trích xuất với Late Dirichlet Allocation. Trong phần giới thiệu về thử nghiệm A/B, người ta đã đề cập rằng một số chỉ số mất nhiều thời gian hơn để thực hiện. Điều này có nghĩa là dữ liệu sẽ không độc lập và phân phối giống hệt nhau trong các ngày thử nghiệm. Khi xem xét Bảng 9, chúng ta thấy mối tương quan cao giữa hiệu suất của thử nghiệm t an toàn và thử nghiệm t cổ điển trên các chỉ số liên quan đến tìm kiếm, phiên và ấn tượng. Đây là tất cả các số lượng có thời gian ngắn giữa tiếp xúc với thử nghiệm và thực hiện chỉ số. Ngược lại, thử nghiệm t an toàn không hoạt động tốt trên các chỉ số dài hạn liên quan đến giao dịch và hủy đơn đặt hàng. Cùng nhau, những kết quả này cho thấy thử nghiệm t an toàn sẽ hoạt động tối ưu trên các chỉ số mà kết quả có sẵn ngay lập tức. 7.2 Thử nghiệm tỷ lệ an toàn cho tỷ lệ mẫu không phù hợp Để xác định hiệu quả của bài kiểm tra tỷ lệ an toàn và bài kiểm tra χ2 trong việc phát hiện sự không phù hợp tỷ lệ mẫu (SRM), phân phối của 195 thí nghiệm từ Vinted được phân tích. bài kiểm tra an toàn được áp dụng cho các ảnh chụp ban ngày của các phân phối, trong khi bài kiểm tra χ2 được áp dụng cho phân phối vào ngày cuối cùng của thí nghiệm. Đối với SRM, một mức độ ý nghĩa của α = 0.01 được sử dụng để hạn chế số lượng dương tính giả. Giá trị beta trước của α1, β1 = 1000 được sử dụng cho bài kiểm tra tỷ lệ an toàn. So sánh kết quả giữa bài kiểm tra tỷ lệ an toàn và bài kiểm tra χ 2 có thể được xem trong Bảng 10. Tác giả : người hâm mộ lựa chọn: Daniel Beasley Author: người hâm mộ lựa chọn: Daniel Beasley Tài liệu này được lưu trữ dưới giấy phép ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Tài liệu này được lưu trữ dưới giấy phép ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Có sẵn trong Archive