ผู้เขียน : แดเนียลเบสลีย์ Author: แดเนียลเบสลีย์ ตารางด้านซ้าย Introduction Hypothesis testing 2.1 Introduction 2.2 Bayesian statistics 2.3 Test martingales 2.4 p-values 2.5 Optional Stopping and Peeking 2.6 Combining p-values and Optional Continuation 2.7 A/B testing Safe Tests 3.1 Introduction 3.2 Classical t-test 3.3 Safe t-test 3.4 χ2 -test 3.5 Safe Proportion Test Safe Testing Simulations 4.1 Introduction and 4.2 Python Implementation 4.3 Comparing the t-test with the Safe t-test 4.4 Comparing the χ2 -test with the safe proportion test Mixture sequential probability ratio test 5.1 Sequential Testing 5.2 Mixture SPRT 5.3 mSPRT and the safe t-test Online Controlled Experiments 6.1 Safe t-test on OCE datasets Vinted A/B tests and 7.1 Safe t-test for Vinted A/B tests 7.2 Safe proportion test for sample ratio mismatch Conclusion and References 1 บทนํา การทดลองควบคุมแบบสุ่ม (RCTs) เป็นมาตรฐานทองคําสําหรับการสรุปความสัมพันธ์ทางสาเหตุระหว่างการรักษาและผลกระทบ พวกเขาถูกนํามาใช้กันอย่างแพร่หลายโดยนักวิทยาศาสตร์เพื่อลึกซึ้งความเข้าใจเกี่ยวกับทักษะของพวกเขา ในช่วงสองทศวรรษที่ผ่านมาพวกเขายังพบการประยุกต์ใช้ในผลิตภัณฑ์ดิจิตอลภายใต้ชื่อการทดสอบ A / B การทดสอบ A / B เป็น RCT ง่ายเพื่อเปรียบเทียบผลกระทบของการรักษา (กลุ่ม B) กับการควบคุม (กลุ่ม A) ทั้งสองกลุ่มจะเปรียบเทียบกับการทดสอบสถิติที่ใช้ในการตัดสินใจเกี่ยวกับผลกระทบ การทดสอบสถิติเกือบทั้งหมดสําหรับการทดสอบ A / B ขึ้นอยู่กับการทดสอบแนวนอนคงที่ การตั้งค่าการทดสอบนี้เกี่ยวข้องกับการกําหนดจํานวนผู้ใช้ที่จําเป็นสําหรับการทดสอบการเก็บรวบรวมข้อมูลและในที่สุดการวิเคราะห์ผลการทดสอบ อย่างไรก็ตามวิธีการทดสอบนี้ไม่สอดคล้องกับความสามารถในเวลาจริงของโครงสร้างพื้นฐานข้อมูลที่ทันสมัยและความปรารถนาของผู้ทดสอบในการตัดสินใจอย่างรวดเร็ว วิธีการสถิติที่พัฒนาใหม่ช่วยให้ผู้ทดสอบสามารถทดสอบแนวนอนคงที่และวิเคราะห์ผลการทดสอบได้ตลอดเวลา การสรุปที่ถูกต้องตลอดเวลา (AVI) นี้สามารถนําไปสู่การใช้ทรัพยากรการทดสอบที่มีประสิทธิภาพมากขึ้นและผลการทดสอบที่แม่นยํามากขึ้น การทดสอบที่ปลอดภัยเป็นทฤษฎีสถิติใหม่ที่บรรลุเป้าหมายเหล่านี้ ตามที่เราจะเห็นการทดสอบ A / B ที่ปลอดภัยช่วยให้ผู้ทดสอบสามารถตรวจสอบผลการทดสอบของพวกเขาอย่างต่อเนื่องโดยไม่เพิ่มความเสี่ยงในการสรุปผิด นอกจากนี้เราจะเห็นว่ามันต้องใช้ข้อมูลน้อยกว่าการทดสอบสถิติมาตรฐานเพื่อให้บรรลุผลเหล่านี้ บริษัท เทคโนโลยีขนาดใหญ่ในขณะนี้มีการสํารวจ AVI ในความจุที่ จํากัด แต่การทดสอบที่ปลอดภัยเหนือกว่าการทดสอบที่มีอยู่ในแง่ของจํานวนตัวอย่างที่จําเป็นในการตรวจจับผลกระทบที่สําคัญ สิ่งนี้อาจนําไปสู่การยอมรับอย่างกว้างขวางของการทดสอบที่ปลอดภัยสําหรับการสรุปผลการทดสอบที่ถูกต้องตลอดเวลา บทเรียนนี้ประกอบด้วย 6 ส่วน ส่วนที่ 2 มีการแนะนําในการทดสอบ hypothesis เช่นเดียวกับแนวคิดทางสถิติอื่น ๆ ที่เกี่ยวข้องกับผู้อ่าน นอกจากนี้ยังอธิบายว่าความไม่ยืดหยุ่นของการทดสอบสถิติคลาสสิกทําให้ผู้ปฏิบัติงานมีปัญหาอย่างไร ส่วนที่ 3 นําเสนอแนวคิดของการทดสอบที่ปลอดภัย นอกจากนี้ยังนําไปสู่สถิติการทดสอบสําหรับทดสอบ t ที่ปลอดภัยและทดสอบอัตราส่วนที่ปลอดภัย ส่วนที่ 4จําลองประสิทธิภาพของสถิติที่ปลอดภัยและเปรียบเทียบกับทางเลือกคลาสสิกของพวกเขา ส่วนที่ 5 เปรียบเทียบการทดสอบ t ที่ปลอดภัยกับทดสอบอื่น ๆ ที่ได้รับความนิยมตลอดเวลาซึ่งคือการทดสอบอัตราส่วนความน่าเชื่อถือแบบต่อเนื่องของส่วนผสม (mSPRT) ส่วนที่ 6 เปรียบเทียบการทดสอบ t ที่ปลอดภัยและ mSPRT กระดาษนี้สามารถใช้ได้ภายใต้ใบอนุญาต ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL กระดาษนี้เป็น ภายใต้ใบอนุญาต ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 International available on arxiv สามารถใช้ได้ใน Archives