ตารางด้านซ้าย Introduction Hypothesis testing 2.1 Introduction 2.2 Bayesian statistics 2.3 Test martingales 2.4 p-values 2.5 Optional Stopping and Peeking 2.6 Combining p-values and Optional Continuation 2.7 A/B testing Safe Tests 3.1 Introduction 3.2 Classical t-test 3.3 Safe t-test 3.4 χ2 -test 3.5 Safe Proportion Test Safe Testing Simulations 4.1 Introduction and 4.2 Python Implementation 4.3 Comparing the t-test with the Safe t-test 4.4 Comparing the χ2 -test with the safe proportion test Mixture sequential probability ratio test 5.1 Sequential Testing 5.2 Mixture SPRT 5.3 mSPRT and the safe t-test Online Controlled Experiments 6.1 Safe t-test on OCE datasets Vinted A/B tests and 7.1 Safe t-test for Vinted A/B tests 7.2 Safe proportion test for sample ratio mismatch Conclusion and References 7 การทดสอบ A / B Vinted เป็นตลาดออนไลน์สําหรับเสื้อผ้าและอุปกรณ์เสริม ตั้งแต่ก่อตั้งขึ้นในปี 2008 Vinted ได้ได้รับผู้ใช้มากกว่า 75 ล้านคนเพื่อเติบโตอย่างรวดเร็วเป็นตลาดเสื้อผ้าที่ใหญ่ที่สุดในยุโรป ด้วยความอุดมสมบูรณ์ของผู้ใช้จึงทําการทดสอบ A / B จํานวนมากพร้อมกันเพื่อให้ผู้ใช้ได้รับประสบการณ์ที่ดีที่สุด สิ่งนี้ทําให้ Vinted เป็นสภาพแวดล้อมที่เหมาะสําหรับการประเมินประสิทธิภาพของการทดสอบที่ปลอดภัย ในส่วนนี้เราใช้การทดสอบ T-Test ที่ปลอดภัยและการทดสอบอัตราส่วนที่ปลอดภัยกับข้อมูลการทดสอบของ Vinted การทดสอบ T-Test ที่ปลอดภัยจะถูกเปรียบเทียบกับการทดสอบ T-Test คลาสสิกเพื่อประเมินผลการทดสอบ A / B นอกจากนี้การทดสอบอัตราส่วนที่ปลอดภัยจะถูกเปรียบเทียบกับการทดสอบ χ2 เป็นวิธีในการตรวจจับอัตราส่วนผิดพลาดของตัว 7.1 การทดสอบ t ที่ปลอดภัยสําหรับการทดสอบ A / B แบบ Vinted การวัดสําหรับ 162 การทดลอง Vinted จากเดือนมีนาคม 2023 ถึงเดือนมิถุนายน 2023 จะได้รับการประเมินสําหรับการวิเคราะห์นี้ เราได้รวบรวมภาพสปินสปินรายวันรวมของ 143 การวัดซึ่งมีค่าเฉลี่ยการยกเว้นมาตรฐานและขนาดตัวอย่างสําหรับทั้งกลุ่มควบคุมและกลุ่มทดสอบ การทดลองที่มีหลายตัวแปรจะถูกประมวลผลเป็นการทดสอบแยกต่างหากกับกลุ่มควบคุมเดียวกัน การทดสอบ t ที่ปลอดภัยและทดสอบ t คลาสสิกได้รับการเปรียบเทียบระหว่างการทดลอง/การวัดทั้งหมด 42115 ในชุดข้อมูลนี้ ตาราง 7 แสดงผลการทดสอบสถิติที่ระดับ α = 0.05. ผลลัพธ์ของตาราง 7 แสดงให้เห็นว่าการทดสอบ t ที่ปลอดภัยและการทดสอบ t แบบคลาสสิกมาถึงข้อสรุปเดียวกันเกี่ยวกับความสําคัญของเมตริก การทดสอบ t ที่ปลอดภัยปฏิเสธ H0 ที่ทดสอบ t ไม่สอดคล้องกับการจําลองที่แสดงให้เห็นว่าการทดสอบไม่เห็นด้วยกันเสมอเกี่ยวกับผลลัพธ์ที่สําคัญ จํานวนมากของ 1645 กรณีที่การทดสอบ t จะปฏิเสธ H0 ในขณะที่การทดสอบ t ที่ปลอดภัยไม่เกี่ยวข้องมากขึ้น การทดสอบ t ที่ปลอดภัยมีความไวมากขึ้นเมื่อมีการสังเกตข้อมูลตามลําดับให้โอกาสมากขึ้นในการปฏิเสธ H0. ข้อมูลเหล่านี้จะรวมกันในระดับประจําวันซึ่งลดพลังงานของทดสอบอย่างมีประสิทธิภาพ ด้วยข้อมูลรายละเอียดมากขึ้นการทดสอบ t ที่ปลอดภัยจะตรวจจับผลกระทบมากขึ้นกว่าในสภาพแวดล้อมตามลําดับของกลุ่มนี้ การทดสอบอัตราส่วนความน่าเชื่อถือแบบลําดับของส่วนผสม (mSPRT) ถูกดําเนินการในชุดทดลองเดียวกัน ผลลัพธ์สามารถพบได้ในตาราง 8 การเปรียบเทียบผลของตาราง 8 กับตาราง 7 แสดงให้เห็นว่า mSPRT น้อยลงอย่างมีนัยสําคัญ ในขณะที่นี่เป็นส่วนหนึ่งเนื่องจากการตั้งค่าตามลําดับของกลุ่มผลการจําลองของเราแสดงให้เห็นว่า mSPRT เป็นการทดสอบสถิติที่มีความไวน้อยกว่าการทดสอบ t ที่ปลอดภัย กลับไปที่ผลการทดสอบ t ที่ปลอดภัยแล้วพบว่าการทดสอบ t ที่ปลอดภัยทํางานได้ดีขึ้นอย่างมีนัยสําคัญในบางเมตริกกว่าคนอื่น ๆ ที่นี่เราจะวิเคราะห์เมตริกต่อไปเพื่อเข้าใจว่าทําไมจึงเป็นเช่นนี้ เพื่อวัดปริมาณประสิทธิภาพของการทดสอบ t ที่ปลอดภัยในเมตริกเราใช้ coefficient phi เพื่อเปรียบเทียบการตัดสินใจของมันกับ t-test ค่าใช้จ่าย phi ซึ่งเรียกว่า coefficient mathews correlation จะถูกใช้เพื่อกําหนดความสัมพันธ์ของตัวแปรไบนารี เพื่อเข้าใจวัตถุประสงค์ของแต่ละเมตริกมีคําอธิบายในข้อความของกรณีการใช้ภายในกรอบการทดสอบ A / B ของ Vinted การสรุปของหัวข้อในคําอธิบายแต่ละหัวข้อสามารถสกัดได้ด้วย Latent Dirichlet Allocation ละติน Dirichlet Allocation ในคําแนะนําเกี่ยวกับการทดสอบ A / B เราได้กล่าวถึงว่าการวัดบางอย่างใช้เวลานานในการทําความเข้าใจ นั่นหมายความว่าข้อมูลจะไม่ได้แยกต่างหากและกระจายกันอย่างเท่าเทียมกันตลอดทั้งวันของการทดสอบ การตรวจสอบตาราง 9 เราเห็นความสัมพันธ์สูงระหว่างประสิทธิภาพของการทดสอบ t ที่ปลอดภัยและการทดสอบ t คลาสสิกเกี่ยวกับเมตริกที่เกี่ยวข้องกับการค้นหาเซสชั่นและการแสดงผล นี่คือปริมาณทั้งหมดที่มีเวลาสั้นระหว่างการสัมผัสกับการทดสอบและการบรรลุของเมตริก ในทางกลับกันการทดสอบ t ที่ปลอดภัยไม่ทํางานได้ดีกับเมตริกระยะยาวที่เกี่ยวข้องกับการทําธุรกรรมและการยกเลิกการสั่งซื้อ รวมทั้งผลลัพธ์เหล่านี้แสดงให้เห็นว่าการทดสอบ t ที่ปลอดภัยจะทํางานได้ดีที่สุดกับเมตริกที่มีผลลัพธ์พร้อมใช้งานทันที 7.2 การทดสอบอัตราส่วนที่ปลอดภัยสําหรับความผิดปกติของอัตราส่วนตัวอย่าง เพื่อกําหนดประสิทธิภาพของการทดสอบอัตราส่วนที่ปลอดภัยและการทดสอบ χ2 ในการตรวจจับความผิดปกติของอัตราส่วนตัวอย่าง (SRM) การกระจายตัวของ 195 การทดลองจาก Vinted จะถูกวิเคราะห์ การทดสอบความปลอดภัยจะถูกนําไปใช้กับภาพถ่ายในชีวิตประจําวันของการกระจายตัวในขณะที่การทดสอบ χ2 จะถูกนําไปใช้กับการกระจายตัวในวันสุดท้ายของการทดลอง สําหรับ SRM ระดับความสําคัญของ α = 0.01 จะถูกใช้เพื่อ จํากัด จํานวนผลลัพธ์ที่ผิดพลาด ค่าเบต้าก่อนหน้านี้ของ α1, β1 = 1000 จะถูกใช้สําหรับการทดสอบอัตราส่วนที่ปลอดภัย การเปรียบเทียบผลลัพธ์ระหว่างการทดสอบอัตราส่วนที่ปลอดภัยและการทดสอบ χ 2 สามารถดูได้ในตาราง 10 ผู้เขียน : แดเนียลเบสลีย์ Author: แดเนียลเบสลีย์ กระดาษนี้สามารถใช้ได้ภายใต้ใบอนุญาต ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL กระดาษนี้สามารถใช้ได้ภายใต้ใบอนุญาต ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL สามารถใช้ได้ใน Archives