วัตถุประสงค์ของหลักสูตรนี้จะถูกนํามาใช้เพื่อให้แน่ใจว่าคุณจะได้รับผลตอบแทนจากหลักสูตรนี้โดยเฉพาะอย่างยิ่งในกรณีที่คุณจะได้รับผลตอบแทนจากหลักสูตรนี้โดยเฉพาะอย่างยิ่งในกรณีที่คุณจะได้รับผลตอบแทนจากหลักสูตรนี้โดยเฉพาะอย่างยิ่งในกรณีที่คุณได้รับผลตอบแทนจากหลักสูตรนี้โดยเฉพาะอย่างยิ่งในกรณีที่คุณได้รับผลตอบแทนจากหลักสูตรนี้โดยเฉพาะอย่างยิ่งในกรณีที่คุณได้รับผลตอบแทนจากหลักสูตรนี้โดยเฉพาะอย่างยิ่งในกรณีที่คุณได้รับผลตอบแทนจากหลักสูตรนี้โดยเฉพาะอย่างยิ่งในกรณีที่คุณได้รับผลตอบแทนจากหลักสูตรนี้โดยเฉพาะอย่างยิ่งในกรณีที่คุณได้รับผลตอบแทนจากหลักสูตรนี้ ผู้เขียน: (1) Mårten Schultzberg, Experimentation Platform team, Spotify, Stockholm, Sweden; (2) Sebastian Ankargren, Experimentation Platform team, Spotify, Stockholm, Sweden; (3) Mattias Frånberg, Experimentation Platform team, Spotify, Stockholm, Sweden. ผู้เขียน: ผู้เขียน: (1) Mårten Schultzberg, ทีมแพลตฟอร์มการทดลอง, Spotify, Stockholm, Sweden; (2) Sebastian Ankargren, ทีมแพลตฟอร์มการทดลอง, Spotify, Stockholm, Sweden; (3) Mattias Frånberg, ทีมแพลตฟอร์มการทดลอง, Spotify, Stockholm, Sweden. ตารางของลิงค์ Abstract และ 1 บทนํา Abstract และ 1 บทนํา 1.1 จิตวิทยาที่เกี่ยวข้อง 1.1 หนังสือเล่มที่เกี่ยวข้อง ประเภทของเครื่องวัดและ hypothesis ของพวกเขาและ 2.1 ประเภทของเครื่องวัด 2.2 ประเภทของเครื่องวัด ประเภทของเครื่องวัดและ hypothesis ของพวกเขาและ 2.1 ประเภทของเครื่องวัด ประเภทของเครื่องวัดและ hypothesis ของพวกเขาและ 2.1 ประเภทของเครื่องวัด 2.2 ความคิดสําหรับประเภทที่แตกต่างกันของการวัด 2.2 ความคิดสําหรับประเภทที่แตกต่างกันของวัด ในช่วงทศวรรษที่ผ่านมาการทดสอบ A / B ได้กลายเป็นวิธีการมาตรฐานสําหรับการตัดสินใจผลิตภัณฑ์ใน บริษัท เทคโนโลยี พวกเขามีวิธีการทางวิทยาศาสตร์ในการพัฒนาผลิตภัณฑ์โดยใช้การทดสอบ hypothesis สถิติเพื่อควบคุมความเสี่ยงของการตัดสินใจที่ไม่ถูกต้อง โดยปกติแล้วการวัดหลายตัวจะใช้ในการทดสอบ A / B เพื่อให้บริการวัตถุประสงค์ที่แตกต่างกันเช่นการสร้างหลักฐานความสําเร็จป้องกันการล้มเหลวหรือการตรวจสอบความถูกต้องของการทดสอบ เพื่อลดความเสี่ยงในการทดสอบ A / B ที่มีผลลัพธ์หลายตัวจึงเป็นสิ่งสําคัญที่จะปรับการออกแบบและการวิเคราะห์ให้เข้ากับบทบาทที่แตกต่างกันของผลลัพธ์เหล่านี้ กระดาษนี้แนะนําโครงสร้างพื้นฐานทางทฤษฎีสําหรับกฎการตัดสินใจที่แนะนําการประเมินการทดสอบที่ Spotify ครั้งแรกเราแสดงให้เห็นว่าถ้ามีการใช้วัดการป้องกันที่มีการทดสอบ ประเภท I และประเภท II อัตราข้อผิดพลาดสําหรับกฎการตัดสินใจรวมถึงการทดสอบความเหนือกว่าและไม่เหนือกว่า 3.1 ประเภท I และ II อัตราข้อผิดพลาดสําหรับการทดสอบ UI และ IU อัตราข้อผิดพลาดประเภท I และประเภท II สําหรับกฎการตัดสินใจรวมถึงการทดสอบความเหนือกว่าและไม่เหนือกว่า อัตราข้อผิดพลาดประเภท I และประเภท II สําหรับกฎการตัดสินใจรวมถึงการทดสอบความเหนือกว่าและไม่เหนือกว่า 3.1 การทดสอบความเหนือกว่าและไม่เหนือกว่า 3.1 การทดสอบความเหนือกว่าและ non-inferiority 3.2 การ จํากัด อัตราข้อผิดพลาดประเภท I และประเภท II สําหรับการทดสอบ UI และ IU 3.2 การ จํากัด อัตราข้อผิดพลาดประเภท I และประเภท II สําหรับการทดสอบ UI และ IU 3.3 การ จํากัด อัตราความผิดพลาดสําหรับกฎการตัดสินใจรวมทั้งการประสบความสําเร็จและวัดการป้องกัน 3.3 การ จํากัด อัตราข้อผิดพลาดสําหรับกฎการตัดสินใจรวมทั้งการประสบความสําเร็จและการวัดการป้องกัน 3.4 แก้ไขพลังงานสําหรับการทดสอบไม่ต่ําสุด 3.4 แก้ไขพลังงานสําหรับการทดสอบไม่ต่ําสุด ขยายกฎการตัดสินใจด้วยความเสียหายและมาตรฐานคุณภาพ ขยายกฎการตัดสินใจด้วยความเสียหายและมาตรฐานคุณภาพ ขยายกฎการตัดสินใจด้วยความเสียหายและมาตรฐานคุณภาพ Monte Carlo Simulation Study 5.1 ผล การศึกษาการจําลอง Monte Carlo Monte Carlo Simulation Study 5.1 ผล 5.1 ผลลัพธ์ การสนทนาและข้อสรุป คําพูดและข้อสรุป การสนทนาและข้อสรุป APPENDIX A: ปรับปรุงประสิทธิภาพของข้อเสนอ 4.1 ด้วยข้อสงสัยเพิ่มเติม APPENDIX A: APPENDIX A: ปรับปรุงประสิทธิภาพของข้อเสนอ 4.1 พร้อมข้อสงสัยเพิ่มเติม APPENDIX B: ตัวอย่างของ Global FALSE และ TRUE POSITIVE RATES APPENDIX B: APPENDIX B: ตัวอย่างของข้อผิดพลาดทั่วโลกและข้อดีจริง APPENDIX C: หมายเหตุเกี่ยวกับการทดสอบความเสียหายต่อเนื่อง APPENDIX C: APPENDIX C: หมายเหตุเกี่ยวกับการทดสอบความเสียหายต่อเนื่อง APPENDIX D: ใช้วิธีการ NYHOLT ของมีประสิทธิภาพจํานวนของการทดสอบอิสระ APPENDIX D: APPENDIX D: การใช้วิธีการ NYHOLT ของจํานวนการทดสอบที่เป็นอิสระที่มีประสิทธิภาพ การรับรองและการอ้างอิง การรับรองและการอ้างอิง abstract 1 บทนํา การทดลองแบบสุ่มเป็นมาตรฐานทองคําในการให้หลักฐานเกี่ยวกับความสัมพันธ์ทางสาเหตุ บริษัท เทคโนโลยีที่ทันสมัยใช้การทดสอบ A / B, การทดลองแบบสุ่มควบคุมในสภาพแวดล้อมดิจิตอล, เพื่อประเมินประสิทธิภาพของการเปลี่ยนแปลงใหม่ให้กับผลิตภัณฑ์ของพวกเขา ผลิตภัณฑ์เหล่านี้รวมถึงแอปการแชร์การเดินทางเครื่องมือค้นหาบริการสตรีมมิ่งคําแนะนําและอื่น ๆ ในที่สุดเป้าหมายของการทดลองเหล่านี้คือการตัดสินใจว่าควรเปิดเผยการเปลี่ยนแปลงผลิตภัณฑ์ได้หรือไม่ ส่วนใหญ่ของคณิตศาสตร์เกี่ยวกับการสรุปสถิติสําหรับการทดลองแบบสุ่มมุ่งเน้นไปที่การทดสอบ hypothesis เดียวของผลลัพธ์เดียวและวิธีการเชื่อมโยงอัตราข้อผิดพลาดประเภท I และประเภท II สําหรับการทดสอบนั้น อย่างไรก็ตามการทดลองไม่ได้เป็นการทดสอบแบบสุ่มของผลลัพธ์ที่แยกต่างหาก แทนที่ความเสี่ยงที่สําคัญคือความเสี่ยงของการตัดสินใจที่ไม่ถูกต้องสําหรับผลิตภัณฑ์ ตัวอย่างเช่นใน บริษัท เทคโนโลยีเช่น Spotify เราต้องการ จํากัด บ่อยครั้งที่เราเผยแพร่การเปลี่ยนแปลงผลิตภัณฑ์ที่แสดงให้เห็นถึงการปรับปรุงเมื่อไม่มีการปรับปรุงและบ่อยครั้งที่เราไม่เผยแพร่การเปลี่ยนแปลงที่นําไปสู่การปรับปรุง แต่เราไม่สามารถหา การตัดสินใจประเภทเหล่านี้มักรวมถึงผลลัพธ์จากการทดสอบ hypothesis หลายอย่าง การทดลองมักเกี่ยวข้อง ในวรรณกรรมการทดลองออนไลน์แง่มุมเดียวของการตัดสินใจหลายทดสอบที่ครอบคลุมอย่างกว้างขวางคือการแก้ไขการทดสอบหลายตัว การแก้ไขการทดสอบหลายตัวเช่น Bonferroni, Holm [7] และ Hommel [8] มีข้อ จํากัด อัตราความผิดพลาดประเภท I ของกฎการตัดสินใจแบบอ้างอิงที่ประกาศว่าคุณจะตัดสินใจตามผลการทดสอบ hypothesis ส่วนบุคคล ดังที่เราจะกล่าวถึงอย่างกว้างขวางในบทความนี้หากกฎการตัดสินใจที่คุณต้องการไม่ตรงกับกฎที่อ้างอิงโดยการแก้ไขการทดสอบหลายตัวก็มักจะไม่ถูกต้อง ในบทความนี้เราแสดงให้เห็นว่ามันเป็นไปได้ที่จะจัดระเบียบกระบวนการตัดสินใจของการทดลองโดยไม่ต้องออกจากกรอบการทดสอบ hypothesis มาตรฐาน คีย์เพื่อให้แน่ใจว่าคุณได้รับขีด จํากัด ความเสี่ยงที่ต้องการสําหรับการตัดสินใจผลิตภัณฑ์คือการระบุกฎการตัดสินใจอย่างชัดเจน กฎการตัดสินใจกําหนดอย่างเต็มที่ว่าคุณจะตัดสินใจผลิตภัณฑ์ใดขึ้นอยู่กับผลการทดลองของคุณ สิ่งสําคัญคือเพื่อเชื่อมโยงความเสี่ยงของการตัดสินใจผิดการออกแบบและการวิเคราะห์การทดลองของคุณต้องตรงกับกฎการตัดสินใจอย่างใกล้ชิด การอธิบายกฎการตัดสินใจมีความสําคัญเนื่องจากหลายเหตุผล การไม่ชัดเจนเกี่ยวกับผลลัพธ์ใดที่นําไปสู่การตัดสินใจผลิตภัณฑ์เชิงบวกหมายความว่าไม่มีกลไกในการควบคุมความเสี่ยงของการทดลองอย่างถูกต้องในระดับที่สําคัญกับ บริษัท คือการตัดสินใจที่จะส่งคุณลักษณะหรือไม่ นอกจากนี้การขาดกฎการตัดสินใจที่อธิบายและมาตรฐานอาจหมายความว่าทีมงานหรือส่วนต่าง ๆ ขององค์กรจะยึดมั่นในมาตรฐานที่แตกต่างกัน กรอบกฎการตัดสินใจของเราเป็นวิธีการที่เรียบง่าย แต่มีประสิทธิภาพในการต่อสู้กับปัญหาเหล่านี้ กรอบกฎการตัดสินใจช่วยมาตรฐานการวิเคราะห์การทดลองและเป็นเครื่องมือที่มีประโยชน์สําหรับแพลตฟอร์มการทดลอง สิ่งที่กฎการตัดสินใจรวมสามารถทําให้มีความยืดหยุ่นมากขึ้นหรือน้อยลง ตัวอย่างเช่นการทดลองใหม่สามารถบังคับให้พิสูจน์ให้เห็นว่าเมตริกของ บริษัท ที่สําคัญไม่ได้รับผลกระทบเชิงลบในขณะที่เลือกชุดของเมตริกที่ควรแสดงให้เห็นถึงการปรับปรุงนั้นขึ้นอยู่กับผู้ทดลอง แม้ว่าการเลือกเมตริกจะผิดปกติอย่างสมบูรณ์โดยไม่มีเมตริกที่กําหนดโดยแพลตฟอร์มวิธีการกฎการตัดสินใจจะส่งเสริมความเข้าใจร่วมกันเกี่ยวกับสิ่งที่เป็นการทดลองที่ประสบความสําเร็จ ตลอดกระดาษนี้และโดยไม่ต้องสูญเสียความสม่ําเสมอเราจะพิจารณาการทดลองที่มีสองกลุ่มเพื่อความง่ายดายในการหมายเลข นอกจากนี้เรายังพิจารณาการทดลองแบบหนึ่งด้านเท่านั้น แม้ว่าการทดลองแบบหนึ่งด้านอาจใช้กับแต่ละเมตริก เรา จํากัด ตัวเราเองให้การทดลองแบบหนึ่งด้านเนื่องจากต้องมีทิศทางที่ต้องการสําหรับการเปลี่ยนแปลงในเมตริกเพื่อให้สามารถวัดการปรับปรุงผลิตภัณฑ์ได้ สําหรับความง่ายดายเราคิดว่าเมตริกทั้งหมดจะปรับปรุงเมื่อเพิ่มขึ้น นอกจากนี้เรายังพิจารณาว่าการทดสอบการคาดการณ์ทางสถิติแต่ละแบบมีผลบังคับและบรรลุอัตราความผิดพลาดประเภท I และประเภท II โดยเฉพาะอย่างยิ่งหากการทดลองได้รับการออกแบบอย่างเหมาะสม บทความนี้เป็น ภายใต้ใบอนุญาต CC BY 4.0 DEED สามารถใช้ได้ใน arxiv บทความนี้เป็น ภายใต้ใบอนุญาต CC BY 4.0 DEED สามารถใช้ได้ใน arxiv สามารถใช้ได้ใน arxiv สามารถใช้ได้ใน arxiv