ຕາຕະລາງ Links Introduction Hypothesis testing 2.1 Introduction 2.2 Bayesian statistics 2.3 Test martingales 2.4 p-values 2.5 Optional Stopping and Peeking 2.6 Combining p-values and Optional Continuation 2.7 A/B testing Safe Tests 3.1 Introduction 3.2 Classical t-test 3.3 Safe t-test 3.4 χ2 -test 3.5 Safe Proportion Test Safe Testing Simulations 4.1 Introduction and 4.2 Python Implementation 4.3 Comparing the t-test with the Safe t-test 4.4 Comparing the χ2 -test with the safe proportion test Mixture sequential probability ratio test 5.1 Sequential Testing 5.2 Mixture SPRT 5.3 mSPRT and the safe t-test Online Controlled Experiments 6.1 Safe t-test on OCE datasets Vinted A/B tests and 7.1 Safe t-test for Vinted A/B tests 7.2 Safe proportion test for sample ratio mismatch Conclusion and References 4 ການທົດສອບຄວາມປອດໄພ Simulations 4.1 ການນໍາສະເຫນີ ໃນພາກສ່ວນນີ້, ພວກເຮົາຕັດສິນໃຈກັບການທົດສອບ t ປະຫວັດສາດກັບການທົດສອບ t ປະຫວັດສາດ, ແລະການທົດສອບ χ2 ກັບການທົດສອບປະຫວັດສາດທີ່ປະຫວັດສາດ. ການທົດສອບທີ່ປະຫວັດສາດສໍາລັບການທົດສອບປະຫວັດສາດທີ່ປະຫວັດສາດໄດ້ຖືກພັດທະນາໃນ R [LTT20]. ມີຈຸດປະສົງຂອງການນໍາໃຊ້ເພີ່ມເຕີມໃນພາກສະຫນາມຂອງວິທະຍາສາດຂໍ້ມູນ, ພວກເຮົາມີຄໍາຮ້ອງສະຫມັກສໍາລັບການທົດສອບປະຫວັດສາດທີ່ປະຫວັດສາດແລະການທົດສອບປະຫວັດສາດທີ່ປະຫວັດສາດໃນ Python. 4.2 ການນໍາໃຊ້ Python ໃນຂະນະທີ່ສອບເສັງຂອງການທົດສອບ t ທີ່ປອດໄພແມ່ນບໍ່ມີຕົວຢ່າງ, ມີຈໍານວນຫຼາຍຂອງຄວາມບໍ່ມີປະສິດທິພາບໃນລະຫັດເລີ່ມຕົ້ນທີ່ຈໍາເປັນຕ້ອງໄດ້ຮັບການປິ່ນປົວເພື່ອເຮັດວຽກກັບຂະຫນາດຕົວຢ່າງຂະຫນາດໃຫຍ່. ການປັບປຸງແມ່ນລາຍລະອຽດນີ້. ການປັບປຸງທໍາອິດແມ່ນໃນການຄົ້ນຄວ້າຂະຫນາດຕົວຢ່າງທີ່ຕ້ອງການສໍາລັບການປິ່ນປົວ batch ຂອງຂໍ້ມູນ. ລະບົບທີ່ເລີ່ມຕົ້ນໄດ້ປະຕິບັດການຊອກຫາ linear ຈາກ 1 ກັບຂະຫນາດຂະຫນາດຂະຫນາດຂະຫນາດຂະຫນາດຂະຫນາດຂະຫນາດຂະຫນາດຂະຫນາດຂະຫນາດຂະຫນາດຂະຫນາດຂະຫນາດຂະຫນາດຂະຫນາດຂະຫນາດຂະຫນາດຂະຫນາດຂະຫນາດຂະຫນາດຂະຫນາດຂະຫນາດຂະຫນາດຂະຫນາດຂະຫນາດຂະຫນາດຂະຫນາດຂະຫນາດຂະຫນາດຂະຫນາດຂະຫນາດຂະຫນາດຂະຫນາດຂະຫນາດຂະຫນາດຂະຫນາດຂະຫນາດຂະຫນາດຂະຫນາດຂະຫນາດຂະຫນາດຂະຫນາດຂະຫນາດຂະຫນາດຂະຫນາດຂະຫນາດຂະຫນາດຂະຫນາດຂະຫນາດຂະຫນາດ ການປັບປຸງຄວາມໄວທີ່ຜ່ານມາທີ່ຈໍາເປັນແມ່ນການຄາດຄະເນເວລາການປິ່ນປົວສໍາລັບພະລັງງານຂອງ 1 − β. ນີ້ແມ່ນຖືກຄາດຄະເນໂດຍການ simulation ຂອງຂໍ້ມູນທີ່ແຕກຕ່າງກັນໂດຍຂະຫນາດຜົນປະໂຫຍດຕ່ໍາ. ໃນໄລຍະການ simulation N, ຂໍ້ມູນຈາກຂະຫນາດ m ແມ່ນຖືກຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂັບຂ ການປ່ຽນແປງທີ່ຜ່ານມາແມ່ນບໍ່ແມ່ນໃນການຕັດສິນໃຈຂອງການຄອມພິວເຕີ, ແຕ່ໃນການປັບປຸງຄວາມສາມາດຂອງການທົດສອບປະເພດປອດໄພ. ການທົດສອບນີ້ໄດ້ຖືກຂຽນໃນ R ເປັນການທົດສອບປະເພດສອງທີ່ມີຂະຫນາດ batch ສະຫນັບສະຫນູນ. ສໍາລັບກໍລະນີການນໍາໃຊ້ຂອງພວກເຮົາ, ການທົດສອບປະເພດຫນຶ່ງທີ່ມີຂະຫນາດ batch ສະຫນັບສະຫນູນທີ່ແຕກຕ່າງກັນໄດ້ຖືກຕ້ອງເພື່ອທົດສອບປະເພດ mismatch, ແລະໄດ້ຖືກພັດທະນາສໍາລັບບັນຊີ Python. ຊື່ຫຍໍ້ຂອງ : Compare the t test with the Safe t test ວິທີການຢ່າງງ່າຍດາຍທີ່ສຸດທີ່ຈະຮູ້ສຶກການທົດສອບ t ທີ່ປອດໄພແມ່ນການຕັດສິນໃຈກັບອຸປະກອນທີ່ແຕກຕ່າງກັນ. ພວກເຮົາມີການທົດສອບຂະຫນາດປະສິດທິພາບ δ ແລະ hypothesis null H0 : δ = 0. ການຕັ້ງຄ່າລະດັບຄວາມສໍາຄັນ α = 0.05 ພວກເຮົາສາມາດທົດສອບຂະຫນາດປະສິດທິພາບ δ ໃນລະຫວ່າງສອງກຸ່ມເພື່ອຊອກຫາເວລາທີ່ການທົດສອບແມ່ນຕັດສິນໃຈ. ຖ້າຫາກວ່າ E-value simulated ແມ່ນຕັດສິນໃຈ 1/α = 20, ການທົດສອບແມ່ນຕັດສິນໃຈກັບ H0 ໄດ້ຕັດສິນໃຈ. ຖ້າຫາກວ່າບໍ່ມີປະສິດທິພາບແມ່ນຕັດສິນໃຈ, ການທົດສອບແມ່ນຕັດສິນໃຈກັບພະລັງງານຂອງ 1 − β = 0.8, ໃນຂະນະທີ່ ໃນຂະນະທີ່ການທົດສອບ t ປະຫວັດສາດຕ້ອງການຫຼາຍກ່ວາ 600,000, ໃນຂະນະທີ່ການທົດສອບ t ປະຫວັດສາດຕ້ອງການຫຼາຍກ່ວາ 500,000 sample, ໃນຂະນະທີ່ການທົດສອບ t ປະຫວັດສາດຕ້ອງການຫຼາຍກ່ວາ 600,000, ໃນຂະນະທີ່ການທົດສອບ t ປະຫວັດສາດໃຊ້ເວລາການທົດສອບ t ປະຫວັດສາດມີຫຼາຍກ່ວາຫຼາຍກ່ວາຫຼາຍກ່ວາ 500,000 sample, ໃນຂະນະທີ່ການທົດສອບ t ປະຫວັດສາດຕ້ອງການຫຼາຍກ່ວາ 600,000. ຢ່າງໃດກໍຕາມ, ຂະຫນາດຂອງ sample ປະຫວັດສາດທີ່ຈໍາເປັນຕ້ອງເຂົ້າເຖິງ 1 − β ພະລັງງານສໍາລັບການທົດສອບ t ປະຫວັດສາດແມ່ນຫຼາຍກ່ວາ 850,000, ຫຼາຍກ່ວາການທົດສອບ t ປະຫວັດສາດ. ທ່ານສາມາດ ນອກເຫນືອໄປຈາກລັກສະນະທັງຫມົດຂອງການທົດສອບທັງສອງ, ມັນເປັນທີ່ຫນ້າສົນໃຈທີ່ຈະກວດສອບການທົດສອບທີ່ທົດສອບ t ປະຫວັດສາດແລະການທົດສອບ t ປະຫວັດສາດບໍ່ໄດ້ຕັດສິນໃຈ. ເຊັ່ນດຽວກັນກັບຮູບພາບ 4 (ຈິງ), ໃນຂະນະທີ່ທັງສອງທົດສອບມີປະມານ 80% ພະລັງງານ, ພວກເຂົາເຈົ້າເຮັດໄດ້ຢ່າງງ່າຍດາຍທີ່ແຕກຕ່າງກັນ. ການ simulations ຫຼາຍທີ່ທົດສອບ t ປະຫວັດສາດໄດ້ຕັດສິນໃຈ H0 ໄດ້ຖືກຕັດສິນໃຈໂດຍການທົດສອບ t ປະຫວັດສາດ, ແລະອື່ນໆ. ການຕັດສິນໃຈນີ້ໃນຜົນປະໂຫຍດຈະເປັນປະໂຫຍດທີ່ຈະ internalized ສໍາລັບຜູ້ຊ່ຽວຊານທີ່ຊອກຫາ ການທົດສອບ t ຈະເປັນສະພາບແວດລ້ອມທີ່ແທ້ຈິງສໍາລັບສະຖານທີ່ຂອງເຂົາເຈົ້າ. ໃນຂະນະທີ່ Figure 3 evaluates ໄລຍະເວລາການປິ່ນປົວຄວາມປອດໄພສໍາລັບຂະຫນາດຜົນປະໂຫຍດທີ່ຖືກຕ້ອງ, ມັນເປັນສິ່ງທີ່ສໍາຄັນທີ່ຈະກວດສອບຜົນປະໂຫຍດສໍາລັບຂະຫນາດຜົນປະໂຫຍດຂະຫນາດໃຫຍ່. ເພື່ອກວດສອບຜົນປະໂຫຍດຂອງຂະຫນາດຜົນປະໂຫຍດຈາກ 0.01 ກັບ 0.3, ພວກເຮົາ normalizes ໄລຍະເວລາການປິ່ນປົວໂດຍໃຊ້ເວລາການປິ່ນປົວການທົດສອບ t. ຜົນປະໂຫຍດຂອງການທົດສອບນີ້ສາມາດເບິ່ງໃນ Figure 5. ຮູບພາບ ສໍາ ລັບ ຮູບພາບ ສໍາ ລັບ ຮູບພາບ ສໍາ ລັບ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ ສະ ຫນູນ 4.4 ການຕັດສິນໃຈຂອງ χ2 -test ກັບການທົດສອບປະເພດປອດໄພ ການທົດສອບຄວາມປອດໄພໄດ້ນໍາໃຊ້ຕົວຢ່າງຕ່ໍາກວ່າ, ໃນປະຈຸບັນ, ຫຼາຍກ່ວາການທົດສອບຄວາມປອດໄພ, ໃນປັດຈຸບັນ. ການທົດສອບຄວາມປອດໄພໄດ້ນໍາໃຊ້ຕົວຢ່າງຕ່ໍາກວ່າ, ໃນປັດຈຸບັນ, ຫຼາຍກ່ວາການທົດສອບຄວາມປອດໄພ, ໃນປັດຈຸບັນ, ການທົດສອບຄວາມປອດໄພແລະການທົດສອບຄວາມປອດໄພໄດ້ຖືກນໍາໃຊ້ໂດຍຜ່ານການທົດສອບຄວາມປອດໄພ. ໃນຖານະເປັນເອກະສານທີ່ກ່ຽວຂ້ອງກັບຜູ້ຊ່ຽວຊານຂອງຜູ້ຊ່ຽວຊານ, ຜູ້ຊ່ຽວຊານທີ່ກ່ຽວຂ້ອງກັບຜູ້ຊ່ຽວຊານທີ່ກ່ຽວຂ້ອງກັບຜູ້ຊ່ຽວຊານທີ່ກ່ຽວຂ້ອງກັບຜູ້ຊ່ຽວຊານທີ່ກ່ຽວຂ້ອງກັບຜູ້ຊ່ຽວຊານທີ່ກ່ຽວຂ້ອງກັບຜູ້ຊ່ຽວຊານທີ່ກ່ຽວຂ້ອງກັບຜູ້ຊ່ຽວຊານທີ່ກ່ຽວຂ້ອງກັບຜູ້ຊ່ຽວຊານທີ່ກ່ຽວຂ້ອງກັບຜູ້ຊ່ຽວຊານທີ່ກ່ຽວຂ້ອງກັບຜູ້ຊ່ຽວຊານທີ່ກ່ຽວຂ້ອງ. ໃນພາກສ່ວນນີ້, ພວກເຮົາມີການຕັດສິນໃຈກັບການທົດສອບ t ທີ່ປອດໄພແລະການທົດສອບປະເພດທີ່ປອດໄພກັບຄໍາຮ້ອງສະຫມັກປະເພດປະເພດປະເພດປະເພດປະເພດປະເພດປະເພດປະເພດປະເພດປະເພດປະເພດປະເພດປະເພດປະເພດປະເພດປະເພດປະເພດປະເພດປະເພດປະເພດປະເພດປະເພດປະເພດປະເພດປະເພດປະເພດປະເພດປະເພດປະເພດປະເພດປະເພດປະເພດປະເພດປະເພດປະເພດປະເພດປະເພດປະເພດປະເພດປະເພດປະເພດປະເພດປະເພດປະເພດປະເພດປະເພດປະເພດປະເພດປະເພດປະເພດປະເພດ ຊື່ຂອງ : ຊື່ຫຍໍ້ຂອງ : Daniel Beasley Author: ຊື່ຫຍໍ້ຂອງ : Daniel Beasley ເອກະສານນີ້ແມ່ນສາມາດເຂົ້າເຖິງໃນ archiv under ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL License. ເອກະສານນີ້ແມ່ນ ການອັບໂຫລດ ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 International ສະຫນັບສະຫນູນໃນ Archives ສະຫນັບສະຫນູນໃນ Archives