Tabel dari kiri Introduction Hypothesis testing 2.1 Introduction 2.2 Bayesian statistics 2.3 Test martingales 2.4 p-values 2.5 Optional Stopping and Peeking 2.6 Combining p-values and Optional Continuation 2.7 A/B testing Safe Tests 3.1 Introduction 3.2 Classical t-test 3.3 Safe t-test 3.4 χ2 -test 3.5 Safe Proportion Test Safe Testing Simulations 4.1 Introduction and 4.2 Python Implementation 4.3 Comparing the t-test with the Safe t-test 4.4 Comparing the χ2 -test with the safe proportion test Mixture sequential probability ratio test 5.1 Sequential Testing 5.2 Mixture SPRT 5.3 mSPRT and the safe t-test Online Controlled Experiments 6.1 Safe t-test on OCE datasets Vinted A/B tests and 7.1 Safe t-test for Vinted A/B tests 7.2 Safe proportion test for sample ratio mismatch Conclusion and References 4 Simulasi Pengujian yang Aman 4.1 Pengantar Dalam bagian ini, kami membandingkan tes t klasik dengan tes t aman, dan tes χ2 dengan tes proporsi aman. Sebuah perpustakaan menyeluruh untuk tes aman telah dikembangkan di R [LTT20]. Dengan tujuan meningkatkan adopsi di bidang ilmu data, kami memindahkan kode untuk tes t aman dan tes proporsi aman ke dalam Python. 2.2 Implementasi Python Meskipun logika tes t aman tetap sama, ada sejumlah ketidakefektifan dalam kode asli yang perlu ditangani untuk bekerja dengan ukuran sampel besar. Perbaikan pertama datang dalam menentukan ukuran sampel yang diperlukan untuk proses batch data. Fungsi asli melakukan pencarian linear dari 1 ke angka yang tinggi arbitrase. Untuk setiap ukuran sampel yang mungkin dalam kisaran, fungsi ini menghitung nilai E berdasarkan ukuran sampel, derajat kebebasan, dan ukuran efek. lingkaran pecah ketika nilai E lebih besar dari 1/α. Karena ini adalah fungsi yang meningkat secara monoton, pencarian biner mempercepat perhitungan secara signifikan, mengurangi kompleksitas komputasi dari O(n) ke O(log n). optimisasi ini terbukti diperlukan saat bekerja dengan jutaan sampel. Perbaikan kecepatan berikutnya yang diperlukan adalah menghitung waktu berhenti untuk daya 1 − β. Ini ditentukan melalui simulasi data yang bervariasi oleh ukuran efek minimal. Selama simulasi N, data panjang m ditransmisikan secara individual untuk menentukan titik di mana nilai E melintasi 1/α. Sekali lagi, proses ini dilakukan melalui pencarian linear. Untuk mengoptimalkan fungsi ini, perhitungan martingale diparalel di seluruh vektor panjang m. Kompleksitas komputasi tetap O(Nm), tetapi perhitungan vektor terjadi dalam kode Numpy, tidak seperti loop Python. Modifikasi akhir tidak dalam mengurangi kompleksitas komputasi, tetapi dalam meningkatkan kemampuan tes proporsi aman. tes ini ditulis dalam R sebagai tes dua sampel dengan ukuran batch tetap. Untuk kasus penggunaan kami, tes satu sampel dengan ukuran batch variabel diperlukan untuk mendeteksi rasio ketidaksesuaian sampel, dan karena itu dikembangkan untuk paket Python. 4.3 Membandingkan tes t dengan tes Safe t Cara yang paling sederhana untuk memahami tes t yang aman adalah membandingkannya dengan alternatif klasiknya. Kami melakukan simulasi ukuran efek δ dan hipotesis null H0 : δ = 0. Mengatur tingkat signifikansi α = 0,05 kita dapat mensimulasikan ukuran efek δ antara dua kelompok untuk menentukan kapan tes dihentikan. Jika nilai E yang disimulasikan melintasi 1/α = 20, tes dihentikan dengan H0 ditolak. Jika tidak ada efek yang terdeteksi, tes dihentikan pada kekuatan 1 − β = 0,8, karena kekuatan ini umum di industri. Gambar 3 menunjukkan simulasi waktu berhenti dan keputusan tes yang aman dibandingkan dengan tes t. Seperti yang dapat kita lihat dari rata-rata waktu berhenti di Gambar 3, tes t aman menggunakan kurang dari 500.000 sampel untuk memberikan hasil yang valid secara statistik, sedangkan tes t klasik membutuhkan lebih dari 600.000. Namun, ukuran sampel yang diperlukan untuk mencapai 1 − β daya untuk tes t aman adalah sekitar 850.000, jauh lebih besar daripada tes t klasik. Satu mungkin bertanya apakah dapat diterima untuk hanya melakukan tes t aman sampai ukuran sampel tes t klasik. Gambar 4 (kiri) menunjukkan dampak dari tindakan ini pada kesalahan statistik. Pada akhir tes, baik tes t klasik dan tes t aman memenuhi persyaratan bahwa kesalahan Tipe I berada di bawah α = 0.05 dan kesalahan Tipe II berada di bawah β = 0.2. Namun, menggabungkan dua tes dalam tingkat kesalahan Tipe I yang dipancarkan, dan karenanya tidak akan memenuhi motivasi yang diharapkan oleh eksperimen Bon untuk signifikansi statistik. Selain kesimpulan keseluruhan dari dua tes, menarik untuk mempertimbangkan percobaan untuk yang t-test klasik dan t-test aman tidak setuju. Seperti yang terlihat di Gambar 4 (kanan), sementara kedua tes hampir 80% daya, mereka melakukannya dengan cara yang sangat berbeda. Banyak simulasi untuk yang t-test klasik menerima H0 ditolak oleh t-test aman, dan sebaliknya. Perbedaan ini dalam hasil kemungkinan akan sulit untuk diinternalkan untuk praktisi yang mempertimbangkan T-test menjadi sumber kebenaran untuk platform mereka. Sementara Gambar 3 mengevaluasi waktu berhenti yang aman untuk ukuran efek tetap, penting untuk mempertimbangkan hasil untuk berbagai ukuran efek. Untuk mengagregasi hasil dari ukuran efek dari 0,01 hingga 0,3, kita menormalkan waktu berhenti dengan waktu berhenti tes t. Hasil analisis ini dapat dilihat di Gambar 5. Rencana dari Gambar 5 menunjukkan baik stop rata-rata dari tes t aman dan ukuran sampel yang diperlukan untuk 80% daya. rata-rata, tes aman menggunakan 18% lebih sedikit data daripada tes t. Untuk mencapai daya yang sama dari 80%, bagaimanapun, tes aman menggunakan 36% lebih banyak data. Mengingat bahwa sebagian besar tes A / B tidak menghasilkan penolakan H0 [Aze + 20], ini dapat mengakibatkan eksperimen yang lebih lama secara keseluruhan untuk praktisi. 4.4 Membandingkan tes χ2 dengan tes proporsi aman Hasil dari Gambar 6 sangat mirip dengan yang terlihat ketika membandingkan tes t dan tes t yang aman di Gambar 3. tes aman sekali lagi menggunakan lebih sedikit sampel, rata-rata, daripada alternatif klasiknya, sementara waktu berhenti maksimum untuk mencapai daya yang dibutuhkan lebih tinggi. Seperti yang terlihat pada Gambar 7, ukuran sampel rata-rata yang diperlukan untuk tes proporsi aman adalah lebih kecil daripada yang dari tes χ2 untuk semua nilai ε. Ini menunjukkan bahwa tes proporsi aman akan bersaing dengan tes χ2, bahkan untuk mendeteksi efek kecil. Melihat hasil ini, seseorang mungkin bertanya-tanya apakah tepat untuk menetapkan prior berdasarkan ukuran efek yang tidak diketahui. Namun, prior dapat mendasarkan ukuran efek yang dihitung dari data setelah setiap sampel. Oleh karena itu, menetapkan prior berdasarkan ukuran efek saat ini tidak mempengaruhi validitas tes. Dalam bagian ini, kami membandingkan tes t aman dan tes proporsi aman dengan alternatif klasik mereka. Kami menemukan bahwa ukuran sampel rata-rata untuk tes t aman lebih kecil daripada yang dari tes t klasik untuk berbagai ukuran efek. Namun, ukuran sampel maksimum dapat jauh lebih besar untuk mencapai kekuatan statistik yang sama. Selain itu, ukuran sampel rata-rata dari tes proporsi aman lebih kecil daripada yang dari tes χ2. Temuan ini memotivasi penerapan lebih lanjut dari tes aman dalam upaya ilmiah. Dalam bagian berikutnya, kami membandingkan tes t aman dengan tes lain yang valid kapan saja yang digunakan di industri, tes rasio probabilitas sekuensial campuran. Penulis : Penulis: Daniel Beasley Author: Penulis: Daniel Beasley Dokumen ini tersedia di arsip di bawah lisensi ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Kertas ini adalah Di bawah lisensi ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Tersedia di Arsip Tersedia di Arsip