Tabel dari kiri 
 
 
 
 
 
 
 
 
 
 
 Introduction 
 
 
 
 
 
 
 
 
 Hypothesis testing 2.1 Introduction 2.2 Bayesian statistics 2.3 Test martingales 2.4 p-values 2.5 Optional Stopping and Peeking 2.6 Combining p-values and Optional Continuation 2.7 A/B testing 
 
 
 
 
 
 
 Safe Tests 3.1 Introduction 3.2 Classical t-test 3.3 Safe t-test 3.4 χ2 -test 3.5 Safe Proportion Test 
 
 
 
 
 Safe Testing Simulations 4.1 Introduction and 4.2 Python Implementation 4.3 Comparing the t-test with the Safe t-test 4.4 Comparing the χ2 -test with the safe proportion test 
 
 
 
 
 Mixture sequential probability ratio test 5.1 Sequential Testing 5.2 Mixture SPRT 5.3 mSPRT and the safe t-test 
 
 
 Online Controlled Experiments 6.1 Safe t-test on OCE datasets 
 
 
 Vinted A/B tests and 7.1 Safe t-test for Vinted A/B tests 7.2 Safe proportion test for sample ratio mismatch 
 
 Conclusion and References 4 Simulasi Pengujian yang Aman 4.1 Pengantar Dalam bagian ini, kami membandingkan tes t klasik dengan tes t aman, dan tes χ2 dengan tes proporsi aman. Sebuah perpustakaan menyeluruh untuk tes aman telah dikembangkan di R [LTT20]. Dengan tujuan meningkatkan adopsi di bidang ilmu data, kami memindahkan kode untuk tes t aman dan tes proporsi aman ke dalam Python. 2.2 Implementasi Python Meskipun logika tes t aman tetap sama, ada sejumlah ketidakefektifan dalam kode asli yang perlu ditangani untuk bekerja dengan ukuran sampel besar. Perbaikan pertama datang dalam menentukan ukuran sampel yang diperlukan untuk proses batch data. Fungsi asli melakukan pencarian linear dari 1 ke angka yang tinggi arbitrase. Untuk setiap ukuran sampel yang mungkin dalam kisaran, fungsi ini menghitung nilai E berdasarkan ukuran sampel, derajat kebebasan, dan ukuran efek. lingkaran pecah ketika nilai E lebih besar dari 1/α. Karena ini adalah fungsi yang meningkat secara monoton, pencarian biner mempercepat perhitungan secara signifikan, mengurangi kompleksitas komputasi dari O(n) ke O(log n). optimisasi ini terbukti diperlukan saat bekerja dengan jutaan sampel. Perbaikan kecepatan berikutnya yang diperlukan adalah menghitung waktu berhenti untuk daya 1 − β. Ini ditentukan melalui simulasi data yang bervariasi oleh ukuran efek minimal. Selama simulasi N, data panjang m ditransmisikan secara individual untuk menentukan titik di mana nilai E melintasi 1/α. Sekali lagi, proses ini dilakukan melalui pencarian linear. Untuk mengoptimalkan fungsi ini, perhitungan martingale diparalel di seluruh vektor panjang m. Kompleksitas komputasi tetap O(Nm), tetapi perhitungan vektor terjadi dalam kode Numpy, tidak seperti loop Python. Modifikasi akhir tidak dalam mengurangi kompleksitas komputasi, tetapi dalam meningkatkan kemampuan tes proporsi aman. tes ini ditulis dalam R sebagai tes dua sampel dengan ukuran batch tetap. Untuk kasus penggunaan kami, tes satu sampel dengan ukuran batch variabel diperlukan untuk mendeteksi rasio ketidaksesuaian sampel, dan karena itu dikembangkan untuk paket Python. 4.3 Membandingkan tes t dengan tes Safe t Cara yang paling sederhana untuk memahami tes t yang aman adalah membandingkannya dengan alternatif klasiknya. Kami melakukan simulasi ukuran efek δ dan hipotesis null H0 : δ = 0. Mengatur tingkat signifikansi α = 0,05 kita dapat mensimulasikan ukuran efek δ antara dua kelompok untuk menentukan kapan tes dihentikan. Jika nilai E yang disimulasikan melintasi 1/α = 20, tes dihentikan dengan H0 ditolak. Jika tidak ada efek yang terdeteksi, tes dihentikan pada kekuatan 1 − β = 0,8, karena kekuatan ini umum di industri. Gambar 3 menunjukkan simulasi waktu berhenti dan keputusan tes yang aman dibandingkan dengan tes t. Seperti yang dapat kita lihat dari rata-rata waktu berhenti di Gambar 3, tes t aman menggunakan kurang dari 500.000 sampel untuk memberikan hasil yang valid secara statistik, sedangkan tes t klasik membutuhkan lebih dari 600.000. Namun, ukuran sampel yang diperlukan untuk mencapai 1 − β daya untuk tes t aman adalah sekitar 850.000, jauh lebih besar daripada tes t klasik. Satu mungkin bertanya apakah dapat diterima untuk hanya melakukan tes t aman sampai ukuran sampel tes t klasik. Gambar 4 (kiri) menunjukkan dampak dari tindakan ini pada kesalahan statistik. Pada akhir tes, baik tes t klasik dan tes t aman memenuhi persyaratan bahwa kesalahan Tipe I berada di bawah α = 0.05 dan kesalahan Tipe II berada di bawah β = 0.2. Namun, menggabungkan dua tes dalam tingkat kesalahan Tipe I yang dipancarkan, dan karenanya tidak akan memenuhi motivasi yang diharapkan oleh eksperimen Bon untuk signifikansi statistik. Selain kesimpulan keseluruhan dari dua tes, menarik untuk mempertimbangkan percobaan untuk yang t-test klasik dan t-test aman tidak setuju. Seperti yang terlihat di Gambar 4 (kanan), sementara kedua tes hampir 80% daya, mereka melakukannya dengan cara yang sangat berbeda. Banyak simulasi untuk yang t-test klasik menerima H0 ditolak oleh t-test aman, dan sebaliknya. Perbedaan ini dalam hasil kemungkinan akan sulit untuk diinternalkan untuk praktisi yang mempertimbangkan T-test menjadi sumber kebenaran untuk platform mereka. Sementara Gambar 3 mengevaluasi waktu berhenti yang aman untuk ukuran efek tetap, penting untuk mempertimbangkan hasil untuk berbagai ukuran efek. Untuk mengagregasi hasil dari ukuran efek dari 0,01 hingga 0,3, kita menormalkan waktu berhenti dengan waktu berhenti tes t. Hasil analisis ini dapat dilihat di Gambar 5. Rencana dari Gambar 5 menunjukkan baik stop rata-rata dari tes t aman dan ukuran sampel yang diperlukan untuk 80% daya. rata-rata, tes aman menggunakan 18% lebih sedikit data daripada tes t. Untuk mencapai daya yang sama dari 80%, bagaimanapun, tes aman menggunakan 36% lebih banyak data. Mengingat bahwa sebagian besar tes A / B tidak menghasilkan penolakan H0 [Aze + 20], ini dapat mengakibatkan eksperimen yang lebih lama secara keseluruhan untuk praktisi. 4.4 Membandingkan tes χ2 dengan tes proporsi aman Hasil dari Gambar 6 sangat mirip dengan yang terlihat ketika membandingkan tes t dan tes t yang aman di Gambar 3. tes aman sekali lagi menggunakan lebih sedikit sampel, rata-rata, daripada alternatif klasiknya, sementara waktu berhenti maksimum untuk mencapai daya yang dibutuhkan lebih tinggi. Seperti yang terlihat pada Gambar 7, ukuran sampel rata-rata yang diperlukan untuk tes proporsi aman adalah lebih kecil daripada yang dari tes χ2 untuk semua nilai ε. Ini menunjukkan bahwa tes proporsi aman akan bersaing dengan tes χ2, bahkan untuk mendeteksi efek kecil. Melihat hasil ini, seseorang mungkin bertanya-tanya apakah tepat untuk menetapkan prior berdasarkan ukuran efek yang tidak diketahui. Namun, prior dapat mendasarkan ukuran efek yang dihitung dari data setelah setiap sampel. Oleh karena itu, menetapkan prior berdasarkan ukuran efek saat ini tidak mempengaruhi validitas tes. Dalam bagian ini, kami membandingkan tes t aman dan tes proporsi aman dengan alternatif klasik mereka. Kami menemukan bahwa ukuran sampel rata-rata untuk tes t aman lebih kecil daripada yang dari tes t klasik untuk berbagai ukuran efek. Namun, ukuran sampel maksimum dapat jauh lebih besar untuk mencapai kekuatan statistik yang sama. Selain itu, ukuran sampel rata-rata dari tes proporsi aman lebih kecil daripada yang dari tes χ2. Temuan ini memotivasi penerapan lebih lanjut dari tes aman dalam upaya ilmiah. Dalam bagian berikutnya, kami membandingkan tes t aman dengan tes lain yang valid kapan saja yang digunakan di industri, tes rasio probabilitas sekuensial campuran. 
 
 
 Penulis : Penulis: Daniel Beasley Author: Penulis: Daniel Beasley 
 
 Dokumen ini tersedia di arsip di bawah lisensi ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Kertas ini adalah Di bawah lisensi ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Tersedia di Arsip Tersedia di Arsip

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Read My Stories

undefined's blog

Audio ini diproduksi dalam bahasa asli cerita!

Bagaimana tes aman mengurangi ukuran sampel tanpa mengorbankan validitas statistik

About Author

KOMENTAR

HANG TAG

ARTIKEL INI DISAJIKAN PADA

Related Stories

And In The Open Air

Why do you need JWT in your ASP.NET Core project?

Return to Pleasure Island

IdeaOps: Why Every Request is a Company Asset in Product Development

And In The Open Air

Why do you need JWT in your ASP.NET Core project?

Return to Pleasure Island

IdeaOps: Why Every Request is a Company Asset in Product Development

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps