Masanın sol tarafı Introduction Hypothesis testing 2.1 Introduction 2.2 Bayesian statistics 2.3 Test martingales 2.4 p-values 2.5 Optional Stopping and Peeking 2.6 Combining p-values and Optional Continuation 2.7 A/B testing Safe Tests 3.1 Introduction 3.2 Classical t-test 3.3 Safe t-test 3.4 χ2 -test 3.5 Safe Proportion Test Safe Testing Simulations 4.1 Introduction and 4.2 Python Implementation 4.3 Comparing the t-test with the Safe t-test 4.4 Comparing the χ2 -test with the safe proportion test Mixture sequential probability ratio test 5.1 Sequential Testing 5.2 Mixture SPRT 5.3 mSPRT and the safe t-test Online Controlled Experiments 6.1 Safe t-test on OCE datasets Vinted A/B tests and 7.1 Safe t-test for Vinted A/B tests 7.2 Safe proportion test for sample ratio mismatch Conclusion and References 6 Online Kontrol Edilen Deneyler CUPED [Den+13] ve mSPRT [Joh+17] gibi yeni istatistiksel testler çeşitli teknoloji şirketlerinde standart teknikler haline geldi. A/B test alanı giderek yenilikçi yöntemlerle doludur, ancak bunları kolayca karşılaştırmak ve kontrast etmek için bir benchmark yoktur. Bu sorunu çözmek için, Imperial College London araştırmacıları çevrimiçi kontrolli deneyler (OCE) için bir dizi veritabanı oluşturdular [Liu+22]. Bu veritabanlar çevrimiçi gerçekleştirilen rastgele kontrolli denemelerden gerçek verileri ve bazı sentezlenmiş sonuçları içerir. Toplam olarak OCE veritabanı olarak bilinenler, A/B testleri gerçekleştirmek için yeni yöntemleri benchmark ve karşılaştırmak için kullanılabilirler. OCE veritabanları, internette bulunan 13 anonim veritabanın bir taksonomudur. veritabanları, 78 deney ve en fazla üç varyant üzerinde ölçülen dört ölçümün günlük anlık görüntülenmesini içerir. deneylerden elde edilen veriler ikili, bütün veya gerçek olarak değerlendirilebilir, böylece istatistiksel yöntemlerin geniş bir yelpazesi test edilebilir. OCE veritabanları için potansiyel bir kullanım örneği, yeni geliştirilen yöntemlerin sonuçlarının geçerliliğini sağlamak için gerçekçi olmayan varsayımlara sahip olabileceğinden opsiyonel durdurma yöntemlerini benchmarking etmektir. veritabanlarında günlük anlık görüntüler mevcut olması, test için yarı sekanslı bir yaklaşımın uygulanabileceğini göstermektedir. Bu bölümde, güvenli t-test OCE veri kümelerinin toplanmasıyla gerçekleştirilecek ve sonuçlar hem klasik t-test hem de mSPRT ile karşılaştırılacaktır. 6.1 OCE veritabanında güvenli t-test Güvenli t testi performansını kıyaslamak için, sonuçlarını t testi ile karşılaştırabiliriz. Şekil 4’te (sağ) gördüğümüz gibi, iki test her veri kümesi için her zaman aynı sonuçlara ulaşmaz. ancak, t testi A/B testi için en yaygın kullanılan istatistiksel test olduğundan, sonuçların farklı olduğu durumları anlamak için sonuçları karşılaştırmak önemlidir. Tablo 5 OCE veri kümelerinin toplanmasında t testi ve güvenli t testi sonuçlarını gösterir. Güvenli t-test, klasik t-testinden çok daha fazla etkiyi tespit eder. Teorik olarak, güvenli t-testinin sahte pozitif oranı α'ın altında olmalı olsa da, H0'nun tüm bu reddetmeleri gerçek etkilere karşılık gelmesi muhtemeldir. Bu deneyler sırasında E değerlerinin davranışını analiz ettikten sonra, H0 reddetmeleri yüksek sayısının muhtemelen yenilik etkisi ile ilgisi olduğu sonucuna varıyoruz. Daha önce de belirtildiği gibi, yenilik etkisi, serbest bırakıldıktan kısa bir süre sonra özelliğe daha fazla dikkat etme anlamına gelir. Sonuç olarak, bağımsız ve eşit şekilde dağıtılan verilerin varsayımının ihlal edildiği, sıfır hipoteze karşı kanıtların hızlı bir şekilde toplanmasıyla sonuçlanır. Sabit örnek test için bu Şaşırtıcı bir şekilde, Şekil 8'de gözlemlenen davranış göz önüne alındığında, mSPRT tarafından reddedilen null hipotezler güvenli t-test tarafından benzer şekilde reddedilir. Bununla birlikte, güvenli test mSPRT'den daha fazla hipotez reddeder. Bu, güvenli testin mSPRT'den daha hassas olduğu ve null hipotezi çelişen verilere daha güçlü tepki gösterdiği için muhtemeldir. Yazar : 1. Daniel Beasley Hakkında Author: 1. Daniel Beasley Hakkında Bu makale ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL lisansı altında arşivde kullanılabilir. Bu kağıt ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL lisansı altında. Arşivde kullanılabilir Arşivde kullanılabilir