მაგიდა ლიცენზია Introduction Hypothesis testing 2.1 Introduction 2.2 Bayesian statistics 2.3 Test martingales 2.4 p-values 2.5 Optional Stopping and Peeking 2.6 Combining p-values and Optional Continuation 2.7 A/B testing Safe Tests 3.1 Introduction 3.2 Classical t-test 3.3 Safe t-test 3.4 χ2 -test 3.5 Safe Proportion Test Safe Testing Simulations 4.1 Introduction and 4.2 Python Implementation 4.3 Comparing the t-test with the Safe t-test 4.4 Comparing the χ2 -test with the safe proportion test Mixture sequential probability ratio test 5.1 Sequential Testing 5.2 Mixture SPRT 5.3 mSPRT and the safe t-test Online Controlled Experiments 6.1 Safe t-test on OCE datasets Vinted A/B tests and 7.1 Safe t-test for Vinted A/B tests 7.2 Safe proportion test for sample ratio mismatch Conclusion and References 4 უსაფრთხო ტესტირება Simulations 4.1 ინტეგრირება ამ ნაწილში, ჩვენ შედარებით კლასიკური t- ტესტი უსაფრთხო t- ტესტი, და χ2 ტესტი უსაფრთხო დონე ტესტი. სამწუხაროდ ბიბლიოთეკა უსაფრთხო ტესტი შეიმუშავებული R [LTT20]. მიზნით, რათა იზრდება მოპოვება სფეროში მონაცემთა მეცნიერება, ჩვენ პორტატებული კოდი უსაფრთხო t- ტესტი და უსაფრთხო დონე ტესტი Python. 4.2 Python განხორციელება მიუხედავად იმისა, რომ უსაფრთხო t-Test- ის ლოგიკური მუდმივია, ორიგინალური კოდიში არსებობს რამდენიმე უპირატესობა, რომელიც საჭიროა, რათა მუშაობა დიდი ნიმუშების ზომაზე. პირველი გაუმჯობესება მოითხოვს ნიმუშის ზომა, რომელიც საჭიროა მონაცემთა სატვირთო პროცესისთვის. საწყისი ფუნქცია გაკეთებს ხაზოვანი კვლევა 1დან უარყოფითი მაღალი ნომერი. თითოეული შესაძლებელი ნიმუშის ზომა სფეროში, ფუნქცია აფასებს E- ღირებულება ნიმუშის ზომაზე, თავისუფლების დონეზე და ეფექტი ზომაზე. სქემა გაბრუნდება, როდესაც E- ღირებულება უფრო დიდია, ვიდრე 1/α. იმის გამო, რომ ეს არის ნიმუშების მილიონზე გაზრდის ფუნქცია, ბინარული კვლევა საკმაოდ გააუმჯობესებს კომპიუტერული მოცულობა O(n)დან O(log n). ეს ოპტი შემდეგი სიჩქარის გაუმჯობესება, რომელიც საჭიროა, არის 1 − β-ის სიმძლავრის შეჩერების დროის კომბინაცია. ეს განკუთვნილია მონაცემების შეზღუდვის საშუალებით, რომელიც განსხვავდება მინიმალური ეფექტი ზომაზე. N-ს მოდულების დროს, m-ის სიგრძე მონაცემები ინდივიდუალურად გადარჩენა, რათა შეზღუდოთ, რომ E- ღირებულება 1/α. კიდევ ერთხელ, ეს პროცესი გაკეთება ხაზოვანი კითხვებით. ამ ფუნქციას გაუმჯობესებლად, martingale- ის კომბინაცია შედუღებულია m- ის სიგრძეში. კომბინაციის კომბინაციის კომბინაცია გაგრძელდება O(Nm), მაგრამ vektor კომბინაცია გა საბოლოო განახლება არ არის შეამციროს კომპიუტერული მოპოვება, მაგრამ გაუმჯობესება შესაძლებლობები უსაფრთხო დონე ტესტი. ეს ტესტი დააყენა R როგორც ორი ნიმუში ტესტი მუდმივად ფართო ზომა. ჩვენი გამოყენების შემთხვევაში, ერთი ნიმუში ტესტი მუდმივად ფართო ზომა საჭიროა, რათა იპოვოს ნიმუში შეესაბამება შეზღუდვა, და ასე რომ გააყენა Python პაკეტი. 4.3 T-test შედარებით Safe t-test ყველაზე მარტივი გზა გაიგოთ უსაფრთხო t-test არის შედარებით მისი კლასიკური ალტერნატივა. ჩვენ გააკეთებთ Simulations of an effect size δ და null hypothesis H0 : δ = 0. ეფექტურობის დონეზე α = 0.05 ჩვენ შეგვიძლია Simulate ეფექტურობის ზომა δ შორის ორი ჯგუფი, რათა შეამოწმოთ, როდესაც ტესტი შეჩერება. თუ Simulated E-value შეჩერება 1/α = 20, ტესტი შეჩერება H0 შეჩერებული. თუ არ არსებობს ეფექტი, ტესტი შეჩერება ძალა 1 − β = 0.8, რადგან ეს ძალა არის საერთო ინდუსტრიაში. Figure 3 აჩვენებს Simulations of stop times and decisions of the safe test compared to the t-test. როგორც ჩვენ შეგვიძლია ვხედავ, როგორც ნიმუშების საშუალო შეჩერების დროზე 3 ფურცელი, უსაფრთხო t-test იყენებს ნაკლებად, ვიდრე 500,000 ნიმუშები, რათა უზრუნველყოს სტატისტიკურად valid შედეგები, ხოლო კლასიკური t-test მოითხოვს მეტი 600,000. თუმცა, ნიმუშის ზომა, რომელიც საჭიროა, რათა მიაღწიოს 1 − β ძალა უსაფრთხო t-test არის დაახლოებით 850,000, ბევრი უფრო დიდი, ვიდრე კლასიკური t-test. შეიძლება მოითხოვდეს, თუ ეს არის აღიარებული, რომ უბრალოდ გააკეთოთ უსაფრთხო t-test, სანამ კლასიკური t-test ნიმუშის ზომა. ფურცელი 4 (დაწვრილებით) აჩვენებს ამ ეფექტი სტ როგორც საერთო შედეგები ორი ტესტი, ეს არის საინტერესო, რომ განიხილოთ ექსპერიმენტები, სადაც კლასიკური t-test და უსაფრთხო t-test არ შეესაბამება. როგორც ჩანს ფურცელი 4 (დაწვრილებით), მიუხედავად იმისა, რომ ორივე ტესტი დაახლოებით 80% ძალა, ისინი გააკეთებენ ძალიან განსხვავებული გზა. ბევრი სმულატები, სადაც კლასიკური t-test მიიღებს H0 აღიარდება უსაფრთხო t-test, და განსხვავებით. ეს განსხვავება შედეგები შეიძლება იყოს რთული ინტეგრირებული პრაქტიკები, რომლებიც ვფიქრობ T-Test არის ის, რაც თქვენი პლატფორმათვის ნამდვილია. ამავე დროს, თუ 3 სურათი შეფასებს უსაფრთხო შეჩერების დრო fixed ეფექტი ზომა, მნიშვნელოვანია, რომ განიხილოთ შედეგები ფართო სპექტრი ეფექტი ზომა. შეჩერების შედეგები შეჩერების ზომა 0.01 to 0.3, ჩვენ ნორმალური შეჩერების დრო t-test შეჩერების დრო. შედეგები ამ ანალიზი შეიძლება ნახოთ ფურცელი 5. დიაპაზონი 5 აჩვენებს ორივე საშუალო დასრულების უსაფრთხო t- ტესტი და ნიმუშის ზომა საჭიროა 80% ძალა. საშუალო, უსაფრთხო ტესტი გამოიყენებს 18% ნაკლები მონაცემები, ვიდრე t- ტესტი. იმისათვის, რომ მიიღოთ იგივე ძალა 80%, თუმცა, უსაფრთხო ტესტი გამოიყენებს 36% მეტი მონაცემები. იმიტომ, რომ ყველაზე A / B ტესტიები არ იწვევს H0 [Aze + 20], ეს შეიძლება იწვევს ხანგრძლივი ექსპერიმენტები საერთო პრაქტიკები. 4.4 χ2 - ტესტი შედარებით უსაფრთხო რაოდენობის ტესტი 3. უსაფრთხო ტესტი კიდევ ერთხელ იყენებს ნაკლებად ნიმუშები, საშუალო, ვიდრე მისი კლასიკური ვარიანტი, ხოლო მაქსიმალური შეჩერების დრო, რათა მიიღოთ საჭირო ძალა უფრო მაღალია. შემდეგ, ჩვენ ვფიქრობ, ნიმუშების ზომები ტესტიების ფუნქციონირება განსხვავება ε. Figure 7 აჩვენებს ორივე საშუალო და მაქსიმალური შეჩერების დრო ε ∈ [0001, 0.1]. როგორც ჩანს ფურცელი 7, საშუალო ნიმუშის ზომა, რომელიც საჭიროა უსაფრთხო დონე ტესტი, არის მცირე, ვიდრე χ2 ტესტი ყველა ღირებულებების ε. ეს გთავაზობთ, რომ უსაფრთხო დონე ტესტი იქნება კონკურენციური χ2 ტესტი, მაშინაც კი, რათა იპოვოს მცირე ეფექტები. იხილეთ ამ შედეგებს, ერთი შეიძლება შეკითხოთ, თუ ეს არის განკუთვნილია, რათა დააყენოთ წინასწარ ეფექტების ზომა, რომელიც არ არის ცნობილი. თუმცა, წინასწარ შეიძლება დააყენოთ ეფექტების ზომა მონაცემები შემდეგ თითოეული ნიმუშის. ასე რომ, დააყენეთ წინასწარ ეფექტების ზომა, რომელიც განკუთვნილია ამჟამად ეფექტების ზომა არ ამ სექციაში, ჩვენ შედარებით უსაფრთხო t- ტესტი და უსაფრთხო დონე ტესტი მათი კლასიკური ვარიანტი. აღმოაჩინეს, რომ საშუალო ნიმუშის ზომა უსაფრთხო t- ტესტი არის მცირე, ვიდრე კლასიკური t- ტესტი ფართო სპექტრი ეფექტი ზომა. თუმცა, მაქსიმალური ნიმუშის ზომა შეიძლება იყოს უფრო დიდი, რათა მიიღოთ იგივე სტატისტიკური ძალა. გარდა ამისა, საშუალო ნიმუშის ზომა უსაფრთხო დონე ტესტი არის მცირე, ვიდრე χ2 ტესტი. ეს ნიმუშები მოტივებს შემდგომი მიღება უსაფრთხო ტესტი სამეცნიერო ეფექტი. შემდეგი სექციაში, ჩვენ შედარებით უსაფრთხო t- ტ ავტორი : Daniel Beasley სათაური Author: Daniel Beasley სათაური ეს პრაქტიკა ხელმისაწვდომია archiv ქვეშ ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL ლიცენზია. ეს ქაღალდი არის ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 საერთაშორისო ლიცენზია. available on arxiv ხელმისაწვდომია Archive