Autorët : Daniel Beasley më parë Author: Daniel Beasley më parë Tavolina e majtë Introduction Hypothesis testing 2.1 Introduction 2.2 Bayesian statistics 2.3 Test martingales 2.4 p-values 2.5 Optional Stopping and Peeking 2.6 Combining p-values and Optional Continuation 2.7 A/B testing Safe Tests 3.1 Introduction 3.2 Classical t-test 3.3 Safe t-test 3.4 χ2 -test 3.5 Safe Proportion Test Safe Testing Simulations 4.1 Introduction and 4.2 Python Implementation 4.3 Comparing the t-test with the Safe t-test 4.4 Comparing the χ2 -test with the safe proportion test Mixture sequential probability ratio test 5.1 Sequential Testing 5.2 Mixture SPRT 5.3 mSPRT and the safe t-test Online Controlled Experiments 6.1 Safe t-test on OCE datasets Vinted A/B tests and 7.1 Safe t-test for Vinted A/B tests 7.2 Safe proportion test for sample ratio mismatch Conclusion and References 1 Hyrje Studimet e kontrolluara të rastësishme (RCTs) janë standardi i artë për inferimin e marrëdhënieve shkakësore midis trajtimeve dhe efekteve. Ato janë aplikuar gjerësisht nga shkencëtarët për të thelluar kuptimin e disiplinave të tyre. Gjatë dy dekadave të fundit, ata kanë gjetur aplikacione në produktet dixhitale gjithashtu, nën emrin A / B test. Një test A / B është një RCT e thjeshtë për të krahasuar efektin e një trajtimi (grupi B) me një kontroll (grupi A). Dy grupet krahasohen me një test statistikor që përdoret për të marrë një vendim për efektin. Pothuajse të gjitha testet statistikore për testet A/B mbështeten në testet e horizonteve të fiksuara. Ky konfigurim i testimit përfshin përcaktimin e numrit të përdoruesve të nevojshëm për testin, mbledhjen e të dhënave dhe përfundimisht analizimin e rezultateve. megjithatë, kjo metodë e testimit nuk përputhet me aftësitë në kohë reale të infrastrukturës moderne të të dhënave dhe dëshirat e eksperimentatorëve për të marrë vendime shpejt. metodologjitë statistikore të reja të zhvilluara lejojnë eksperimentatorët të braktisin testet e horizonteve të fiksuara dhe të analizojnë rezultatet e testimit në çdo kohë. Testimi i sigurt është një teori e re statistikore që i plotëson këto qëllime. Siç do të shohim, testimi i sigurt A / B lejon eksperimentatorët të monitorojnë vazhdimisht rezultatet e eksperimenteve të tyre pa rritur rrezikun e nxjerrjes së konkluzioneve të gabuara. Për më tepër, ne do të shohim se kërkon më pak të dhëna se testimet standarde statistikore për të arritur këto rezultate. kompanitë e mëdha teknologjike janë aktualisht duke eksploruar AVI në kapacitete të kufizuara, por testimi i sigurt tejkalon testet në dispozicion në aspektin e numrit të mostrave të nevojshme për të zbuluar efektet e rëndësishme. Kjo tezë përmban 6 seksione. Seksioni 2 përmban një hyrje në testimin e hipotezave, si dhe koncepte të tjera statistikore që janë të rëndësishme për lexuesin. Ai gjithashtu shpjegon se si pafleksibiliteti i testimit statistikor klasik shkakton probleme për praktikantët. Seksioni 3 paraqet konceptet e testimit të sigurt. Për më tepër, ai nxjerr statistikat e testimit për testin e sigurt t dhe testin e raportit të sigurt. Seksioni 4 simulon performancën e statistikave të sigurta dhe i krahason ato me alternativat e tyre klasike. Seksioni 5 krahason testin e sigurt t me një test tjetër popullor në çdo kohë të vlefshëm, testin e përzierjes së raportit të probabilitetit sekuencial (mSPRT). Seksioni 6 krahason testin e sig Ky dokument është i disponueshëm në arkiv nën licencën ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Ky dokument është i disponueshëm në arkiv nën licencën ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Në dispozicion në arkiv