Tavolina e majtë Introduction Hypothesis testing 2.1 Introduction 2.2 Bayesian statistics 2.3 Test martingales 2.4 p-values 2.5 Optional Stopping and Peeking 2.6 Combining p-values and Optional Continuation 2.7 A/B testing Safe Tests 3.1 Introduction 3.2 Classical t-test 3.3 Safe t-test 3.4 χ2 -test 3.5 Safe Proportion Test Safe Testing Simulations 4.1 Introduction and 4.2 Python Implementation 4.3 Comparing the t-test with the Safe t-test 4.4 Comparing the χ2 -test with the safe proportion test Mixture sequential probability ratio test 5.1 Sequential Testing 5.2 Mixture SPRT 5.3 mSPRT and the safe t-test Online Controlled Experiments 6.1 Safe t-test on OCE datasets Vinted A/B tests and 7.1 Safe t-test for Vinted A/B tests 7.2 Safe proportion test for sample ratio mismatch Conclusion and References Testet A/B të fituara Vinted është një treg online për veshje dhe aksesorë. Që nga themelimi i saj në vitin 2008, ajo ka fituar më shumë se 75 milionë përdorues për t'u zhvilluar me shpejtësi në tregun më të madh të veshjeve të dorës së dytë në Evropë. Me një bollëk të tillë të përdoruesve, ajo kryen një numër të madh të testeve A / B në të njëjtën kohë për të ofruar përvojën më të mirë për përdoruesit e saj. Kjo e bën Vinted një mjedis ideal për të vlerësuar efektivitetin e testeve të sigurta. Në këtë seksion, ne zbatojmë testin e sigurt t dhe testin e proporcionit të sigurt në të dhënat eksperimentale të Vinted. Testi i sigurt do të krahasohet me testin klasik t për të vlerësuar rezultatet e 7.1 Testi i sigurt për testet Vinted A / B Metrikat për 162 eksperimentet Vinted nga marsi 2023 deri në qershor 2023 do të vlerësohen për këtë analizë. Ne mblodhëm snapshots kumulative ditore të 143 metrikave, duke përfshirë mesataren e metrikës, devijimin standard dhe madhësinë e mostrës për të dy grupet e kontrollit dhe testit. Eksperimentet me variante të shumëfishta trajtohen si teste të ndara me të njëjtin grup kontrolli. Testi i sigurt dhe t-testi klasik u krahasuan në të gjitha kombinimet e 42115 eksperimenteve / metrikave në këtë grup të të dhënave. Tabela 7 tregon rezultatet e testeve statistikore në nivel α = 0.05. Rezultatet e tabelës 7 tregojnë se testi i sigurt t dhe testi klasik t arrijnë vazhdimisht të njëjtin konkluzion në lidhje me rëndësinë e metrikave. 379 rastet në të cilat testi i sigurt t refuzon një H0 se testi t nuk është në përputhje me simulimet që tregojnë se testet nuk pajtohen gjithmonë në atë që përbën një rezultat të rëndësishëm. Numri i lartë i 1645 rasteve në të cilat testi t refuzon H0 ndërsa testi i sigurt t nuk është më i rëndësishëm. Testi i sigurt t është më i ndjeshëm kur vëzhgon të dhënat në mënyrë sekuenciale, duke dhënë më shumë mundësi për të refuzuar H0. Këto të dhëna grumbullohen në një nivel të përditshëm, i cili në mënyrë efektive zvogëlon fuqinë e testit. Me të dh Testimi i raportit të probabilitetit sekuencial të përzierjes (mSPRT) u krye në të njëjtin grup eksperimentesh. Krahasimi i rezultateve të Tabelës 8 me Tabelën 7 tregon se mSPRT është dukshëm më pak Ndërsa kjo është pjesërisht për shkak të grup-sekuencës së konfigurimit, rezultatet tona të simulimit sugjerojnë se mSPRT është thjesht një test statistikor më pak të ndjeshëm se sa të sigurt t-test. Duke u kthyer në rezultatet e testimit të sigurt t, u gjet se testi i sigurt t kryente në mënyrë të konsiderueshme më mirë në disa metrikë sesa të tjerët. Këtu, ne do të analizojmë më tej metrikat për të kuptuar pse kjo është rasti. Për të kuantifikuar performancën e testimit të sigurt t në një metrikë, ne përdorim koeficientin phi për të krahasuar vendimet e tij me testin klasik t. Koeficienti phi, i njohur edhe si koeficienti i korrelimit të Matthews, përdoret për të përcaktuar korrelimin e variablave binare. Për të kuptuar qëllimin e secilës metrikë, ekziston një përshkrim tekst i rastit të përdorimit të saj brenda kuadrit të testimit A / B të Vinted. Një përmbledhje e Në hyrjen në testimin A/B, u përmend se disa metrikë marrin shumë më shumë kohë për t'u realizuar. Kjo do të thotë se të dhënat nuk do të jenë të pavarura dhe të shpërndara në mënyrë identike gjatë ditëve të testit. Duke shqyrtuar Tabelën 9, ne shohim një korrelim të lartë midis performancës së testit të sigurt t dhe testit klasik t mbi metrikat që përfshijnë kërkime, seanca dhe përshtypje. Këto janë të gjitha sasitë që kanë një kohë të shkurtër midis ekspozimit të testit dhe realizimit të metrikës. Përkundrazi, testi i sigurt t nuk funksionon mirë në metrikat afatgjata që përfshijnë transaksione dhe anulime urdhërash. 7.2 Testi i proporcioneve të sigurta për mosmarrëveshjen e raportit të mostrës Për të përcaktuar efektivitetin e testit të proporcionit të sigurt dhe testit χ2 në zbulimin e mosmarrëveshjes së raportit të mostrës (SRM), analizohen shpërndarjet e 195 eksperimenteve nga Vinted. Testi i sigurt zbatohet për snapshots ditore të shpërndarjeve, ndërsa testi χ2 zbatohet për shpërndarjen në ditën e fundit të eksperimentit. Për SRM, një nivel kuptimi i α = 0.01 përdoret për të kufizuar numrin e pozitivëve të rremë. Vlerat e para beta të α1, β1 = 1000 përdoren për testin e proporcionit të sigurt. Krahasimi i rezultateve midis testit të proporcionit të sigurt dhe testit χ 2 mund të shihet në Tabelën 10. Autorët : Daniel Beasley më parë Author: Daniel Beasley më parë Ky dokument është i disponueshëm në arkiv nën licencën ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Ky dokument është i disponueshëm në arkiv nën licencën ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Në dispozicion në arkiv