Autore di: di Daniel Beasley Author: di Daniel Beasley tavolo di sinistra Introduction Hypothesis testing 2.1 Introduction 2.2 Bayesian statistics 2.3 Test martingales 2.4 p-values 2.5 Optional Stopping and Peeking 2.6 Combining p-values and Optional Continuation 2.7 A/B testing Safe Tests 3.1 Introduction 3.2 Classical t-test 3.3 Safe t-test 3.4 χ2 -test 3.5 Safe Proportion Test Safe Testing Simulations 4.1 Introduction and 4.2 Python Implementation 4.3 Comparing the t-test with the Safe t-test 4.4 Comparing the χ2 -test with the safe proportion test Mixture sequential probability ratio test 5.1 Sequential Testing 5.2 Mixture SPRT 5.3 mSPRT and the safe t-test Online Controlled Experiments 6.1 Safe t-test on OCE datasets Vinted A/B tests and 7.1 Safe t-test for Vinted A/B tests 7.2 Safe proportion test for sample ratio mismatch Conclusion and References 1 Introduzione Gli studi randomizzati controllati (RCT) sono lo standard d'oro per dedurre le relazioni causali tra trattamenti ed effetti. Sono ampiamente applicati dagli scienziati per approfondire la comprensione delle loro discipline. Negli ultimi due decenni, hanno trovato applicazioni anche nei prodotti digitali, sotto il nome di test A/B. Un test A/B è un semplice RCT per confrontare l'effetto di un trattamento (gruppo B) con un controllo (gruppo A). I due gruppi sono confrontati con un test statistico che viene utilizzato per prendere una decisione sull'effetto. Quasi tutti i test statistici per i test A/B si basano sui test a orizzonte fisso. Questa configurazione di test comporta la determinazione del numero di utenti richiesti per il test, la raccolta dei dati e, infine, l'analisi dei risultati. Tuttavia, questo metodo di test non si allinea con le capacità in tempo reale dell'infrastruttura dati moderna e il desiderio degli sperimentatori di prendere decisioni rapidamente. Le metodologie statistiche recentemente sviluppate consentono agli sperimentatori di testare a orizzonte fisso e analizzare i risultati dei test in qualsiasi momento. Il test sicuro è una nuova teoria statistica che raggiunge questi obiettivi. Come vedremo, il test sicuro A/B consente agli sperimentatori di monitorare continuamente i risultati dei loro esperimenti senza aumentare il rischio di trarre conclusioni errate. Inoltre, vedremo che richiede meno dati rispetto ai test statistici standard per raggiungere questi risultati. Le grandi aziende tecnologiche stanno attualmente esplorando AVI in capacità limitata, ma il test sicuro supera i test disponibili in termini di numero di campioni necessari per rilevare effetti significativi. Questa tesi contiene 6 sezioni. La sezione 2 contiene un'introduzione al test di ipotesi, nonché ad altri concetti statistici rilevanti per il lettore. Spiega anche come l'inflessibilità dei test statistici classici causa problemi ai professionisti. La sezione 3 introduce i concetti di test sicuri. Inoltre, deriva le statistiche di prova per il test sicuro t e il test della proporzione sicura. La sezione 4 simula le prestazioni delle statistiche sicure e le confronta con le loro alternative classiche. La sezione 5 confronta il test sicuro t con un altro test popolare valido in qualsiasi momento, il test di probabilità sequenziale di miscela (mSPRT). La sezione 6 confronta il test sicuro t e il mSPRT su una vasta gamma di dati di esperimenti online. Infine, la se Questo documento è disponibile in archivio sotto la licenza ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Questo documento è disponibile in archivio sotto la licenza ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Disponibile in archivio