tavolo di sinistra Introduction Hypothesis testing 2.1 Introduction 2.2 Bayesian statistics 2.3 Test martingales 2.4 p-values 2.5 Optional Stopping and Peeking 2.6 Combining p-values and Optional Continuation 2.7 A/B testing Safe Tests 3.1 Introduction 3.2 Classical t-test 3.3 Safe t-test 3.4 χ2 -test 3.5 Safe Proportion Test Safe Testing Simulations 4.1 Introduction and 4.2 Python Implementation 4.3 Comparing the t-test with the Safe t-test 4.4 Comparing the χ2 -test with the safe proportion test Mixture sequential probability ratio test 5.1 Sequential Testing 5.2 Mixture SPRT 5.3 mSPRT and the safe t-test Online Controlled Experiments 6.1 Safe t-test on OCE datasets Vinted A/B tests and 7.1 Safe t-test for Vinted A/B tests 7.2 Safe proportion test for sample ratio mismatch Conclusion and References 5 Test di probabilità sequenziale 5.1 Prove sequenziali Come abbiamo visto, questo porta alla conseguenza non intenzionale di gonfiare il tasso falso positivo. Per sfruttare la loro infrastruttura, le grandi aziende tecnologiche hanno iniziato a implementare metodi statistici che sono validi in ogni momento. Questo campo di statistiche è noto come test sequenziali, o inferenza valida in qualsiasi momento. Il test sequenziale ha avuto origine con il documento seminale di Wald sul tema, Test sequenziali delle ipotesi statistiche [Wal45]. Wald introduce il primo metodo di test sequenziale, noto come il test del rapporto probabilistico sequenziale (SPRT). Il SPRT è un test di misura singola di m che divide lo spazio del campione in tre regioni reciprocamente esclusive corrispondenti alla decisione da prendere: accettare H0, respingere H0, o continuare il campionamento. La quantità Wald e Wolfowitz hanno dimostrato che la SPRT è il test sequenziale ottimale in termini di potenza statistica [WW48]. Va notato, tuttavia, che la loro formulazione di un test sequenziale non è allineata a quella dei test sicuri. La loro prova si basa sulla divisione dello spazio di rapporto di probabilità in tre regioni: accettare H0, respingere H0, o continuare il campionamento. Al contrario, il test t sicuro è ottimale in termini di GROW [Pér+22], il che significa che la variabile E crescerà più velocemente quando H0 non è vero. La decisione di respingere H0 viene presa quando E ≥ 1/α, mentre la decisione opposta di accettare H0 può essere presa in qualsiasi momento. Comprendere le formulazioni differenti di questi test sequenziali e le loro 5.2 Miscela SPRT Questo è stato realizzato da Johari et al. [Joh+17] che ha pionierato un metodo di test A/B noto come il mix Sequential Probability Ratio test (mSPRT). Questo test è stato adottato in grandi aziende tecnologiche come Uber e Netflix [SA23]. Come con il test T sicuro, il mSPRT funziona in modo ottimale con i dati granulari e sequenziali. Il mSPRT è essenzialmente simile al SPRT, con una convinzione preliminare che il vero parametro è vicino a θ0. Esaminiamo i dettagli matematici di questo test in più profondità. Conserveremo le statistiche mSPRT nella sua forma martingale al fine di confrontare le prestazioni con il test t sicuro. Autore di: di Daniel Beasley Author: di Daniel Beasley Questo documento è disponibile in archivio sotto la licenza ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Questo documento è disponibile in archivio sotto la licenza ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Disponibile in archivio