Mesa de la izquierda Introduction Hypothesis testing 2.1 Introduction 2.2 Bayesian statistics 2.3 Test martingales 2.4 p-values 2.5 Optional Stopping and Peeking 2.6 Combining p-values and Optional Continuation 2.7 A/B testing Safe Tests 3.1 Introduction 3.2 Classical t-test 3.3 Safe t-test 3.4 χ2 -test 3.5 Safe Proportion Test Safe Testing Simulations 4.1 Introduction and 4.2 Python Implementation 4.3 Comparing the t-test with the Safe t-test 4.4 Comparing the χ2 -test with the safe proportion test Mixture sequential probability ratio test 5.1 Sequential Testing 5.2 Mixture SPRT 5.3 mSPRT and the safe t-test Online Controlled Experiments 6.1 Safe t-test on OCE datasets Vinted A/B tests and 7.1 Safe t-test for Vinted A/B tests 7.2 Safe proportion test for sample ratio mismatch Conclusion and References 5 Test de probabilidad secuencial 5.1 Pruebas secuenciales Como la sofisticada infraestructura de pruebas A/B se ha proliferado, también tienen la oportunidad de ver los resultados de pruebas [Joh+17]. Como hemos visto, esto conduce a la consecuencia no intencionada de inflar la tasa positiva falsa. Para aprovechar su infraestructura, entonces, las grandes compañías tecnológicas han comenzado a implementar métodos estadísticos que son válidos en cualquier momento. Este campo de estadística es conocido como pruebas secuenciales, o inferencia válida en cualquier momento. La prueba secuencial se originó con el papel seminal de Wald sobre el tema, las pruebas secuenciales de hipótesis estadísticas [Wal45]. Wald introduce el primer método de pruebas secuenciales, conocido como la prueba de probabilidad secuencial (SPRT). El SPRT es un ensayo de tamaño de una muestra de m que divide el espacio de Wald y Wolfowitz demostraron que el SPRT es la prueba secuencial óptima en términos de potencia estadística [WW48]. Debe señalarse, sin embargo, que su formulación de una prueba secuencial no está alineada con la de las pruebas seguras. Su prueba se basa en dividir el espacio de relación de probabilidad en tres regiones: aceptar H0, rechazar H0, o continuar mostrando. Por el contrario, la prueba t segura es óptima en términos de GROW [Pér+22], lo que significa que la variable E crecerá más rápido cuando H0 no es verdadera. La decisión de rechazar H0 se toma cuando E ≥ 1/α, mientras que la decisión opuesta de aceptar H0 se puede tomar en cualquier momento. Entender las diferentes formulaciones de estas pruebas secuenciales y sus pruebas de optimidad deben ayudar a internalizar 5.2 La mezcla de SPRT Esto fue logrado por Johari et al. [Joh+17] que pionero un método de prueba de A/B conocido como la prueba de relación de probabilidad secuencial de mezcla (mSPRT). Esta prueba ha sido adoptada en grandes compañías de tecnología como Uber y Netflix [SA23]. Al igual que con la prueba segura t, el mSPRT funciona de forma óptima con datos secuenciales granulares. El mSPRT es esencialmente similar al SPRT, con una creencia previa de que el parámetro verdadero está cerca de θ0. Examinemos los detalles matemáticos de esta prueba en más profundidad. Mantendremos las estadísticas de mSPRT en su forma martingale para comparar el rendimiento con la prueba segura t. El autor: 1 Daniel Beasley Author: 1 Daniel Beasley Este artículo está disponible en archivo bajo la licencia ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Este artículo está disponible en archivo bajo la licencia ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Disponible en Archivo