Mesa de la izquierda Introduction Hypothesis testing 2.1 Introduction 2.2 Bayesian statistics 2.3 Test martingales 2.4 p-values 2.5 Optional Stopping and Peeking 2.6 Combining p-values and Optional Continuation 2.7 A/B testing Safe Tests 3.1 Introduction 3.2 Classical t-test 3.3 Safe t-test 3.4 χ2 -test 3.5 Safe Proportion Test Safe Testing Simulations 4.1 Introduction and 4.2 Python Implementation 4.3 Comparing the t-test with the Safe t-test 4.4 Comparing the χ2 -test with the safe proportion test Mixture sequential probability ratio test 5.1 Sequential Testing 5.2 Mixture SPRT 5.3 mSPRT and the safe t-test Online Controlled Experiments 6.1 Safe t-test on OCE datasets Vinted A/B tests and 7.1 Safe t-test for Vinted A/B tests 7.2 Safe proportion test for sample ratio mismatch Conclusion and References 7 pruebas A/B Vinted es un mercado en línea para ropa y accesorios. Desde su creación en 2008, ha ganado más de 75 millones de usuarios para desarrollarse rápidamente en el mayor mercado de ropa de segunda mano de Europa. Con tal abundancia de usuarios, lleva a cabo un gran número de pruebas A/B simultáneamente para proporcionar la mejor experiencia para sus usuarios. Esto hace de Vinted un entorno ideal para evaluar la eficacia de las pruebas seguras. En esta sección, aplicamos la prueba segura t y las pruebas de proporción segura a los datos experimentales de Vinted. La prueba segura t se comparará con la prueba clásica t para evaluar los resultados de las pruebas A/B. Además, la prueba de proporción segura se comparará con la prueba χ2 como un medio para detectar la proporción equivocada de muestras de los experimentos. 7.1 Teste seguro para las pruebas Vinted A/B Las métricas de 162 experimentos de Vinted de marzo de 2023 a junio de 2023 se evaluarán para este análisis. Hemos recopilado instantáneas diarias acumulativas de 143 métricas, que contienen la media de la métrica, la desviación estándar y el tamaño de la muestra para ambos grupos de control y de prueba. Los experimentos con varias variantes se tratan como pruebas separadas con el mismo grupo de control. La prueba segura t y la prueba clásica t se compararon en todas las combinaciones de 42115 experimentos / métricas en este conjunto de datos. La tabla 7 muestra los resultados de las pruebas estadísticas en el nivel α = 0.05. Los resultados de la Tabla 7 muestran que la prueba segura t y la prueba t clásica llegan consistentemente a la misma conclusión sobre la importancia de las métricas. Los 379 casos en los que la prueba segura t rechaza un H0 que la prueba t no son consistentes con las simulaciones que demuestran que las pruebas no siempre coinciden en lo que constituye un resultado significativo. El alto número de 1645 casos en los que la prueba t rechaza H0 mientras que la prueba segura t no son más relevantes. La prueba segura t es más sensible cuando observa los datos secuencialmente, dando más oportunidades para rechazar H0. Estos datos se agregan a nivel diario, lo que reduce efectivamente la potencia de la prueba. Con datos más granulares, la prueba segura t detectaría más efectos que en este ajuste secuencial de grupos. La prueba de probabilidad secuencial de la mezcla (mSPRT) se realizó en el mismo conjunto de experimentos.Los resultados se pueden encontrar en la Tabla 8. Comparar los resultados de la Tabla 8 con la Tabla 7 muestra que el mSPRT es significativamente menor Aunque esto se debe en parte a la configuración de la secuencia de grupos, nuestros resultados de simulación sugieren que el mSPRT es simplemente una prueba estadística menos sensible que la prueba segura t. Volviendo a los resultados de la prueba segura de t, se encontró que la prueba segura de t funcionaba significativamente mejor en algunas métricas que en otras. Aquí, analizaremos las métricas para comprender por qué esto es así. Para cuantificar el rendimiento de la prueba segura de t en una métrica, utilizamos el coeficiente phi para comparar sus decisiones con la prueba clásica de t. El coeficiente phi, también conocido como coeficiente de correlación de Matthews, se utiliza para determinar la correlación de las variables binarias. Para comprender el propósito de cada métrica, hay una descripción de texto de su caso de uso dentro del marco de prueba A/B de Vinted. Un resumen de los temas en la descripción se puede extraer con la alocación de Dirichlet en Latín. En la introducción a la prueba A/B, se mencionó que algunas métricas tardan mucho más tiempo en realizarse. Esto significa que los datos no serán independientes y distribuidos de manera idéntica a lo largo de los días de la prueba. Examinando la Tabla 9, vemos una alta correlación entre el rendimiento de la prueba segura y la prueba t clásica sobre métricas que involucran búsquedas, sesiones e impresiones. Estas son todas las cantidades que tienen un corto tiempo entre la exposición a la prueba y la realización de la métrica. Por el contrario, la prueba segura no funciona bien en métricas a largo plazo que involucran transacciones y cancelaciones de pedidos. 7.2 Prueba de proporción segura para la equivalencia de la proporción de muestra Para determinar la eficacia de la prueba de proporción segura y la prueba χ2 en la detección de desacuerdo de relación de muestra (SRM), se analizan las distribuciones de 195 experimentos de Vinted. La prueba segura se aplica a las instantáneas diarias de las distribuciones, mientras que la prueba χ2 se aplica a la distribución en el último día del experimento. Para SRM, se utiliza un nivel de significancia de α = 0,01 para limitar el número de positivos falsos. Se utilizan valores beta previos de α1, β1 = 1000 para la prueba de proporción segura. La comparación de los resultados entre la prueba de proporción segura y la prueba χ 2 se puede ver en la Tabla 10. El autor: 1 Daniel Beasley Author: 1 Daniel Beasley Este artículo está disponible en archivo bajo la licencia ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Este artículo está disponible en archivo bajo la licencia ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Disponible en Archivo