Mesa de la izquierda Introduction Hypothesis testing 2.1 Introduction 2.2 Bayesian statistics 2.3 Test martingales 2.4 p-values 2.5 Optional Stopping and Peeking 2.6 Combining p-values and Optional Continuation 2.7 A/B testing Safe Tests 3.1 Introduction 3.2 Classical t-test 3.3 Safe t-test 3.4 χ2 -test 3.5 Safe Proportion Test Safe Testing Simulations 4.1 Introduction and 4.2 Python Implementation 4.3 Comparing the t-test with the Safe t-test 4.4 Comparing the χ2 -test with the safe proportion test Mixture sequential probability ratio test 5.1 Sequential Testing 5.2 Mixture SPRT 5.3 mSPRT and the safe t-test Online Controlled Experiments 6.1 Safe t-test on OCE datasets Vinted A/B tests and 7.1 Safe t-test for Vinted A/B tests 7.2 Safe proportion test for sample ratio mismatch Conclusion and References 6 Experimentos controlados en línea A medida que la adopción de las pruebas A/B ha aumentado, las nuevas metodologías estadísticas se han proliferado de manera similar. Técnicas de reducción de variaciones como CUPED [Den+13] y nuevas pruebas estadísticas como mSPRT [Joh+17] se han convertido en técnicas estándar en varias compañías de tecnología. El paisaje de las pruebas A/B se está volviendo cada vez más aglomerado con métodos innovadores, pero no hay un punto de referencia con el que comparar y contrastar fácilmente. Para abordar este problema, los investigadores del Imperial College London han compilado una serie de conjuntos de datos para experimentos controlados en línea (OCE) [Liu+22]. Estos conjuntos de datos contienen datos reales de ensayos controlados aleatorios llevados a cabo en línea, así como algunos resultados sintet Los conjuntos de datos OCE son una taxonomía de 13 conjuntos de datos anónimos que se encuentran en todo el Internet. Los conjuntos de datos contienen instantáneas diarias de cuatro métricas medidas en 78 experimentos y hasta tres variantes. Un caso de uso potencial para los conjuntos de datos OCE es el benchmarking de los métodos de detención opcionales, ya que los métodos recién desarrollados pueden tener suposiciones irrealistas para garantizar la validez de sus resultados. La disponibilidad de snapshots diarios en los conjuntos de datos significa que se puede aplicar un enfoque semi-sequencial a la prueba. En el documento, mSPRT se compara con la prueba t clásica para validar la prueba en los conjuntos de datos OCE. En esta sección, se llevará a cabo la prueba t segura sobre la recopilación de conjuntos de datos OCE, y los resultados se compararán con la prueba t clásica y la mSPRT. 6.1 Teste seguro en los conjuntos de datos OCE Como hemos visto en la Figura 4 (derecha), las dos pruebas no siempre llegan a la misma conclusión para cada conjunto de datos. Sin embargo, dado que la prueba t es la prueba estadística más utilizada para la prueba A/B, es importante contrastar los resultados para comprender las situaciones en las que los resultados difieren. La prueba de t seguro detecta muchos más efectos que la prueba de t clásica. Mientras que, en teoría, la tasa falsa positiva de la prueba de t segura debe estar por debajo de α, parece improbable que todas estas rechazas de H0 correspondan a efectos reales. Después de analizar el comportamiento de los valores de E durante estos experimentos, concluimos que el alto número de rechazas de H0 probablemente tenga que ver con el efecto de novedad. Como se mencionó anteriormente, el efecto de novedad se refiere a una mayor atención a la función poco después de su lanzamiento. El resultado es que se viola la suposición de los datos independientes e idénticamente distribuidos, con evidencias contra la hipótesis nula para acumularse rápidamente. Para una prueba de muestra fija, esto es menos de un problema porque la distribución revuelve durante Sin embargo, la prueba segura rechaza aún más de las hipótesis que la mSPRT. Esto es probable porque la prueba segura es más sensible que la mSPRT y reacciona más fuertemente a los datos que contradicen la hipótesis nula. El autor: 1 Daniel Beasley Author: 1 Daniel Beasley Este artículo está disponible en archivo bajo la licencia ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Este documento es bajo la licencia ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Disponible en Archivo Disponible en Archivo