El autor: 1 Daniel Beasley Author: 1 Daniel Beasley Mesa de la izquierda Introduction Hypothesis testing 2.1 Introduction 2.2 Bayesian statistics 2.3 Test martingales 2.4 p-values 2.5 Optional Stopping and Peeking 2.6 Combining p-values and Optional Continuation 2.7 A/B testing Safe Tests 3.1 Introduction 3.2 Classical t-test 3.3 Safe t-test 3.4 χ2 -test 3.5 Safe Proportion Test Safe Testing Simulations 4.1 Introduction and 4.2 Python Implementation 4.3 Comparing the t-test with the Safe t-test 4.4 Comparing the χ2 -test with the safe proportion test Mixture sequential probability ratio test 5.1 Sequential Testing 5.2 Mixture SPRT 5.3 mSPRT and the safe t-test Online Controlled Experiments 6.1 Safe t-test on OCE datasets Vinted A/B tests and 7.1 Safe t-test for Vinted A/B tests 7.2 Safe proportion test for sample ratio mismatch Conclusion and References 1 Introducción Los ensayos controlados aleatorios (RCTs) son el estándar de oro para inferir relaciones causales entre tratamientos y efectos. Son ampliamente aplicados por los científicos para profundizar la comprensión de sus disciplinas. En las últimas dos décadas, han encontrado aplicaciones en productos digitales también, bajo el nombre de prueba A/B. Una prueba A/B es una prueba RCT simple para comparar el efecto de un tratamiento (grupo B) a un control (grupo A). Los dos grupos se comparan con una prueba estadística que se utiliza para tomar una decisión sobre el efecto. Casi todas las pruebas estadísticas para las pruebas A/B se basan en las pruebas de horizonte fijo. Esta configuración de pruebas implica determinar el número de usuarios necesarios para la prueba, recopilar los datos y finalmente analizar los resultados. Sin embargo, este método de pruebas no se alinea con las capacidades en tiempo real de la infraestructura de datos moderna y el deseo de los experimentadores de tomar decisiones rápidamente. Las metodologías estadísticas recientemente desarrolladas permiten a los experimentadores realizar pruebas de horizonte fijo y analizar los resultados de las pruebas en cualquier momento. La prueba segura es una nueva teoría estadística que cumple estos objetivos. Como veremos, la prueba segura A/B permite a los experimentadores monitorear continuamente los resultados de sus experimentos sin aumentar el riesgo de sacar conclusiones incorrectas. Además, veremos que requiere menos datos que las pruebas estadísticas estándar para lograr estos resultados. Las grandes compañías de tecnología están actualmente explorando AVI en capacidades limitadas, pero la prueba segura supera las pruebas disponibles en términos del número de muestras necesarias para detectar efectos significativos. Esta tesis contiene 6 secciones. Sección 2 contiene una introducción a la prueba de hipótesis, así como otros conceptos estadísticos que son relevantes para el lector. También explica cómo la inflexibilidad de las pruebas estadísticas clásicas causa problemas para los profesionales. Sección 3 introduce los conceptos de la prueba segura. Además, deriva las estadísticas de pruebas para la prueba segura t y la prueba de proporción segura. Sección 4 simula el rendimiento de las estadísticas seguras y las compara con sus alternativas clásicas. Sección 5 compara la prueba segura t con otra prueba válida en cualquier momento, la prueba de probabilidad secuencial de mezcla (mSPRT). Sección 6 compara la prueba segura t y la mSPRT en una amplia gama de datos de experimentos en línea. Finalmente, Sección 7 se dedica a comparar las pruebas seguras con las pruebas Este artículo está disponible en archivo bajo la licencia ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Este documento es bajo la licencia ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Disponible en Archivo Disponible en Archivo