Mesa da esquerda Introduction Hypothesis testing 2.1 Introduction 2.2 Bayesian statistics 2.3 Test martingales 2.4 p-values 2.5 Optional Stopping and Peeking 2.6 Combining p-values and Optional Continuation 2.7 A/B testing Safe Tests 3.1 Introduction 3.2 Classical t-test 3.3 Safe t-test 3.4 χ2 -test 3.5 Safe Proportion Test Safe Testing Simulations 4.1 Introduction and 4.2 Python Implementation 4.3 Comparing the t-test with the Safe t-test 4.4 Comparing the χ2 -test with the safe proportion test Mixture sequential probability ratio test 5.1 Sequential Testing 5.2 Mixture SPRT 5.3 mSPRT and the safe t-test Online Controlled Experiments 6.1 Safe t-test on OCE datasets Vinted A/B tests and 7.1 Safe t-test for Vinted A/B tests 7.2 Safe proportion test for sample ratio mismatch Conclusion and References 6 Experimentos controlados en liña Como a adopción de probas A/B aumentou, as novas metodoloxías estatísticas proliferaron de forma similar. Técnicas de redución de variacións como CUPED [Den+13] e novas probas estatísticas como mSPRT [Joh+17] convertéronse en técnicas estándar en varias empresas de tecnoloxía. O panorama de probas A/B está a ser cada vez máis cheo de métodos innovadores, pero non hai un punto de referencia para comparalos e contrastalos facilmente. Para abordar este problema, os investigadores do Imperial College London compilaron unha serie de conxuntos de datos para experimentos controlados en liña (OCE) [Liu+22]. Estes conxuntos de datos conteñen datos reais de ensaios controlados aleatorios realizados en liña, así como algúns resultados sintetizados. Colectivamente coñecidos como conxuntos de datos OCE, poden usarse para Os conxuntos de datos OCE son unha taxonomía de 13 conxuntos de datos anónimos que se atopan en todo o Internet. Os conxuntos de datos conteñen instantáneas diarias de catro métricas medidas en 78 experimentos e ata tres variantes. Os datos dos experimentos poden ser binarios, enteiros ou reais, o que permite probar unha ampla gama de metodoloxías estatísticas. Un caso potencial de uso para os conxuntos de datos OCE é o benchmarking de métodos de parada opcionais, xa que os métodos recentemente desenvolvidos poden ter suposicións irrealistas para garantir a validez dos seus resultados. A dispoñibilidade de instantáneas diarias nos conxuntos de datos significa que se pode aplicar un enfoque semi-sequencial para a proba. Nesta sección, realizarase a proba segura t sobre a recollida de conxuntos de datos OCE, e os resultados compararanse tanto coa proba t clásica como coa mSPRT. 6.1 Teste seguro en conxuntos de datos OCE Como vimos na Figura 4 (dereita), as dúas probas non sempre chegan á mesma conclusión para cada conxunto de datos. Con todo, xa que a t-test é a proba estatística máis amplamente utilizada para probas A/B, é importante contrastar os resultados para comprender as situacións nas que os resultados difiren. A proba segura t detecta moitos máis efectos que a proba t clásica. Mentres, en teoría, a taxa positiva falsa da proba segura t debería estar por baixo de α, parece improbable que todas estas rexeitamentos de H0 correspondan a efectos reais. Despois da análise do comportamento dos valores E durante estes experimentos, concluímos que o gran número de rexeitamentos H0 probablemente teña que ver co efecto novidade. Como se mencionou anteriormente, o efecto novidade refírese a unha maior atención á característica pouco despois da súa publicación. O resultado é que se viola a suposición de que os datos independentes e idénticamente distribuídos son violados, con evidencias contra a hipótese cero para acumularse rapidamente. Para unha proba de mostra fixa isto é menos dun problema porque a distribución reverte durante o curso dun experimento. Con todo, para probas seguras isto Non é sorprendente, dado o comportamento observado na Figura 8, que as hipóteses nulas rexeitadas polo mSPRT son similarmente rexeitadas pola proba segura t. Con todo, a proba segura rexeita aínda máis das hipóteses que a mSPRT. Isto é probable porque a proba segura é máis sensible que a mSPRT e reacciona máis fortemente aos datos que contrastan coa hipótese nula. O autor: Categoría: Daniel Beasley Author: Categoría: Daniel Beasley Este artigo está dispoñible en arquivo baixo a licenza ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Este documento é Licenza ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNACIONAL. Dispoñible en arquivo Dispoñible en arquivo