Mesa da Esquerda Introduction Hypothesis testing 2.1 Introduction 2.2 Bayesian statistics 2.3 Test martingales 2.4 p-values 2.5 Optional Stopping and Peeking 2.6 Combining p-values and Optional Continuation 2.7 A/B testing Safe Tests 3.1 Introduction 3.2 Classical t-test 3.3 Safe t-test 3.4 χ2 -test 3.5 Safe Proportion Test Safe Testing Simulations 4.1 Introduction and 4.2 Python Implementation 4.3 Comparing the t-test with the Safe t-test 4.4 Comparing the χ2 -test with the safe proportion test Mixture sequential probability ratio test 5.1 Sequential Testing 5.2 Mixture SPRT 5.3 mSPRT and the safe t-test Online Controlled Experiments 6.1 Safe t-test on OCE datasets Vinted A/B tests and 7.1 Safe t-test for Vinted A/B tests 7.2 Safe proportion test for sample ratio mismatch Conclusion and References 6 Experiências online controladas Como a adoção de testes A/B tem aumentado, novas metodologias estatísticas têm proliferado de forma semelhante. Técnicas de redução de variação como CUPED [Den+13] e novos testes estatísticos como mSPRT [Joh+17] tornaram-se técnicas padrão em várias empresas de tecnologia. O cenário de testes A/B está se tornando cada vez mais lotado com métodos inovadores, mas não há um benchmark com o qual compará-los facilmente e contrastá-los. Para resolver este problema, pesquisadores do Imperial College London compilaram uma série de conjuntos de dados para experimentos controlados on-line (OCE) [Liu+22]. Esses conjuntos de dados contêm dados reais de testes controlados aleatórios realizados on-line, bem como alguns resultados sintetizados. Coletivamente conhecidos como Os conjuntos de dados OCE são uma taxonomia de 13 conjuntos de dados anónimos encontrados em toda a Internet. Os conjuntos de dados contêm instantâneos diários de quatro métricas medidos em 78 experimentos e até três variantes. Os dados dos experimentos podem ser binários, inteiros ou real-valorizados, permitindo uma ampla gama de metodologias estatísticas para ser testado. Um caso de uso potencial para os conjuntos de dados OCE é a comparação de métodos opcionais de parada, uma vez que os métodos recém-desenvolvidos podem ter pressupostos irrealistas para garantir a validade de seus resultados. A disponibilidade de snapshots diários nos conjuntos de dados significa que uma abordagem semi-sequencial ao teste pode ser aplicada. No artigo, o mSPRT é comparado ao teste t clássico para validar o teste nos conjuntos de dados OCE. Nesta seção, o teste t seguro será realizado sobre a coleta de conjuntos de dados OCE, e os resultados comparados com o teste t clássico e o mSPRT. 6.1 Teste seguro em conjuntos de dados OCE Como vimos na Figura 4 (direita), os dois testes nem sempre chegam à mesma conclusão para cada conjunto de dados. No entanto, uma vez que o teste t é o teste estatístico mais amplamente utilizado para testes A/B, é importante contrastar os resultados para entender as situações em que os resultados diferem. O teste t seguro detecta muitos mais efeitos do que o teste t clássico. Enquanto, em teoria, a taxa positiva falsa do teste t seguro deve ser abaixo de α, parece improvável que todas essas rejeições de H0 correspondam a efeitos reais. Seguindo a análise do comportamento dos valores E durante esses experimentos, concluímos que o alto número de rejeições H0 provavelmente tem a ver com o efeito novidade. Como mencionado anteriormente, o efeito novidade refere-se a um aumento da atenção para o recurso logo após a sua liberação. O resultado é que a suposição de dados independentes e idênticos distribuídos é violada, com evidências contra a hipótese nula para acumular rapidamente. Para um teste de amostra fixa, isso é menos de um problema porque a distribuição reverte durante o curso de um experimento. Não surpreendentemente, dado o comportamento observado na Figura 8, as hipóteses nulas rejeitadas pelo mSPRT são igualmente rejeitadas pelo teste t seguro. No entanto, o teste seguro rejeita ainda mais das hipóteses do que o mSPRT. Isto é provável porque o teste seguro é mais sensível do que o mSPRT e reage mais fortemente a dados que contradizem a hipótese nula. O autor: 1 – Daniel Beasley Author: 1 – Daniel Beasley Este artigo está disponível em arquivo sob a licença ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Este artigo está disponível em arquivo sob a licença ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Disponível em Arquivo