Mesa da esquerda Introduction Hypothesis testing 2.1 Introduction 2.2 Bayesian statistics 2.3 Test martingales 2.4 p-values 2.5 Optional Stopping and Peeking 2.6 Combining p-values and Optional Continuation 2.7 A/B testing Safe Tests 3.1 Introduction 3.2 Classical t-test 3.3 Safe t-test 3.4 χ2 -test 3.5 Safe Proportion Test Safe Testing Simulations 4.1 Introduction and 4.2 Python Implementation 4.3 Comparing the t-test with the Safe t-test 4.4 Comparing the χ2 -test with the safe proportion test Mixture sequential probability ratio test 5.1 Sequential Testing 5.2 Mixture SPRT 5.3 mSPRT and the safe t-test Online Controlled Experiments 6.1 Safe t-test on OCE datasets Vinted A/B tests and 7.1 Safe t-test for Vinted A/B tests 7.2 Safe proportion test for sample ratio mismatch Conclusion and References 7 Probas A/B gañadoras Vinted é un mercado en liña para a roupa e os accesorios. Desde a súa creación en 2008, gañou máis de 75 millóns de usuarios para desenvolverse rapidamente no maior mercado de roupa de segunda man de Europa. Con tal abundancia de usuarios, realiza un gran número de probas A/B simultaneamente para ofrecer a mellor experiencia para os seus usuarios. Isto fai de Vinted un ambiente ideal para avaliar a eficacia das probas seguras. Nesta sección, aplicamos a proba segura t e as probas de proporción segura aos datos experimentais de Vinted. A proba segura t será comparada coa proba clásica t para avaliar os resultados das probas A/B. Ademais, a proba de proporción segura será comparada coa proba χ2 como un medio para detectar a proporción incorrecta das probas. 7.1 Teste seguro para probas Vinted A / B As métricas de 162 experimentos de Vinted de marzo de 2023 a xuño de 2023 serán avaliadas para esta análise. Colectamos instantáneas diarias cumulativas de 143 métricas, que conteñen a media da métrica, a desviación estándar e o tamaño da mostra para ambos os grupos de control e de proba. Os experimentos con varias variantes son tratados como probas separadas co mesmo grupo de control. A proba segura t e a proba clásica t foron comparadas entre todas as combinacións experimentais / métricas de 42115 neste conxunto de datos. Os resultados da táboa 7 mostran que a proba segura t e a proba clásica t chegan consistentemente á mesma conclusión sobre a importancia das métricas. Os 379 casos nos que a proba segura t rexeita un H0 que a proba t non son consistentes coas simulacións que demostran que as probas non sempre concordan sobre o que constitúe un resultado significativo. O alto número de 1645 casos nos que a proba t rexeita H0 mentres que a proba segura t non son máis relevantes. A proba segura t é máis sensible cando observa os datos secuencialmente, dando máis oportunidades para rexeitar H0. Estes datos son agregados nun nivel diario, o que reduce efectivamente a potencia da proba. A proba de relación de probabilidade secuencial de mestura (mSPRT) realizouse no mesmo conxunto de experimentos. Comparar os resultados da táboa 8 coa táboa 7 mostra que o mSPRT é significativamente menor Aínda que isto se debe en parte á configuración de secuencia de grupos, os nosos resultados de simulación suxiren que o mSPRT é simplemente un test estatístico menos sensible que o seguro t-test. Volvendo aos resultados da proba segura t, descubriuse que a proba segura t realizou resultados significativamente mellores nalgunhas métricas que noutras. Aquí, analizaremos as métricas para entender por que isto é o caso. Para cuantificar o rendemento da proba segura t nunha métrica, usamos o coeficiente phi para comparar as súas decisións coa proba clásica t. O coeficiente phi, tamén coñecido como coeficiente de correlación de Matthews, utilízase para determinar a correlación de variables binarias. Para entender o propósito de cada métrica, hai unha descrición de texto do seu caso de uso dentro do marco de probas A/B de Vinted. Un resumo dos temas en cada descrición pode ser extraído con alocación de Dirichlet Latent. Latent Dirichlet Allocation (LDA Na introdución ás probas A/B mencionouse que algunhas métricas tardan moito máis en realizarse. Isto significa que os datos non serán independentes e distribuídos de forma idéntica durante os días da proba. Examinando a Táboa 9, vemos unha alta correlación entre o rendemento da proba segura e a proba t clásica sobre métricas que involucran buscas, sesións e impresións. Son todas cantidades que teñen un tempo curto entre a exposición á proba e a realización da métrica. Pola contra, a proba segura non funciona ben en métricas a longo prazo que involucran transaccións e cancelacións de pedidos. Xuntos, estes resultados suxiren que a proba segura t funcionará de forma óptima en métricas para as que os resultados están dispoñibles instantaneamente. 7.2 Probas de proporcións seguras para a equivalencia da proporción de mostra Para determinar a eficacia da proba de proporción segura e a proba χ2 na detección de desacordo de proporción de mostra (SRM), analízanse as distribucións de 195 experimentos de Vinted. A proba segura aplícase a instantáneas diarias das distribucións, mentres que a proba χ2 aplícase á distribución no último día do experimento. Para SRM, un nivel de significancia de α = 0,01 úsase para limitar o número de positivos falsos. Os valores beta anteriores de α1, β1 = 1000 utilízanse para a proba de proporción segura. A comparación dos resultados entre a proba de proporción segura e a proba χ 2 pódese ver na táboa 10. O autor: Categoría: Daniel Beasley Author: Categoría: Daniel Beasley Este artigo está dispoñible en arquivo baixo a licenza ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Este artigo está dispoñible en arquivo baixo a licenza ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Dispoñible en arquivo