En la última década, las pruebas A/B se han convertido en el método estándar para la toma de decisiones de productos en empresas de tecnología. Ofrecen un enfoque científico al desarrollo de productos, utilizando pruebas hipotéticas estadísticas para controlar los riesgos de decisiones incorrectas. Por lo general, se utilizan múltiples métricas en las pruebas A/B para servir a diferentes fines, como establecer pruebas de éxito, proteger contra regresiones o verificar la validez de las pruebas. Para mitigar los riesgos en las pruebas A/B con resultados múltiples, es crucial adaptar el diseño y el análisis a los diversos roles de estos resultados. Este documento introduce el marco teórico para las reglas de decisión que guían la evaluación de los experimentos en Spotify. En primer lugar, mostramos que si se utilizan métricas de vigilan Autores: (1) Mårten Schultzberg, equipo de Experimentation Platform, Spotify, Estocolmo, Suecia; (2) Sebastian Ankargren, equipo de Experimentation Platform, Spotify, Estocolmo, Suecia; (3) Mattias Frånberg, equipo de Experimentation Platform, Spotify, Estocolmo, Suecia. Los autores: Los autores: (1) Mårten Schultzberg, equipo de Experimentation Platform, Spotify, Estocolmo, Suecia; (2) Sebastian Ankargren, equipo de Experimentation Platform, Spotify, Estocolmo, Suecia; (3) Mattias Frånberg, equipo de Experimentation Platform, Spotify, Estocolmo, Suecia. Tabla de enlaces Abstract y 1 Introducción Abstract y 1 Introducción 1.1 Literatura relacionada 1.1 Literatura relacionada a a href="https://hackernoon.com/preview/wBWrdWHanIIz2yQ4jdAr">Tipos de Metricas y Su Hipótesis y 2.1 Tipos de Metricas a a a href="https://hackernoon.com/preview/wBWrdWHanIIz2yQ4Ar">2.2 Hipótesis para diferentes tipos de Metricas y Su Hipótesis a a a href="https://hackernoon.com/preview a a a a a a a a a a a a a Tipos de Metricas y Su Hipótesis y 2.1 Tipos de Metricas 2.2 Hipótesis para diferentes tipos de Metricas Tipos de Metricas y Su Hipótesis y 2.1 Tipos de Metricas Tipos de Metrías y Su Hipótesis y 2.1 Tipos de Metrías 2.2 Hipótesis para diferentes tipos de métricas 2.2 Hipótesis para diferentes tipos de métricas Tipo I y Tipo II Taxas de Error para Reglas de Decisión incluyendo Superioridad y No-Inferioridad Tests 3.1 Las hipótesis compuestas de la superioridad y no-inferioridad de las pruebas Tipo I y Tipo II tasas de error para las reglas de decisión incluyendo las pruebas de superioridad y no inferioridad Tipos I y Tipo II tasas de error para las reglas de decisión incluyendo las pruebas de superioridad y no inferioridad 3.1 Las hipótesis compuestas de las pruebas de superioridad y no inferioridad 3.1 Las hipótesis compuestas de las pruebas de superioridad y no inferioridad 3.2 Limitar las tasas de error de tipo I y tipo II para las pruebas de UI e IU 3.2 Limitar las tasas de error de tipo I y tipo II para las pruebas de UI e IU 3.3 Limitar las tasas de error para una regla de decisión incluyendo tanto el éxito como las métricas de guardrail 3.3 Limitar las tasas de error para una regla de decisión incluyendo tanto el éxito como las métricas de guardrail 3.4 Correcciones de potencia para pruebas de no inferioridad 3.4 Correcciones de potencia para pruebas de no inferioridad Extender la Regla de Decisión con Deterioro y Metricas de Calidad Extender la Regla de Decisión con Deterioro y Metricas de Calidad Extender la Regla de Decisión con Deterioro y Metrías de Calidad Monte Carlo Simulation Study 5.1 Resultados Monte Carlo Simulation Study Monte Carlo Simulation Study 5.1 Resultados 5.1 Resultados Discusión y Conclusiones Discusión y Conclusiones Discusión y Conclusiones APPENDIX A: IMPROVIENDO LA EFICIENCIA DE LA PROPOSICIÓN 4.1 CON ASSUMPTIONES ADICIONARIOS APPENDIX A: APPENDIX A: IMPROVIENDO LA EFFICIENCIA DE LA PROPOSICIÓN 4.1 CON ASSUMCIONES ADDICIONALES APPENDIX B: EJEMPLOS DE PROBLEMAS GLOBALES FALSO Y VERDADES APPENDIX B: APPENDIX B: EJEMPLOS DE PROBLEMAS GLOBALES FALSO Y VERDADERO APPENDIX C: NOTAS SOBRE TESTAMENTO SECUENTAL DE DETERIORACIÓN APPENDIX C: APPENDIX C: NOTA SOBRE TESTAMENTO SECUENTAL DE DETERMINACIÓN APPENDIX D: USANDO EL MÉTODO DE NYHOLT DE NÚMERO EFICIENTE DE TESTES INDEPENDENTES APPENDIX D: APPENDIX D: USANDO EL MÉTODO DE NYHOLT DE NÚMERO EFICIENTE DE TESTES INDEPENDENTES Reconocimientos y Referencias Reconocimientos y Referencias Abstracto 1 Introducción Los experimentos aleatorios son el estándar de oro para proporcionar evidencia de relaciones causales.Las empresas de tecnología modernas utilizan pruebas A/B, un ensayo controlado aleatorio en un entorno digital, extensivamente para evaluar la eficacia de los nuevos cambios a sus productos.Estos productos incluyen aplicaciones de compartir vuelos, motores de búsqueda, servicios de streaming, recomendaciones, y más.En última instancia, el objetivo de estos experimentos es decidir si o no lanzar un cambio de producto más ampliamente. La mayor parte de la literatura sobre inferencia estadística para experimentos aleatorios se centra en una única prueba de hipótesis de un único resultado, y cómo vincular las tasas de error de tipo I y tipo II para esa prueba. Sin embargo, los experimentos no son pruebas univariadas de resultados aislados. En cambio, los riesgos que importan son los riesgos de tomar la decisión incorrecta para el producto. Por ejemplo, en una compañía de tecnología como Spotify, queremos limitar cuántas veces publicamos cambios de producto que muestran una mejora cuando realmente no hay, y cuántas veces nos abstemos de publicar cambios que conduzcan a mejoras pero no lo encontramos. Estos tipos de decisiones suelen incluir resultados de varias pruebas de hipótesis. Los experimentos generalmente implican resultados para múltiples resultados, y tomar una única decisión basada en En la literatura de experimentación en línea, el único aspecto de la toma de decisiones de múltiples pruebas que está ampliamente cubierto es la corrección de pruebas múltiples. Las correcciones de pruebas múltiples, como Bonferroni, Holm [7] y Hommel [8], vinculan la tasa de error de tipo I de una regla de decisión implícita que declara qué decisión tomará basándose en los resultados de las pruebas de hipótesis individuales. Como discutiremos ampliamente en este artículo, a menos que su regla de decisión deseada coincida con la regla implícita por la corrección de pruebas múltiples, suele ser incorrecta. En este artículo, mostramos cómo es posible formalizar el proceso de toma de decisiones de los experimentos sin abandonar el marco de prueba de hipótesis estándar.La clave para asegurar que obtienes los límites de riesgo pretendidos para la decisión del producto es especificar explícitamente una regla de decisión.Una regla de decisión especifica exhaustivamente qué decisión de producto tomarás basándose en los resultados de tu experimento. La articulación de la regla de decisión es importante por varias razones.No estar claro sobre qué resultados conducen a una decisión de producto positiva significa que no existe un mecanismo para controlar adecuadamente los riesgos del experimento en el nivel que importa a la empresa, es decir, la decisión de enviar la característica o no. Además, la falta de una regla de decisión articulada y estandarizada puede significar que diferentes equipos o partes de la organización se adhieren a diferentes estándares. El marco de reglas de decisión ayuda a estandarizar el análisis de los experimentos y es una herramienta útil para las plataformas de experimentación. Lo que la regla de decisión incluye puede hacerse más o menos flexible. Por ejemplo, los nuevos experimentos pueden ser forzados a demostrar que las métricas importantes de la empresa no están afectadas negativamente mientras la selección del conjunto de métricas que deben mostrar una mejora se hace completamente a cargo del experimentador. Incluso si la elección de métricas es completamente arbitraria sin métricas obligatorias por la plataforma, el enfoque de la regla de decisión promueve una comprensión compartida de lo que es un experimento exitoso. A lo largo de este artículo, y sin pérdida de generalidad, sólo consideramos experimentos con dos grupos para simplificar la notación. Además, solo consideramos pruebas unilaterales, aunque más de una prueba unilateral podría aplicarse a cada métrica. Nos limitamos a pruebas unilaterales ya que debe haber una dirección prevista para un cambio en la métrica para mapear una mejora mensurable en el producto. Para la simplicidad, asumimos que todas las métricas mejoran cuando aumentan. Además, asumimos que cada prueba de hipótesis estadística es válida y logra sus tasas de error de tipo I y tipo II exactamente si el experimento está diseñado de acuerdo. Este documento es bajo la licencia CC BY 4.0 DEED. disponible en arxiv Este artículo es bajo la licencia CC BY 4.0 DEED. disponible en arxiv disponible en arxiv disponible en archiv