Cuvânt cheie: Autori: (1) Mårten Schultzberg, echipa Platform Experimentation, Spotify, Stockholm, Suedia; (2) Sebastian Ankargren, echipa Platform Experimentation, Spotify, Stockholm, Suedia; (3) Mattias Frånberg, echipa Platform Experimentation, Spotify, Stockholm, Suedia. Autori: (1) Mårten Schultzberg, echipa Experimentation Platform, Spotify, Stockholm, Suedia; (2) Sebastian Ankargren, echipa Experimentation Platform, Spotify, Stockholm, Suedia; (3) Mattias Frånberg, echipa Experimentation Platform, Spotify, Stockholm, Suedia. Tabelul de legături Abstract și 1 Introducere Abstract și 1 Introducere 1.1 Literatură asociată 1.1 Literatură asociată În ultimul deceniu, testele A/B au devenit metoda standard de luare a deciziilor de produs în companiile de tehnologie. Acestea oferă o abordare științifică a dezvoltării produselor, folosind testarea ipotezelor statistice pentru a controla riscurile deciziilor incorecte. De obicei, mai multe metrici sunt folosite în testele A/B pentru a servi scopuri diferite, cum ar fi stabilirea dovezilor de succes, protejarea împotriva regresiunilor sau verificarea validității testelor. Pentru a atenua riscurile în testele A/B cu rezultate multiple, este esențial să se adapteze proiectarea și analiza la rolurile variate ale acestor rezultate. Acest document introduce cadrul teoretic pentru regulile de decizie care ghidează evaluarea experimentelor la Spotify. În primul rând, arătăm că dacă sunt folosite metrici de Tipuri de Metrice și Ipoteza lor și 2.1 Tipuri de Metrice 2.2 Ipotezele pentru diferite tipuri de Metrice Tipuri de Metrice și Ipoteza lor și 2.1 Tipuri de Metrice Tipuri de Metrice și Ipoteza lor și 2.1 Tipuri de Metrice 2.2 Ipoteze pentru diferite tipuri de metrici 2.2 Ipoteze pentru diferite tipuri de metrici Tipul I și Tipul II Ratele de eroare pentru Regulile de decizie, inclusiv Testele de superioritate și non-inferioritate 3.1 Ipotezele compozite ale testelor de superioritate și non-inferioritate Rata de eroare de tip I și de tip II pentru regulile de decizie, inclusiv testele de superioritate și non-inferioritate Rata de eroare de tip I și de tip II pentru regulile de decizie, inclusiv testele de superioritate și non-inferioritate 3.1 Hipotezele compozite ale testelor de superioritate și non-inferioritate 3.1 Hipotezele compozite ale testelor de superioritate și non-inferioritate 3.2 Limitarea ratei de eroare a tipului I și a tipului II pentru testarea UI și a UI 3.2 Limitarea ratelor de eroare de tip I și tip II pentru testarea UI și IU 3.3 Limitarea ratelor de eroare pentru o regulă de decizie, inclusiv atât succesul, cât și metrica gardrail 3.3 Limitarea ratelor de eroare pentru o regulă de decizie, inclusiv atât succesul, cât și metrica gardrail 3.4 Corecții de putere pentru testarea non-inferiorității 3.4 Corecții de putere pentru testarea non-inferiorității Extinderea regulii de decizie cu deteriorare și Metrice de calitate Extinderea regulii deciziei cu deteriorarea și metrica calității Extinderea regulii deciziei cu deteriorarea și metrica calității Monte Carlo Simulation Study 5.1 Rezultate Studiu de simulare de la Monte Carlo Studiu de simulare de la Monte Carlo 5.1 Rezultate 5.1 Rezultate Discuție și concluzii Discuție și concluzii Discuție și concluzii APPENDIX A: Îmbunătățirea Eficienței PROPUNȚIEI 4.1 CU ASUMȚII ADDITIVE APPENDIX A: APPENDIX A: Îmbunătățirea Eficienței PROPUNERII 4.1 CU ASUMĂTORI ADDATORI APPENDIX B: EXEMPLE DE RATE FALSE ȘI VERITIVE POTITIVE GLOBALE APPENDIX B: APPENDIX B: EXEMPLE DE RATE FALSE ȘI VERITATE POSITIVE APPENDIX C: O NOTĂ PENTRU TESTAREA SEQUENTIALĂ DE DETERIORARE APPENDIX C: APPENDIX C: O notă privind testarea secvențială a deteriorării APPENDIX D: USING NYHOLT’S METHOD OF EFFICIENT NUMĂR DE TESTĂRI DE INDEPENDENȚĂ APPENDIX D: APPENDIX D: Folosind metoda NYHOLT a numărului eficient de teste independente Recunoștințe și referințe Recunoștințe și referințe Abstract 1 Introducere Experimentele randomizate sunt standardul de aur pentru furnizarea de dovezi privind relațiile cauzale. Companiile tehnologice moderne folosesc testele A/B, un test randomizat controlat într-un cadru digital, pentru a evalua pe scară largă eficacitatea noilor modificări ale produselor lor.Aceste produse includ aplicații de partajare a călătoriilor, motoare de căutare, servicii de streaming, recomandări și multe altele. Majoritatea literaturii referitoare la inferența statistică pentru experimentele randomizate se concentrează pe un singur test de ipoteză a unui singur rezultat și cum să legăm ratele de eroare de tip I și de tip II pentru acel test. Cu toate acestea, experimentele nu sunt teste univariate ale rezultatelor izolate. În schimb, riscurile care contează sunt riscurile de a lua decizia greșită pentru produs. De exemplu, la o companie tehnologică precum Spotify, vrem să limităm cât de des lansăm modificări ale produsului care arată o îmbunătățire atunci când nu există cu adevărat, și cât de des ne abținem de la lansarea modificărilor care conduc la îmbunătățiri, dar nu găsim. Aceste tipuri de decizii includ de obicei rezultate din mai multe teste de ipoteză. Experimentele implic În literatura de experimentare online, singurul aspect al luării deciziilor pe mai multe teste care este acoperit pe scară largă este corecția prin teste multiple. Corecțiile prin teste multiple, cum ar fi Bonferroni, Holm [7] și Hommel [8], au legat rata de eroare de tip I a unei reguli implicite de decizie care declară ce decizie veți lua pe baza rezultatelor testelor de ipoteză individuale. După cum vom discuta pe scară largă în acest articol, cu excepția cazului în care regula de decizie dorită corespunde regulii implicite de corecția prin teste multiple, este de obicei incorectă. În acest document, vă arătăm cum este posibil să formalizați procesul de luare a deciziilor experimentelor fără a părăsi cadrul standard de testare a ipotezelor. Cheia pentru a vă asigura că obțineți limitele de risc prevăzute pentru decizia produsului este să specificați în mod explicit o regulă de decizie. O regulă de decizie specifică în mod exhaustiv ce decizie de produs veți lua pe baza rezultatelor experimentului. Articularea regulii deciziei este importantă din mai multe motive. neclaritatea cu privire la rezultatele care conduc la o decizie pozitivă a produsului înseamnă că nu există niciun mecanism pentru a controla în mod corespunzător riscurile experimentului la nivelul care contează pentru companie, și anume decizia de a livra caracteristica sau nu. Cadrul de reguli de decizie ajută la standardizarea analizei experimentelor și este un instrument util pentru platformele de experimentare. Ceea ce include regula de decizie poate fi făcut mai mult sau mai puțin flexibil. De exemplu, experimentele noi pot fi forțate să demonstreze că metricile importante ale companiei nu sunt afectate negativ în timp ce selectarea setului de metrici care ar trebui să arate o îmbunătățire este făcută în întregime de către experimentator. Chiar dacă alegerea metricilor este complet arbitrară, fără metricile făcute obligatorii de platformă, abordarea de reguli de decizie promovează o înțelegere comună a ceea ce este un experiment de succes. De-a lungul acestei lucrări, și fără a pierde generalitatea, considerăm doar experimentele cu două grupuri pentru a simplifica notarea. În plus, considerăm doar testele unilaterale, deși mai mult de un test unilateral ar putea fi aplicat fiecărei metrici. Ne limităm la testele unilaterale, deoarece trebuie să existe o direcție intenționată pentru o schimbare în metrică pentru a cartografia o îmbunătățire măsurabilă a produsului. Pentru simplitate, presupunem că toate metricile se îmbunătățesc atunci când cresc. Mai mult, presupunem că fiecare test de ipoteză statistică este valid și atinge ratele de eroare de tip I și de tip II exact dacă experimentul este proiectat în consecință. Acest document este sub licența CC BY 4.0 DEED. disponibil pe arxiv Acest document este sub licența CC BY 4.0 DEED. disponibil pe arxiv disponibil pe arxiv disponibil pe arhiv