У последњој деценији, А / Б тестови су постали стандардни метод за доношење одлука о производу у технолошким компанијама. Они нуде научни приступ развоју производа, користећи статистичке хипотеза тестирање да контролишу ризике од погрешних одлука. Типично, више метрике се користе у А / Б тестовима да служе различитим сврхама, као што су успостављање доказа о успјеху, чување од регресија, или верификовање валидности теста. Да би се смањили ризици у А / Б тестовима са вишеструким исходима, кључно је прилагодити дизајн и анализу различитим улогама ових исхода. Овај документ уводи теоријски оквир за правила која усмеравају оцењивање експеримената на Спотифију. Прво, показујемо Аутори: (1) Mårten Schultzberg, team Experimentation Platform, Spotify, Stockholm, Sweden; (2) Sebastian Ankargren, team Experimentation Platform, Spotify, Stockholm, Sweden; (3) Mattias Frånberg, team Experimentation Platform, Spotify, Stockholm, Sweden. Аутори: Аутори: (1) Mårten Schultzberg, tim Experimentation Platform, Spotify, Stockholm, Švedska; (2) Себастијан Анкаргрен, тим Experimentation Platform, Spotify, Стокхолм, Шведска; (3) Mattias Frånberg, tim Experimentation Platform, Spotify, Stockholm, Švedska. Табела линкова Апстракт и 1 Увод Абстракт и 1 Увод 1.1 Сродној литератури 1.1 Сродној литератури Типови метрике и њихова хипотеза и 2.1 Типови метрике 2.2 Хипотезе за различите врсте метрике Типови метрике и њихова хипотеза и 2.1 Типови метрике Типови метрике и њихова хипотеза и 2.1 Типови метрике 2.2 Хипотезе за различите врсте метрике 2.2 Хипотезе за различите врсте метрике Тип И и Тип ИИ грешке стопе за одлучивање правила укључујући супериорност и не-инфериорност тестова 3.1 Композитна хипотеза за супериорност и не-инфериорност тестова Тype I and Type II Error Rates for Decision Rules including Superiority and Non-Inferiority Tests Тype I and Type II Error Rates for Decision Rules including Superiority and Non-Inferiority Tests 3.1 Композитне хипотезе тестова супериорности и неинфериорности 3.1 Композитне хипотезе теста супериорности и неинфериорности 3.2 Ограничавање нивоа грешке типа I и типа II за тестирање УИ и ИУ 3.2 Ограничавање нивоа грешке типа I и типа II за тестирање УИ и ИУ 3.3 Ограничавање стопе грешака за правило одлучивања укључујући и успех и метрику гардраил 3.3 Ограничавање стопе грешака за правило одлучивања, укључујући и успех и мерке гардраила 3.4 Повер корекције за не-инфериорност тестирање 3.4 Повер корекције за не-инфериорност тестирање Проширивање правила одлуке са погоршањем и критеријумима квалитета Проширивање правила одлучивања са погоршањем и критеријумима квалитета Проширивање правила одлуке са погоршањем и квалитетом метрике Monte Carlo Simulation Study 5.1 Rezultati Истраживање симулације Монте Карло Истраживање симулације Монте Карло 5.1 Резултати 5.1 Резултати Разговор и закључци Разговор и закључци Разговор и закључци АПРЕДИЦИЈА А: УПРАВЉАВАЊЕ ЕФФФЕКТИВНОСТИ ПРЕДЛОЖЕЊА 4.1 СА ДАННИМ АСУМПЦИЈАМА АПЕНДИКС А: АПЕНДИКС А: УПРАВЉАЊЕ ЕФФФЕКТИВНОСТИ ПРЕДЛОЖЕЊА 4.1 СА ДОПОДНИМ ПРЕДЛОЖЕЊАМА АПЕНДИКС Б: ПРИМЈЕЛИ ГЛОБАЛНЕ ЛАЖНЕ И ИСТИННЕ ПОЗИТИВНЕ ПРОЦЕСЕ АПЕНДИКС Б: АПЕНДИКС Б: ПРИМЕРИ ГЛОБАЛНОГ ЛАЖНОГ И ИСТИННОГ ПОЗИТИВНОГ ПРОЦЕТА АПЕНДИКС Ц: НАПОМЕНА О СЕКВЕНТИЈСКОМ ТЕСТУ НА ДЕТЕРИЈАЦИЈУ АПЕНДИКС Ц: АПЕНДИКС Ц: НАПОМЕНА О СЕКВЕНТИЈСКОМ ТЕСТУЊУ ЗА ДЕТЕРАЦИЈУ АПЕНДИКС Д: Коришћење НИХОЛТ метода ЕФФФИЦИЈАЛНОГ Броја Независних Теста АПЕНДИКС Д: АПЕНДИКС Д: Коришћење НИХОЛТ-овог метода ЕФФФИЦИЈАЛНОГ БРОЈА НЕЗАВИСНИХ ТЕСТА Упознавање и референце Упознавање и референце Абстракт <п>У онлине литератури за експериментисање, једини аспект доношења одлука на више тестова који је широко покривен је корекција на више тестова. Корекције на више тестова, као што су Бонферони, Холм [7] и Хомел [8], везују брзину грешке типа И подразумеване одлуке која указује на одлуку коју ћете донети на основу резултата појединачних тестова хипотезе. Као што ћемо детаљно размотрити у овом чланку, осим ако ваше жељено правило одлуке не одговара правилу подразумеваном корекцијом на више тестова, обично је погрешно. <п>У овом документу, показујемо како је могуће формализовати процес доношења одлука експеримената без напуштања стандардног оквира за тестирање хипотезе. Кључ за осигурање да добијете предвиђене границе ризика за одлуку о производу је да експлицитно наведете правило одлуке. Правило одлуке свеобухватно одређује коју одлуку о производу ћете донети на основу резултата вашег експеримента. <п>Картикулисање правила одлуке је важно из неколико разлога. Нејасност о томе који резултати доводе до позитивне одлуке о производу значи да не постоји механизам за правилно контролисање ризика експеримента на нивоу који је важан за компанију, односно одлуку о испоруци функције или не.Поред тога, недостатак артикулисаног и стандардизованог правила одлуке може значити да се различити тимови или делови организације држе различитих стандарда. <п>Рамка правила одлучивања помаже у стандардизацији анализе експеримената и користан је алат за платформе за експериментисање. Оно што правило одлучивања укључује може бити учињено више или мање флексибилно. На пример, нови експерименти могу бити присиљени да покажу да важне метрике компаније нису негативно утицане док бирају скуп метрика које би требало да покажу побољшање је у потпуности до експериментатора. Чак и ако је избор метрике потпуно произвољан без метрика које је платформа учинила обавезним, приступ правила одлучивања промовише заједничко разумијевање онога што је успешан експеримент. 1 Uvod Рандомизовани експерименти су златни стандард за пружање доказа о каузалним односима. Модерне технолошке компаније користе А / Б тестове, рандомизовано контролисано испитивање у дигиталном окружењу, у великој мери да процене ефикасност нових промена у својим производима.Ови производи укључују апликације за дељење вожње, претраживаче, услуге стреаминг, препоруке и још много тога.На крају, циљ ових експеримената је да одлуче да ли да пусте промену производа шире. Већина литературе о статистичком закључивању за рандомизоване експерименте фокусира се на тест једне хипотезе о једном резултату, и како повезати стопе грешака типа I и типа II за тај тест. Међутим, експерименти нису јединствени тестови изолованих резултата. Уместо тога, ризици који су важни су ризици доношења погрешне одлуке за производ. На пример, у технолошкој компанији као што је Спотифи, желимо да ограничимо колико често објављујемо промене производа које показују побољшање када заиста нема, и колико често се уздржавамо од објављивања промена које доводе до побољшања, али не можемо наћи. Ове врсте одлука обично укључују резултате из неколико хипотеза. Експерименти обично укључују Током овог рада, и без губитка општости, разматрамо само експерименте са две групе како бисмо поједноставили нотацију. Поред тога, разматрамо само једностране тестове, иако се на сваку метрику може применити више од једног једностраног теста. Ограничавамо се на једностране тестове јер мора бити намењена правац за промену метрике како би се нацртало мерено побољшање у производу. За једноставност, претпостављамо да се све метрике побољшавају када се повећавају. Овај документ је под лиценцом CC BY 4.0 DEED. доступан на arxiv Овај документ је под лиценцом CC BY 4.0 DEED. доступан на arxiv доступно на arxiv доступно на arxiv