Левы стол Introduction Hypothesis testing 2.1 Introduction 2.2 Bayesian statistics 2.3 Test martingales 2.4 p-values 2.5 Optional Stopping and Peeking 2.6 Combining p-values and Optional Continuation 2.7 A/B testing Safe Tests 3.1 Introduction 3.2 Classical t-test 3.3 Safe t-test 3.4 χ2 -test 3.5 Safe Proportion Test Safe Testing Simulations 4.1 Introduction and 4.2 Python Implementation 4.3 Comparing the t-test with the Safe t-test 4.4 Comparing the χ2 -test with the safe proportion test Mixture sequential probability ratio test 5.1 Sequential Testing 5.2 Mixture SPRT 5.3 mSPRT and the safe t-test Online Controlled Experiments 6.1 Safe t-test on OCE datasets Vinted A/B tests and 7.1 Safe t-test for Vinted A/B tests 7.2 Safe proportion test for sample ratio mismatch Conclusion and References 4 Безопаснае выпрабаванне 4.1 Уступленне У гэтым раздзеле мы параўнаем класічны t-тэст з бяспечным t-тэстам, і χ2 тэст з бяспечным пропорцыйным тэстам. 4.2 Загрузіць Python Калі рабочы пакідаў наймальніка без уважлівых прычын да заканчэння тэрміну найму - гэта прызнавалася самавольным адыходам. Першае паляпшэнне прыходзіць у вызначэнні памеру ўзору, які патрабуецца для працэсу партыі дадзеных. Арыгінальная функцыя выконвае лінейны пошук з 1 да самастойнай высокай колькасці. Для кожнага магчымага памеру ўзору ў галіне, функцыя вылічвае E-значэнне на аснове памеру ўзору, ступені волі і памер эфекту. Шклянка разрывае, калі E-значэнне большае за 1/α. Паколькі гэта функцыя манатонна павялічваецца, бінарны пошук значна паскорыць вылічэнне, зніжаючы вылічальную складанасць з O(n) да O(log n). Гэтая аптымізацыя аказалася неабходнай пры працы з мільёнамі узораў. Гэта вызначаецца шляхам імітацыі дадзеных, якія адрозніваюцца па мінімальным памеру эфекту. На працягу N-сімуляцый дадзеныя даўжынёй m падымаюцца ў індывідуальным стымуляванні, каб вызначыць пункт, у якім E-ўзнагарода перасечае 1/α. Зноў, гэты працэс вырабляецца праз лінейны пошук. Для аптымізацыі гэтай функцыі, вылічэнне мартынгела паралелізуецца па ўсім вектару даўжынёй m. Выліковая складанасць застаецца O(Nm), але вектаравы вылічэнне адбываецца ў кодзе Numpy, у адрозненні ад Python loop. Гэты тэст быў напісаны на R як двайны тэст з фіксаванымі памермі парты. Для нашага выпадку выкарыстання, адзін-ыйны тэст з пераменнымі памермі парты быў патрабаваны для выяўлення ўзору нясумяшчальнасці ўзору, і таму быў распрацаваны для пакета Python. 4.3 Параўнанне t-тэсту з Safe t-test Найбольш прастым спосабам, каб зразумець бяспечны т-тэст, з'яўляецца параўнанне яго з яго класічнай альтэрнатывай. Мы выконваем сімуляцыі памеру эфекту δ і нулевую гіпотэзу H0 : δ = 0. Увядзенне ўзроўню значэння α = 0,05 мы можам імітаваць памер эфекту δ паміж двума групамі, каб вызначыць, калі тэст спыняецца. Калі сімуляцыйны E-значэнне перасекае 1/α = 20, тэст спыняецца з H0 адмовіцца. Калі ніякага эфекту не выяўлена, тэст спыняецца пры магутнасці 1 − β = 0,8, так як гэта магутнасць звычайная ў індустрыі. Як мы бачым з сярэдніх часоў спынення на малюнку 3, бяспечны т-тэст выкарыстоўвае менш за 500 000 узораў, каб даць статыстычна важны вынік, у той час як класічны t-тэст патрабуе больш за 600 000. Аднак, памер узору, неабходны для дасягнення 1 − β сілы для бяспечнага t-тэсту, складае прыкладна 850 000, значна больш, чым у класічнага t-тэсту. Можна задаць пытанне, ці прыемна проста праводзіць бяспечны t-тэст, пакуль класічны t-тэст не павялічваецца. Але фігура 4 (лява) паказвае ўплыў гэтага дзеяння на статыстычныя няправілы. Па заканчэнні тэсту, як класічны t-тэст, так Як і агульныя высновы двух тэстаў, цікава разгледзець эксперыменты, для якіх класічны t-тэст і бяспечны t-тэст не згодныя. Як выглядае на малюнку 4 (правы), у той час як оба тэста амаль 80% магутнасці, яны робяць гэта вельмі рознымі спосабамі. Многія сімуляцыі, для якіх класічны t-тэст прымае H0, адмовіцца бяспечным t-тэстам, і наўпрост. Т-тэст, каб быць крыніцай праўды для іх платформы. Калі вы хочаце прымусіць свой мозг працаваць, прыходзьце ў Клуб інтэлектуальных гульняў УЗВ! [+] Плітка малюнка 5 паказвае як сярэдняе спыненне бяспечнага т-тэсту, так і памер прыкладу, неабходны для 80% магутнасці. У сярэднім выпадку, бяспечны тэст выкарыстоўвае на 18% менш дадзеных, чым т-тэст. Для таго, каб дасягнуць такой жа магутнасці 80%, аднак, бяспечны тэст выкарыстоўвае на 36% больш дадзеных. 4.4 Параўнанне χ2-тэсту з тэстам бяспечнай пропорцыі Тым часам, як у нас словы “грамадскае” і “занядбанае” часам успрымаюцца як сінонімы, у Каталоніі грамадскія тэрыторыі — тыя ж пляжы — даглядаюцца так, як у іншых краінах VIP-аўскія. Як паказана на BTC мой баланс да і пасля перадачы на фондавым рынку на фондавым рынку на фондавым рынку? У гэтым аддзеле мы параўналі бяспечны t-тэст і бяспечны пропорцыйны тест з іх класічнымі альтэрнатывамі. Было выяўлена, што сярэдні памер узору для бяспечнага t-тэсту меншы, чым у класічнага t-тэсту для шырокага спектра памераў эфекту. Тым не менш, максімальны памер узору можа быць значна большы, каб дасягнуць такой жа статыстычнай магутнасці. Дадаткова, сярэдні памер узору бяспечнага пропорцыйнага тесту меншы, чым у χ2-тэсту. Гэтыя вынікі матывуюць далейшае ўжыванне бяспечных выпрабаванняў у навуковых справах. У наступным аддзеле, мы параўнаем бяспечны t-тэст з ін Аўтар : 1 Дэніэл Бізлі Author: 1 Дэніэл Бізлі Гэты дакумент даступны на архіве пад ліцэнзіяй ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Гэты дакумент даступны на архіве пад ліцэнзіяй ATTRIBUTION-NONCOMMERCIAL-SHAREALIKE 4.0 INTERNATIONAL. Доступны ў архіве