Nedávno jsem pracoval na experimentu založeném na   a při hledání informací jsem narazil na nedostatek materiálů na toto téma. Většina článků, které jsem našel, se týká účinnosti metody a nejsou z hlediska teorie dostatečně podrobné. Proto jsem se rozhodl podělit se s vámi o komplexní návod k rámci   a jeho krocích Propensity Score Matching Propensity Score Matching   Co je Propensity Score Matching a proč jej používat?   „Porovnání skóre sklonu znamená vytvoření shodných souborů léčených a neléčených subjektů, kteří sdílejí podobnou hodnotu skóre sklonu. Jakmile se vytvoří odpovídající vzorek, lze účinek léčby odhadnout přímým porovnáním výsledků.“  Definici poprvé uvedl Rosenbaum PR, Rubin DB v článku „Hodnocení citlivosti na nepozorovanou binární kovariátu v observační studii s binárním výsledkem“ z roku 1983.  Jednoduše řečeno,   . Skóre sklonu (pravděpodobnost přiřazení k testovací skupině) léčebné skupiny se počítá pro každého uživatele a poté je uživatel spárován s jiným uživatelem na základě historických údajů o používání produktu tvořících kontrolní skupinu. Poté jsou výsledky dvou skupin porovnány pomocí statistického testu a je měřen účinek experimentu.  jedná se o další techniku A/B testů, která se používá, když randomizace vzorků nefunguje  Proč ale používat složitou techniku hledání kontrolní skupiny, když to místo toho umí platforma A/B? V některých případech není možné použít A/B platformu s vestavěnou funkcí rozdělení. Zde jsou možné případy:  Implementace A/B testu je pro firmy drahé a časově náročné kvůli různým mezifunkčním pracím a komunikaci (ano, může se to stát).  Společnosti může chybět zisk při testování monetizačních nebo marketingových funkcí/strategií v případě implementace klasického testovacího/kontrolního experimentu.  Často je nemožné mít náhodný výběr vzorků v offline experimentech, který je vyžadován pro A/B test.  Není také možné použít A/B test v online experimentech, když testovaný objekt není distribuován náhodně.  Měl jsem čtvrtý případ ve své praxi a stalo se to při práci s produktem e-commerce. Produktový tým se připravoval na testování funkce poskytování bonusů uživatelům po zadání první objednávky. Problém byl v tom, že funkce nefungovala u všech uživatelů, kteří zadali první objednávku. Musely být splněny určité podmínky, jako je hodnota objednávky apod. V tomto případě je za hranicemi A/B testovací platformy rozdělit provoz mezi testovací a kontrolní skupiny. Zde je důvod, proč byla možnost   . Propensity Score Matching   Rámec porovnávání skóre sklonu    rámec je zhruba založen na článku „   “ a zahrnuje pět kroků (obrázek 2). Úplný Propensity score matching with R: konvenční metody a nové funkce  Prvním krokem je shromáždit data, na jejichž základě se odhadne skóre sklonu a najde se odpovídající uživatel.  Druhým krokem je odhadnout skóre propensity pomocí metod, jako je logistická regrese, a trénovat na datové sadě předvídat, zda bude uživatel zařazen do testovací skupiny. Pro každého uživatele generuje natrénovaný model pravděpodobnost, že bude v testovací skupině.  Třetí krok se týká porovnávání na základě skóre propensity, kde se zkouší různé metody shody, jako je například nejbližší soused.  Ve čtvrtém kroku se zkontroluje rovnováha kovariátů mezi léčenými a kontrolními skupinami výpočtem statistiky rovnováhy a vytvořením grafů. Špatná rovnováha naznačuje, že je třeba upřesnit model odhadující propensity score.  V pátém posledním kroku se odhadnou účinky testu pomocí shodných dat a provede se statistický test.    Sběr dat  Tato fáze se týká shromažďování požadovaných proměnných, kovariát a zmatení. Kovariát (X) je nezávislá proměnná, která může ovlivnit výsledek experimentu (Y), ale která není přímo zajímavá. Confounder je faktor jiný než ten, který je studován a který souvisí jak s přidělením do testovací skupiny (W), tak s výsledkem experimentu (Y).  Níže uvedený graf ukazuje vztahy proměnných. X je kovariát, W je indikátor přiřazení léčby a Y je výsledek. Graf nalevo znázorňuje vztah zmatení a ten napravo ukazuje nezávislou souvislost kovariátu s výsledkem experimentu (Y) a alokací testovací skupiny (W).   Zde je důležité zdůraznit, že se nedoporučuje vybírat pouze proměnné, které souvisejí s přiřazením uživatelů do testovací skupiny (W), protože to může snížit přesnost vyhodnocení skupinového rozdílu bez snížení zkreslení (   ). https://www.ncbi .nlm.nih.gov/pmc/articles/PMC1513192/  Můžete se zeptat, kolik proměnných musím vybrat? Odpověď je jednoduchá –   . A tady mluvím o velkých číslech jako 20-50 nebo i více. čím více, tím lépe, abyste získali vysoký odhad výsledků a minimalizovali zkreslení studie   Odhad skóre propensity  Při přechodu k dalšímu kroku je nutné shromáždit data a nastavit příznak příslušnosti k léčebné skupině. Všichni ostatní uživatelé budou potenciálně tvořit kontrolní skupinu. Poté se odhaduje propensity score pomocí různých metod, jako je logistická regrese nebo náhodné lesy.  Většina článků, které jsem četl   . Úspěšná technika párování se však soustředí na přesnost. , navrhuje držet se logistické regrese a nepoužívat jiné složitější modely, protože vysoká přesnost není rozhodující  Po výběru metody je na datech trénován prediktivní model pomocí vybraných kovariát, aby se předpovědělo, zda uživatel patří do testovací skupiny. Nakonec model dělá předpovědi pro každého uživatele a vypočítává se propensity score, pravděpodobnost, že bude v testovací skupině. Pokud jde o software, v Pythonu můžete použít jakoukoli prognostickou knihovnu počínaje základním scikit-learn až po Prophet.   Shoda dat  Následující akcí je implementace techniky porovnávání k nalezení shodného uživatele s uživatelem z testovací skupiny. Proto je vytvořena kontrolní skupina.  Na výběr jsou různé metody porovnávání, například přesná shoda nebo shoda podle vzdálenosti Mahalanobis. V tomto článku budu diskutovat především o běžné technice párování nejbližšího souseda a jeho variantách.  Shoda nejbližšího souseda (NNM) se skládá ze dvou fází. Nejprve algoritmus vybere uživatele, jednoho po druhém z léčebné skupiny, v určeném pořadí. Následně pro každého uživatele testovací skupiny algoritmus najde uživatele v kontrolní skupině s nejbližším propensity skóre. Tyto kroky se opakují, dokud v testovací nebo kontrolní skupině nezůstanou žádní uživatelé. V Pythonu existují specifické knihovny pro PSM jako PyTorch,   ,   . Nebo se vždy můžete držet jakékoli klasické knihovny s odpovídajícími algoritmy. Psmpy causallib  Stěžejní je zdůraznit, že v případě vytvoření kontrolní skupiny podobné klasickému A/B testu, kde jsou uživatelé ve skupině jedineční a velikosti vzorků jsou stejné, je nutné implementovat metodu NNM bez náhrady. Metoda znamená, že po spárování bude spárovaný pár odstraněn, takže uživatel v kontrolní skupině bude použit pouze jednou.  K dispozici je také možnost vybrat si model NNM s nebo bez třmenu. Posuvné měřítko nastavuje horní hranici vzdálenosti skóre sklonu v sehraném páru. Každý uživatel tak může být přiřazen pouze uživatelům se skóre sklonu v omezeném rozsahu. Pokud se vhodné uživatele nepodaří přiřadit, bude uživatel vyřazen.  Proč bych měl používat posuvné měřítko? Je vhodné jej použít, když vzdálenost skóre sklonu v sehraném páru může být velká. Při rozhodování o velikosti posuvného měřítka zvažte následující: není-li shoda uspokojivá, lze provést párování s užším posuvným měřítkem a pokud je párování úspěšné, ale počet spárovaných párů je malý, lze posuvné měřítko rozšířit (   ). https:/ /www.ncbi.nlm.nih.gov/pmc/articles/PMC8246231/   Diagnostika rovnováhy  Během této fáze se kontroluje, zda jsou kovariáty testované a spárované kontrolní skupiny vyvážené, tedy tvrdí, zda je shoda přesná.  Je to zásadní krok, protože nevyvážené kovariáty povedou k nesprávnému srovnání výsledků testu A/B.  Existují tři způsoby diagnostiky rovnováhy:  - popisná statistika: standardizovaný průměrný rozdíl (SMD) nebo poměr rozptylu (VR)  - statistické testy  - vizualizace: qq-plot, histogram nebo love plot  V článku se soustředím především na první a třetí možnost.  Nejprve proberme standardizovaný střední rozdíl a poměr rozptylu. Jaké hodnoty naznačují, že kovariát je vyvážený?   . Doporučuji, aby hodnota SMD byla pod 0,1 Pokud jde o VR, hodnoty blízké 1,0 znamenají rovnováhu  Za druhé, pokud jde o metody vizualizace, jedna z výše uvedených popisných statistik se vypočítá pro každou kovariát a zobrazí se graficky. Osobně preferuji milostný spiknutí, protože všechny kovariáty lze umístit do jednoho grafu a kovariáty před a po spárování lze snadno porovnávat. Níže uvádím příklad grafu.   Co když jsou kovariáty po spárování stále nevyvážené? Pro ilustraci, standardizovaný průměrný rozdíl (SMD) kovariát frekvence nákupů a AOV jsou kolem 0,5, což je nad požadovanými 0,1. Znamená to, že kovariáty jsou nevyvážené a je potřeba jejich opětovné spárování.  Model PSM signálu nevyvážených kovariát není efektivní a je třeba ho předělat. Proto je nutné vrátit se o několik kroků zpět a spárování zopakovat.  Existují čtyři způsoby, jak opakovat shodu:  1. Přidejte nové kovariáty  2. Jednoduše změňte způsob párování, protože jich je spousta  3. Kombinujte   s metodou přesné shody propensity Score Matching  4. Zvětšete velikost vzorku   Odhad účinků léčby  Konečně se blížíme k poslední fázi, kdy se odhaduje účinek experimentu. Existují především tři typy odhadu účinku: průměrný účinek léčby (ATE), průměrný účinek léčby na léčené (ATT) a průměrný účinek léčby na kontrolu (ATC). V zásadě řečeno, ATE je vypočítaný rozdíl v klíčové metrice mezi testovací a kontrolní skupinou (podobné měření hlavní metriky v A/B testu). Vypočítá se jako průměr účinku léčby, ATE = prům (Y1 - Y1), jak je znázorněno níže na obrázku.   Zatímco ATT a ATC jsou průměrným léčebným účinkem testované a kontrolní skupiny. Všechny jsou jednoduché a srozumitelné metody odhadu.  ATE je nejběžnější typ a používá se, když se porovnává hlavní metrika kontrolní a testovací skupiny a měří se testovaný účinek. Zatímco ATT a ATC jsou preferovány, když jsou pro každou skupinu vyžadovány absolutní metriky. Nakonec se provede vhodný statistický test pro kontrolu statistické významnosti výsledků.   Omezení shody skóre sklonu  Po podrobném vysvětlení metody   je možná čas ji začít implementovat do vaší práce, ale je třeba vzít v úvahu určitá omezení. Propensity Score Matching  1. Bootstrap se nedoporučuje používat s Propensity Score Matching, protože zvyšuje rozptyl. (   ) https://economics.mit.edu/sites/default/files/publications/NA SELHÁNÍ BOOTSTRAP FOR.pdf   2. Stable unit treatment value assumption (SUTVA) principle must be met. 3. Propensity Score Matching implies using two machine learning algorithms (one for propensity score calculations and the second one for matching), which can be a pricy method to use for a company. On that account, it's advisable to negotiate with your team on A/B test conduction. 4. Finally, as discussed above, a big number of covariates are suggested to be used in the models. Thus, it requires a high-powered machine(-s) to calculate the results of the models. Again, it's a costly method to implement.  Pokud je však možné implementovat   , udělejte to a neváhejte rozšířit své zkušenosti a praktické znalosti. Hodně štěstí při budoucích experimentech a objevech strojového učení Propensity Score Matching  Chtěli byste se pokusit odpovědět na některé z těchto otázek? Odkaz na šablonu je  . Máte zájem přečíst si obsah všech našich výzev k psaní? Klikněte  .   ZDE   ZDE

Walkthroughs, tutorials, guides, and tips. This story will teach you how to do something new or how to do something better.

Connect me on LinkedIn

Read My Stories

Tento zvuk je produkován v původním jazyce příběhu!

Jak implementovat porovnávání skóre sklonu: Průvodce krok za krokem

About Author

KOMENTÁŘE

ZAVĚŠIT ZNAČKY

TENTO ČLÁNEK BYL PŘEDSTAVEN V

Related Stories

Coinshift Launches csUSDL, Announces Strategic Partnerships

Coinshift Launches csUSDL, Announces Strategic Partnerships

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps