„Porovnání skóre sklonu znamená vytvoření shodných souborů léčených a neléčených subjektů, kteří sdílejí podobnou hodnotu skóre sklonu. Jakmile se vytvoří odpovídající vzorek, lze účinek léčby odhadnout přímým porovnáním výsledků.“
Definici poprvé uvedl Rosenbaum PR, Rubin DB v článku „Hodnocení citlivosti na nepozorovanou binární kovariátu v observační studii s binárním výsledkem“ z roku 1983.
Jednoduše řečeno, jedná se o další techniku A/B testů, která se používá, když randomizace vzorků nefunguje . Skóre sklonu (pravděpodobnost přiřazení k testovací skupině) léčebné skupiny se počítá pro každého uživatele a poté je uživatel spárován s jiným uživatelem na základě historických údajů o používání produktu tvořících kontrolní skupinu. Poté jsou výsledky dvou skupin porovnány pomocí statistického testu a je měřen účinek experimentu.
Proč ale používat složitou techniku hledání kontrolní skupiny, když to místo toho umí platforma A/B? V některých případech není možné použít A/B platformu s vestavěnou funkcí rozdělení. Zde jsou možné případy:
Měl jsem čtvrtý případ ve své praxi a stalo se to při práci s produktem e-commerce. Produktový tým se připravoval na testování funkce poskytování bonusů uživatelům po zadání první objednávky. Problém byl v tom, že funkce nefungovala u všech uživatelů, kteří zadali první objednávku. Musely být splněny určité podmínky, jako je hodnota objednávky apod. V tomto případě je za hranicemi A/B testovací platformy rozdělit provoz mezi testovací a kontrolní skupiny. Zde je důvod, proč byla možnost Propensity Score Matching .
Úplný rámec je zhruba založen na článku „ Propensity score matching with R: konvenční metody a nové funkce “ a zahrnuje pět kroků (obrázek 2).
Prvním krokem je shromáždit data, na jejichž základě se odhadne skóre sklonu a najde se odpovídající uživatel.
Druhým krokem je odhadnout skóre propensity pomocí metod, jako je logistická regrese, a trénovat na datové sadě předvídat, zda bude uživatel zařazen do testovací skupiny. Pro každého uživatele generuje natrénovaný model pravděpodobnost, že bude v testovací skupině.
Třetí krok se týká porovnávání na základě skóre propensity, kde se zkouší různé metody shody, jako je například nejbližší soused.
Ve čtvrtém kroku se zkontroluje rovnováha kovariátů mezi léčenými a kontrolními skupinami výpočtem statistiky rovnováhy a vytvořením grafů. Špatná rovnováha naznačuje, že je třeba upřesnit model odhadující propensity score.
V pátém posledním kroku se odhadnou účinky testu pomocí shodných dat a provede se statistický test.
Tato fáze se týká shromažďování požadovaných proměnných, kovariát a zmatení. Kovariát (X) je nezávislá proměnná, která může ovlivnit výsledek experimentu (Y), ale která není přímo zajímavá. Confounder je faktor jiný než ten, který je studován a který souvisí jak s přidělením do testovací skupiny (W), tak s výsledkem experimentu (Y).
Níže uvedený graf ukazuje vztahy proměnných. X je kovariát, W je indikátor přiřazení léčby a Y je výsledek. Graf nalevo znázorňuje vztah zmatení a ten napravo ukazuje nezávislou souvislost kovariátu s výsledkem experimentu (Y) a alokací testovací skupiny (W).
Zde je důležité zdůraznit, že se nedoporučuje vybírat pouze proměnné, které souvisejí s přiřazením uživatelů do testovací skupiny (W), protože to může snížit přesnost vyhodnocení skupinového rozdílu bez snížení zkreslení ( https://www.ncbi .nlm.nih.gov/pmc/articles/PMC1513192/ ).
Můžete se zeptat, kolik proměnných musím vybrat? Odpověď je jednoduchá – čím více, tím lépe, abyste získali vysoký odhad výsledků a minimalizovali zkreslení studie . A tady mluvím o velkých číslech jako 20-50 nebo i více.
Při přechodu k dalšímu kroku je nutné shromáždit data a nastavit příznak příslušnosti k léčebné skupině. Všichni ostatní uživatelé budou potenciálně tvořit kontrolní skupinu. Poté se odhaduje propensity score pomocí různých metod, jako je logistická regrese nebo náhodné lesy.
Většina článků, které jsem četl , navrhuje držet se logistické regrese a nepoužívat jiné složitější modely, protože vysoká přesnost není rozhodující . Úspěšná technika párování se však soustředí na přesnost.
Po výběru metody je na datech trénován prediktivní model pomocí vybraných kovariát, aby se předpovědělo, zda uživatel patří do testovací skupiny. Nakonec model dělá předpovědi pro každého uživatele a vypočítává se propensity score, pravděpodobnost, že bude v testovací skupině. Pokud jde o software, v Pythonu můžete použít jakoukoli prognostickou knihovnu počínaje základním scikit-learn až po Prophet.
Následující akcí je implementace techniky porovnávání k nalezení shodného uživatele s uživatelem z testovací skupiny. Proto je vytvořena kontrolní skupina.
Na výběr jsou různé metody porovnávání, například přesná shoda nebo shoda podle vzdálenosti Mahalanobis. V tomto článku budu diskutovat především o běžné technice párování nejbližšího souseda a jeho variantách.
Shoda nejbližšího souseda (NNM) se skládá ze dvou fází. Nejprve algoritmus vybere uživatele, jednoho po druhém z léčebné skupiny, v určeném pořadí. Následně pro každého uživatele testovací skupiny algoritmus najde uživatele v kontrolní skupině s nejbližším propensity skóre. Tyto kroky se opakují, dokud v testovací nebo kontrolní skupině nezůstanou žádní uživatelé. V Pythonu existují specifické knihovny pro PSM jako PyTorch, Psmpy , causallib . Nebo se vždy můžete držet jakékoli klasické knihovny s odpovídajícími algoritmy.
Stěžejní je zdůraznit, že v případě vytvoření kontrolní skupiny podobné klasickému A/B testu, kde jsou uživatelé ve skupině jedineční a velikosti vzorků jsou stejné, je nutné implementovat metodu NNM bez náhrady. Metoda znamená, že po spárování bude spárovaný pár odstraněn, takže uživatel v kontrolní skupině bude použit pouze jednou.
K dispozici je také možnost vybrat si model NNM s nebo bez třmenu. Posuvné měřítko nastavuje horní hranici vzdálenosti skóre sklonu v sehraném páru. Každý uživatel tak může být přiřazen pouze uživatelům se skóre sklonu v omezeném rozsahu. Pokud se vhodné uživatele nepodaří přiřadit, bude uživatel vyřazen.
Proč bych měl používat posuvné měřítko? Je vhodné jej použít, když vzdálenost skóre sklonu v sehraném páru může být velká. Při rozhodování o velikosti posuvného měřítka zvažte následující: není-li shoda uspokojivá, lze provést párování s užším posuvným měřítkem a pokud je párování úspěšné, ale počet spárovaných párů je malý, lze posuvné měřítko rozšířit ( https:/ /www.ncbi.nlm.nih.gov/pmc/articles/PMC8246231/ ).
Během této fáze se kontroluje, zda jsou kovariáty testované a spárované kontrolní skupiny vyvážené, tedy tvrdí, zda je shoda přesná.
Je to zásadní krok, protože nevyvážené kovariáty povedou k nesprávnému srovnání výsledků testu A/B.
Existují tři způsoby diagnostiky rovnováhy:
- popisná statistika: standardizovaný průměrný rozdíl (SMD) nebo poměr rozptylu (VR)
- statistické testy
- vizualizace: qq-plot, histogram nebo love plot
V článku se soustředím především na první a třetí možnost.
Nejprve proberme standardizovaný střední rozdíl a poměr rozptylu. Jaké hodnoty naznačují, že kovariát je vyvážený? Doporučuji, aby hodnota SMD byla pod 0,1 Pokud jde o VR, hodnoty blízké 1,0 znamenají rovnováhu .
Za druhé, pokud jde o metody vizualizace, jedna z výše uvedených popisných statistik se vypočítá pro každou kovariát a zobrazí se graficky. Osobně preferuji milostný spiknutí, protože všechny kovariáty lze umístit do jednoho grafu a kovariáty před a po spárování lze snadno porovnávat. Níže uvádím příklad grafu.
Co když jsou kovariáty po spárování stále nevyvážené? Pro ilustraci, standardizovaný průměrný rozdíl (SMD) kovariát frekvence nákupů a AOV jsou kolem 0,5, což je nad požadovanými 0,1. Znamená to, že kovariáty jsou nevyvážené a je potřeba jejich opětovné spárování.
Model PSM signálu nevyvážených kovariát není efektivní a je třeba ho předělat. Proto je nutné vrátit se o několik kroků zpět a spárování zopakovat.
Existují čtyři způsoby, jak opakovat shodu:
1. Přidejte nové kovariáty
2. Jednoduše změňte způsob párování, protože jich je spousta
3. Kombinujte propensity Score Matching s metodou přesné shody
4. Zvětšete velikost vzorku
Konečně se blížíme k poslední fázi, kdy se odhaduje účinek experimentu. Existují především tři typy odhadu účinku: průměrný účinek léčby (ATE), průměrný účinek léčby na léčené (ATT) a průměrný účinek léčby na kontrolu (ATC). V zásadě řečeno, ATE je vypočítaný rozdíl v klíčové metrice mezi testovací a kontrolní skupinou (podobné měření hlavní metriky v A/B testu). Vypočítá se jako průměr účinku léčby, ATE = prům (Y1 - Y1), jak je znázorněno níže na obrázku.
Zatímco ATT a ATC jsou průměrným léčebným účinkem testované a kontrolní skupiny. Všechny jsou jednoduché a srozumitelné metody odhadu.
ATE je nejběžnější typ a používá se, když se porovnává hlavní metrika kontrolní a testovací skupiny a měří se testovaný účinek. Zatímco ATT a ATC jsou preferovány, když jsou pro každou skupinu vyžadovány absolutní metriky. Nakonec se provede vhodný statistický test pro kontrolu statistické významnosti výsledků.
Po podrobném vysvětlení metody Propensity Score Matching je možná čas ji začít implementovat do vaší práce, ale je třeba vzít v úvahu určitá omezení.
1. Bootstrap se nedoporučuje používat s Propensity Score Matching, protože zvyšuje rozptyl. ( https://economics.mit.edu/sites/default/files/publications/NA SELHÁNÍ BOOTSTRAP FOR.pdf )
2. Stable unit treatment value assumption (SUTVA) principle must be met. 3. Propensity Score Matching implies using two machine learning algorithms (one for propensity score calculations and the second one for matching), which can be a pricy method to use for a company. On that account, it's advisable to negotiate with your team on A/B test conduction. 4. Finally, as discussed above, a big number of covariates are suggested to be used in the models. Thus, it requires a high-powered machine(-s) to calculate the results of the models. Again, it's a costly method to implement.
Chtěli byste se pokusit odpovědět na některé z těchto otázek? Odkaz na šablonu je