paint-brush
Jak implementovat porovnávání skóre sklonu: Průvodce krok za krokempodle@ngl21
438 čtení
438 čtení

Jak implementovat porovnávání skóre sklonu: Průvodce krok za krokem

podle Angela Nedopekina9m2024/11/04
Read on Terminal Reader

Příliš dlouho; Číst

Propensity Score Matching je další technika testů A/B, která se používá, když randomizace vzorků nefunguje. Skóre sklonu (pravděpodobnost přiřazení k testovací skupině) léčebné skupiny se počítá pro každého uživatele a poté je uživatel spárován s jiným uživatelem na základě historických údajů o používání produktu tvořících kontrolní skupinu. Poté jsou výsledky dvou skupin porovnány pomocí statistického testu a je měřen efekt experimentu. Níže je uveden rámec PSM: 1) Shromážděte data, na základě kterých se odhaduje propensity score a najde se odpovídající uživatel. 2) Odhadněte skóre sklonu pomocí metod, jako je logistická regrese, a trénujte na datové sadě, abyste předpověděli, zda bude uživatel zařazen do testovací skupiny. Pro každého uživatele generuje natrénovaný model pravděpodobnost, že bude v testovací skupině. 3) Shoda založená na skóre propensity, kde se zkoušejí různé metody shody, jako je nejbližší soused.  4) Rovnováha kovariátů mezi léčenými a kontrolními skupinami se kontroluje výpočtem statistiky bilancí a generováním grafů. Špatná rovnováha naznačuje, že je třeba upřesnit model odhadující propensity score. 5) Účinky testu se odhadnou pomocí shodných dat a provede se statistický test. Implementace PSM má určitá omezení.
featured image - Jak implementovat porovnávání skóre sklonu: Průvodce krok za krokem
Angela Nedopekina HackerNoon profile picture
0-item


Nedávno jsem pracoval na experimentu založeném na Propensity Score Matching a při hledání informací jsem narazil na nedostatek materiálů na toto téma. Většina článků, které jsem našel, se týká účinnosti metody a nejsou z hlediska teorie dostatečně podrobné. Proto jsem se rozhodl podělit se s vámi o komplexní návod k rámci Propensity Score Matching a jeho krocích

Co je Propensity Score Matching a proč jej používat?

„Porovnání skóre sklonu znamená vytvoření shodných souborů léčených a neléčených subjektů, kteří sdílejí podobnou hodnotu skóre sklonu. Jakmile se vytvoří odpovídající vzorek, lze účinek léčby odhadnout přímým porovnáním výsledků.“


Definici poprvé uvedl Rosenbaum PR, Rubin DB v článku „Hodnocení citlivosti na nepozorovanou binární kovariátu v observační studii s binárním výsledkem“ z roku 1983.


Jednoduše řečeno, jedná se o další techniku A/B testů, která se používá, když randomizace vzorků nefunguje . Skóre sklonu (pravděpodobnost přiřazení k testovací skupině) léčebné skupiny se počítá pro každého uživatele a poté je uživatel spárován s jiným uživatelem na základě historických údajů o používání produktu tvořících kontrolní skupinu. Poté jsou výsledky dvou skupin porovnány pomocí statistického testu a je měřen účinek experimentu.


Obrázek 1. Ilustrace odpovídající skóre sklonu


Proč ale používat složitou techniku hledání kontrolní skupiny, když to místo toho umí platforma A/B? V některých případech není možné použít A/B platformu s vestavěnou funkcí rozdělení. Zde jsou možné případy:


  1. Implementace A/B testu je pro firmy drahé a časově náročné kvůli různým mezifunkčním pracím a komunikaci (ano, může se to stát).
  2. Společnosti může chybět zisk při testování monetizačních nebo marketingových funkcí/strategií v případě implementace klasického testovacího/kontrolního experimentu.
  3. Často je nemožné mít náhodný výběr vzorků v offline experimentech, který je vyžadován pro A/B test.
  4. Není také možné použít A/B test v online experimentech, když testovaný objekt není distribuován náhodně.


Měl jsem čtvrtý případ ve své praxi a stalo se to při práci s produktem e-commerce. Produktový tým se připravoval na testování funkce poskytování bonusů uživatelům po zadání první objednávky. Problém byl v tom, že funkce nefungovala u všech uživatelů, kteří zadali první objednávku. Musely být splněny určité podmínky, jako je hodnota objednávky apod. V tomto případě je za hranicemi A/B testovací platformy rozdělit provoz mezi testovací a kontrolní skupiny. Zde je důvod, proč byla možnost Propensity Score Matching .

Rámec porovnávání skóre sklonu

Úplný rámec je zhruba založen na článku „ Propensity score matching with R: konvenční metody a nové funkce “ a zahrnuje pět kroků (obrázek 2).


Prvním krokem je shromáždit data, na jejichž základě se odhadne skóre sklonu a najde se odpovídající uživatel.


Druhým krokem je odhadnout skóre propensity pomocí metod, jako je logistická regrese, a trénovat na datové sadě předvídat, zda bude uživatel zařazen do testovací skupiny. Pro každého uživatele generuje natrénovaný model pravděpodobnost, že bude v testovací skupině.


Třetí krok se týká porovnávání na základě skóre propensity, kde se zkouší různé metody shody, jako je například nejbližší soused.


Ve čtvrtém kroku se zkontroluje rovnováha kovariátů mezi léčenými a kontrolními skupinami výpočtem statistiky rovnováhy a vytvořením grafů. Špatná rovnováha naznačuje, že je třeba upřesnit model odhadující propensity score.


V pátém posledním kroku se odhadnou účinky testu pomocí shodných dat a provede se statistický test.


Obrázek 2. Propensity Score Matching Framework

Sběr dat

Tato fáze se týká shromažďování požadovaných proměnných, kovariát a zmatení. Kovariát (X) je nezávislá proměnná, která může ovlivnit výsledek experimentu (Y), ale která není přímo zajímavá. Confounder je faktor jiný než ten, který je studován a který souvisí jak s přidělením do testovací skupiny (W), tak s výsledkem experimentu (Y).


Níže uvedený graf ukazuje vztahy proměnných. X je kovariát, W je indikátor přiřazení léčby a Y je výsledek. Graf nalevo znázorňuje vztah zmatení a ten napravo ukazuje nezávislou souvislost kovariátu s výsledkem experimentu (Y) a alokací testovací skupiny (W).


Obrázek 3. Vztahy kovariát, zadání testu a výsledku. 


Zde je důležité zdůraznit, že se nedoporučuje vybírat pouze proměnné, které souvisejí s přiřazením uživatelů do testovací skupiny (W), protože to může snížit přesnost vyhodnocení skupinového rozdílu bez snížení zkreslení ( https://www.ncbi .nlm.nih.gov/pmc/articles/PMC1513192/ ).


Můžete se zeptat, kolik proměnných musím vybrat? Odpověď je jednoduchá – čím více, tím lépe, abyste získali vysoký odhad výsledků a minimalizovali zkreslení studie . A tady mluvím o velkých číslech jako 20-50 nebo i více.

Odhad skóre propensity

Při přechodu k dalšímu kroku je nutné shromáždit data a nastavit příznak příslušnosti k léčebné skupině. Všichni ostatní uživatelé budou potenciálně tvořit kontrolní skupinu. Poté se odhaduje propensity score pomocí různých metod, jako je logistická regrese nebo náhodné lesy.


Většina článků, které jsem četl , navrhuje držet se logistické regrese a nepoužívat jiné složitější modely, protože vysoká přesnost není rozhodující . Úspěšná technika párování se však soustředí na přesnost.


Po výběru metody je na datech trénován prediktivní model pomocí vybraných kovariát, aby se předpovědělo, zda uživatel patří do testovací skupiny. Nakonec model dělá předpovědi pro každého uživatele a vypočítává se propensity score, pravděpodobnost, že bude v testovací skupině. Pokud jde o software, v Pythonu můžete použít jakoukoli prognostickou knihovnu počínaje základním scikit-learn až po Prophet.

Shoda dat

Následující akcí je implementace techniky porovnávání k nalezení shodného uživatele s uživatelem z testovací skupiny. Proto je vytvořena kontrolní skupina.


Na výběr jsou různé metody porovnávání, například přesná shoda nebo shoda podle vzdálenosti Mahalanobis. V tomto článku budu diskutovat především o běžné technice párování nejbližšího souseda a jeho variantách.


Shoda nejbližšího souseda (NNM) se skládá ze dvou fází. Nejprve algoritmus vybere uživatele, jednoho po druhém z léčebné skupiny, v určeném pořadí. Následně pro každého uživatele testovací skupiny algoritmus najde uživatele v kontrolní skupině s nejbližším propensity skóre. Tyto kroky se opakují, dokud v testovací nebo kontrolní skupině nezůstanou žádní uživatelé. V Pythonu existují specifické knihovny pro PSM jako PyTorch, Psmpy , causallib . Nebo se vždy můžete držet jakékoli klasické knihovny s odpovídajícími algoritmy.


Stěžejní je zdůraznit, že v případě vytvoření kontrolní skupiny podobné klasickému A/B testu, kde jsou uživatelé ve skupině jedineční a velikosti vzorků jsou stejné, je nutné implementovat metodu NNM bez náhrady. Metoda znamená, že po spárování bude spárovaný pár odstraněn, takže uživatel v kontrolní skupině bude použit pouze jednou.


K dispozici je také možnost vybrat si model NNM s nebo bez třmenu. Posuvné měřítko nastavuje horní hranici vzdálenosti skóre sklonu v sehraném páru. Každý uživatel tak může být přiřazen pouze uživatelům se skóre sklonu v omezeném rozsahu. Pokud se vhodné uživatele nepodaří přiřadit, bude uživatel vyřazen.


Proč bych měl používat posuvné měřítko? Je vhodné jej použít, když vzdálenost skóre sklonu v sehraném páru může být velká. Při rozhodování o velikosti posuvného měřítka zvažte následující: není-li shoda uspokojivá, lze provést párování s užším posuvným měřítkem a pokud je párování úspěšné, ale počet spárovaných párů je malý, lze posuvné měřítko rozšířit ( https:/ /www.ncbi.nlm.nih.gov/pmc/articles/PMC8246231/ ).

Diagnostika rovnováhy

Během této fáze se kontroluje, zda jsou kovariáty testované a spárované kontrolní skupiny vyvážené, tedy tvrdí, zda je shoda přesná.

Je to zásadní krok, protože nevyvážené kovariáty povedou k nesprávnému srovnání výsledků testu A/B.

Existují tři způsoby diagnostiky rovnováhy:


- popisná statistika: standardizovaný průměrný rozdíl (SMD) nebo poměr rozptylu (VR)

- statistické testy

- vizualizace: qq-plot, histogram nebo love plot


V článku se soustředím především na první a třetí možnost.


Nejprve proberme standardizovaný střední rozdíl a poměr rozptylu. Jaké hodnoty naznačují, že kovariát je vyvážený? Doporučuji, aby hodnota SMD byla pod 0,1 Pokud jde o VR, hodnoty blízké 1,0 znamenají rovnováhu .


Za druhé, pokud jde o metody vizualizace, jedna z výše uvedených popisných statistik se vypočítá pro každou kovariát a zobrazí se graficky. Osobně preferuji milostný spiknutí, protože všechny kovariáty lze umístit do jednoho grafu a kovariáty před a po spárování lze snadno porovnávat. Níže uvádím příklad grafu.


Obrázek 4. Milostný graf kovariát SMD před a po úpravě


Co když jsou kovariáty po spárování stále nevyvážené? Pro ilustraci, standardizovaný průměrný rozdíl (SMD) kovariát frekvence nákupů a AOV jsou kolem 0,5, což je nad požadovanými 0,1. Znamená to, že kovariáty jsou nevyvážené a je potřeba jejich opětovné spárování.

Model PSM signálu nevyvážených kovariát není efektivní a je třeba ho předělat. Proto je nutné vrátit se o několik kroků zpět a spárování zopakovat.

Existují čtyři způsoby, jak opakovat shodu:


1. Přidejte nové kovariáty

2. Jednoduše změňte způsob párování, protože jich je spousta

3. Kombinujte propensity Score Matching s metodou přesné shody

4. Zvětšete velikost vzorku

Odhad účinků léčby

Konečně se blížíme k poslední fázi, kdy se odhaduje účinek experimentu. Existují především tři typy odhadu účinku: průměrný účinek léčby (ATE), průměrný účinek léčby na léčené (ATT) a průměrný účinek léčby na kontrolu (ATC). V zásadě řečeno, ATE je vypočítaný rozdíl v klíčové metrice mezi testovací a kontrolní skupinou (podobné měření hlavní metriky v A/B testu). Vypočítá se jako průměr účinku léčby, ATE = prům (Y1 - Y1), jak je znázorněno níže na obrázku.


Obrázek 5. Vzorce a příklady výpočtů účinků léčby 


Zatímco ATT a ATC jsou průměrným léčebným účinkem testované a kontrolní skupiny. Všechny jsou jednoduché a srozumitelné metody odhadu.


ATE je nejběžnější typ a používá se, když se porovnává hlavní metrika kontrolní a testovací skupiny a měří se testovaný účinek. Zatímco ATT a ATC jsou preferovány, když jsou pro každou skupinu vyžadovány absolutní metriky. Nakonec se provede vhodný statistický test pro kontrolu statistické významnosti výsledků.

Omezení shody skóre sklonu

Po podrobném vysvětlení metody Propensity Score Matching je možná čas ji začít implementovat do vaší práce, ale je třeba vzít v úvahu určitá omezení.


1. Bootstrap se nedoporučuje používat s Propensity Score Matching, protože zvyšuje rozptyl. ( https://economics.mit.edu/sites/default/files/publications/NA SELHÁNÍ BOOTSTRAP FOR.pdf )

 2. Stable unit treatment value assumption (SUTVA) principle must be met. 3. Propensity Score Matching implies using two machine learning algorithms (one for propensity score calculations and the second one for matching), which can be a pricy method to use for a company. On that account, it's advisable to negotiate with your team on A/B test conduction. 4. Finally, as discussed above, a big number of covariates are suggested to be used in the models. Thus, it requires a high-powered machine(-s) to calculate the results of the models. Again, it's a costly method to implement.

Pokud je však možné implementovat Propensity Score Matching , udělejte to a neváhejte rozšířit své zkušenosti a praktické znalosti. Hodně štěstí při budoucích experimentech a objevech strojového učení



Chtěli byste se pokusit odpovědět na některé z těchto otázek? Odkaz na šablonu je ZDE . Máte zájem přečíst si obsah všech našich výzev k psaní? Klikněte ZDE .




L O A D I N G
. . . comments & more!

About Author

Angela Nedopekina HackerNoon profile picture
Angela Nedopekina@ngl21
Data Analyst with 3+ work experience of building analytics from 0-to-1 and managing international projects.

ZAVĚŠIT ZNAČKY

TENTO ČLÁNEK BYL PŘEDSTAVEN V...