"La coincidència de la puntuació de propensió implica formar conjunts coincidents de subjectes tractats i no tractats que comparteixen un valor similar de la puntuació de propensió. Un cop s'ha format una mostra coincident, l'efecte del tractament es pot estimar comparant directament els resultats".
La definició la va donar per primera vegada Rosenbaum PR, Rubin DB a l'article "Avaluació de la sensibilitat a una covariable binària no observada en un estudi observacional amb resultat binari" de 1983.
Per dir-ho simplement, aquesta és una tècnica de proves A/B addicional que s'utilitza quan l'aleatorització de mostres no funciona . La puntuació de propensió (probabilitat de ser assignat al grup de prova) d'un grup de tractament es compta per a cada usuari i, a continuació, es relaciona l'usuari amb un altre usuari en funció de les dades històriques d'ús del producte formant un grup de control. Després, es comparen els resultats de dos grups mitjançant una prova estadística i es mesura l'efecte d'un experiment.
Però, per què utilitzar la complexa tècnica de trobar un grup de control si una plataforma A/B ho pot fer? En alguns casos, no és possible utilitzar una plataforma A/B amb una funció de divisió integrada. Aquests són els casos possibles:
Vaig tenir el quart cas a la meva pràctica i va passar mentre treballava amb un producte de comerç electrònic. Un equip de producte s'estava preparant per provar una funció de donar bonificacions als usuaris després de fer la primera comanda. El problema era que la funció no funcionava en tots els usuaris que fessin la primera comanda. S'havien de complir determinades condicions, com ara el valor de la comanda, etc. En aquest cas, està més enllà dels límits d'una plataforma de prova A/B per dividir el trànsit entre la prova i els grups de control. Heus aquí per què era l'opció la coincidència de la puntuació de propensió .
Un marc complet es basa aproximadament en un article " Coincidència de la puntuació de la propensió amb R: mètodes convencionals i noves característiques " i consta de cinc passos (figura 2).
El primer pas és recollir les dades sobre les quals s'estima una puntuació de propensió i es troba un usuari coincident.
El segon pas és estimar una puntuació de propensió mitjançant mètodes, com ara la regressió logística, i entrenar sobre el conjunt de dades per predir si s'assignarà un usuari a un grup de prova. Per a cada usuari, el model entrenat genera una probabilitat d'estar en un grup de prova.
El tercer pas es refereix a la concordança basada en la puntuació de propensió, on es proveen diferents mètodes de concordança, com ara el veí més proper.
En el quart pas, es comprova l'equilibri de covariables entre els grups de tractament i control mitjançant el càlcul d'estadístiques de balanç i la generació de gràfics. Un balanç deficient indica que s'ha de reespecificar el model que estima la puntuació de propensió.
En el cinquè pas final, s'estimen els efectes d'una prova mitjançant dades coincidents i es realitza una prova estadística.
Aquesta etapa es refereix a la recollida de variables requerides, covariables i factors de confusió. La covariable (X) és una variable independent que pot influir en el resultat d'un experiment (Y), però que no té interès directe. El factor de confusió és un factor diferent del que s'està estudiant que s'associa tant amb l'assignació a un grup de prova (W) com amb el resultat d'un experiment (Y).
El gràfic següent il·lustra les relacions de variables. X és una covariable, W és un indicador de l'assignació de tractament i Y és el resultat. El gràfic de l'esquerra mostra la relació del factor de confusió i el de la dreta mostra la connexió independent de la covariable amb el resultat de l'experiment (Y) i amb l'assignació del grup de prova (W).
Aquí és crucial subratllar que no es recomana seleccionar només variables que estan associades amb l'assignació dels usuaris a un grup de prova (W) perquè pot reduir la precisió en l'avaluació de la diferència de grup sense disminuir el biaix ( https://www.ncbi .nlm.nih.gov/pmc/articles/PMC1513192/ ).
Podeu preguntar quantes variables he de seleccionar? La resposta és senzilla: com més, millor per obtenir una alta estimació dels resultats i minimitzar el biaix de l'estudi . I aquí estic parlant de grans números com 20-50 o fins i tot més.
Passant al següent pas, cal reunir les dades i establir una bandera de pertinença a un grup de tractament. Tots els altres usuaris formaran potencialment un grup de control. Després s'estima la puntuació de propensió mitjançant diversos mètodes, com ara la regressió logística o els boscos aleatoris.
La majoria dels articles que he llegit suggereixen seguir la regressió logística i no utilitzar altres models més complexos, ja que l'alta precisió no és crucial . No obstant això, la tècnica de concordança amb èxit es concentra en la precisió.
Després de seleccionar el mètode, s'entrena un model predictiu sobre les dades utilitzant les covariables seleccionades per predir si un usuari pertany a un grup de prova. Finalment, el model fa prediccions per a cada usuari i es calcula la puntuació de propensió, la probabilitat d'estar en un grup de prova. Pel que fa al programari, a Python podeu utilitzar qualsevol biblioteca de previsió, començant des de scikit-learn bàsic i passant a Prophet.
L'acció següent és implementar una tècnica de concordança per trobar un usuari coincident amb un usuari d'un grup de prova. Per tant, es forma un grup de control.
Hi ha diversos mètodes de concordança per triar, per exemple, la concordança exacta o la concordança de distància Mahalanobis. En aquest article parlaré principalment de la tècnica comuna de la concordança de veïns més propers i les seves variacions.
La concordança de veïnatge més proper (NNM) es compon de dues fases. En primer lloc, l'algoritme tria els usuaris, un per un d'un grup de tractament, en un ordre especificat. Posteriorment, per a cada usuari d'un grup de prova, l'algoritme troba un usuari del grup de control amb la puntuació de propensió més propera. Aquests passos es repeteixen fins que no quedi cap usuari als grups de prova o control. A Python, hi ha biblioteques específiques per a PSM com PyTorch, Psmpy , causallib . O sempre podeu cenyir-vos a qualsevol biblioteca clàssica amb algorismes coincidents.
És fonamental subratllar que en cas de crear un grup de control similar a una prova clàssica A/B, on els usuaris d'un grup són únics i les mides de mostra són iguals, s'ha d'implementar NNM sense mètode de substitució. El mètode implica que després de la concordança, s'eliminarà la parella coincident, de manera que un usuari del grup de control només s'utilitzarà una vegada.
També hi ha una opció per seleccionar un model NNM amb o sense pinça. Una pinça estableix el límit superior de la distància de puntuacions de propensió en un parell coincident. Així, cada usuari només es pot relacionar amb usuaris d'una puntuació de propensió dins d'un rang limitat. Si els usuaris elegibles no es poden emparellar, l'usuari serà descartat.
Per què hauria d'utilitzar la pinça? És recomanable aplicar-lo quan la distància de les puntuacions de propensió en una parella igualada pot ser gran. A l'hora de decidir la mida d'una pinça, tingueu en compte el següent: si el rendiment de la concordança no és satisfactori, la comparació es pot dur a terme amb una pinça més ajustada i si la combinació té èxit però el nombre de parells coincidents és petit, la pinça es pot ampliar ( https:/ /www.ncbi.nlm.nih.gov/pmc/articles/PMC8246231/ ).
Durant aquesta etapa, es comprova si les covariables dels grups de control i de prova coincidents estan equilibrades, per tant, afirma si una coincidència és precisa.
És un pas crucial, ja que les covariables desequilibrades conduiran a una comparació incorrecta dels resultats de la prova A/B.
Hi ha tres mitjans per al diagnòstic de l'equilibri:
- estadístiques descriptives: diferència mitjana estandarditzada (DME) o ràtio de variància (VR)
- proves estadístiques
- visualització: qq-plot, histograma o trama d'amor
A l'article em concentro principalment en la primera i la tercera opció.
En primer lloc, parlem de la diferència mitjana estandarditzada i la relació de variància. Quins valors indiquen que una covariable està equilibrada? Recomano que el valor SMD sigui inferior a 0,1 En termes de VR, un valor proper a 1,0 indica un saldo .
En segon lloc, pel que fa als mètodes de visualització, es calcula una de les estadístiques descriptives anteriors per a cada covariable i es mostra gràficament. Personalment, prefereixo una trama d'amor, ja que totes les covariables es poden col·locar en un gràfic i les covariables abans i després de la concordança es poden comparar fàcilment. Poso un exemple del gràfic a continuació.
Què passa si les covariables encara estan desequilibrades després de la concordança? Per il·lustrar-ho, la diferència mitjana estandarditzada (SMD) de les covariables freqüència de compres i AOV és d'uns 0,5, que està per sobre del 0,1 requerit. Implica que les covariables estan desequilibrades i que es necessita una nova correspondència.
El model PSM del senyal de covariables desequilibrades no és efectiu i s'ha de reconstruir. Per tant, és imprescindible tornar uns quants passos enrere i repetir la combinació.
Hi ha quatre mètodes per refer la concordança:
1. Afegiu noves covariables
2. Simplement canvieu el mètode de concordança, ja que n'hi ha molts
3. Combina la concordança de puntuació de propensió amb el mètode de concordança exacta
4. Augmenta la mida d'una mostra
Finalment, ens apropem a l'última etapa en què s'estima l'efecte de l'experiment. Hi ha principalment tres tipus d'estimació d'efectes: l'efecte mitjà del tractament (ATE), l'efecte mitjà del tractament sobre el tractat (ATT) i l'efecte mitjà del tractament sobre el control (ATC). Bàsicament parlant, ATE és una diferència calculada en una mètrica clau entre els grups de prova i control (similar a la mesura d'una mètrica principal en una prova A/B). Es calcula com a mitjà de l'efecte del tractament, ATE = mitjana (Y1 - Y1) tal com s'il·lustra a continuació a la figura.
Mentre que ATT i ATC són un efecte de tractament mitjà d'un grup de prova i control, respectivament. Tots són mètodes d'estimació senzills i entenedors.
L'ATE és el tipus més comú i s'utilitza quan es compara la mètrica principal dels grups de control i de prova i es mesura l'efecte provat. Mentre que ATT i ATC són preferits quan es requereixen mètriques absolutes per a cada grup. Finalment, es realitza una prova estadística adequada per comprovar la significació estadística dels resultats.
Després de l'explicació detallada del mètode Propensity Score Matching , pot ser que sigui el moment de començar a implementar-lo al vostre treball, però cal tenir en compte certes limitacions.
1. No es recomana utilitzar Bootstrap amb la concordança de puntuació de propensió, ja que augmenta la variància. ( https://economics.mit.edu/sites/default/files/publications/EN LA FALLA DEL BOOTSTRAP FOR.pdf )
2. Stable unit treatment value assumption (SUTVA) principle must be met. 3. Propensity Score Matching implies using two machine learning algorithms (one for propensity score calculations and the second one for matching), which can be a pricy method to use for a company. On that account, it's advisable to negotiate with your team on A/B test conduction. 4. Finally, as discussed above, a big number of covariates are suggested to be used in the models. Thus, it requires a high-powered machine(-s) to calculate the results of the models. Again, it's a costly method to implement.
T'agradaria respondre algunes d'aquestes preguntes? L'enllaç per a la plantilla és