“El emparejamiento por puntaje de propensión implica formar conjuntos emparejados de sujetos tratados y no tratados que comparten un valor similar de puntaje de propensión. Una vez que se ha formado una muestra emparejada, el efecto del tratamiento se puede estimar comparando directamente los resultados”.
La definición fue dada por primera vez por Rosenbaum PR, Rubin DB en el artículo “Evaluación de la sensibilidad a una covariable binaria no observada en un estudio observacional con resultado binario” de 1983.
En pocas palabras, se trata de una técnica adicional de pruebas A/B que se emplea cuando la aleatorización de la muestra no funciona . Se cuenta el puntaje de propensión (probabilidad de ser asignado al grupo de prueba) de un grupo de tratamiento para cada usuario y luego se lo empareja con otro usuario en función de los datos históricos de uso del producto, formando así un grupo de control. Después, se comparan los resultados de dos grupos mediante una prueba estadística y se mide el efecto del experimento.
Pero ¿por qué utilizar la compleja técnica de encontrar un grupo de control si una plataforma A/B puede hacerlo? En algunos casos no es posible emplear una plataforma A/B con una función de división incorporada. Estos son los casos posibles:
Tuve el cuarto caso en mi consultorio y sucedió mientras trabajaba con un producto de comercio electrónico. Un equipo de producto se estaba preparando para probar una función que ofrecía bonificaciones a los usuarios después de realizar el primer pedido. El problema era que la función no funcionaba con todos los usuarios que realizaban el primer pedido. Se debían cumplir ciertas condiciones, como el valor del pedido, etc. En este caso, dividir el tráfico entre los grupos de prueba y de control está más allá de los límites de una plataforma de pruebas A/B. Esta es la razón por la que Propensity Score Matching fue la opción.
Un marco completo se basa aproximadamente en un artículo “ Coincidencia de puntaje de propensión con R: métodos convencionales y nuevas características ” y comprende cinco pasos (Figura 2).
El primer paso es recopilar los datos con los que se estima una puntuación de propensión y se encuentra un usuario compatible.
El segundo paso es estimar un puntaje de propensión mediante métodos como la regresión logística y entrenar el conjunto de datos para predecir si un usuario será asignado a un grupo de prueba. Para cada usuario, el modelo entrenado genera una probabilidad de estar en un grupo de prueba.
El tercer paso se refiere al emparejamiento basado en la puntuación de propensión, donde se prueban diferentes métodos de emparejamiento, como el del vecino más cercano.
En el cuarto paso, se verifica el equilibrio de las covariables entre los grupos de tratamiento y control calculando estadísticas de equilibrio y generando gráficos. Un equilibrio deficiente indica que es necesario volver a especificar el modelo que estima el puntaje de propensión.
En el quinto paso final, se estiman los efectos de una prueba utilizando datos coincidentes y se realiza una prueba estadística.
Esta etapa se refiere a la recolección de variables requeridas, covariables y factores de confusión. La covariable (X) es una variable independiente que puede influir en el resultado de un experimento (Y), pero que no es de interés directo. El factor de confusión es un factor distinto del que se está estudiando que está asociado tanto con la asignación a un grupo de prueba (W) como con el resultado de un experimento (Y).
El gráfico siguiente ilustra las relaciones entre las variables. X es una covariable, W es un indicador de la asignación del tratamiento e Y es el resultado. El gráfico de la izquierda muestra la relación entre los factores de confusión y el de la derecha muestra la conexión independiente de la covariable con el resultado del experimento (Y) y con la asignación del grupo de prueba (W).
Aquí es fundamental subrayar que no se recomienda seleccionar solo variables que estén asociadas con la asignación de los usuarios a un grupo de prueba (W) porque puede reducir la precisión en la evaluación de la diferencia de grupo sin disminuir el sesgo ( https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1513192/ ).
Puede que se pregunte cuántas variables necesito seleccionar. La respuesta es sencilla: cuantas más, mejor para obtener una estimación alta de los resultados y minimizar el sesgo del estudio . Y aquí estoy hablando de números grandes, como 20-50 o incluso más.
Para pasar al siguiente paso, es necesario recopilar los datos y establecer un indicador de pertenencia a un grupo de tratamiento. Todos los demás usuarios formarán potencialmente un grupo de control. Después, se calcula el puntaje de propensión utilizando varios métodos, como la regresión logística o los bosques aleatorios.
La mayoría de los artículos que he leído sugieren que hay que ceñirse a la regresión logística y no utilizar otros modelos más complejos, ya que la precisión no es crucial . Sin embargo, las técnicas de comparación exitosas se concentran en la precisión.
Después de seleccionar el método, se entrena un modelo predictivo con los datos utilizando las covariables seleccionadas para predecir si un usuario pertenece a un grupo de prueba. Por último, el modelo realiza predicciones para cada usuario y se calcula el puntaje de propensión, la probabilidad de estar en un grupo de prueba. En términos de software, en Python se puede utilizar cualquier biblioteca de pronóstico, desde scikit-learn básico hasta Prophet.
La siguiente acción consiste en implementar una técnica de emparejamiento para encontrar un usuario coincidente con el usuario de un grupo de prueba. Por lo tanto, se forma un grupo de control.
Existen varios métodos de comparación entre los cuales elegir, por ejemplo, la comparación exacta o la comparación de distancia de Mahalanobis. En este artículo, voy a analizar principalmente la técnica común de comparación de vecinos más cercanos y sus variantes.
El emparejamiento del vecino más cercano (NNM) se compone de dos fases. En primer lugar, el algoritmo selecciona usuarios, uno por uno, de un grupo de tratamiento, en un orden específico. Posteriormente, para cada usuario de un grupo de prueba, el algoritmo encuentra un usuario en el grupo de control con la puntuación de propensión más cercana. Estos pasos se repiten hasta que no queden usuarios en los grupos de prueba o control. En Python, existen bibliotecas específicas para PSM como PyTorch, Psmpy , causallib . O siempre puede quedarse con cualquier biblioteca clásica con algoritmos de emparejamiento.
Es fundamental destacar que, en caso de crear un grupo de control similar a una prueba A/B clásica, donde los usuarios de un grupo son únicos y los tamaños de muestra son iguales, se debe implementar el método NNM sin reemplazo. El método implica que después de la comparación, se eliminará el par coincidente, de modo que un usuario en el grupo de control se utilizará solo una vez.
También existe la opción de seleccionar un modelo NNM con o sin calibrador. Un calibrador establece el límite superior de la distancia de las puntuaciones de propensión en un par emparejado. Por lo tanto, cada usuario solo puede emparejarse con usuarios de una puntuación de propensión dentro de un rango limitado. Si no se puede emparejar a los usuarios elegibles, el usuario será descartado.
¿Por qué debería utilizar el calibrador? Es recomendable aplicarlo cuando la distancia de los puntajes de propensión en un par emparejado puede ser grande. Al decidir el tamaño del calibrador, considere lo siguiente: si el desempeño de emparejamiento no es satisfactorio, el emparejamiento se puede realizar con un calibrador más ajustado y si el emparejamiento es exitoso pero el número de pares emparejados es pequeño, el calibrador se puede ampliar ( https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8246231/ ).
Durante esta etapa se verifica si las covariables de los grupos de prueba y de control emparejados están equilibradas, es decir, se afirma si una coincidencia es precisa.
Es un paso crucial ya que las covariables desequilibradas darán lugar a una comparación incorrecta de los resultados de las pruebas A/B.
Existen tres medios para diagnosticar el equilibrio:
- estadísticas descriptivas: diferencia de medias estandarizada (SMD) o razón de varianzas (VR)
- pruebas estadísticas
- visualización: gráfico qq, histograma o gráfico de amor
En el artículo me centraré principalmente en la primera y la tercera opción.
Primero, analicemos la diferencia de medias estandarizada y la razón de varianzas. ¿Qué valores indican que una covariable está equilibrada? Recomiendo que el valor SMD sea inferior a 0,1. En términos de VR, un valor cercano a 1,0 indica un equilibrio .
En segundo lugar, en cuanto a los métodos de visualización, se calcula una de las estadísticas descriptivas anteriores para cada covariable y se muestra gráficamente. Personalmente, prefiero un gráfico de amor, ya que todas las covariables se pueden colocar en un gráfico y las covariables antes y después de la comparación se pueden comparar fácilmente. A continuación, incluyo un ejemplo del gráfico.
¿Qué sucede si las covariables siguen sin estar equilibradas después de la comparación? Para ilustrarlo, la diferencia de medias estandarizada (SMD) de las covariables frecuencia de compras y AOV es de alrededor de 0,5, lo que supera el 0,1 requerido. Esto implica que las covariables están desequilibradas y es necesario volver a comparar.
Las covariables desequilibradas indican que el modelo PSM no es eficaz y debe reconstruirse. Por lo tanto, es necesario retroceder unos pasos y repetir la comparación.
Hay cuatro métodos para rehacer la coincidencia:
1. Agregar nuevas covariables
2. Simplemente cambia el método de coincidencia, ya que hay muchos.
3. Combine el método de emparejamiento por puntaje de propensión con el método de emparejamiento exacto
4. Aumente el tamaño de la muestra
Finalmente, nos acercamos a la última etapa, en la que se estima el efecto del experimento. Existen principalmente tres tipos de estimación del efecto: el efecto promedio del tratamiento (ATE), el efecto promedio del tratamiento en el grupo tratado (ATT) y el efecto promedio del tratamiento en el grupo de control (ATC). Básicamente, el ATE es una diferencia calculada en una métrica clave entre los grupos de prueba y de control (similar a la medición de una métrica principal en una prueba A/B). Se calcula como una media del efecto del tratamiento, ATE = avg (Y1 - Y1) como se ilustra a continuación en la figura.
Si bien ATT y ATC son un efecto de tratamiento promedio de un grupo de prueba y de control, respectivamente, todos son métodos de estimación sencillos y comprensibles.
El tipo más común es el ATE y se utiliza cuando se comparan las métricas principales de los grupos de control y de prueba y se mide el efecto probado. Mientras que el ATT y el ATC se prefieren cuando se requieren métricas absolutas para cada grupo. Finalmente, se realiza una prueba estadística adecuada para verificar la significancia estadística de los resultados.
Después de la explicación detallada del método Propensity Score Matching , puede que sea el momento de comenzar a implementarlo en su trabajo, pero hay ciertas limitaciones que se deben tener en cuenta.
1. No se recomienda utilizar Bootstrap con el método Propensity Score Matching, ya que aumenta la varianza. ( https://economics.mit.edu/sites/default/files/publications/ON THE FAILURE OF THE BOOTSTRAP FOR.pdf )
2. Stable unit treatment value assumption (SUTVA) principle must be met. 3. Propensity Score Matching implies using two machine learning algorithms (one for propensity score calculations and the second one for matching), which can be a pricy method to use for a company. On that account, it's advisable to negotiate with your team on A/B test conduction. 4. Finally, as discussed above, a big number of covariates are suggested to be used in the models. Thus, it requires a high-powered machine(-s) to calculate the results of the models. Again, it's a costly method to implement.
¿Te gustaría intentar responder algunas de estas preguntas? El enlace a la plantilla es