paint-brush
Cómo implementar el método de emparejamiento por puntaje de propensión: una guía paso a pasopor@ngl21
438 lecturas
438 lecturas

Cómo implementar el método de emparejamiento por puntaje de propensión: una guía paso a paso

por Angela Nedopekina9m2024/11/04
Read on Terminal Reader

Demasiado Largo; Para Leer

El emparejamiento por puntaje de propensión es una técnica de pruebas A/B adicional que se emplea cuando la aleatorización de la muestra no funciona. El puntaje de propensión (probabilidad de ser asignado al grupo de prueba) de un grupo de tratamiento se cuenta para cada usuario y luego el usuario se empareja con otro usuario según los datos históricos de uso del producto formando un grupo de control. Después, los resultados de dos grupos se comparan utilizando una prueba estadística y se mide un efecto experimental. A continuación, se muestra un marco del PSM: 1) Recopilar los datos sobre los que se estima un puntaje de propensión y se encuentra un usuario emparejado. 2) Estimar un puntaje de propensión utilizando métodos, como la regresión logística, y entrenar en el conjunto de datos para predecir si un usuario será asignado a un grupo de prueba. Para cada usuario, el modelo entrenado genera una probabilidad de estar en un grupo de prueba. 3) Emparejamiento basado en el puntaje de propensión, donde se prueban diferentes métodos de emparejamiento, como el vecino más cercano. 4) El equilibrio de covariables entre los grupos de tratamiento y control se verifica calculando estadísticas de equilibrio y generando gráficos. Un balance deficiente indica que el modelo que estima el puntaje de propensión debe volver a especificarse. 5) Los efectos de una prueba se estiman utilizando datos emparejados y se realiza una prueba estadística. Existen ciertas limitaciones para la implementación del PSM.
featured image - Cómo implementar el método de emparejamiento por puntaje de propensión: una guía paso a paso
Angela Nedopekina HackerNoon profile picture
0-item


Recientemente estuve trabajando en un experimento basado en Propensity Score Matching y mientras buscaba información me encontré con una falta de materiales sobre el tema. La mayoría de los artículos que encontré tratan sobre la efectividad del método y no están bien detallados en términos de teoría. Por lo tanto, decidí compartir con ustedes una guía completa sobre el marco de trabajo de Propensity Score Matching y sus pasos.

¿Qué es el Propensity Score Matching y por qué aplicarlo?

“El emparejamiento por puntaje de propensión implica formar conjuntos emparejados de sujetos tratados y no tratados que comparten un valor similar de puntaje de propensión. Una vez que se ha formado una muestra emparejada, el efecto del tratamiento se puede estimar comparando directamente los resultados”.


La definición fue dada por primera vez por Rosenbaum PR, Rubin DB en el artículo “Evaluación de la sensibilidad a una covariable binaria no observada en un estudio observacional con resultado binario” de 1983.


En pocas palabras, se trata de una técnica adicional de pruebas A/B que se emplea cuando la aleatorización de la muestra no funciona . Se cuenta el puntaje de propensión (probabilidad de ser asignado al grupo de prueba) de un grupo de tratamiento para cada usuario y luego se lo empareja con otro usuario en función de los datos históricos de uso del producto, formando así un grupo de control. Después, se comparan los resultados de dos grupos mediante una prueba estadística y se mide el efecto del experimento.


Figura 1. Ilustración de emparejamiento por puntaje de propensión


Pero ¿por qué utilizar la compleja técnica de encontrar un grupo de control si una plataforma A/B puede hacerlo? En algunos casos no es posible emplear una plataforma A/B con una función de división incorporada. Estos son los casos posibles:


  1. Implementar una prueba A/B es costoso y requiere mucho tiempo para las empresas debido a los diversos trabajos y comunicaciones multifuncionales (sí, puede suceder).
  2. Una empresa puede carecer de ganancias al probar funciones/estrategias relacionadas con la monetización o el marketing en caso de implementar un experimento clásico de prueba/control.
  3. A menudo es imposible tener un muestreo aleatorio en experimentos fuera de línea, lo cual es necesario para una prueba A/B.
  4. Tampoco es viable aplicar una prueba A/B en experimentos en línea cuando el objeto probado no está distribuido aleatoriamente.


Tuve el cuarto caso en mi consultorio y sucedió mientras trabajaba con un producto de comercio electrónico. Un equipo de producto se estaba preparando para probar una función que ofrecía bonificaciones a los usuarios después de realizar el primer pedido. El problema era que la función no funcionaba con todos los usuarios que realizaban el primer pedido. Se debían cumplir ciertas condiciones, como el valor del pedido, etc. En este caso, dividir el tráfico entre los grupos de prueba y de control está más allá de los límites de una plataforma de pruebas A/B. Esta es la razón por la que Propensity Score Matching fue la opción.

Marco del emparejamiento por puntaje de propensión

Un marco completo se basa aproximadamente en un artículo “ Coincidencia de puntaje de propensión con R: métodos convencionales y nuevas características ” y comprende cinco pasos (Figura 2).


El primer paso es recopilar los datos con los que se estima una puntuación de propensión y se encuentra un usuario compatible.


El segundo paso es estimar un puntaje de propensión mediante métodos como la regresión logística y entrenar el conjunto de datos para predecir si un usuario será asignado a un grupo de prueba. Para cada usuario, el modelo entrenado genera una probabilidad de estar en un grupo de prueba.


El tercer paso se refiere al emparejamiento basado en la puntuación de propensión, donde se prueban diferentes métodos de emparejamiento, como el del vecino más cercano.


En el cuarto paso, se verifica el equilibrio de las covariables entre los grupos de tratamiento y control calculando estadísticas de equilibrio y generando gráficos. Un equilibrio deficiente indica que es necesario volver a especificar el modelo que estima el puntaje de propensión.


En el quinto paso final, se estiman los efectos de una prueba utilizando datos coincidentes y se realiza una prueba estadística.


Figura 2. Marco de emparejamiento por puntaje de propensión

Recopilación de datos

Esta etapa se refiere a la recolección de variables requeridas, covariables y factores de confusión. La covariable (X) es una variable independiente que puede influir en el resultado de un experimento (Y), pero que no es de interés directo. El factor de confusión es un factor distinto del que se está estudiando que está asociado tanto con la asignación a un grupo de prueba (W) como con el resultado de un experimento (Y).


El gráfico siguiente ilustra las relaciones entre las variables. X es una covariable, W es un indicador de la asignación del tratamiento e Y es el resultado. El gráfico de la izquierda muestra la relación entre los factores de confusión y el de la derecha muestra la conexión independiente de la covariable con el resultado del experimento (Y) y con la asignación del grupo de prueba (W).


Figura 3. Relaciones entre covariable, asignación de prueba y resultado.


Aquí es fundamental subrayar que no se recomienda seleccionar solo variables que estén asociadas con la asignación de los usuarios a un grupo de prueba (W) porque puede reducir la precisión en la evaluación de la diferencia de grupo sin disminuir el sesgo ( https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1513192/ ).


Puede que se pregunte cuántas variables necesito seleccionar. La respuesta es sencilla: cuantas más, mejor para obtener una estimación alta de los resultados y minimizar el sesgo del estudio . Y aquí estoy hablando de números grandes, como 20-50 o incluso más.

Estimación del puntaje de propensión

Para pasar al siguiente paso, es necesario recopilar los datos y establecer un indicador de pertenencia a un grupo de tratamiento. Todos los demás usuarios formarán potencialmente un grupo de control. Después, se calcula el puntaje de propensión utilizando varios métodos, como la regresión logística o los bosques aleatorios.


La mayoría de los artículos que he leído sugieren que hay que ceñirse a la regresión logística y no utilizar otros modelos más complejos, ya que la precisión no es crucial . Sin embargo, las técnicas de comparación exitosas se concentran en la precisión.


Después de seleccionar el método, se entrena un modelo predictivo con los datos utilizando las covariables seleccionadas para predecir si un usuario pertenece a un grupo de prueba. Por último, el modelo realiza predicciones para cada usuario y se calcula el puntaje de propensión, la probabilidad de estar en un grupo de prueba. En términos de software, en Python se puede utilizar cualquier biblioteca de pronóstico, desde scikit-learn básico hasta Prophet.

Coincidencia de datos

La siguiente acción consiste en implementar una técnica de emparejamiento para encontrar un usuario coincidente con el usuario de un grupo de prueba. Por lo tanto, se forma un grupo de control.


Existen varios métodos de comparación entre los cuales elegir, por ejemplo, la comparación exacta o la comparación de distancia de Mahalanobis. En este artículo, voy a analizar principalmente la técnica común de comparación de vecinos más cercanos y sus variantes.


El emparejamiento del vecino más cercano (NNM) se compone de dos fases. En primer lugar, el algoritmo selecciona usuarios, uno por uno, de un grupo de tratamiento, en un orden específico. Posteriormente, para cada usuario de un grupo de prueba, el algoritmo encuentra un usuario en el grupo de control con la puntuación de propensión más cercana. Estos pasos se repiten hasta que no queden usuarios en los grupos de prueba o control. En Python, existen bibliotecas específicas para PSM como PyTorch, Psmpy , causallib . O siempre puede quedarse con cualquier biblioteca clásica con algoritmos de emparejamiento.


Es fundamental destacar que, en caso de crear un grupo de control similar a una prueba A/B clásica, donde los usuarios de un grupo son únicos y los tamaños de muestra son iguales, se debe implementar el método NNM sin reemplazo. El método implica que después de la comparación, se eliminará el par coincidente, de modo que un usuario en el grupo de control se utilizará solo una vez.


También existe la opción de seleccionar un modelo NNM con o sin calibrador. Un calibrador establece el límite superior de la distancia de las puntuaciones de propensión en un par emparejado. Por lo tanto, cada usuario solo puede emparejarse con usuarios de una puntuación de propensión dentro de un rango limitado. Si no se puede emparejar a los usuarios elegibles, el usuario será descartado.


¿Por qué debería utilizar el calibrador? Es recomendable aplicarlo cuando la distancia de los puntajes de propensión en un par emparejado puede ser grande. Al decidir el tamaño del calibrador, considere lo siguiente: si el desempeño de emparejamiento no es satisfactorio, el emparejamiento se puede realizar con un calibrador más ajustado y si el emparejamiento es exitoso pero el número de pares emparejados es pequeño, el calibrador se puede ampliar ( https://www.ncbi.nlm.nih.gov/pmc/articles/PMC8246231/ ).

Diagnóstico del equilibrio

Durante esta etapa se verifica si las covariables de los grupos de prueba y de control emparejados están equilibradas, es decir, se afirma si una coincidencia es precisa.

Es un paso crucial ya que las covariables desequilibradas darán lugar a una comparación incorrecta de los resultados de las pruebas A/B.

Existen tres medios para diagnosticar el equilibrio:


- estadísticas descriptivas: diferencia de medias estandarizada (SMD) o razón de varianzas (VR)

- pruebas estadísticas

- visualización: gráfico qq, histograma o gráfico de amor


En el artículo me centraré principalmente en la primera y la tercera opción.


Primero, analicemos la diferencia de medias estandarizada y la razón de varianzas. ¿Qué valores indican que una covariable está equilibrada? Recomiendo que el valor SMD sea inferior a 0,1. En términos de VR, un valor cercano a 1,0 indica un equilibrio .


En segundo lugar, en cuanto a los métodos de visualización, se calcula una de las estadísticas descriptivas anteriores para cada covariable y se muestra gráficamente. Personalmente, prefiero un gráfico de amor, ya que todas las covariables se pueden colocar en un gráfico y las covariables antes y después de la comparación se pueden comparar fácilmente. A continuación, incluyo un ejemplo del gráfico.


Figura 4. Diagrama de amor de las covariables SMD antes y después del ajuste


¿Qué sucede si las covariables siguen sin estar equilibradas después de la comparación? Para ilustrarlo, la diferencia de medias estandarizada (SMD) de las covariables frecuencia de compras y AOV es de alrededor de 0,5, lo que supera el 0,1 requerido. Esto implica que las covariables están desequilibradas y es necesario volver a comparar.

Las covariables desequilibradas indican que el modelo PSM no es eficaz y debe reconstruirse. Por lo tanto, es necesario retroceder unos pasos y repetir la comparación.

Hay cuatro métodos para rehacer la coincidencia:


1. Agregar nuevas covariables

2. Simplemente cambia el método de coincidencia, ya que hay muchos.

3. Combine el método de emparejamiento por puntaje de propensión con el método de emparejamiento exacto

4. Aumente el tamaño de la muestra

Estimación de los efectos del tratamiento

Finalmente, nos acercamos a la última etapa, en la que se estima el efecto del experimento. Existen principalmente tres tipos de estimación del efecto: el efecto promedio del tratamiento (ATE), el efecto promedio del tratamiento en el grupo tratado (ATT) y el efecto promedio del tratamiento en el grupo de control (ATC). Básicamente, el ATE es una diferencia calculada en una métrica clave entre los grupos de prueba y de control (similar a la medición de una métrica principal en una prueba A/B). Se calcula como una media del efecto del tratamiento, ATE = avg (Y1 - Y1) como se ilustra a continuación en la figura.


Figura 5. Fórmulas y ejemplos de cálculo de los efectos del tratamiento


Si bien ATT y ATC son un efecto de tratamiento promedio de un grupo de prueba y de control, respectivamente, todos son métodos de estimación sencillos y comprensibles.


El tipo más común es el ATE y se utiliza cuando se comparan las métricas principales de los grupos de control y de prueba y se mide el efecto probado. Mientras que el ATT y el ATC se prefieren cuando se requieren métricas absolutas para cada grupo. Finalmente, se realiza una prueba estadística adecuada para verificar la significancia estadística de los resultados.

Limitaciones del emparejamiento por puntaje de propensión

Después de la explicación detallada del método Propensity Score Matching , puede que sea el momento de comenzar a implementarlo en su trabajo, pero hay ciertas limitaciones que se deben tener en cuenta.


1. No se recomienda utilizar Bootstrap con el método Propensity Score Matching, ya que aumenta la varianza. ( https://economics.mit.edu/sites/default/files/publications/ON THE FAILURE OF THE BOOTSTRAP FOR.pdf )

 2. Stable unit treatment value assumption (SUTVA) principle must be met. 3. Propensity Score Matching implies using two machine learning algorithms (one for propensity score calculations and the second one for matching), which can be a pricy method to use for a company. On that account, it's advisable to negotiate with your team on A/B test conduction. 4. Finally, as discussed above, a big number of covariates are suggested to be used in the models. Thus, it requires a high-powered machine(-s) to calculate the results of the models. Again, it's a costly method to implement.

Sin embargo, si es posible implementar Propensity Score Matching , hazlo y no dudes en mejorar tu experiencia y conocimientos prácticos. Buena suerte con tus futuros experimentos y descubrimientos de aprendizaje automático.



¿Te gustaría intentar responder algunas de estas preguntas? El enlace a la plantilla es AQUÍ ¿Te interesa leer el contenido de todos nuestros temas de escritura? Haz clic aquí. AQUÍ .