paint-brush
Comprender la barrera de salida en el sistema de recomendación de Amazonpor@escholar
562 lecturas
562 lecturas

Comprender la barrera de salida en el sistema de recomendación de Amazon

Demasiado Largo; Para Leer

Esta sección detalla la metodología detrás del análisis de barrera de salida en el sistema de recomendación de Amazon, describiendo el proceso de cálculo, las consideraciones de datos, la formulación del modelo estadístico y las pruebas de hipótesis para comprender la dinámica de las preferencias de los usuarios y los cambios a lo largo del tiempo.
featured image - Comprender la barrera de salida en el sistema de recomendación de Amazon
EScholar: Electronic Academic Papers for Scholars HackerNoon profile picture
0-item

Autores:

(1) Jonathan H. Rystrom.

Tabla de enlaces

Resumen e introducción

Literatura anterior

Métodos y datos

Resultados

Discusiones

Conclusiones y referencias

A. Validación de supuestos

B. Otros modelos

C. Pasos previos al procesamiento

3 métodos y datos

3.1 Definición de barrera de salida

En un nivel alto, la barrera de salida mide cuánto esfuerzo deben realizar los usuarios para indicar que sus preferencias han cambiado (Rakova y Chowdhury, 2019). Se define en términos de la rapidez con la que las preferencias reveladas de los usuarios por una categoría específica cambian entre los umbrales de interacción. En esta sección, motivaremos la intuición de la barrera de salida y formalizaremos el concepto dentro del contexto del sistema de recomendación de Amazon.


Figura 1: Una representación esquemática del flujo de control en los sistemas de recomendación visto desde la perspectiva del usuario (a) y del modelo AI (b). Adaptado de Rakova y Chowdhury (2019).


Para comprender el papel de la barrera de salida y cómo se puede calcular a partir de las calificaciones, consideremos un diagrama de la interacción entre el usuario y el sistema de recomendación ("Modelo AI") como se ve en la Fig. 1.


Ambos diagramas (a) y (b) muestran circuitos de retroalimentación con el usuario y el modelo, respectivamente, como "supervisores". La yuxtaposición muestra la interacción bilateral como se argumenta en Jiang et al. (2019). El diagrama tiene múltiples elementos: µ es el interés del usuario, Θ es el modelo, α son las recomendaciones mostradas y c son las preferencias reveladas (es decir, la señal que utiliza el modelo para actualizar las recomendaciones). Los subíndices indican pasos de tiempo que van de izquierda a derecha.


Si bien el diagrama actúa como un marco conceptual para comprender la interacción, debemos considerar qué partes podemos medir y qué partes necesitamos modelar. Rakova y Chowdhury (2019) sostienen que analizando únicamente cómo cambian las preferencias reveladas a lo largo del tiempo, podemos calcular una medida del esfuerzo necesario para cambiar las preferencias; la barrera de salida.


Tenga en cuenta que, si bien el ciclo de retroalimentación general afecta a todo el modelo, la barrera de salida se define por categoría. Las categorías pueden ser géneros, como "Thriller" o "Ciencia ficción", o tipos de libros como "Autoayuda" o "Libro de cocina". Cada libro puede tener varias categorías.



La relevancia de la categoría no es una característica disponible automáticamente de nuestros datos (ver 3.2). Por el contrario, Rakova y Chowdhury (2019) utilizan el conjunto de datos MovieLens (Harper & Konstan, 2016), donde la relevancia de la categoría se ha anotado manualmente para un subconjunto de datos. Esto hace posible utilizar el aprendizaje (semi)supervisado para anotar el resto de los datos (es decir, Kipf & Welling, 2017).


Desafortunadamente, los datos de Amazon no tienen etiquetas. En su lugar, utilizamos un enfoque no supervisado basado en la coexistencia de categorías. A los libros se les otorga una alta relevancia de categoría para una categoría específica si pertenecen a categorías que a menudo aparecen juntas. Por ejemplo, un libro con las categorías "suspense" y "terror" tendría una puntuación de relevancia de categoría de 1 para "suspense" si siempre coincide con "terror", pero una puntuación de 0 para "jardinería" si nunca coincide con la "jardinería". Normalizamos las puntuaciones para que oscilen entre 0 y 1. Consulte el repositorio de GitHub para obtener detalles de implementación.


Pasamos ahora a los umbrales de interacción (Rakova & Chowdhury, 2019). Conceptualmente, los umbrales de interacción son el rango de preferencias de los usuarios dentro de una categoría determinada. Si, por ejemplo, un usuario solo califica los thrillers con 4 estrellas pero califica algunos libros de cocina con 1 estrella y otros con 5 estrellas, tendría umbrales de interacción estrechos para los thrillers y umbrales de interacción más amplios para los libros de cocina.



Hay algunas cosas importantes a tener en cuenta sobre la definición de barrera de salida. En primer lugar, puede haber varios valores de barrera de salida por usuario y categoría. Cada vez que un usuario tiene una preferencia dentro de una categoría que va desde arriba de los umbrales de interacción hasta debajo, se define una barrera de salida para ese período.


En segundo lugar, la barrera de salida define a los usuarios que cambian de preferencias. Las preferencias cambiantes se definen cuando los usuarios pasan de estar por encima de los umbrales de interacción a estar por debajo de los umbrales de interacción.


En tercer lugar, la barrera de salida no puede ser exactamente cero. Esto se debe a que sólo se define cuando un usuario tiene calificaciones intermedias entre los umbrales. Si un usuario tiene una calificación que supera los umbrales de interacción y el siguiente está por debajo, esto no se registrará en Barrera de salida.


Finalmente (y de manera crucial), la barrera de salida solo se define para un subconjunto de usuarios. Tener una barrera de salida bien definida para un usuario requiere a) suficientes calificaciones y b) que estas calificaciones cambien en relación con una categoría. Por lo tanto, sólo podemos hacer inferencias para este subconjunto de usuarios. Discutiremos las implicaciones de esto más adelante en la discusión (sección 5.2).


En esta sección, hemos proporcionado una formulación matemática de Barrera de Salida junto con importantes advertencias. Para la implementación del código, consulte el repositorio.

3.2 Datos

Para este análisis, utilizamos un conjunto de datos de reseñas de libros de Amazon (Ni et al., 2019). El conjunto de datos sin procesar consta de aproximadamente 51 millones de calificaciones por ca. 15 millones de usuarios en el período 1998 a 2018[2]. Todas las calificaciones están en una escala Likert del 1 al 5.


El conjunto de datos se extrajo de la tienda web de Amazon basándose en la metodología de McAuley et al. (2015). Desafortunadamente, dado que el conjunto de datos carece de una hoja de datos (Gebru et al., 2021), es difícil determinar si tiene algún problema de cobertura o sesgo. También dificulta replicar la recopilación de datos desde cero. Aparte de eso, el conjunto de datos es de fácil acceso y está bien documentado.


Un aspecto relacionado con la cobertura que debemos tener en cuenta es que utilizamos las calificaciones como indicador de las interacciones. En el conjunto de datos, no tenemos acceso a las personas que compraron un producto pero no lo calificaron, ni a las personas que no compraron un producto ni lo calificaron. Esto nos brinda una medida bastante indirecta del proceso de recomendación real, particularmente en comparación con el conjunto de datos de MovieLens (Harper & Konstan, 2016; Rakova & Chowdhury, 2019).


Debido al tamaño de los datos, el preprocesamiento no resulta trivial. Una explicación de los pasos necesarios se puede ver en el apéndice C.


Si bien el conjunto de datos original es grande, solo nos interesa un subconjunto. En concreto nos interesan los usuarios que han cambiado sus preferencias. Por lo tanto, filtramos para incluir solo usuarios con más de 20 calificaciones, lo que sigue las convenciones de MovieLens (Harper & Konstan, 2016) para las cuales se definió originalmente Barrier-to-Exit (Rakova & Chowdhury, 2019).


Figura 2: Distribución de la cantidad total de calificaciones (izquierda) y personas (derecha) en diferentes grupos de calificación-actividad. Si bien el grupo con más de 20 calificaciones representa una fracción sustancial del total de calificaciones, son sólo una pequeña parte del total.


La Fig. 2 muestra el subconjunto seleccionado. Vale la pena señalar que, si bien nuestro subconjunto retiene una fracción sustancial de las calificaciones (≈ 30%), solo retenemos ca. 350.000 usuarios (0,6%). Esto es típico de la actividad del usuario, que tiende a ser de cola gruesa (Papakyriakopoulos et al., 2020). Discutiremos las implicaciones para nuestra interpretación en la discusión (5.2).


Como veremos más adelante, sólo una fracción de ellos ha cambiado sus preferencias según nuestra definición (ver sección 3.1).


Para nuestro análisis final, tenemos 50.626 usuarios que se ajustan a nuestra definición (≈ 0,1% del total).


El conjunto de datos de calificación se fusionó con un conjunto de datos que proporciona categorías para cada libro. El conjunto de datos de la categoría provino de la misma fuente (es decir, Ni et al., 2019). Para mantener los cálculos simples para calcular la similitud de categorías (ver código en GitHub), solo consideramos categorías que se han utilizado en más de 100 libros. Este enfoque es válido porque la distribución de categorías está muy sesgada, lo que significa que se utiliza una pequeña cantidad de categorías en una gran cantidad de libros. (Esta es una dinámica similar a la actividad del usuario; ver Fig. 2).

3.3 Modelo

Ahora que hemos operacionalizado la barrera de salida como medida de la dificultad para cambiar las preferencias, introduzcamos el modelo estadístico para analizar la tendencia.


Lo primero que hay que tener en cuenta es que necesitamos un modelo multinivel cruzado (Baayen et al., 2008). Nuestro modelo debe tener dos niveles: usuario y categoría. El nivel de usuario es el más obvio en teoría. Dado que cada usuario puede tener múltiples cambios de preferencias (con barreras de salida asociadas), debemos controlar sus diferencias individuales (Baayen et al., 2008). Esto también es importante ya que el sistema de recomendación utilizará funciones predictivas a las que no se puede acceder en el conjunto de datos (Smith & Linden, 2017).


Las categorías constituyen el otro nivel. La función del nivel de categoría en nuestro modelo es dar cuenta de las características a nivel de artículo. Como se explica en la introducción, existen razones comerciales (es decir, las empresas siguen el imperativo de predicción; (Zuboff, 2019)) y algorítmicas (es decir, reducir la variabilidad podría mejorar el objetivo de recompensa (Carroll et al., 2022)) para creer que diferentes categorías tendrán diferentes barreras de salida. Por lo tanto, las categorías pueden actuar como sustitutos de estos efectos. Este diseño cruzado se utiliza a menudo en la investigación en psicología (Baayen et al., 2008).


Hay dos razones para incluir categorías como efectos aleatorios y no efectos fijos. El primero es el número de categorías. Hay más de 300 categorías en nuestro conjunto de datos. Por lo tanto, sería inviable modelarlos como efectos fijos. En segundo lugar, dado que los utilizamos como proxy de la varianza a nivel de ítem, es más conveniente modelar sólo los componentes aleatorios (Maddala, 1971).


Esto nos da el siguiente modelo:



Una cosa crucial a tener en cuenta es que la barrera de salida de transformación logarítmica cambia la interpretación de los coeficientes. En lugar de interpretarlos en una escala lineal, se debería interpretarlos en una escala logarítmica (Villadsen & Wulff, 2021). La forma más natural de hacerlo es exponenciar los efectos e interpretarlos como un cambio porcentual. Sin embargo, la transformación introduce problemas estadísticos, que discutiremos en la sección 5.2.



También vale la pena señalar que el nivel de actividad no está relativamente correlacionado con el tiempo (ver Fig. 3b). Esto se debe a que la actividad se refiere a la actividad dentro del período de Barrera de Salida y no a la actividad total en Amazon. Esta última ha aumentado sustancialmente como puede ser visto por la densidad de los puntos en la Fig. 3b.


Figura 3: Gráficos del nivel de actividad, definido como el número de calificaciones en el período de Barrera de Salida. 3a: La relación entre el nivel de actividad y la barrera de salida. Observe la fuerte linealidad. 3b Cambio en el nivel de actividad a lo largo del tiempo. El


Para evaluar la validez, probamos los supuestos del modelo. Para una verificación completa, consulte el apéndice A. Hay algunas violaciones que vale la pena señalar: Los residuos y los efectos aleatorios se desviaron de la normalidad, particularmente para los efectos aleatorios a nivel de categoría. Sin embargo, esto debería tener poca influencia en la estimación de los efectos fijos (Schielzeth et al., 2020). Sin embargo, realizamos un análisis adicional eliminando las categorías problemáticas para evaluar la solidez de los hallazgos (ver B.2).

3.4 Creación y prueba de hipótesis

Para responder a nuestra pregunta de investigación en un marco inferencial, necesitamos transformarlas en hipótesis con implicaciones comprobables (Popper, 1970). Proponemos la siguiente hipótesis:


Hipótesis : Ha habido un aumento significativo en la barrera de salida para el sistema de recomendación de libros de Amazon en el período 1998-2018.


Para probar la hipótesis, utilizamos la prueba de significancia de Satterthwaite del paquete lmerTest (Kuznetsova et al., 2017; Satterthwaite, 1946) para evaluar el coeficiente de tiempo (β1). Sin embargo, es importante señalar que el método de cálculo de grados de libertad en modelos de efectos mixtos (Satterthwaite, 1946) puede inflar los errores de Tipo I cuando el tamaño de la muestra es pequeño (Baayen et al., 2008). En nuestro caso, el tamaño de la muestra es grande, por lo que esto es menos preocupante.


El gran tamaño de la muestra también implica valores de p cercanos a cero (Ghasemi y Zahediasl, 2012) incluso para efectos pequeños. Por lo tanto, también nos interesa la magnitud del tamaño del efecto, más que sólo la importancia.


Tenga en cuenta que el aumento es una tasa de crecimiento en lugar de un aumento lineal. Esto afecta cómo interpretamos la magnitud del tamaño del efecto.





[2] Para obtener documentación, consulte: https://nijianmo.github.io/amazon/index.html


Este documento está disponible en arxiv bajo licencia CC 4.0.