paint-brush
Понимание барьера выхода в рекомендательной системе Amazonк@escholar
680 чтения
680 чтения

Понимание барьера выхода в рекомендательной системе Amazon

Слишком долго; Читать

В этом разделе подробно описана методология анализа барьеров для выхода в рекомендательной системе Amazon, описывается процесс расчета, анализ данных, формулировка статистической модели и проверка гипотез для понимания динамики и изменений предпочтений пользователей с течением времени.
featured image - Понимание барьера выхода в рекомендательной системе Amazon
EScholar: Electronic Academic Papers for Scholars HackerNoon profile picture
0-item

Авторы:

(1) Джонатан Х. Райстрём.

Таблица ссылок

Аннотация и введение

Предыдущая литература

Методы и данные

Полученные результаты

Обсуждения

Выводы и ссылки

А. Проверка предположений

Б. Другие модели

C. Этапы предварительной обработки

3 метода и данные

3.1 Определение барьера для выхода

На высоком уровне «Барьер выхода» измеряет, сколько усилий должны приложить пользователи, чтобы сигнализировать об изменении их предпочтений (Rakova & Chowdhury, 2019). Он определяется с точки зрения того, насколько быстро меняются выявленные предпочтения пользователей в отношении определенной категории между порогами взаимодействия. В этом разделе мы объясним интуитивное понимание барьера к выходу, а также формализуем эту концепцию в контексте рекомендательной системы Amazon.


Рисунок 1. Схематическое изображение потока управления в рекомендательных системах с точки зрения пользователя (а) и модели искусственного интеллекта (б). Адаптировано из Раковой и Чоудхури (2019).


Чтобы понять роль Барьера выхода и то, как его можно рассчитать на основе рейтингов, рассмотрим диаграмму взаимодействия пользователя и рекомендательной системы («Модель ИИ»), представленную на рис. 1.


Обе диаграммы (а) и (б) показывают петли обратной связи с пользователем и моделью соответственно в качестве «супервайзеров». Сопоставление показывает двустороннее взаимодействие, как утверждается в Jiang et al. (2019). Диаграмма состоит из нескольких элементов: µ — интерес пользователя, Θ — модель, α — показанные рекомендации, а c — выявленные предпочтения (т. е. сигнал, который модель использует для обновления рекомендаций). Нижние индексы обозначают временные шаги, идущие слева направо.


Хотя диаграмма выступает в качестве концептуальной основы для понимания взаимодействия, мы должны учитывать, какие части мы можем измерить, а какие необходимо смоделировать. Ракова и Чоудхури (2019) утверждают, что, анализируя только то, как выявленные предпочтения меняются с течением времени, мы можем рассчитать меру усилий, необходимых для изменения предпочтений; Барьер выхода.


Обратите внимание: хотя общий цикл обратной связи касается всей модели, барьер для выхода определяется для каждой категории. Категории могут быть жанрами, например «Триллер» или «Научная фантастика», или типами книг, например «Самопомощь» или «Кулинарная книга». Каждая книга может иметь несколько категорий.



Релевантность категории не является автоматически доступной функцией наших данных (см. 3.2). Напротив, Ракова и Чоудхури (2019) используют набор данных MovieLens (Harper & Konstan, 2016), где релевантность категории вручную аннотируется для подмножества данных. Это позволяет использовать (полу)контролируемое обучение для аннотирования остальных данных (например, Kipf & Welling, 2017).


К сожалению, данные Amazon не имеют меток. Вместо этого мы используем неконтролируемый подход, основанный на совместном появлении категорий. Книгам присваивается высокая релевантность для конкретной категории, если они принадлежат к категориям, которые часто встречаются вместе. Например, книга с категориями «триллер» и «ужасы» будет иметь оценку релевантности категории 1 для «триллера», если она всегда сочетается с «ужастиками», и 0 баллов для «садоводства», если она никогда не сочетается с «садоводством». Мы нормализуем оценки, чтобы они находились в диапазоне от 0 до 1. Подробности реализации см. в репозитории GitHub.


Теперь мы переходим к порогам взаимодействия (Ракова и Чоудхури, 2019). Концептуально пороги взаимодействия — это диапазон предпочтений пользователей в пределах данной категории. Если, скажем, пользователь всегда оценивает триллеры только на 4 звезды, но оценивает некоторые кулинарные книги на 1 звезду, а другие на 5 звезд, у него будут узкие пороги взаимодействия для триллеров и более широкие пороги взаимодействия для кулинарных книг.



Есть несколько важных моментов, которые следует отметить относительно определения барьера для выхода. Во-первых, для каждого пользователя и категории может быть несколько значений барьера для выхода. Каждый раз, когда у пользователя есть предпочтение в категории, которое переходит от верхнего порога взаимодействия к нижнему, определяется барьер для выхода на этот период.


Во-вторых, «Барьер выхода» определяет пользователей, которые меняют предпочтения. Изменение предпочтений определяется как переход пользователей от уровня выше порога взаимодействия к уровню ниже порога взаимодействия.


В-третьих, барьер выхода не может быть в точности нулевым. Это связано с тем, что он определяется только тогда, когда у пользователя есть промежуточные рейтинги между пороговыми значениями. Если рейтинг пользователя превышает порог взаимодействия, а следующий рейтинг ниже, это не будет зарегистрировано в барьере для выхода.


Наконец (и это очень важно), «Барьер выхода» определен только для определенного подмножества пользователей. Наличие четко определенного барьера выхода для пользователя требует как а) достаточного количества рейтингов, так и б) того, чтобы эти рейтинги менялись в зависимости от категории. Таким образом, мы можем делать выводы только для этой подгруппы пользователей. Мы обсудим последствия этого далее в обсуждении (раздел 5.2).


В этом разделе мы представили математическую формулировку барьера для выхода вместе с важными оговорками. Для реализации кода обратитесь к репозиторию.

3.2 Данные

Для этого анализа мы используем набор данных рецензий на книги Amazon (Ni et al., 2019). Необработанный набор данных состоит примерно из 51 миллиона оценок по ок. 15 миллионов пользователей в период с 1998 по 2018 год[2]. Все оценки даны по шкале Лайкерта от 1 до 5.


Набор данных был взят из интернет-магазина Amazon по методологии Маколи и др. (2015). К сожалению, поскольку в наборе данных отсутствует таблица данных (Gebru et al., 2021), трудно выяснить, есть ли у него какие-либо проблемы с охватом или предвзятостью. Это также усложняет копирование сбора данных с нуля. В остальном набор данных легко доступен и хорошо документирован.


Один аспект, связанный с освещением, о котором нам нужно знать, заключается в том, что мы используем рейтинги в качестве показателя взаимодействия. В наборе данных у нас нет доступа к людям, которые купили продукт, но не оценили его, а также к людям, которые не купили продукт и не оценили его. Это дает нам весьма косвенную оценку фактического процесса рекомендаций, особенно по сравнению с набором данных MovieLens (Harper & Konstan, 2016; Rakova & Chowdhury, 2019).


Из-за размера данных предварительная обработка становится нетривиальной. Объяснение необходимых шагов можно увидеть в приложении C.


Хотя исходный набор данных велик, нас интересует только его подмножество. В частности, нас интересуют пользователи, изменившие свои предпочтения. Поэтому мы фильтруем, чтобы включать только пользователей с рейтингом более 20, что соответствует соглашениям MovieLens (Harper & Konstan, 2016), для которых изначально был определен барьер для выхода (Rakova & Chowdhury, 2019).


Рисунок 2: Распределение общего количества рейтингов (слева) и людей (справа) по разным группам рейтинговой активности. Хотя группа с более чем 20 рейтингами составляет значительную долю от общего числа рейтингов, они составляют лишь небольшую часть


На рис. 2 показано выбранное подмножество. Стоит отметить, что, хотя наша подгруппа сохраняет значительную часть рейтингов (≈ 30%), мы сохраняем только ок. 350 000 пользователей (0,6%). Это типично для активности пользователей, которая имеет тенденцию быть «толстым хвостом» (Papakyriakopoulos et al., 2020). Мы обсудим последствия нашей интерпретации в обсуждении (5.2).


Как мы позже увидим, лишь часть из них изменила предпочтения согласно нашему определению (см. раздел 3.1).


Для нашего окончательного анализа у нас есть 50 626 пользователей, которые соответствуют нашему определению (≈ 0,1% от общего числа).


Набор рейтинговых данных был объединен с набором данных, предоставляющим категории для каждой книги. Набор данных по категориям был взят из того же источника (т. е. Ni et al., 2019). Чтобы упростить вычисления по сходству категорий (см. код на GitHub), мы рассматриваем только категории, которые использовались в более чем 100 книгах. Этот подход действителен, поскольку распределение категорий сильно неравномерно, а это означает, что небольшое количество категорий используется в большом количестве книг. (Это аналогичная динамика активности пользователей; см. рис. 2).

3.3 Модель

Теперь, когда мы использовали барьер выхода как меру сложности изменения предпочтений, давайте представим статистическую модель для анализа тенденции.


Первое, что следует отметить, это то, что нам нужна перекрестная многоуровневая модель (Baayen et al., 2008). Наша модель должна иметь два уровня: пользователь и категория. Уровень пользователя является наиболее теоретически очевидным. Поскольку у каждого пользователя может быть несколько изменений предпочтений (с соответствующим барьером для выхода), мы должны учитывать их индивидуальные различия (Baayen et al., 2008). Это также важно, поскольку рекомендательная система будет использовать прогностические функции, недоступные в наборе данных (Smith & Linden, 2017).


Категории составляют другой уровень. Роль уровня категории в нашей модели заключается в учете функций уровня элемента. Как объяснялось во введении, существуют коммерческие (т. е. компании следуют императиву прогнозирования; (Zuboff, 2019)) и алгоритмические причины (т. е. уменьшение изменчивости может улучшить цель вознаграждения (Carroll et al., 2022)) полагать, что разные категории будут иметь разные барьеры для выхода. Таким образом, категории могут служить показателем этих эффектов. Этот скрещенный дизайн часто используется в психологических исследованиях (Baayen et al., 2008).


Есть две причины включать категории случайных эффектов, а не фиксированных эффектов. Во-первых, это количество категорий. В нашем наборе данных более 300 категорий. Поэтому моделирование их как фиксированных эффектов было бы невозможным. Во-вторых, поскольку мы используем их в качестве показателя дисперсии на уровне элемента, удобнее моделировать только случайные компоненты (Маддала, 1971).


Это дает нам следующую модель:



Важно отметить, что логарифмическое преобразование Барьера выхода меняет интерпретацию коэффициентов. Вместо того, чтобы интерпретировать их в линейном масштабе, их следует интерпретировать в логарифмическом масштабе (Villadsen & Wulff, 2021). Самый естественный способ сделать это — возвести эффект в степень и интерпретировать его как процентное изменение. Однако преобразование порождает статистические проблемы, которые мы обсудим в разделе 5.2.



Также стоит отметить, что уровень активности относительно не коррелирует со временем (см. рис. 3b). Это связано с тем, что активность относится к активности в течение периода «барьер выхода», а не к общей активности на Amazon. Последняя существенно возросла, как это может быть видно по плотности точек на рис. 3б.


Рисунок 3: Графики уровня активности, определяемого как количество рейтингов в период Барьера выхода. 3а: Связь между уровнем активности и барьером для выхода. Обратите внимание на сильную линейность. 3b Изменение уровня активности с течением времени.


Чтобы оценить достоверность, мы проверяем предположения модели. Полную проверку см. в приложении А. Стоит отметить несколько нарушений: Остаточные значения и случайные эффекты отклоняются от нормальности, особенно для случайных эффектов на уровне категории. Однако это не должно иметь незначительного влияния на оценку фиксированных эффектов (Schielzeth et al., 2020). Тем не менее, мы проводим дополнительный анализ, удаляя проблемные категории, чтобы оценить надежность результатов (см. B.2).

3.4 Создание и проверка гипотез

Чтобы ответить на вопрос нашего исследования в рамках логического вывода, нам необходимо преобразовать его в гипотезы с проверяемыми последствиями (Поппер, 1970). Мы предлагаем следующую гипотезу:


Гипотеза : В период 1998-2018 гг. произошло значительное увеличение барьера для выхода из системы рекомендаций книг Amazon.


Для проверки гипотезы мы используем тест значимости Саттертуэйта из пакета lmerTest (Кузнецова и др., 2017; Satterthwaite, 1946) для оценки коэффициента для времени (β1). Однако важно отметить, что метод расчета степеней свободы в моделях со смешанными эффектами (Satterthwaite, 1946) может привести к увеличению ошибок типа I, когда размер выборки мал (Baayen et al., 2008). В нашем случае размер выборки большой, поэтому это не вызывает беспокойства.


Большой размер выборки также предполагает, что значения p близки к нулю (Ghasemi & Zahediasl, 2012) даже для небольших эффектов. Таким образом, нас также интересует величина эффекта, а не просто его значимость.


Обратите внимание, что увеличение представляет собой темп роста, а не линейное увеличение. Это влияет на то, как мы интерпретируем величину размера эффекта.





[2] Документацию см.: https://nijianmo.github.io/amazon/index.html.


Этот документ доступен на arxiv под лицензией CC 4.0.