作者:
(1)乔纳森·H·雷斯特罗姆。
从高层次上看,退出壁垒衡量用户必须付出多少努力才能表明他们的偏好已经改变(Rakova & Chowdhury,2019)。它的定义是用户对特定类别的偏好在交互阈值之间变化的速度。在本节中,我们将激发退出壁垒的直觉,并在亚马逊的推荐系统的背景下正式化这一概念。
为了理解退出障碍的作用以及如何根据评级计算出退出障碍,让我们考虑用户和推荐系统(“AI模型”)之间的交互图,如图 1 所示。
(a)和(b)两张图分别显示了以用户和模型为“监督者”的反馈回路。这种并置显示了 Jiang 等人(2019 年)所论证的双面互动。该图有多个元素:µ 是用户兴趣,Θ 是模型,α 是显示的推荐,c 是显示的偏好(即模型用来更新推荐的信号)。下标表示从左到右的时间步长。
虽然该图可以作为理解相互作用的概念框架,但我们必须考虑哪些部分可以测量,哪些部分需要建模。Rakova 和 Chowdhury (2019) 认为,通过仅分析显示的偏好如何随时间变化,我们就可以计算出改变偏好所需的努力,即退出障碍。
请注意,虽然整体反馈回路与整个模型有关,但退出障碍是按类别定义的。类别可以是体裁,例如“惊悚片”或“科幻小说”,也可以是书籍类型,例如“自助”或“烹饪书”。每本书可以有多个类别。
类别相关性不是我们数据中自动可用的特征(见 3.2)。相比之下,Rakova 和 Chowdhury(2019)使用 MovieLens 数据集(Harper & Konstan,2016),其中已为数据子集手动注释了类别相关性。这使得可以使用(半)监督学习来注释其余数据(即 Kipf & Welling,2017)。
不幸的是,亚马逊数据没有标签。相反,我们使用基于类别共现的无监督方法。如果书籍属于经常一起出现的类别,则它们在特定类别中具有较高的类别相关性。例如,如果一本书的类别为“惊悚”和“恐怖”,并且“惊悚”总是与“恐怖”同时出现,则“惊悚”的类别相关性得分为 1,但如果“园艺”从未与“园艺”同时出现,则“园艺”的类别相关性得分为 0。我们对分数进行了规范化,使其范围从 0 到 1。有关实施详细信息,请参阅 GitHub 存储库。
现在我们讨论交互阈值 (Rakova & Chowdhury, 2019)。从概念上讲,交互阈值是用户在给定类别中的偏好范围。例如,如果用户只给惊悚片打 4 星,但给某些烹饪书打 1 星,给其他烹饪书打 5 星,那么他们对惊悚片的交互阈值会很窄,而对烹饪书的交互阈值会很宽。
关于退出壁垒的定义,有几点需要注意。首先,每个用户和类别可以有多个退出壁垒值。每当用户在某个类别中的偏好从高于互动阈值变为低于互动阈值时,就会定义该期间的退出壁垒。
第二,退出壁垒定义了偏好发生变化的用户。偏好发生变化是指用户从互动门槛之上转变为互动门槛之下。
第三,退出障碍不可能正好为零。这是因为只有当用户的评分介于阈值之间时,它才会被定义。如果用户的评分高于互动阈值,而下一个评分低于,则不会在退出障碍中记录。
最后(也是至关重要的一点),退出壁垒仅针对一小部分用户定义。要为用户定义明确的退出壁垒,需要 a) 足够的评分和 b) 这些评分相对于类别发生变化。因此,我们只能针对这一部分用户得出推论。我们将在讨论中进一步讨论这一点的含义(第 5.2 节)。
在本节中,我们提供了退出障碍的数学公式以及重要注意事项。有关代码实现,请参阅存储库。
在本分析中,我们使用了亚马逊图书评论数据集(Ni 等人,2019 年)。原始数据集包含 1998 年至 2018 年期间约 1500 万用户的约 5100 万条评分[2]。所有评分均采用 1-5 的李克特量表。
该数据集是根据 McAuley 等人(2015 年)的方法从 Amazon Web Store 抓取的。不幸的是,由于数据集缺少数据表(Gebru 等人,2021 年),因此很难确定它是否存在覆盖范围或偏差问题。这也使得从头开始复制数据收集变得更加困难。除此之外,该数据集易于访问且有据可查。
我们需要注意的一个与覆盖率相关的方面是,我们使用评分作为互动的代理。在数据集中,我们无法访问购买了产品但没有评分的人,也无法访问既没有购买产品也没有评分的人。这让我们可以相当间接地衡量实际的推荐过程 - 尤其是与 MovieLens 数据集(Harper & Konstan,2016;Rakova & Chowdhury,2019)相比。
由于数据量巨大,预处理变得十分困难。附录 C 中介绍了必要的步骤。
虽然原始数据集很大,但我们只对其中的一个子集感兴趣。具体来说,我们对改变了偏好的用户感兴趣。因此,我们进行筛选,只包括评分超过 20 个的用户,这遵循了 MovieLens(Harper & Konstan,2016)中的惯例,Barrier-to-Exit 最初就是为此定义的(Rakova & Chowdhury,2019)。
图 2 显示了选定的子集。值得注意的是,虽然我们的子集保留了相当一部分评分(≈ 30%),但我们只保留了约 350,000 名用户(0.6%)。这对于用户活动来说很常见,往往是肥尾的(Papakyriakopoulos 等人,2020 年)。我们将在讨论(5.2)中讨论这对我们解释的影响。
我们稍后会看到,根据我们的定义,其中只有一小部分改变了偏好(参见第 3.1 节)。
最终分析显示,有 50,626 名用户符合我们的定义(约占总数的 0.1%)。
评分数据集与为每本书提供类别的数据集合并。类别数据集来自同一来源(即 Ni 等人,2019 年)。为了简化计算类别相似度的计算(参见 GitHub 上的代码),我们仅考虑已在 100 多本书上使用过的类别。这种方法是有效的,因为类别的分布严重倾斜,这意味着在大量书籍中使用了少数类别。(这与用户活动的动态类似;参见图 2)。
现在我们已经将退出障碍作为改变偏好的难度的衡量标准,让我们引入用于分析趋势的统计模型。
首先要注意的是,我们需要一个交叉多层级模型(Baayen 等人,2008 年)。我们的模型应该有两个层级:用户和类别。用户层级是理论上最明显的层级。由于每个用户可以有多个偏好变化(与退出障碍相关),我们应该控制他们的个体差异(Baayen 等人,2008 年)。这也很重要,因为推荐系统将使用数据集中无法访问的预测特征(Smith & Linden,2017 年)。
类别构成另一个层次。类别层次在我们的模型中的作用是解释项目层次的特征。如介绍中所述,有商业原因(即公司遵循预测命令;(Zuboff,2019))和算法原因(即降低变异性可以改善奖励目标(Carroll 等人,2022))认为不同的类别将具有不同的退出壁垒。因此,类别可以作为这些影响的代理。这种交叉设计通常用于心理学研究(Baayen 等人,2008)。
将类别作为随机效应而不是固定效应包括进来有两个原因。首先是类别的数量。我们的数据集中有 300 多个类别。因此,将它们建模为固定效应是不可行的。其次,由于我们将它们用作项目级方差的代理,因此仅对随机成分进行建模更为方便(Maddala,1971)
这给了我们以下模型:
需要注意的关键一点是,对数转换退出障碍会改变系数的解释。不应以线性尺度解释它们,而应以对数尺度解释它们(Villadsen & Wulff,2021 年)。最自然的方法是指数化效应并将其解释为百分比变化。然而,这种转换引入了统计问题,我们将在第 5.2 节中讨论。
还值得注意的是,活动水平与时间相对不相关(见图 3b)。这是因为活动是指退出壁垒期内的活动,而不是亚马逊上的总体活动。从图 3b 中点的密度可以看出,后者大幅增加。
为了评估有效性,我们测试了模型的假设。完整检查见附录 A。有几个违规行为值得注意:残差和随机效应偏离了正态性——尤其是类别级随机效应。然而,这对固定效应的估计应该影响不大(Schielzeth 等人,2020 年)。尽管如此,我们还是进行了额外的分析,删除了有问题的类别,以评估研究结果的稳健性(见 B.2)。
为了在推理框架中回答我们的研究问题,我们需要将它们转化为具有可检验含义的假设(Popper,1970)。我们提出以下假设:
•假设:1998 年至 2018 年期间,亚马逊图书推荐系统的退出壁垒显著增加。
为了检验假设,我们使用 lmerTest 包中的 Satterthwaite 显著性检验(Kuznetsova 等人,2017 年;Satterthwaite,1946 年)来评估时间系数 (β1)。但需要注意的是,当样本量较小时,混合效应模型中计算自由度的方法(Satterthwaite,1946 年)可能会夸大 I 类错误(Baayen 等人,2008 年)。在我们的案例中,样本量很大,因此这不太令人担忧。
样本量大也意味着即使是很小的效应,p 值也接近于零(Ghasemi & Zahediasl,2012)。因此,我们也对效应大小感兴趣,而不仅仅是显著性。
请注意,增加的是增长率,而不是线性增加。这会影响我们如何解释效应大小。
[2] 有关文档请参阅:https://nijianmo.github.io/amazon/index.html