paint-brush
Amazon のレコメンデーション システムにおける退出障壁を理解する@escholar
680 測定値
680 測定値

Amazon のレコメンデーション システムにおける退出障壁を理解する

長すぎる; 読むには

このセクションでは、Amazon のレコメンデーション システムにおける退出障壁分析の背後にある方法論について詳しく説明し、計算プロセス、データの考慮事項、統計モデルの作成、および時間の経過に伴うユーザーの嗜好のダイナミクスと変化を理解するための仮説検定の概要を示します。
featured image - Amazon のレコメンデーション システムにおける退出障壁を理解する
EScholar: Electronic Academic Papers for Scholars HackerNoon profile picture
0-item

著者:

(1)ジョナサン・H・リストーム

リンク一覧

概要と序論

以前の文献

方法とデータ

結果

議論

結論と参考文献

A. 仮定の検証

B. その他のモデル

C. 前処理手順

3 方法とデータ

3.1 退出障壁の定義

大まかに言うと、Barrier-to-Exit は、ユーザーが自分の好みが変わったことを知らせるためにどれだけの労力を費やす必要があるかを測定します (Rakova & Chowdhury、2019)。これは、特定のカテゴリに対するユーザーの明らかにされた好みが、インタラクションしきい値間でどれだけ速く変化するかという観点から定義されます。このセクションでは、Barrier-to-Exit の直感を動機付けるとともに、Amazon のレコメンダー システムのコンテキスト内で概念を形式化します。


図 1: ユーザー (a) と AI モデル (b) の観点から見たレコメンデーション システムの制御フローの概略図。Rakova と Chowdhury (2019) より引用。


離脱障壁の役割と、それを評価から計算する方法を理解するために、図 1 に示すようなユーザーと推奨システム (「AI モデル」) 間の相互作用の図を考えてみましょう。


図 (a) と (b) はどちらも、それぞれユーザーとモデルを「監督者」とするフィードバック ループを示しています。この並置は、Jiang ら (2019) で議論されているように、双方向の相互作用を示しています。この図には複数の要素があります。µ はユーザーの関心、Θ はモデル、α は表示された推奨事項、c は明らかにされた好み (つまり、モデルが推奨事項を更新するために使用する信号) です。下付き文字は、左から右へのタイムステップを示します。


この図は相互作用を理解するための概念的枠組みとして機能しますが、どの部分を測定でき、どの部分をモデル化する必要があるかを考慮する必要があります。Rakova と Chowdhury (2019) は、明らかにされた好みが時間の経過とともにどのように変化するかを分析するだけで、好みを変えるために必要な努力の尺度、つまり「離脱障壁」を計算できると主張しています。


全体的なフィードバック ループはモデル全体に関係しますが、終了障壁はカテゴリごとに定義されることに注意してください。カテゴリは、「スリラー」や「SF」などのジャンル、または「自己啓発」や「料理本」などの本の種類です。各本には複数のカテゴリを設定できます。



カテゴリー関連性は、私たちのデータでは自動的に利用できる特徴ではありません(3.2 を参照)。対照的に、Rakova と Chowdhury(2019)は MovieLens データセット(Harper & Konstan、2016)を使用しており、このデータセットでは、データのサブセットに対してカテゴリー関連性が手動で注釈付けされています。これにより、(半)教師あり学習を使用して残りのデータを注釈付けすることが可能になります(つまり、Kipf & Welling、2017)。


残念ながら、Amazon データにはラベルがありません。代わりに、カテゴリの共起に基づく教師なしアプローチを使用します。書籍は、頻繁に一緒に出現するカテゴリに属している場合、特定のカテゴリに対して高いカテゴリ関連性が与えられます。たとえば、「スリラー」と「ホラー」のカテゴリを持つ書籍の場合、「スリラー」が常に「ホラー」と共起する場合、カテゴリ関連性スコアは 1 になりますが、「ガーデニング」が「ガーデニング」と共起しない場合は、スコアは 0 になります。スコアは 0 から 1 の範囲になるように正規化します。実装の詳細については、GitHub リポジトリを参照してください。


次に、インタラクションしきい値 (Rakova & Chowdhury、2019) について説明します。概念的には、インタラクションしきい値とは、特定のカテゴリ内でのユーザーの好みの範囲です。たとえば、ユーザーがスリラー小説には常に 4 つ星しか付けず、一部の料理本に 1 つ星、その他の料理本に 5 つ星を付けている場合、スリラー小説のインタラクションしきい値は狭く、料理本のインタラクションしきい値は広くなります。



離脱障壁の定義については、いくつか重要な点があります。まず、ユーザーとカテゴリごとに、離脱障壁の値が複数存在する可能性があります。カテゴリ内でユーザーの好みがインタラクションしきい値を超えてから下回るたびに、その期間の離脱障壁が定義されます。


2 番目に、Barrier-to-Exit は、好みを変えるユーザーを定義します。好みを変えるとは、インタラクションしきい値を超えるユーザーからインタラクションしきい値を下回るユーザーとして定義されます。


3 番目に、Barrier-to-Exit は正確にゼロにはできません。これは、ユーザーの評価がしきい値間の中間にある場合にのみ定義されるためです。ユーザーの評価がインタラクションしきい値を超え、次の評価がしきい値を下回った場合、これは Barrier-to-Exit に登録されません。


最後に (そして重要なことですが)、退出障壁は一部のユーザーに対してのみ定義されます。ユーザーに対して退出障壁が明確に定義されるには、a) 十分な評価と、b) これらの評価がカテゴリに応じて変化することの両方が必要です。したがって、この一部のユーザーに対してのみ推論を行うことができます。このことの意味については、この後の説明でさらに説明します (セクション 5.2)。


このセクションでは、Barrier-to-Exit の数学的定式化と重要な注意事項を示します。コード実装については、リポジトリを参照してください。

3.2 データ

この分析では、Amazonの書籍レビューのデータセット(Ni et al., 2019)を使用します。生のデータセットは、1998年から2018年までの期間に約1500万人のユーザーによって行われた約5100万件の評価で構成されています[2]。すべての評価は1〜5のリッカート尺度に基づいています。


このデータセットは、McAuley ら (2015) の方法論に基づいて Amazon Web Store からスクレイピングされました。残念ながら、データセットにはデータシートがないため (Gebru ら、2021)、カバレッジやバイアスに問題があるかどうかを判断するのは困難です。また、データ収集を最初から再現することも難しくなります。それ以外は、データセットは簡単にアクセスでき、十分に文書化されています。


報道に関して注意すべき点の 1 つは、評価をインタラクションの代理として使用している点です。データセットでは、製品を購入したが評価しなかった人や、製品を購入も評価もしなかった人にはアクセスできません。これにより、MovieLens データセット (Harper & Konstan、2016 年、Rakova & Chowdhury、2019 年) と比較すると、実際の推奨プロセスをかなり間接的に測定できます。


データのサイズが大きいため、前処理は簡単ではありません。必要な手順の説明は付録 C に記載されています。


元のデータセットは大規模ですが、私たちが関心があるのはサブセットのみです。具体的には、好みが変わったユーザーに注目しています。そのため、評価が 20 件を超えるユーザーのみを含めるようにフィルタリングします。これは、Barrier-to-Exit が最初に定義された MovieLens (Harper & Konstan, 2016) の規則に従います (Rakova & Chowdhury, 2019)。


図2: 異なる評価活動グループにおける評価の総数(左)と人数(右)。20以上の評価を持つグループは、評価全体のかなりの部分を占めていますが、それは全体のほんの一部にすぎません。


図 2 は選択されたサブセットを示しています。サブセットが評価のかなりの部分 (≈ 30%) を保持している一方で、約 350,000 人のユーザー (0.6%) しか保持していないことは注目に値します。これは、ファットテールになる傾向があるユーザーアクティビティの典型的な例です (Papakyriakopoulos ら、2020)。私たちの解釈への影響については、ディスカッション (5.2) で説明します。


後で説明するように、私たちの定義によれば、これらのうち嗜好が変化したのはほんの一部にすぎません (セクション 3.1 を参照)。


最終的な分析では、私たちの定義に適合するユーザーは 50,626 人 (全体の ≈ 0.1%) でした。


評価データセットは、各書籍のカテゴリを提供するデータセットと統合されました。カテゴリデータセットは同じソースからのものでした (つまり、Ni et al.、2019)。カテゴリ類似性の計算を簡単にするために (GitHub のコードを参照)、100 冊以上の書籍で使用されているカテゴリのみを考慮します。カテゴリの分布が大きく偏っているため、このアプローチが有効です。つまり、少数のカテゴリが多数の書籍で使用されているということです (これは、ユーザーアクティビティと同様のダイナミクスです。図 2 を参照)。

3.3 モデル

嗜好を変える難しさの尺度として離脱障壁を運用化したので、傾向を分析するための統計モデルを紹介しましょう。


まず最初に注意すべきことは、交差したマルチレベル モデルが必要であることです (Baayen 他、2008)。モデルには、ユーザーとカテゴリの 2 つのレベルが必要です。ユーザー レベルは、理論的に最も明白なレベルです。各ユーザーは複数の好みの変更 (関連する退出障壁を伴う) を持つ可能性があるため、個々の違いを制御する必要があります (Baayen 他、2008)。これは、レコメンデーション システムがデータセットでアクセスできない予測機能を使用するため、重要です (Smith および Linden、2017)。


カテゴリは、もう 1 つのレベルを構成します。このモデルにおけるカテゴリ レベルの役割は、アイテム レベルの特徴を考慮することです。導入で説明したように、異なるカテゴリには異なる終了障壁があると考えられる商業的理由 (つまり、企業が予測の必然性に従っている (Zuboff、2019)) とアルゴリズム上の理由 (つまり、変動性を減らすと報酬目標が向上する可能性がある (Carroll ら、2022)) があります。したがって、カテゴリはこれらの効果の代理として機能します。この交差設計は、心理学研究でよく使用されます (Baayen ら、2008)。


カテゴリを固定効果ではなくランダム効果として含める理由は 2 つあります。1 つ目はカテゴリの数です。データセットには 300 以上のカテゴリがあります。したがって、これらを固定効果としてモデル化することは不可能です。2 つ目は、それらを項目レベルの分散の代理として使用するため、ランダム コンポーネントのみをモデル化する方が便利であることです (Maddala、1971)


これにより、次のモデルが得られます。



注目すべき重要な点は、Barrier-to-Exit を対数変換すると係数の解釈が変わることです。係数は線形スケールで解釈するのではなく、対数スケールで解釈する必要があります (Villadsen & Wulff、2021)。最も自然な方法は、効果を指数化し、パーセンテージの変化として解釈することです。ただし、変換によって統計上の問題が発生します。これについては、セクション 5.2 で説明します。



また、アクティビティ レベルは時間と比較的相関していないことも注目に値します (図 3b を参照)。これは、アクティビティが Barrier-to-Exit 期間内のアクティビティを指し、Amazon での全アクティビティを指していないためです。図 3b のドットの密度からわかるように、Amazon での全アクティビティは大幅に増加しています。


図3: 活動レベルのプロット。活動レベルは、退出障壁期間中の評価数として定義されます。3a: 活動レベルと退出障壁の関係。強い直線性があることに注目してください。3b 時間の経過に伴う活動レベルの変化。


妥当性を評価するために、モデルの仮定をテストします。完全なチェックについては、付録 A を参照してください。注目すべき違反がいくつかあります。残差とランダム効果は、特にカテゴリ レベルのランダム効果について、正規性から逸脱しています。ただし、これは固定効果の推定にほとんど影響を与えないはずです (Schielzeth ら、2020)。それでも、問題のあるカテゴリを除外した追加の分析を実行し、結果の堅牢性を評価します (B.2 を参照)。

3.4 仮説の作成と検証

推論の枠組みで私たちの研究の質問に答えるには、それを検証可能な意味を持つ仮説に変換する必要があります (Popper, 1970)。私たちは次の仮説を提案します。


仮説: 1998 年から 2018 年にかけて、Amazon 書籍レコメンデーション システムの終了障壁が大幅に増加しました。


仮説を検証するために、lmerTest パッケージ (Kuznetsova 他、2017 年、Satterthwaite、1946 年) の Satterthwaite の有意性検定を使用して、時間の係数 (β1) を評価します。ただし、混合効果モデル (Satterthwaite、1946 年) で自由度を計算する方法は、サンプル サイズが小さい場合にタイプ I のエラーを増大させる可能性があることに注意することが重要です (Baayen 他、2008 年)。私たちの場合、サンプル サイズが大きいため、これはそれほど問題ではありません。


サンプルサイズが大きいということは、効果が小さくても p 値がゼロに近くなることを意味します (Ghasemi & Zahediasl、2012)。したがって、有意性だけでなく、効果サイズの大きさにも関心があります。


増加は線形増加ではなく成長率であることに注意してください。これは、効果サイズの大きさをどのように解釈するかに影響します。





[2] ドキュメントについては、https://nijianmo.github.io/amazon/index.htmlを参照してください。


この論文はCC 4.0ライセンスの下でarxivで公開されています