Autoren:
(1) Jonathan H. Rystrøm.
Zusammenfassung und Einleitung
Schlussfolgerungen und Referenzen
Auf einer hohen Ebene misst Barrier-to-Exit, wie viel Aufwand Benutzer betreiben müssen, um zu signalisieren, dass sich ihre Präferenzen geändert haben (Rakova & Chowdhury, 2019). Es wird definiert anhand der Geschwindigkeit, mit der sich die offenbarten Präferenzen der Benutzer für eine bestimmte Kategorie zwischen den Interaktionsschwellenwerten ändern. In diesem Abschnitt werden wir die Intuition für Barrier-to-Exit begründen und das Konzept im Kontext des Empfehlungssystems von Amazon formalisieren.
Um die Rolle der Ausstiegsbarriere zu verstehen und wie sie aus Bewertungen berechnet werden kann, betrachten wir ein Diagramm der Interaktion zwischen dem Benutzer und dem Empfehlungssystem („KI-Modell“) wie in Abb. 1 dargestellt.
Beide Diagramme (a) und (b) zeigen Feedbackschleifen mit dem Benutzer bzw. dem Modell als „Supervisoren“. Die Gegenüberstellung zeigt die beidseitige Interaktion, wie sie in Jiang et al. (2019) argumentiert wird. Das Diagramm hat mehrere Elemente: µ ist das Benutzerinteresse, Θ ist das Modell, α sind die angezeigten Empfehlungen und c sind die offenbarten Präferenzen (d. h. das Signal, das das Modell verwendet, um Empfehlungen zu aktualisieren). Die Indizes bezeichnen Zeitschritte von links nach rechts.
Während das Diagramm als konzeptioneller Rahmen zum Verständnis der Interaktion dient, müssen wir überlegen, welche Teile wir messen können und welche Teile wir modellieren müssen. Rakova und Chowdhury (2019) argumentieren, dass wir allein durch die Analyse, wie sich die offenbarten Präferenzen im Laufe der Zeit ändern, ein Maß für den Aufwand berechnen können, der zur Änderung der Präferenzen erforderlich ist: die Barriere zum Ausstieg.
Beachten Sie, dass die allgemeine Rückkopplungsschleife das gesamte Modell betrifft, die Ausstiegsbarriere jedoch pro Kategorie definiert wird. Kategorien können Genres wie „Thriller“ oder „Science Fiction“ oder Buchtypen wie „Selbsthilfe“ oder „Kochbuch“ sein. Jedes Buch kann mehrere Kategorien haben.
Die Kategorierelevanz ist kein automatisch verfügbares Merkmal unserer Daten (siehe 3.2). Im Gegensatz dazu verwenden Rakova und Chowdhury (2019) den MovieLens-Datensatz (Harper & Konstan, 2016), bei dem die Kategorierelevanz für eine Teilmenge der Daten manuell annotiert wurde. Dies ermöglicht es, (halb-)überwachtes Lernen zu verwenden, um den Rest der Daten zu annotieren (z. B. Kipf & Welling, 2017).
Leider haben die Amazon-Daten keine Beschriftungen. Stattdessen verwenden wir einen unbeaufsichtigten Ansatz, der auf dem gemeinsamen Auftreten von Kategorien basiert. Büchern wird eine hohe Kategorierelevanz für eine bestimmte Kategorie zugewiesen, wenn sie zu Kategorien gehören, die häufig zusammen auftreten. Beispielsweise hätte ein Buch mit den Kategorien „Thriller“ und „Horror“ einen Kategorierelevanz-Score von 1 für „Thriller“, wenn es immer zusammen mit „Horror“ auftritt, aber einen Score von 0 für „Gartenarbeit“, wenn es nie zusammen mit „Gartenarbeit“ auftritt. Wir normalisieren die Scores, sodass sie zwischen 0 und 1 liegen. Einzelheiten zur Implementierung finden Sie im GitHub-Repository.
Kommen wir nun zu den Interaktionsschwellen (Rakova & Chowdhury, 2019). Konzeptionell sind Interaktionsschwellen die Bandbreite der Präferenzen der Benutzer innerhalb einer bestimmten Kategorie. Wenn ein Benutzer beispielsweise Thriller immer nur mit 4 Sternen bewertet, einige Kochbücher jedoch mit 1 Stern und andere mit 5 Sternen, hätte er enge Interaktionsschwellen für Thriller und breitere Interaktionsschwellen für Kochbücher.
Bei der Definition der Ausstiegsbarriere sind einige wichtige Dinge zu beachten. Erstens kann es pro Benutzer und Kategorie mehrere Werte für die Ausstiegsbarriere geben. Jedes Mal, wenn ein Benutzer innerhalb einer Kategorie eine Präferenz hat, die über den Interaktionsschwellenwerten liegt oder darunter, wird für diesen Zeitraum eine Ausstiegsbarriere definiert.
Zweitens definiert Barrier-to-Exit Benutzer, die ihre Präferenzen ändern. Sich ändernde Präferenzen werden definiert als Benutzer, die von über den Interaktionsschwellenwerten zu unter den Interaktionsschwellenwerten wechseln.
Drittens kann Barrier-to-Exit nicht genau Null sein. Dies liegt daran, dass es nur definiert ist, wenn ein Benutzer Zwischenbewertungen zwischen den Schwellenwerten hat. Wenn ein Benutzer eine Bewertung hat, die über den Interaktionsschwellenwerten liegt und die nächste darunter, wird dies nicht in Barrier-to-Exit registriert.
Schließlich (und entscheidend) ist die Ausstiegsbarriere nur für eine Teilmenge von Benutzern definiert. Eine gut definierte Ausstiegsbarriere für einen Benutzer erfordert sowohl a) genügend Bewertungen als auch b) dass sich diese Bewertungen relativ zu einer Kategorie ändern. Wir können daher nur für diese Teilmenge von Benutzern Rückschlüsse ziehen. Wir werden die Auswirkungen davon in der Diskussion weiter erörtern (Abschnitt 5.2).
In diesem Abschnitt haben wir eine mathematische Formulierung der Ausstiegsbarriere zusammen mit wichtigen Vorbehalten bereitgestellt. Die Codeimplementierung finden Sie im Repository.
Für diese Analyse verwenden wir einen Datensatz mit Amazon-Buchrezensionen (Ni et al., 2019). Der Rohdatensatz besteht aus ungefähr 51 Millionen Bewertungen von ca. 15 Millionen Nutzern im Zeitraum von 1998 bis 2018[2]. Alle Bewertungen liegen auf einer Likert-Skala von 1-5.
Der Datensatz wurde aus dem Amazon Web Store entnommen und basiert auf der Methodik von McAuley et al. (2015). Da dem Datensatz leider ein Datenblatt fehlt (Gebru et al., 2021), ist es schwierig herauszufinden, ob es Probleme mit der Abdeckung oder Verzerrung gibt. Dies erschwert auch die Replikation der Datensammlung von Grund auf. Abgesehen davon ist der Datensatz leicht zugänglich und gut dokumentiert.
Ein Aspekt der Abdeckung, dessen wir uns bewusst sein müssen, ist, dass wir Bewertungen als Proxy für Interaktionen verwenden. Im Datensatz haben wir keinen Zugriff auf Personen, die ein Produkt gekauft, aber nicht bewertet haben, oder auf Personen, die weder ein Produkt gekauft noch bewertet haben. Dies gibt uns ein ziemlich indirektes Maß für den tatsächlichen Empfehlungsprozess – insbesondere im Vergleich zum MovieLens-Datensatz (Harper & Konstan, 2016; Rakova & Chowdhury, 2019).
Aufgrund der Datengröße ist die Vorverarbeitung nicht trivial. Eine Erläuterung der erforderlichen Schritte finden Sie in Anhang C.
Obwohl der ursprüngliche Datensatz groß ist, sind wir nur an einer Teilmenge interessiert. Insbesondere sind wir an Benutzern interessiert, die ihre Präferenzen geändert haben. Daher filtern wir, um nur Benutzer mit mehr als 20 Bewertungen einzuschließen, was den Konventionen in MovieLens (Harper & Konstan, 2016) entspricht, für die Barrier-to-Exit ursprünglich definiert wurde (Rakova & Chowdhury, 2019).
Abb. 2 zeigt die ausgewählte Teilmenge. Es ist bemerkenswert, dass unsere Teilmenge zwar einen erheblichen Teil der Bewertungen behält (≈ 30 %), wir jedoch nur ca. 350.000 Benutzer (0,6 %) behalten. Dies ist typisch für Benutzeraktivitäten, die tendenziell eine fette Spitze aufweisen (Papakyriakopoulos et al., 2020). Wir werden die Auswirkungen auf unsere Interpretation in der Diskussion (5.2) erörtern.
Wie wir später sehen werden, hat nur ein Bruchteil davon seine Präferenzen gemäß unserer Definition geändert (siehe Abschnitt 3.1).
Für unsere abschließende Analyse haben wir 50.626 Benutzer, die unserer Definition entsprechen (≈ 0,1 % der Gesamtzahl).
Der Bewertungsdatensatz wurde mit einem Datensatz zusammengeführt, der Kategorien für jedes Buch bereitstellt. Der Kategoriedatensatz stammte aus derselben Quelle (d. h. Ni et al., 2019). Um die Berechnungen zur Berechnung der Kategorieähnlichkeit einfach zu halten (siehe Code auf GitHub), berücksichtigen wir nur Kategorien, die bei mehr als 100 Büchern verwendet wurden. Dieser Ansatz ist gültig, da die Verteilung der Kategorien stark verzerrt ist, was bedeutet, dass eine kleine Anzahl von Kategorien bei einer großen Anzahl von Büchern verwendet wird. (Dies ist eine ähnliche Dynamik wie die Benutzeraktivität; siehe Abb. 2).
Nachdem wir nun die Ausstiegsbarriere als Maß für die Schwierigkeit einer Präferenzänderung operationalisiert haben, stellen wir nun das statistische Modell zur Analyse des Trends vor.
Als erstes ist zu beachten, dass wir ein gekreuztes Mehrebenenmodell benötigen (Baayen et al., 2008). Unser Modell sollte zwei Ebenen haben: Benutzer und Kategorie. Die Benutzerebene ist theoretisch die offensichtlichste. Da jeder Benutzer mehrere Präferenzänderungen (mit den damit verbundenen Ausstiegsbarrieren) aufweisen kann, sollten wir ihre individuellen Unterschiede berücksichtigen (Baayen et al., 2008). Dies ist auch wichtig, da das Empfehlungssystem prädiktive Merkmale verwendet, die im Datensatz nicht zugänglich sind (Smith & Linden, 2017).
Kategorien bilden die andere Ebene. Die Rolle der Kategorieebene in unserem Modell besteht darin, Merkmale auf Artikelebene zu berücksichtigen. Wie in der Einleitung erläutert, gibt es kommerzielle (d. h. Unternehmen folgen dem Vorhersageimperativ; (Zuboff, 2019)) und algorithmische Gründe (d. h. die Verringerung der Variabilität könnte das Belohnungsziel verbessern (Carroll et al., 2022)), die für die Annahme sprechen, dass unterschiedliche Kategorien unterschiedliche Ausstiegsbarrieren aufweisen. Kategorien können daher als Proxy für diese Effekte fungieren. Dieses gekreuzte Design wird häufig in der psychologischen Forschung verwendet (Baayen et al., 2008).
Es gibt zwei Gründe, Kategorien als Zufallseffekte und nicht als feste Effekte einzubeziehen. Der erste Grund ist die Anzahl der Kategorien. Unser Datensatz enthält über 300 Kategorien. Diese als feste Effekte zu modellieren wäre daher nicht machbar. Zweitens ist es praktischer, nur die Zufallskomponenten zu modellieren, da wir sie als Proxy für die Varianz auf Artikelebene verwenden (Maddala, 1971).
Damit erhalten wir das folgende Modell:
Entscheidend ist, dass die logarithmische Transformation von Barrier-to-Exit die Interpretation der Koeffizienten ändert. Anstatt sie auf einer linearen Skala zu interpretieren, sollten sie auf einer logarithmischen Skala interpretiert werden (Villadsen & Wulff, 2021). Der natürlichste Weg, dies zu tun, besteht darin, die Effekte zu potenzieren und als prozentuale Änderung zu interpretieren. Die Transformation führt jedoch zu statistischen Problemen, die wir in Abschnitt 5.2 erörtern werden.
Es ist auch erwähnenswert, dass das Aktivitätsniveau relativ unabhängig von der Zeit ist (siehe Abb. 3b). Dies liegt daran, dass sich die Aktivität auf die Aktivität innerhalb des Barriere-to-Exit-Zeitraums bezieht und nicht auf die Gesamtaktivität bei Amazon. Letztere hat erheblich zugenommen, wie an der Dichte der Punkte in Abb. 3b zu erkennen ist.
Um die Gültigkeit zu beurteilen, testen wir die Annahmen für das Modell. Die vollständige Prüfung finden Sie in Anhang A. Es gibt einige erwähnenswerte Verstöße: Die Residuen und Zufallseffekte wichen von der Normalverteilung ab – insbesondere bei den Zufallseffekten auf Kategorieebene. Dies sollte jedoch wenig Einfluss auf die Schätzung der festen Effekte haben (Schielzeth et al., 2020). Dennoch führen wir eine zusätzliche Analyse durch, bei der die problematischen Kategorien entfernt werden, um die Robustheit der Ergebnisse zu beurteilen (siehe B.2).
Um unsere Forschungsfragen in einem inferentiellen Rahmen beantworten zu können, müssen wir sie in Hypothesen mit überprüfbaren Implikationen umwandeln (Popper, 1970). Wir schlagen die folgende Hypothese vor:
• Hypothese : Im Zeitraum 1998–2018 kam es zu einem deutlichen Anstieg der Ausstiegsbarrieren für das Amazon Book Recommender System.
Um die Hypothese zu testen, verwenden wir Satterthwaites Signifikanztest aus dem lmerTest-Paket (Kuznetsova et al., 2017; Satterthwaite, 1946), um den Koeffizienten für die Zeit (β1) zu ermitteln. Es ist jedoch wichtig zu beachten, dass die Methode zur Berechnung der Freiheitsgrade in Modellen mit gemischten Effekten (Satterthwaite, 1946) Fehler vom Typ I aufblähen kann, wenn die Stichprobengröße klein ist (Baayen et al., 2008). In unserem Fall ist die Stichprobengröße groß, daher ist dies weniger besorgniserregend.
Die große Stichprobengröße impliziert auch für kleine Effekte p-Werte nahe Null (Ghasemi & Zahediasl, 2012). Daher sind wir auch an der Größenordnung der Effektstärke interessiert und nicht nur an der Signifikanz.
Beachten Sie, dass es sich bei der Zunahme um eine Wachstumsrate und nicht um eine lineare Zunahme handelt. Dies beeinflusst, wie wir das Ausmaß der Effektgröße interpretieren.
[2] Dokumentation finden Sie unter: https://nijianmo.github.io/amazon/index.html
Dieses Dokument ist auf Arxiv unter der CC 4.0-Lizenz verfügbar .