paint-brush
Amazon 추천 시스템의 종료 장벽 이해~에 의해@escholar
680 판독값
680 판독값

Amazon 추천 시스템의 종료 장벽 이해

너무 오래; 읽다

이 섹션에서는 Amazon 추천 시스템의 종료 장벽 분석 이면에 있는 방법론을 자세히 설명하고, 사용자 선호도 역학과 시간에 따른 변화를 이해하기 위한 계산 프로세스, 데이터 고려 사항, 통계 모델 공식화 및 가설 테스트를 간략하게 설명합니다.
featured image - Amazon 추천 시스템의 종료 장벽 이해
EScholar: Electronic Academic Papers for Scholars HackerNoon profile picture
0-item

저자:

(1) 조나단 H. 리스트롬.

링크 표

초록 및 소개

이전 문헌

방법 및 데이터

결과

토론

결론 및 참고자료

A. 가정의 검증

B. 기타 모델

C. 전처리 단계

3 방법 및 데이터

3.1 퇴장 장벽 정의

높은 수준에서, Barrier-to-Exit는 사용자가 선호도가 변경되었음을 알리기 위해 얼마나 많은 노력을 기울여야 하는지를 측정합니다(Rakova & Chowdhury, 2019). 이는 특정 카테고리에 대한 사용자의 공개 선호도가 상호 작용 임계값 사이에서 얼마나 빨리 변경되는지에 따라 정의됩니다. 이 섹션에서는 퇴장 장벽에 대한 직관을 자극하고 Amazon 추천 시스템의 맥락에서 개념을 공식화할 것입니다.


그림 1: 사용자(a) 및 AI모델(b) 관점에서 본 추천 시스템의 제어 흐름을 도식적으로 표현한 것입니다. Rakova와 Chowdhury(2019)에서 각색되었습니다.


이탈 장벽의 역할과 등급에서 이를 계산하는 방법을 이해하기 위해 그림 1에 표시된 사용자와 추천 시스템("AI 모델") 간의 상호 작용 다이어그램을 고려해 보겠습니다.


다이어그램 (a)와 (b)는 모두 사용자와 모델을 각각 "감독자"로 사용하는 피드백 루프를 보여줍니다. 병치는 Jiang 등이 주장한 양면 상호 작용을 보여줍니다. (2019). 다이어그램에는 여러 요소가 있습니다. µ는 사용자 관심, Θ는 모델, α는 표시된 권장 사항, c는 공개된 선호도(즉, 모델이 권장 사항을 업데이트하는 데 사용하는 신호)입니다. 아래 첨자는 왼쪽에서 오른쪽으로 진행되는 시간 단계를 나타냅니다.


다이어그램은 상호 작용을 이해하기 위한 개념적 프레임워크 역할을 하지만 측정할 수 있는 부분과 모델링해야 할 부분을 고려해야 합니다. Rakova와 Chowdhury(2019)는 시간이 지남에 따라 드러난 선호도가 어떻게 변하는지 분석함으로써 선호도를 바꾸는 데 필요한 노력의 척도를 계산할 수 있다고 주장합니다. 출구 장벽.


전체 피드백 루프는 전체 모델과 관련이 있지만 종료 장벽은 카테고리별로 정의됩니다. 카테고리는 "스릴러" 또는 "공상 과학"과 같은 장르일 수도 있고 "자조" 또는 "요리책"과 같은 도서 유형일 수도 있습니다. 각 책에는 여러 카테고리가 있을 수 있습니다.



카테고리 관련성은 데이터에서 자동으로 제공되는 기능이 아닙니다(3.2 참조). 이와 대조적으로 Rakova 및 Chowdhury(2019)는 MovieLens 데이터세트(Harper & Konstan, 2016)를 사용합니다. 여기서 카테고리 관련성은 데이터 하위 집합에 대해 수동으로 주석이 추가되었습니다. 이를 통해 (반)지도 학습을 사용하여 나머지 데이터에 주석을 달 수 있습니다(예: Kipf & Welling, 2017).


불행히도 Amazon 데이터에는 레이블이 없습니다. 대신, 우리는 카테고리 동시 발생을 기반으로 한 비지도 접근 방식을 사용합니다. 책이 자주 함께 나타나는 카테고리에 속하는 경우 특정 카테고리에 대해 높은 카테고리 관련성이 부여됩니다. 예를 들어, "스릴러"와 "공포"라는 범주가 있는 책은 항상 "공포"와 함께 발생하는 경우 "스릴러"에 대한 범주 관련성 점수는 1이지만, "정원 가꾸기"에 대한 점수는 0입니다. 결코 "정원 가꾸기"와 함께 발생하지 않습니다. 점수 범위가 0에서 1까지가 되도록 정규화합니다. 구현 세부 사항은 GitHub 저장소를 참조하세요.


이제 상호작용 임계값으로 넘어갑니다(Rakova & Chowdhury, 2019). 개념적으로 상호 작용 임계값은 특정 범주 내에서 사용자의 선호도 범위입니다. 예를 들어, 사용자가 스릴러에는 별 4개만 평가하고 일부 요리책에는 별 1개, 다른 일부에는 별 5개를 부여한다면 스릴러에 대한 상호작용 임계값은 좁고 요리책에 대한 상호작용 임계값은 더 넓습니다.



출구 장벽의 정의에 관해 주목해야 할 몇 가지 중요한 사항이 있습니다. 첫째, 사용자 및 카테고리별로 이탈 장벽 값이 여러 개 있을 수 있습니다. 사용자가 상호 작용 임계값 위에서 아래로 이동하는 카테고리 내에서 선호도를 가질 때마다 해당 기간에 대한 종료 장벽이 정의됩니다.


둘째, Barrier-to-Exit는 선호도를 변경하는 사용자를 정의합니다. 기본 설정 변경은 사용자가 상호 작용 임계값 위에서 상호 작용 임계값 아래로 이동하는 것으로 정의됩니다.


셋째, 출구 장벽은 정확히 0이 될 수 없습니다. 이는 사용자가 임계값 사이의 중간 등급을 갖는 경우에만 정의되기 때문입니다. 사용자의 등급이 상호 작용 임계값을 초과하고 다음 등급이 미만인 경우 이는 종료 장벽에 등록되지 않습니다.


마지막으로 (그리고 결정적으로) 종료 장벽은 일부 사용자에 대해서만 정의됩니다. 사용자에 대해 잘 정의된 이탈 장벽을 가지려면 a) 충분한 평점과 b) 이러한 평점이 카테고리에 따라 변경되어야 합니다. 따라서 우리는 이 사용자 하위 집합에 대해서만 추론을 할 수 있습니다. 우리는 논의(섹션 5.2)에서 이것이 의미하는 바를 더 논의할 것입니다.


이 섹션에서 우리는 중요한 경고와 함께 출구 장벽의 수학적 공식을 제공했습니다. 코드 구현은 저장소를 참조하세요.

3.2 데이터

이 분석을 위해 Amazon 서평 데이터 세트를 사용합니다(Ni et al., 2019). 원시 데이터 세트는 ca별로 약 5,100만 개의 평가로 구성됩니다. 1998년부터 2018년까지 사용자 수는 1,500만 명입니다[2]. 모든 평가는 1~5 Likert 척도입니다.


데이터 세트는 McAuley et al.의 방법론에 따라 Amazon Web Store 건물에서 스크랩되었습니다. (2015). 불행하게도 데이터세트에는 데이터시트가 부족하기 때문에(Gebru et al., 2021), 적용 범위나 편향에 문제가 있는지 파악하기 어렵습니다. 또한 데이터 수집을 처음부터 복제하기가 더 어려워집니다. 그 외에도 데이터세트는 쉽게 액세스할 수 있고 문서화도 잘 되어 있습니다.


우리가 알아야 할 적용 범위 관련 측면 중 하나는 등급을 상호 작용의 프록시로 사용하고 있다는 것입니다. 데이터세트에서는 제품을 구입했지만 평가하지 않은 사람이나 제품을 구입하지도 평가하지도 않은 사람에 접근할 수 없습니다. 이는 특히 MovieLens 데이터 세트(Harper & Konstan, 2016; Rakova & Chowdhury, 2019)와 비교하여 실제 추천 프로세스에 대한 상당히 간접적인 측정값을 제공합니다.


데이터의 크기 때문에 전처리가 쉽지 않습니다. 필요한 단계에 대한 설명은 부록 C에서 볼 수 있습니다.


원래 데이터 세트는 크지만 우리는 하위 세트에만 관심이 있습니다. 특히, 우리는 선호도를 변경한 사용자에게 관심이 있습니다. 따라서 우리는 Barrier-to-Exit가 원래 정의된 MovieLens(Harper & Konstan, 2016)의 규칙(Rakova & Chowdhury, 2019)을 따르는 20개 이상의 등급을 가진 사용자만 포함하도록 필터링합니다.


그림 2: 다양한 평가 활동 그룹에 걸친 총 평가 수(왼쪽)와 사람(오른쪽)의 분포. 20개 이상의 평점을 받은 그룹은 전체 평점의 상당 부분을 차지하지만, 이는 전체 평점의 작은 부분일 뿐입니다.


그림 2는 선택된 하위 집합을 보여줍니다. 우리의 하위 집합이 등급의 상당 부분(약 30%)을 유지하지만 ca. 사용자는 35만 명(0.6%)입니다. 이는 꼬리가 굵은 경향이 있는 사용자 활동의 전형적인 현상입니다(Papakyriakopoulos et al., 2020). 우리는 논의(5.2)에서 우리의 해석에 대한 함의를 논의할 것이다.


나중에 살펴보겠지만, 이들 중 일부만이 우리의 정의에 따라 선호도를 변경했습니다(섹션 3.1 참조).


최종 분석을 위해 우리의 정의에 맞는 사용자는 50,626명입니다(전체의 약 0.1%).


등급 데이터 세트는 각 도서에 대한 카테고리를 제공하는 데이터 세트와 병합되었습니다. 카테고리 데이터세트는 동일한 소스에서 나왔습니다(예: Ni et al., 2019). 범주 유사성 계산을 위한 계산을 단순하게 유지하기 위해(GitHub의 코드 참조) 100권이 넘는 책에서 사용된 범주만 고려합니다. 이 접근법은 카테고리 분포가 심하게 편향되어 있기 때문에 유효합니다. 즉, 소수의 카테고리가 많은 수의 책에 사용된다는 의미입니다. (이는 사용자 활동과 유사합니다. 그림 2 참조).

3.3 모델

이제 선호도 변경의 어려움을 측정하는 수단으로 퇴장 장벽을 운용했으므로 추세 분석을 위한 통계 모델을 소개하겠습니다.


가장 먼저 주목해야 할 점은 교차 다단계 모델이 필요하다는 것입니다(Baayen et al., 2008). 우리 모델에는 사용자와 카테고리라는 두 가지 수준이 있어야 합니다. 사용자 수준은 이론적으로 가장 확실한 수준입니다. 각 사용자는 다양한 선호도 변경(이탈 장벽과 관련)을 가질 수 있으므로 개인차를 제어해야 합니다(Baayen et al., 2008). 추천 시스템은 데이터 세트에서 접근할 수 없는 예측 기능을 사용하므로 이는 또한 중요합니다(Smith & Linden, 2017).


카테고리는 다른 레벨을 구성합니다. 우리 모델에서 카테고리 수준의 역할은 품목 수준 기능을 설명하는 것입니다. 서문에서 설명했듯이, 서로 다른 범주가 있다고 믿는 상업적인 이유(예: 회사는 예측 필수 사항을 따르고 있습니다(Zuboff, 2019)) 및 알고리즘적 이유(예: 변동성을 줄이면 보상 목표가 향상될 수 있음(Carroll et al., 2022))가 있습니다. 다른 출구 장벽을 갖게 될 것입니다. 따라서 범주는 이러한 효과에 대한 프록시 역할을 할 수 있습니다. 이러한 교차 디자인은 심리학 연구에서 종종 사용됩니다(Baayen et al., 2008).


범주를 고정 효과가 아닌 무작위 효과로 포함하는 데에는 두 가지 이유가 있습니다. 첫 번째는 카테고리의 수입니다. 우리 데이터 세트에는 300개 이상의 카테고리가 있습니다. 따라서 이를 고정 효과로 모델링하는 것은 불가능합니다. 둘째, 항목 수준 분산에 대한 프록시로 사용하기 때문에 무작위 구성 요소만 모델링하는 것이 더 편리합니다(Maddala, 1971)


이는 다음과 같은 모델을 제공합니다.



주목해야 할 중요한 점은 로그 변환 Barrier-to-Exit가 계수의 해석을 변경한다는 것입니다. 선형 척도로 해석하는 대신 로그 척도로 해석해야 합니다(Villadsen & Wulff, 2021). 이를 수행하는 가장 자연스러운 방법은 효과를 지수화하고 이를 백분율 변화로 해석하는 것입니다. 그러나 변환에는 통계적 문제가 발생하는데, 이에 대해서는 섹션 5.2에서 논의하겠습니다.



또한 활동 수준은 시간과 상대적으로 상관 관계가 없다는 점도 주목할 가치가 있습니다(그림 3b 참조). 이는 활동이 아마존의 전체 활동이 아니라 출구 장벽 기간 내의 활동을 의미하기 때문입니다. 후자는 가능한 한 크게 증가했습니다. 그림 3b의 점 밀도로 볼 수 있습니다.


그림 3: 퇴장 장벽 기간의 등급 수로 정의된 활동 수준의 도표. 3a: 활동 수준과 출구 장벽 간의 관계. 강한 선형성을 주목하세요. 3b 시간에 따른 활동 수준의 변화. 그만큼


타당성을 평가하기 위해 모델에 대한 가정을 테스트합니다. 전체 확인을 보려면 부록 A를 참조하십시오. 주목할 만한 몇 가지 위반 사항이 있습니다. 잔차 및 무작위 효과가 정규성에서 벗어났습니다. 특히 범주 수준 무작위 효과의 경우 더욱 그렇습니다. 그러나 이는 고정 효과 추정에 거의 영향을 미치지 않아야 합니다(Schielzeth et al., 2020). 그럼에도 불구하고 우리는 결과의 견고성을 평가하기 위해 문제가 있는 범주를 제거한 추가 분석을 실행합니다(B.2 참조).

3.4 가설 생성 및 테스트

추론적 틀에서 우리의 연구 질문에 답하기 위해서는 이를 테스트 가능한 함의를 지닌 가설로 변환해야 합니다(Popper, 1970). 우리는 다음과 같은 가설을 제안합니다.


가설 : 1998년부터 2018년까지 Amazon Book Recommender System의 종료 장벽이 크게 증가했습니다.


가설을 테스트하기 위해 lmerTest-패키지(Kuznetsova et al., 2017; Satterthwaite, 1946)의 Satterthwaite 유의성 테스트를 사용하여 시간 계수(β1)를 평가합니다. 그러나 혼합 효과 모델에서 자유도를 계산하는 방법(Satterthwaite, 1946)은 표본 크기가 작을 때 제1종 오류를 부풀릴 수 있다는 점에 유의하는 것이 중요합니다(Baayen et al., 2008). 우리의 경우에는 표본 크기가 크기 때문에 그다지 문제가 되지 않습니다.


표본 크기가 크다는 것은 작은 효과에도 p-값이 0에 가깝다는 것을 의미합니다(Ghasemi & Zahediasl, 2012). 따라서 우리는 단지 유의성보다는 효과 크기의 크기에도 관심이 있습니다.


증가는 선형 증가가 아닌 성장률이라는 점에 유의하십시오. 이는 효과 크기의 크기를 해석하는 방법에 영향을 미칩니다.





[2] 문서는 https://nijianmo.github.io/amazon/index.html을 참조하세요.


이 문서는 CC 4.0 라이선스에 따라 arxiv에서 볼 수 있습니다.