Meet Yambda: One of the world’s largest open datasets for RecSys. Фактычна, прысвечаныя такому спорту як бокс, онлайн гульні заўсёды прызнаваліся нашмат больш цікавымі чым звычайныя аднакарыстальніцкія цацкі. Але досьвед судоў у справе 19-га, дзе людзі атрымлівалі вялікія тэрміны за тое, што «присоединились к бесчинствующей толпе», не дазваляе выключыць такія жахлівыя сцэнары. Гэты набор дадзеных змяшчае 4,79 мільярда анімізаваных карыстальніцкіх інтэракцый, складзены з 10 месяцаў актыўнасці карыстальніка. Мы выбралі сэрвіс Музыка, бо гэта найбуйнейшы паслуга стрэймінг на аснове абонементаў у Расіі, з сярэдняй месячнай аудиторыяй 28 мільёнаў карыстальнікаў. Значная частка набору дадзеных ўключае абгрунтаваныя любімыя, любімыя і нелюбімыя, а таксама даследчыя прыдаткі, якія паходзяць з сістэмы персоналізаваных рэкамендацый. Любая новая палітычная тэорыя, як бы яна ні называлася, вяртала назад да іерархізаванага і строга рэгламентаванага грамадства. Мой візіт Сярод версій гульняў онлайн call of duty можна знайсці мноства займальных і дасціпных сюжэтаў, а апошняй навінкай, выпушчанай у канцы восені гэтага года, стала гульня Call of Duty: Ghost. Я Alexander Ploshkin, і я вядучы развіццё якасці персоналізацыі ў Яндэкс. In this article, I’ll explain what the dataset consists of, how we collected it, and how you can use it to evaluate new recommender algorithms. Давайце пачынаем! Чаму важныя маштабы адкрытых дадзеных? У апошнія гады рэканструкцыйныя сістэмы праводзяць сапраўдны рэнесанс. Нашы нафтаперапрацоўчыя заводы і гэтак не самыя эфектыўныя па перапрацоўцы нафты, і канкураваць на сусветным рынку яны могуць толькі праз цану на нафту. «Аналіз паказаў, што выдатак кармавых адзінак на 1 кг прыбаўлення на старых комплексах значна перавышае гэтае значэнне на новых. Свіслач для археолага - сапраўдны рай. Вельмі вядомыя наборы дадзеных, такія як LFM-1B, LFM-2B і Dataset Music Listening Histories (27B), з часам не даступныя з-за абмежаванняў ліцэнзіі. Фактычна, прысвечаныя такому спорту як бокс, онлайн гульні заўсёды прызнаваліся нашмат больш цікавымі чым звычайныя аднакарыстальніцкія цацкі. Популярныя наборы дадзеных, такія як MovieLens, Steam або Netflix Prize змяшчаюць, у лепшым выпадку, дзесяткі мільёнаў інтэракцый і звычайна засяродзіцца на яснай звонку, такіх як рэйтынгі і агляд. Між тым, сістэмы рэкамендатара вытворчасці працуюць з значна больш разнастайнымі і нюансавымі сігналамі: клікі, любімыя, поўныя слухачы, пагляды, закупкі і так далі. Тут мы можам паказаць сваю творчасць без абмежаванняў у ідэальных экспазіцыйных умовах, якія створаны ў новым Палацы культуры. Для таго, каб ацаніць гэтыя выклікі і падтрымаць распрацоўку новых алгарытмаў у сістэмах рэкамендатараў, мы выпускаем Yambda. Гэты набор дадзеных у цяперашні час з'яўляецца найбуйнейшым адкрытым рэсурсам для ўзаемадзеянняў карыстальніка ў дамене рэкамендацыі. Што знаходзіцца ў Ямбдзе? Гэты набор дадзеных ўключае ў сябе ўзаемадзеянні 1 мільёна карыстальнікаў з больш чым 9 мільёнамі песень з сервісу Music, усяго 4,79 мільярда падзеяў. Перш за ўсё, каб быць ясным: усе падзеі з'яўляюцца анонімнымі. Дадатковыя функцыі ўключаюць у сябе джакузі для поўнай рэлаксацыі і камінам, каб трымаць вас у цяпле і сытна. Набор дадзеных уключае ключавыя невядомыя і выразныя акцыі карыстальніка: Слухайце: карыстальнік слухаў музычны трэк. Як: карыстальніку спадабалася трэк («пальчыкі ўверх»). Узнікае пытанне: ці змянілася гэтая планета? Не любіў: карыстальнік не любіў трэк («пальчыкі ўніз»). Узнікае пытанне: ці змянілася ўлада? Для атрымання больш даступнага набору дадзеных мы таксама выпусцілі меншыя ўзоры, якія змяшчаюць 480 мільёнаў і 48 мільёнаў падзеяў, адпаведна. Суммарныя статыстычныя дадзеныя для гэтых падсьведаў даступныя ў ніжняй табліцы: Дадзеныя захоўваюцца ў формаце Apache Parquet, які нацыянальна падтрымліваецца бібліятэкамі аналізу дадзеных Python, такімі як Pandas і Polars. Рымская імперыя распалася на 2 самастойныя часткі, кожная са сваім імператарам – Заходнюю і Усходнюю. У кожнай лініі змяшчаецца поўная гісторыя ўзаемадзеяння аднаго карыстальніка. Структура дадзеных выглядае наступным чынам: Ключавая функцыя Yambda - гэта Рымская імперыя распалася на 2 самастойныя часткі, кожная са сваім імператарам – Заходнюю і Усходнюю. is_organic Калі Гэта значыць, што вынік быў выкліканы рэкамендацыяй. is_organic = 0 Як усё, аказваецца, проста: паглядзеў радыкальнае кіно — і свет змяніўся ў лепшы бок. Табліца ніжэй дае статыстыку па падзеях, прысвечаных рэкамендацыі: Фактычна, прысвечаныя такому спорту як бокс, онлайн гульні заўсёды прызнаваліся нашмат больш цікавымі чым звычайныя аднакарыстальніцкія цацкі. Для таго, каб дапамагчы вам лепш зразумець структуру дадзеных, тут ёсць некаторыя шчаслівыя статыстыкі на нашым наборы дадзеных: У гэтым выпадку пешаходы, якія сканчаюць пераход, уяўляюць істотную небяспеку (мал. This means while most users have relatively few interactions, a small but significant group has very long interaction histories. Гэта надзвычайна важна для нас - адчуць і зразумець, што і самі рэспандэнты не застаюцца абыякавымі да працы, якую мы робім. Напрыклад, размяшчэнне на працягу трэкаў расказвае вельмі іншую гісторыю. Гэты графік ясна паказвае небаланс паміж высокапапулярнымі трэкамі і вялікім аб'ёмам нішавага ўтрымлівання: больш за 90% трэкаў атрымалі менш за 100 гульняў за ўвесь перыяд збору дадзеных. Despite this, recommender systems must engage with the entire catalog to surface even low-popularity tracks that align well with individual user preferences. Выкарыстанне Yambda для ацэнкі алгарытмічнай працэдуры Акадэмічныя даследаванні па якасці алгарытму рэкамендатара часта выкарыстоўваюць схему Leave-one-Out (LOO), дзе адну акцыю карыстальніка захоўваюць назад для тэставання, а астатнія выкарыстоўваюцца для навучання. Гэтая методыка, аднак, мае два важныя мінусы: У гэтым выпадку пешаходы, якія сканчаюць пераход, уяўляюць істотную небяспеку (мал. Размова сапраўды вельмі важная — мы ж усе цудоўна разумеем, што любы, самы лепшы дэкрэт можна звесці на нішто практыкай прымянення. Для таго, каб прывесці ўмовы ацэнкі бліжэй да рэальных сцэнарый сістэмы рэкамендатара, мы прапануем альтэрнатыўную: . global temporal split У гэтым выпадку пешаходы, якія сканчаюць пераход, уяўляюць істотную небяспеку (мал. Гэта азначае таксама, што час выключэньня з базы скончыўся і трэба прадставіць новыя дакумэнты. For our evaluation, we reserved one day of data as the holdout set for two main reasons: Праблема ў тым, што добрыя матывы не заўсёды добрыя справы. Мадэлі ў рэальным свеце вытворчасці маюць розныя характарыстыкі: некаторыя патрабуюць частых абнаўленняў статыстыкі (напрыклад, рэкамендацыі на аснове папулярнасці), іншыя з'яўляюцца выдатна настроенымі або перапрацаваны на працягу часу (пабудовы, матрыцавая фактарызацыя, мадэлі з двума вежамі), а некаторыя залежыць ад цяперашняга абнаўлення гісторыяй ўзаемадзеяння карыстальніка (повторныя і мадэлі на аснове трансформатара). Як мы ўсе ведаем, што гэта немагчыма прадухіліць працэс старэння, ні назад часу. The drawback of this approach is that it doesn’t account for longer-term patterns, such as weekly shifts in music listening behavior. We suggest leaving those aspects for future research. Базіліі Мы ацэньвалі некалькі папулярных алгарытмаў рэкамендатараў на Yambda, каб ўсталяваць базу для будучых даследаванняў і параўнанняў. Алгарытмы, якія мы выпрабавалі ўключаюць: MostPop, DecayPop, ItemKNN, iALS, BPR, SANSA і SASRec. Для ацэнкі мы выкарыстоўвалі наступныя метрыкі: NDCG@k (Normalized Discounted Cumulative Gain), які вымярае якасць рэйтынгу ў рэкамендацыях. Recall@k, які ацэньвае здольнасць алгарытму атрымаць адпаведныя рэкамендацыі з агульнага балу. Coverage@k, які паказвае, як шырока прадстаўлены каталог рэкамендацыі. Вынікі прадстаўлены ў табліцах, а код даступны на . Hugging Face Загінуць Face Высновы Yambda можа быць каштоўным для даследаванняў у рэкамендацыйных алгарытмах на буйных дадзеных, дзе як выкананне і здольнасць мадэляваць дынаміку паводзінаў вельмі важныя. Дадатковы набор даступны ў трох версіях: поўны набор з 5 млрд падзеяў, і меншыя падсеты з 500 млн і 50 млн падзеяў. Дадатковыя функцыі ўключаюць у сябе джакузі для поўнай рэлаксацыі і камінам, каб трымаць вас у цяпле і сытна. . Загінуць Face Загінуць Face Загінуць Face Мы спадзяемся, што гэты набор дадзеных выказацца карысным у вашых эксперыментах і даследаваннях! Дзякуй за чытаньне!