Meet Yambda: One of the world’s largest open datasets for RecSys. Recommender algorithms- ը օգնում է մարդկանց գտնել ճիշտ արտադրանքը, ֆիլմեր, երաժշտություն եւ այլն: Նրանք ծառայություններ են, ինչպիսիք են օնլայն շուկաների եւ պլատֆորմների պլատֆորմներում: Այս algorithms- ի առաջադեմը ուղղակիորեն կախված է հետազոտությունների վրա, որը, այնպես էլ, պահանջում է բարձր որակի, մեծ քանակի տվյալների սերտիֆիկներ: Սակայն, ամենը open-source տվյալների սերտիֆիկները փոքր են կամ առաջադեմ են, քանի որ ընկերություններ, որոնք բաղադրում են terabytes տվյալների, երբեք չգիտեն, որ այդ տվյալները բացառությամբ հասանելի են: Այսօր, մենք ազատում ենք Yambda- ը, որը աշխարհում մեծագույն հարմարման տվյալների սերտիֆիկների մեկը: Այս տվյալների բաղադրիչները ներառում են 4,79 միլիոն anonimized օգտվողների բաղադրիչները, որը բաղադրվում է 10 ամիս օգտվողների գործառույթից: Մենք ընտրել ենք Music ծառայությունը, քանի որ դա ամենամեծ սեղմման վրա հիմնված ռեժիմացիոն ծառայություն է روسیهում, հետ միջին ամսական տեսախցիկը 28 միլիոն օգտվողների. Ավելի մեծ մասը տվյալների բաղադրիչները ներառում են բաղադրիչները, սիրումները եւ անսահմանափակները, ինչպես նաեւ հետազոտական բաղադրիչները, որոնք արտադրվում են մատակարարման համակարգից: Բոլոր օգտվողների եւ վերահսկողության տվյալները անլոգված են: DataSet- ը ներառում է միայն թվային identifier- ում, որը ապահովում է օգտվողների ինտերնետությունը: Մեր Vibe Yambda- ի նման մեծ open data sets- ը օգնում է լուծել մի քանի խնդիրներ: Բարձր որակի, մեծ քանակի տվյալների հասանելիությունը բացում է նոր ճանապարհներ գիտական հետազոտությունների համար եւ ներգրավում է երեխաների հետազոտողներին, ովքեր ցանկանում են օգտագործել մեքենայի ուսուցում իրական աշխարհում: Ես Alexander Ploshkin, եւ ես առաջանում եմ personalization որակի զարգացման Yandex- ում. Այս հոդվածում, ես բացահայտել եմ, թե ինչ է բաղադրվում տվյալների բաղադրիչը, թե ինչպես մենք հավաքել ենք այն, եւ թե ինչպես դուք կարող եք օգտագործել այն նոր recommender ալբոմսերի գնահատման համար: Հիմա սկսենք! Ինչո՞ւ կարեւոր է մեծ քանակի open data sets- ը: Recommender համակարգեր փորձում են իրական վերամշակման վերջին տարիների ընթացքում. Tech ընկերություններ ավելի շատ օգտագործում են transformer-based մոդելներ, ինտեգրված մեծ լեզուային մոդելների (LLMs) հաջողությամբ այլ տարածքներում. Այն, ինչ մենք սովորել ենք համակարգչային տեսության եւ բնական լեզուի մշակման միջոցով, այն է, որ տվյալների քանակը կարեւոր է, թե ինչպես լավ են այդ մեթոդները աշխատում: Transformers- ը շատ արդյունավետ չէ փոքր տվյալների սերտիֆիկների վրա, բայց այն շատ կարեւոր է, երբ նրանք ծախսել են միլիոնավոր tokens- ում: Շատ մեծ քանակի բաց տվյալների սերտիֆիկները հաճախական են recommender համակարգերի տարածքում: LFM-1B- ի, LFM-2B- ի եւ Music Listening Histories Dataset- ի (27B- ի) նման հայտնի տվյալների սերտիֆիկները ժամանակի ընթացքում չի հասանելի են Licensing- ի սահմանափակման համար: Այսպիսինքն, օգտագործողների ինտերնետների թվային ցուցահանդեսը Criteo- ի առեւտրային տվյալների բաղադրիչն է: Այսպիսով, հետազոտողների համար մի փորձ է ստեղծվել: Շատը չի կարող ստանալ web-scale ծառայություններ, ինչը նշանակում է, որ նրանք չեն կարող փորձել ալբորմատոմսերը, որոնք տեսնում են իրական աշխարհում օգտագործման պայմաններում: Հիմնական տվյալների սարքերի, ինչպիսիք են MovieLens, Steam, կամ Netflix Prize- ը ներառում են, լավագույնում, միլիոնավոր ինտերնետներ, եւ սովորաբար կենտրոնանում են բացառիկ մատակարարման, ինչպիսիք են ռեժիմներ եւ ռեժիմներ: Միեւնույն ժամանակ, արտադրության rekomender համակարգեր աշխատում են շատ ավելի տարբեր եւ մանրամասական Signals: Click, Like, Full Listen, View, Buy, եւ այլն. Շատ տվյալների սերտիֆիկները չեն թույլ տալ, որ դասընթացների եւ փորձարկման սերտիֆիկների միջեւ ճշգրտական ժամանակագրական բաժանման, որը կարեւոր է, որ algorithms, որոնք ցանկանում են նախընտրել مستقبلը, ոչ միայն բացահայտել անցյալը. Այս խնդիրների լուծման համար եւ առաջարկող համակարգերի նոր ալբոմսերի զարգացման աջակցելու համար, մենք ազատում ենք Yambda- ը: Այս dataaset- ը այժմ մեծագույն open resource- ի համար է օգտագործողի ինտերնետների համար recommendation domain- ում: Ի՞նչ է Yambda- ի ներսում The data set- ը ներառում է 1 միլիոն օգտվողների ինտերնետներ եւ ավելի քան 9 միլիոն music tracks- ի հետ Music- ի ծառայության հետ, որը միասին 4,79 միլիոն պատմություններ է: Առաջին, պետք է հստակ լինել: Բոլոր գործերը անիմնական են: DataSet- ը օգտագործում է միայն օգտվողների, բլոգների, ալբոմների եւ բաղադրիչների համար թվային identifier- ները: Սա ապահովում է ինտեգրիտությունը եւ պաշտպանում է օգտվողների տվյալները: Data Set- ը ներառում է հիմնական անսահմանափակ եւ անսահմանափակ օգտագործող գործերը: Օգտագործողը լսել է music track. Like: Օգտագործողը սիրում է մի բաղադրիչ (“տոմս վերադառնալ”). Արդյոք, օգտագործողը փոխել է մի Like: Ոչ սիրում է: Օգտագործողը չի սիրում մի բաղադրիչը («լուսանկարներ»). Unlike: Օգտագործողը փոխել է մի անջատություն: Որպես համարվում է, որ տվյալների միավորը ավելի հարմարավետ է, մենք նաեւ ազատել ենք ավելի փոքր նմուշներ, որոնք ներառում են 480 միլիոն եւ 48 միլիոն արդյունքների, resp. Հիմնական statistics for these subsets are provided in the table below: Հիմնական statistics for these subsets are provided in the table below: Այս տվյալները տեղադրվում են Apache Parquet- ի ձեւաչափում, որը անջատորեն աջակցվում է Python- ի տվյալների विश्लेषणային գրասենյակներում, ինչպիսիք են Pandas- ը եւ Polars- ը: Flat: Բոլոր գծերը մատակարարում են միակ ինտերնետություն օգտագործողի եւ գծի միջեւ: Հիմնական: Ամեն գիծը ներառում է մեկ օգտագործողի ամբողջական ինտերնետային պատմությունը: Data Set- ի կառուցվածքը հետեւյալն է: Yambda-ի հիմնական առանձնահատկություն է Դա օգնում է տարբերել օգտվողի գործողությունները, որոնք կատարվում են բնականորեն, եւ նրանց, որոնք ներկայացվում են առաջարկների կողմից. is_organic Եթե , դա նշանակում է, որ գործառույթը սկսվել է rekommendation- ի կողմից: is_organic = 0 Նշում է, որ բոլոր այլ գործառույթները բնական են, ինչպիսիք են, որ օգտագործողը բացահայտել է բաղադրույքը իր սեփական. Հաջորդ փաթեթը ապահովում է statistics on recommendation-driven events: User Interaction History- ը կարեւոր է, որպեսզի ստեղծել personalized recommendations- ը: Այն փնտրում է այնպես էլ երկարազոտական հարմարություններներ, ինչպես նաեւ ժամանակակից հարմարություններներ, որոնք կարող են փոխվել ինստիտուտով: Որպես օգնում եք ավելի լավ հասկանալ տվյալների կառուցվածքը, այստեղ մի քանի արագ մանրամասներ մեր տվյալների բաղադրիչների մասին: Հաջորդ հոդվածըԿարմանում են, որ օգտվողների պատմության երկարությունը հետեւում է խոշոր ծախսերի մատակարարման համար: Սա նշանակում է, որ քանի որ մեծ մասը օգտվողների relatively few interactions, մի փոքր, բայց կարեւոր թիմ ունի շատ երկար ինտերնետային պատմություններ. Այս մասին հատկապես կարեւոր է հաշվի, երբ ստեղծում է խորհուրդային մոդելներ, որպեսզի փնտրել է վերահսկողությունը բարձր արդյունավետ օգտվողների համար եւ պահպանել որակի համար «լոգի գծի» ցածր ներգրավված օգտվողների համար: Երբեմն, միասին, միասին, միասին, միասին, միասին, միասին, միասին, միասին, միասին, միասին, միասին, միասին, միասին: Այս կատեգորիան բացառապես ցույց է տալիս, որ շատ հայտնի բաղադրիչների եւ մեծ բաղադրիչների բաղադրիչների բաղադրիչների բաղադրիչների միջեւ բաղադրիչը հեշտ է: ավելի քան 90% բաղադրիչների ստացել են ավելի քան 100 բաղադրիչներ ամբողջ բաղադրիչի բաղադրիչի ժամանակում: Բացի այդ, recommender համակարգերը պետք է աշխատել ամբողջ կատեգորիանով, որպեսզի նստել նույնիսկ ցածր հայտնիության գծերը, որոնք հարմարվում են մասնավոր օգտագործողների հարմարություններով: Օգտագործելով Yambda- ը Algorithmic Performance- ի գնահատման համար Recommender algorithm որակի գիտական ուսումնասիրությունները հաճախ օգտագործում են Leave-one-Out (LOO) սմարթը, որտեղ մեկ օգտվողի գործը պահվում է փորձարկման համար, ուրիշը օգտագործվում են ուսուցման համար: Այս մեթոդը, սակայն, մնում է երկու կարեւոր սխալներ: Temporal inconsistency: Test events- ը կարող է ներառում գործերը, որոնք կատարվել են առաջ այն գործերի, որոնք կատարվել են training sets- ում: Օգտագործողների նույն քանակը: Արդյոք չորակ օգտագործողները ազդում են evaluation մետրերը, ինչպես նաեւ aktives, որը կարող է փոխել արդյունքները. Տեղադրման պայմանները ավելի հարմար են իրական աշխարհում rekommender համակարգի սենյակումներին, մենք առաջարկում ենք տարբերակ: . global temporal split Այս հեշտ մեթոդը ընտրում է ժամանակի (T) կտորը, որը ներառում է բոլոր հաջորդ գործառույթները դասընթացային կտորից: Այսպիսին ապահովում է, որ մոդելը ճշգրիտ է պատմական տվյալների վրա եւ փորձարկվում է مستقبلային տվյալների հետ, որը նամակում է ճշգրիտ արտադրական միջավայրի. Մեր վերահսկման համար, մենք պահել է մեկ օր տվյալների, քանի որ վերահսկման սերտիֆիկը երկու հիմնական պատճառների համար: Մինչեւ մեկ օրական տվյալների արժեքը ապահովում է բավարար քանակը, որը կարող է հուսալիորեն գնահատել алгоритмийн կատարումը: Մոդելերը իրական աշխարհում արտադրված են տարբեր հատկանիշներ: մի քանի պահանջում են հաճախական թարմացումները (պիսով, հայտնիության վրա հիմնված խորհուրդներ), այլն սեղմվում են թարմացումներով կամ նորաձեւում (boosting, matrix factorization, two-tower մոդելներ), եւ մի քանի պահանջում են անմիջապես թարմացվել օգտվողների ինտերնետային պատմություններով (խաղադրիչների եւ transformer-based մոդելներ). Մեր տեսանյութում, մեկ օրային գիշերն է օպտիմալ evaluation ժամանակը, որպեսզի մոդելները մանրամասն են, իսկ նույնիսկ փնտրում են short-term trends. Այս մեթոդի սխալը այն է, որ այն չգիտնում է երկար ժամանակային մոդելերը, ինչպիսիք են երաժշտական փոխանակները երաժշտական լսելու գործառույթում: Մենք առաջարկում ենք, որ այդ տեսակի համար ապագա հետազոտությունների համար: Բազլան Մենք վերահսկել ենք Yambda- ում բազմաթիվ հայտնի ռեժիմատոմսերը, որպեսզի ստեղծել է առաջադեմ հետազոտությունների եւ համեմատության բազաններ: Մենք փորձել ենք: MostPop, DecayPop, ItemKNN, iALS, BPR, SANSA եւ SASRec. Ուսանման համար, մենք օգտագործում ենք հետեւյալ մետրիկներ: NDCG@k (Normalized Discounted Cumulative Gain), որը չափում է դասընթացների որակի դասընթացները. Recall@k, որը գնահատում է алгоритмаի հզորությունը վերցնել Relevant Recommendations- ից total pool- ից: Coverage@k, որը ցույց է տալիս, թե ինչպես լայնորեն ներկայացված է խորհուրդային կատալոգը: Ապրանքները ապահովվում են փաթեթներում, եւ կոդը հասանելի է . Տղամարդկանց Face Տղամարդկանց Face Հյուրատետր Yambda- ը կարող է լինել արժեքային հետազոտությունների համար, որոնք առաջարկում են հարմարեցման ալբոմսերը մեծ քանակի տվյալների վրա, որտեղ այնպես էլ կատարումը եւ հզորությունը մոդել կատարման դինամիկները կարեւոր են: DataSet- ը հասանելի է երեք տարբերակներում: 5 միլիոն գործառույթների ամբողջ գործառույթը եւ 500 միլիոն եւ 50 միլիոն գործառույթների ավելի քիչ գործառույթները: Մատակարարները եւ հետազոտողները կարող են ընտրել տարբերակը, որը լավագույնն է իրենց նախագծի եւ համակարգչային ռեսուրսների համար: Երբ data set- ը եւ evaluation code- ը հասանելի են . Տղամարդկանց Face Տղամարդկանց Face Տղամարդկանց Face Մենք հավատում ենք, որ այս տվյալների սերտիֆիկը օգտակար է ձեր փորձերի եւ հետազոտությունների համար: Շնորհակալություն կարդալից!