Meet Yambda: One of the world’s largest open datasets for RecSys. የ Recommender algorithms ሰዎች የተሻለ ምርቶች, ፊልም, የሙዚቃ, እና ተጨማሪ ማወቅ ይረዳሉ. እነርሱ የመስመር ላይ ገበያዎች ወደ ስሪሚየም መድረኮች ጀምሮ አገልግሎቶች ጥንካሬ ናቸው. እነዚህን algorithms ልማት በቀጥታ ምርምር ላይ ያካትታል, ይህም በከፍተኛ ጥራት, በከፍተኛ መጠን ውሂብ ስብስቦች ያስፈልጋል. ነገር ግን አብዛኞቹ የፕላስቲክ ውሂብ ስብስቦች አነስተኛ ወይም የቅርብ ጊዜ ናቸው, የ terabytes ውሂብ አጠቃቀም ኩባንያዎች በአጠቃላይ የግል ደህንነት ፍላጎቶች ምክንያት ይቻላል. ዛሬ, Yambda, በዓለም ትልቁ የተመሠረተ ውሂብ ስብስቦች መካከል አንዱ ይመዝገቡ. ይህ ውሂብ አጠቃቀም 4.79 ቢሊዮን የአውታረ መተግበሪያዎችን ያካትታል, በ 10 ወራት የአውታረ መተግበሪያዎችን ያካትታል. We chose the Music service because it’s the largest subscription-based streaming service in Russia, with an average monthly audience of 28 million users. ውሂብ ስብስቦች አንድ ታዋቂ ክፍሎች አጠቃቀም ያካትታሉ, likes, and dislikes, እንዲሁም የተመሠረተ የተመሠረተ የተመሠረተ ግምገማ ባህሪያት. ሁሉም ተጠቃሚ እና ትራክ ውሂብ በይነገጽ ነው: ውሂብ ስብስቦች ብቻ የኮምፒዩተር መታወቂያዎችን ያካትታል, ተጠቃሚው ደህንነት ለማረጋገጥ. My Vibe የ Yambda እንደ ከፍተኛ ጥራት, በከፍተኛ መጠን ውሂብ መግዛት የሳይንስ ምርምር አዲስ መስመሮች ይሰጣል እና የሽያጭ ሳይንሳዊ ግምገማዎች ላይ ማሽን መግዛት ለመተግበሪያ የሚፈልጉ የሽያጭ ሳይንሳዊ ሳይንሳዊ ሳይንሳዊ ሳይንቶች ይሰጣል. I’m Alexander Ploshkin, and I lead personalization quality development at Yandex. በዚህ ጽሑፍ ውስጥ, የ DataSet ምን ነው, እንዴት አጠቃቀም, እና እንዴት ወደ አዲስ Recommender algorithms መተግበሪያ ይጠቀማል. ይጀምራለን! በይፋ ውሂብ አጠቃቀም ምን ያህል አስፈላጊ ነው? Recommender ስርዓቶች በአጠቃላይ በቅርብ ዓመታት ውስጥ አንድ እውነተኛ የቅርብ ጊዜ ተሞክሮ ይሆናል. የቴክኖሎጂ ኩባንያዎች በአብዛኛው ጊዜ transformer-based ሞዴሎች ይጠቀማሉ, በላቁ ቋንቋ ሞዴሎች (LLMs) በሌሎች መኖሪያዎች ውስጥ ስኬታማነት የተመሠረተ. የኮምፒውተር ቪዛ እና የቴክኒካዊ ቋንቋ ሂደት ውስጥ አግኝተዋል ነገር ይህ የግል ውሂብ መጠን እነዚህን ዘዴዎች እንዴት ይሰራሉ ላይ አስፈላጊ ነው: трансформаተሮች ትንሽ ውሂብ ስብስቦች ላይ በጣም ውጤታማ አይደለም, ነገር ግን ከባድ ቢሊዮን ቶኪን ወደ ማጥፋት በኋላ በጣም አስፈላጊ ይሆናል. በእርግጥ በከፍተኛ መጠን ውሂብ ስብስቦች በ recommender systems domain ውስጥ አስቸጋሪ ናቸው. የ LFM-1B, LFM-2B, እና የ Music Listening Histories Dataset (27B) እንደ ታዋቂ ውሂብ ስብስቦች በዚያ ጊዜ በይነገጽ ውሂብ ውሂብ ውሂብ ውሂብ ውሂብ ውሂብ ውሂብ ውሂብ ውሂብ ውሂብ ውሂብ ውሂብ ውሂብ ውሂብ ውሂብ ውሂብ ውሂብ ውሂብ ውሂብ ውሂብ ውሂብ ውሂብ ውሂብ ውሂብ ውሂብ ውሂብ ውሂብ ውሂብ ውሂብ ውሂብ ውሂብ ውሂብ ውሂብ ውሂብ ውሂብ ውሂብ ውሂብ ውሂብ ውሂብ ውሂብ ውሂብ ውሂብ ውሂብ ውሂብ ውሂብ ውሂብ ውሂብ ውሂብ ውሂብ. በአሁኑ ጊዜ የኮምፒውተር መተግበሪያዎች ቁጥር ላይ የኮምፒውተር መተግበሪያ ውሂብ ስብስቦች በ Criteo ላይ ያካትታል, ከ 4 ቢሊዮን ሁኔታዎች ያካትታል. ይህ የኮምፒውተር ባለሙያዎች የሚፈልጉትን ፍላጎት ያደርጋል: አብዛኞቹ የኮምፒውተር መተግበሪያዎች መግዛት አይችልም, ይህም በይነገጽ በይነገጽ በይነገጽ በይነገጽ በይነገጽ በይነገጽ በይነገጽ በይነገጽ በይነገጽ በይነገጽ በይነገጽ በይነገጽ በይነገጽ በይነገጽ. እንደ MovieLens, Steam, ወይም Netflix Prize እንደ ታዋቂ ውሂብ ስብስቦች, በአብዛኛው ጊዜ, ሚሊዮን ክፍያዎችን ያካትታሉ እና በአብዛኛው ጊዜ ምሳሌዎች እና ግምገማዎች እንደ ብጁ ግምገማዎች ላይ ያተኮሩ ናቸው. በአሁኑ ጊዜ, ምርት ይመዝገቡ ስርዓቶች በጣም ብዙ የተለያዩ እና ዝርዝሮች ጋር ይሰራሉ: ግምገማዎች, likes, full listenens, views, purchases, ወዘተ. ብዙ ውሂብ ስብስቦች የሙከራ እና የሙከራ ስብስቦች መካከል ትክክለኛ የክሮኒካዊ ቅርጸት ሊሆን አይችልም, ይህም ለወደፊቱ ለማረጋገጥ የሚፈልጉ የአልጋሚዎች ማረጋገጫ ላይ አስፈላጊ ነው, ብቻ የቅርብ ጊዜ ለማሳየት አይደለም. እነዚህን ፍላጎቶች ለማሟላት እና የ recommender ስርዓቶች ውስጥ አዲስ የአልጋሚዎች ልማት ለማስተናገድ, እኛ Yambda ይመዝገቡ. ይህ ውሂብ ስብስቦች በአሁኑ ጊዜ የተመሠረተ ውሂብ መኖሪያ ቤት ውስጥ ተጠቃሚ መተግበሪያዎች ውስጥ ትልቁ የግል ምንጭ ነው. Yambda ውስጥ ምን ነው? ከ 1 ሚሊዮን ተጠቃሚዎች እና ከ 9 ሚሊዮን የሙዚቃ ትራክቶች ከ የሙዚቃ አገልግሎቶች ከ 4,79 ቢሊዮን ስዕሎች ጋር ተኳሃኝ መረጃዎች ያካትታል. መጀመሪያ, ቀላል ይሆናል: ሁሉም እንቅስቃሴዎች በይነገጽ ናቸው. ውሂብ ስብስቦች ብቻ ተጠቃሚዎች, ጫማዎች, አልቦችን እና አርቲስቶች ለ የኮምፒዩተር መታወቂያዎችን ይጠቀማሉ. ይህ የግልነት ለማረጋገጥ እና ተጠቃሚ መረጃዎችን ለመጠበቅ ነው. ውሂብ ተከታታይ የኮምፒዩት እና የኮምፒዩት ደንበኞች እንቅስቃሴዎችን ያካትታል: አግኙን: ተጠቃሚው የሙዚቃ ትራክ አግኙን. ለምሳሌ: ተጠቃሚው አንድ ትራክ ይወዳል (“የእንዴዎች ይጨምራል”). The user removed a like. Unlike: አግኝቷል: የኮምፒውተር አንድ ትራክ አግኝቷል (“Thumbs Down”). አግኝቷል: ተጠቃሚው አግኝቷል. የፕላስቲክ ውሂብ አጠቃቀም ለማሻሻል, የ 480 ሚሊዮን እና የ 48 ሚሊዮን ስዕሎች ያካትታል አነስተኛ ናሙናዎች ያውቃሉ. እነዚህ ክፍሎች ለማግኘት ዝቅተኛ ስቴትስቲክስ ከታች የቴክኒክ ዝርዝር ውስጥ ይሰጣሉ: ውሂብ በ Apache Parquet ቅርጸት የተመሠረተ ነው, ይህም እንደ PANDAS እና Polars እንደ Python ውሂብ ልማት ቅርጸቶች የተመሠረተ ነው. ጥቅም ላይ ቀላል ለማግኘት, ውሂብ ቅርጸት ሙሉ በሙሉ በሁለት ቅርጸት ይመሠረተ: Flat: እያንዳንዱ ተከታታይ አንድ ተጠቃሚ እና አንድ ትራክ መካከል አንድ አጠቃቀም ያካትታል. ቀጣይ: እያንዳንዱ መስመር አንድ ብቻ ተጠቃሚው ሙሉ የአካል ብቃት ታሪክ ያካትታል. የ DATA SETTING STRUCTURE እንደዚህ ነው: Yambda አንድ ዋና ባህሪያት ነው እያንዳንዱ ስሜት ጋር ያካትታል, ይህ ስሜት በእርስዎ ተጠቃሚዎች በተለምዶ ተመሳሳይነት እና የተመሠረተ ተመሳሳይነት መካከል ልዩነት ይረዳል. is_organic አንተ ነገር ግን, ይህ ምንድን ነው, እርስዎ አንድ ግምገማ ይጠቀማል. is_organic = 0 ለምሳሌ, የተመሠረተ የሙዚቃ ስሜት ወይም የተመሠረተ የቁማር ዝርዝሮች ውስጥ. ሁሉም ሌሎች ስሜቶች የኦርጋኒክ ናቸው. ዝቅተኛ የቴክኒክ ዝርዝሮች ለመጋገብ የተመሠረተ ስዕሎች ያቀርባል: የኮምፒውተር መተግበሪያ ታሪክ የግል የተመሠረተ ግምገማዎችን ለመፍጠር አስፈላጊ ነው. ይህ በገጽታ ጋር ሊለወጥ ይችላሉ የጊዜው ፍላጎቶች እና የጊዜው ግምገማዎች ሁለቱም ያካትታል. የእርስዎን ውሂብ መዋቅር ለማወቅ ይረዳል, እዚህ የእኛን ውሂብ ስብስቦች ላይ አንዳንድ ፈጣን ስቴትስቶች አሉ: ከላይ የካርታዎች ተጠቃሚ ታሪክ ርዝመት በከፍተኛ-ከባድ ቅርጸት የሚከተሉትን ይሰጣሉ. ይህ አብዛኞቹ ተጠቃሚዎች በአብዛኛው ጊዜ ዝቅተኛ አጠቃቀም አላቸው, ነገር ግን ትንሽ ነገር ግን አስፈላጊ ቡድን በጣም ርካሽ አጠቃቀም ታሪክ አላቸው. ይህ በአጠቃላይ የተመሠረተ ሞዴሎች ለመፍጠር, በጣም ተስማሚ ደንበኞች ለመጠበቅ እና ዝቅተኛ ተስማሚ ደንበኞች ለ "የብዙ መድሃኒት" ጥራት ለመጠበቅ በጣም አስፈላጊ ነው. በእርግጥ, በባህር መለያዎች ላይ መለያዎች በጣም የተለያዩ ታሪክ ይሰጣሉ. ይህ ካርታ በጣም ታዋቂ ትራንስኮች እና ትልቅ መጠን የኒክስ ውሂብ መካከል በተመሳሳይ ልኬት ይሰጣል: ከ 90% በላይ ትራንስኮች ከ 100 ተጫዋቾች ከሁሉም ውሂብ አጠቃቀም ጊዜ ውስጥ አግኝቷል. ቢሆንም, የ recommender ስርዓቶች ሙሉ የካታሎግ ጋር መገናኘት አለባቸው, እነርሱም ዝቅተኛ ታዋቂነት ትራንስኮች ጋር ተስማሚ ሊሆን ይችላል. Yambda በመጠቀም algorithmic አፈጻጸም ማረጋገጫ የ Recommender algorithm ጥራት ላይ የኮምፒዩተር ምርቶች በአብዛኛው ጊዜ የ Leave-one-Out (LOO) ስርዓት ይጠቀማሉ, በዚያ አንድ ሰው ተጠቃሚ ሂደት ፈተና ለማግኘት ይቆያል እና ሌሎች መተግበሪያዎች ይጠቀማሉ. ነገር ግን, ይህ ዘዴ ሁለት አስፈላጊ ጥቅሞች ጋር ይሰጣል: የሙዚቃ እንቅስቃሴዎች: የሙዚቃ እንቅስቃሴዎች የሙዚቃ እንቅስቃሴዎች ከሙዚቃ እንቅስቃሴዎች በፊት ሊሆን ይችላል. ተመሳሳይ ተጠቃሚዎች ክብደት: ተመሳሳይ ተጠቃሚዎች እንደ ተመሳሳይ ተጠቃሚዎች እንደ ተመሳሳይ ተጠቃሚዎች ክብደት መሳሪያዎች ላይ ተጽዕኖ ይችላሉ. የምስክር ወረቀት መስፈርቶች በተመሳሳይ ዓለም ግምገማዎች ጋር ይበልጥ ተስማሚ ለማግኘት, እኛ አንድ አማራጮች ይሰጣሉ: . global temporal split ይህ ቀላል ቅርጸት አንድ ጊዜ ደረጃ (T) ይምረጡ, ሁሉም ቀጣይ እንቅስቃሴዎች ከየተግበሪያ ስብስቦች ውስጥ ያካትታል. ይህ ሞዴል የቅርብ ጊዜ ውሂብ ላይ ተስማሚ ነው እና የቅርብ ጊዜ ውሂብ ላይ ተሞክሮ ይሆናል, በእርግጥ ምርት መዋቅር ተስማሚ ነው. የእኛን ግምገማ ለማግኘት, ሁለት ዋና ምክንያት አንድ ቀን ውሂብ እንደ Holdout ስብስቦች ይመዝገቡ: አንድ ቀናት ውሂብ አንድ ቀናት ውሂብ አጠቃቀም አጠቃቀም አጠቃቀም አጠቃቀም አጠቃቀም አጠቃቀም አጠቃቀም አጠቃቀም በእርግጥ ምርት ውስጥ ሞዴሎች የተለያዩ ባህሪያት አላቸው: አንዳንድ በተደጋጋሚ ሁኔታዎች (እነዚህም, ታዋቂነት ላይ የተመሠረተ ግምገማዎች), ሌሎች በተደጋጋሚ ሁኔታዎች (boosting, matrix factorization, two-tower models), እና አንዳንድ በተደጋጋሚ ሁኔታዎች ላይ የተመሠረተ ተጠቃሚ መተግበሪያ ታሪክ (በመደጋሚ እና transformer-based models) ላይ የተመሰረተ ናቸው. የእኛን ግምገማ ላይ, አንድ ቀናት መስኮት ሞዴሎች ለመጠበቅ እናም ቀጣይ የጊዜ ልምድ ያካትታል optimum evaluation period ነው. ይህ መተግበሪያው አነስተኛ ነው, ይህም የሙዚቃ አግኝታ እንቅስቃሴ ውስጥ ሳምንታት ተለዋዋዋጭዎች እንደ ለረጅም ጊዜ ሞዴሎች መውሰድ አይችልም. አግኙን በ Yambda ላይ በርካታ ታዋቂ የኮምፒውተር አግኙን አግኙን አግኙን ለወደፊቱ ምርምር እና ተለዋዋዋጭ ለመፍጠር. የ Algorithms we tested include: MostPop, DecayPop, ItemKNN, iALS, BPR, SANSA, እና SASRec. የእርስዎን ግምገማዎችን ለማረጋገጥ, የእርስዎን ግምገማዎችን ይጠቀማል: በ NDCG@k (Normalized Discounted Cumulative Gain) የተመሠረተ ግምገማዎች ውስጥ የደረጃ ጥራት ያካትታል. Recall@k, ይህም የ algorithm አቅም ከኮምፒውተር አጠቃላይ አጠቃቀም የተመሠረተ ግምገማዎችን ለመግዛት ያካትታል. Coverage@k, ይህም ትዕዛዞች ካታሎችን በይነገጽ እንዴት ያተኮሩ ነው. ውጤቶች በቴሌሎች ውስጥ ያቀርባል, እና ኮድ ላይ ይገኛል . ተጽዕኖ ተጽዕኖ ተጽዕኖ ተጽዕኖ መጨረሻው Yambda በጅምላ ውሂብ ላይ የተመሠረተ አግኝተዋል አግኝተዋል አግኝተዋል አግኝተዋል አግኝተዋል አግኝተዋል አግኝተዋል አግኝተዋል አግኝተዋል አግኝተዋል አግኝተዋል አግኝተዋል አግኝተዋል አግኝተዋል አግኝተዋል አግኝተዋል አግኝተዋል አግኝተዋል አግኝተዋል አግኝተዋል አግኝተዋል አግኝተዋል አግኝተዋል አግኝተዋል አግኝተዋል አግኝተዋል አግኝተዋል አግኝተዋል አግኝተዋል አግኝተዋል አግኝተዋል አግኝተዋል አግኝተዋል አግኝተዋል አግኝተዋል አግኝተዋል አግ ውሂብ ስብስብ በሦስት ስሪቶች ውስጥ ይገኛል: ሙሉ ስብስብ በ 5 ቢሊዮን ስዕሎች, እና ከ 500 ሚሊዮን እና ከ 50 ሚሊዮን ስዕሎች ጋር አነስተኛ ስዕሎች. የፕሮጀክቶች እና ምርምር ባለሙያዎች የፕሮጀክቶች እና የኮምፒዩተር መሳሪያዎች ጋር የተሻለ ተስማሚ ስሪት መውሰድ ይችላሉ. . ተጽዕኖ ተጽዕኖ ተጽዕኖ ተጽዕኖ ተጽዕኖ ተጽዕኖ እነዚህን መረጃዎች የእርስዎን ፈተናዎች እና ምርምር ውስጥ ተስማሚ ይሆናል! ያግኙን Thanks!