180 পড়া

সোলোস: অডিও-ভিজ্যুয়াল সঙ্গীত বিশ্লেষণের জন্য একটি ডেটাসেট - ডেটাসেট

দ্বারা Kinetograph: The Video Editing Technology Publication2 মিনিট read2024/06/08

অতিদীর্ঘ; পড়তে

এই গবেষণাপত্রে, গবেষকরা বিভিন্ন অডিও-ভিজ্যুয়াল টাস্কগুলিতে মেশিন লার্নিং মডেলের প্রশিক্ষণের জন্য সোলোস, একক বাদ্যযন্ত্রের পারফরম্যান্সের একটি পরিষ্কার ডেটাসেট উপস্থাপন করেছেন।

featured image - সোলোস: অডিও-ভিজ্যুয়াল সঙ্গীত বিশ্লেষণের জন্য একটি ডেটাসেট - ডেটাসেট

লেখক:

(1) Juan F. Montesinos, ডিপার্টমেন্ট অফ ইনফরমেশন অ্যান্ড কমিউনিকেশনস টেকনোলজিস ইউনিভার্সিটি পম্পেউ ফ্যাব্রা, বার্সেলোনা, স্পেন {juanfelipe.montesinos@upf.edu};

(2) ওলগা স্লিজোভস্কায়া, তথ্য ও যোগাযোগ প্রযুক্তি বিভাগ ইউনিভার্সিটি পম্পেউ ফ্যাব্রা, বার্সেলোনা, স্পেন {olga.slizovskaia@upf.edu};

(3) Gloria Haro, তথ্য ও যোগাযোগ প্রযুক্তি বিভাগ ইউনিভার্সিটি Pompeu Fabra, বার্সেলোনা, স্পেন {gloria.haro@upf.edu}।

লিঙ্কের টেবিল

III. ডেটাসেট

Solos[1] কে URMP [1] ডেটাসেটের মতো একই শ্রেণীবদ্ধ করার জন্য ডিজাইন করা হয়েছে, যাতে URMP একটি বাস্তব-বিশ্বের দৃশ্যে টেস্টিং ডেটাসেট হিসেবে ব্যবহার করা যায়। এইভাবে আমরা পরীক্ষায় মিশ্রণ-এবং-পৃথক ব্যবহার এড়িয়ে উৎস পৃথকীকরণ অ্যালগরিদমের কর্মক্ষমতা মূল্যায়নের একটি আদর্শ উপায় স্থাপন করার লক্ষ্য রাখি। চিত্র 1-এ দেখানো 13টি বিভাগের মধ্যে 755টি রেকর্ডিং বিতরণ করা হয়েছে সোলোস, প্রতি বিভাগে গড়ে 58টি রেকর্ডিং এবং গড় সময়কাল 5:16 মিনিট। এটি হাইলাইট করা আকর্ষণীয় যে, 13টি বিভাগের মধ্যে 8টির জন্য, একটি YouTube-সংগৃহীত ডেটাসেট হওয়া সত্ত্বেও রেজোলিউশনের মধ্যম হল HD। প্রতি-শ্রেণির পরিসংখ্যানগুলি সারণি I-তে পাওয়া যেতে পারে। এই রেকর্ডিংগুলি ইংরেজি, স্প্যানিশ, ফ্রেঞ্চ, ইতালীয়, চাইনিজ বা রুশের মতো বিভিন্ন ভাষায় একক ট্যাগ এবং অডিশন ব্যবহার করে ইউটিউবকে জিজ্ঞাসা করে সংগ্রহ করা হয়েছিল।

উ: ওপেনপোজ কঙ্কাল

সলোস কেবল রেকর্ডিংয়ের একটি সেট নয়। ভিডিও শনাক্তকারী ছাড়াও আমরা আরও প্রদান করি: i) প্রতিটি রেকর্ডিংয়ের প্রতিটি ফ্রেমে ওপেনপোজ [৩৩] দ্বারা অনুমান করা শরীর এবং হাতের কঙ্কাল এবং ii) দরকারী অংশগুলি নির্দেশ করে টাইমস্ট্যাম্প৷ ওপেনপোজ এমন একটি সিস্টেম যা শরীরের কঙ্কাল এবং হাতের কঙ্কালের পূর্বাভাস দিতে সক্ষম

সোলোস ডেটাসেটের টেবিল পরিসংখ্যান

দুটি ভিন্ন নিউরাল নেটওয়ার্ক ব্যবহার করা। এটি করার জন্য, তারা বিশ্বাসের একটি আত্মবিশ্বাসের মানচিত্র ভবিষ্যদ্বাণী করে যে একটি নির্দিষ্ট শরীরের অংশ যে কোনো নির্দিষ্ট পিক্সেলের পাশাপাশি অংশ সম্বন্ধীয় ক্ষেত্রগুলিতে অবস্থিত হতে পারে যা শরীরের বিভিন্ন অংশের মধ্যে সংযোগের মাত্রাকে এনকোড করে। অবশেষে, এটি লোভী অনুমানের মাধ্যমে 2D কঙ্কাল এবং প্রতি-জয়েন্ট আত্মবিশ্বাসের পূর্বাভাস দেয়। অনুশীলনে, শরীরের কঙ্কাল একটি প্রথম নেটওয়ার্কের সাথে অনুমান করা হয়। তারপরে, শরীরের কঙ্কালের কব্জির অবস্থান উভয় হাতের অবস্থান অনুমান করতে ব্যবহৃত হয়। একটি দ্বিতীয় নিউরাল নেটওয়ার্ক স্বাধীনভাবে প্রতিটি হাতের কঙ্কাল পায়। মনে রাখবেন যে যেহেতু প্রতিটি শরীরের অংশ স্বাধীনভাবে অনুমান করা হয়, ওপেনপোজ খুঁজে পেতে অঙ্গ সম্পর্কে কোন অনুমান করে না। এটি শুধুমাত্র আত্মবিশ্বাসের মানচিত্র এবং অংশ সম্বন্ধীয় ক্ষেত্র প্রদত্ত সম্ভাব্য কঙ্কাল গণনা করে। পুরো প্রক্রিয়াটি ফ্রেম অনুযায়ী সঞ্চালিত হয়। এটি ফ্রেমের মধ্যে একটি ছোট ঝাঁকুনি এবং ভুল ধারণার দিকে পরিচালিত করে।

B. টাইমস্ট্যাম্প অনুমান এবং কঙ্কাল পরিমার্জন

ওপেনপোজ মানচিত্রগুলি স্থানাঙ্কের উত্সের জয়েন্টগুলিকে ভুলভাবে অনুমান করেছে৷ আমরা পরীক্ষামূলকভাবে দেখেছি যে জয়েন্টের অবস্থানে এত বড় লাফ শব্দ করে। ইন্টারপোলেটেড স্থানাঙ্ক ব্যবহার করে এই সমস্যার সমাধান করতে সাহায্য করে।