paint-brush
সোলোস: অডিও-ভিজ্যুয়াল সঙ্গীত বিশ্লেষণের জন্য একটি ডেটাসেট - ডেটাসেটদ্বারা@kinetograph
180 পড়া

সোলোস: অডিও-ভিজ্যুয়াল সঙ্গীত বিশ্লেষণের জন্য একটি ডেটাসেট - ডেটাসেট

অতিদীর্ঘ; পড়তে

এই গবেষণাপত্রে, গবেষকরা বিভিন্ন অডিও-ভিজ্যুয়াল টাস্কগুলিতে মেশিন লার্নিং মডেলের প্রশিক্ষণের জন্য সোলোস, একক বাদ্যযন্ত্রের পারফরম্যান্সের একটি পরিষ্কার ডেটাসেট উপস্থাপন করেছেন।
featured image - সোলোস: অডিও-ভিজ্যুয়াল সঙ্গীত বিশ্লেষণের জন্য একটি ডেটাসেট - ডেটাসেট
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

লেখক:

(1) Juan F. Montesinos, ডিপার্টমেন্ট অফ ইনফরমেশন অ্যান্ড কমিউনিকেশনস টেকনোলজিস ইউনিভার্সিটি পম্পেউ ফ্যাব্রা, বার্সেলোনা, স্পেন {juanfelipe.montesinos@upf.edu};

(2) ওলগা স্লিজোভস্কায়া, তথ্য ও যোগাযোগ প্রযুক্তি বিভাগ ইউনিভার্সিটি পম্পেউ ফ্যাব্রা, বার্সেলোনা, স্পেন {olga.slizovskaia@upf.edu};

(3) Gloria Haro, তথ্য ও যোগাযোগ প্রযুক্তি বিভাগ ইউনিভার্সিটি Pompeu Fabra, বার্সেলোনা, স্পেন {gloria.haro@upf.edu}।

লিঙ্কের টেবিল

III. ডেটাসেট

Solos[1] কে URMP [1] ডেটাসেটের মতো একই শ্রেণীবদ্ধ করার জন্য ডিজাইন করা হয়েছে, যাতে URMP একটি বাস্তব-বিশ্বের দৃশ্যে টেস্টিং ডেটাসেট হিসেবে ব্যবহার করা যায়। এইভাবে আমরা পরীক্ষায় মিশ্রণ-এবং-পৃথক ব্যবহার এড়িয়ে উৎস পৃথকীকরণ অ্যালগরিদমের কর্মক্ষমতা মূল্যায়নের একটি আদর্শ উপায় স্থাপন করার লক্ষ্য রাখি। চিত্র 1-এ দেখানো 13টি বিভাগের মধ্যে 755টি রেকর্ডিং বিতরণ করা হয়েছে সোলোস, প্রতি বিভাগে গড়ে 58টি রেকর্ডিং এবং গড় সময়কাল 5:16 মিনিট। এটি হাইলাইট করা আকর্ষণীয় যে, 13টি বিভাগের মধ্যে 8টির জন্য, একটি YouTube-সংগৃহীত ডেটাসেট হওয়া সত্ত্বেও রেজোলিউশনের মধ্যম হল HD। প্রতি-শ্রেণির পরিসংখ্যানগুলি সারণি I-তে পাওয়া যেতে পারে। এই রেকর্ডিংগুলি ইংরেজি, স্প্যানিশ, ফ্রেঞ্চ, ইতালীয়, চাইনিজ বা রুশের মতো বিভিন্ন ভাষায় একক ট্যাগ এবং অডিশন ব্যবহার করে ইউটিউবকে জিজ্ঞাসা করে সংগ্রহ করা হয়েছিল।


উ: ওপেনপোজ কঙ্কাল


সলোস কেবল রেকর্ডিংয়ের একটি সেট নয়। ভিডিও শনাক্তকারী ছাড়াও আমরা আরও প্রদান করি: i) প্রতিটি রেকর্ডিংয়ের প্রতিটি ফ্রেমে ওপেনপোজ [৩৩] দ্বারা অনুমান করা শরীর এবং হাতের কঙ্কাল এবং ii) দরকারী অংশগুলি নির্দেশ করে টাইমস্ট্যাম্প৷ ওপেনপোজ এমন একটি সিস্টেম যা শরীরের কঙ্কাল এবং হাতের কঙ্কালের পূর্বাভাস দিতে সক্ষম


সোলোস ডেটাসেটের টেবিল পরিসংখ্যান


দুটি ভিন্ন নিউরাল নেটওয়ার্ক ব্যবহার করা। এটি করার জন্য, তারা বিশ্বাসের একটি আত্মবিশ্বাসের মানচিত্র ভবিষ্যদ্বাণী করে যে একটি নির্দিষ্ট শরীরের অংশ যে কোনো নির্দিষ্ট পিক্সেলের পাশাপাশি অংশ সম্বন্ধীয় ক্ষেত্রগুলিতে অবস্থিত হতে পারে যা শরীরের বিভিন্ন অংশের মধ্যে সংযোগের মাত্রাকে এনকোড করে। অবশেষে, এটি লোভী অনুমানের মাধ্যমে 2D কঙ্কাল এবং প্রতি-জয়েন্ট আত্মবিশ্বাসের পূর্বাভাস দেয়। অনুশীলনে, শরীরের কঙ্কাল একটি প্রথম নেটওয়ার্কের সাথে অনুমান করা হয়। তারপরে, শরীরের কঙ্কালের কব্জির অবস্থান উভয় হাতের অবস্থান অনুমান করতে ব্যবহৃত হয়। একটি দ্বিতীয় নিউরাল নেটওয়ার্ক স্বাধীনভাবে প্রতিটি হাতের কঙ্কাল পায়। মনে রাখবেন যে যেহেতু প্রতিটি শরীরের অংশ স্বাধীনভাবে অনুমান করা হয়, ওপেনপোজ খুঁজে পেতে অঙ্গ সম্পর্কে কোন অনুমান করে না। এটি শুধুমাত্র আত্মবিশ্বাসের মানচিত্র এবং অংশ সম্বন্ধীয় ক্ষেত্র প্রদত্ত সম্ভাব্য কঙ্কাল গণনা করে। পুরো প্রক্রিয়াটি ফ্রেম অনুযায়ী সঞ্চালিত হয়। এটি ফ্রেমের মধ্যে একটি ছোট ঝাঁকুনি এবং ভুল ধারণার দিকে পরিচালিত করে।


B. টাইমস্ট্যাম্প অনুমান এবং কঙ্কাল পরিমার্জন



ওপেনপোজ মানচিত্রগুলি স্থানাঙ্কের উত্সের জয়েন্টগুলিকে ভুলভাবে অনুমান করেছে৷ আমরা পরীক্ষামূলকভাবে দেখেছি যে জয়েন্টের অবস্থানে এত বড় লাফ শব্দ করে। ইন্টারপোলেটেড স্থানাঙ্ক ব্যবহার করে এই সমস্যার সমাধান করতে সাহায্য করে।


এই কাগজটি CC BY-NC-SA 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ


[১] ডেটাসেট https://juanfmontesinos.github.io/Solos/ এ উপলব্ধ