paint-brush
সোলোস: অডিও-ভিজ্যুয়াল সঙ্গীত বিশ্লেষণের জন্য একটি ডেটাসেট - ডেটাসেটদ্বারা@kinetograph
171 পড়া

সোলোস: অডিও-ভিজ্যুয়াল সঙ্গীত বিশ্লেষণের জন্য একটি ডেটাসেট - ডেটাসেট

অতিদীর্ঘ; পড়তে

এই গবেষণাপত্রে, গবেষকরা বিভিন্ন অডিও-ভিজ্যুয়াল টাস্কগুলিতে মেশিন লার্নিং মডেলের প্রশিক্ষণের জন্য সোলোস, একক বাদ্যযন্ত্রের পারফরম্যান্সের একটি পরিষ্কার ডেটাসেট উপস্থাপন করেছেন।
featured image - সোলোস: অডিও-ভিজ্যুয়াল সঙ্গীত বিশ্লেষণের জন্য একটি ডেটাসেট - ডেটাসেট
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

লেখক:

(1) Juan F. Montesinos, ডিপার্টমেন্ট অফ ইনফরমেশন অ্যান্ড কমিউনিকেশনস টেকনোলজিস ইউনিভার্সিটি পম্পেউ ফ্যাব্রা, বার্সেলোনা, স্পেন {[email protected]};

(2) ওলগা স্লিজোভস্কায়া, তথ্য ও যোগাযোগ প্রযুক্তি বিভাগ ইউনিভার্সিটি পম্পেউ ফ্যাব্রা, বার্সেলোনা, স্পেন {[email protected]};

(3) Gloria Haro, তথ্য ও যোগাযোগ প্রযুক্তি বিভাগ ইউনিভার্সিটি Pompeu Fabra, বার্সেলোনা, স্পেন {[email protected]}।

লিঙ্কের টেবিল

III. ডেটাসেট

Solos[1] কে URMP [1] ডেটাসেটের মতো একই শ্রেণীবদ্ধ করার জন্য ডিজাইন করা হয়েছে, যাতে URMP একটি বাস্তব-বিশ্বের দৃশ্যে টেস্টিং ডেটাসেট হিসেবে ব্যবহার করা যায়। এইভাবে আমরা পরীক্ষায় মিশ্রণ-এবং-পৃথক ব্যবহার এড়িয়ে উৎস পৃথকীকরণ অ্যালগরিদমের কর্মক্ষমতা মূল্যায়নের একটি আদর্শ উপায় স্থাপন করার লক্ষ্য রাখি। চিত্র 1-এ দেখানো 13টি বিভাগের মধ্যে 755টি রেকর্ডিং বিতরণ করা হয়েছে সোলোস, প্রতি বিভাগে গড়ে 58টি রেকর্ডিং এবং গড় সময়কাল 5:16 মিনিট। এটি হাইলাইট করা আকর্ষণীয় যে, 13টি বিভাগের মধ্যে 8টির জন্য, একটি YouTube-সংগৃহীত ডেটাসেট হওয়া সত্ত্বেও রেজোলিউশনের মধ্যম হল HD। প্রতি-শ্রেণির পরিসংখ্যানগুলি সারণি I-তে পাওয়া যেতে পারে। এই রেকর্ডিংগুলি ইংরেজি, স্প্যানিশ, ফ্রেঞ্চ, ইতালীয়, চাইনিজ বা রুশের মতো বিভিন্ন ভাষায় একক ট্যাগ এবং অডিশন ব্যবহার করে ইউটিউবকে জিজ্ঞাসা করে সংগ্রহ করা হয়েছিল।


উ: ওপেনপোজ কঙ্কাল


সলোস কেবল রেকর্ডিংয়ের একটি সেট নয়। ভিডিও শনাক্তকারী ছাড়াও আমরা আরও প্রদান করি: i) প্রতিটি রেকর্ডিংয়ের প্রতিটি ফ্রেমে ওপেনপোজ [৩৩] দ্বারা অনুমান করা শরীর এবং হাতের কঙ্কাল এবং ii) দরকারী অংশগুলি নির্দেশ করে টাইমস্ট্যাম্প৷ ওপেনপোজ এমন একটি সিস্টেম যা শরীরের কঙ্কাল এবং হাতের কঙ্কালের পূর্বাভাস দিতে সক্ষম


সোলোস ডেটাসেটের টেবিল পরিসংখ্যান


দুটি ভিন্ন নিউরাল নেটওয়ার্ক ব্যবহার করা। এটি করার জন্য, তারা বিশ্বাসের একটি আত্মবিশ্বাসের মানচিত্র ভবিষ্যদ্বাণী করে যে একটি নির্দিষ্ট শরীরের অংশ যে কোনো নির্দিষ্ট পিক্সেলের পাশাপাশি অংশ সম্বন্ধীয় ক্ষেত্রগুলিতে অবস্থিত হতে পারে যা শরীরের বিভিন্ন অংশের মধ্যে সংযোগের মাত্রাকে এনকোড করে। অবশেষে, এটি লোভী অনুমানের মাধ্যমে 2D কঙ্কাল এবং প্রতি-জয়েন্ট আত্মবিশ্বাসের পূর্বাভাস দেয়। অনুশীলনে, শরীরের কঙ্কাল একটি প্রথম নেটওয়ার্কের সাথে অনুমান করা হয়। তারপরে, শরীরের কঙ্কালের কব্জির অবস্থান উভয় হাতের অবস্থান অনুমান করতে ব্যবহৃত হয়। একটি দ্বিতীয় নিউরাল নেটওয়ার্ক স্বাধীনভাবে প্রতিটি হাতের কঙ্কাল পায়। মনে রাখবেন যে যেহেতু প্রতিটি শরীরের অংশ স্বাধীনভাবে অনুমান করা হয়, ওপেনপোজ খুঁজে পেতে অঙ্গ সম্পর্কে কোন অনুমান করে না। এটি শুধুমাত্র আত্মবিশ্বাসের মানচিত্র এবং অংশ সম্বন্ধীয় ক্ষেত্র প্রদত্ত সম্ভাব্য কঙ্কাল গণনা করে। পুরো প্রক্রিয়াটি ফ্রেম অনুযায়ী সঞ্চালিত হয়। এটি ফ্রেমের মধ্যে একটি ছোট ঝাঁকুনি এবং ভুল ধারণার দিকে পরিচালিত করে।


B. টাইমস্ট্যাম্প অনুমান এবং কঙ্কাল পরিমার্জন



ওপেনপোজ মানচিত্রগুলি স্থানাঙ্কের উত্সের জয়েন্টগুলিকে ভুলভাবে অনুমান করেছে৷ আমরা পরীক্ষামূলকভাবে দেখেছি যে জয়েন্টের অবস্থানে এত বড় লাফ শব্দ করে। ইন্টারপোলেটেড স্থানাঙ্ক ব্যবহার করে এই সমস্যার সমাধান করতে সাহায্য করে।


এই কাগজটি CC BY-NC-SA 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ


[১] ডেটাসেট https://juanfmontesinos.github.io/Solos/ এ উপলব্ধ