paint-brush
সোলোস: অডিও-ভিজ্যুয়াল সঙ্গীত বিশ্লেষণের জন্য একটি ডেটাসেট - ডেটাসেট দ্বারা@kinetograph
180 পড়া

সোলোস: অডিও-ভিজ্যুয়াল সঙ্গীত বিশ্লেষণের জন্য একটি ডেটাসেট - ডেটাসেট

দ্বারা Kinetograph: The Video Editing Technology Publication
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture

Kinetograph: The Video Editing Technology Publication

@kinetograph

The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover...

2 মিনিট read2024/06/08
Read on Terminal Reader
Read this story in a terminal
Print this story

অতিদীর্ঘ; পড়তে

এই গবেষণাপত্রে, গবেষকরা বিভিন্ন অডিও-ভিজ্যুয়াল টাস্কগুলিতে মেশিন লার্নিং মডেলের প্রশিক্ষণের জন্য সোলোস, একক বাদ্যযন্ত্রের পারফরম্যান্সের একটি পরিষ্কার ডেটাসেট উপস্থাপন করেছেন।
featured image - সোলোস: অডিও-ভিজ্যুয়াল সঙ্গীত বিশ্লেষণের জন্য একটি ডেটাসেট - ডেটাসেট
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
Kinetograph: The Video Editing Technology Publication

Kinetograph: The Video Editing Technology Publication

@kinetograph

The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover cutting edge tech for video editing.

0-item

STORY’S CREDIBILITY

Academic Research Paper

Academic Research Paper

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

লেখক:

(1) Juan F. Montesinos, ডিপার্টমেন্ট অফ ইনফরমেশন অ্যান্ড কমিউনিকেশনস টেকনোলজিস ইউনিভার্সিটি পম্পেউ ফ্যাব্রা, বার্সেলোনা, স্পেন {juanfelipe.montesinos@upf.edu};

(2) ওলগা স্লিজোভস্কায়া, তথ্য ও যোগাযোগ প্রযুক্তি বিভাগ ইউনিভার্সিটি পম্পেউ ফ্যাব্রা, বার্সেলোনা, স্পেন {olga.slizovskaia@upf.edu};

(3) Gloria Haro, তথ্য ও যোগাযোগ প্রযুক্তি বিভাগ ইউনিভার্সিটি Pompeu Fabra, বার্সেলোনা, স্পেন {gloria.haro@upf.edu}।

লিঙ্কের টেবিল

III. ডেটাসেট

Solos[1] কে URMP [1] ডেটাসেটের মতো একই শ্রেণীবদ্ধ করার জন্য ডিজাইন করা হয়েছে, যাতে URMP একটি বাস্তব-বিশ্বের দৃশ্যে টেস্টিং ডেটাসেট হিসেবে ব্যবহার করা যায়। এইভাবে আমরা পরীক্ষায় মিশ্রণ-এবং-পৃথক ব্যবহার এড়িয়ে উৎস পৃথকীকরণ অ্যালগরিদমের কর্মক্ষমতা মূল্যায়নের একটি আদর্শ উপায় স্থাপন করার লক্ষ্য রাখি। চিত্র 1-এ দেখানো 13টি বিভাগের মধ্যে 755টি রেকর্ডিং বিতরণ করা হয়েছে সোলোস, প্রতি বিভাগে গড়ে 58টি রেকর্ডিং এবং গড় সময়কাল 5:16 মিনিট। এটি হাইলাইট করা আকর্ষণীয় যে, 13টি বিভাগের মধ্যে 8টির জন্য, একটি YouTube-সংগৃহীত ডেটাসেট হওয়া সত্ত্বেও রেজোলিউশনের মধ্যম হল HD। প্রতি-শ্রেণির পরিসংখ্যানগুলি সারণি I-তে পাওয়া যেতে পারে। এই রেকর্ডিংগুলি ইংরেজি, স্প্যানিশ, ফ্রেঞ্চ, ইতালীয়, চাইনিজ বা রুশের মতো বিভিন্ন ভাষায় একক ট্যাগ এবং অডিশন ব্যবহার করে ইউটিউবকে জিজ্ঞাসা করে সংগ্রহ করা হয়েছিল।


উ: ওপেনপোজ কঙ্কাল


সলোস কেবল রেকর্ডিংয়ের একটি সেট নয়। ভিডিও শনাক্তকারী ছাড়াও আমরা আরও প্রদান করি: i) প্রতিটি রেকর্ডিংয়ের প্রতিটি ফ্রেমে ওপেনপোজ [৩৩] দ্বারা অনুমান করা শরীর এবং হাতের কঙ্কাল এবং ii) দরকারী অংশগুলি নির্দেশ করে টাইমস্ট্যাম্প৷ ওপেনপোজ এমন একটি সিস্টেম যা শরীরের কঙ্কাল এবং হাতের কঙ্কালের পূর্বাভাস দিতে সক্ষম


সোলোস ডেটাসেটের টেবিল পরিসংখ্যান

সোলোস ডেটাসেটের টেবিল পরিসংখ্যান


দুটি ভিন্ন নিউরাল নেটওয়ার্ক ব্যবহার করা। এটি করার জন্য, তারা বিশ্বাসের একটি আত্মবিশ্বাসের মানচিত্র ভবিষ্যদ্বাণী করে যে একটি নির্দিষ্ট শরীরের অংশ যে কোনো নির্দিষ্ট পিক্সেলের পাশাপাশি অংশ সম্বন্ধীয় ক্ষেত্রগুলিতে অবস্থিত হতে পারে যা শরীরের বিভিন্ন অংশের মধ্যে সংযোগের মাত্রাকে এনকোড করে। অবশেষে, এটি লোভী অনুমানের মাধ্যমে 2D কঙ্কাল এবং প্রতি-জয়েন্ট আত্মবিশ্বাসের পূর্বাভাস দেয়। অনুশীলনে, শরীরের কঙ্কাল একটি প্রথম নেটওয়ার্কের সাথে অনুমান করা হয়। তারপরে, শরীরের কঙ্কালের কব্জির অবস্থান উভয় হাতের অবস্থান অনুমান করতে ব্যবহৃত হয়। একটি দ্বিতীয় নিউরাল নেটওয়ার্ক স্বাধীনভাবে প্রতিটি হাতের কঙ্কাল পায়। মনে রাখবেন যে যেহেতু প্রতিটি শরীরের অংশ স্বাধীনভাবে অনুমান করা হয়, ওপেনপোজ খুঁজে পেতে অঙ্গ সম্পর্কে কোন অনুমান করে না। এটি শুধুমাত্র আত্মবিশ্বাসের মানচিত্র এবং অংশ সম্বন্ধীয় ক্ষেত্র প্রদত্ত সম্ভাব্য কঙ্কাল গণনা করে। পুরো প্রক্রিয়াটি ফ্রেম অনুযায়ী সঞ্চালিত হয়। এটি ফ্রেমের মধ্যে একটি ছোট ঝাঁকুনি এবং ভুল ধারণার দিকে পরিচালিত করে।


B. টাইমস্ট্যাম্প অনুমান এবং কঙ্কাল পরিমার্জন


image


ওপেনপোজ মানচিত্রগুলি স্থানাঙ্কের উত্সের জয়েন্টগুলিকে ভুলভাবে অনুমান করেছে৷ আমরা পরীক্ষামূলকভাবে দেখেছি যে জয়েন্টের অবস্থানে এত বড় লাফ শব্দ করে। ইন্টারপোলেটেড স্থানাঙ্ক ব্যবহার করে এই সমস্যার সমাধান করতে সাহায্য করে।


এই কাগজটি CC BY-NC-SA 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ


[১] ডেটাসেট https://juanfmontesinos.github.io/Solos/ এ উপলব্ধ

L O A D I N G
. . . comments & more!

About Author

Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
Kinetograph: The Video Editing Technology Publication@kinetograph
The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover cutting edge tech for video editing.

আসে ট্যাগ

এই নিবন্ধটি উপস্থাপন করা হয়েছে...

Read on Terminal Reader
Read this story in a terminal
 Terminal
Read this story w/o Javascript
Read this story w/o Javascript
 Lite
X REMOVE AD