paint-brush
একক: অডিও-ভিজ্যুয়াল সঙ্গীত বিশ্লেষণের জন্য একটি ডেটাসেট - সম্পর্কিত কাজ দ্বারা@kinetograph
155 পড়া

একক: অডিও-ভিজ্যুয়াল সঙ্গীত বিশ্লেষণের জন্য একটি ডেটাসেট - সম্পর্কিত কাজ

দ্বারা Kinetograph: The Video Editing Technology Publication
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture

Kinetograph: The Video Editing Technology Publication

@kinetograph

The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover...

3 মিনিট read2024/06/08
Read on Terminal Reader
Read this story in a terminal
Print this story

অতিদীর্ঘ; পড়তে

এই গবেষণাপত্রে, গবেষকরা বিভিন্ন অডিও-ভিজ্যুয়াল টাস্কগুলিতে মেশিন লার্নিং মডেলের প্রশিক্ষণের জন্য সোলোস, একক বাদ্যযন্ত্রের পারফরম্যান্সের একটি পরিষ্কার ডেটাসেট উপস্থাপন করেছেন।
featured image - একক: অডিও-ভিজ্যুয়াল সঙ্গীত বিশ্লেষণের জন্য একটি ডেটাসেট - সম্পর্কিত কাজ
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
Kinetograph: The Video Editing Technology Publication

Kinetograph: The Video Editing Technology Publication

@kinetograph

The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover cutting edge tech for video editing.

0-item

STORY’S CREDIBILITY

Academic Research Paper

Academic Research Paper

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

লেখক:

(1) Juan F. Montesinos, ডিপার্টমেন্ট অফ ইনফরমেশন অ্যান্ড কমিউনিকেশনস টেকনোলজিস ইউনিভার্সিটি পম্পেউ ফ্যাব্রা, বার্সেলোনা, স্পেন {juanfelipe.montesinos@upf.edu};

(2) ওলগা স্লিজোভস্কায়া, তথ্য ও যোগাযোগ প্রযুক্তি বিভাগ ইউনিভার্সিটি পম্পেউ ফ্যাব্রা, বার্সেলোনা, স্পেন {olga.slizovskaia@upf.edu};

(3) Gloria Haro, তথ্য ও যোগাযোগ প্রযুক্তি বিভাগ ইউনিভার্সিটি Pompeu Fabra, বার্সেলোনা, স্পেন {gloria.haro@upf.edu}।

লিঙ্কের টেবিল

২. সম্পর্কিত কাজ

ইউনিভার্সিটি অফ রচেস্টার মাল্টি-মোডাল মিউজিক পারফরম্যান্স ডেটাসেট (ইউআরএমপি) [১] হল একটি ডেটাসেট যেখানে শাস্ত্রীয় সঙ্গীতের 44টি মাল্টি-ইনস্ট্রুমেন্ট ভিডিও রেকর্ডিং রয়েছে। গ্রাউন্ড-ট্রুথ স্বতন্ত্র ট্র্যাক রাখার জন্য একটি অংশে উপস্থিত প্রতিটি যন্ত্র আলাদাভাবে রেকর্ড করা হয়েছিল, ভিডিও এবং উচ্চ-মানের অডিও একটি স্বতন্ত্র মাইক্রোফোন সহ। যদিও আলাদাভাবে বাজানো হয়, বিভিন্ন বাদকদের জন্য সাধারণ সময় সেট করার জন্য পিয়ানোবাদক বাজানোর সাথে একটি কন্ডাক্টিং ভিডিও ব্যবহার করে যন্ত্রগুলিকে সমন্বয় করা হয়েছিল। সিঙ্ক্রোনাইজেশনের পরে, পৃথক ভিডিওগুলির অডিও মাইক্রোফোনের উচ্চ-মানের অডিও দ্বারা প্রতিস্থাপিত হয়েছিল এবং তারপর মিশ্রণটি তৈরি করতে বিভিন্ন রেকর্ডিং একত্রিত করা হয়েছিল: অডিও মিশ্রণ এবং ভিজ্যুয়াল সামগ্রী তৈরি করতে পৃথক উচ্চ-মানের অডিও রেকর্ডিংগুলি যুক্ত করা হয়েছিল। একটি সাধারণ পটভূমি সহ একটি একক ভিডিওতে কম্পোজ করা হয়েছিল যেখানে সমস্ত খেলোয়াড়কে বাম থেকে ডানে একই স্তরে সাজানো হয়েছিল৷ প্রতিটি অংশের জন্য, ডেটাসেটটি MIDI ফর্ম্যাটে মিউজিক্যাল স্কোর, উচ্চ-মানের স্বতন্ত্র যন্ত্রের অডিও রেকর্ডিং এবং একত্রিত টুকরোগুলির ভিডিও প্রদান করে। চিত্র 1-এ দেখানো ডেটাসেটে উপস্থিত যন্ত্রগুলি হল চেম্বার অর্কেস্ট্রার সাধারণ যন্ত্র৷ এর সমস্ত ভাল বৈশিষ্ট্য থাকা সত্ত্বেও, এটি একটি ছোট ডেটাসেট এবং এইভাবে গভীর শিক্ষার আর্কিটেকচার প্রশিক্ষণের জন্য উপযুক্ত নয়।


বাদ্যযন্ত্রের পারফরম্যান্সের অডিও-ভিজ্যুয়াল রেকর্ডিংয়ের আরও দুটি ডেটাসেট সম্প্রতি উপস্থাপন করা হয়েছে: মিউজিক [২৩] এবং মিউজিকইএস [৩১]। সঙ্গীতে 11টি বিভাগে একক গানের 536টি রেকর্ডিং এবং 149টি ডুয়েটের ভিডিও রয়েছে: অ্যাকর্ডিয়ন, অ্যাকোস্টিক গিটার, সেলো, ক্লারিনেট, এরহু, বাঁশি, স্যাক্সোফোন, ট্রাম্পেট, টুবা, বেহালা এবং জাইলোফোন। এই ডেটাসেটটি ইউটিউবকে জিজ্ঞাসা করে সংগ্রহ করা হয়েছিল৷ মিউজিকইএস [৩১] হল মিউজিকের একটি সম্প্রসারণ যা তার মূল আকারের প্রায় তিনগুণে প্রায় 1475টি রেকর্ডিং সহ কিন্তু এর পরিবর্তে 9টি বিভাগে ছড়িয়ে পড়ে: অ্যাকর্ডিয়ন, গিটার, সেলো, বাঁশি, স্যাক্সোফোন, ট্রাম্পেট, টিউবা, বেহালা এবং জাইলোফোন। মিউজিক এবং সোলোসে 7টি সাধারণ বিভাগ রয়েছে: বেহালা, সেলো, বাঁশি, ক্লারিনেট, স্যাক্সোফোন, ট্রাম্পেট এবং টুবা। MusicES এবং Solos-এর মধ্যে সাধারণ বিভাগ হল 6টি (ক্লারিনেট ছাড়া আগেরগুলি)। একক এবং সঙ্গীত পরিপূরক। উভয়ের মধ্যে মাত্র 5% এর একটি ছোট ছেদ রয়েছে, যার অর্থ উভয় ডেটাসেটকে একটি বড় রূপে একত্রিত করা যেতে পারে।


আমরা সাহিত্যে বেশ কিছু উদাহরণ খুঁজে পেতে পারি যা অডিও-ভিজ্যুয়াল ডেটাসেটের উপযোগিতা দেখায়। দ্য সাউন্ড অফ পিক্সেল [২৩] অডিও সোর্স সেপারেশন করে অডিও স্পেকট্রাল কম্পোনেন্ট তৈরি করে যা ভিডিও স্ট্রীম থেকে আসা ভিজ্যুয়াল ফিচার ব্যবহার করে আলাদা সোর্স পেতে আরও স্মার্টলি বেছে নেওয়া হয়। মিশ্রণে উপস্থিত বিভিন্ন ধ্বনিকে পুনরাবৃত্ত উপায়ে পৃথক করার জন্য এই ধারণাটি [20] সালে আরও প্রসারিত হয়েছিল। প্রতিটি পর্যায়ে, সিস্টেমটি মিশ্রণে অবশিষ্ট উৎস থেকে সবচেয়ে গুরুত্বপূর্ণ উৎসকে আলাদা করে। গতির শব্দ [১৯] অপটিক্যাল ফ্লো থেকে কন্ডিশন অডিও সোর্স সেপারেশনে প্রাপ্ত ঘন ট্র্যাজেক্টরি ব্যবহার করে, সক্ষম হচ্ছে


চিত্র 1. একক এবং URMP যন্ত্রের বিভাগ। ছবি [1] থেকে অভিযোজিত।

চিত্র 1. একক এবং URMP যন্ত্রের বিভাগ। ছবি [1] থেকে অভিযোজিত।


এমনকি একই-যন্ত্রের মিশ্রণকে আলাদা করতে। ভিজ্যুয়াল কন্ডিশনিং [১৮] বিভিন্ন যন্ত্রকে আলাদা করতেও ব্যবহার করা হয়; প্রশিক্ষণের সময়, একটি শ্রেণীবিন্যাস ক্ষতি বস্তুর সামঞ্জস্য প্রয়োগ করার জন্য আলাদা করা শব্দের উপর ব্যবহার করা হয় এবং একটি সহ-বিচ্ছেদ ক্ষতি আনুমানিক পৃথক শব্দগুলিকে পুনরায় একত্রিত হওয়ার পরে মূল মিশ্রণ তৈরি করতে বাধ্য করে। [17] সালে, লেখকরা একটি শক্তি-ভিত্তিক পদ্ধতি তৈরি করেছেন যা একটি অ্যাক্টিভেশন ম্যাট্রিক্সের সাথে একটি নন-নেগেটিভ ম্যাট্রিক্স ফ্যাক্টরাইজেশন শব্দটিকে ছোট করে যা প্রতি-উৎস গতির তথ্য ধারণকারী একটি ম্যাট্রিক্সের সাথে সংযুক্ত হতে বাধ্য হয়। এই মোশন ম্যাট্রিক্সে প্রতিটি প্লেয়ার বাউন্ডিং বাক্সে ক্লাস্টার করা গতির গতিপথের গড় মাত্রার বেগ থাকে।


সাম্প্রতিক কাজগুলি অডিওভিজ্যুয়াল কাজে কঙ্কালের ক্রমবর্ধমান ব্যবহার দেখায়। অডিও টু বডি ডাইনামিক্সে [২৯] লেখকরা দেখান যে পিয়ানো বা বেহালার মতো যন্ত্র বাজানো খেলোয়াড়দের গতিবিধি পুনরুত্পাদন করে কঙ্কালের পূর্বাভাস দেওয়া সম্ভব। কঙ্কালগুলি চেম্বার মিউজিক পারফরম্যান্সে অডিও-ভিজ্যুয়াল চিঠিপত্র যেমন বডি বা আঙুলের গতির সাথে নোট চালু বা পিচ ওঠানামা স্থাপনের জন্য দরকারী বলে প্রমাণিত হয়েছে [২১]। একটি সাম্প্রতিক কাজ [৩২] সাউন্ড অফ মোশনস [১৯] এর মতই উৎস বিচ্ছেদ সমস্যাকে মোকাবেলা করে কিন্তু কঙ্কালের তথ্য দ্বারা ঘন গতিপথ প্রতিস্থাপন করে।


এই কাগজটি CC BY-NC-SA 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ


L O A D I N G
. . . comments & more!

About Author

Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
Kinetograph: The Video Editing Technology Publication@kinetograph
The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover cutting edge tech for video editing.

আসে ট্যাগ

এই নিবন্ধটি উপস্থাপন করা হয়েছে...

Read on Terminal Reader
Read this story in a terminal
 Terminal
Read this story w/o Javascript
Read this story w/o Javascript
 Lite
X REMOVE AD