লেখক:
(1) Juan F. Montesinos, ডিপার্টমেন্ট অফ ইনফরমেশন অ্যান্ড কমিউনিকেশনস টেকনোলজিস ইউনিভার্সিটি পম্পেউ ফ্যাব্রা, বার্সেলোনা, স্পেন {[email protected]};
(2) ওলগা স্লিজোভস্কায়া, তথ্য ও যোগাযোগ প্রযুক্তি বিভাগ ইউনিভার্সিটি পম্পেউ ফ্যাব্রা, বার্সেলোনা, স্পেন {[email protected]};
(3) Gloria Haro, তথ্য ও যোগাযোগ প্রযুক্তি বিভাগ ইউনিভার্সিটি Pompeu Fabra, বার্সেলোনা, স্পেন {[email protected]}।
এই কাগজে, আমরা মিউজিক পারফরম্যান্স ভিডিওগুলির একটি নতুন ডেটাসেট উপস্থাপন করি যা অডিও-ভিজ্যুয়াল অন্ধ উত্স বিচ্ছেদ এবং স্থানীয়করণ, ক্রস-মডেল চিঠিপত্র, ক্রস-মডেল জেনারেশন এবং সাধারণভাবে, কোনো অডিও-ভিজ্যুয়াল স্ব-তত্ত্বাবধানে কাজ। ইউটিউব থেকে সংগৃহীত এই ভিডিওগুলিতে 13টি বিভিন্ন যন্ত্রের একক সঙ্গীত পরিবেশনা রয়েছে৷ পূর্বে প্রস্তাবিত অডিও-ভিজ্যুয়াল ডেটাসেটগুলির তুলনায়, সোলোস পরিষ্কার কারণ এটির রেকর্ডিংগুলির একটি বড় পরিমাণ হল অডিশন এবং ম্যানুয়ালি চেক করা রেকর্ডিং, যাতে ভিডিও পোস্ট-প্রসেসিংয়ে কোনও ব্যাকগ্রাউন্ড নয়েজ বা প্রভাব যুক্ত না হয় তা নিশ্চিত করে৷ এছাড়াও, এটি আমাদের সর্বোত্তম জ্ঞান অনুসারে, একমাত্র ডেটাসেট যা URMP [1] ডেটাসেটে উপস্থিত যন্ত্রগুলির সম্পূর্ণ সেট ধারণ করে, একটি উচ্চ-মানের ডেটাসেট 44টি মাল্টি-ইনস্ট্রুমেন্ট শাস্ত্রীয় সঙ্গীতের টুকরোগুলির অডিও-ভিজ্যুয়াল রেকর্ডিংয়ের ব্যক্তিগত সহ। অডিও ট্র্যাক URMP উৎস পৃথকীকরণের জন্য ব্যবহার করার উদ্দেশ্যে ছিল, এইভাবে, আমরা Solos-এ প্রশিক্ষিত দুটি ভিন্ন উৎস-বিচ্ছেদ মডেলের URMP ডেটাসেটের কর্মক্ষমতা মূল্যায়ন করি। ডেটাসেটটি সর্বজনীনভাবে https://juanfmontesinos.github.io/Solos/ এ উপলব্ধ
সূচক শর্তাবলী — অডিও-ভিজ্যুয়াল, ডেটাসেট, মাল্টিমোডাল, সঙ্গীত
মিউজিক ইনফরমেশন রিট্রিভাল (MIR) সমস্যা সমাধানের জন্য মাল্টিমোডাল কৌশলের প্রতি আগ্রহ বাড়ছে। মিউজিক পারফরম্যান্সের একটি অত্যন্ত মাল্টিমডাল বিষয়বস্তু রয়েছে এবং এর সাথে জড়িত বিভিন্ন পদ্ধতিগুলি অত্যন্ত পারস্পরিক সম্পর্কযুক্ত: প্লেয়ারের পারফরম্যান্সের গতির দ্বারা শব্দ নির্গত হয় এবং চেম্বার মিউজিক পারফরম্যান্সে স্কোরগুলি একটি অতিরিক্ত এনকোডিং গঠন করে যা সঙ্গীতের স্বয়ংক্রিয় বিশ্লেষণের জন্য ভালভাবে ব্যবহার করা যেতে পারে। 2]।
অন্যদিকে, দৃশ্যটি চাক্ষুষভাবে পরিদর্শন করে আমরা শব্দের উৎসের সংখ্যা, তাদের ধরন, স্থানিক-অস্থায়ী অবস্থান এবং গতি সম্পর্কে তথ্য বের করতে পারি, যা স্বাভাবিকভাবেই নির্গত শব্দের সাথে সম্পর্কিত। এছাড়াও, স্ব-তত্ত্বাবধানে কাজ করা সম্ভব যেখানে একটি পদ্ধতি অন্যটির তত্ত্বাবধান করে। এটি আরেকটি গবেষণা ক্ষেত্র, ক্রস-মোডাল চিঠিপত্র (সিএমসি) অন্তর্ভুক্ত করে। আমরা BSS এবং CMC উভয় সমস্যার জন্য অগ্রণী কাজ খুঁজে পেতে পারি। [১১], [১২] শব্দ স্থানীয়করণের জন্য অডিও-ভিজ্যুয়াল ডেটা এবং [১৩], [১৪], [১৫] বক্তৃতা পৃথকীকরণের জন্য ব্যবহার করুন। সঙ্গীতের প্রেক্ষাপটে, ভিজ্যুয়াল তথ্য উৎস বিচ্ছেদ [১৬], [১৭] এবং স্থানীয়করণ [২] উভয় ক্ষেত্রেই মডেল-ভিত্তিক পদ্ধতিগুলিকে সাহায্য করে বলে প্রমাণিত হয়েছে। গভীর শিক্ষার কৌশলের উন্নতির সাথে সাথে সাম্প্রতিক অনেক কাজ অডিও এবং ভিডিও উভয় বিষয়বস্তুকে কাজে লাগায়, সঙ্গীতের উৎস পৃথকীকরণ [18]–[20], উৎস সংঘ [21], স্থানীয়করণ [22] বা উভয়ই [23]। কিছু সিএমসি কাজগুলি সিঙ্ক্রোনাইজেশন থেকে উত্পন্ন বৈশিষ্ট্যগুলি অন্বেষণ করে [২৪], [২৫] এবং প্রমাণ করে যে এই বৈশিষ্ট্যগুলি উত্স পৃথকীকরণের জন্য পুনরায় ব্যবহারযোগ্য। এই কাজগুলি এমন নেটওয়ার্কগুলি ব্যবহার করে যেগুলি স্থানীয়করণের উদ্দেশ্যে সংযুক্ত/অ-সংশ্লিষ্ট অডিও-ভিজ্যুয়াল সংকেতগুলির জোড়া ব্যবহার করে স্ব-তত্ত্বাবধানে প্রশিক্ষিত হয়েছে [22] বা উত্স পৃথকীকরণের জন্য মিশ্রণ-এবং-বিচ্ছিন্ন পদ্ধতির [18]–[20] , [২৩]। গভীর শিক্ষার ফলে শাস্ত্রীয় সমস্যাগুলিকে ভিন্নভাবে সমাধান করা সম্ভব হওয়া সত্ত্বেও, এটি ক্রসমোডাল জেনারেশনের মতো নতুন গবেষণা ক্ষেত্র তৈরিতেও অবদান রেখেছে, যার মূল লক্ষ্য হল অডিও [২৬], [২৭] বা বিপরীত [২৮] থেকে ভিডিও তৈরি করা। মানব গতির সাথে সম্পর্কিত আরও সাম্প্রতিক কাজগুলি শরীরের অভ্যন্তরীণ উপস্থাপনা হিসাবে কঙ্কালকে ব্যবহার করে যা আরও ভিডিওতে রূপান্তরিত হতে পারে [২৯], [৩০] যা কঙ্কালের সম্ভাবনা দেখায়। এই কাগজের প্রধান অবদান হল সোলোস, একক সঙ্গীতের পারফরম্যান্স রেকর্ডিংয়ের একটি নতুন ডেটাসেট যা উপরে উল্লিখিত ক্ষেত্রগুলির যেকোনো একটির জন্য গভীর নিউরাল নেটওয়ার্ক প্রশিক্ষণের জন্য ব্যবহার করা যেতে পারে। [২৩] এবং এর বর্ধিত সংস্করণ [৩১]-এ উপস্থাপিত বাদ্যযন্ত্রের অনুরূপ ডেটাসেটের তুলনায়, আমাদের ডেটাসেটে ইউআরএমপি ডেটাসেটে উপস্থিত একই ধরনের চেম্বার অর্কেস্ট্রা যন্ত্র রয়েছে। সোলোস হল YouTube থেকে সংগ্রহ করা 755টি রিয়েলওয়ার্ল্ড রেকর্ডিংয়ের একটি ডেটাসেট যা উপরে উল্লিখিত ডেটাসেটে অনুপস্থিত বেশ কয়েকটি বৈশিষ্ট্য প্রদান করে: কঙ্কাল এবং উচ্চ মানের টাইমস্ট্যাম্প৷ উত্স স্থানীয়করণ সাধারণত পরোক্ষভাবে নেটওয়ার্ক দ্বারা শেখা হয়. এইভাবে, একটি ব্যবহারিক স্থানীয়করণ স্থল-সত্য প্রদান করা সোজা নয়। তবুও, নেটওয়ার্কগুলি প্রায়শই প্লেয়ারের হাতের দিকে নির্দেশ করে যেন তারা শব্দের উৎস। আমরা আশা করি হ্যান্ড স্থানীয়করণ অডিও-ভিজ্যুয়াল BSS উন্নত করতে অতিরিক্ত সংকেত প্রদান করতে সাহায্য করতে পারে বা উৎস গ্রাউন্ড-ট্রুথ স্থানীয়করণ হিসাবে ব্যবহার করা যেতে পারে। Solos ব্যবহার করার সুবিধাগুলি দেখানোর জন্য আমরা কিছু জনপ্রিয় BSS আর্কিটেকচার প্রশিক্ষিত করেছি এবং তাদের ফলাফলের তুলনা করেছি।
এই কাগজটি CC BY-NC-SA 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।