লেখক:  (1) Juan F. Montesinos, ডিপার্টমেন্ট অফ ইনফরমেশন অ্যান্ড কমিউনিকেশনস টেকনোলজিস ইউনিভার্সিটি পম্পেউ ফ্যাব্রা, বার্সেলোনা, স্পেন {juanfelipe.montesinos@upf.edu};  (2) ওলগা স্লিজোভস্কায়া, তথ্য ও যোগাযোগ প্রযুক্তি বিভাগ ইউনিভার্সিটি পম্পেউ ফ্যাব্রা, বার্সেলোনা, স্পেন {olga.slizovskaia@upf.edu};  (3) Gloria Haro, তথ্য ও যোগাযোগ প্রযুক্তি বিভাগ ইউনিভার্সিটি Pompeu Fabra, বার্সেলোনা, স্পেন {gloria.haro@upf.edu}।  লিঙ্কের টেবিল   বিমূর্ত এবং ভূমিকা   সম্পর্কিত কাজ   ডেটাসেট   পরীক্ষা-নিরীক্ষা   উপসংহার এবং রেফারেন্স  বিমূর্ত  এই কাগজে, আমরা মিউজিক পারফরম্যান্স ভিডিওগুলির একটি নতুন ডেটাসেট উপস্থাপন করি যা অডিও-ভিজ্যুয়াল অন্ধ উত্স বিচ্ছেদ এবং স্থানীয়করণ, ক্রস-মডেল চিঠিপত্র, ক্রস-মডেল জেনারেশন এবং সাধারণভাবে, কোনো অডিও-ভিজ্যুয়াল স্ব-তত্ত্বাবধানে কাজ। ইউটিউব থেকে সংগৃহীত এই ভিডিওগুলিতে 13টি বিভিন্ন যন্ত্রের একক সঙ্গীত পরিবেশনা রয়েছে৷ পূর্বে প্রস্তাবিত অডিও-ভিজ্যুয়াল ডেটাসেটগুলির তুলনায়, সোলোস পরিষ্কার কারণ এটির রেকর্ডিংগুলির একটি বড় পরিমাণ হল অডিশন এবং ম্যানুয়ালি চেক করা রেকর্ডিং, যাতে ভিডিও পোস্ট-প্রসেসিংয়ে কোনও ব্যাকগ্রাউন্ড নয়েজ বা প্রভাব যুক্ত না হয় তা নিশ্চিত করে৷ এছাড়াও, এটি আমাদের সর্বোত্তম জ্ঞান অনুসারে, একমাত্র ডেটাসেট যা URMP [1] ডেটাসেটে উপস্থিত যন্ত্রগুলির সম্পূর্ণ সেট ধারণ করে, একটি উচ্চ-মানের ডেটাসেট 44টি মাল্টি-ইনস্ট্রুমেন্ট শাস্ত্রীয় সঙ্গীতের টুকরোগুলির অডিও-ভিজ্যুয়াল রেকর্ডিংয়ের ব্যক্তিগত সহ। অডিও ট্র্যাক URMP উৎস পৃথকীকরণের জন্য ব্যবহার করার উদ্দেশ্যে ছিল, এইভাবে, আমরা Solos-এ প্রশিক্ষিত দুটি ভিন্ন উৎস-বিচ্ছেদ মডেলের URMP ডেটাসেটের কর্মক্ষমতা মূল্যায়ন করি। ডেটাসেটটি সর্বজনীনভাবে https://juanfmontesinos.github.io/Solos/ এ উপলব্ধ    — অডিও-ভিজ্যুয়াল, ডেটাসেট, মাল্টিমোডাল, সঙ্গীত সূচক শর্তাবলী  সূচনা  মিউজিক ইনফরমেশন রিট্রিভাল (MIR) সমস্যা সমাধানের জন্য মাল্টিমোডাল কৌশলের প্রতি আগ্রহ বাড়ছে। মিউজিক পারফরম্যান্সের একটি অত্যন্ত মাল্টিমডাল বিষয়বস্তু রয়েছে এবং এর সাথে জড়িত বিভিন্ন পদ্ধতিগুলি অত্যন্ত পারস্পরিক সম্পর্কযুক্ত: প্লেয়ারের পারফরম্যান্সের গতির দ্বারা শব্দ নির্গত হয় এবং চেম্বার মিউজিক পারফরম্যান্সে স্কোরগুলি একটি অতিরিক্ত এনকোডিং গঠন করে যা সঙ্গীতের স্বয়ংক্রিয় বিশ্লেষণের জন্য ভালভাবে ব্যবহার করা যেতে পারে। 2]।   অন্যদিকে, দৃশ্যটি চাক্ষুষভাবে পরিদর্শন করে আমরা শব্দের উৎসের সংখ্যা, তাদের ধরন, স্থানিক-অস্থায়ী অবস্থান এবং গতি সম্পর্কে তথ্য বের করতে পারি, যা স্বাভাবিকভাবেই নির্গত শব্দের সাথে সম্পর্কিত। এছাড়াও, স্ব-তত্ত্বাবধানে কাজ করা সম্ভব যেখানে একটি পদ্ধতি অন্যটির তত্ত্বাবধান করে। এটি আরেকটি গবেষণা ক্ষেত্র, ক্রস-মোডাল চিঠিপত্র (সিএমসি) অন্তর্ভুক্ত করে। আমরা BSS এবং CMC উভয় সমস্যার জন্য অগ্রণী কাজ খুঁজে পেতে পারি। [১১], [১২] শব্দ স্থানীয়করণের জন্য অডিও-ভিজ্যুয়াল ডেটা এবং [১৩], [১৪], [১৫] বক্তৃতা পৃথকীকরণের জন্য ব্যবহার করুন। সঙ্গীতের প্রেক্ষাপটে, ভিজ্যুয়াল তথ্য উৎস বিচ্ছেদ [১৬], [১৭] এবং স্থানীয়করণ [২] উভয় ক্ষেত্রেই মডেল-ভিত্তিক পদ্ধতিগুলিকে সাহায্য করে বলে প্রমাণিত হয়েছে। গভীর শিক্ষার কৌশলের উন্নতির সাথে সাথে সাম্প্রতিক অনেক কাজ অডিও এবং ভিডিও উভয় বিষয়বস্তুকে কাজে লাগায়, সঙ্গীতের উৎস পৃথকীকরণ [18]–[20], উৎস সংঘ [21], স্থানীয়করণ [22] বা উভয়ই [23]। কিছু সিএমসি কাজগুলি সিঙ্ক্রোনাইজেশন থেকে উত্পন্ন বৈশিষ্ট্যগুলি অন্বেষণ করে [২৪], [২৫] এবং প্রমাণ করে যে এই বৈশিষ্ট্যগুলি উত্স পৃথকীকরণের জন্য পুনরায় ব্যবহারযোগ্য। এই কাজগুলি এমন নেটওয়ার্কগুলি ব্যবহার করে যেগুলি স্থানীয়করণের উদ্দেশ্যে সংযুক্ত/অ-সংশ্লিষ্ট অডিও-ভিজ্যুয়াল সংকেতগুলির জোড়া ব্যবহার করে স্ব-তত্ত্বাবধানে প্রশিক্ষিত হয়েছে [22] বা উত্স পৃথকীকরণের জন্য মিশ্রণ-এবং-বিচ্ছিন্ন পদ্ধতির [18]–[20] , [২৩]। গভীর শিক্ষার ফলে শাস্ত্রীয় সমস্যাগুলিকে ভিন্নভাবে সমাধান করা সম্ভব হওয়া সত্ত্বেও, এটি ক্রসমোডাল জেনারেশনের মতো নতুন গবেষণা ক্ষেত্র তৈরিতেও অবদান রেখেছে, যার মূল লক্ষ্য হল অডিও [২৬], [২৭] বা বিপরীত [২৮] থেকে ভিডিও তৈরি করা। মানব গতির সাথে সম্পর্কিত আরও সাম্প্রতিক কাজগুলি শরীরের অভ্যন্তরীণ উপস্থাপনা হিসাবে কঙ্কালকে ব্যবহার করে যা আরও ভিডিওতে রূপান্তরিত হতে পারে [২৯], [৩০] যা কঙ্কালের সম্ভাবনা দেখায়। এই কাগজের প্রধান অবদান হল সোলোস, একক সঙ্গীতের পারফরম্যান্স রেকর্ডিংয়ের একটি নতুন ডেটাসেট যা উপরে উল্লিখিত ক্ষেত্রগুলির যেকোনো একটির জন্য গভীর নিউরাল নেটওয়ার্ক প্রশিক্ষণের জন্য ব্যবহার করা যেতে পারে। [২৩] এবং এর বর্ধিত সংস্করণ [৩১]-এ উপস্থাপিত বাদ্যযন্ত্রের অনুরূপ ডেটাসেটের তুলনায়, আমাদের ডেটাসেটে ইউআরএমপি ডেটাসেটে উপস্থিত একই ধরনের চেম্বার অর্কেস্ট্রা যন্ত্র রয়েছে। সোলোস হল YouTube থেকে সংগ্রহ করা 755টি রিয়েলওয়ার্ল্ড রেকর্ডিংয়ের একটি ডেটাসেট যা উপরে উল্লিখিত ডেটাসেটে অনুপস্থিত বেশ কয়েকটি বৈশিষ্ট্য প্রদান করে: কঙ্কাল এবং উচ্চ মানের টাইমস্ট্যাম্প৷ উত্স স্থানীয়করণ সাধারণত পরোক্ষভাবে নেটওয়ার্ক দ্বারা শেখা হয়. এইভাবে, একটি ব্যবহারিক স্থানীয়করণ স্থল-সত্য প্রদান করা সোজা নয়। তবুও, নেটওয়ার্কগুলি প্রায়শই প্লেয়ারের হাতের দিকে নির্দেশ করে যেন তারা শব্দের উৎস। আমরা আশা করি হ্যান্ড স্থানীয়করণ অডিও-ভিজ্যুয়াল BSS উন্নত করতে অতিরিক্ত সংকেত প্রদান করতে সাহায্য করতে পারে বা উৎস গ্রাউন্ড-ট্রুথ স্থানীয়করণ হিসাবে ব্যবহার করা যেতে পারে। Solos ব্যবহার করার সুবিধাগুলি দেখানোর জন্য আমরা কিছু জনপ্রিয় BSS আর্কিটেকচার প্রশিক্ষিত করেছি এবং তাদের ফলাফলের তুলনা করেছি।  এই কাগজটি CC BY-NC-SA 4.0 DEED লাইসেন্সের অধীনে   । arxiv-এ উপলব্ধ

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Kinetopgraph.TECH

Read My Stories

kinetograph

গল্পের মূল ভাষায় এই অডিও তৈরি!

একক: অডিও-ভিজ্যুয়াল সঙ্গীত বিশ্লেষণের জন্য একটি ডেটাসেট - বিমূর্ত এবং ভূমিকা

About Author

মন্তব্য

আসে ট্যাগ

এই নিবন্ধটি উপস্থাপন করা হয়েছে

Related Stories

ডিজিটাল যাযাবর শুনুন: থাইল্যান্ডের নতুন ডিটিভি ভিসা সম্পর্কে আপনার যা জানা দরকার

বিটকয়েন UTXO এর মডেল, একটি অনন্য ইকোসিস্টেমকে শক্তিশালী করে

ফ্লোকির ভালহাল্লা ভারতের শ্রীলঙ্কা সফরের সহযোগী স্পনসর হিসেবে যোগ দিয়েছেন

AI এর শক্তি উন্মুক্ত করা। কাটিং-এজ টেকনিকের একটি পদ্ধতিগত পর্যালোচনা: বিমূর্ত ও ভূমিকা

ডিজিটাল যাযাবর শুনুন: থাইল্যান্ডের নতুন ডিটিভি ভিসা সম্পর্কে আপনার যা জানা দরকার

বিটকয়েন UTXO এর মডেল, একটি অনন্য ইকোসিস্টেমকে শক্তিশালী করে

ফ্লোকির ভালহাল্লা ভারতের শ্রীলঙ্কা সফরের সহযোগী স্পনসর হিসেবে যোগ দিয়েছেন

AI এর শক্তি উন্মুক্ত করা। কাটিং-এজ টেকনিকের একটি পদ্ধতিগত পর্যালোচনা: বিমূর্ত ও ভূমিকা

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps