paint-brush
একক: অডিও-ভিজ্যুয়াল সঙ্গীত বিশ্লেষণের জন্য একটি ডেটাসেট - পরীক্ষা-নিরীক্ষাদ্বারা@kinetograph
165 পড়া

একক: অডিও-ভিজ্যুয়াল সঙ্গীত বিশ্লেষণের জন্য একটি ডেটাসেট - পরীক্ষা-নিরীক্ষা

অতিদীর্ঘ; পড়তে

এই গবেষণাপত্রে, গবেষকরা বিভিন্ন অডিও-ভিজ্যুয়াল টাস্কগুলিতে মেশিন লার্নিং মডেলের প্রশিক্ষণের জন্য সোলোস, একক বাদ্যযন্ত্রের পারফরম্যান্সের একটি পরিষ্কার ডেটাসেট উপস্থাপন করেছেন।
featured image - একক: অডিও-ভিজ্যুয়াল সঙ্গীত বিশ্লেষণের জন্য একটি ডেটাসেট - পরীক্ষা-নিরীক্ষা
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

লেখক:

(1) Juan F. Montesinos, ডিপার্টমেন্ট অফ ইনফরমেশন অ্যান্ড কমিউনিকেশনস টেকনোলজিস ইউনিভার্সিটি পম্পেউ ফ্যাব্রা, বার্সেলোনা, স্পেন {[email protected]};

(2) ওলগা স্লিজোভস্কায়া, তথ্য ও যোগাযোগ প্রযুক্তি বিভাগ ইউনিভার্সিটি পম্পেউ ফ্যাব্রা, বার্সেলোনা, স্পেন {[email protected]};

(3) Gloria Haro, তথ্য ও যোগাযোগ প্রযুক্তি বিভাগ ইউনিভার্সিটি Pompeu Fabra, বার্সেলোনা, স্পেন {[email protected]}।

লিঙ্কের টেবিল

IV পরীক্ষা

Solos এর উপযুক্ততা দেখানোর জন্য, আমরা ব্লাইন্ড সোর্স সেপারেশন সমস্যায় ফোকাস করেছি এবং নতুন ডেটাসেটে দ্য সাউন্ড অফ পিক্সেল (SoP) [২৩] এবং মাল্টি-হেড ইউ-নেট (MHUNet) [৩৪] মডেলকে প্রশিক্ষণ দিয়েছি। . আমরা চারটি পরীক্ষা চালিয়েছি: i) আমরা লেখকদের দ্বারা প্রদত্ত এসওপি প্রাক-প্রশিক্ষিত মডেলের মূল্যায়ন করেছি; ii) আমরা স্ক্র্যাচ থেকে এসওপি প্রশিক্ষিত করেছি; iii) আমরা মিউজিকের প্রাক-প্রশিক্ষিত মডেলের ওজন থেকে শুরু করে Solos-এ সূক্ষ্ম-টিউনড এসওপি করেছি এবং iv) আমরা মাল্টি-হেড ইউ-নেটকে স্ক্র্যাচ থেকে প্রশিক্ষণ দিয়েছি। MHU-Net-কে একটি পাঠ্যক্রম শেখার পদ্ধতি অনুসরণ করে দুই থেকে সাতটি উৎসের সংখ্যার সাথে মিশ্রণগুলিকে আলাদা করতে প্রশিক্ষণ দেওয়া হয়েছে কারণ এটি ফলাফলের উন্নতি ঘটায়। [২৩] এ বর্ণিত সর্বোত্তম কৌশল অনুসারে এসওপি প্রশিক্ষিত হয়েছে।


মূল্যায়ন করা হয় ইউআরএমপি ডেটাসেটে [১] তাদের দেওয়া বাস্তব মিশ্রণ ব্যবহার করে। URMP ট্র্যাকগুলি ক্রমানুসারে 6s-সময়ের সেগমেন্টে বিভক্ত। সমস্ত ফলিত বিভাজন থেকে মেট্রিক্স পাওয়া যায়।


উ: স্থাপত্য এবং প্রশিক্ষণের বিবরণ


আমরা দ্য সাউন্ড অফ পিক্সেলকে বেসলাইন হিসাবে বেছে নিয়েছি কারণ এর ওজন সর্বজনীনভাবে উপলব্ধ এবং নেটওয়ার্কটি সরাসরি-আগামী উপায়ে প্রশিক্ষিত। SoP তিনটি প্রধান সাবনেটওয়ার্কের সমন্বয়ে গঠিত: একটি বিস্তৃত ResNet [35] ভিডিও-বিশ্লেষণ নেটওয়ার্ক হিসাবে, একটি U-Net [36] অডিও-প্রসেসিং নেটওয়ার্ক এবং একটি অডিও সিন্থেসাইজার নেটওয়ার্ক। আমরা এর ফলাফলগুলি একটি মাল্টি-হেড ইউ-নেট [34] এর সাথে তুলনা করি।


U-Net [৩৭] হল একটি এনকোডার-ডিকোডার আর্কিটেকচার যার মধ্যে সংযোগগুলি এড়িয়ে যায়। সংযোগ এড়িয়ে যান মূল স্থানিক কাঠামো পুনরুদ্ধার করতে সাহায্য করে। MHU-Net হল একটি ধাপ এগিয়ে কারণ এটি যতটা সম্ভব ডিকোডার নিয়ে গঠিত। প্রতিটি ডিকোডার একটি একক উত্সে বিশেষায়িত, এইভাবে কর্মক্ষমতা উন্নত করে।


পিক্সেলের সাউন্ড [২৩] বায়োমেডিকাল ইমেজিংয়ের জন্য প্রস্তাবিত মূল ইউনেট আর্কিটেকচারকে অনুসরণ করে না, তবে [৩৬] এ বর্ণিত ইউনেট, যেটি গানের কণ্ঠস্বর পৃথক করার জন্য সুর করা হয়েছিল। সর্বাধিক-পুলিং অনুসরণ করে প্রতি ব্লকে দুটি কনভলিউশন থাকার পরিবর্তে, তারা এর সাথে একটি একক কনভোলিউশন ব্যবহার করে


চিত্র 2. বিবেচিত স্থাপত্য। বাম, পিক্সেলের শব্দ: নেটওয়ার্কটি একটি মিশ্রণ স্পেকট্রোগ্রাম ইনপুট হিসাবে নেয় এবং পছন্দসই উত্সের ভিজ্যুয়াল বৈশিষ্ট্য ভেক্টর দিয়ে একটি বাইনারি মাস্ক প্রদান করে। ডান, মাল্টি-হেড ইউ-নেট: এটি একটি মিশ্রণ স্পেকট্রোগ্রাম ইনপুট হিসাবে নেয় এবং 13টি অনুপাত মাস্ক প্রদান করে, প্রতি ডিকোডারে একটি।


একটি বড় কার্নেল এবং striding. মূল কাজটি শেখার যোগ্য প্যারামিটার সহ একটি কেন্দ্রীয় ব্লকের প্রস্তাব করে যেখানে কেন্দ্রীয় ব্লকটি SoP-তে একটি স্থির সুপ্ত স্থান। U-Net ব্যাপকভাবে বিভিন্ন স্থাপত্যের মেরুদণ্ড হিসাবে ব্যবহৃত হয়েছে যেমন ইউএস ইমেজ জেনারেশন [৩৮], শব্দ দমন এবং সুপার-রেজোলিউশন [৩৯], ইমেজ থেকে ইমেজ অনুবাদ [৪০], ইমেজ সেগমেন্টেশন [৩৭] বা অডিও উত্স বিচ্ছেদ [৩৬]। SoP U-Net-এ যথাক্রমে 32, 64, 128, 256, 512, 512 এবং 512 চ্যানেল (MHU-Net-এর জন্য 6 ব্লক) সহ 7 টি ব্লক রয়েছে। সুপ্ত স্থানটিকে এনকোডারের শেষ আউটপুট হিসাবে বিবেচনা করা যেতে পারে। ডাইলেটেড রেসনেট হল একটি ResNet-এর মতো আর্কিটেকচার যা স্থানিক রেজোলিউশন বাড়ানোর সময় গ্রহণযোগ্য ক্ষেত্রকে ধরে রাখতে প্রসারিত কনভোলিউশন ব্যবহার করে। U-Net-এর আউটপুট হল 32টি বর্ণালী উপাদান (চ্যানেল) এর একটি সেট যা ইনপুট স্পেকট্রোগ্রামের তুলনায় একই আকারের, SoP এর ক্ষেত্রে এবং MHU-Net-এর ক্ষেত্রে প্রতি ডিকোডারে একটি একক উৎস। একটি প্রতিনিধি ফ্রেম দেওয়া, ভিজ্যুয়াল বৈশিষ্ট্যগুলি ডাইলেটেড ResNet ব্যবহার করে প্রাপ্ত করা হয়। এই চাক্ষুষ বৈশিষ্ট্যগুলি 32টি উপাদানের ভেক্টর ছাড়া কিছুই নয় (যা ইউনেটের আউটপুট চ্যানেলের সংখ্যার সাথে মিলে যায়) যা সঠিক বর্ণালী উপাদান নির্বাচন করতে ব্যবহৃত হয়। এই নির্বাচনটি অডিও বিশ্লেষণ নেটওয়ার্ক দ্বারা সঞ্চালিত হয় যা 32টি শেখার যোগ্য প্যারামিটার, αk, প্লাস একটি পক্ষপাত, β নিয়ে গঠিত। এই অপারেশনটি গাণিতিকভাবে নিম্নরূপ বর্ণনা করা যেতে পারে:



যেখানে Sk(t, f) হল k-th পূর্বাভাসিত বর্ণালী উপাদান সময়-ফ্রিকোয়েন্সি বিন (t, f)।


চিত্র 2 SoP কনফিগারেশন চিত্রিত করে। এটি হাইলাইট করা আকর্ষণীয় যে বর্ণালী উপাদানগুলি নির্বাচন করার জন্য ভিজ্যুয়াল নেটওয়ার্ক তৈরি করা এটিকে পরোক্ষভাবে যন্ত্র স্থানীয়করণ শিখতে বাধ্য করে, যা সক্রিয়করণ মানচিত্রের মাধ্যমে অনুমান করা যেতে পারে।




এসওপি এবং এমএইচইউ-নেট উভয়ের জন্য গ্রাউন্ড-ট্রুথ মাস্ক গণনা Eq এ বর্ণনা করা হয়েছে। (2) এবং Eq. (3), সে. IV-C.


B. ডেটা প্রাক-প্রক্রিয়াকরণ


উপরে উল্লিখিত আর্কিটেকচারগুলিকে প্রশিক্ষণ দেওয়ার জন্য, অডিওকে 11025 Hz এবং 16 বিটে পুনরায় নমুনা দেওয়া হয়। নেটওয়ার্কের মধ্যে খাওয়ানো নমুনা 6s সময়কাল হয়. তরঙ্গরূপের সময়-ফ্রিকোয়েন্সি উপস্থাপনা পেতে আমরা শর্ট-টাইম ফুরিয়ার ট্রান্সফর্ম (STFT) ব্যবহার করি। [২৩] অনুসরণ করে, STFT দৈর্ঘ্য 1022 এবং হপ দৈর্ঘ্য 256 এর হ্যানিং উইন্ডো ব্যবহার করে গণনা করা হয় যাতে আমরা একটি 6s নমুনার জন্য 512×256 আকারের একটি স্পেকট্রোগ্রাম পেতে পারি। পরবর্তীতে, আমরা ফ্রিকোয়েন্সি অক্ষে একটি লগ রি-স্কেল প্রয়োগ করি যা নিম্ন ফ্রিকোয়েন্সি প্রসারিত করে এবং উচ্চতরগুলিকে সংকুচিত করে। সবশেষে, আমরা প্রতিটি স্পেকট্রোগ্রামের ন্যূনতম মানকে dB-তে রূপান্তর করি এবং -1 এবং 1-এর মধ্যে স্বাভাবিক করি।


C. স্থল-সত্যের মুখোশ


গ্রাউন্ড-ট্রুথ মাস্ক কম্পিউটেশন প্রবর্তনের আগে আমরা কিছু বিবেচ্য বিষয় উল্লেখ করতে চাই। স্ট্যান্ডার্ড ফ্লোটিংপয়েন্ট অডিও ফরম্যাট -1 এবং 1-এর মধ্যে আবদ্ধ করার জন্য একটি তরঙ্গরূপ আরোপ করে। কৃত্রিম মিশ্রণ তৈরির সময় তরঙ্গরূপগুলি এই সীমার বাইরে থাকতে পারে। এটি নিউরাল নেটওয়ার্কগুলিকে ওভারফিট করার শর্টকাটগুলি খুঁজে পেতে সহায়তা করতে পারে। এই আচরণ এড়াতে স্পেকট্রোগ্রামগুলি সময়-ফ্রিকোয়েন্সি ডোমেনের সমতুল্য সীমা অনুযায়ী আটকানো হয়।


বিচ্ছিন্ন শর্ট-টাইম ফুরিয়ার ট্রান্সফর্ম [42] এ বর্ণিত হিসাবে গণনা করা যেতে পারে:



সারণি IIBENCHMARK ফলাফল (মান ± স্ট্যান্ডার্ড বিচ্যুতি)। SOP: PIXELS OF ORIGINAL WEights, SOP-SOLOS: SOLOS-এ স্ক্র্যাচ থেকে প্রশিক্ষিত পিক্সেলের শব্দ। SOP-FT: SOLOS-এ সূক্ষ্ম পিক্সেলের শব্দ। MHU-নেট: 13টি ডিকোডার সহ মাল্টি-হেড ইউ-নেট।


সাউন্ড অফ পিক্সেলের প্রশিক্ষণের জন্য আমরা গ্রাউন্ড-ট্রুথ মাস্ক হিসাবে পরিপূরক বাইনারি মাস্ক ব্যবহার করেছি, এইভাবে সংজ্ঞায়িত করা হয়েছে:



মাল্টি-হেড ইউ-নেটকে পরিপূরক অনুপাতের মুখোশগুলির সাথে প্রশিক্ষিত করা হয়েছে, যা সংজ্ঞায়িত করা হয়েছে:



D. ফলাফল


সোর্স টু ডিস্টরশন রেশিও (এসডিআর), সোর্স টু ইন্টারফারেন্স রেশিও (এসআইআর), সোর্স টু আর্টিফ্যাক্টস রেশিও (এসএআর) এর জন্য বেঞ্চমার্ক ফলাফল [৪৩] প্রস্তাবিত সারণি II এ গড় এবং মানক বিচ্যুতির পরিপ্রেক্ষিতে দেখানো হয়েছে। যেমনটি লক্ষ্য করা যায়, পিক্সেলের সাউন্ড এর আসল ওজন ব্যবহার করে মূল্যায়ন করা সবচেয়ে খারাপ কাজ করে। এর একটি সম্ভাব্য কারণ হতে পারে MUSIC ডেটাসেটে কিছু URMP বিভাগের অনুপস্থিতি। আমরা যদি Solos-এ স্ক্র্যাচ থেকে নেটওয়ার্ককে প্রশিক্ষিত করি, ফলাফল প্রায় 1 dB দ্বারা উন্নত হয়। যাইহোক, Solos-এ MUSIC-এর সাথে প্রাক-প্রশিক্ষিত নেটওয়ার্ককে ফাইন-টিউনিং করে আরও ভালো ফলাফল অর্জন করা সম্ভব। আমরা অনুমান করি যে নেটওয়ার্কটি অনেক বেশি প্রশিক্ষণ ডেটার সংস্পর্শে আসার ফলে উন্নতি ঘটে। তদুপরি, টেবিলের ফলাফলগুলি দেখায় যে MHU-নেটের মতো আরও শক্তিশালী আর্কিটেকচার ব্যবহার করে কীভাবে উচ্চ কার্যক্ষমতা অর্জন করা সম্ভব।


এই কাগজটি CC BY-NC-SA 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ