লেখক:  (1) Juan F. Montesinos, ডিপার্টমেন্ট অফ ইনফরমেশন অ্যান্ড কমিউনিকেশনস টেকনোলজিস ইউনিভার্সিটি পম্পেউ ফ্যাব্রা, বার্সেলোনা, স্পেন {juanfelipe.montesinos@upf.edu};  (2) ওলগা স্লিজোভস্কায়া, তথ্য ও যোগাযোগ প্রযুক্তি বিভাগ ইউনিভার্সিটি পম্পেউ ফ্যাব্রা, বার্সেলোনা, স্পেন {olga.slizovskaia@upf.edu};  (3) Gloria Haro, তথ্য ও যোগাযোগ প্রযুক্তি বিভাগ ইউনিভার্সিটি Pompeu Fabra, বার্সেলোনা, স্পেন {gloria.haro@upf.edu}।  লিঙ্কের টেবিল   বিমূর্ত এবং ভূমিকা   সম্পর্কিত কাজ   ডেটাসেট   পরীক্ষা-নিরীক্ষা   উপসংহার এবং রেফারেন্স  IV পরীক্ষা  Solos এর উপযুক্ততা দেখানোর জন্য, আমরা ব্লাইন্ড সোর্স সেপারেশন সমস্যায় ফোকাস করেছি এবং নতুন ডেটাসেটে দ্য সাউন্ড অফ পিক্সেল (SoP) [২৩] এবং মাল্টি-হেড ইউ-নেট (MHUNet) [৩৪] মডেলকে প্রশিক্ষণ দিয়েছি। . আমরা চারটি পরীক্ষা চালিয়েছি: i) আমরা লেখকদের দ্বারা প্রদত্ত এসওপি প্রাক-প্রশিক্ষিত মডেলের মূল্যায়ন করেছি; ii) আমরা স্ক্র্যাচ থেকে এসওপি প্রশিক্ষিত করেছি; iii) আমরা মিউজিকের প্রাক-প্রশিক্ষিত মডেলের ওজন থেকে শুরু করে Solos-এ সূক্ষ্ম-টিউনড এসওপি করেছি এবং iv) আমরা মাল্টি-হেড ইউ-নেটকে স্ক্র্যাচ থেকে প্রশিক্ষণ দিয়েছি। MHU-Net-কে একটি পাঠ্যক্রম শেখার পদ্ধতি অনুসরণ করে দুই থেকে সাতটি উৎসের সংখ্যার সাথে মিশ্রণগুলিকে আলাদা করতে প্রশিক্ষণ দেওয়া হয়েছে কারণ এটি ফলাফলের উন্নতি ঘটায়। [২৩] এ বর্ণিত সর্বোত্তম কৌশল অনুসারে এসওপি প্রশিক্ষিত হয়েছে।  মূল্যায়ন করা হয় ইউআরএমপি ডেটাসেটে [১] তাদের দেওয়া বাস্তব মিশ্রণ ব্যবহার করে। URMP ট্র্যাকগুলি ক্রমানুসারে 6s-সময়ের সেগমেন্টে বিভক্ত। সমস্ত ফলিত বিভাজন থেকে মেট্রিক্স পাওয়া যায়।   উ: স্থাপত্য এবং প্রশিক্ষণের বিবরণ  আমরা দ্য সাউন্ড অফ পিক্সেলকে বেসলাইন হিসাবে বেছে নিয়েছি কারণ এর ওজন সর্বজনীনভাবে উপলব্ধ এবং নেটওয়ার্কটি সরাসরি-আগামী উপায়ে প্রশিক্ষিত। SoP তিনটি প্রধান সাবনেটওয়ার্কের সমন্বয়ে গঠিত: একটি বিস্তৃত ResNet [35] ভিডিও-বিশ্লেষণ নেটওয়ার্ক হিসাবে, একটি U-Net [36] অডিও-প্রসেসিং নেটওয়ার্ক এবং একটি অডিও সিন্থেসাইজার নেটওয়ার্ক। আমরা এর ফলাফলগুলি একটি মাল্টি-হেড ইউ-নেট [34] এর সাথে তুলনা করি।  U-Net [৩৭] হল একটি এনকোডার-ডিকোডার আর্কিটেকচার যার মধ্যে সংযোগগুলি এড়িয়ে যায়। সংযোগ এড়িয়ে যান মূল স্থানিক কাঠামো পুনরুদ্ধার করতে সাহায্য করে। MHU-Net হল একটি ধাপ এগিয়ে কারণ এটি যতটা সম্ভব ডিকোডার নিয়ে গঠিত। প্রতিটি ডিকোডার একটি একক উত্সে বিশেষায়িত, এইভাবে কর্মক্ষমতা উন্নত করে।  পিক্সেলের সাউন্ড [২৩] বায়োমেডিকাল ইমেজিংয়ের জন্য প্রস্তাবিত মূল ইউনেট আর্কিটেকচারকে অনুসরণ করে না, তবে [৩৬] এ বর্ণিত ইউনেট, যেটি গানের কণ্ঠস্বর পৃথক করার জন্য সুর করা হয়েছিল। সর্বাধিক-পুলিং অনুসরণ করে প্রতি ব্লকে দুটি কনভলিউশন থাকার পরিবর্তে, তারা এর সাথে একটি একক কনভোলিউশন ব্যবহার করে   একটি বড় কার্নেল এবং striding. মূল কাজটি শেখার যোগ্য প্যারামিটার সহ একটি কেন্দ্রীয় ব্লকের প্রস্তাব করে যেখানে কেন্দ্রীয় ব্লকটি SoP-তে একটি স্থির সুপ্ত স্থান। U-Net ব্যাপকভাবে বিভিন্ন স্থাপত্যের মেরুদণ্ড হিসাবে ব্যবহৃত হয়েছে যেমন ইউএস ইমেজ জেনারেশন [৩৮], শব্দ দমন এবং সুপার-রেজোলিউশন [৩৯], ইমেজ থেকে ইমেজ অনুবাদ [৪০], ইমেজ সেগমেন্টেশন [৩৭] বা অডিও উত্স বিচ্ছেদ [৩৬]। SoP U-Net-এ যথাক্রমে 32, 64, 128, 256, 512, 512 এবং 512 চ্যানেল (MHU-Net-এর জন্য 6 ব্লক) সহ 7 টি ব্লক রয়েছে। সুপ্ত স্থানটিকে এনকোডারের শেষ আউটপুট হিসাবে বিবেচনা করা যেতে পারে। ডাইলেটেড রেসনেট হল একটি ResNet-এর মতো আর্কিটেকচার যা স্থানিক রেজোলিউশন বাড়ানোর সময় গ্রহণযোগ্য ক্ষেত্রকে ধরে রাখতে প্রসারিত কনভোলিউশন ব্যবহার করে। U-Net-এর আউটপুট হল 32টি বর্ণালী উপাদান (চ্যানেল) এর একটি সেট যা ইনপুট স্পেকট্রোগ্রামের তুলনায় একই আকারের, SoP এর ক্ষেত্রে এবং MHU-Net-এর ক্ষেত্রে প্রতি ডিকোডারে একটি একক উৎস। একটি প্রতিনিধি ফ্রেম দেওয়া, ভিজ্যুয়াল বৈশিষ্ট্যগুলি ডাইলেটেড ResNet ব্যবহার করে প্রাপ্ত করা হয়। এই চাক্ষুষ বৈশিষ্ট্যগুলি 32টি উপাদানের ভেক্টর ছাড়া কিছুই নয় (যা ইউনেটের আউটপুট চ্যানেলের সংখ্যার সাথে মিলে যায়) যা সঠিক বর্ণালী উপাদান নির্বাচন করতে ব্যবহৃত হয়। এই নির্বাচনটি অডিও বিশ্লেষণ নেটওয়ার্ক দ্বারা সঞ্চালিত হয় যা 32টি শেখার যোগ্য প্যারামিটার, αk, প্লাস একটি পক্ষপাত, β নিয়ে গঠিত। এই অপারেশনটি গাণিতিকভাবে নিম্নরূপ বর্ণনা করা যেতে পারে:   যেখানে Sk(t, f) হল k-th পূর্বাভাসিত বর্ণালী উপাদান সময়-ফ্রিকোয়েন্সি বিন (t, f)।  চিত্র 2 SoP কনফিগারেশন চিত্রিত করে। এটি হাইলাইট করা আকর্ষণীয় যে বর্ণালী উপাদানগুলি নির্বাচন করার জন্য ভিজ্যুয়াল নেটওয়ার্ক তৈরি করা এটিকে পরোক্ষভাবে যন্ত্র স্থানীয়করণ শিখতে বাধ্য করে, যা সক্রিয়করণ মানচিত্রের মাধ্যমে অনুমান করা যেতে পারে।   এসওপি এবং এমএইচইউ-নেট উভয়ের জন্য গ্রাউন্ড-ট্রুথ মাস্ক গণনা Eq এ বর্ণনা করা হয়েছে। (2) এবং Eq. (3), সে. IV-C.   B. ডেটা প্রাক-প্রক্রিয়াকরণ  উপরে উল্লিখিত আর্কিটেকচারগুলিকে প্রশিক্ষণ দেওয়ার জন্য, অডিওকে 11025 Hz এবং 16 বিটে পুনরায় নমুনা দেওয়া হয়। নেটওয়ার্কের মধ্যে খাওয়ানো নমুনা 6s সময়কাল হয়. তরঙ্গরূপের সময়-ফ্রিকোয়েন্সি উপস্থাপনা পেতে আমরা শর্ট-টাইম ফুরিয়ার ট্রান্সফর্ম (STFT) ব্যবহার করি। [২৩] অনুসরণ করে, STFT দৈর্ঘ্য 1022 এবং হপ দৈর্ঘ্য 256 এর হ্যানিং উইন্ডো ব্যবহার করে গণনা করা হয় যাতে আমরা একটি 6s নমুনার জন্য 512×256 আকারের একটি স্পেকট্রোগ্রাম পেতে পারি। পরবর্তীতে, আমরা ফ্রিকোয়েন্সি অক্ষে একটি লগ রি-স্কেল প্রয়োগ করি যা নিম্ন ফ্রিকোয়েন্সি প্রসারিত করে এবং উচ্চতরগুলিকে সংকুচিত করে। সবশেষে, আমরা প্রতিটি স্পেকট্রোগ্রামের ন্যূনতম মানকে dB-তে রূপান্তর করি এবং -1 এবং 1-এর মধ্যে স্বাভাবিক করি।   C. স্থল-সত্যের মুখোশ  গ্রাউন্ড-ট্রুথ মাস্ক কম্পিউটেশন প্রবর্তনের আগে আমরা কিছু বিবেচ্য বিষয় উল্লেখ করতে চাই। স্ট্যান্ডার্ড ফ্লোটিংপয়েন্ট অডিও ফরম্যাট -1 এবং 1-এর মধ্যে আবদ্ধ করার জন্য একটি তরঙ্গরূপ আরোপ করে। কৃত্রিম মিশ্রণ তৈরির সময় তরঙ্গরূপগুলি এই সীমার বাইরে থাকতে পারে। এটি নিউরাল নেটওয়ার্কগুলিকে ওভারফিট করার শর্টকাটগুলি খুঁজে পেতে সহায়তা করতে পারে। এই আচরণ এড়াতে স্পেকট্রোগ্রামগুলি সময়-ফ্রিকোয়েন্সি ডোমেনের সমতুল্য সীমা অনুযায়ী আটকানো হয়।  বিচ্ছিন্ন শর্ট-টাইম ফুরিয়ার ট্রান্সফর্ম [42] এ বর্ণিত হিসাবে গণনা করা যেতে পারে:   সাউন্ড অফ পিক্সেলের প্রশিক্ষণের জন্য আমরা গ্রাউন্ড-ট্রুথ মাস্ক হিসাবে পরিপূরক বাইনারি মাস্ক ব্যবহার করেছি, এইভাবে সংজ্ঞায়িত করা হয়েছে:   মাল্টি-হেড ইউ-নেটকে পরিপূরক অনুপাতের মুখোশগুলির সাথে প্রশিক্ষিত করা হয়েছে, যা সংজ্ঞায়িত করা হয়েছে:    D. ফলাফল  সোর্স টু ডিস্টরশন রেশিও (এসডিআর), সোর্স টু ইন্টারফারেন্স রেশিও (এসআইআর), সোর্স টু আর্টিফ্যাক্টস রেশিও (এসএআর) এর জন্য বেঞ্চমার্ক ফলাফল [৪৩] প্রস্তাবিত সারণি II এ গড় এবং মানক বিচ্যুতির পরিপ্রেক্ষিতে দেখানো হয়েছে। যেমনটি লক্ষ্য করা যায়, পিক্সেলের সাউন্ড এর আসল ওজন ব্যবহার করে মূল্যায়ন করা সবচেয়ে খারাপ কাজ করে। এর একটি সম্ভাব্য কারণ হতে পারে MUSIC ডেটাসেটে কিছু URMP বিভাগের অনুপস্থিতি। আমরা যদি Solos-এ স্ক্র্যাচ থেকে নেটওয়ার্ককে প্রশিক্ষিত করি, ফলাফল প্রায় 1 dB দ্বারা উন্নত হয়। যাইহোক, Solos-এ MUSIC-এর সাথে প্রাক-প্রশিক্ষিত নেটওয়ার্ককে ফাইন-টিউনিং করে আরও ভালো ফলাফল অর্জন করা সম্ভব। আমরা অনুমান করি যে নেটওয়ার্কটি অনেক বেশি প্রশিক্ষণ ডেটার সংস্পর্শে আসার ফলে উন্নতি ঘটে। তদুপরি, টেবিলের ফলাফলগুলি দেখায় যে MHU-নেটের মতো আরও শক্তিশালী আর্কিটেকচার ব্যবহার করে কীভাবে উচ্চ কার্যক্ষমতা অর্জন করা সম্ভব।  এই কাগজটি CC BY-NC-SA 4.0 DEED লাইসেন্সের অধীনে   । arxiv-এ উপলব্ধ

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Kinetopgraph.TECH

Read My Stories

kinetograph

গল্পের মূল ভাষায় এই অডিও তৈরি!

একক: অডিও-ভিজ্যুয়াল সঙ্গীত বিশ্লেষণের জন্য একটি ডেটাসেট - পরীক্ষা-নিরীক্ষা

About Author

মন্তব্য

আসে ট্যাগ

এই নিবন্ধটি উপস্থাপন করা হয়েছে

Related Stories

ডিজিটাল যাযাবর শুনুন: থাইল্যান্ডের নতুন ডিটিভি ভিসা সম্পর্কে আপনার যা জানা দরকার

ক্রিপ্টো গ্রোথ: কার্যকরী ব্যবহারকারী ব্যক্তিত্ব তৈরি করা

এআই/এমএল ডাটালেকের জন্য রেফারেন্স আর্কিটেকচার তৈরির জন্য একজন স্থপতির গাইড

ব্যবহারকারী-কেন্দ্রিক ক্রিপ্টো পণ্য তৈরি করা: গ্রাহক প্রতিক্রিয়ার গুরুত্ব

ডিজিটাল যাযাবর শুনুন: থাইল্যান্ডের নতুন ডিটিভি ভিসা সম্পর্কে আপনার যা জানা দরকার

ক্রিপ্টো গ্রোথ: কার্যকরী ব্যবহারকারী ব্যক্তিত্ব তৈরি করা

এআই/এমএল ডাটালেকের জন্য রেফারেন্স আর্কিটেকচার তৈরির জন্য একজন স্থপতির গাইড

ব্যবহারকারী-কেন্দ্রিক ক্রিপ্টো পণ্য তৈরি করা: গ্রাহক প্রতিক্রিয়ার গুরুত্ব

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps