paint-brush
সোলোস: অডিও-ভিজ্যুয়াল মিউজিক অ্যানালাইসিসের জন্য একটি ডেটাসেট- উপসংহার এবং রেফারেন্স দ্বারা@kinetograph
133 পড়া

সোলোস: অডিও-ভিজ্যুয়াল মিউজিক অ্যানালাইসিসের জন্য একটি ডেটাসেট- উপসংহার এবং রেফারেন্স

দ্বারা Kinetograph: The Video Editing Technology Publication
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture

Kinetograph: The Video Editing Technology Publication

@kinetograph

The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover...

7 মিনিট read2024/06/08
Read on Terminal Reader
Read this story in a terminal
Print this story

অতিদীর্ঘ; পড়তে

এই গবেষণাপত্রে, গবেষকরা বিভিন্ন অডিও-ভিজ্যুয়াল টাস্কগুলিতে মেশিন লার্নিং মডেলের প্রশিক্ষণের জন্য সোলোস, একক বাদ্যযন্ত্রের পারফরম্যান্সের একটি পরিষ্কার ডেটাসেট উপস্থাপন করেছেন।
featured image - সোলোস: অডিও-ভিজ্যুয়াল মিউজিক অ্যানালাইসিসের জন্য একটি ডেটাসেট- উপসংহার এবং রেফারেন্স
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
Kinetograph: The Video Editing Technology Publication

Kinetograph: The Video Editing Technology Publication

@kinetograph

The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover cutting edge tech for video editing.

0-item

STORY’S CREDIBILITY

Academic Research Paper

Academic Research Paper

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

লেখক:

(1) Juan F. Montesinos, ডিপার্টমেন্ট অফ ইনফরমেশন অ্যান্ড কমিউনিকেশনস টেকনোলজিস ইউনিভার্সিটি পম্পেউ ফ্যাব্রা, বার্সেলোনা, স্পেন {juanfelipe.montesinos@upf.edu};

(2) ওলগা স্লিজোভস্কায়া, তথ্য ও যোগাযোগ প্রযুক্তি বিভাগ ইউনিভার্সিটি পম্পেউ ফ্যাব্রা, বার্সেলোনা, স্পেন {olga.slizovskaia@upf.edu};

(3) Gloria Haro, তথ্য ও যোগাযোগ প্রযুক্তি বিভাগ ইউনিভার্সিটি Pompeu Fabra, বার্সেলোনা, স্পেন {gloria.haro@upf.edu}।

লিঙ্কের টেবিল

ভি. উপসংহার

আমরা সোলোস উপস্থাপন করেছি, একক শিল্পীদের সঙ্গীত রেকর্ডিংয়ের একটি নতুন অডিও-ভিজ্যুয়াল ডেটাসেট, যা বিভিন্ন স্ব-তত্ত্বাবধানে শেখার কাজের জন্য উপযুক্ত যেমন মিক্স-এন্ড-পৃথক কৌশল ব্যবহার করে উৎস বিভাজন, শব্দ স্থানীয়করণ, ক্রস-মডেল জেনারেশন এবং অডিও-ভিজ্যুয়াল খোঁজার মতো। চিঠিপত্র ডেটাসেটে 13টি ভিন্ন যন্ত্র রয়েছে; এগুলি হল চেম্বার অর্কেস্ট্রার সাধারণ যন্ত্র এবং যেগুলি ইউনিভার্সিটি অফ রচেস্টার মাল্টি-মোডাল মিউজিক পারফরম্যান্স (ইউআরএমপি) ডেটাসেটে অন্তর্ভুক্ত [১]৷ ইউআরএমপি-এর বৈশিষ্ট্য – গ্রাউন্ড ট্রুথ স্বতন্ত্র কান্ডের সাথে বাস্তব পারফরম্যান্সের ছোট ডেটাসেট – এটিকে পরীক্ষার উদ্দেশ্যে একটি উপযুক্ত ডেটাসেট করে তোলে কিন্তু আমাদের সর্বোত্তম জ্ঞান অনুযায়ী, আজ পর্যন্ত URMP-এর মতো একই যন্ত্রের সাথে কোনও বিদ্যমান বৃহৎ-স্কেল ডেটাসেট নেই। U-Net স্থাপত্যের উপর ভিত্তি করে অডিও-ভিজ্যুয়াল উৎস পৃথকীকরণের জন্য দুটি ভিন্ন নেটওয়ার্ককে নতুন ডেটাসেটে প্রশিক্ষণ দেওয়া হয়েছে এবং URMP-তে আরও মূল্যায়ন করা হয়েছে, যা পরীক্ষার সেটের মতো একই যন্ত্রের উপর প্রশিক্ষণের প্রভাব দেখায়। অধিকন্তু, সোলোস ভিডিও ব্যবধানে কঙ্কাল এবং টাইমস্ট্যাম্প সরবরাহ করে যেখানে হাতগুলি যথেষ্টভাবে দৃশ্যমান। এই তথ্যটি প্রশিক্ষণের উদ্দেশ্যে এবং শব্দ স্থানীয়করণের কাজটি সমাধান করতে শেখার জন্যও উপযোগী হতে পারে।

তথ্যসূত্র

[১] বি. লি, এক্স. লিউ, কে. দীনেশ, জেড. ডুয়ান, এবং জি. শর্মা, "মাল্টিমোডাল সঙ্গীত বিশ্লেষণের জন্য একটি মাল্টিট্র্যাক শাস্ত্রীয় সঙ্গীত পারফরম্যান্স ডেটাসেট তৈরি করা: চ্যালেঞ্জ, অন্তর্দৃষ্টি এবং অ্যাপ্লিকেশন," মাল্টিমিডিয়ায় IEEE লেনদেন, ভলিউম 21, না। 2, পৃ. 522-535, ফেব্রুয়ারি 2019।


[২] বি. লি, কে. দীনেশ, জেড. ডুয়ান, এবং জি. শর্মা, "দেখুন এবং শুনুন: স্কোরইনফর্মড অ্যাসোসিয়েশন অফ সাউন্ড ট্র্যাকস টু প্লেয়ারস টু চেম্বার মিউজিক পারফরম্যান্স ভিডিও," 2017 IEEE ইন্টারন্যাশনাল কনফারেন্স অন অ্যাকোস্টিকস, স্পিচ অ্যান্ড সিগন্যাল প্রক্রিয়াকরণ (ICASSP)। IEEE, 2017, পৃষ্ঠা 2906–2910।


[৩] ইসি চেরি, "এক এবং দুই কান দিয়ে বক্তৃতার স্বীকৃতির উপর কিছু পরীক্ষা," আমেরিকার অ্যাকোস্টিক্যাল সোসাইটির জার্নাল, ভলিউম। 25, না। 5, পৃ. 975-979, 1953।


[৪] এ. হাইভারিনেন এবং ই. ওজা, "স্বতন্ত্র উপাদান বিশ্লেষণ: অ্যালগরিদম ¨ এবং অ্যাপ্লিকেশন," নিউরাল নেটওয়ার্ক, ভলিউম। 13, না। 4-5, পৃ. 411-430, 2000।


[৫] এম. জিবুলেভস্কি এবং বিএ পার্লমুটার, "একটি সংকেত অভিধানে বিক্ষিপ্ত পচন দ্বারা অন্ধ উৎস পৃথকীকরণ," নিউরাল কম্পিউটেশন, ভলিউম। 13, না। 4, পৃ. 863–882, 2001।


[৬] T. Virtanen, "অস্থায়ী ধারাবাহিকতা এবং sparseness মানদণ্ডের সাথে নন-নেগেটিভ ম্যাট্রিক্স ফ্যাক্টরাইজেশন দ্বারা মোনোরাল সাউন্ড সোর্স বিচ্ছেদ," অডিও, বক্তৃতা এবং ভাষা প্রক্রিয়াকরণের উপর IEEE লেনদেন, ভলিউম। 15, না। 3, পৃ. 1066-1074, 2007।


[৭] DPW এলিস, "ভবিষ্যদ্বাণী-চালিত গণনামূলক শ্রবণ দৃশ্য বিশ্লেষণ," পিএইচডি। গবেষণামূলক, ম্যাসাচুসেটস ইনস্টিটিউট অফ টেকনোলজি, 1996।


[৮] পি. স্মারাগদিস, বি. রাজ, এবং এম. শশাঙ্ক, "অ্যাকোস্টিক মডেলিংয়ের জন্য একটি সম্ভাব্য সুপ্ত পরিবর্তনশীল মডেল," শাব্দ প্রক্রিয়াকরণের জন্য মডেলগুলিতে অগ্রগতি, NIPS, vol. 148, পৃ. 8-1, 2006।


[৯] P. Chandna, M. Miron, J. Janer, এবং E. Gomez, "Monoaural audio Source ´sparation using deep convolutional neural networks," in International Conference on Latent Variable Analysis and Signal Separation, 2017, pp. 258– 266।


[১০] D. Stoller, S. Ewert, এবং S. Dixon, “Wave-u-net: একটি মাল্টি-স্কেল নিউরাল নেটওয়ার্ক ফর এন্ড-টু-এন্ড অডিও সোর্স সেপারেশন,” arXiv প্রিপ্রিন্ট arXiv:1806.03185, 2018।


[১১] জেআর হার্শে এবং জেআর মোভেলান, "অডিও দৃষ্টি: শব্দগুলি সনাক্ত করার জন্য অডিও-ভিজ্যুয়াল সিঙ্ক্রোনি ব্যবহার করা," নিউরাল ইনফরমেশন প্রসেসিং সিস্টেমের অগ্রগতিতে, 2000, পৃষ্ঠা 813-819।


[১২] ই. কিড্রন, ওয়াইওয়াই শেচনার এবং এম. ইলাদ, কম্পিউটার ভিশন এবং প্যাটার্ন রিকগনিশনে "পিক্সেল দ্যাট সাউন্ড," 2005। সিভিপিআর 2005। আইইইই কম্পিউটার সোসাইটি কনফারেন্স অন, ভলিউম। 1, 2005, পৃ. 88-95।


[১৩] টি. ড্যারেল, জেডব্লিউ ফিশার, এবং পি. ভায়োলা, "অডিও-ভিজ্যুয়াল সেগমেন্টেশন এবং ককটেল পার্টি ইফেক্ট," অ্যাডভান্সেস ইন মাল্টিমোডাল ইন্টারফেসআইসিএমআই 2000, 2000, পৃষ্ঠা 32-40।


[১৪] ডি. সোডোয়ার, জে.-এল. শোয়ার্টজ, এল. গিরিন, জে. ক্লিঙ্কিস, এবং সি. জুটেন, "অডিও-ভিজ্যুয়াল বক্তৃতা উত্সগুলির বিচ্ছেদ: বক্তৃতা উদ্দীপনার অডিও-ভিজ্যুয়াল সমন্বয়কে কাজে লাগানোর একটি নতুন পদ্ধতি," সংকেত প্রক্রিয়াকরণে অগ্রগতির উপর EURASIP জার্নাল, ভলিউম। 2002, না। 11, পৃ. 382823, 2002।


[১৫] বি. রিভেট, এল. গিরিন, এবং সি. জুটেন, "আলোচনামূলক মিশ্রণ থেকে বক্তৃতা সংকেত নিষ্কাশনের জন্য অডিওভিজ্যুয়াল বক্তৃতা প্রক্রিয়াকরণ এবং অন্ধ উত্স পৃথকীকরণের মিশ্রণ," অডিও, বক্তৃতা এবং ভাষা প্রক্রিয়াকরণের উপর IEEE লেনদেন, ভলিউম। 15, না। 1, পৃ. 96-108, 2007।


[১৬] বি. লি, সি. জু, এবং জেড. ডুয়ান, "মাল্টি-মডাল ভাইব্রেটো বিশ্লেষণের মাধ্যমে স্ট্রিং এনসেম্বলের জন্য অডিওভিজ্যুয়াল সোর্স অ্যাসোসিয়েশন," প্রোক. সাউন্ড অ্যান্ড মিউজিক কম্পিউটিং (এসএমসি), 2017।


[১৭] এস. পারেখ, এস. এসিড, এ. ওজেরভ, এনকিউ ডুয়ং, পি. পেরেজ, এবং জি. রিচার্ড, ´ "ভিডিও অবজেক্ট তথ্য দ্বারা অডিও উৎস বিচ্ছেদ নির্দেশিকা," অডিও এবং অ্যাকোস্টিকসের সিগন্যাল প্রসেসিং (WASPAA) , 2017 IEEE কর্মশালা, 2017, পৃষ্ঠা 61–65।


[১৮] আর. গাও এবং কে. গ্রাউম্যান, কম্পিউটার ভিশন, 2019, পৃষ্ঠা 3879–3888-এর IEEE ইন্টারন্যাশনাল কনফারেন্সের কার্যপ্রণালীতে "ভিজ্যুয়াল অবজেক্টের সহ-বিচ্ছিন্ন শব্দ"।


[১৯] H. Zhao, C. Gan, W.-C. কম্পিউটার ভিশন, 2019, পৃষ্ঠা 1735–1744 এর প্রসিডিংস অফ দ্য আইইইই ইন্টারন্যাশনাল কনফারেন্সে মা, এবং এ. তোরালবা, "গতির শব্দ,"।


[২০] X. Xu, B. Dai, এবং D. Lin, "মাইনাস-প্লাস নেট ব্যবহার করে রিকার্সিভ ভিজ্যুয়াল সাউন্ড সেপারেশন," Proceedings of the IEEE International Conference on Computer Vision, 2019, pp. 882–891.


[২১] বি. লি, কে. দীনেশ, সি. জু, জি. শর্মা, এবং জেড. ডুয়ান, "চেম্বার মিউজিক পারফরম্যান্সের জন্য অনলাইন অডিও-ভিজ্যুয়াল সোর্স অ্যাসোসিয়েশন," ইন্টারন্যাশনাল সোসাইটি অফ মিউজিক ইনফরমেশন রিট্রিভাল, ভলিউম। 2, না। 1, 2019।


[২২] আর. অ্যারান্ডজেলোভিক এবং এ. জিসারম্যান, "অবজেক্টস দ্যাট সাউন্ড," প্রসিডিংস অফ দ্য IEEE ইউরোপিয়ান কনফারেন্স অন কম্পিউটার ভিশন, 2018-এ।


[২৩] H. Zhao, C. Gan, A. Rouditchenko, C. Vondrick, J. McDermott, এবং A. Torralba, “The sound of pixels,” the European Conference on Computer Vision (ECCV), সেপ্টেম্বর 2018-এ।


[২৪] A. Owens এবং AA Efros, "স্ব-তত্ত্বাবধানে বহুসংবেদনশীল বৈশিষ্ট্য সহ অডিও-ভিজ্যুয়াল দৃশ্য বিশ্লেষণ," arXiv প্রিপ্রিন্ট arXiv:1804.03641, 2018।


[২৫] বি. কোরবার, ডি. ট্রান, এবং এল. তোরেসানি, "স্ব-তত্ত্বাবধানে সিঙ্ক্রোনাইজেশন থেকে অডিও এবং ভিডিও মডেলের সমবায় শিক্ষা," নিউরাল ইনফরমেশন প্রসেসিং সিস্টেমের অগ্রগতিতে, 2018, পৃষ্ঠা 7763–7774৷


[২৬] টি.-এইচ. Oh, T. Dekel, C. Kim, I. Mosseri, WT Freeman, M. Rubinstein, এবং W. Matusik, "Speech2face: Learning the face behind a voice,” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, পৃ. 7539–7548।


[২৭] এল. চেন, এস. শ্রীবাস্তব, জেড. ডুয়ান, এবং সি. জু, "ডিপ ক্রস-মডাল অডিওভিজ্যুয়াল জেনারেশন," এসিএম মাল্টিমিডিয়া 2017, 2017, পৃ.


[২৮] Y. Zhou, Z. Wang, C. Fang, T. Bui, এবং TL Berg, "Visual to sound: Generating natural sound for videos in the wild," in the Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition , 2018, পৃষ্ঠা 3550–3558।


[২৯] ই. শ্লিজারম্যান, এলএম ডেরি, এইচ. শোয়েন, এবং আই. কেমেলমাচার-শ্লিজারম্যান, "অডিও টু বডি ডাইনামিকস," সিভিপিআর, আইইইই কম্পিউটার সোসাইটি কনফারেন্স অন কম্পিউটার ভিশন অ্যান্ড প্যাটার্ন রিকগনিশন, 2017।


[৩০] এস. জিনোসার, এ. বার, জি. কোহাভি, সি. চ্যান, এ. ওয়েন্স, এবং জে. মালিক, কম্পিউটার ভিশন এবং প্যাটার্ন রিকগনিশন সংক্রান্ত আইইইই কনফারেন্সের কার্যক্রমে "কথোপকথনমূলক অঙ্গভঙ্গির স্বতন্ত্র শৈলী শেখা," 2019, পৃষ্ঠা 3497–3506।


[৩১] H. Zhou, Z. Liu, X. Xu, P. Luo, এবং X. Wang, IEEE ইন্টারন্যাশনাল কনফারেন্স অন কম্পিউটার ভিশন (ICCV), অক্টোবর 2019-এ “ভিশন-ইনফিউজড ডিপ অডিও ইনপেইন্টিং”।


[৩২] C. Gan, D. Huang, H. Zhao, JB Tenenbaum, এবং A. Torralba, "ভিজ্যুয়াল সাউন্ড সেপারেশনের জন্য সঙ্গীত অঙ্গভঙ্গি," IEEE/CVF কনফারেন্স অন কম্পিউটার ভিশন অ্যান্ড প্যাটার্ন রিকগনিশন, 2020, pp 10 478-10 487।


[৩৩] জেড. কাও, জি. হিডালগো মার্টিনেজ, টি. সাইমন, এস. ওয়েই, এবং ওয়াইএ শেখ, "ওপেনপোজ: রিয়েলটাইম মাল্টি-পারসন 2d পোজ অনুমান অংশ সম্বন্ধীয় ক্ষেত্রগুলি ব্যবহার করে," IEEE লেনদেন অন প্যাটার্ন বিশ্লেষণ এবং মেশিন বুদ্ধিমত্তা, 2019 .


[৩৪] CSJ Doire এবং O. Okubadejo, "স্বাধীন ডাটাবেসের সাথে অডিও সোর্স সেপারেশনের জন্য ইন্টারলিভড মাল্টিটাস্ক লার্নিং," ArXiv, vol. abs/1908.05182, 2019।


[৩৫] F. Yu, V. Koltun, এবং T. Funkhouser, "প্রসারিত অবশিষ্ট নেটওয়ার্ক," কম্পিউটার ভিশন এবং প্যাটার্ন রিকগনিশন (CVPR), 2017-এ।


[৩৬] A. Jansson, E. Humphrey, N. Montecchio, R. Bittner, A. কুমার, এবং T. Weyde, 18 তম ইন্টারন্যাশনাল সোসাইটি ফর মিউজিক ইনফরমেশন রিট্রিভাল কনফারেন্সে "গভীর ইউ-নেট কনভোলিউশনাল নেটওয়ার্কের সাথে ভয়েস বিচ্ছেদ গান" , 2017, পৃষ্ঠা 23-27।


[৩৭] O. Ronneberger, P. Fischer, এবং T. Brox, "U-net: Convolutional networks for biomedical image segmentation," ইন্টারন্যাশনাল কনফারেন্স অন মেডিক্যাল ইমেজ কম্পিউটিং এবং কম্পিউটার-সহায়ক হস্তক্ষেপে। স্প্রিংগার, 2015, পৃষ্ঠা 234-241।


[৩৮] G. Liu, J. Si, Y. Hu, এবং S. Li, "উন্নত ইউ-নেটের সাথে ফটোগ্রাফিক ইমেজ সংশ্লেষণ," 2018-এ উন্নত কম্পিউটেশনাল ইন্টেলিজেন্সের (ICACI) দশম আন্তর্জাতিক সম্মেলনে, মার্চ 2018, pp. 402 -407।


[৩৯] এক্স. মাও, সি. শেন, এবং ওয়াই.-বি. ইয়াং, "প্রতিসম স্কিপ সংযোগের সাথে খুব গভীর কনভোল্যুশনাল এনকোডার-ডিকোডার নেটওয়ার্ক ব্যবহার করে ইমেজ পুনরুদ্ধার," নিউরাল ইনফরমেশন প্রসেসিং সিস্টেমের অগ্রগতিতে, 2016, পিপি 2802-2810।


[৪০] পি. আইসোলা, জে.-ওয়াই। Zhu, T. Zhou, এবং AA Efros, "কন্ডিশনাল অ্যাডভারসারিয়াল নেটওয়ার্কের সাথে ইমেজ-টু-ইমেজ অনুবাদ," arxiv, 2016।


[৪১] ডিপি কিংমা এবং জে. বা, "আদম: স্টোকাস্টিক অপ্টিমাইজেশানের জন্য একটি পদ্ধতি," CoRR, ভলিউম। abs/1412.6980, 2014।


[৪২] "অধ্যায় 7 - ফ্রিকোয়েন্সি ডোমেন প্রসেসিং," ডিজিটাল সিগন্যাল প্রসেসিং সিস্টেম ডিজাইনে (দ্বিতীয় সংস্করণ), দ্বিতীয় সংস্করণ সংস্করণ, এন. কেহতারনাভাজ, এড। বার্লিংটন: একাডেমিক প্রেস, 2008, পৃষ্ঠা 175 – 196।


[৪৩] ই. ভিনসেন্ট, আর. গ্রিবনভাল, এবং সি. ফেভোট, "অন্ধ অডিও উৎস বিচ্ছেদে কর্মক্ষমতা পরিমাপ," অডিও, স্পিচ, এবং ভাষা প্রক্রিয়াকরণের উপর IEEE লেনদেন, ভলিউম। 14, না। 4, পৃ. 1462–1469, 2006।

এই কাগজটি CC BY-NC-SA 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ


L O A D I N G
. . . comments & more!

About Author

Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
Kinetograph: The Video Editing Technology Publication@kinetograph
The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover cutting edge tech for video editing.

আসে ট্যাগ

এই নিবন্ধটি উপস্থাপন করা হয়েছে...

Read on Terminal Reader
Read this story in a terminal
 Terminal
Read this story w/o Javascript
Read this story w/o Javascript
 Lite
X REMOVE AD