paint-brush
सोलोस: ऑडियो-विज़ुअल संगीत विश्लेषण के लिए एक डेटासेट - संबंधित कार्य द्वारा@kinetograph
155 रीडिंग

सोलोस: ऑडियो-विज़ुअल संगीत विश्लेषण के लिए एक डेटासेट - संबंधित कार्य

द्वारा Kinetograph: The Video Editing Technology Publication
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture

Kinetograph: The Video Editing Technology Publication

@kinetograph

The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover...

3 मिनट read2024/06/08
Read on Terminal Reader
Read this story in a terminal
Print this story

बहुत लंबा; पढ़ने के लिए

इस शोधपत्र में, शोधकर्ताओं ने सोलोस (Solos) नामक एक स्वच्छ डाटासेट प्रस्तुत किया है, जो विभिन्न दृश्य-श्रव्य कार्यों पर मशीन लर्निंग मॉडलों के प्रशिक्षण के लिए एकल संगीत प्रदर्शनों का एक स्वच्छ डाटासेट है।
featured image - सोलोस: ऑडियो-विज़ुअल संगीत विश्लेषण के लिए एक डेटासेट - संबंधित कार्य
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
Kinetograph: The Video Editing Technology Publication

Kinetograph: The Video Editing Technology Publication

@kinetograph

The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover cutting edge tech for video editing.

0-item

STORY’S CREDIBILITY

Academic Research Paper

Academic Research Paper

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

लेखक:

(1) जुआन एफ. मोंटेसिनोस, सूचना और संचार प्रौद्योगिकी विभाग यूनिवर्सिटैट पोम्पेउ फ़बरा, बार्सिलोना, स्पेन {juanfelipe.montesinos@upf.edu};

(2) ओल्गा स्लिज़ोवस्काया, सूचना और संचार प्रौद्योगिकी विभाग यूनिवर्सिटैट पोम्पेउ फ़बरा, बार्सिलोना, स्पेन {olga.slizovskaia@upf.edu};

(3) ग्लोरिया हारो, सूचना और संचार प्रौद्योगिकी विभाग यूनिवर्सिटैट पोम्पेउ फ़बरा, बार्सिलोना, स्पेन {gloria.haro@upf.edu}।

लिंक की तालिका

II. संबंधित कार्य

रोचेस्टर विश्वविद्यालय मल्टी-मोडल संगीत प्रदर्शन डेटासेट (URMP) [1] शास्त्रीय संगीत के टुकड़ों की 44 मल्टी-इंस्ट्रूमेंट वीडियो रिकॉर्डिंग वाला एक डेटासेट है। एक टुकड़े में मौजूद प्रत्येक वाद्य यंत्र को अलग-अलग रिकॉर्ड किया गया था, वीडियो और उच्च-गुणवत्ता वाले ऑडियो दोनों के साथ एक स्टैंड-अलोन माइक्रोफ़ोन के साथ, ताकि ग्राउंड-ट्रुथ व्यक्तिगत ट्रैक हो सकें। अलग-अलग बजाने के बावजूद, अलग-अलग खिलाड़ियों के लिए सामान्य समय निर्धारित करने के लिए एक पियानोवादक के साथ एक कंडक्टिंग वीडियो का उपयोग करके वाद्य यंत्रों को समन्वित किया गया था। सिंक्रनाइज़ेशन के बाद, अलग-अलग वीडियो के ऑडियो को माइक्रोफ़ोन के उच्च-गुणवत्ता वाले ऑडियो से बदल दिया गया और फिर मिश्रण बनाने के लिए अलग-अलग रिकॉर्डिंग को इकट्ठा किया गया: ऑडियो मिश्रण बनाने के लिए अलग-अलग उच्च-गुणवत्ता वाली ऑडियो रिकॉर्डिंग को जोड़ा गया और दृश्य सामग्री को एक सामान्य पृष्ठभूमि के साथ एक वीडियो में संयोजित किया गया, जहाँ सभी खिलाड़ी बाएं से दाएं एक ही स्तर पर व्यवस्थित थे। प्रत्येक टुकड़े के लिए, डेटासेट MIDI प्रारूप में संगीत स्कोर, उच्च-गुणवत्ता वाले व्यक्तिगत वाद्य यंत्र ऑडियो रिकॉर्डिंग और इकट्ठे टुकड़ों के वीडियो प्रदान करता है। चित्र 1 में दिखाए गए डेटासेट में मौजूद वाद्य यंत्र चैम्बर ऑर्केस्ट्रा में आम वाद्य यंत्र हैं। अपनी सभी अच्छी विशेषताओं के बावजूद, यह एक छोटा डेटासेट है और इसलिए यह गहन शिक्षण आर्किटेक्चर के प्रशिक्षण के लिए उपयुक्त नहीं है।


संगीत वाद्ययंत्रों के प्रदर्शन की ऑडियो-विजुअल रिकॉर्डिंग के दो अन्य डेटासेट हाल ही में प्रस्तुत किए गए हैं: संगीत [23] और म्यूजिकईएस [31]। संगीत में 11 श्रेणियों में एकल के 536 रिकॉर्डिंग और युगल के 149 वीडियो शामिल हैं: अकॉर्डियन, ध्वनिक गिटार, सेलो, शहनाई, एर्हू, बांसुरी, सैक्सोफोन, तुरही, टुबा, वायलिन और ज़ाइलोफोन। यह डेटासेट YouTube से पूछताछ करके एकत्र किया गया था। म्यूजिकईएस [31] लगभग 1475 रिकॉर्डिंग के साथ अपने मूल आकार के तिगुने आकार का म्यूजिक का एक विस्तार है, लेकिन इसके बजाय 9 श्रेणियों में फैला हुआ है: अकॉर्डियन, गिटार, सेलो, बांसुरी, सैक्सोफोन, तुरही, टुबा, वायलिन और ज़ाइलोफोन। म्यूजिक और सोलोस में 7 सामान्य श्रेणियां हैं: वायलिन, सेलो सोलोस और म्यूजिकईएस एक दूसरे के पूरक हैं। दोनों के बीच केवल 5% का एक छोटा सा अंतर है, जिसका अर्थ है कि दोनों डेटासेट को एक बड़े डेटासेट में जोड़ा जा सकता है।


हम साहित्य में कई उदाहरण पा सकते हैं जो ऑडियो-विज़ुअल डेटासेट की उपयोगिता दिखाते हैं। पिक्सल की आवाज़ [23] ऑडियो स्रोत पृथक्करण करता है जो ऑडियो स्पेक्ट्रल घटकों को उत्पन्न करता है जिन्हें अलग-अलग स्रोतों को प्राप्त करने के लिए वीडियो स्ट्रीम से आने वाली दृश्य सुविधाओं का उपयोग करके आगे स्मार्ट तरीके से चुना जाता है। मिश्रण में मौजूद विभिन्न ध्वनियों को पुनरावर्ती तरीके से अलग करने के लिए इस विचार को [20] में आगे बढ़ाया गया था। प्रत्येक चरण में, सिस्टम मिश्रण में बचे हुए सबसे प्रमुख स्रोत से अलग करता है। मोशन की आवाज़ [19] ऑडियो स्रोत पृथक्करण को कंडीशन करने के लिए ऑप्टिकल फ्लो से प्राप्त घने प्रक्षेपवक्र का उपयोग करता है


चित्र 1. सोलोस और यूआरएमपी उपकरण श्रेणियाँ। छवि [1] से अनुकूलित।

चित्र 1. सोलोस और यूआरएमपी उपकरण श्रेणियाँ। छवि [1] से अनुकूलित।


यहां तक कि समान-वाद्य मिश्रणों को अलग करने के लिए भी। [18] में विभिन्न उपकरणों को अलग करने के लिए दृश्य कंडीशनिंग का भी उपयोग किया जाता है; प्रशिक्षण के दौरान, ऑब्जेक्ट की स्थिरता को लागू करने के लिए अलग-अलग ध्वनियों पर एक वर्गीकरण हानि का उपयोग किया जाता है और एक सह-पृथक्करण हानि अनुमानित व्यक्तिगत ध्वनियों को एक बार फिर से इकट्ठा होने पर मूल मिश्रण बनाने के लिए मजबूर करती है। [17] में, लेखकों ने एक ऊर्जा-आधारित विधि विकसित की है जो एक सक्रियण मैट्रिक्स के साथ एक गैर-नकारात्मक मैट्रिक्स फैक्टराइजेशन शब्द को कम करता है जिसे प्रति-स्रोत गति जानकारी वाले मैट्रिक्स से संरेखित करने के लिए मजबूर किया जाता है। इस गति मैट्रिक्स में प्रत्येक खिलाड़ी बाउंडिंग बॉक्स में क्लस्टर किए गए गति प्रक्षेपवक्र के औसत परिमाण वेग होते हैं।


हाल के कार्यों से दृश्य-श्रव्य कार्यों में कंकालों के बढ़ते उपयोग का पता चलता है। ऑडियो टू बॉडी डायनेमिक्स [29] में लेखक दिखाते हैं कि पियानो या वायलिन जैसे वाद्ययंत्र बजाने वाले खिलाड़ियों की हरकतों को पुन: पेश करने वाले कंकालों की भविष्यवाणी करना संभव है। चैम्बर संगीत प्रदर्शनों में शरीर या उंगली की गति जैसे कि नोट ऑनसेट या पिच में उतार-चढ़ाव के साथ ऑडियो-विजुअल पत्राचार स्थापित करने के लिए कंकाल उपयोगी साबित हुए हैं [21]। एक हालिया काम [32] साउंड ऑफ़ मोशन [19] के समान स्रोत पृथक्करण समस्या से निपटता है, लेकिन कंकाल की जानकारी द्वारा घने प्रक्षेपवक्र को प्रतिस्थापित करता है।


यह पेपर CC BY-NC-SA 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।