लेखक:
(1) जुआन एफ. मोंटेसिनोस, सूचना और संचार प्रौद्योगिकी विभाग यूनिवर्सिटैट पोम्पेउ फ़बरा, बार्सिलोना, स्पेन {juanfelipe.montesinos@upf.edu};
(2) ओल्गा स्लिज़ोवस्काया, सूचना और संचार प्रौद्योगिकी विभाग यूनिवर्सिटैट पोम्पेउ फ़बरा, बार्सिलोना, स्पेन {olga.slizovskaia@upf.edu};
(3) ग्लोरिया हारो, सूचना और संचार प्रौद्योगिकी विभाग यूनिवर्सिटैट पोम्पेउ फ़बरा, बार्सिलोना, स्पेन {gloria.haro@upf.edu}।
रोचेस्टर विश्वविद्यालय मल्टी-मोडल संगीत प्रदर्शन डेटासेट (URMP) [1] शास्त्रीय संगीत के टुकड़ों की 44 मल्टी-इंस्ट्रूमेंट वीडियो रिकॉर्डिंग वाला एक डेटासेट है। एक टुकड़े में मौजूद प्रत्येक वाद्य यंत्र को अलग-अलग रिकॉर्ड किया गया था, वीडियो और उच्च-गुणवत्ता वाले ऑडियो दोनों के साथ एक स्टैंड-अलोन माइक्रोफ़ोन के साथ, ताकि ग्राउंड-ट्रुथ व्यक्तिगत ट्रैक हो सकें। अलग-अलग बजाने के बावजूद, अलग-अलग खिलाड़ियों के लिए सामान्य समय निर्धारित करने के लिए एक पियानोवादक के साथ एक कंडक्टिंग वीडियो का उपयोग करके वाद्य यंत्रों को समन्वित किया गया था। सिंक्रनाइज़ेशन के बाद, अलग-अलग वीडियो के ऑडियो को माइक्रोफ़ोन के उच्च-गुणवत्ता वाले ऑडियो से बदल दिया गया और फिर मिश्रण बनाने के लिए अलग-अलग रिकॉर्डिंग को इकट्ठा किया गया: ऑडियो मिश्रण बनाने के लिए अलग-अलग उच्च-गुणवत्ता वाली ऑडियो रिकॉर्डिंग को जोड़ा गया और दृश्य सामग्री को एक सामान्य पृष्ठभूमि के साथ एक वीडियो में संयोजित किया गया, जहाँ सभी खिलाड़ी बाएं से दाएं एक ही स्तर पर व्यवस्थित थे। प्रत्येक टुकड़े के लिए, डेटासेट MIDI प्रारूप में संगीत स्कोर, उच्च-गुणवत्ता वाले व्यक्तिगत वाद्य यंत्र ऑडियो रिकॉर्डिंग और इकट्ठे टुकड़ों के वीडियो प्रदान करता है। चित्र 1 में दिखाए गए डेटासेट में मौजूद वाद्य यंत्र चैम्बर ऑर्केस्ट्रा में आम वाद्य यंत्र हैं। अपनी सभी अच्छी विशेषताओं के बावजूद, यह एक छोटा डेटासेट है और इसलिए यह गहन शिक्षण आर्किटेक्चर के प्रशिक्षण के लिए उपयुक्त नहीं है।
संगीत वाद्ययंत्रों के प्रदर्शन की ऑडियो-विजुअल रिकॉर्डिंग के दो अन्य डेटासेट हाल ही में प्रस्तुत किए गए हैं: संगीत [23] और म्यूजिकईएस [31]। संगीत में 11 श्रेणियों में एकल के 536 रिकॉर्डिंग और युगल के 149 वीडियो शामिल हैं: अकॉर्डियन, ध्वनिक गिटार, सेलो, शहनाई, एर्हू, बांसुरी, सैक्सोफोन, तुरही, टुबा, वायलिन और ज़ाइलोफोन। यह डेटासेट YouTube से पूछताछ करके एकत्र किया गया था। म्यूजिकईएस [31] लगभग 1475 रिकॉर्डिंग के साथ अपने मूल आकार के तिगुने आकार का म्यूजिक का एक विस्तार है, लेकिन इसके बजाय 9 श्रेणियों में फैला हुआ है: अकॉर्डियन, गिटार, सेलो, बांसुरी, सैक्सोफोन, तुरही, टुबा, वायलिन और ज़ाइलोफोन। म्यूजिक और सोलोस में 7 सामान्य श्रेणियां हैं: वायलिन, सेलो सोलोस और म्यूजिकईएस एक दूसरे के पूरक हैं। दोनों के बीच केवल 5% का एक छोटा सा अंतर है, जिसका अर्थ है कि दोनों डेटासेट को एक बड़े डेटासेट में जोड़ा जा सकता है।
हम साहित्य में कई उदाहरण पा सकते हैं जो ऑडियो-विज़ुअल डेटासेट की उपयोगिता दिखाते हैं। पिक्सल की आवाज़ [23] ऑडियो स्रोत पृथक्करण करता है जो ऑडियो स्पेक्ट्रल घटकों को उत्पन्न करता है जिन्हें अलग-अलग स्रोतों को प्राप्त करने के लिए वीडियो स्ट्रीम से आने वाली दृश्य सुविधाओं का उपयोग करके आगे स्मार्ट तरीके से चुना जाता है। मिश्रण में मौजूद विभिन्न ध्वनियों को पुनरावर्ती तरीके से अलग करने के लिए इस विचार को [20] में आगे बढ़ाया गया था। प्रत्येक चरण में, सिस्टम मिश्रण में बचे हुए सबसे प्रमुख स्रोत से अलग करता है। मोशन की आवाज़ [19] ऑडियो स्रोत पृथक्करण को कंडीशन करने के लिए ऑप्टिकल फ्लो से प्राप्त घने प्रक्षेपवक्र का उपयोग करता है
यहां तक कि समान-वाद्य मिश्रणों को अलग करने के लिए भी। [18] में विभिन्न उपकरणों को अलग करने के लिए दृश्य कंडीशनिंग का भी उपयोग किया जाता है; प्रशिक्षण के दौरान, ऑब्जेक्ट की स्थिरता को लागू करने के लिए अलग-अलग ध्वनियों पर एक वर्गीकरण हानि का उपयोग किया जाता है और एक सह-पृथक्करण हानि अनुमानित व्यक्तिगत ध्वनियों को एक बार फिर से इकट्ठा होने पर मूल मिश्रण बनाने के लिए मजबूर करती है। [17] में, लेखकों ने एक ऊर्जा-आधारित विधि विकसित की है जो एक सक्रियण मैट्रिक्स के साथ एक गैर-नकारात्मक मैट्रिक्स फैक्टराइजेशन शब्द को कम करता है जिसे प्रति-स्रोत गति जानकारी वाले मैट्रिक्स से संरेखित करने के लिए मजबूर किया जाता है। इस गति मैट्रिक्स में प्रत्येक खिलाड़ी बाउंडिंग बॉक्स में क्लस्टर किए गए गति प्रक्षेपवक्र के औसत परिमाण वेग होते हैं।
हाल के कार्यों से दृश्य-श्रव्य कार्यों में कंकालों के बढ़ते उपयोग का पता चलता है। ऑडियो टू बॉडी डायनेमिक्स [29] में लेखक दिखाते हैं कि पियानो या वायलिन जैसे वाद्ययंत्र बजाने वाले खिलाड़ियों की हरकतों को पुन: पेश करने वाले कंकालों की भविष्यवाणी करना संभव है। चैम्बर संगीत प्रदर्शनों में शरीर या उंगली की गति जैसे कि नोट ऑनसेट या पिच में उतार-चढ़ाव के साथ ऑडियो-विजुअल पत्राचार स्थापित करने के लिए कंकाल उपयोगी साबित हुए हैं [21]। एक हालिया काम [32] साउंड ऑफ़ मोशन [19] के समान स्रोत पृथक्करण समस्या से निपटता है, लेकिन कंकाल की जानकारी द्वारा घने प्रक्षेपवक्र को प्रतिस्थापित करता है।
यह पेपर CC BY-NC-SA 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।