paint-brush
सोलोस: ऑडियो-विज़ुअल संगीत विश्लेषण के लिए एक डेटासेट- निष्कर्ष और संदर्भ द्वारा@kinetograph
133 रीडिंग

सोलोस: ऑडियो-विज़ुअल संगीत विश्लेषण के लिए एक डेटासेट- निष्कर्ष और संदर्भ

द्वारा Kinetograph: The Video Editing Technology Publication
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture

Kinetograph: The Video Editing Technology Publication

@kinetograph

The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover...

7 मिनट read2024/06/08
Read on Terminal Reader
Read this story in a terminal
Print this story

बहुत लंबा; पढ़ने के लिए

इस शोधपत्र में, शोधकर्ताओं ने सोलोस (Solos) नामक एक स्वच्छ डाटासेट प्रस्तुत किया है, जो विभिन्न दृश्य-श्रव्य कार्यों पर मशीन लर्निंग मॉडलों के प्रशिक्षण के लिए एकल संगीत प्रदर्शनों का एक स्वच्छ डाटासेट है।
featured image - सोलोस: ऑडियो-विज़ुअल संगीत विश्लेषण के लिए एक डेटासेट- निष्कर्ष और संदर्भ
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
Kinetograph: The Video Editing Technology Publication

Kinetograph: The Video Editing Technology Publication

@kinetograph

The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover cutting edge tech for video editing.

0-item

STORY’S CREDIBILITY

Academic Research Paper

Academic Research Paper

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

लेखक:

(1) जुआन एफ. मोंटेसिनोस, सूचना और संचार प्रौद्योगिकी विभाग यूनिवर्सिटैट पोम्पेउ फ़बरा, बार्सिलोना, स्पेन {juanfelipe.montesinos@upf.edu};

(2) ओल्गा स्लिज़ोवस्काया, सूचना और संचार प्रौद्योगिकी विभाग यूनिवर्सिटैट पोम्पेउ फ़बरा, बार्सिलोना, स्पेन {olga.slizovskaia@upf.edu};

(3) ग्लोरिया हारो, सूचना एवं संचार प्रौद्योगिकी विभाग, यूनिवर्सिटैट पोम्पेउ फ़बरा, बार्सिलोना, स्पेन {gloria.haro@upf.edu}.

लिंक की तालिका

V. निष्कर्ष

हमने सोलोस प्रस्तुत किया है, जो एकल कलाकारों की संगीत रिकॉर्डिंग का एक नया ऑडियो-विज़ुअल डेटासेट है, जो मिक्स-एंड-सेपरेट रणनीति का उपयोग करके स्रोत पृथक्करण, ध्वनि स्थानीयकरण, क्रॉस-मोडल पीढ़ी और ऑडियो-विज़ुअल पत्राचार खोजने जैसे विभिन्न स्व-पर्यवेक्षित सीखने के कार्यों के लिए उपयुक्त है। डेटासेट में 13 अलग-अलग उपकरण हैं; वे चैंबर ऑर्केस्ट्रा में आम उपकरण हैं और रोचेस्टर मल्टी-मोडल म्यूज़िक परफ़ॉर्मेंस (URMP) डेटासेट [1] में शामिल हैं। URMP की विशेषताएँ - ग्राउंड ट्रुथ इंडिविजुअल स्टेम के साथ वास्तविक प्रदर्शनों का छोटा डेटासेट - इसे परीक्षण उद्देश्यों के लिए एक उपयुक्त डेटासेट बनाता है लेकिन हमारे सर्वोत्तम ज्ञान के अनुसार, आज तक URMP में समान उपकरणों के साथ कोई मौजूदा बड़े पैमाने का डेटासेट नहीं है। U-Net आर्किटेक्चर पर आधारित ऑडियो-विज़ुअल स्रोत पृथक्करण के लिए दो अलग-अलग नेटवर्क को नए डेटासेट में प्रशिक्षित किया गया है और URMP में आगे का मूल्यांकन किया गया है, जो परीक्षण सेट के समान उपकरणों के एक ही सेट पर प्रशिक्षण के प्रभाव को दर्शाता है। इसके अलावा, सोलोस वीडियो अंतराल के लिए कंकाल और टाइमस्टैम्प प्रदान करता है जहां हाथ पर्याप्त रूप से दिखाई देते हैं। यह जानकारी प्रशिक्षण उद्देश्यों के लिए तथा ध्वनि स्थानीयकरण के कार्य को हल करने के लिए सीखने में भी उपयोगी हो सकती है।

प्रतिक्रिया दें संदर्भ

[1] बी. ली, एक्स. लियू, के. दिनेश, जेड. डुआन और जी. शर्मा, "मल्टीमॉडल संगीत विश्लेषण के लिए मल्टीट्रैक शास्त्रीय संगीत प्रदर्शन डेटासेट बनाना: चुनौतियाँ, अंतर्दृष्टि और अनुप्रयोग," आईईईई ट्रांजेक्शन ऑन मल्टीमीडिया, वॉल्यूम 21, नंबर 2, पृष्ठ 522-535, फरवरी 2019।


[2] बी. ली, के. दिनेश, जेड. डुआन और जी. शर्मा, “देखें और सुनें: चैम्बर संगीत प्रदर्शन वीडियो में साउंड ट्रैक्स का प्लेयर्स से स्कोर-सूचित जुड़ाव,” 2017 IEEE इंटरनेशनल कॉन्फ्रेंस ऑन एकॉस्टिक्स, स्पीच एंड सिग्नल प्रोसेसिंग (ICASSP) में। IEEE, 2017, पृष्ठ 2906-2910।


[3] ई.सी. चेरी, "एक और दो कानों से भाषण की पहचान पर कुछ प्रयोग," द जर्नल ऑफ द एकॉस्टिकल सोसाइटी ऑफ अमेरिका, खंड 25, संख्या 5, पृ. 975-979, 1953.


[4] ए. हाइवरिनन और ई. ओजा, "स्वतंत्र घटक विश्लेषण: एल्गोरिदम और अनुप्रयोग," न्यूरल नेटवर्क, खंड 13, संख्या 4-5, पृष्ठ 411-430, 2000।


[5] एम. ज़िबुलवस्की और बी.ए. पर्लमटर, "सिग्नल डिक्शनरी में विरल अपघटन द्वारा अंधा स्रोत पृथक्करण," न्यूरल कंप्यूटेशन, खंड 13, संख्या 4, पृष्ठ 863-882, 2001।


[6] टी. विरटेनन, "टेम्पोरल निरंतरता और विरलता मानदंड के साथ गैर-नकारात्मक मैट्रिक्स फैक्टराइजेशन द्वारा मोनोरल ध्वनि स्रोत पृथक्करण," ऑडियो, भाषण और भाषा प्रसंस्करण पर आईईईई लेनदेन, खंड 15, संख्या 3, पृष्ठ 1066-1074, 2007।


[7] डीपीडब्ल्यू एलिस, “पूर्वानुमान-संचालित कम्प्यूटेशनल श्रवण दृश्य विश्लेषण,” पीएचडी शोध प्रबंध, मैसाचुसेट्स इंस्टीट्यूट ऑफ टेक्नोलॉजी, 1996।


[8] पी. स्मार्गडिस, बी. राज, और एम. शशांक, "ध्वनिक मॉडलिंग के लिए एक संभाव्य अव्यक्त चर मॉडल," ध्वनिक प्रसंस्करण के लिए मॉडल में प्रगति, एनआईपीएस, खंड 148, पृष्ठ 8-1, 2006।


[9] पी. चांदना, एम. मिरॉन, जे. जेनेर, और ई. गोमेज़, "डीप कन्वोल्यूशनल न्यूरल नेटवर्क का उपयोग करके मोनोऑरल ऑडियो स्रोत´ पृथक्करण," लेटेंट वेरिएबल एनालिसिस एंड सिग्नल सेपरेशन पर अंतर्राष्ट्रीय सम्मेलन, 2017, पृष्ठ 258-266।


[10] डी. स्टोलर, एस. इवर्ट, और एस. डिक्सन, "वेव-यू-नेट: एंड-टू-एंड ऑडियो सोर्स सेपरेशन के लिए एक मल्टी-स्केल न्यूरल नेटवर्क," arXiv प्रीप्रिंट arXiv:1806.03185, 2018।


[11] जेआर हर्षे और जेआर मूवेलन, “ऑडियो विज़न: ध्वनियों का पता लगाने के लिए ऑडियो-विज़ुअल सिंक्रोनाइज़ेशन का उपयोग करना,” एडवांस इन न्यूरल इंफॉर्मेशन प्रोसेसिंग सिस्टम्स, 2000, पृ. 813-819.


[12] ई. किड्रॉन, वाई.वाई शेचनर, और एम. एलाद, "पिक्सल्स दैट साउंड," कंप्यूटर विज़न एंड पैटर्न रिकॉग्निशन में, 2005. सीवीपीआर 2005. आईईईई कंप्यूटर सोसाइटी कॉन्फ्रेंस ऑन, वॉल्यूम 1, 2005, पृष्ठ 88-95.


[13] टी. डेरेल, जे.डब्ल्यू. फिशर, और पी. वियोला, "ऑडियो-विजुअल सेगमेंटेशन और कॉकटेल पार्टी प्रभाव," एडवांस इन मल्टीमॉडल इंटरफेसआईसीएमआई 2000, 2000, पृ. 32-40.


[14] डी. सोडोयर, जे.-एल. श्वार्ट्ज, एल. गिरिन, जे. क्लिंकिश और सी. जुटन, "ऑडियो-विज़ुअल भाषण स्रोतों का पृथक्करण: भाषण उत्तेजनाओं के ऑडियो-विज़ुअल सुसंगतता का दोहन करने वाला एक नया दृष्टिकोण," सिग्नल प्रोसेसिंग में प्रगति पर EURASIP जर्नल, वॉल्यूम. 2002, संख्या. 11, पृष्ठ. 382823, 2002.


[15] बी. रिवेट, एल. गिरिन, और सी. जुटन, "कन्वोल्यूटिव मिक्सचर से स्पीच सिग्नल निकालने के लिए ऑडियोविजुअल स्पीच प्रोसेसिंग और ब्लाइंड सोर्स सेपरेशन का मिश्रण," IEEE ट्रांजेक्शन ऑन ऑडियो, स्पीच, एंड लैंग्वेज प्रोसेसिंग, वॉल्यूम 15, नंबर 1, पीपी. 96-108, 2007.


[16] बी. ली, सी. जू, और जेड. डुआन, "मल्टी-मोडल वाइब्रेटो विश्लेषण के माध्यम से स्ट्रिंग एन्सेम्बल के लिए ऑडियोविज़ुअल स्रोत एसोसिएशन," प्रोक. साउंड एंड म्यूज़िक कंप्यूटिंग (एसएमसी), 2017.


[17] एस. पारेख, एस. एस्सिड, ए. ओज़ेरोव, एनक्यू डुओंग, पी. पेरेज़, और जी. रिचर्ड, ´ "वीडियो ऑब्जेक्ट जानकारी द्वारा ऑडियो स्रोत पृथक्करण का मार्गदर्शन करना," ऑडियो और ध्वनिकी के लिए सिग्नल प्रोसेसिंग के अनुप्रयोग (WASPAA), 2017 IEEE कार्यशाला में, 2017, पृष्ठ 61-65।


[18] आर. गाओ और के. ग्रूमैन, "दृश्य वस्तुओं की ध्वनियों को सह-पृथक करना," कंप्यूटर विज़न पर आईईईई अंतर्राष्ट्रीय सम्मेलन की कार्यवाही में, 2019, पृष्ठ 3879-3888।


[19] एच. झाओ, सी. गण, डब्ल्यू.-सी. मा, और ए. टोराल्बा, "गति की ध्वनि," आईईईई इंटरनेशनल कॉन्फ्रेंस ऑन कंप्यूटर विज़न की कार्यवाही में, 2019, पृष्ठ 1735-1744।


[20] एक्स. जू, बी. दाई, और डी. लिन, "माइनस-प्लस नेट का उपयोग करके पुनरावर्ती दृश्य ध्वनि पृथक्करण," आईईईई इंटरनेशनल कॉन्फ्रेंस ऑन कंप्यूटर विज़न की कार्यवाही में, 2019, पृष्ठ 882-891।


[21] बी. ली, के. दिनेश, सी. जू, जी. शर्मा, और जेड. डुआन, "चैम्बर संगीत प्रदर्शन के लिए ऑनलाइन ऑडियो-विज़ुअल स्रोत एसोसिएशन," इंटरनेशनल सोसाइटी फ़ॉर म्यूज़िक इंफ़ॉर्मेशन रिट्रीवल के लेन-देन, खंड 2, संख्या 1, 2019।


[22] आर. अरंडजेलोविक और ए. ज़िस्सरमैन, “ऑब्जेक्ट्स दैट साउंड,” ´आईईईई यूरोपीय सम्मेलन ऑन कंप्यूटर विज़न की कार्यवाही में, 2018।


[23] एच. झाओ, सी. गण, ए. रौडिचेंको, सी. वोंड्रिक, जे. मैकडरमॉट, और ए. टोराल्बा, "पिक्सल की आवाज़," कंप्यूटर विज़न पर यूरोपीय सम्मेलन (ईसीसीवी), सितंबर 2018 में।


[24] ए. ओवेन्स और एए एफ़्रोस, "स्व-पर्यवेक्षित बहु-संवेदी विशेषताओं के साथ ऑडियो-विज़ुअल दृश्य विश्लेषण," arXiv प्रीप्रिंट arXiv:1804.03641, 2018।


[25] बी. कोरबार, डी. ट्रान, और एल. टोरेसानी, “स्व-पर्यवेक्षित सिंक्रनाइज़ेशन से ऑडियो और वीडियो मॉडल का सहकारी शिक्षण,” एडवांस इन न्यूरल इंफॉर्मेशन प्रोसेसिंग सिस्टम्स, 2018, पृ. 7763-7774.


[26] टी.-एच. ओह, टी. डेकेल, सी. किम, आई. मोसेरी, डब्ल्यूटी फ्रीमैन, एम. रुबिनस्टीन, और डब्ल्यू. माटुसिक, "स्पीच2फेस: वॉयस के पीछे का चेहरा सीखना," कंप्यूटर विज़न और पैटर्न रिकॉग्निशन पर आईईईई सम्मेलन की कार्यवाही में, 2019, पृष्ठ 7539-7548।


[27] एल. चेन, एस. श्रीवास्तव, जेड. डुआन, और सी. जू, "डीप क्रॉस-मोडल ऑडियोविजुअल जेनरेशन," एसीएम मल्टीमीडिया 2017 की विषयगत कार्यशालाओं की कार्यवाही में, 2017, पृ. 349-357.


[28] वाई. झोउ, जेड. वांग, सी. फैंग, टी. बुई, और टीएल बर्ग, "विज़ुअल टू साउंड: वाइल्ड में वीडियो के लिए प्राकृतिक ध्वनि उत्पन्न करना," कंप्यूटर विज़न और पैटर्न रिकॉग्निशन पर आईईईई सम्मेलन की कार्यवाही में, 2018, पृष्ठ 3550-3558।


[29] ई. श्लीज़रमैन, एलएम डेरी, एच. स्कोन, और आई. केमेलमाकर-श्लीज़रमैन, “ऑडियो टू बॉडी डायनेमिक्स,” सीवीपीआर, आईईईई कंप्यूटर सोसाइटी कॉन्फ्रेंस ऑन कंप्यूटर विज़न एंड पैटर्न रिकॉग्निशन, 2017।


[30] एस. गिनोसार, ए. बार, जी. कोहावी, सी. चैन, ए. ओवेन्स, और जे. मलिक, "संवादात्मक हावभाव की व्यक्तिगत शैलियों को सीखना," कंप्यूटर विज़न और पैटर्न रिकॉग्निशन पर आईईईई सम्मेलन की कार्यवाही में, 2019, पृष्ठ 3497-3506।


[31] एच. झोउ, जेड. लियू, एक्स. जू, पी. लुओ, और एक्स. वांग, "विज़न-इन्फ्यूज्ड डीप ऑडियो इनपेंटिंग," आईईईई इंटरनेशनल कॉन्फ्रेंस ऑन कंप्यूटर विज़न (आईसीसीवी), अक्टूबर 2019 में।


[32] सी. गण, डी. हुआंग, एच. झाओ, जेबी टेनेनबाम, और ए. टोराल्बा, "दृश्य ध्वनि पृथक्करण के लिए संगीत इशारा," कंप्यूटर विज़न और पैटर्न मान्यता पर आईईईई/सीवीएफ सम्मेलन की कार्यवाही में, 2020, पृष्ठ 10 478-10 487।


[33] जेड. काओ, जी. हिडाल्गो मार्टिनेज, टी. साइमन, एस. वेई, और वाईए शेख, "ओपनपोज़: रियलटाइम मल्टी-पर्सन 2डी पोज़ एस्टीमेशन यूजिंग पार्ट एफिनिटी फ़ील्ड्स," आईईईई ट्रांजेक्शन ऑन पैटर्न एनालिसिस एंड मशीन इंटेलिजेंस, 2019।


[34] सीएसजे डोइरे और ओ. ओकुबडेजो, "स्वतंत्र डेटाबेस के साथ ऑडियो स्रोत पृथक्करण के लिए इंटरलीव्ड मल्टीटास्क लर्निंग," अर्क्सिव, वॉल्यूम. एब्स/1908.05182, 2019.


[35] एफ. यू, वी. कोल्टुन, और टी. फंकहाउसर, "डाइलेटेड रेसिडुअल नेटवर्क," कंप्यूटर विज़न एंड पैटर्न रिकॉग्निशन (सीवीपीआर), 2017 में।


[36] ए. जानसन, ई. हम्फ्रे, एन. मोंटेकियो, आर. बिटनर, ए. कुमार, और टी. वेयडे, "डीप यू-नेट कन्वोल्यूशनल नेटवर्क के साथ गायन आवाज़ का पृथक्करण," 18वें इंटरनेशनल सोसाइटी फ़ॉर म्यूज़िक इन्फ़ॉर्मेशन रिट्रीवल कॉन्फ्रेंस में, 2017, पृष्ठ 23-27.


[37] ओ. रोनेबर्गर, पी. फिशर, और टी. ब्रॉक्स, “यू-नेट: बायोमेडिकल इमेज सेगमेंटेशन के लिए कन्वोल्यूशनल नेटवर्क,” मेडिकल इमेज कंप्यूटिंग और कंप्यूटर-असिस्टेड इंटरवेंशन पर अंतर्राष्ट्रीय सम्मेलन में। स्प्रिंगर, 2015, पृष्ठ 234-241।


[38] जी. लियू, जे. सी, वाई. हू, और एस. ली, “बेहतर यू-नेट के साथ फोटोग्राफिक छवि संश्लेषण,” 2018 में उन्नत कम्प्यूटेशनल इंटेलिजेंस (आईसीएसीआई) पर दसवां अंतर्राष्ट्रीय सम्मेलन, मार्च 2018, पृ. 402-407.


[39] एक्स. माओ, सी. शेन, और वाई.-बी. यांग, “सममित स्किप कनेक्शन के साथ बहुत गहरे कन्वोल्यूशनल एनकोडर-डिकोडर नेटवर्क का उपयोग करके छवि बहाली,” एडवांस इन न्यूरल इंफॉर्मेशन प्रोसेसिंग सिस्टम, 2016, पृष्ठ 2802-2810।


[40] पी. इसोला, जे.-वाई. झू, टी. झोउ, और एए एफ़्रोस, “सशर्त प्रतिकूल नेटवर्क के साथ छवि-से-छवि अनुवाद,” आर्क्सिव, 2016।


[41] डीपी किंग्मा और जे. बा, “एडम: स्टोकेस्टिक ऑप्टिमाइज़ेशन के लिए एक विधि,” सीओआरआर, वॉल्यूम. एब्स/1412.6980, 2014.


[42] “अध्याय 7 - आवृत्ति डोमेन प्रसंस्करण,” डिजिटल सिग्नल प्रोसेसिंग सिस्टम डिज़ाइन (दूसरा संस्करण) में, दूसरा संस्करण संपादित, एन. केहटरनवाज़, एड. बर्लिंगटन: अकादमिक प्रेस, 2008, पृ. 175 - 196.


[43] ई. विंसेंट, आर. ग्रिबोनवाल, और सी. फेवोटे, "ब्लाइंड ऑडियो सोर्स सेपरेशन में प्रदर्शन मापन," आईईईई ट्रांजेक्शन ऑन ऑडियो, स्पीच, एंड लैंग्वेज प्रोसेसिंग, खंड 14, संख्या 4, पृष्ठ 1462-1469, 2006।

यह पेपर CC BY-NC-SA 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।


L O A D I N G
. . . comments & more!

About Author

Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
Kinetograph: The Video Editing Technology Publication@kinetograph
The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover cutting edge tech for video editing.

लेबल

इस लेख में चित्रित किया गया था...

Read on Terminal Reader
Read this story in a terminal
 Terminal
Read this story w/o Javascript
Read this story w/o Javascript
 Lite
X REMOVE AD