paint-brush
सोलोस: ऑडियो-विज़ुअल संगीत विश्लेषण के लिए एक डेटासेट - प्रयोगद्वारा@kinetograph
168 रीडिंग

सोलोस: ऑडियो-विज़ुअल संगीत विश्लेषण के लिए एक डेटासेट - प्रयोग

बहुत लंबा; पढ़ने के लिए

इस शोधपत्र में, शोधकर्ताओं ने सोलोस (Solos) नामक एक स्वच्छ डाटासेट प्रस्तुत किया है, जो विभिन्न दृश्य-श्रव्य कार्यों पर मशीन लर्निंग मॉडलों के प्रशिक्षण के लिए एकल संगीत प्रदर्शनों का एक स्वच्छ डाटासेट है।
featured image - सोलोस: ऑडियो-विज़ुअल संगीत विश्लेषण के लिए एक डेटासेट - प्रयोग
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

लेखक:

(1) जुआन एफ. मोंटेसिनोस, सूचना और संचार प्रौद्योगिकी विभाग यूनिवर्सिटैट पोम्पेउ फ़बरा, बार्सिलोना, स्पेन {[email protected]};

(2) ओल्गा स्लिज़ोवस्काया, सूचना और संचार प्रौद्योगिकी विभाग यूनिवर्सिटैट पोम्पेउ फ़बरा, बार्सिलोना, स्पेन {[email protected]};

(3) ग्लोरिया हारो, सूचना और संचार प्रौद्योगिकी विभाग यूनिवर्सिटैट पोम्पेउ फ़बरा, बार्सिलोना, स्पेन {[email protected]}।

लिंक की तालिका

IV. प्रयोग

सोलोस की उपयुक्तता दिखाने के लिए, हमने ब्लाइंड सोर्स सेपरेशन समस्या पर ध्यान केंद्रित किया है और नए डेटासेट पर द साउंड ऑफ़ पिक्सल्स (SoP) [23] और मल्टी-हेड यू-नेट (MHUNet) [34] मॉडल को प्रशिक्षित किया है। हमने चार प्रयोग किए हैं: i) हमने लेखकों द्वारा प्रदान किए गए SoP पूर्व-प्रशिक्षित मॉडल का मूल्यांकन किया है; ii) हमने SoP को स्क्रैच से प्रशिक्षित किया है; iii) हमने MUSIC पर पूर्व-प्रशिक्षित मॉडल के भार से शुरू करते हुए सोलोस पर SoP को फाइन-ट्यून किया है और iv) हमने मल्टी-हेड यू-नेट को स्क्रैच से प्रशिक्षित किया है। MHU-Net को पाठ्यक्रम सीखने की प्रक्रिया के बाद दो से सात तक भिन्न स्रोतों की संख्या के साथ मिश्रण को अलग करने के लिए प्रशिक्षित किया गया है क्योंकि यह परिणामों को बेहतर बनाता है। SoP को [23] में वर्णित इष्टतम रणनीति के अनुसार प्रशिक्षित किया गया है।


यूआरएमपी डेटासेट [1] पर उनके द्वारा प्रदान किए गए वास्तविक मिश्रणों का उपयोग करके मूल्यांकन किया जाता है। यूआरएमपी ट्रैक क्रमिक रूप से 6 सेकंड की अवधि के खंडों में विभाजित होते हैं। सभी परिणामी विभाजनों से मीट्रिक प्राप्त किए जाते हैं।


ए. आर्किटेक्चर और प्रशिक्षण विवरण


हमने बेसलाइन के रूप में द साउंड ऑफ़ पिक्सल्स को चुना है क्योंकि इसके वज़न सार्वजनिक रूप से उपलब्ध हैं और नेटवर्क को सीधे-सीधे तरीके से प्रशिक्षित किया गया है। SoP तीन मुख्य उपनेटवर्क से बना है: वीडियो-विश्लेषण नेटवर्क के रूप में एक विस्तृत रेसनेट [35], ऑडियो-प्रोसेसिंग नेटवर्क के रूप में एक यू-नेट [36] और एक ऑडियो सिंथेसाइज़र नेटवर्क। हम इसके परिणामों की तुलना मल्टी-हेड यू-नेट [34] से भी करते हैं।


यू-नेट [37] एक एनकोडर-डिकोडर आर्किटेक्चर है जिसमें बीच में स्किप कनेक्शन होते हैं। स्किप कनेक्शन मूल स्थानिक संरचना को पुनः प्राप्त करने में मदद करते हैं। एमएचयू-नेट एक कदम आगे है क्योंकि इसमें यथासंभव अधिक से अधिक डिकोडर शामिल हैं। प्रत्येक डिकोडर एक ही स्रोत में विशिष्ट है, इस प्रकार प्रदर्शन में सुधार होता है।


पिक्सल की ध्वनि [23] बायोमेडिकल इमेजिंग के लिए प्रस्तावित मूल यूनेट आर्किटेक्चर का पालन नहीं करती है, लेकिन [36] में वर्णित यूनेट, जिसे गायन आवाज पृथक्करण के लिए ट्यून किया गया था। प्रति ब्लॉक दो कन्वोल्यूशन के बाद अधिकतम-पूलिंग के बजाय, वे एक एकल कन्वोल्यूशन का उपयोग करते हैं


चित्र 2. विचारित आर्किटेक्चर। बाएँ, साउंड ऑफ़ पिक्सल्स: नेटवर्क एक मिक्सचर स्पेक्ट्रोग्राम को इनपुट के रूप में लेता है और वांछित स्रोत के विज़ुअल फ़ीचर वेक्टर को देखते हुए एक बाइनरी मास्क लौटाता है। दाएँ, मल्टी-हेड यू-नेट: यह एक मिक्सचर स्पेक्ट्रोग्राम को इनपुट के रूप में लेता है और 13 अनुपात मास्क लौटाता है, एक प्रति डिकोडर।


एक बड़ा कर्नेल और स्ट्राइडिंग। मूल कार्य सीखने योग्य मापदंडों के साथ एक केंद्रीय ब्लॉक का प्रस्ताव करता है जबकि केंद्रीय ब्लॉक SoP में एक स्थिर अव्यक्त स्थान है। यू-नेट का उपयोग व्यापक रूप से कई आर्किटेक्चर की रीढ़ के रूप में किया जाता है जैसे कि इमेज जेनरेशन [38], शोर दमन और सुपर-रिज़ॉल्यूशन [39], इमेज-टू-इमेज ट्रांसलेशन [40], इमेज सेगमेंटेशन [37] या ऑडियो स्रोत पृथक्करण [36]। SoP U-Net में क्रमशः 32, 64, 128, 256, 512, 512 और 512 चैनलों वाले 7 ब्लॉक होते हैं (MHU-Net के लिए 6 ब्लॉक)। अव्यक्त स्थान को एनकोडर का अंतिम आउटपुट माना जा सकता है। डाइलेटेड रेसनेट एक रेसनेट जैसा आर्किटेक्चर है यू-नेट का आउटपुट 32 स्पेक्ट्रल घटकों (चैनल) का एक सेट है जो एसओपी के मामले में इनपुट स्पेक्ट्रोग्राम से समान आकार के होते हैं, और एमएचयू-नेट के मामले में प्रति डिकोडर एक एकल स्रोत होता है। एक प्रतिनिधि फ्रेम दिए जाने पर, डाइलेटेड रेसनेट का उपयोग करके दृश्य सुविधाएँ प्राप्त की जाती हैं। ये दृश्य विशेषताएँ 32 तत्वों (जो यूनेट के आउटपुट चैनलों की संख्या के अनुरूप हैं) के एक वेक्टर के अलावा और कुछ नहीं हैं जिनका उपयोग उचित स्पेक्ट्रल घटकों का चयन करने के लिए किया जाता है। यह चयन ऑडियो विश्लेषण नेटवर्क द्वारा किया जाता है जिसमें 32 सीखने योग्य पैरामीटर, αk, प्लस एक पूर्वाग्रह, β शामिल होते हैं। इस ऑपरेशन को गणितीय रूप से इस प्रकार वर्णित किया जा सकता है:



जहाँ Sk(t, f) समय-आवृत्ति बिन (t, f) पर k-वें अनुमानित वर्णक्रमीय घटक है।


चित्र 2 SoP विन्यास को दर्शाता है। यह उजागर करना दिलचस्प है कि स्पेक्ट्रल घटकों का चयन करने के लिए विज़ुअल नेटवर्क को बनाना इसे अप्रत्यक्ष रूप से उपकरण स्थानीयकरण सीखने के लिए मजबूर करता है, जिसे सक्रियण मानचित्रों के माध्यम से अनुमान लगाया जा सकता है।




एसओपी और एमएचयू-नेट दोनों के लिए ग्राउंड-ट्रुथ मास्क गणना समीकरण (2) और समीकरण (3), खंड IV-C में वर्णित है।


बी. डेटा प्री-प्रोसेसिंग


उपर्युक्त आर्किटेक्चर को प्रशिक्षित करने के लिए, ऑडियो को 11025 हर्ट्ज और 16 बिट पर फिर से सैंपल किया जाता है। नेटवर्क में फीड किए गए सैंपल 6 सेकंड की अवधि के होते हैं। हम तरंगों के समय-आवृत्ति अभ्यावेदन प्राप्त करने के लिए शॉर्ट-टाइम फूरियर ट्रांसफॉर्म (STFT) का उपयोग करते हैं। [23] का अनुसरण करते हुए, STFT की गणना 1022 लंबाई और 256 हॉप लंबाई की हैनिंग विंडो का उपयोग करके की जाती है ताकि हम 6 सेकंड के सैंपल के लिए 512×256 आकार का स्पेक्ट्रोग्राम प्राप्त कर सकें। बाद में, हम आवृत्ति अक्ष पर लॉग री-स्केल लागू करते हैं जो निचली आवृत्तियों का विस्तार करता है और उच्च आवृत्तियों को संपीड़ित करता है। अंत में, हम प्रत्येक स्पेक्ट्रोग्राम के न्यूनतम मान के अनुसार परिमाण स्पेक्ट्रोग्राम को dB में परिवर्तित करते हैं और -1 और 1 के बीच सामान्य करते हैं।


सी. ग्राउंड-ट्रुथ मास्क


ग्राउंड-ट्रुथ मास्क कंप्यूटेशन शुरू करने से पहले हम कुछ बातों पर ध्यान देना चाहेंगे। मानक फ़्लोटिंगपॉइंट ऑडियो फ़ॉर्मेट एक तरंग को -1 और 1 के बीच सीमित करने के लिए बाध्य करता है। कृत्रिम मिश्रण बनाते समय परिणामी तरंग इन सीमाओं से बाहर हो सकती हैं। इससे तंत्रिका नेटवर्क को ओवरफ़िट के शॉर्टकट खोजने में मदद मिल सकती है। इस व्यवहार से बचने के लिए स्पेक्ट्रोग्राम को समय-आवृत्ति डोमेन में समतुल्य सीमाओं के अनुसार क्लैंप किया जाता है।


असतत लघु-समय फ़ूरियर रूपांतरण की गणना [42] में वर्णित अनुसार की जा सकती है:



तालिका II बेंचमार्क परिणाम (माध्य ± मानक विचलन)। एसओपी: पिक्सेल की ध्वनि मूल भार, एसओपी-सोलोस: सोलोस पर स्क्रैच से प्रशिक्षित पिक्सेल की ध्वनि। एसओपी-एफटी: सोलोस पर फाइनट्यून की गई पिक्सेल की ध्वनि। एमएचयू-नेट: 13 डिकोडर के साथ मल्टी-हेड यू-नेट।


साउंड ऑफ पिक्सल्स के प्रशिक्षण के लिए हमने पूरक बाइनरी मास्क का उपयोग ग्राउंड-ट्रुथ मास्क के रूप में किया है, जिसे इस प्रकार परिभाषित किया गया है:



मल्टी-हेड यू-नेट को पूरक अनुपात मास्क के साथ प्रशिक्षित किया गया है, जिसे इस प्रकार परिभाषित किया गया है:



डी. परिणाम


[43] में प्रस्तावित स्रोत से विरूपण अनुपात (एसडीआर), स्रोत से हस्तक्षेप अनुपात (एसआईआर), स्रोत से कलाकृति अनुपात (एसएआर) के बेंचमार्क परिणाम माध्य और मानक विचलन के संदर्भ में तालिका II में दिखाए गए हैं। जैसा कि देखा जा सकता है, अपने मूल भार का उपयोग करके मूल्यांकन किए गए साउंड ऑफ पिक्सल्स सबसे खराब प्रदर्शन करते हैं। इसका एक संभावित कारण MUSIC डेटासेट पर कुछ URMP श्रेणियों की अनुपस्थिति हो सकती है। यदि हम नेटवर्क को सोलोस पर स्क्रैच से प्रशिक्षित करते हैं, तो परिणाम लगभग 1 डीबी तक सुधर जाते हैं। हालांकि, सोलोस पर MUSIC के साथ पूर्व-प्रशिक्षित नेटवर्क को फाइन-ट्यूनिंग करके और भी बेहतर परिणाम प्राप्त करना संभव है। हम अनुमान लगाते हैं कि सुधार तब होता है जब नेटवर्क बहुत अधिक प्रशिक्षण डेटा के संपर्क में आता है


यह पेपर CC BY-NC-SA 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।