लेखक:  (1) जुआन एफ. मोंटेसिनोस, सूचना और संचार प्रौद्योगिकी विभाग यूनिवर्सिटैट पोम्पेउ फ़बरा, बार्सिलोना, स्पेन {juanfelipe.montesinos@upf.edu};  (2) ओल्गा स्लिज़ोवस्काया, सूचना और संचार प्रौद्योगिकी विभाग यूनिवर्सिटैट पोम्पेउ फ़बरा, बार्सिलोना, स्पेन {olga.slizovskaia@upf.edu};  (3) ग्लोरिया हारो, सूचना और संचार प्रौद्योगिकी विभाग यूनिवर्सिटैट पोम्पेउ फ़बरा, बार्सिलोना, स्पेन {gloria.haro@upf.edu}।  लिंक की तालिका   सार और परिचय   संबंधित कार्य   डेटासेट   प्रयोगों   निष्कर्ष और संदर्भ  IV. प्रयोग  सोलोस की उपयुक्तता दिखाने के लिए, हमने ब्लाइंड सोर्स सेपरेशन समस्या पर ध्यान केंद्रित किया है और नए डेटासेट पर द साउंड ऑफ़ पिक्सल्स (SoP) [23] और मल्टी-हेड यू-नेट (MHUNet) [34] मॉडल को प्रशिक्षित किया है। हमने चार प्रयोग किए हैं: i) हमने लेखकों द्वारा प्रदान किए गए SoP पूर्व-प्रशिक्षित मॉडल का मूल्यांकन किया है; ii) हमने SoP को स्क्रैच से प्रशिक्षित किया है; iii) हमने MUSIC पर पूर्व-प्रशिक्षित मॉडल के भार से शुरू करते हुए सोलोस पर SoP को फाइन-ट्यून किया है और iv) हमने मल्टी-हेड यू-नेट को स्क्रैच से प्रशिक्षित किया है। MHU-Net को पाठ्यक्रम सीखने की प्रक्रिया के बाद दो से सात तक भिन्न स्रोतों की संख्या के साथ मिश्रण को अलग करने के लिए प्रशिक्षित किया गया है क्योंकि यह परिणामों को बेहतर बनाता है। SoP को [23] में वर्णित इष्टतम रणनीति के अनुसार प्रशिक्षित किया गया है।  यूआरएमपी डेटासेट [1] पर उनके द्वारा प्रदान किए गए वास्तविक मिश्रणों का उपयोग करके मूल्यांकन किया जाता है। यूआरएमपी ट्रैक क्रमिक रूप से 6 सेकंड की अवधि के खंडों में विभाजित होते हैं। सभी परिणामी विभाजनों से मीट्रिक प्राप्त किए जाते हैं।   ए. आर्किटेक्चर और प्रशिक्षण विवरण  हमने बेसलाइन के रूप में द साउंड ऑफ़ पिक्सल्स को चुना है क्योंकि इसके वज़न सार्वजनिक रूप से उपलब्ध हैं और नेटवर्क को सीधे-सीधे तरीके से प्रशिक्षित किया गया है। SoP तीन मुख्य उपनेटवर्क से बना है: वीडियो-विश्लेषण नेटवर्क के रूप में एक विस्तृत रेसनेट [35], ऑडियो-प्रोसेसिंग नेटवर्क के रूप में एक यू-नेट [36] और एक ऑडियो सिंथेसाइज़र नेटवर्क। हम इसके परिणामों की तुलना मल्टी-हेड यू-नेट [34] से भी करते हैं।  यू-नेट [37] एक एनकोडर-डिकोडर आर्किटेक्चर है जिसमें बीच में स्किप कनेक्शन होते हैं। स्किप कनेक्शन मूल स्थानिक संरचना को पुनः प्राप्त करने में मदद करते हैं। एमएचयू-नेट एक कदम आगे है क्योंकि इसमें यथासंभव अधिक से अधिक डिकोडर शामिल हैं। प्रत्येक डिकोडर एक ही स्रोत में विशिष्ट है, इस प्रकार प्रदर्शन में सुधार होता है।  पिक्सल की ध्वनि [23] बायोमेडिकल इमेजिंग के लिए प्रस्तावित मूल यूनेट आर्किटेक्चर का पालन नहीं करती है, लेकिन [36] में वर्णित यूनेट, जिसे गायन आवाज पृथक्करण के लिए ट्यून किया गया था। प्रति ब्लॉक दो कन्वोल्यूशन के बाद अधिकतम-पूलिंग के बजाय, वे एक एकल कन्वोल्यूशन का उपयोग करते हैं   एक बड़ा कर्नेल और स्ट्राइडिंग। मूल कार्य सीखने योग्य मापदंडों के साथ एक केंद्रीय ब्लॉक का प्रस्ताव करता है जबकि केंद्रीय ब्लॉक SoP में एक स्थिर अव्यक्त स्थान है। यू-नेट का उपयोग व्यापक रूप से कई आर्किटेक्चर की रीढ़ के रूप में किया जाता है जैसे कि इमेज जेनरेशन [38], शोर दमन और सुपर-रिज़ॉल्यूशन [39], इमेज-टू-इमेज ट्रांसलेशन [40], इमेज सेगमेंटेशन [37] या ऑडियो स्रोत पृथक्करण [36]। SoP U-Net में क्रमशः 32, 64, 128, 256, 512, 512 और 512 चैनलों वाले 7 ब्लॉक होते हैं (MHU-Net के लिए 6 ब्लॉक)। अव्यक्त स्थान को एनकोडर का अंतिम आउटपुट माना जा सकता है। डाइलेटेड रेसनेट एक रेसनेट जैसा आर्किटेक्चर है यू-नेट का आउटपुट 32 स्पेक्ट्रल घटकों (चैनल) का एक सेट है जो एसओपी के मामले में इनपुट स्पेक्ट्रोग्राम से समान आकार के होते हैं, और एमएचयू-नेट के मामले में प्रति डिकोडर एक एकल स्रोत होता है। एक प्रतिनिधि फ्रेम दिए जाने पर, डाइलेटेड रेसनेट का उपयोग करके दृश्य सुविधाएँ प्राप्त की जाती हैं। ये दृश्य विशेषताएँ 32 तत्वों (जो यूनेट के आउटपुट चैनलों की संख्या के अनुरूप हैं) के एक वेक्टर के अलावा और कुछ नहीं हैं जिनका उपयोग उचित स्पेक्ट्रल घटकों का चयन करने के लिए किया जाता है। यह चयन ऑडियो विश्लेषण नेटवर्क द्वारा किया जाता है जिसमें 32 सीखने योग्य पैरामीटर, αk, प्लस एक पूर्वाग्रह, β शामिल होते हैं। इस ऑपरेशन को गणितीय रूप से इस प्रकार वर्णित किया जा सकता है:   जहाँ Sk(t, f) समय-आवृत्ति बिन (t, f) पर k-वें अनुमानित वर्णक्रमीय घटक है।  चित्र 2 SoP विन्यास को दर्शाता है। यह उजागर करना दिलचस्प है कि स्पेक्ट्रल घटकों का चयन करने के लिए विज़ुअल नेटवर्क को बनाना इसे अप्रत्यक्ष रूप से उपकरण स्थानीयकरण सीखने के लिए मजबूर करता है, जिसे सक्रियण मानचित्रों के माध्यम से अनुमान लगाया जा सकता है।   एसओपी और एमएचयू-नेट दोनों के लिए ग्राउंड-ट्रुथ मास्क गणना समीकरण (2) और समीकरण (3), खंड IV-C में वर्णित है।   बी. डेटा प्री-प्रोसेसिंग  उपर्युक्त आर्किटेक्चर को प्रशिक्षित करने के लिए, ऑडियो को 11025 हर्ट्ज और 16 बिट पर फिर से सैंपल किया जाता है। नेटवर्क में फीड किए गए सैंपल 6 सेकंड की अवधि के होते हैं। हम तरंगों के समय-आवृत्ति अभ्यावेदन प्राप्त करने के लिए शॉर्ट-टाइम फूरियर ट्रांसफॉर्म (STFT) का उपयोग करते हैं। [23] का अनुसरण करते हुए, STFT की गणना 1022 लंबाई और 256 हॉप लंबाई की हैनिंग विंडो का उपयोग करके की जाती है ताकि हम 6 सेकंड के सैंपल के लिए 512×256 आकार का स्पेक्ट्रोग्राम प्राप्त कर सकें। बाद में, हम आवृत्ति अक्ष पर लॉग री-स्केल लागू करते हैं जो निचली आवृत्तियों का विस्तार करता है और उच्च आवृत्तियों को संपीड़ित करता है। अंत में, हम प्रत्येक स्पेक्ट्रोग्राम के न्यूनतम मान के अनुसार परिमाण स्पेक्ट्रोग्राम को dB में परिवर्तित करते हैं और -1 और 1 के बीच सामान्य करते हैं।   सी. ग्राउंड-ट्रुथ मास्क  ग्राउंड-ट्रुथ मास्क कंप्यूटेशन शुरू करने से पहले हम कुछ बातों पर ध्यान देना चाहेंगे। मानक फ़्लोटिंगपॉइंट ऑडियो फ़ॉर्मेट एक तरंग को -1 और 1 के बीच सीमित करने के लिए बाध्य करता है। कृत्रिम मिश्रण बनाते समय परिणामी तरंग इन सीमाओं से बाहर हो सकती हैं। इससे तंत्रिका नेटवर्क को ओवरफ़िट के शॉर्टकट खोजने में मदद मिल सकती है। इस व्यवहार से बचने के लिए स्पेक्ट्रोग्राम को समय-आवृत्ति डोमेन में समतुल्य सीमाओं के अनुसार क्लैंप किया जाता है।  असतत लघु-समय फ़ूरियर रूपांतरण की गणना [42] में वर्णित अनुसार की जा सकती है:   साउंड ऑफ पिक्सल्स के प्रशिक्षण के लिए हमने पूरक बाइनरी मास्क का उपयोग ग्राउंड-ट्रुथ मास्क के रूप में किया है, जिसे इस प्रकार परिभाषित किया गया है:   मल्टी-हेड यू-नेट को पूरक अनुपात मास्क के साथ प्रशिक्षित किया गया है, जिसे इस प्रकार परिभाषित किया गया है:    डी. परिणाम  [43] में प्रस्तावित स्रोत से विरूपण अनुपात (एसडीआर), स्रोत से हस्तक्षेप अनुपात (एसआईआर), स्रोत से कलाकृति अनुपात (एसएआर) के बेंचमार्क परिणाम माध्य और मानक विचलन के संदर्भ में तालिका II में दिखाए गए हैं। जैसा कि देखा जा सकता है, अपने मूल भार का उपयोग करके मूल्यांकन किए गए साउंड ऑफ पिक्सल्स सबसे खराब प्रदर्शन करते हैं। इसका एक संभावित कारण MUSIC डेटासेट पर कुछ URMP श्रेणियों की अनुपस्थिति हो सकती है। यदि हम नेटवर्क को सोलोस पर स्क्रैच से प्रशिक्षित करते हैं, तो परिणाम लगभग 1 डीबी तक सुधर जाते हैं। हालांकि, सोलोस पर MUSIC के साथ पूर्व-प्रशिक्षित नेटवर्क को फाइन-ट्यूनिंग करके और भी बेहतर परिणाम प्राप्त करना संभव है। हम अनुमान लगाते हैं कि सुधार तब होता है जब नेटवर्क बहुत अधिक प्रशिक्षण डेटा के संपर्क में आता है  यह पेपर CC BY-NC-SA 4.0 DEED लाइसेंस के अंतर्गत   है। arxiv पर उपलब्ध

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Kinetopgraph.TECH

Read My Stories

kinetograph

यह ऑडियो कहानी की मूल भाषा में निर्मित है!

सोलोस: ऑडियो-विज़ुअल संगीत विश्लेषण के लिए एक डेटासेट - प्रयोग

About Author

टिप्पणियाँ

लेबल

इस लेख में चित्रित किया गया था

Related Stories

इन 18 डेवलपर टूल के साथ अपनी उत्पादकता बढ़ाएँ 🚀🔥

HackerNoon लेखन प्रतियोगिता जीतना चाहते हैं? #crypto-api प्रतियोगिता के विजेताओं की सलाह यहाँ पढ़ें

उपयोगकर्ता-केंद्रित क्रिप्टो उत्पाद बनाना: ग्राहक प्रतिक्रिया का महत्व

जलयात्रा: डेटा झीलों के साथ उत्पादन-ग्रेड आरएजी अनुप्रयोगों का विकास

इन 18 डेवलपर टूल के साथ अपनी उत्पादकता बढ़ाएँ 🚀🔥

HackerNoon लेखन प्रतियोगिता जीतना चाहते हैं? #crypto-api प्रतियोगिता के विजेताओं की सलाह यहाँ पढ़ें

उपयोगकर्ता-केंद्रित क्रिप्टो उत्पाद बनाना: ग्राहक प्रतिक्रिया का महत्व

जलयात्रा: डेटा झीलों के साथ उत्पादन-ग्रेड आरएजी अनुप्रयोगों का विकास

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps