paint-brush
सोलोस: ऑडियो-विज़ुअल संगीत विश्लेषण के लिए एक डेटासेट - सार और परिचयद्वारा@kinetograph
160 रीडिंग

सोलोस: ऑडियो-विज़ुअल संगीत विश्लेषण के लिए एक डेटासेट - सार और परिचय

बहुत लंबा; पढ़ने के लिए

इस शोधपत्र में, शोधकर्ताओं ने सोलोस (Solos) नामक एक स्वच्छ डाटासेट प्रस्तुत किया है, जो विभिन्न दृश्य-श्रव्य कार्यों पर मशीन लर्निंग मॉडलों के प्रशिक्षण के लिए एकल संगीत प्रदर्शनों का एक स्वच्छ डाटासेट है।
featured image - सोलोस: ऑडियो-विज़ुअल संगीत विश्लेषण के लिए एक डेटासेट - सार और परिचय
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

लेखक:

(1) जुआन एफ. मोंटेसिनोस, सूचना और संचार प्रौद्योगिकी विभाग यूनिवर्सिटैट पोम्पेउ फ़बरा, बार्सिलोना, स्पेन {[email protected]};

(2) ओल्गा स्लिज़ोवस्काया, सूचना और संचार प्रौद्योगिकी विभाग यूनिवर्सिटैट पोम्पेउ फ़बरा, बार्सिलोना, स्पेन {[email protected]};

(3) ग्लोरिया हारो, सूचना और संचार प्रौद्योगिकी विभाग यूनिवर्सिटैट पोम्पेउ फ़बरा, बार्सिलोना, स्पेन {[email protected]}।

लिंक की तालिका


अमूर्त

इस शोधपत्र में, हम संगीत प्रदर्शन वीडियो का एक नया डेटासेट प्रस्तुत करते हैं जिसका उपयोग ऑडियो-विज़ुअल ब्लाइंड सोर्स सेपरेशन और स्थानीयकरण, क्रॉस-मोडल पत्राचार, क्रॉस-मोडल पीढ़ी और सामान्य रूप से, किसी भी ऑडियो-विज़ुअल स्व-पर्यवेक्षित कार्य जैसे कई कार्यों के लिए मशीन लर्निंग विधियों को प्रशिक्षित करने के लिए किया जा सकता है। YouTube से एकत्र किए गए इन वीडियो में 13 अलग-अलग वाद्ययंत्रों के एकल संगीत प्रदर्शन शामिल हैं। पहले प्रस्तावित ऑडियो-विज़ुअल डेटासेट की तुलना में, सोलोस अधिक साफ है क्योंकि इसकी रिकॉर्डिंग का एक बड़ा हिस्सा ऑडिशन और मैन्युअल रूप से जाँच की गई रिकॉर्डिंग है, जिससे यह सुनिश्चित होता है कि वीडियो पोस्ट-प्रोसेसिंग में कोई बैकग्राउंड शोर या प्रभाव नहीं जोड़ा गया है। इसके अलावा, यह, हमारे सर्वोत्तम ज्ञान के अनुसार, एकमात्र डेटासेट है जिसमें URMP [1] डेटासेट में मौजूद वाद्ययंत्रों का पूरा सेट शामिल है, जो अलग-अलग ऑडियो ट्रैक के साथ मल्टीइंस्ट्रूमेंट शास्त्रीय संगीत के टुकड़ों की 44 ऑडियो-विज़ुअल रिकॉर्डिंग का एक उच्च-गुणवत्ता वाला डेटासेट है। URMP का उपयोग स्रोत पृथक्करण के लिए किया जाना था, इस प्रकार, हम सोलोस पर प्रशिक्षित दो अलग-अलग स्रोत-पृथक्करण मॉडल के URMP डेटासेट पर प्रदर्शन का मूल्यांकन करते हैं। डेटासेट सार्वजनिक रूप से https://juanfmontesinos.github.io/Solos/ पर उपलब्ध है


अनुक्रमणिका शब्द —ऑडियो-विज़ुअल, डेटासेट, मल्टीमॉडल, संगीत

I. प्रस्तावना

संगीत सूचना पुनर्प्राप्ति (एमआईआर) समस्याओं को हल करने के लिए मल्टीमॉडल तकनीकों में रुचि बढ़ रही है। संगीत प्रदर्शनों में अत्यधिक मल्टीमॉडल सामग्री होती है और इसमें शामिल विभिन्न तौर-तरीके अत्यधिक सहसंबंधित होते हैं: प्रदर्शन करने वाले खिलाड़ी की गति से ध्वनियाँ उत्सर्जित होती हैं और चैम्बर संगीत प्रदर्शनों में स्कोर एक अतिरिक्त एन्कोडिंग का गठन करते हैं जिसका संगीत के स्वचालित विश्लेषण के लिए भी लाभ उठाया जा सकता है [2]।



दूसरी ओर, दृश्य का नेत्रहीन निरीक्षण करके हम ध्वनि स्रोतों की संख्या, उनके प्रकार, स्थानिक-लौकिक स्थान और गति के बारे में जानकारी निकाल सकते हैं, जो स्वाभाविक रूप से उत्सर्जित ध्वनि से संबंधित है। इसके अलावा, स्व-पर्यवेक्षित कार्यों को करना संभव है जिसमें एक तौर-तरीका दूसरे की देखरेख करता है। इसमें एक अन्य शोध क्षेत्र, क्रॉस-मोडल पत्राचार (सीएमसी) शामिल है। हम बीएसएस और सीएमसी दोनों समस्याओं के लिए अग्रणी कार्य पा सकते हैं। [११], [१२] ध्वनि स्थानीयकरण के लिए ऑडियो-विजुअल डेटा का उपयोग करते हैं और [१३], [१४], [१५] भाषण पृथक्करण के लिए। संगीत के संदर्भ में, दृश्य जानकारी ने स्रोत पृथक्करण [१६], [१७] और स्थानीयकरण [२] दोनों में मॉडल-आधारित विधियों की मदद करने के लिए भी सिद्ध किया है। कुछ सीएमसी कार्य सिंक्रोनाइज़ेशन [24], [25] से उत्पन्न सुविधाओं का पता लगाते हैं और साबित करते हैं कि ये सुविधाएँ स्रोत पृथक्करण के लिए पुन: प्रयोज्य हैं। ये कार्य ऐसे नेटवर्क का उपयोग करते हैं जिन्हें स्थानीयकरण उद्देश्यों के लिए संबंधित / गैर-संबंधित ऑडियो-विज़ुअल संकेतों के जोड़े का उपयोग करके स्व-पर्यवेक्षित तरीके से प्रशिक्षित किया गया है [22] या स्रोत पृथक्करण के लिए मिक्स-एंड-सेपरेट दृष्टिकोण [18] - [20], [23]। डीप लर्निंग ने शास्त्रीय समस्याओं को एक अलग तरीके से हल करना संभव बना दिया है, इसने क्रॉसमॉडल पीढ़ी जैसे नए शोध क्षेत्रों को बनाने में भी योगदान दिया है, जिसमें मुख्य उद्देश्य ऑडियो से वीडियो उत्पन्न करना है [26], [27] या इसके विपरीत [28]। मानव गति से संबंधित हाल के कार्यों में शरीर के आंतरिक प्रतिनिधित्व के रूप में कंकाल का उपयोग किया गया है जिसे आगे वीडियो में परिवर्तित किया जा सकता है [29], [30] [२३] और इसके विस्तारित संस्करण [३१] में प्रस्तुत संगीत वाद्ययंत्रों के समान डेटासेट की तुलना में, हमारे डेटासेट में यूआरएमपी डेटासेट में मौजूद समान प्रकार के चैम्बर ऑर्केस्ट्रा वाद्ययंत्र शामिल हैं। सोलोस यूट्यूब से एकत्रित ७५५ वास्तविक दुनिया की रिकॉर्डिंग का एक डेटासेट है जो उपरोक्त डेटासेट में गायब कई विशेषताओं को प्रदान करता है: कंकाल और उच्च गुणवत्ता वाले टाइमस्टैम्प। स्रोत स्थानीयकरण आमतौर पर नेटवर्क द्वारा अप्रत्यक्ष रूप से सीखा जाता है। इस प्रकार, एक व्यावहारिक स्थानीयकरण ग्राउंड-ट्रुथ प्रदान करना सीधा नहीं है। फिर भी, नेटवर्क अक्सर खिलाड़ी के हाथों की ओर इशारा करते हैं जैसे कि वे ध्वनि स्रोत हों। हम उम्मीद करते हैं कि हाथों का स्थानीयकरण ऑडियो-विजुअल बीएसएस को बेहतर बनाने के लिए अतिरिक्त संकेत प्रदान करने में मदद कर सकता है या स्रोत ग्राउंड-ट्रुथ स्थानीयकरण के रूप में उपयोग किया जा सकता है।


यह पेपर CC BY-NC-SA 4.0 DEED लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।