paint-brush
सोलोस: ऑडियो-विज़ुअल संगीत विश्लेषण के लिए एक डेटासेट - डेटासेटद्वारा@kinetograph
171 रीडिंग

सोलोस: ऑडियो-विज़ुअल संगीत विश्लेषण के लिए एक डेटासेट - डेटासेट

बहुत लंबा; पढ़ने के लिए

इस शोधपत्र में, शोधकर्ताओं ने सोलोस (Solos) नामक एक स्वच्छ डाटासेट प्रस्तुत किया है, जो विभिन्न दृश्य-श्रव्य कार्यों पर मशीन लर्निंग मॉडलों के प्रशिक्षण के लिए एकल संगीत प्रदर्शनों का एक स्वच्छ डाटासेट है।
featured image - सोलोस: ऑडियो-विज़ुअल संगीत विश्लेषण के लिए एक डेटासेट - डेटासेट
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

लेखक:

(1) जुआन एफ. मोंटेसिनोस, सूचना और संचार प्रौद्योगिकी विभाग यूनिवर्सिटैट पोम्पेउ फ़बरा, बार्सिलोना, स्पेन {[email protected]};

(2) ओल्गा स्लिज़ोवस्काया, सूचना और संचार प्रौद्योगिकी विभाग यूनिवर्सिटैट पोम्पेउ फ़बरा, बार्सिलोना, स्पेन {[email protected]};

(3) ग्लोरिया हारो, सूचना और संचार प्रौद्योगिकी विभाग यूनिवर्सिटैट पोम्पेउ फ़बरा, बार्सिलोना, स्पेन {[email protected]}।

लिंक की तालिका

III. डेटासेट

सोलोस[1] को यूआरएमपी [1] डेटासेट के समान श्रेणियों के लिए डिज़ाइन किया गया था, ताकि यूआरएमपी का उपयोग वास्तविक दुनिया के परिदृश्य में परीक्षण डेटासेट के रूप में किया जा सके। इस तरह हमारा लक्ष्य परीक्षण में मिक्स-एंड-सेपरेट के उपयोग से बचते हुए स्रोत पृथक्करण एल्गोरिदम के प्रदर्शन के मूल्यांकन का एक मानक तरीका स्थापित करना है। सोलोस में 755 रिकॉर्डिंग शामिल हैं जो 13 श्रेणियों में वितरित हैं जैसा कि चित्र 1 में दिखाया गया है, प्रति श्रेणी 58 रिकॉर्डिंग की औसत मात्रा और 5:16 मिनट की औसत अवधि के साथ। यह उजागर करना दिलचस्प है कि, 13 में से 8 श्रेणियों के लिए, YouTube-एकत्रित डेटासेट होने के बावजूद, रिज़ॉल्यूशन का माध्य HD है। प्रति-श्रेणी आँकड़े तालिका I में पाए जा सकते हैं। ये रिकॉर्डिंग कई भाषाओं जैसे अंग्रेजी, स्पेनिश, फ्रेंच, इतालवी, चीनी या रूसी में सोलो और ऑडिशन टैग का उपयोग करके YouTube पर क्वेरी करके एकत्र की गई थीं।


ए. ओपनपोज़ कंकाल


सोलोस केवल रिकॉर्डिंग का एक सेट नहीं है। वीडियो पहचानकर्ताओं के अलावा हम यह भी प्रदान करते हैं: i) प्रत्येक रिकॉर्डिंग के प्रत्येक फ्रेम में ओपनपोज़ [33] द्वारा अनुमानित शरीर और हाथ के कंकाल और ii) उपयोगी भागों को इंगित करने वाले टाइमस्टैम्प। ओपनपोज़ एक ऐसी प्रणाली है जो शरीर के कंकाल और हाथों के कंकाल की भविष्यवाणी करने में सक्षम है


तालिका Iसोलोस डेटासेट के आंकड़े


दो अलग-अलग तंत्रिका नेटवर्क का उपयोग करना। ऐसा करने के लिए, वे इस विश्वास का एक विश्वास मानचित्र की भविष्यवाणी करते हैं कि एक विशिष्ट शरीर का हिस्सा किसी भी दिए गए पिक्सेल के साथ-साथ भाग आत्मीयता क्षेत्रों में स्थित हो सकता है जो विभिन्न शरीर के अंगों के बीच संबंध की डिग्री को एन्कोड करते हैं। अंत में, यह लालची अनुमान के माध्यम से 2D कंकाल और प्रति-संयुक्त विश्वास की भविष्यवाणी करता है। व्यवहार में, शरीर के कंकाल का अनुमान पहले नेटवर्क के साथ लगाया जाता है। फिर, शरीर के कंकाल में कलाई की स्थिति का उपयोग दोनों हाथों की स्थिति का अनुमान लगाने के लिए किया जाता है। दूसरा तंत्रिका नेटवर्क प्रत्येक हाथ के कंकाल को स्वतंत्र रूप से प्राप्त करता है। ध्यान दें कि चूंकि प्रत्येक शरीर के अंग का स्वतंत्र रूप से अनुमान लगाया जाता है, इसलिए ओपनपोज़ खोजने के लिए अंगों के बारे में कोई धारणा नहीं बनाता है। यह केवल विश्वास मानचित्र और भाग आत्मीयता क्षेत्रों को देखते हुए सबसे संभावित कंकाल की गणना करता है


बी. टाइमस्टैम्प अनुमान और कंकाल परिशोधन



ओपनपोज़ गलत पूर्वानुमानित जोड़ों को निर्देशांक के मूल में मैप करता है। हमने अनुभवजन्य रूप से पाया कि जोड़ की स्थिति में इतनी बड़ी छलांग शोर उत्पन्न करती है। इंटरपोलेटेड निर्देशांक का उपयोग इस समस्या को हल करने में मदद करता है।



[1] डेटासेट https://juanfmontesinos.github.io/Solos/ पर उपलब्ध है