paint-brush
सोलोस: ऑडियो-विज़ुअल संगीत विश्लेषण के लिए एक डेटासेट - डेटासेट द्वारा@kinetograph
180 रीडिंग

सोलोस: ऑडियो-विज़ुअल संगीत विश्लेषण के लिए एक डेटासेट - डेटासेट

द्वारा Kinetograph: The Video Editing Technology Publication
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture

Kinetograph: The Video Editing Technology Publication

@kinetograph

The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover...

2 मिनट read2024/06/08
Read on Terminal Reader
Read this story in a terminal
Print this story

बहुत लंबा; पढ़ने के लिए

इस शोधपत्र में, शोधकर्ताओं ने सोलोस (Solos) नामक एक स्वच्छ डाटासेट प्रस्तुत किया है, जो विभिन्न दृश्य-श्रव्य कार्यों पर मशीन लर्निंग मॉडलों के प्रशिक्षण के लिए एकल संगीत प्रदर्शनों का एक स्वच्छ डाटासेट है।
featured image - सोलोस: ऑडियो-विज़ुअल संगीत विश्लेषण के लिए एक डेटासेट - डेटासेट
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
Kinetograph: The Video Editing Technology Publication

Kinetograph: The Video Editing Technology Publication

@kinetograph

The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover cutting edge tech for video editing.

0-item

STORY’S CREDIBILITY

Academic Research Paper

Academic Research Paper

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

लेखक:

(1) जुआन एफ. मोंटेसिनोस, सूचना और संचार प्रौद्योगिकी विभाग यूनिवर्सिटैट पोम्पेउ फ़बरा, बार्सिलोना, स्पेन {juanfelipe.montesinos@upf.edu};

(2) ओल्गा स्लिज़ोवस्काया, सूचना और संचार प्रौद्योगिकी विभाग यूनिवर्सिटैट पोम्पेउ फ़बरा, बार्सिलोना, स्पेन {olga.slizovskaia@upf.edu};

(3) ग्लोरिया हारो, सूचना और संचार प्रौद्योगिकी विभाग यूनिवर्सिटैट पोम्पेउ फ़बरा, बार्सिलोना, स्पेन {gloria.haro@upf.edu}।

लिंक की तालिका

III. डेटासेट

सोलोस[1] को यूआरएमपी [1] डेटासेट के समान श्रेणियों के लिए डिज़ाइन किया गया था, ताकि यूआरएमपी का उपयोग वास्तविक दुनिया के परिदृश्य में परीक्षण डेटासेट के रूप में किया जा सके। इस तरह हमारा लक्ष्य परीक्षण में मिक्स-एंड-सेपरेट के उपयोग से बचते हुए स्रोत पृथक्करण एल्गोरिदम के प्रदर्शन के मूल्यांकन का एक मानक तरीका स्थापित करना है। सोलोस में 755 रिकॉर्डिंग शामिल हैं जो 13 श्रेणियों में वितरित हैं जैसा कि चित्र 1 में दिखाया गया है, प्रति श्रेणी 58 रिकॉर्डिंग की औसत मात्रा और 5:16 मिनट की औसत अवधि के साथ। यह उजागर करना दिलचस्प है कि, 13 में से 8 श्रेणियों के लिए, YouTube-एकत्रित डेटासेट होने के बावजूद, रिज़ॉल्यूशन का माध्य HD है। प्रति-श्रेणी आँकड़े तालिका I में पाए जा सकते हैं। ये रिकॉर्डिंग कई भाषाओं जैसे अंग्रेजी, स्पेनिश, फ्रेंच, इतालवी, चीनी या रूसी में सोलो और ऑडिशन टैग का उपयोग करके YouTube पर क्वेरी करके एकत्र की गई थीं।


ए. ओपनपोज़ कंकाल


सोलोस केवल रिकॉर्डिंग का एक सेट नहीं है। वीडियो पहचानकर्ताओं के अलावा हम यह भी प्रदान करते हैं: i) प्रत्येक रिकॉर्डिंग के प्रत्येक फ्रेम में ओपनपोज़ [33] द्वारा अनुमानित शरीर और हाथ के कंकाल और ii) उपयोगी भागों को इंगित करने वाले टाइमस्टैम्प। ओपनपोज़ एक ऐसी प्रणाली है जो शरीर के कंकाल और हाथों के कंकाल की भविष्यवाणी करने में सक्षम है


तालिका Iसोलोस डेटासेट के आंकड़े

तालिका Iसोलोस डेटासेट के आंकड़े


दो अलग-अलग तंत्रिका नेटवर्क का उपयोग करना। ऐसा करने के लिए, वे इस विश्वास का एक विश्वास मानचित्र की भविष्यवाणी करते हैं कि एक विशिष्ट शरीर का हिस्सा किसी भी दिए गए पिक्सेल के साथ-साथ भाग आत्मीयता क्षेत्रों में स्थित हो सकता है जो विभिन्न शरीर के अंगों के बीच संबंध की डिग्री को एन्कोड करते हैं। अंत में, यह लालची अनुमान के माध्यम से 2D कंकाल और प्रति-संयुक्त विश्वास की भविष्यवाणी करता है। व्यवहार में, शरीर के कंकाल का अनुमान पहले नेटवर्क के साथ लगाया जाता है। फिर, शरीर के कंकाल में कलाई की स्थिति का उपयोग दोनों हाथों की स्थिति का अनुमान लगाने के लिए किया जाता है। दूसरा तंत्रिका नेटवर्क प्रत्येक हाथ के कंकाल को स्वतंत्र रूप से प्राप्त करता है। ध्यान दें कि चूंकि प्रत्येक शरीर के अंग का स्वतंत्र रूप से अनुमान लगाया जाता है, इसलिए ओपनपोज़ खोजने के लिए अंगों के बारे में कोई धारणा नहीं बनाता है। यह केवल विश्वास मानचित्र और भाग आत्मीयता क्षेत्रों को देखते हुए सबसे संभावित कंकाल की गणना करता है


बी. टाइमस्टैम्प अनुमान और कंकाल परिशोधन


image


ओपनपोज़ गलत पूर्वानुमानित जोड़ों को निर्देशांक के मूल में मैप करता है। हमने अनुभवजन्य रूप से पाया कि जोड़ की स्थिति में इतनी बड़ी छलांग शोर उत्पन्न करती है। इंटरपोलेटेड निर्देशांक का उपयोग इस समस्या को हल करने में मदद करता है।



[1] डेटासेट https://juanfmontesinos.github.io/Solos/ पर उपलब्ध है

L O A D I N G
. . . comments & more!

About Author

Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
Kinetograph: The Video Editing Technology Publication@kinetograph
The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover cutting edge tech for video editing.

लेबल

इस लेख में चित्रित किया गया था...

Read on Terminal Reader
Read this story in a terminal
 Terminal
Read this story w/o Javascript
Read this story w/o Javascript
 Lite
X REMOVE AD