paint-brush
VEATIC: संदर्भ डेटासेट में वीडियो-आधारित भावना और प्रभाव ट्रैकिंग: वीडियो में विषय सहमतिद्वारा@kinetograph
328 रीडिंग
328 रीडिंग

VEATIC: संदर्भ डेटासेट में वीडियो-आधारित भावना और प्रभाव ट्रैकिंग: वीडियो में विषय सहमति

बहुत लंबा; पढ़ने के लिए

इस शोधपत्र में, शोधकर्ताओं ने मानवीय प्रभाव पहचान के लिए VEATIC डाटासेट प्रस्तुत किया है, जो मौजूदा डाटासेट की सीमाओं को संबोधित करता है, तथा संदर्भ-आधारित अनुमान को सक्षम बनाता है।
featured image - VEATIC: संदर्भ डेटासेट में वीडियो-आधारित भावना और प्रभाव ट्रैकिंग: वीडियो में विषय सहमति
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।

लेखक:

(1) झिहांग रेन, कैलिफोर्निया विश्वविद्यालय, बर्कले और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया (ईमेल: [email protected]);

(2) जेफरसन ऑर्टेगा, कैलिफोर्निया विश्वविद्यालय, बर्कले और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया (ईमेल: [email protected]);

(3) यिफान वांग, कैलिफोर्निया विश्वविद्यालय, बर्कले और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया (ईमेल: [email protected]);

(4) झिमिन चेन, कैलिफोर्निया विश्वविद्यालय, बर्कले (ईमेल: [email protected]);

(5) युनहुई गुओ, यूनिवर्सिटी ऑफ टेक्सास एट डलास (ईमेल: [email protected]);

(6) स्टेला एक्स. यू, कैलिफोर्निया विश्वविद्यालय, बर्कले और मिशिगन विश्वविद्यालय, एन आर्बर (ईमेल: [email protected]);

(7) डेविड व्हिटनी, कैलिफोर्निया विश्वविद्यालय, बर्कले (ईमेल: [email protected]).

लिंक की तालिका

10. वीडियो में विषय की सहमति

VEATIC डेटासेट का एक लाभ यह है कि इसमें प्रत्येक वीडियो के लिए कई एनोटेटर्स होते हैं, किसी भी वीडियो के लिए एनोटेटर्स की न्यूनतम संख्या 25 और अधिकतम 73 होती है। भावना की धारणा व्यक्तिपरक होती है और पर्यवेक्षकों का निर्णय कई लोगों में अलग-अलग हो सकता है। पहले प्रकाशित किए गए कई भावना डेटासेट्स में एनोटेटर्स की संख्या बहुत कम होती है, अक्सर एनोटेटर्स की संख्या केवल एकल अंक (n < 10) होती है। पर्यवेक्षकों में बढ़ती भिन्नता के कारण इतने कम एनोटेटर्स का होना समस्याग्रस्त है। इसे दिखाने के लिए, हमने गणना की कि हमारे डेटासेट में प्रत्येक वीडियो के लिए औसत रेटिंग कैसे भिन्न होती है यदि हम प्रतिस्थापन के साथ पांच बनाम सभी एनोटेटर्स का नमूना लेते हैं। हमने प्रत्येक वीडियो के लिए इस प्रक्रिया को 1000 बार दोहराया इस विश्लेषण से पता चलता है कि अधिक व्याख्याताओं के होने से सर्वसम्मति रेटिंग में मानक विचलन बहुत कम हो जाता है, जिससे वीडियो में वास्तविक भावना का अधिक सटीक प्रतिनिधित्व हो सकता है।


चित्र 9. VEATIC में अधिक नमूना वीडियो फ़्रेम। VEATIC में वीडियो क्लिप में विभिन्न पृष्ठभूमि, प्रकाश की स्थिति, चरित्र इंटरैक्शन आदि शामिल हैं, जो इसे न केवल भावना पहचान कार्यों के लिए बल्कि अन्य वीडियो समझ कार्यों के लिए भी एक व्यापक डेटासेट बनाता है।


चित्र 10. VEATIC में अचयनित वर्णों और शुद्ध पृष्ठभूमि के नमूना वीडियो फ़्रेम। प्रत्येक पंक्ति में पहला नमूना फ़्रेम चयनित वर्ण दिखाता है। शेष नमूना फ़्रेम या तो अचयनित वर्ण हैं या शुद्ध पृष्ठभूमि हैं।


इसके अतिरिक्त, हमने प्रत्येक वीडियो के लिए पर्यवेक्षकों के बीच मानक विचलन की गणना करके जांच की कि वीडियो में पर्यवेक्षकों की प्रतिक्रियाएँ कैसे भिन्न होती हैं। चित्र 12बी वीडियो में मानक विचलन दिखाता है। हम पाते हैं कि वैलेंस और उत्तेजना दोनों आयामों के लिए मानक विचलन छोटे थे, वैलेंस का औसत मानक विचलन µ = 0.248 और माध्यिका 0.222 था और उत्तेजना का औसत मानक विचलन µ = 0.248 और माध्यिका 0.244 था, जो EMOTIC [32] से वैलेंस और उत्तेजना रेटिंग भिन्नता के साथ तुलनीय है।


यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।