यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।
लेखक:
(1) झिहांग रेन, कैलिफोर्निया विश्वविद्यालय, बर्कले और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया (ईमेल: [email protected]);
(2) जेफरसन ऑर्टेगा, कैलिफोर्निया विश्वविद्यालय, बर्कले और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया (ईमेल: [email protected]);
(3) यिफान वांग, कैलिफोर्निया विश्वविद्यालय, बर्कले और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया (ईमेल: [email protected]);
(4) झिमिन चेन, कैलिफोर्निया विश्वविद्यालय, बर्कले (ईमेल: [email protected]);
(5) युनहुई गुओ, यूनिवर्सिटी ऑफ टेक्सास एट डलास (ईमेल: [email protected]);
(6) स्टेला एक्स. यू, कैलिफोर्निया विश्वविद्यालय, बर्कले और मिशिगन विश्वविद्यालय, एन आर्बर (ईमेल: [email protected]);
(7) डेविड व्हिटनी, कैलिफोर्निया विश्वविद्यालय, बर्कले (ईमेल: [email protected]).
इस खंड में, हम संदर्भ डेटासेट में वीडियो-आधारित भावना और प्रभाव ट्रैकिंग ( VEATIC ) का परिचय देते हैं। सबसे पहले, हम वर्णन करते हैं कि हमने सभी वीडियो क्लिप कैसे प्राप्त किए। इसके बाद, हम डेटा एनोटेशन प्रक्रियाओं और प्री-प्रोसेसिंग प्रक्रिया का वर्णन करते हैं। अंत में, हम महत्वपूर्ण डेटासेट सांख्यिकी की रिपोर्ट करते हैं और डेटा विश्लेषण परिणामों को विज़ुअलाइज़ करते हैं।
डेटासेट में इस्तेमाल किए गए सभी वीडियो क्लिप एक ऑनलाइन वीडियो-शेयरिंग वेबसाइट (यूट्यूब) से लिए गए थे और वीडियो क्लिप का चयन इस आधार पर किया गया था कि क्लिप में पात्रों की भावनाएँ/प्रभाव समय के साथ बदलते रहें। कुल मिलाकर, VEATIC डेटासेट में 124 वीडियो क्लिप, हॉलीवुड फिल्मों की 104 क्लिप, होम वीडियो की 15 क्लिप और डॉक्यूमेंट्री या रियलिटी टीवी शो की 5 क्लिप शामिल हैं। VEATIC डेटासेट से सैंपल फ़्रेम (चित्र 2) में दिखाए गए हैं। इन वीडियो में शून्य से लेकर कई इंटरैक्टिंग कैरेक्टर हैं। वीडियो से सभी ध्वनि हटा दी गई थी ताकि लक्ष्य चरित्र की भावना को ट्रैक करते समय पर्यवेक्षकों को केवल दृश्य जानकारी तक पहुँच मिल सके।
कुल मिलाकर, हमारे पास 192 पर्यवेक्षक थे जिन्होंने डेटासेट में वीडियो के एनोटेशन में भाग लिया। सभी प्रतिभागियों ने यूसी बर्कले इंस्टीट्यूशनल रिव्यू बोर्ड के दिशा-निर्देशों और विनियमों के अनुसार हस्ताक्षरित सहमति प्रदान की और सभी प्रयोगात्मक प्रक्रियाओं को मंजूरी दी गई।
प्रतिभागियों ने डेटासेट में कुल 124 वीडियो देखे और उनकी रेटिंग की। पर्यवेक्षकों को थकान से बचाने के लिए, हमने एनोटेशन प्रक्रिया को दो 1 घंटे और 30 मिनट के एनोटेशन सत्रों में विभाजित किया। प्रतिभागियों द्वारा किसी भी वीडियो को एनोटेट करने से पहले, उन्हें ब्रैडले और लैंग (1999) [6] द्वारा प्रदान की गई रेटिंग के अनुसार ग्रिड के विभिन्न स्थानों पर लेबल किए गए उदाहरण भावनाओं के साथ वैलेंस-उत्तेजना प्रभाव रेटिंग ग्रिड का एक मुद्रित संस्करण दिखाया गया था। एनोटेटर्स को निर्देश दिया गया था कि वे आयामों और नमूना शब्द स्थानों से खुद को परिचित करें, जिसका उपयोग वे बाद में एनोटेशन प्रक्रिया में करेंगे। प्रतिभागियों द्वारा प्रभाव रेटिंग ग्रिड से परिचित होने के बाद, उन्होंने दो मिनट का अभ्यास एनोटेशन पूरा किया, जहां उन्होंने एक वीडियो में एक लक्ष्य चरित्र की वैलेंस और उत्तेजना को लगातार ट्रैक किया (चित्र 3बी ग्रिड उनकी वैलेंस और उत्तेजना रेटिंग को [−1, 1] की सीमा में मैप करेगा। संभावित मोटर पूर्वाग्रहों को नियंत्रित करने के लिए, हमने प्रतिभागियों के बीच वैलेंस-उत्तेजना आयामों को संतुलित किया, जहाँ आधे एनोटेटर्स में वैलेंस x-अक्ष पर और उत्तेजना y-अक्ष पर थी और दूसरे आधे में आयाम उलटे थे ताकि उत्तेजना x-अक्ष पर हो और वैलेंस y-अक्ष पर हो। एक बार जब पर्यवेक्षकों ने अभ्यास एनोटेशन सत्र समाप्त कर लिया, तो उन्होंने डेटासेट में वीडियो को एनोटेट करना शुरू कर दिया।
प्रतिभागियों द्वारा एनोटेशन शुरू करने से पहले, उन्हें लक्षित चरित्र के घेरे वाली एक छवि दिखाई गई (चित्र 3ए) जो प्रतिभागियों को सूचित करती है कि वीडियो शुरू होने पर वे किस चरित्र को ट्रैक करेंगे। फिर, उन्होंने वास्तविक समय में वीडियो क्लिप को एनोटेट किया। प्रत्येक वीडियो एनोटेशन के अंत में, प्रतिभागियों ने 1-5 असतत लिकर्ट स्केल का उपयोग करके वीडियो क्लिप के साथ अपनी परिचितता की रिपोर्ट की, जो "परिचित नहीं", "थोड़ा परिचित", "कुछ हद तक परिचित", "मध्यम रूप से परिचित" और "बेहद परिचित" के बीच थी। प्रतिभागियों से क्लिप देखते समय उनके आनंद के स्तर के बारे में भी पूछा गया, जिसे 1-9 असतत लिकर्ट स्केल का उपयोग करके रेट किया गया था, जो 1 (आनंददायक नहीं) से लेकर 9 (बेहद आनंददायक) तक था। इसके अतिरिक्त, प्रतिभागियों को ऊब महसूस न कराने के लिए, सभी 124 वीडियो क्लिप को दो सत्रों में विभाजित किया गया
प्रत्येक परीक्षण के दौरान, हमने यह आकलन किया कि क्या प्रतिभागी किसी एक स्थान पर माउस पॉइंटर को रखने की अवधि को ट्रैक करके ध्यान नहीं दे रहे थे। यदि अवधि 10 सेकंड से अधिक थी, तो प्रभाव रेटिंग ग्रिड में उतार-चढ़ाव शुरू हो जाएगा, जो प्रतिभागियों को लक्ष्य चरित्र की भावना को ट्रैक करना जारी रखने की याद दिलाता है। यह आकलन करने के लिए कि क्या हमारे डेटासेट में कोई शोर करने वाले एनोटेटर थे, हमने प्रत्येक वीडियो के लिए प्रत्येक एनोटेटर और लीव-वन-आउट सर्वसम्मति (वर्तमान एनोटेटर को छोड़कर प्रतिक्रियाओं का समुच्चय) के बीच पियर्सन सहसंबंध की गणना करके प्रत्येक व्यक्तिगत एनोटेटर की सहमति की गणना की। हमने पाया कि केवल एक एनोटेटर का सभी वीडियो में लीव-वन-आउट सर्वसम्मति के साथ .2 से कम सहसंबंध था। चूंकि केवल एक एनोटेटर हमारी सीमा से नीचे था, इसलिए हमने वीडियो के किसी भी महत्वपूर्ण वैकल्पिक एनोटेशन को न हटाने के लिए एनोटेटर को डेटासेट में रखने का फैसला किया।
चित्र 4 में 2 अलग-अलग वीडियो क्लिप में नमूना औसत रेटिंग और मुख्य फ़्रेम दिखाए गए हैं। स्पष्ट रूप से, यहाँ वैलेंस और उत्तेजना दोनों की रेटिंग की एक विस्तृत श्रृंखला है। इसके अलावा, यह दर्शाता है कि संदर्भ जानकारी, चाहे स्थानिक हो या लौकिक, भावना पहचान कार्यों में एक महत्वपूर्ण भूमिका निभाती है। वैलेंस उदाहरण (ऊपरी आकृति) में, लड़ाई की लौकिक और/या स्थानिक संदर्भ जानकारी के बिना, यह पहचानना मुश्किल होगा कि आखिरी फ़्रेम (पीला) में चरित्र (महिला) आश्चर्यजनक रूप से खुश है या हैरान है। उत्तेजना उदाहरण (निचली आकृति) में, चयनित चरित्र के चेहरे के बिना भी, पर्यवेक्षक गहन संदर्भ के माध्यम से चरित्र की उत्तेजना का आसानी से और लगातार अनुमान लगा सकते हैं।
चित्र 5 हमारे डेटासेट में एक ही वीडियो के लिए सभी प्रतिभागियों की सैंपल वैलेंस और उत्तेजना रेटिंग्स को दर्शाता है। वैलेंस और उत्तेजना दोनों रेटिंग्स के लिए व्यक्तिगत विषय की रेटिंग्स (ग्रे लाइन) प्रतिभागियों (ग्रीन लाइन) में आम सहमति रेटिंग्स का पालन करती हैं। हरे रंग की आम सहमति रेखा के चारों ओर ओवरलैप करने वाली घनी ग्रे लाइन पर्यवेक्षकों की एक विस्तृत श्रृंखला के बीच समझौतों को इंगित करती है। इसके अतिरिक्त, हमने जांच की कि प्रत्येक वीडियो के लिए पर्यवेक्षकों के बीच मानक विचलन की गणना करके वीडियो में पर्यवेक्षकों की प्रतिक्रियाएं कैसे भिन्न थीं। हमने पाया कि वैलेंस और उत्तेजना दोनों आयामों के लिए पर्यवेक्षकों के बीच विचरण छोटा था, जिसमें वैलेंस का औसत मानक विचलन µ = 0.248 और 0.222 का माध्य था और उत्तेजना का औसत मानक विचलन µ = 0.248 और 0.244 का माध्य था,
हमारे सभी वीडियो में वैलेंस और उत्तेजना रेटिंग का वितरण चित्र 6 में दिखाया गया है। हमने पाया कि व्यक्तिगत प्रतिभागी रेटिंग वैलेंस और उत्तेजना दोनों आयामों में पूरी तरह से वितरित की गई थी जो VEATIC डेटासेट की विविधता को उजागर करती है। हमने प्रतिभागियों में से प्रत्येक वीडियो के लिए परिचितता और आनंद रेटिंग भी एकत्र की (चित्र 7 में दिखाया गया है)। हमने पाया कि पर्यवेक्षक डेटासेट में उपयोग किए गए वीडियो से अपरिचित थे क्योंकि वीडियो आईडी 0-97 के लिए औसत परिचितता रेटिंग 1.61 थी। इसके अतिरिक्त, पर्यवेक्षकों ने वीडियो देखते समय अपने आनंद को वीडियो आईडी 0-97 के लिए औसतन 4.98 के रूप में रेट किया, जो दर्शाता है कि पर्यवेक्षकों ने वीडियो क्लिप देखने और एनोटेट करने का मध्यम रूप से आनंद लिया। वीडियो आईडी 98-123 के लिए परिचितता और आनंद रेटिंग एकत्र नहीं की गई क्योंकि इन वीडियो के लिए एनोटेशन डेटा संग्रह के दौरान पहले के समय बिंदु पर एकत्र किए गए थे जिसमें ये रेटिंग शामिल नहीं थीं।
नीचे दी गई तालिका 2 VEATIC डेटासेट के बुनियादी आँकड़ों का सारांश प्रस्तुत करती है। संक्षेप में, VEATIC में एक लंबी कुल वीडियो क्लिप अवधि और विभिन्न प्रकार के वीडियो स्रोत हैं जो संदर्भों और भावनात्मक स्थितियों की एक विस्तृत श्रृंखला को कवर करते हैं। इसके अलावा, पिछले डेटासेट की तुलना में, हमने रेटिंग को एनोटेट करने के लिए बहुत अधिक प्रतिभागियों को भर्ती किया।
यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।