paint-brush
VEATIC: संदर्भ डेटासेट में वीडियो-आधारित भावना और प्रभाव ट्रैकिंग: प्रयोगद्वारा@kinetograph
172 रीडिंग

VEATIC: संदर्भ डेटासेट में वीडियो-आधारित भावना और प्रभाव ट्रैकिंग: प्रयोग

बहुत लंबा; पढ़ने के लिए

इस शोधपत्र में, शोधकर्ताओं ने मानवीय प्रभाव पहचान के लिए VEATIC डाटासेट प्रस्तुत किया है, जो मौजूदा डाटासेट की सीमाओं को संबोधित करता है, तथा संदर्भ-आधारित अनुमान को सक्षम बनाता है।
featured image - VEATIC: संदर्भ डेटासेट में वीडियो-आधारित भावना और प्रभाव ट्रैकिंग: प्रयोग
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।

लेखक:

(1) झिहांग रेन, कैलिफोर्निया विश्वविद्यालय, बर्कले और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया (ईमेल: [email protected]);

(2) जेफरसन ऑर्टेगा, कैलिफोर्निया विश्वविद्यालय, बर्कले और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया (ईमेल: [email protected]);

(3) यिफान वांग, कैलिफोर्निया विश्वविद्यालय, बर्कले और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया (ईमेल: [email protected]);

(4) झिमिन चेन, कैलिफोर्निया विश्वविद्यालय, बर्कले (ईमेल: [email protected]);

(5) युनहुई गुओ, यूनिवर्सिटी ऑफ टेक्सास एट डलास (ईमेल: [email protected]);

(6) स्टेला एक्स. यू, कैलिफोर्निया विश्वविद्यालय, बर्कले और मिशिगन विश्वविद्यालय, एन आर्बर (ईमेल: [email protected]);

(7) डेविड व्हिटनी, कैलिफोर्निया विश्वविद्यालय, बर्कले (ईमेल: [email protected]).

लिंक की तालिका

4. प्रयोग

इस अध्ययन में, हम संदर्भ कार्य में एक नई भावना पहचान का प्रस्ताव करते हैं, अर्थात प्रत्येक वीडियो फ्रेम में संदर्भ और चरित्र जानकारी दोनों के माध्यम से चयनित चरित्र की वैलेंस और उत्तेजना का अनुमान लगाना। यहां, हम संदर्भ कार्य में नई भावना पहचान को बेंचमार्क करने के लिए एक सरल बेसलाइन मॉडल का प्रस्ताव करते हैं। मॉडल की पाइपलाइन चित्र 8 में दिखाई गई है। हमने दो सरल सबमॉड्यूल अपनाए: फीचर निष्कर्षण के लिए एक कन्वोल्यूशनल न्यूरल नेटवर्क (CNN) मॉड्यूल और अस्थायी सूचना प्रसंस्करण के लिए एक विज़ुअल ट्रांसफॉर्मर मॉड्यूल। CNN मॉड्यूल संरचना Resnet50 [21] से अपनाई गई है। CAER [33] और EMOTIC [32] के विपरीत, जहां चेहरे/चरित्र और संदर्भ सुविधाओं को अलग-अलग निकाला जाता है और बाद में विलय कर दिया जाता है, हम सीधे पूरी तरह से सूचित फ्रेम को एन्कोड करते हैं।


चित्र 8. संदर्भ कार्य में भावना और प्रभाव ट्रैकिंग के लिए बेंचमार्क मॉडल की वास्तुकला। मॉडल में एक CNN फीचर एक्सट्रैक्शन मॉड्यूल और लगातार फ़्रेम की अस्थायी जानकारी को संयोजित करने के लिए एक विज़ुअल ट्रांसफ़ॉर्मर शामिल है।

4.1. हानि फ़ंक्शन और प्रशिक्षण सेटअप

हमारे बेसलाइन मॉडल का लॉस फंक्शन दो अलग-अलग लॉस का भारित संयोजन है। MSE लॉस रेटिंग्स और मॉडल भविष्यवाणियों की जमीनी सच्चाई के स्थानीय संरेखण को नियमित करता है। बड़े पैमाने पर रेटिंग्स और भविष्यवाणियों के संरेखण की गारंटी देने के लिए, जैसे कि भावनात्मक रेटिंग्स के अस्थायी सांख्यिकी सीखना, हम नियमितीकरण के रूप में कॉनकॉर्डेंस सहसंबंध गुणांक (CCC) का भी उपयोग करते हैं। इस गुणांक को इस प्रकार परिभाषित किया गया है,


4.2. मूल्यांकन मेट्रिक्स


SAGR मापता है कि दो सदिशों X और Y के अलग-अलग मानों के चिह्न कितने मेल खाते हैं। यह [0, 1] में मान लेता है, जहाँ 1 पूर्ण सहमति को दर्शाता है और 0 पूर्ण विरोधाभास को दर्शाता है। SAGR मीट्रिक दूसरों की तुलना में अतिरिक्त प्रदर्शन जानकारी प्राप्त कर सकता है। उदाहरण के लिए, 0.2 की वैलेंस ग्राउंड ट्रुथ को देखते हुए, 0.7 और -0.3 की भविष्यवाणियाँ समान RMSE मान की ओर ले जाएँगी। लेकिन स्पष्ट रूप से, 0.7 बेहतर अनुकूल है क्योंकि यह एक सकारात्मक वैलेंस है।


तालिका 3. पूर्ण रूप से सूचित, केवल चरित्र और केवल संदर्भ स्थितियों पर हमारे प्रस्तावित मॉडल का प्रदर्शन। चरित्र और संदर्भ जानकारी दोनों के माध्यम से अनुमान लगाने पर, मॉडल सबसे अच्छा प्रदर्शन करता है। यह भावना और प्रभाव ट्रैकिंग कार्यों में संदर्भ और चरित्र जानकारी दोनों के महत्व को दर्शाता है।


तालिका 4. हमारे द्वारा प्रस्तावित विधि की तुलना EMOTIC और CARE-S प्रीट्रेन्ड मॉडल के साथ उनके डेटासेट पर की गई है। हमारा सरल मॉडल प्रतिस्पर्धी परिणाम प्राप्त करता है, जो VEATIC की सामान्यीकरण क्षमता को दर्शाता है।

4.3. बेंचमार्क परिणाम

हमने ऊपर बताए गए 4 मेट्रिक्स, CCC, PCC, RMSE और SAGR का उपयोग करके संदर्भ कार्य में नई भावना पहचान को बेंचमार्क किया है। परिणाम तालिका 3 में दिखाए गए हैं। अन्य डेटासेट की तुलना में, हमारा प्रस्तावित सरल तरीका उनके डेटासेट पर अत्याधुनिक तरीकों के बराबर है।


हम पूरी तरह से सूचित फ़्रेम पर प्रीट्रेन्ड मॉडल में केवल संदर्भ और केवल चरित्र फ़्रेम को फीड करके भावना पहचान कार्यों में संदर्भ और चरित्र जानकारी के महत्व की भी जांच करते हैं। निष्पक्ष तुलना प्राप्त करने और फ़्रेम पिक्सेल वितरण अंतर के प्रभाव को बाहर करने के लिए, हम केवल संदर्भ और केवल चरित्र फ़्रेम पर प्रीट्रेन्ड मॉडल को भी ठीक करते हैं। संबंधित परिणाम तालिका 3 में भी दिखाए गए हैं। पूरी जानकारी के बिना, मॉडल का प्रदर्शन केवल संदर्भ और केवल चरित्र दोनों स्थितियों के लिए गिर जाता है।


VEATIC डेटासेट की प्रभावशीलता दिखाने के लिए, हमने VEATIC पर अपने प्रीट्रेन्ड मॉडल का उपयोग किया, इसे अन्य डेटासेट पर फाइनट्यून किया और इसके प्रदर्शन का परीक्षण किया। हमने अपने मॉडल की सरलता और अन्य डेटासेट पेपर में प्रस्तावित मॉडल से हमारे मॉडल की समानता को देखते हुए केवल EMOTIC [32] और CAER-S [33] के लिए परीक्षण किया। परिणाम तालिका 4 में दिखाए गए हैं। हमारा प्रीट्रेन्ड मॉडल EMOTIC [32] और CAERS [33] में प्रस्तावित विधियों के बराबर प्रदर्शन करता है। इस प्रकार, यह हमारे प्रस्तावित VEATIC डेटासेट की प्रभावशीलता को दर्शाता है।



यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।