लेखक:
(1) झिहांग रेन, कैलिफोर्निया विश्वविद्यालय, बर्कले और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया (ईमेल: [email protected]);
(2) जेफरसन ऑर्टेगा, कैलिफोर्निया विश्वविद्यालय, बर्कले और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया (ईमेल: [email protected]);
(3) यिफान वांग, कैलिफोर्निया विश्वविद्यालय, बर्कले और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया (ईमेल: [email protected]);
(4) झिमिन चेन, कैलिफोर्निया विश्वविद्यालय, बर्कले (ईमेल: [email protected]);
(5) युनहुई गुओ, यूनिवर्सिटी ऑफ टेक्सास एट डलास (ईमेल: [email protected]);
(6) स्टेला एक्स. यू, कैलिफोर्निया विश्वविद्यालय, बर्कले और मिशिगन विश्वविद्यालय, एन आर्बर (ईमेल: [email protected]);
(7) डेविड व्हिटनी, कैलिफोर्निया विश्वविद्यालय, बर्कले (ईमेल: [email protected]).
हाल ही में, ऐसे कई डेटासेट आए हैं जो चेहरे और संदर्भ दोनों की जानकारी के साथ फ़्रेम प्रदान करते हैं, जैसे CAER [33] और EMOTIC [32]। CAER [33] एक वीडियो आधारित डेटासेट है जिसमें प्रत्येक वीडियो फ़्रेम के श्रेणीबद्ध लेबल होते हैं, और EMOTIC [32] एक छवि-आधारित डेटासेट है जिसमें श्रेणीबद्ध अभिव्यक्ति लेबल और निरंतर वैलेंस-उत्तेजना-प्रभुत्व रेटिंग दोनों शामिल हैं। इन डेटासेट के विपरीत, हमारा डेटासेट वीडियो-आधारित है और इसमें निरंतर वैलेंस और उत्तेजना रेटिंग शामिल हैं। पिछले डेटासेट के साथ हमारे डेटासेट के बीच विस्तृत तुलना तालिका 1 में पाई जा सकती है।
विभिन्न भावना डेटासेट के आधार पर, अध्ययनों ने इस बात पर ध्यान केंद्रित करना शुरू कर दिया है कि भावनाओं का स्वचालित रूप से अनुमान कैसे लगाया जाए। मानवीय प्रभाव का अनुमान कई तरीकों से लगाया जा सकता है, जैसे ऑडियो [70, 68, 65], दृश्य [40, 54, 55, 37], और पाठ [68, 22]। विशेष रूप से दृश्य इनपुट के लिए, तीन प्रमुख कार्य हैं।
वैलेंस-उत्तेजना अनुमान कार्य का लक्ष्य प्रत्येक छवि/फ्रेम की वैलेंस और उत्तेजना की भविष्यवाणी करना है [71, 69, 29, 30]; अभिव्यक्ति पहचान कार्य प्रत्येक छवि/फ्रेम की भावनात्मक श्रेणियों को वर्गीकृत करने पर केंद्रित है [66, 57, 67]; और एक्शन यूनिट (एयू) पहचान कार्य का उद्देश्य प्रत्येक छवि/फ्रेम के चेहरों से चेहरे की मांसपेशियों की क्रियाओं का पता लगाना है [25, 56, 35, 64]। वर्तमान में, अधिकांश प्रस्तावित विधियां भावनात्मक स्थिति का अनुमान लगाने के लिए चेहरे के क्षेत्र पर अत्यधिक निर्भर करती हैं। वास्तव में, चेहरे के क्षेत्र में मानव भावनात्मक स्थिति के बारे में समृद्ध जानकारी होती है। हालांकि, संदर्भ कारक आवश्यक जानकारी भी प्रदान करते हैं जो मनुष्यों के लिए दूसरों की भावनात्मक स्थिति का सही ढंग से अनुमान लगाने और समझने के लिए आवश्यक है [8, 9, 10]। इस अध्ययन में, हमने नए कार्य को पूरा करने के लिए चेहरे और संदर्भ दोनों की जानकारी को अपनाया, अर्थात, प्रत्येक वीडियो फ्रेम के लिए वैलेंस और उत्तेजना का अनुमान लगाना।
किसी व्यक्ति के प्रभाव का अनुमान लगाने के लिए, हमें आमतौर पर ऑडियो सेगमेंट, वीडियो फ़्रेम या शब्दों की अस्थायी जानकारी से निपटना पड़ता है। कई अध्ययनों [68, 69, 29, 30] ने अस्थायी जानकारी को संसाधित करने के लिए लॉन्ग शॉर्ट टर्म मेमोरी (LSTM) [23], गेटेड रिकरेंट यूनिट (GRU) [11], या रिकरेंट न्यूरल नेटवर्क (RNN) [24, 50] का उपयोग करना शुरू कर दिया। विज़ुअल ट्रांसफ़ॉर्मर (ViT) [14] के उद्भव के साथ, ध्यान स्थानांतरित हो गया है। कई वीडियो समझ कार्यों [19, 1, 36] ने अस्थायी जानकारी को समझने और अत्याधुनिक प्रदर्शन प्राप्त करने के लिए ViT का उपयोग किया है। हमारी बेसलाइन विधि ने वीडियो क्लिप में अस्थायी जानकारी को संसाधित करने के लिए एक उपकरण के रूप में ViT को भी अपनाया।
यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।