159 रीडिंग

VEATIC: संदर्भ डेटासेट में वीडियो-आधारित भावना और प्रभाव ट्रैकिंग: सार और परिचय

द्वारा kinetograp...6m2024/05/27
Read on Terminal Reader

बहुत लंबा; पढ़ने के लिए

इस शोधपत्र में, शोधकर्ताओं ने मानवीय प्रभाव पहचान के लिए VEATIC डाटासेट प्रस्तुत किया है, जो मौजूदा डाटासेट की सीमाओं को संबोधित करता है, तथा संदर्भ-आधारित अनुमान को सक्षम बनाता है।
featured image - VEATIC: संदर्भ डेटासेट में वीडियो-आधारित भावना और प्रभाव ट्रैकिंग: सार और परिचय
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

लेखक:

(1) झिहांग रेन, कैलिफोर्निया विश्वविद्यालय, बर्कले और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया (ईमेल: [email protected]);

(2) जेफरसन ऑर्टेगा, कैलिफोर्निया विश्वविद्यालय, बर्कले और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया (ईमेल: [email protected]);

(3) यिफान वांग, कैलिफोर्निया विश्वविद्यालय, बर्कले और इन लेखकों ने इस कार्य में समान रूप से योगदान दिया (ईमेल: [email protected]);

(4) झिमिन चेन, कैलिफोर्निया विश्वविद्यालय, बर्कले (ईमेल: [email protected]);

(5) युनहुई गुओ, यूनिवर्सिटी ऑफ टेक्सास एट डलास (ईमेल: [email protected]);

(6) स्टेला एक्स. यू, कैलिफोर्निया विश्वविद्यालय, बर्कले और मिशिगन विश्वविद्यालय, एन आर्बर (ईमेल: [email protected]);

(7) डेविड व्हिटनी, कैलिफोर्निया विश्वविद्यालय, बर्कले (ईमेल: [email protected]).

लिंक की तालिका

अमूर्त

मानव प्रभाव पहचान मनोविज्ञान और कंप्यूटर विज़न में एक महत्वपूर्ण विषय रहा है। हालाँकि, वर्तमान में प्रकाशित डेटासेट में कई सीमाएँ हैं। उदाहरण के लिए, अधिकांश डेटासेट में ऐसे फ़्रेम होते हैं जिनमें केवल चेहरे के भावों के बारे में जानकारी होती है। पिछले डेटासेट की सीमाओं के कारण, मनुष्यों की प्रभाव पहचान के लिए तंत्र को समझना या उन डेटासेट पर प्रशिक्षित कंप्यूटर विज़न मॉडल के लिए सामान्य मामलों पर अच्छी तरह से सामान्यीकरण करना बहुत कठिन है। इस कार्य में, हम एक बिलकुल नया बड़ा डेटासेट, वीडियो-आधारित भावना और प्रभाव ट्रैकिंग इन कॉन्टेक्स्ट डेटासेट (VEATIC) पेश करते हैं, जो पिछले डेटासेट की सीमाओं को जीत सकता है। VEATIC में हॉलीवुड फिल्मों, वृत्तचित्रों और घरेलू वीडियो से 124 वीडियो क्लिप हैं, जिनमें वास्तविक समय एनोटेशन के माध्यम से प्रत्येक फ़्रेम की निरंतर वैलेंस और उत्तेजना रेटिंग है। डेटासेट के साथ, हम प्रत्येक वीडियो फ़्रेम में संदर्भ और चरित्र जानकारी दोनों के माध्यम से चयनित चरित्र के प्रभाव का अनुमान लगाने के लिए एक नया कंप्यूटर विज़न कार्य प्रस्तावित करते हैं। इसके अतिरिक्त, हम इस नए कंप्यूटर विज़न कार्य को बेंचमार्क करने के लिए एक सरल मॉडल प्रस्तावित करते हैं। हम अपने डेटासेट का उपयोग करके पूर्व-प्रशिक्षित मॉडल के प्रदर्शन की तुलना अन्य समान डेटासेट से भी करते हैं। प्रयोगों से VEATIC के माध्यम से हमारे पूर्व-प्रशिक्षित मॉडल के प्रतिस्पर्धी परिणाम दिखाई देते हैं, जो VEATIC की सामान्यीकरणीयता को दर्शाता है। हमारा डेटासेट https://veatic.github.io पर उपलब्ध है।

1 परिचय

हमारे दैनिक जीवन में मानवीय प्रभाव को पहचानना बहुत महत्वपूर्ण है। हम लोगों की भावनाओं का अनुमान लगा सकते हैं और उनके चेहरे के भावों, अन्य लोगों के साथ बातचीत और दृश्य के संदर्भ के आधार पर उनकी बाद की प्रतिक्रियाओं की भविष्यवाणी कर सकते हैं। यह हमारे संचार का एक अमूल्य हिस्सा है। इस प्रकार, प्रभाव पहचान के तंत्र को समझने के लिए कई अध्ययन समर्पित हैं। आर्टिफिशियल इंटेलिजेंस (एआई) के उद्भव के साथ, कई अध्ययनों ने मानव प्रभाव को स्वचालित रूप से समझने और व्याख्या करने के लिए एल्गोरिदम का भी प्रस्ताव दिया है, जिसका संभावित निहितार्थ यह है कि रोबोट और आभासी मानव जैसी प्रणालियाँ लोगों के साथ स्वाभाविक तरीके से बातचीत कर सकती हैं।


चित्र 1. भावना पहचान में संदर्भ का महत्व। वह कैसा महसूस कर रही है? चित्र (ए) में महिला को देखें। अगर आपको उसकी भावना का अनुमान लगाना हो, तो आप कह सकते हैं कि वह दुखी है या शोक में है। हालाँकि, चित्र (बी) दृश्य के संदर्भ को प्रकट करता है जिससे हम सही ढंग से देख सकते हैं कि वह बहुत खुश या उत्साहित है।


जब वास्तविक दुनिया में भावना पहचान का काम सौंपा जाता है, तो मनुष्य के पास चेहरे के भावों की तुलना में बहुत अधिक जानकारी तक पहुँच होती है। इसके बावजूद, भावना पहचान की जांच करने वाले कई अध्ययन अक्सर चेहरे के भावों की स्थिर उत्तेजनाओं का उपयोग करते हैं जो संदर्भ से अलग होते हैं, विशेष रूप से मनोवैज्ञानिक विकारों के आकलन में [3, 18] और कंप्यूटर विज़न मॉडल [60, 62] में। इसके अतिरिक्त, जबकि पिछले अध्ययनों ने उस प्रक्रिया की जांच जारी रखी है जिसके द्वारा मनुष्य भावना को समझते हैं, इनमें से कई अध्ययन यह जांचने में विफल रहे हैं कि भावना पहचान दृश्य दृश्य, पृष्ठभूमि की जानकारी, शरीर की हरकतें, अन्य चेहरे और यहां तक कि हमारे विश्वासों, इच्छाओं और वैचारिक प्रसंस्करण जैसे संदर्भ कारकों से कैसे प्रभावित होती है [4, 34, 8, 42, 44]। दिलचस्प बात यह है कि दृश्य संदर्भ संबंधी जानकारी चेहरे के भावों के साथ स्वचालित रूप से और सहजता से एकीकृत पाई गई है [2]। यह भावनात्मक निर्णयों के दौरान चेहरे के संकेतों को भी ओवरराइड कर सकता है [26] (चित्र 1), और दृश्य प्रसंस्करण के शुरुआती चरणों में भावना धारणा को भी प्रभावित कर सकता है [7]। वास्तव में, संदर्भ संबंधी जानकारी अक्सर किसी व्यक्ति की भावना को समझने के लिए उतनी ही मूल्यवान होती है जितनी कि चेहरा [8, 9, 10]। भावना पहचान में प्रासंगिक जानकारी के महत्व के बढ़ते प्रमाण [4] मांग करते हैं कि शोधकर्ता उन प्रयोगात्मक प्रतिमानों का पुनर्मूल्यांकन करें जिनमें वे मानवीय भावना पहचान की जांच करते हैं। उदाहरण के लिए, रोज़मर्रा की सामाजिक बातचीत के दौरान मानवीय भावना पहचान की ओर ले जाने वाले तंत्रों और प्रक्रियाओं को बेहतर ढंग से समझने के लिए, शोध अध्ययनों की सामान्यता पर गंभीरता से विचार किया जाना चाहिए। सबसे महत्वपूर्ण बात यह है कि भावना और प्रभाव ट्रैकिंग के लिए डेटासेट में न केवल चेहरे या अलग-अलग विशिष्ट चरित्र शामिल होने चाहिए, बल्कि पृष्ठभूमि दृश्य दृश्य जानकारी और पात्रों के बीच बातचीत जैसे प्रासंगिक कारक भी शामिल होने चाहिए।


मनुष्यों की भावनात्मक स्थिति का प्रतिनिधित्व करने के लिए, मनोविज्ञान और तंत्रिका विज्ञान में कई अध्ययनों ने मनुष्यों की भावनात्मक स्थिति को मापने के तरीकों का प्रस्ताव दिया है जिसमें भावना के श्रेणीबद्ध और निरंतर दोनों मॉडल शामिल हैं। भावना का सबसे प्रसिद्ध और प्रमुख श्रेणीबद्ध सिद्धांत बुनियादी भावनाओं का सिद्धांत है जो बताता है कि कुछ भावनाओं को संस्कृतियों में सार्वभौमिक रूप से मान्यता प्राप्त है (क्रोध, भय, खुशी, आदि) और यह कि सभी भावनाएं उनके व्यवहारिक और शारीरिक प्रतिक्रिया, उनके मूल्यांकन और अभिव्यक्ति में भिन्न होती हैं [16]। वैकल्पिक रूप से, भावना का एक निरंतर मॉडल, प्रभाव का परिधि मॉडल, प्रस्तावित करता है कि सभी भावात्मक अवस्थाएँ वैलेंस और उत्तेजना से संबंधित दो न्यूरोफिज़ियोलॉजिकल प्रणालियों से उत्पन्न होती हैं और सभी भावनाओं को इन दो आयामों के रैखिक संयोजन द्वारा वर्णित किया जा सकता है [52, 47, 53]। भावना पहचान का एक अन्य मॉडल, फेशियल एक्शन कोडिंग सिस्टम मॉडल, बताता है कि सभी चेहरे के भावों को एक्शन यूनिट्स नामक मांसपेशी आंदोलनों के मुख्य घटकों में तोड़ा जा सकता है [17]। पिछले भावना पहचान मॉडल इन विभिन्न मॉडलों को ध्यान में रखकर बनाए गए हैं [61, 63, 41]। हालांकि, कुछ मॉडल निरंतर आयामों का उपयोग करके प्रभाव को मापने पर ध्यान केंद्रित करते हैं, जो कि भावात्मक कंप्यूटिंग के लिए उपलब्ध एनोटेटेड डेटाबेस की कमी का दुर्भाग्यपूर्ण परिणाम है।


उपर्युक्त भावना मेट्रिक्स के आधार पर, कई भावना पहचान डेटासेट विकसित किए गए हैं। शुरुआती डेटासेट, जैसे SAL [15], SEMAINE [39], बेलफास्ट इंड्यूस्ड [58], DEAP [28], और MAHNOB-HCI [59] अत्यधिक नियंत्रित लैब सेटिंग्स के तहत एकत्र किए जाते हैं और आमतौर पर डेटा आकार में छोटे होते हैं। इन पिछले डेटासेट में पात्रों, गतियों, दृश्य रोशनी और पृष्ठभूमि के संदर्भ में विविधता का अभाव है। इसके अलावा, शुरुआती डेटासेट में प्रतिनिधित्व आमतौर पर असतत होते हैं। हाल के डेटासेट, जैसे RECOLA [49], MELD [46], OMG-इमोशन डेटासेट [5], Aff-Wild [69], और Aff-Wild2 [29, 30], निरंतर रेटिंग के माध्यम से भावनात्मक स्थिति एकत्र करना शुरू करते हैं और इंटरनेट पर वीडियो का उपयोग करते हैं या "इन-द-वाइल्ड" कहलाते हैं। इसके अलावा, उपर्युक्त डेटासेट में सीमित एनोटेटर (आमतौर पर 10 से कम) होते हैं। चूँकि मानव पर्यवेक्षकों में मजबूत व्यक्तिगत अंतर होते हैं और वे कई पूर्वाग्रहों से ग्रस्त होते हैं [12, 45, 48], सीमित एनोटेटर पर्याप्त एनोटेशन पूर्वाग्रहों को जन्म दे सकते हैं।


इस अध्ययन में, हम वीडियो-आधारित भावना और प्रभाव ट्रैकिंग इन कॉन्टेक्स्ट डेटासेट (VEATIC, /ve"ætIc/) प्रस्तुत करते हैं, जो एक बड़ा डेटासेट है जो मनोविज्ञान और कंप्यूटर विज़न समूहों दोनों के लिए फायदेमंद हो सकता है। डेटासेट में हॉलीवुड की फिल्मों, वृत्तचित्रों और घरेलू वीडियो से 124 वीडियो क्लिप शामिल हैं, जिनमें वास्तविक समय एनोटेशन के माध्यम से प्रत्येक फ़्रेम की निरंतर वैलेंस और उत्तेजना रेटिंग शामिल हैं। हमने डेटा को एनोटेट करने के लिए बड़ी संख्या में प्रतिभागियों की भर्ती भी की। इस डेटासेट के आधार पर, हम एक नया कंप्यूटर विज़न कार्य प्रस्तावित करते हैं, यानी, प्रत्येक वीडियो फ़्रेम में संदर्भ और चरित्र जानकारी दोनों के माध्यम से चयनित चरित्र के प्रभाव का स्वचालित रूप से अनुमान लगाना। इस अध्ययन में, हम इस कार्य के लिए एक सरल समाधान भी प्रदान करते हैं। प्रयोग विधि की प्रभावशीलता के साथ-साथ प्रस्तावित VEATIC डेटासेट के लाभों को भी दर्शाते हैं। संक्षेप में, इस कार्य के मुख्य योगदान हैं:


• हमने भावना और प्रभाव ट्रैकिंग के लिए पहला बड़ा वीडियो डेटासेट, VEATIC बनाया है जिसमें चेहरे की विशेषताएं और संदर्भगत कारक दोनों शामिल हैं। डेटासेट में प्रत्येक फ्रेम के लिए निरंतर वैलेंस और उत्तेजना रेटिंग है।


• एनोटेटर्स के पूर्वाग्रहों को कम करने के लिए, हमने पिछले डेटासेट (आमतौर पर 10 से कम) की तुलना में डेटासेट को एनोटेट करने के लिए एनोटेटर्स के एक बड़े समूह (कुल 192) की भर्ती की।


• हम प्रत्येक फ्रेम से चयनित चरित्र की उत्तेजना और वैलेंस की भविष्यवाणी करने के लिए चरित्र जानकारी और संदर्भगत कारकों दोनों का उपयोग करके एक आधारभूत मॉडल प्रदान करते हैं।



यह पेपर CC 4.0 लाइसेंस के अंतर्गत arxiv पर उपलब्ध है।


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks