লেখক:
(1) ঝিহাং রেন, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন (ইমেল: [email protected]);
(2) জেফারসন ওর্তেগা, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন (ইমেল: [email protected]);
(3) ইফান ওয়াং, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন (ইমেল: [email protected]);
(4) ঝিমিন চেন, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে (ইমেল: [email protected]);
(5) ইউনহুই গুও, ডালাসে টেক্সাস বিশ্ববিদ্যালয় (ইমেল: [email protected]);
(6) স্টেলা এক্স ইউ, ইউনিভার্সিটি অফ ক্যালিফোর্নিয়া, বার্কলে এবং ইউনিভার্সিটি অফ মিশিগান, অ্যান আর্বার (ইমেল: [email protected]);
(7) ডেভিড হুইটনি, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে (ইমেল: [email protected])।
সম্প্রতি, বেশ কয়েকটি ডেটাসেট রয়েছে যা মুখের এবং প্রসঙ্গ উভয় তথ্য সহ ফ্রেম সরবরাহ করে, যেমন CAER [৩৩] এবং ইমোটিক [৩২]। CAER [৩৩] হল একটি ভিডিও ভিত্তিক ডেটাসেট যা প্রতিটি ভিডিও ফ্রেমের শ্রেণীবদ্ধ লেবেল ধারণ করে, এবং EMOTIC [৩২] হল একটি চিত্র-ভিত্তিক ডেটাসেট যাতে শ্রেণীগত অভিব্যক্তি লেবেল এবং ক্রমাগত ভ্যালেন্স-উত্তেজনা-আধিপত্য রেটিং উভয়ই রয়েছে। এই ডেটাসেটের বিপরীতে, আমাদের ডেটাসেট ভিডিও-ভিত্তিক এবং এতে ক্রমাগত ভ্যালেন্স এবং উত্তেজনা রেটিং রয়েছে। পূর্ববর্তী ডেটাসেটের সাথে আমাদের ডেটাসেটের মধ্যে একটি বিশদ তুলনা সারণি 1 এ পাওয়া যাবে।
বিভিন্ন আবেগ ডেটাসেটের উপর ভিত্তি করে, অধ্যয়নগুলি কীভাবে স্বয়ংক্রিয়ভাবে আবেগ অনুমান করা যায় তার উপর ফোকাস করা শুরু করেছে। অডিও [70, 68, 65], ভিজ্যুয়াল [40, 54, 55, 37] এবং পাঠ্য [68, 22] এর মতো অনেকগুলি পদ্ধতি থেকে মানুষের প্রভাব অনুমান করা যেতে পারে। ভিজ্যুয়াল ইনপুটগুলির জন্য, বিশেষত, তিনটি প্রধান কাজ রয়েছে।
ভ্যালেন্স-উত্তেজনা অনুমান কার্যটির লক্ষ্য প্রতিটি চিত্র/ফ্রেমের ভ্যালেন্স এবং উত্তেজনার পূর্বাভাস দেওয়া [71, 69, 29, 30]; অভিব্যক্তি স্বীকৃতির কাজটি প্রতিটি চিত্র/ফ্রেমের আবেগগত বিভাগগুলিকে শ্রেণীবদ্ধ করার উপর দৃষ্টি নিবদ্ধ করে [66, 57, 67]; এবং অ্যাকশন ইউনিট (AU) সনাক্তকরণ কাজটি প্রতিটি চিত্র/ফ্রেমের মুখ থেকে মুখের পেশী ক্রিয়া সনাক্ত করতে চায় [25, 56, 35, 64]। বর্তমানে, বেশিরভাগ প্রস্তাবিত পদ্ধতি আবেগগত অবস্থা অনুমান করার জন্য মুখের অংশের উপর অত্যন্ত নির্ভর করে। প্রকৃতপক্ষে, মুখের অংশে মানুষের মানসিক অবস্থা সম্পর্কে সমৃদ্ধ তথ্য রয়েছে। যাইহোক, প্রাসঙ্গিক কারণগুলি প্রয়োজনীয় তথ্যও সরবরাহ করে যা মানুষের জন্য অন্যদের সংবেদনশীল অবস্থাগুলি সঠিকভাবে অনুমান এবং উপলব্ধি করার জন্য প্রয়োজনীয় [8, 9, 10]। বেশ কিছু গবেষণা [33, 32, 40] প্রভাবিত অনুমানের উত্স হিসাবে প্রসঙ্গ তথ্যকে অন্তর্ভুক্ত করতে শুরু করেছে। এই গবেষণায়, আমরা নতুন টাস্ক অর্জনের জন্য মুখের এবং প্রসঙ্গ তথ্য উভয়ই গ্রহণ করেছি, অর্থাৎ, প্রতিটি ভিডিও ফ্রেমের জন্য ভ্যালেন্স এবং উত্তেজনা অনুমান করতে।
একজন ব্যক্তির প্রভাব অনুমান করার জন্য, আমাদের সাধারণত অডিও সেগমেন্ট, ভিডিও ফ্রেম বা শব্দের সাময়িক তথ্যের সাথে মোকাবিলা করতে হবে। অনেক অধ্যয়ন [68, 69, 29, 30] প্রক্রিয়া করার জন্য দীর্ঘ স্বল্পমেয়াদী মেমরি (LSTM) [23], গেটেড রিকারেন্ট ইউনিট (GRU) [11], বা পৌনঃপুনিক নিউরাল নেটওয়ার্ক (RNN) [24, 50] ব্যবহার করা শুরু করে। সাময়িক তথ্য। ভিজ্যুয়াল ট্রান্সফরমার (ViT) [14] এর উত্থানের সাথে, মনোযোগ সরানো হয়েছে। অনেক ভিডিও বোঝার কাজ [19, 1, 36] অস্থায়ী তথ্য বোঝার জন্য এবং অত্যাধুনিক কর্মক্ষমতা অর্জনের জন্য ViT ব্যবহার করেছে। আমাদের বেসলাইন পদ্ধতিটি ভিডিও ক্লিপগুলিতে অস্থায়ী তথ্য প্রক্রিয়া করার জন্য একটি হাতিয়ার হিসাবে ViT গ্রহণ করেছে।
এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।