এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ।
লেখক:
(1) ঝিহাং রেন, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন (ইমেল: [email protected]);
(2) জেফারসন ওর্তেগা, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন (ইমেল: [email protected]);
(3) ইফান ওয়াং, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন (ইমেল: [email protected]);
(4) ঝিমিন চেন, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে (ইমেল: [email protected]);
(5) ইউনহুই গুও, ডালাসে টেক্সাস বিশ্ববিদ্যালয় (ইমেল: [email protected]);
(6) স্টেলা এক্স ইউ, ইউনিভার্সিটি অফ ক্যালিফোর্নিয়া, বার্কলে এবং ইউনিভার্সিটি অফ মিশিগান, অ্যান আর্বার (ইমেল: [email protected]);
(7) ডেভিড হুইটনি, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে (ইমেল: [email protected])।
এই গবেষণায়, আমরা প্রসঙ্গ টাস্কে একটি নতুন আবেগ স্বীকৃতির প্রস্তাব দিই, যেমন প্রতিটি ভিডিও ফ্রেমে প্রসঙ্গ এবং চরিত্রের তথ্য উভয়ের মাধ্যমে নির্বাচিত চরিত্রের ভ্যালেন্স এবং উত্তেজনা অনুমান করা। এখানে, আমরা প্রসঙ্গ টাস্কে নতুন আবেগ স্বীকৃতির মানদণ্ডের জন্য একটি সাধারণ বেসলাইন মডেল প্রস্তাব করি। মডেলটির পাইপলাইন চিত্র 8-এ দেখানো হয়েছে। আমরা দুটি সাধারণ সাবমডিউল গ্রহণ করেছি: বৈশিষ্ট্য নিষ্কাশনের জন্য একটি কনভোল্যুশনাল নিউরাল নেটওয়ার্ক (CNN) মডিউল এবং অস্থায়ী তথ্য প্রক্রিয়াকরণের জন্য একটি ভিজ্যুয়াল ট্রান্সফরমার মডিউল। CNN মডিউল কাঠামো Resnet50 [21] থেকে গৃহীত হয়। CAER [৩৩] এবং ইমোটিক [৩২] এর বিপরীতে, যেখানে মুখের/চরিত্র এবং প্রসঙ্গ বৈশিষ্ট্যগুলি আলাদাভাবে বের করা হয় এবং পরে একত্রিত করা হয়, আমরা সরাসরি সম্পূর্ণরূপে অবহিত ফ্রেমটিকে এনকোড করি। একটি একক ভবিষ্যদ্বাণীর জন্য, পরপর N ভিডিও ফ্রেমগুলি স্বাধীনভাবে এনকোড করা হয়৷ তারপরে, পরপর ফ্রেমের বৈশিষ্ট্য ভেক্টরগুলিকে প্রথম অবস্থানে এমবেড করা হয় এবং ট্রান্সফরমার এনকোডারে খাওয়ানো হয় যাতে মনোযোগ মডিউলগুলির L সেট থাকে। অবশেষে, উত্তেজনা এবং ভ্যালেন্সের ভবিষ্যদ্বাণী একটি মাল্টিলেয়ার পারসেপ্ট্রন (এমএলপি) হেড দ্বারা সম্পন্ন হয়।
আমাদের বেসলাইন মডেলের ক্ষতি ফাংশন দুটি পৃথক ক্ষতির একটি ওজনযুক্ত সমন্বয়। MSE ক্ষতি রেটিং এবং মডেল ভবিষ্যদ্বাণীর গ্রাউন্ড ট্রুথের স্থানীয় প্রান্তিককরণকে নিয়মিত করে। বৃহত্তর স্কেলে রেটিং এবং ভবিষ্যদ্বাণীগুলির সারিবদ্ধকরণের গ্যারান্টি দেওয়ার জন্য, যেমন আবেগগত রেটিংগুলির সাময়িক পরিসংখ্যান শেখার জন্য, আমরা নিয়মিতকরণ হিসাবে কনকর্ডেন্স কোরিলেশন কোফিসিয়েন্ট (CCC) ব্যবহার করি। এই সহগ নিম্নরূপ সংজ্ঞায়িত করা হয়,
SAGR পরিমাপ করে যে দুটি ভেক্টর X এবং Y-এর পৃথক মানের চিহ্ন কতটা মিলে যায়। এটি [0, 1]-এ মানগুলি গ্রহণ করে, যেখানে 1 সম্পূর্ণ চুক্তির প্রতিনিধিত্ব করে এবং 0 একটি সম্পূর্ণ দ্বন্দ্ব উপস্থাপন করে। SAGR মেট্রিক অন্যদের তুলনায় অতিরিক্ত কর্মক্ষমতা তথ্য ক্যাপচার করতে পারে। উদাহরণস্বরূপ, 0.2 এর একটি ভ্যালেন্স গ্রাউন্ড ট্রুথ দেওয়া হলে, 0.7 এবং -0.3 এর ভবিষ্যদ্বাণী একই RMSE মান নিয়ে যাবে। কিন্তু স্পষ্টতই, 0.7 আরও উপযুক্ত কারণ এটি একটি ইতিবাচক ভ্যালেন্স।
আমরা পূর্বোক্ত 4টি মেট্রিক্স, CCC, PCC, RMSE এবং SAGR ব্যবহার করে প্রসঙ্গ টাস্কে নতুন আবেগ স্বীকৃতির মানদণ্ড তৈরি করি। ফলাফলগুলি সারণী 3-এ দেখানো হয়েছে। অন্যান্য ডেটাসেটের তুলনায়, আমাদের প্রস্তাবিত সহজ পদ্ধতিটি তাদের ডেটাসেটের অত্যাধুনিক পদ্ধতির সমতুল্য।
আমরা সম্পূর্ণ-অবহিত ফ্রেমে পূর্বপ্রশিক্ষিত মডেলের মধ্যে শুধুমাত্র প্রসঙ্গ এবং শুধুমাত্র চরিত্র-ফ্রেমগুলিকে খাওয়ানোর মাধ্যমে আবেগ সনাক্তকরণের কাজগুলিতে প্রসঙ্গ এবং চরিত্রের তথ্যের গুরুত্ব তদন্ত করি। ন্যায্য তুলনা পেতে এবং ফ্রেম পিক্সেল বন্টন পার্থক্যের প্রভাব বাদ দেওয়ার জন্য, আমরা কেবলমাত্র প্রসঙ্গ এবং অক্ষর-শুধু ফ্রেমে পূর্ব-প্রশিক্ষিত মডেলটিকেও সূক্ষ্ম-টিউন করি। সংশ্লিষ্ট ফলাফলগুলি সারণি 3 এও দেখানো হয়েছে। সম্পূর্ণ তথ্য ছাড়া, মডেলের পারফরম্যান্স শুধুমাত্র প্রসঙ্গ এবং চরিত্র-শুধু উভয় অবস্থার জন্যই কমে যায়।
VEATIC ডেটাসেটের কার্যকারিতা দেখানোর জন্য, আমরা VEATIC-এ আমাদের পূর্ব-প্রশিক্ষিত মডেল ব্যবহার করেছি, এটিকে অন্যান্য ডেটাসেটে ফাইনটিউন করেছি এবং এর কার্যকারিতা পরীক্ষা করেছি। আমাদের মডেলের সরলতা এবং অন্যান্য ডেটাসেট কাগজপত্রে প্রস্তাবিত মডেলগুলির সাথে আমাদের মডেলের মিলের কারণে আমরা শুধুমাত্র ইমোটিক [৩২] এবং CAER-S [৩৩] পরীক্ষা করেছি। ফলাফলগুলি সারণি 4 এ দেখানো হয়েছে। আমাদের পূর্বপ্রশিক্ষিত মডেলটি ইমোটিক [৩২] এবং CAERS [৩৩]-এর প্রস্তাবিত পদ্ধতির সমতুল্য সঞ্চালন করে। সুতরাং, এটি আমাদের প্রস্তাবিত VEATIC ডেটাসেটের কার্যকারিতা দেখায়।
এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।