paint-brush
VEATIC: ভিডিও-ভিত্তিক আবেগ এবং প্রসঙ্গ ডেটাসেটে ট্র্যাকিংকে প্রভাবিত করে: সম্পর্কিত কাজদ্বারা@kinetograph
196 পড়া

VEATIC: ভিডিও-ভিত্তিক আবেগ এবং প্রসঙ্গ ডেটাসেটে ট্র্যাকিংকে প্রভাবিত করে: সম্পর্কিত কাজ

অতিদীর্ঘ; পড়তে

এই গবেষণাপত্রে, গবেষকরা মানব প্রভাবিত স্বীকৃতির জন্য VEATIC ডেটাসেট প্রবর্তন করেছেন, বিদ্যমান ডেটাসেটের সীমাবদ্ধতাগুলিকে মোকাবেলা করে, প্রসঙ্গ-ভিত্তিক অনুমান সক্ষম করে৷
featured image - VEATIC: ভিডিও-ভিত্তিক আবেগ এবং প্রসঙ্গ ডেটাসেটে ট্র্যাকিংকে প্রভাবিত করে: সম্পর্কিত কাজ
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

লেখক:

(1) ঝিহাং রেন, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন (ইমেল: [email protected]);

(2) জেফারসন ওর্তেগা, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন (ইমেল: [email protected]);

(3) ইফান ওয়াং, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন (ইমেল: [email protected]);

(4) ঝিমিন চেন, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে (ইমেল: [email protected]);

(5) ইউনহুই গুও, ডালাসে টেক্সাস বিশ্ববিদ্যালয় (ইমেল: [email protected]);

(6) স্টেলা এক্স ইউ, ইউনিভার্সিটি অফ ক্যালিফোর্নিয়া, বার্কলে এবং ইউনিভার্সিটি অফ মিশিগান, অ্যান আর্বার (ইমেল: [email protected]);

(7) ডেভিড হুইটনি, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে (ইমেল: [email protected])।

লিঙ্কের টেবিল

2. সম্পর্কিত কাজ

সম্প্রতি, বেশ কয়েকটি ডেটাসেট রয়েছে যা মুখের এবং প্রসঙ্গ উভয় তথ্য সহ ফ্রেম সরবরাহ করে, যেমন CAER [৩৩] এবং ইমোটিক [৩২]। CAER [৩৩] হল একটি ভিডিও ভিত্তিক ডেটাসেট যা প্রতিটি ভিডিও ফ্রেমের শ্রেণীবদ্ধ লেবেল ধারণ করে, এবং EMOTIC [৩২] হল একটি চিত্র-ভিত্তিক ডেটাসেট যাতে শ্রেণীগত অভিব্যক্তি লেবেল এবং ক্রমাগত ভ্যালেন্স-উত্তেজনা-আধিপত্য রেটিং উভয়ই রয়েছে। এই ডেটাসেটের বিপরীতে, আমাদের ডেটাসেট ভিডিও-ভিত্তিক এবং এতে ক্রমাগত ভ্যালেন্স এবং উত্তেজনা রেটিং রয়েছে। পূর্ববর্তী ডেটাসেটের সাথে আমাদের ডেটাসেটের মধ্যে একটি বিশদ তুলনা সারণি 1 এ পাওয়া যাবে।


বিভিন্ন আবেগ ডেটাসেটের উপর ভিত্তি করে, অধ্যয়নগুলি কীভাবে স্বয়ংক্রিয়ভাবে আবেগ অনুমান করা যায় তার উপর ফোকাস করা শুরু করেছে। অডিও [70, 68, 65], ভিজ্যুয়াল [40, 54, 55, 37] এবং পাঠ্য [68, 22] এর মতো অনেকগুলি পদ্ধতি থেকে মানুষের প্রভাব অনুমান করা যেতে পারে। ভিজ্যুয়াল ইনপুটগুলির জন্য, বিশেষত, তিনটি প্রধান কাজ রয়েছে।


সারণী 1. বিদ্যমান আবেগ স্বীকৃতি ডেটাসেটের সাথে VEATIC ডেটাসেটের তুলনা। VEATIC-এ প্রচুর পরিমাণে ভিডিও ক্লিপ এবং একটি দীর্ঘ ভিডিও মোট সময়কাল রয়েছে। এটি প্রথম বৃহৎ প্রসঙ্গ-সচেতন আবেগ স্বীকৃতি ভিডিও ডেটাসেট যার ধারাবাহিক ভ্যালেন্স এবং উত্তেজনাপূর্ণ টীকা রয়েছে। অন্যান্য প্রসঙ্গ-সচেতন আবেগ স্বীকৃতি ভিডিও ডেটাসেটের তুলনায় VEATIC-এর আরও অনেক টীকা রয়েছে৷ (*: মিশ্র অর্থ ক্রমাগত এবং শ্রেণীবদ্ধ উভয় টীকা ধারণ করে।)


ভ্যালেন্স-উত্তেজনা অনুমান কার্যটির লক্ষ্য প্রতিটি চিত্র/ফ্রেমের ভ্যালেন্স এবং উত্তেজনার পূর্বাভাস দেওয়া [71, 69, 29, 30]; অভিব্যক্তি স্বীকৃতির কাজটি প্রতিটি চিত্র/ফ্রেমের আবেগগত বিভাগগুলিকে শ্রেণীবদ্ধ করার উপর দৃষ্টি নিবদ্ধ করে [66, 57, 67]; এবং অ্যাকশন ইউনিট (AU) সনাক্তকরণ কাজটি প্রতিটি চিত্র/ফ্রেমের মুখ থেকে মুখের পেশী ক্রিয়া সনাক্ত করতে চায় [25, 56, 35, 64]। বর্তমানে, বেশিরভাগ প্রস্তাবিত পদ্ধতি আবেগগত অবস্থা অনুমান করার জন্য মুখের অংশের উপর অত্যন্ত নির্ভর করে। প্রকৃতপক্ষে, মুখের অংশে মানুষের মানসিক অবস্থা সম্পর্কে সমৃদ্ধ তথ্য রয়েছে। যাইহোক, প্রাসঙ্গিক কারণগুলি প্রয়োজনীয় তথ্যও সরবরাহ করে যা মানুষের জন্য অন্যদের সংবেদনশীল অবস্থাগুলি সঠিকভাবে অনুমান এবং উপলব্ধি করার জন্য প্রয়োজনীয় [8, 9, 10]। বেশ কিছু গবেষণা [33, 32, 40] প্রভাবিত অনুমানের উত্স হিসাবে প্রসঙ্গ তথ্যকে অন্তর্ভুক্ত করতে শুরু করেছে। এই গবেষণায়, আমরা নতুন টাস্ক অর্জনের জন্য মুখের এবং প্রসঙ্গ তথ্য উভয়ই গ্রহণ করেছি, অর্থাৎ, প্রতিটি ভিডিও ফ্রেমের জন্য ভ্যালেন্স এবং উত্তেজনা অনুমান করতে।


একজন ব্যক্তির প্রভাব অনুমান করার জন্য, আমাদের সাধারণত অডিও সেগমেন্ট, ভিডিও ফ্রেম বা শব্দের সাময়িক তথ্যের সাথে মোকাবিলা করতে হবে। অনেক অধ্যয়ন [68, 69, 29, 30] প্রক্রিয়া করার জন্য দীর্ঘ স্বল্পমেয়াদী মেমরি (LSTM) [23], গেটেড রিকারেন্ট ইউনিট (GRU) [11], বা পৌনঃপুনিক নিউরাল নেটওয়ার্ক (RNN) [24, 50] ব্যবহার করা শুরু করে। সাময়িক তথ্য। ভিজ্যুয়াল ট্রান্সফরমার (ViT) [14] এর উত্থানের সাথে, মনোযোগ সরানো হয়েছে। অনেক ভিডিও বোঝার কাজ [19, 1, 36] অস্থায়ী তথ্য বোঝার জন্য এবং অত্যাধুনিক কর্মক্ষমতা অর্জনের জন্য ViT ব্যবহার করেছে। আমাদের বেসলাইন পদ্ধতিটি ভিডিও ক্লিপগুলিতে অস্থায়ী তথ্য প্রক্রিয়া করার জন্য একটি হাতিয়ার হিসাবে ViT গ্রহণ করেছে।



এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ