লেখক:
(1) ঝিহাং রেন, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন (ইমেল: [email protected]);
(2) জেফারসন ওর্তেগা, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন (ইমেল: [email protected]);
(3) ইফান ওয়াং, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন (ইমেল: [email protected]);
(4) ঝিমিন চেন, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে (ইমেল: [email protected]);
(5) Yunhui Guo, ডালাসে টেক্সাস বিশ্ববিদ্যালয় (ইমেল: [email protected]);
(6) স্টেলা এক্স ইউ, ইউনিভার্সিটি অফ ক্যালিফোর্নিয়া, বার্কলে এবং ইউনিভার্সিটি অফ মিশিগান, অ্যান আর্বার (ইমেল: [email protected]);
(7) ডেভিড হুইটনি, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে (ইমেল: [email protected])।
সাইকোফিজিক্স এবং কম্পিউটার ভিশনে মানুষের প্রভাবের স্বীকৃতি একটি উল্লেখযোগ্য বিষয়। যাইহোক, বর্তমানে প্রকাশিত ডেটাসেটের অনেক সীমাবদ্ধতা রয়েছে। উদাহরণস্বরূপ, বেশিরভাগ ডেটাসেটে এমন ফ্রেম থাকে যা শুধুমাত্র মুখের অভিব্যক্তি সম্পর্কে তথ্য ধারণ করে। পূর্ববর্তী ডেটাসেটগুলির সীমাবদ্ধতার কারণে, মানুষের স্বীকৃতি প্রভাবিত করার প্রক্রিয়াগুলি বোঝা বা সেই ডেটাসেটগুলিতে প্রশিক্ষিত কম্পিউটার ভিশন মডেলগুলির সাধারণ ক্ষেত্রে ভালভাবে সাধারণীকরণ করা খুব কঠিন। এই কাজে, আমরা একটি একেবারে নতুন বৃহৎ ডেটাসেট প্রবর্তন করি, ভিডিও-ভিত্তিক ইমোশন অ্যান্ড অ্যাফেক্ট ট্র্যাকিং ইন কনটেক্সট ডেটাসেট (VEATIC), যা পূর্ববর্তী ডেটাসেটের সীমাবদ্ধতাগুলিকে জয় করতে পারে৷ VEATIC-এর কাছে হলিউড মুভি, ডকুমেন্টারি, এবং হোম ভিডিও থেকে 124টি ভিডিও ক্লিপ রয়েছে যার ধারাবাহিক ভ্যালেন্স এবং রিয়েল-টাইম টীকাটির মাধ্যমে প্রতিটি ফ্রেমের উত্তেজনা রেটিং রয়েছে৷ ডেটাসেটের সাথে, আমরা প্রতিটি ভিডিও ফ্রেমে প্রসঙ্গ এবং চরিত্রের তথ্য উভয়ের মাধ্যমে নির্বাচিত চরিত্রের প্রভাব অনুমান করার জন্য একটি নতুন কম্পিউটার দৃষ্টি টাস্ক প্রস্তাব করি। উপরন্তু, আমরা এই নতুন কম্পিউটার ভিশন টাস্ককে বেঞ্চমার্ক করার জন্য একটি সাধারণ মডেল প্রস্তাব করি। আমরা অন্যান্য অনুরূপ ডেটাসেটের সাথে আমাদের ডেটাসেট ব্যবহার করে পূর্বপ্রশিক্ষিত মডেলের কর্মক্ষমতা তুলনা করি। পরীক্ষাগুলি VEATIC এর মাধ্যমে আমাদের পূর্বপ্রশিক্ষিত মডেলের প্রতিযোগী ফলাফল দেখায়, যা VEATIC-এর সাধারণীকরণ নির্দেশ করে। আমাদের ডেটাসেট https://veatic.github.io এ উপলব্ধ।
মানুষের প্রভাব স্বীকৃতি আমাদের দৈনন্দিন জীবনে অতীব গুরুত্বপূর্ণ। আমরা মানুষের অনুভূতি অনুমান করতে পারি এবং তাদের মুখের অভিব্যক্তি, অন্যান্য লোকের সাথে মিথস্ক্রিয়া এবং দৃশ্যের প্রেক্ষাপটের উপর ভিত্তি করে তাদের পরবর্তী প্রতিক্রিয়াগুলির পূর্বাভাস দিতে পারি। এটি আমাদের যোগাযোগের একটি অমূল্য অংশ। এইভাবে, অনেক গবেষণা প্রভাবিত স্বীকৃতির প্রক্রিয়া বোঝার জন্য নিবেদিত। কৃত্রিম বুদ্ধিমত্তার (AI) উত্থানের সাথে সাথে, অনেক গবেষণায় মানুষের প্রভাব স্বয়ংক্রিয়ভাবে উপলব্ধি করতে এবং ব্যাখ্যা করার জন্য অ্যালগরিদম প্রস্তাব করা হয়েছে, যার সম্ভাব্য প্রভাব রয়েছে যে রোবট এবং ভার্চুয়াল মানুষের মতো সিস্টেমগুলি প্রাকৃতিক উপায়ে মানুষের সাথে যোগাযোগ করতে পারে।
যখন বাস্তব জগতে আবেগের স্বীকৃতির দায়িত্ব দেওয়া হয়, তখন মানুষের কেবল মুখের অভিব্যক্তির চেয়ে অনেক বেশি তথ্যের অ্যাক্সেস থাকে। তা সত্ত্বেও, আবেগের স্বীকৃতির তদন্ত করে এমন অনেক গবেষণা প্রায়শই মুখের অভিব্যক্তিগুলির স্থির উদ্দীপনা ব্যবহার করে যা প্রসঙ্গ থেকে বিচ্ছিন্ন, বিশেষ করে মনস্তাত্ত্বিক ব্যাধিগুলির মূল্যায়নে [3, 18] এবং কম্পিউটার ভিশন মডেলগুলিতে [60, 62]। উপরন্তু, পূর্ববর্তী অধ্যয়নগুলি যে প্রক্রিয়ার মাধ্যমে মানুষ আবেগকে উপলব্ধি করে তা তদন্ত করে চলেছে, এই গবেষণাগুলির মধ্যে অনেকগুলি পরীক্ষা করতে ব্যর্থ হয় যে কীভাবে আবেগের স্বীকৃতি দৃশ্যগত দৃশ্য, পটভূমির তথ্য, শরীরের নড়াচড়া, অন্যান্য মুখ এবং এমনকি আমাদের বিশ্বাসের মতো প্রাসঙ্গিক কারণগুলির দ্বারা প্রভাবিত হয়, ইচ্ছা, এবং ধারণাগত প্রক্রিয়াকরণ [4, 34, 8, 42, 44]। মজার বিষয় হল, চাক্ষুষ প্রাসঙ্গিক তথ্য স্বয়ংক্রিয়ভাবে এবং অনায়াসে মুখের অভিব্যক্তির সাথে একত্রিত হতে দেখা গেছে [2]। এটি মানসিক বিচারের সময় মুখের সংকেতগুলিকেও ওভাররাইড করতে পারে [26](চিত্র 1), এবং এমনকি ভিজ্যুয়াল প্রক্রিয়াকরণের প্রাথমিক পর্যায়ে আবেগ উপলব্ধিকে প্রভাবিত করতে পারে [7]। প্রকৃতপক্ষে, প্রাসঙ্গিক তথ্য প্রায়শই একজন ব্যক্তির আবেগ বোঝার জন্য মুখের মতোই মূল্যবান হয় [8, 9, 10]। আবেগের স্বীকৃতিতে প্রাসঙ্গিক তথ্যের গুরুত্বের ক্রমবর্ধমান প্রমাণগুলি দাবি করে যে গবেষকরা পরীক্ষামূলক দৃষ্টান্তগুলিকে পুনর্মূল্যায়ন করুন যেখানে তারা মানুষের আবেগ স্বীকৃতির তদন্ত করে। উদাহরণস্বরূপ, দৈনন্দিন সামাজিক মিথস্ক্রিয়া চলাকালীন মানুষের আবেগ স্বীকৃতির দিকে পরিচালিত প্রক্রিয়া এবং প্রক্রিয়াগুলিকে আরও ভালভাবে বোঝার জন্য, গবেষণা অধ্যয়নের সাধারণীকরণকে গুরুত্ব সহকারে বিবেচনা করা উচিত। সবচেয়ে গুরুত্বপূর্ণভাবে, আবেগ এবং প্রভাবিত ট্র্যাকিংয়ের জন্য ডেটাসেটগুলিতে শুধুমাত্র মুখ বা বিচ্ছিন্ন নির্দিষ্ট অক্ষর থাকা উচিত নয়, তবে প্রাসঙ্গিক কারণগুলি যেমন পটভূমির ভিজ্যুয়াল দৃশ্যের তথ্য এবং চরিত্রগুলির মধ্যে মিথস্ক্রিয়াগুলিও অন্তর্ভুক্ত করা উচিত।
মানুষের মানসিক অবস্থার প্রতিনিধিত্ব করার জন্য, মনোবিজ্ঞান এবং নিউরোসায়েন্সের অসংখ্য গবেষণায় মানুষের মানসিক অবস্থার পরিমাপ করার পদ্ধতি প্রস্তাব করা হয়েছে যার মধ্যে আবেগের শ্রেণীবদ্ধ এবং অবিচ্ছিন্ন মডেল উভয়ই অন্তর্ভুক্ত রয়েছে। আবেগের সবচেয়ে বিখ্যাত এবং প্রভাবশালী শ্রেণীগত তত্ত্ব হল মৌলিক আবেগের তত্ত্ব যা বলে যে কিছু আবেগ সর্বজনীনভাবে সংস্কৃতি জুড়ে স্বীকৃত (রাগ, ভয়, সুখ, ইত্যাদি) এবং সমস্ত আবেগ তাদের আচরণগত এবং শারীরবৃত্তীয় প্রতিক্রিয়া, তাদের মূল্যায়ন, এবং অভিব্যক্তি [16]. বিকল্পভাবে, প্রভাবের বৃত্তাকার মডেল, আবেগের একটি অবিচ্ছিন্ন মডেল, প্রস্তাব করে যে সমস্ত অনুভূতিশীল অবস্থাগুলি ভ্যালেন্স এবং উত্তেজনা সম্পর্কিত দুটি নিউরোফিজিওলজিকাল সিস্টেম থেকে উদ্ভূত হয় এবং সমস্ত আবেগ এই দুটি মাত্রার একটি রৈখিক সংমিশ্রণ দ্বারা বর্ণনা করা যেতে পারে [52, 47, 53] . আবেগ সনাক্তকরণের আরেকটি মডেল, ফেসিয়াল অ্যাকশন কোডিং সিস্টেম মডেল, বলে যে সমস্ত মুখের অভিব্যক্তিগুলিকে অ্যাকশন ইউনিট [17] নামে পেশী আন্দোলনের মূল উপাদানগুলিতে বিভক্ত করা যেতে পারে। পূর্ববর্তী আবেগ স্বীকৃতি মডেলগুলি এই বিভিন্ন মডেলগুলিকে মাথায় রেখে তৈরি করা হয়েছে [61, 63, 41]। যাইহোক, কিছু মডেল অবিচ্ছিন্ন মাত্রা ব্যবহার করে প্রভাব পরিমাপ করার উপর ফোকাস করে, অ্যাফেক্টিভ কম্পিউটিং এর জন্য উপলব্ধ টীকাকৃত ডাটাবেসের অভাবের একটি দুর্ভাগ্যজনক পণ্য।
উল্লিখিত আবেগ মেট্রিক্সের উপর ভিত্তি করে, অনেক আবেগ স্বীকৃতি ডেটাসেট তৈরি করা হয়েছে। প্রাথমিক ডেটাসেট, যেমন SAL [15], SEMAINE [39], Belfast induced [58], DEAP [28], এবং MAHNOB-HCI [59] অত্যন্ত নিয়ন্ত্রিত ল্যাব সেটিংসের অধীনে সংগ্রহ করা হয় এবং সাধারণত ডেটা আকারে ছোট হয়। এই পূর্ববর্তী ডেটাসেটগুলিতে অক্ষর, গতি, দৃশ্যের আলোকসজ্জা এবং ব্যাকগ্রাউন্ডের ক্ষেত্রে বৈচিত্র্যের অভাব রয়েছে। অধিকন্তু, প্রাথমিক ডেটাসেটের উপস্থাপনাগুলি সাধারণত বিচ্ছিন্ন হয়। সাম্প্রতিক ডেটাসেট, যেমন RECOLA [49], MELD [46], OMG-আবেগ ডেটাসেট [5], Aff-Wild [69], এবং Aff-Wild2 [29, 30], ক্রমাগত রেটিংগুলির মাধ্যমে মানসিক অবস্থা সংগ্রহ করা শুরু করে এবং ভিডিওগুলি ব্যবহার করে ইন্টারনেটে বা "ইন-দ্য-ওয়াইল্ড" বলা হয়। যাইহোক, এই ডেটাসেটগুলিতে প্রাসঙ্গিক তথ্যের অভাব রয়েছে এবং শুধুমাত্র মুখের অভিব্যক্তিতে ফোকাস করা হয়। ফ্রেমগুলি অক্ষর বা বিশেষ মুখ দ্বারা প্রাধান্য পায়। তদ্ব্যতীত, উপরে উল্লিখিত ডেটাসেটগুলিতে সীমিত টীকা রয়েছে (সাধারণত 10 এর কম)। যেহেতু মানব পর্যবেক্ষকদের শক্তিশালী স্বতন্ত্র পার্থক্য রয়েছে এবং অনেক পক্ষপাতিত্ব [12, 45, 48] থেকে ভুগছেন, তাই সীমিত টীকাকারীরা যথেষ্ট টীকা পক্ষপাতের দিকে নিয়ে যেতে পারে।
এই সমীক্ষায়, আমরা প্রসঙ্গ ডেটাসেটে ভিডিও-ভিত্তিক আবেগ এবং প্রভাব ট্র্যাকিং (VEATIC, /ve"ætIc/) প্রবর্তন করি, একটি বৃহৎ ডেটাসেট যা মনোবিজ্ঞান এবং কম্পিউটার দৃষ্টি গোষ্ঠী উভয়ের জন্যই উপকারী হতে পারে৷ ডেটাসেটে হলিউডের 124টি ভিডিও ক্লিপ অন্তর্ভুক্ত রয়েছে৷ মুভি, ডকুমেন্টারি, এবং হোম ভিডিওগুলি রিয়েল-টাইম টীকাটির মাধ্যমে প্রতিটি ফ্রেমের স্থিতিশীলতা এবং উত্তেজনাপূর্ণ রেটিং সহ আমরা এই ডেটাসেটের উপর ভিত্তি করে একটি নতুন কম্পিউটার ভিশন টাস্কের প্রস্তাব করি। স্বয়ংক্রিয়ভাবে প্রতিটি ভিডিও ফ্রেমে প্রসঙ্গ এবং চরিত্রের তথ্যের মাধ্যমে নির্বাচিত চরিত্রের প্রভাব অনুমান করা, আমরা এই কাজটির জন্য একটি সহজ সমাধানও প্রদান করি এবং সেই সাথে প্রস্তাবিত VEATIC ডেটাসেটের সুবিধাগুলিও দেখায়৷ সংক্ষেপে, এই কাজের প্রধান অবদানগুলি হল:
• আমরা আবেগ এবং প্রভাবিত ট্র্যাকিংয়ের জন্য প্রথম বড় ভিডিও ডেটাসেট, VEATIC তৈরি করি যাতে মুখের বৈশিষ্ট্য এবং প্রাসঙ্গিক কারণ উভয়ই রয়েছে। প্রতিটি ফ্রেমের জন্য ডেটাসেটের অবিচ্ছিন্ন ভ্যালেন্স এবং উত্তেজনা রেটিং রয়েছে।
• টীকাকারদের থেকে পক্ষপাত দূর করার জন্য, আমরা পূর্ববর্তী ডেটাসেটের (সাধারণত 10-এর কম) তুলনায় ডেটাসেটকে টীকা দেওয়ার জন্য টীকাকারদের একটি বড় সেট (মোট 192) নিয়োগ করেছি।
• আমরা অক্ষর তথ্য এবং প্রাসঙ্গিক কারণ উভয় ব্যবহার করে প্রতিটি ফ্রেম থেকে নির্বাচিত চরিত্রের উত্তেজনা এবং ভ্যালেন্স ভবিষ্যদ্বাণী করার জন্য একটি বেসলাইন মডেল প্রদান করি।
এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।