paint-brush
VEATIC: ভিডিও-ভিত্তিক আবেগ এবং প্রসঙ্গ ডেটাসেটে ট্র্যাকিংকে প্রভাবিত করে: VEATIC ডেটাসেটদ্বারা@kinetograph
139 পড়া

VEATIC: ভিডিও-ভিত্তিক আবেগ এবং প্রসঙ্গ ডেটাসেটে ট্র্যাকিংকে প্রভাবিত করে: VEATIC ডেটাসেট

অতিদীর্ঘ; পড়তে

এই গবেষণাপত্রে, গবেষকরা মানব প্রভাবিত স্বীকৃতির জন্য VEATIC ডেটাসেট প্রবর্তন করেছেন, বিদ্যমান ডেটাসেটের সীমাবদ্ধতাগুলিকে মোকাবেলা করে, প্রসঙ্গ-ভিত্তিক অনুমান সক্ষম করে৷
featured image - VEATIC: ভিডিও-ভিত্তিক আবেগ এবং প্রসঙ্গ ডেটাসেটে ট্র্যাকিংকে প্রভাবিত করে: VEATIC ডেটাসেট
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ।

লেখক:

(1) ঝিহাং রেন, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন (ইমেল: [email protected]);

(2) জেফারসন ওর্তেগা, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন (ইমেল: [email protected]);

(3) ইফান ওয়াং, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন (ইমেল: [email protected]);

(4) ঝিমিন চেন, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে (ইমেল: [email protected]);

(5) Yunhui Guo, ডালাসে টেক্সাস বিশ্ববিদ্যালয় (ইমেল: [email protected]);

(6) স্টেলা এক্স ইউ, ইউনিভার্সিটি অফ ক্যালিফোর্নিয়া, বার্কলে এবং ইউনিভার্সিটি অফ মিশিগান, অ্যান আর্বার (ইমেল: [email protected]);

(7) ডেভিড হুইটনি, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে (ইমেল: [email protected])।

লিঙ্কের টেবিল

3. VEATIC ডেটাসেট

এই বিভাগে, আমরা প্রসঙ্গ ডেটাসেটে ভিডিও-ভিত্তিক আবেগ এবং প্রভাব ট্র্যাকিং চালু করি ( VEATIC )। প্রথমে, আমরা বর্ণনা করি কিভাবে আমরা সমস্ত ভিডিও ক্লিপ পেয়েছি। এর পরে, আমরা ডেটা টীকা পদ্ধতি এবং প্রাক-প্রসেসিং প্রক্রিয়া চিত্রিত করি। অবশেষে, আমরা গুরুত্বপূর্ণ ডেটাসেট পরিসংখ্যান প্রতিবেদন করি এবং ডেটা বিশ্লেষণের ফলাফলগুলি কল্পনা করি।

3.1। ভিডিও ক্লিপ অধিগ্রহণ

ডেটাসেটে ব্যবহৃত সমস্ত ভিডিও ক্লিপগুলি একটি অনলাইন ভিডিও-শেয়ারিং ওয়েবসাইট (ইউটিউব) থেকে অর্জিত হয়েছিল এবং ভিডিও ক্লিপগুলি এই ভিত্তিতে নির্বাচন করা হয়েছিল যে ক্লিপগুলিতে থাকা চরিত্রগুলির আবেগ/প্রভাব সময়ের সাথে পরিবর্তিত হওয়া উচিত। মোট, VEATIC ডেটাসেটে রয়েছে 124টি ভিডিও ক্লিপ, হলিউডের 104টি ক্লিপ, হোম ভিডিও থেকে 15টি ক্লিপ এবং ডকুমেন্টারি বা রিয়েলিটি টিভি শো থেকে 5টি ক্লিপ। VEATIC ডেটাসেটের নমুনা ফ্রেমগুলি (চিত্র 2) এ দেখানো হয়েছে। এই ভিডিওগুলিতে শূন্য থেকে একাধিক ইন্টারঅ্যাক্টিং অক্ষর রয়েছে৷ ভিডিওগুলি থেকে সমস্ত শব্দ মুছে ফেলা হয়েছিল যাতে লক্ষ্য চরিত্রের আবেগকে ট্র্যাক করার সময় পর্যবেক্ষকদের শুধুমাত্র ভিজ্যুয়াল তথ্যে অ্যাক্সেস ছিল।


চিত্র 2. VEATIC-এ ভিডিও ফ্রেমের ওভারভিউ। আমরা আমাদের ডেটাসেটে 5টি ভিডিও থেকে 4টি কী ফ্রেম তৈরি করেছি৷ অন্যান্য ডেটাসেটের বিপরীতে যেখানে ভিডিও ক্লিপগুলির উত্স অনন্য, VEATIC-এর ভিডিও ক্লিপগুলি বিভিন্ন উত্স থেকে আসে৷ এর মধ্যে হলিউড মুভি, ডকুমেন্টারি এবং হোমমেড ভিডিও রয়েছে। সুতরাং, এটি আমাদের ডেটাসেটে প্রশিক্ষিত মডেলটিকে আরও সাধারণীকরণের ক্ষমতা তৈরি করবে। ভিজ্যুয়াল ইনপুটের জন্য, VEATIC-এ বিভিন্ন প্রেক্ষাপটের তথ্য রয়েছে, যার মধ্যে রয়েছে বিভিন্ন ব্যাকগ্রাউন্ড, আলোর অবস্থা, চরিত্রের মিথস্ক্রিয়া ইত্যাদি। এটি ডেটাসেটকে আমাদের দৈনন্দিন জীবনের আরও প্রতিনিধিত্ব করে। অবশেষে, প্রতিটি ভিডিও ক্লিপে নির্বাচিত চরিত্রের আবেগ/প্রভাব অনেক পরিবর্তিত হয়, যা VEATIC-এ চরিত্রের প্রভাবকে আরও চ্যালেঞ্জিং করে তোলে।

3.2। ডেটা টীকা এবং প্রি-প্রসেসিং

মোট, আমাদের 192 জন পর্যবেক্ষক ছিল যারা ডেটাসেটে ভিডিওগুলির টীকাতে অংশগ্রহণ করেছিল৷ সমস্ত অংশগ্রহণকারীরা UC বার্কলে ইনস্টিটিউশনাল রিভিউ বোর্ডের নির্দেশিকা এবং প্রবিধান অনুসারে স্বাক্ষরিত সম্মতি প্রদান করেছিল এবং সমস্ত পরীক্ষামূলক পদ্ধতি অনুমোদিত হয়েছিল।


অংশগ্রহণকারীরা ডেটাসেটে মোট 124টি ভিডিও দেখেছেন এবং রেট দিয়েছেন। পর্যবেক্ষকদের ক্লান্ত হওয়া থেকে বিরত রাখতে, আমরা টীকা পদ্ধতিটিকে 1-ঘন্টা এবং 30-মিনিটের টীকা সেশনে বিভক্ত করেছি। অংশগ্রহণকারীরা কোনো ভিডিও টীকা করতে সক্ষম হওয়ার আগে, তাদের ব্র্যাডলি এবং ল্যাং (1999) দ্বারা প্রদত্ত রেটিং অনুসারে গ্রিডের বিভিন্ন স্থানে লেবেলযুক্ত আবেগের উদাহরণ সহ ভ্যালেন্স-উত্তেজনা প্রভাবিত রেটিং গ্রিডের একটি মুদ্রিত সংস্করণ দেখানো হয়েছিল। টীকাকারদের নির্দেশ দেওয়া হয়েছিল মাত্রা এবং নমুনা শব্দ অবস্থানের সাথে নিজেদের পরিচিত করতে যা তারা পরে টীকা প্রক্রিয়ায় ব্যবহার করবে। অংশগ্রহণকারীরা প্রভাবিত রেটিং গ্রিডের সাথে নিজেদের পরিচিত করার পরে, তারা তারপরে একটি দুই মিনিটের অনুশীলন টীকা সম্পূর্ণ করেছে যেখানে তারা একটি ভিডিওতে একটি লক্ষ্য চরিত্রের ভ্যালেন্স এবং উত্তেজনা ক্রমাগত ট্র্যাক করেছে (চিত্র 3b)। 2D ভ্যালেন্স-উত্তেজনা গ্রিডের মধ্যে রিয়েলটাইমে তাদের মাউস পয়েন্টারটিকে ক্রমাগত সরানোর মাধ্যমে ভিডিওতে লক্ষ্য চরিত্রের ভ্যালেন্স এবং উত্তেজনা ট্র্যাক করার জন্য টীকাকারদের নির্দেশ দেওয়া হয়েছিল। গ্রিডটি [−1, 1] এর পরিসরে তাদের ভ্যালেন্স এবং উত্তেজনা রেটিং ম্যাপ করবে। সম্ভাব্য মোটর পক্ষপাতগুলি নিয়ন্ত্রণ করতে, আমরা অংশগ্রহণকারীদের মধ্যে ভ্যালেন্স-উত্তেজনা মাত্রাগুলিকে ভারসাম্যহীন করেছি যেখানে অর্ধেক টীকারের x-অক্ষে ভ্যালেন্স এবং y-অক্ষে উত্তেজনা ছিল এবং বাকী অর্ধেক মাত্রা উল্টে গেছে যাতে উত্তেজনা x-এর উপর থাকে। -অক্ষ এবং ভ্যালেন্স y-অক্ষে ছিল। পর্যবেক্ষকরা অনুশীলনের টীকা সেশন শেষ করার পরে, তারা ডেটাসেটে ভিডিওগুলি টীকা করা শুরু করে।


চিত্র 3. ভিডিও টীকা করার জন্য ব্যবহৃত ইউজার ইন্টারফেস। ক) অংশগ্রহণকারীদের প্রথমে টার্গেট ক্যারেক্টার দেখানো হয়েছিল এবং প্রতিটি ভিডিও শুরুর আগে টাস্ক নির্দেশাবলী মনে করিয়ে দেওয়া হয়েছিল। খ) ওভারলেড ভ্যালেন্স এবং উত্তেজনা গ্রিড যা উপস্থিত ছিল যখন পর্যবেক্ষকরা ভিডিওগুলি টীকা করেছেন৷ পর্যবেক্ষকদের রিয়েল-টাইমে ভিডিওতে টার্গেট চরিত্রের আবেগকে ক্রমাগত রেট করার নির্দেশ দেওয়া হয়েছিল। যদি পর্যবেক্ষকরা 10 সেকেন্ডের বেশি সময় ধরে তাদের মাউস না সরিয়ে নেন, তবে প্রতিক্রিয়া রেটিং গ্রিড পর্যবেক্ষককে অবিচ্ছিন্নভাবে আবেগকে রেট দেওয়ার জন্য মনে করিয়ে দিতে ফ্ল্যাশ করবে।


অংশগ্রহণকারীরা টীকা শুরু করার আগে, তাদের লক্ষ্য অক্ষর বৃত্তাকার (চিত্র 3a) সহ একটি চিত্র দেখানো হয়েছিল যা অংশগ্রহণকারীদের জানায় যে ভিডিওটি শুরু হলে তারা কোন চরিত্রটি ট্র্যাক করবে৷ তারপর, তারা রিয়েল-টাইমে ভিডিও ক্লিপগুলি টীকা করেছে৷ প্রতিটি ভিডিও টীকাটির শেষে, অংশগ্রহণকারীরা ভিডিও ক্লিপের সাথে 1-5টি পৃথক লাইকার্ট স্কেল ব্যবহার করে তাদের পরিচিতি রিপোর্ট করেছে যা "অপরিচিত", "সামান্য পরিচিত", "কিছুটা পরিচিত", "মাঝারিভাবে পরিচিত", এবং "অত্যন্ত পরিচিত" থেকে শুরু করে পরিচিত"। ক্লিপটি দেখার সময় অংশগ্রহণকারীদের তাদের উপভোগের স্তর সম্পর্কেও জিজ্ঞাসা করা হয়েছিল যা 1-9 বিচ্ছিন্ন লিকার্ট স্কেল ব্যবহার করে রেট করা হয়েছিল যা 1 (আনন্দযোগ্য নয়) থেকে 9 (অত্যন্ত উপভোগযোগ্য)। অতিরিক্তভাবে, অংশগ্রহণকারীদের বিরক্ত না করার জন্য, সমস্ত 124টি ভিডিও ক্লিপ দুটি সেশনে বিভক্ত করা হয়েছিল। অংশগ্রহণকারীরা পৃথকভাবে দুটি সেশনে ভিডিও ক্লিপগুলিকে মূল্যায়ন করেছে।


প্রতিটি ট্রায়ালের সময়, আমরা মূল্যায়ন করেছি যে অংশগ্রহণকারীরা কোন একক অবস্থানে মাউস পয়েন্টার রাখার সময়কাল ট্র্যাক করে মনোযোগ দিচ্ছে না কিনা। যদি সময়কাল 10 সেকেন্ডের বেশি হয়, তাহলে প্রভাবিত রেটিং গ্রিড ওঠানামা করতে শুরু করবে যা অংশগ্রহণকারীদের লক্ষ্য চরিত্রের আবেগ ট্র্যাক করা চালিয়ে যেতে স্মরণ করিয়ে দেয়। আমাদের ডেটাসেটে কোনো শোরগোল টীকাকার ছিল কিনা তা মূল্যায়ন করার জন্য, আমরা প্রতিটি টীকাকারের মধ্যে পিয়ারসন পারস্পরিক সম্পর্ক গণনা করে প্রতিটি টীকাকারের চুক্তিকে গণনা করেছি এবং ত্যাগ-এক-আউট সম্মতির (বর্তমান টীকা ব্যতীত প্রতিক্রিয়াগুলির সমষ্টি) জন্য প্রতিটি ভিডিও। আমরা দেখেছি যে শুধুমাত্র একজন টীকাকারের সাথে সমস্ত ভিডিও জুড়ে .2-এর চেয়ে কম পারস্পরিক সম্পর্ক ছিল এক-আউট-আউট সম্মতি সহ। যেহেতু শুধুমাত্র একটি টীকা আমাদের থ্রেশহোল্ডের নিচে নেমে এসেছে, তাই ভিডিওতে কোনো গুরুত্বপূর্ণ বিকল্প টীকা না সরানোর জন্য আমরা ডেটাসেটে টীকাটিকে রাখার সিদ্ধান্ত নিয়েছি।


চিত্র 4. নমুনার ভিজ্যুয়ালাইজেশন মানে নির্বাচিত চরিত্রের জুম-ইন ভিউ সহ নির্দিষ্ট ভিডিও ক্লিপগুলির জন্য ভ্যালেন্স এবং উত্তেজনার রেটিং। আমরা ভ্যালেন্স এবং উত্তেজনার নির্দিষ্ট গড় রেটিং সম্পর্কিত মূল ফ্রেমগুলি দেখাই। সংশ্লিষ্ট ফ্রেম এবং রেটিং একই রঙে চিহ্নিত করা হয়েছে।

3.3। ভিজ্যুয়ালাইজেশন এবং ডেটা বিশ্লেষণ

চিত্র 4 2টি ভিন্ন ভিডিও ক্লিপগুলিতে নমুনা গড় রেটিং এবং মূল ফ্রেমগুলি দেখায়৷ স্পষ্টতই, এখানে ভ্যালেন্স এবং উত্তেজনা উভয়েরই বিস্তৃত রেটিং রয়েছে। অধিকন্তু, এটি দেখায় যে প্রসঙ্গ তথ্য, হয় স্থানিক এবং/অথবা অস্থায়ী, আবেগ সনাক্তকরণের কাজগুলিতে একটি গুরুত্বপূর্ণ ভূমিকা পালন করে। ভ্যালেন্স উদাহরণে (উপরের চিত্র), লড়াইয়ের অস্থায়ী এবং/অথবা স্থানিক প্রসঙ্গ তথ্য ছাড়া, শেষ ফ্রেমের (হলুদ) চরিত্রটি (মহিলা) আশ্চর্যজনকভাবে খুশি বা বিস্মিত কিনা তা চিনতে অসুবিধা হবে। উত্তেজনামূলক উদাহরণে (নিম্ন চিত্র), এমনকি নির্বাচিত চরিত্রের মুখ ছাড়া, পর্যবেক্ষকরা তীব্র প্রেক্ষাপটের মাধ্যমে সহজেই এবং ধারাবাহিকভাবে চরিত্রের উত্তেজনা অনুমান করতে পারেন।


চিত্র 5. একটি একক ভিডিওর জন্য উদাহরণ ভ্যালেন্স এবং উত্তেজনা রেটিং (ভিডিও 47)। স্বচ্ছ ধূসর রেখাগুলি পৃথক বিষয়ের রেটিং নির্দেশ করে এবং সবুজ লাইন হল অংশগ্রহণকারীদের গড় রেটিং।


চিত্র 5 আমাদের ডেটাসেটে একটি একক ভিডিওর জন্য সমস্ত অংশগ্রহণকারীদের নমুনা ভ্যালেন্স এবং উত্তেজনা রেটিং চিত্রিত করে। পৃথক বিষয়ের রেটিংগুলি (ধূসর রেখাগুলি) ভ্যালেন্স এবং উত্তেজনা রেটিং উভয়ের জন্য অংশগ্রহণকারীদের (সবুজ লাইন) সর্বসম্মত রেটিং অনুসরণ করে। সবুজ ঐক্যমত্য লাইনের চারপাশে ওভারল্যাপ করা ঘন ধূসর রেখাটি পর্যবেক্ষকদের বিস্তৃত পরিসরের মধ্যে চুক্তি নির্দেশ করে। উপরন্তু, আমরা প্রতিটি ভিডিওর জন্য পর্যবেক্ষক জুড়ে মানক বিচ্যুতি গণনা করে ভিডিও জুড়ে পর্যবেক্ষকদের প্রতিক্রিয়াগুলি কীভাবে পরিবর্তিত হয়েছে তা তদন্ত করেছি। আমরা দেখতে পেয়েছি যে ভ্যালেন্স এবং উত্তেজনা উভয় মাত্রার জন্য পর্যবেক্ষকদের মধ্যে পার্থক্য ছোট ছিল যেখানে ভ্যালেন্সের গড় মান বিচ্যুতি µ = 0.248 এবং একটি মধ্যক 0.222 এবং উত্তেজনার গড় মান বিচ্যুতি µ = 0.248 এবং 0.244 এর মধ্যম রয়েছে, যা ইমোটিক [৩২] থেকে ভ্যালেন্স এবং উত্তেজনা রেটিং বৈচিত্রের সাথে তুলনীয়।


আমাদের সমস্ত ভিডিও জুড়ে ভ্যালেন্স এবং উত্তেজনা রেটিংগুলির বিতরণ চিত্র 6-এ দেখানো হয়েছে৷ আমরা দেখতে পেয়েছি যে পৃথক অংশগ্রহণকারীর রেটিংগুলি ভ্যালেন্স এবং উত্তেজনা উভয় মাত্রার মধ্যে সম্পূর্ণরূপে বিতরণ করা হয়েছিল যা VEATIC ডেটাসেটের বৈচিত্র্যকে হাইলাইট করে৷ এছাড়াও আমরা অংশগ্রহণকারীদের মধ্যে প্রতিটি ভিডিওর জন্য পরিচিতি এবং উপভোগের রেটিং সংগ্রহ করেছি (চিত্র 7 এ দেখানো হয়েছে)। আমরা দেখতে পেয়েছি যে পর্যবেক্ষকরা ডেটাসেটে ব্যবহৃত ভিডিওগুলির সাথে অপরিচিত ছিলেন কারণ ভিডিও আইডি 0-97 এর জন্য গড় পরিচিতি রেটিং ছিল 1.61৷ উপরন্তু, ভিডিও আইডি 0-97-এর জন্য ভিডিও দেখার সময় পর্যবেক্ষকরা তাদের উপভোগকে রেট করেছেন গড়ে 4.98 হিসাবে যা ইঙ্গিত করে যে পর্যবেক্ষকরা ভিডিও ক্লিপগুলি দেখতে এবং টীকা করা মাঝারিভাবে উপভোগ করেছেন। ভিডিও আইডি 98-123-এর জন্য পরিচিতি এবং উপভোগের রেটিং সংগ্রহ করা হয়নি কারণ এই ভিডিওগুলির টীকাগুলি ডেটা সংগ্রহের সময় আগের সময়ে সংগ্রহ করা হয়েছিল যা এই রেটিংগুলিকে অন্তর্ভুক্ত করেনি৷


চিত্র 6. অংশগ্রহণকারীদের মধ্যে ভ্যালেন্স এবং উত্তেজনা রেটিং বিতরণ। স্বতন্ত্র সাদা বিন্দু হলিউড সিনেমার জন্য প্রতিটি ভিডিও ক্লিপের জন্য ক্রমাগত রেটিংগুলির গড় ভ্যালেন্স এবং উত্তেজনার প্রতিনিধিত্ব করে। নীল বর্গক্ষেত্র এবং সবুজ ত্রিভুজ যথাক্রমে ডকুমেন্টারি এবং হোম ভিডিওগুলির গড় ভ্যালেন্স এবং উত্তেজনার প্রতিনিধিত্ব করে। রেটিংগুলি 0.02 ব্যবধানে বাঁধানো হয়েছিল এবং প্রতিটি বিনের মধ্যে ডেটা পয়েন্টের মোট সংখ্যা গণনা করা হয়েছিল।


চিত্র 7. ভিডিও আইডি 0-97 এর জন্য ভিডিও জুড়ে পরিচিতি এবং উপভোগের রেটিং। উল্লম্ব কালো রেখাগুলি 1 SD নির্দেশ করে৷


নীচের সারণি 2 VEATIC ডেটাসেটের মৌলিক পরিসংখ্যানগুলিকে সংক্ষিপ্ত করে৷ সংক্ষেপে, VEATIC-এর একটি দীর্ঘ মোট ভিডিও ক্লিপ সময়কাল এবং বিভিন্ন ধরণের ভিডিও উত্স রয়েছে যা বিস্তৃত প্রেক্ষাপট এবং মানসিক অবস্থাকে কভার করে। অধিকন্তু, পূর্ববর্তী ডেটাসেটের তুলনায়, আমরা রেটিংগুলি টীকা করার জন্য অনেক বেশি অংশগ্রহণকারীদের নিয়োগ করেছি।


সারণি 2. VEATIC ডেটাসেটের পরিসংখ্যান।



এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ