এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ।
লেখক:
(1) ঝিহাং রেন, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন (ইমেল: [email protected]);
(2) জেফারসন ওর্তেগা, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন (ইমেল: [email protected]);
(3) ইফান ওয়াং, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে এবং এই লেখকরা এই কাজে সমানভাবে অবদান রেখেছেন (ইমেল: [email protected]);
(4) ঝিমিন চেন, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে (ইমেল: [email protected]);
(5) Yunhui Guo, ডালাসে টেক্সাস বিশ্ববিদ্যালয় (ইমেল: [email protected]);
(6) স্টেলা এক্স ইউ, ইউনিভার্সিটি অফ ক্যালিফোর্নিয়া, বার্কলে এবং ইউনিভার্সিটি অফ মিশিগান, অ্যান আর্বার (ইমেল: [email protected]);
(7) ডেভিড হুইটনি, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলে (ইমেল: [email protected])।
VEATIC ডেটাসেটে ব্যবহৃত সমস্ত ভিডিও একটি অনলাইন ভিডিও-শেয়ারিং ওয়েবসাইট (ইউটিউব) থেকে নির্বাচন করা হয়েছিল৷ VEATIC ডেটাসেটে রয়েছে 124টি ভিডিও ক্লিপ, হলিউডের 104টি ক্লিপ, হোম ভিডিও থেকে 15টি ক্লিপ এবং ডকুমেন্টারি বা রিয়েলিটি টিভি শো থেকে 5টি ক্লিপ। বিশেষত, আমরা ডকুমেন্টারি ভিডিওগুলিকে এমন কোনও ভিডিও হিসাবে শ্রেণীবদ্ধ করি যা স্পষ্ট সামাজিক মিথস্ক্রিয়া দেখায় তবে ভিডিও সম্পাদনার কিছু রূপ রয়েছে, যখন হোম ভিডিওগুলি এমন ভিডিওগুলিকে বোঝায় যা কোনও ভিডিও সম্পাদনা ছাড়াই অকপট সামাজিক মিথস্ক্রিয়া দেখায়৷ ডেটাসেটের সমস্ত ভিডিওর ফ্রেম রেট প্রতি সেকেন্ডে 25 ফ্রেম ছিল এবং রেজোলিউশনে সর্বনিম্ন 202 x 360 এবং সর্বোচ্চ 1920 x 1080।
চিত্র 2-এ ভিডিও ফ্রেমের সংক্ষিপ্ত বিবরণ ব্যতীত, আমরা চিত্র 9-এ আরও নমুনা দেখাই। অধিকন্তু, পূর্বে প্রকাশিত ডেটাসেটের বিপরীতে যেখানে বেশিরভাগ ফ্রেমে প্রধান অক্ষর রয়েছে [31, 29, 32], VEATIC-এর শুধুমাত্র নির্বাচিত অক্ষর ধারণকারী ফ্রেমই নেই কিন্তু এছাড়াও অনির্বাচিত অক্ষর এবং বিশুদ্ধ ব্যাকগ্রাউন্ড সহ প্রচুর ফ্রেম রয়েছে (চিত্র 10)। অতএব, VEATIC আমাদের দৈনন্দিন জীবনের পরিস্থিতির সাথে আরও বেশি মিল, এবং এতে প্রশিক্ষিত অ্যালগরিদমগুলি প্রতিদিনের অ্যাপ্লিকেশনের জন্য আরও আশাব্যঞ্জক হবে।
এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।