paint-brush
ভিডিওতে সহিংসতা সনাক্তকরণ: ভূমিকাদ্বারা@kinetograph

ভিডিওতে সহিংসতা সনাক্তকরণ: ভূমিকা

অতিদীর্ঘ; পড়তে

এই কাগজে, গবেষকরা ভিডিওতে সহিংসতার স্বয়ংক্রিয় সনাক্তকরণের জন্য একটি সিস্টেমের প্রস্তাব করেছেন, শ্রেণিবিন্যাসের জন্য অডিও এবং ভিজ্যুয়াল সংকেত ব্যবহার করে।
featured image - ভিডিওতে সহিংসতা সনাক্তকরণ: ভূমিকা
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item


লেখক:

(1) প্রবীণ তিরুপত্তুর, সেন্ট্রাল ফ্লোরিডা বিশ্ববিদ্যালয়।

লিঙ্কের টেবিল

1। পরিচিতি

সোশ্যাল নেটওয়ার্কিং ওয়েবসাইটগুলিতে আপলোড করা মাল্টিমিডিয়া কন্টেন্টের পরিমাণ এবং শিশুরা যে সহজে এগুলি অ্যাক্সেস করতে পারে তা অভিভাবকদের জন্য একটি সমস্যা তৈরি করছে যারা তাদের সন্তানদেরকে ওয়েবে হিংসাত্মক এবং প্রাপ্তবয়স্ক সামগ্রীর সংস্পর্শে আসা থেকে রক্ষা করতে চান৷ ইউটিউব এবং ফেসবুকের মতো ওয়েবসাইটে ভিডিও আপলোডের সংখ্যা বাড়ছে। গত এক বছরে ফেসবুকে (ব্লগ-এফবি [৩]) ভিডিও পোস্টের সংখ্যা 75% বৃদ্ধি পেয়েছে এবং প্রতিদিন 120,000টিরও বেশি ভিডিও ইউটিউবে আপলোড করা হয় (ওয়েশ [56], গিল এট আল। 26])। অনুমান করা হয় যে এই ওয়েবসাইটগুলিতে আপলোড করা ভিডিওগুলির 20% হিংসাত্মক বা প্রাপ্তবয়স্ক বিষয়বস্তু ধারণ করে (Sparks [54])। এটি শিশুদের পক্ষে অ্যাক্সেস করা সহজ করে বা দুর্ঘটনাক্রমে এই অনিরাপদ বিষয়বস্তুগুলির সংস্পর্শে আসে৷ শিশুদের উপর হিংসাত্মক বিষয়বস্তু দেখার প্রভাব মনোবিজ্ঞানে ভালভাবে অধ্যয়ন করা হয়েছে (টম্পকিন্স [55], স্পার্কস [54], বুশম্যান এবং হিউসম্যান [6], এবং হিউজম্যান এবং টেলর [32]) এবং এই গবেষণার ফলাফলগুলি হিংসাত্মক বিষয় দেখার পরামর্শ দেয়। বিষয়বস্তু শিশুদের আবেগের উপর যথেষ্ট প্রভাব ফেলে। প্রধান প্রভাবগুলি হল আক্রমনাত্মক বা ভীতিকর আচরণের সম্ভাবনা বৃদ্ধি এবং অন্যদের ব্যথা ও কষ্টের প্রতি কম সংবেদনশীল হয়ে ওঠা। হিউজম্যান এবং এরন [৩১] প্রাথমিক বিদ্যালয়ের শিশুদের নিয়ে একটি সমীক্ষা পরিচালনা করেন, যারা টেলিভিশনে অনেক ঘন্টা সহিংসতা দেখেছিল। এই শিশুদের প্রাপ্তবয়স্ক অবস্থায় পর্যবেক্ষণ করে, তারা দেখেছে যে যারা 8 বছর বয়সে টেলিভিশনে প্রচুর সহিংসতা দেখেছিল তাদের প্রাপ্তবয়স্ক হিসাবে অপরাধমূলক কাজের জন্য গ্রেপ্তার এবং বিচার করার সম্ভাবনা বেশি ছিল। বন্যা [25] এবং মিচেল এট আল দ্বারা অনুরূপ গবেষণা. [৪০] পরামর্শ দেয় যে প্রাপ্তবয়স্কদের বিষয়বস্তুর এক্সপোজার শিশুদের উপরও ক্ষতিকর প্রভাব ফেলে। ভিডিওগুলিতে স্বয়ংক্রিয় সহিংস এবং প্রাপ্তবয়স্ক সামগ্রী সনাক্তকরণের ক্ষেত্রে এই অনুপ্রাণিত গবেষণা।


প্রাপ্তবয়স্কদের বিষয়বস্তু সনাক্তকরণ (চ্যান এট আল। [8], শুল্জে এট আল। [52], পোগ্রেব্ন্যাক এট আল। [47]) ভালভাবে অধ্যয়ন করা হয়েছে এবং অনেক অগ্রগতি হয়েছে। অন্যদিকে, সহিংসতা সনাক্তকরণ কম অধ্যয়ন করা হয়েছে এবং শুধুমাত্র সাম্প্রতিক অতীতে আগ্রহ অর্জন করেছে। অতীতে সহিংসতা সনাক্তকরণের জন্য কয়েকটি পন্থা প্রস্তাব করা হয়েছিল এবং এই পদ্ধতিগুলির প্রতিটি বিভিন্ন চাক্ষুষ এবং শ্রবণ বৈশিষ্ট্য ব্যবহার করে সহিংসতা সনাক্ত করার চেষ্টা করেছিল। উদাহরণস্বরূপ, Nam et al. [৪১] হিংসাত্মক দৃশ্য সনাক্ত করতে একাধিক অডিও-ভিজ্যুয়াল বৈশিষ্ট্য একত্রিত করা হয়েছে। তাদের কাজে, পূর্বনির্ধারিত রঙের টেবিল ব্যবহার করে শিখা এবং রক্ত সনাক্ত করা হয়েছিল এবং বিভিন্ন প্রতিনিধি অডিও প্রভাব (বন্দুকের গুলি, বিস্ফোরণ, ইত্যাদি) ব্যবহার করা হয়েছিল। দত্ত ইত্যাদি। [১৪] মানুষের সহিংসতা যেমন মুষ্টি মারা, লাথি, ইত্যাদি সনাক্ত করার জন্য একটি ত্বরিত গতি ভেক্টর ভিত্তিক পদ্ধতির প্রস্তাব করেছে। চেং এট আল। [১১] সাধারণ অডিও ইভেন্ট (যেমন বন্দুকের গুলি, বিস্ফোরণ, এবং গাড়ি-ব্রেকিং) সনাক্তকরণের মাধ্যমে বন্দুক খেলা এবং গাড়ির রেসিং দৃশ্যগুলি সনাক্ত করার জন্য একটি শ্রেণিবদ্ধ পদ্ধতি উপস্থাপন করে।


সহিংসতা সনাক্তকরণের জন্য প্রস্তাবিত আরও পন্থাগুলি অধ্যায় 2-এ আলোচনা করা হয়েছে৷ এই সমস্ত পন্থাগুলি মূলত শুধুমাত্র হলিউড মুভিতে সহিংসতা সনাক্তকরণের উপর দৃষ্টি নিবদ্ধ করে কিন্তু ভিডিও শেয়ারিং এবং ইউটিউব বা ফেসবুকের মতো সোশ্যাল মিডিয়া ওয়েবসাইটগুলির ভিডিওগুলিতে নয়৷ হলিউড চলচ্চিত্রে সহিংসতা সনাক্ত করা তুলনামূলকভাবে সহজ কারণ এই চলচ্চিত্রগুলি কিছু সিনেমা নির্মাণের নিয়ম অনুসরণ করে। উদাহরণস্বরূপ, উত্তেজনাপূর্ণ অ্যাকশন দৃশ্যগুলি প্রদর্শন করার জন্য, দ্রুত গতির বায়ুমণ্ডল তৈরি করা হয় উচ্চ-গতির ভিজ্যুয়াল মুভমেন্ট এবং দ্রুত গতির শব্দের মাধ্যমে। কিন্তু ইউটিউব এবং ফেসবুকের মতো ভিডিও-শেয়ারিং ওয়েবসাইটগুলির ভিডিওগুলি এই সিনেমা তৈরির নিয়মগুলি অনুসরণ করে না এবং প্রায়ই খারাপ অডিও এবং ভিডিওর গুণমান থাকে৷ ব্যবহারকারীর তৈরি করা ভিডিওগুলির এই বৈশিষ্ট্যগুলি তাদের মধ্যে সহিংসতা সনাক্ত করা খুব কঠিন করে তোলে৷


সহিংসতা সনাক্ত করার পদ্ধতি নিয়ে আলোচনা করার আগে, "হিংসা" শব্দটির একটি সংজ্ঞা প্রদান করা গুরুত্বপূর্ণ। সহিংসতা সনাক্তকরণের জন্য পূর্ববর্তী সমস্ত পদ্ধতিগুলি সহিংসতার একই সংজ্ঞা অনুসরণ করেনি এবং বিভিন্ন বৈশিষ্ট্য এবং বিভিন্ন ডেটাসেট ব্যবহার করেছে। এটি বিভিন্ন পদ্ধতির তুলনা খুব কঠিন করে তোলে। এই সমস্যাটি কাটিয়ে ওঠার জন্য এবং এই এলাকায় গবেষণাকে উত্সাহিত করার জন্য, ভায়োলেন্ট সিন ডিটেকশন (ভিএসডি) নামে একটি ডেটাসেট ডেমার্টি এট আল দ্বারা চালু করা হয়েছিল। [১৫] 2011 সালে এবং এই ডেটাসেটের সাম্প্রতিক সংস্করণ VSD2014। এই সর্বশেষ ডেটাসেট অনুসারে, একটি ভিডিওতে "হিংসা" হল, "যে কোনও দৃশ্য একজন 8 বছরের শিশুকে দেখতে দেবে না কারণ এতে শারীরিক সহিংসতা রয়েছে"Schedl et al. [৫১]। এই সংজ্ঞাটি মনোবিজ্ঞানের গবেষণার ফলাফলের উপর ভিত্তি করে তৈরি করা হয়েছে বলে মনে করা হয়, যা উপরে উল্লিখিত হয়েছে। এই সংজ্ঞা থেকে, এটা লক্ষ্য করা যায় যে সহিংসতা একটি শারীরিক সত্তা নয় বরং একটি ধারণা যা খুবই সাধারণ, বিমূর্ত এবং অত্যন্ত বিষয়গত। অতএব, সহিংসতা সনাক্তকরণ একটি তুচ্ছ কাজ নয়।


এই কাজের লক্ষ্য হল এমন একটি সিস্টেম তৈরি করা যা স্বয়ংক্রিয়ভাবে হলিউডের সিনেমায় নয়, ইউটিউব এবং ফেসবুকের মতো ভিডিও-শেয়ারিং ওয়েবসাইটগুলির ভিডিওতেও সহিংসতা সনাক্ত করে৷ এই কাজটিতে, একটি ভিডিওতে সহিংসতার বিভাগ সনাক্ত করার চেষ্টা করা হয়েছে, যা পূর্ববর্তী পদ্ধতির দ্বারা সম্বোধন করা হয়নি। এই কাজে যে সকল সহিংসতাকে লক্ষ্য করা হয়েছে তা হল রক্তের উপস্থিতি, ঠান্ডা অস্ত্রের উপস্থিতি, বিস্ফোরণ, মারামারি, চিৎকার, আগুনের উপস্থিতি, আগ্নেয়াস্ত্র এবং গুলির উপস্থিতি। এগুলি ভিডিও সেগমেন্টের টীকা দেওয়ার জন্য VSD2014-এ সংজ্ঞায়িত এবং ব্যবহৃত ধারণাগুলির উপসেট প্রতিনিধিত্ব করে। VSD2014 থেকে "গরি সিন" এবং "কার চেজ" বিভাগগুলি নির্বাচন করা হয়নি কারণ VSD2014-এ এই ধারণাগুলির সাথে টীকাযুক্ত অনেক ভিডিও সেগমেন্ট ছিল না। এরকম আরেকটি বিভাগ হল "বিষয়ভিত্তিক সহিংসতা"। এটি নির্বাচন করা হয়নি কারণ এই বিভাগের অন্তর্গত দৃশ্যগুলিতে কোনও দৃশ্যমান সহিংসতা নেই এবং তাই সনাক্ত করা খুব কঠিন৷ এই কাজে, অডিও এবং ভিজ্যুয়াল উভয় বৈশিষ্ট্যই সহিংসতা সনাক্তকরণের জন্য ব্যবহার করা হয় কারণ অডিও এবং ভিজ্যুয়াল উভয় তথ্যের সমন্বয় শ্রেণীবিভাগে আরও নির্ভরযোগ্য ফলাফল প্রদান করে।


মাল্টি-মিডিয়া বিষয়বস্তুতে স্বয়ংক্রিয়ভাবে সহিংসতা সনাক্ত করতে পারে এমন একটি সিস্টেম তৈরির সুবিধা অনেক। এটি সহিংসতার পরিমাণের উপর নির্ভর করে চলচ্চিত্রগুলিকে রেট দিতে ব্যবহার করা যেতে পারে। এটি সামাজিক নেটওয়ার্কিং সাইটগুলি তাদের প্ল্যাটফর্মে হিংসাত্মক ভিডিও আপলোড সনাক্ত করতে এবং ব্লক করতে ব্যবহার করতে পারে। এছাড়াও, এটি দৃশ্যের চরিত্রায়ন এবং জেনার শ্রেণীবিভাগের জন্য ব্যবহার করা যেতে পারে যা সিনেমাগুলি অনুসন্ধান এবং ব্রাউজ করতে সহায়তা করে। রিয়েল-টাইম ক্যামেরা সিস্টেম থেকে ভিডিও স্ট্রীমগুলিতে সহিংসতার স্বীকৃতি বিমানবন্দর, হাসপাতাল, শপিং মল, পাবলিক প্লেস, জেলখানা, মানসিক ওয়ার্ড, স্কুল খেলার মাঠ ইত্যাদি জায়গায় ভিডিও নজরদারির জন্য খুব সহায়ক হবে। তবে, সহিংসতার প্রকৃত সময় সনাক্তকরণ হল অনেক বেশি কঠিন এবং এই কাজে এটি মোকাবেলা করার কোন চেষ্টা করা হয় না।


সম্পর্কিত কাজের একটি ওভারভিউ, প্রস্তাবিত পদ্ধতির বিশদ বিবরণ এবং মূল্যায়ন পরবর্তী উপস্থাপন করা হয়েছে। নিচের অধ্যায়গুলো এভাবে সাজানো হয়েছে। অধ্যায় 2-এ সহিংসতা শনাক্তকরণের ক্ষেত্রে আগের কিছু কাজ বিশদভাবে ব্যাখ্যা করা হয়েছে। অধ্যায় 3-এ, বৈশিষ্ট্য শ্রেণীবদ্ধকারীদের প্রশিক্ষণ এবং পরীক্ষার জন্য ব্যবহৃত পদ্ধতির বিবরণ উপস্থাপন করা হয়েছে। এটি বৈশিষ্ট্য নিষ্কাশন এবং ক্লাসিফায়ার প্রশিক্ষণের বিবরণও অন্তর্ভুক্ত করে। অধ্যায় 4 ব্যবহৃত ডেটাসেটের বিশদ বিবরণ, পরীক্ষামূলক সেটআপ এবং পরীক্ষাগুলি থেকে প্রাপ্ত ফলাফলগুলি বর্ণনা করে। পরিশেষে, অধ্যায় 5-এ উপসংহার প্রদান করা হয়েছে পরবর্তী সম্ভাব্য ভবিষ্যতের কাজ।


এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ