paint-brush
ভিডিওতে সহিংসতা সনাক্তকরণ: উপসংহার এবং ভবিষ্যতের কাজদ্বারা@kinetograph
118 পড়া

ভিডিওতে সহিংসতা সনাক্তকরণ: উপসংহার এবং ভবিষ্যতের কাজ

অতিদীর্ঘ; পড়তে

এই কাগজে, গবেষকরা ভিডিওতে সহিংসতার স্বয়ংক্রিয় সনাক্তকরণের জন্য একটি সিস্টেমের প্রস্তাব করেছেন, শ্রেণিবিন্যাসের জন্য অডিও এবং ভিজ্যুয়াল সংকেত ব্যবহার করে।
featured image - ভিডিওতে সহিংসতা সনাক্তকরণ: উপসংহার এবং ভবিষ্যতের কাজ
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item


লেখক:

(1) প্রবীণ তিরুপত্তুর, সেন্ট্রাল ফ্লোরিডা বিশ্ববিদ্যালয়।

লিঙ্কের টেবিল

5. উপসংহার এবং ভবিষ্যত কাজ

এই অধ্যায়ে, উপসংহার এবং নির্দেশাবলী যেখানে বিদ্যমান কাজ বাড়ানো যেতে পারে সেগুলি যথাক্রমে ধারা 5.1 এবং 5.2 ধারায় আলোচনা করা হয়েছে৷

5.1। উপসংহার

এই কাজে, ভিজ্যুয়াল এবং অডিও উভয় বৈশিষ্ট্য ব্যবহার করে ভিডিওতে হিংসাত্মক বিষয়বস্তু সনাক্ত করার জন্য একটি সিস্টেম তৈরি করার চেষ্টা করা হয়েছে। যদিও এই কাজে ব্যবহৃত পদ্ধতিটি এই এলাকায় আগের কাজগুলি দ্বারা অনুপ্রাণিত, নিম্নলিখিতগুলি এর অনন্য দিকগুলি: (i) বিভিন্ন শ্রেণীর সহিংসতা সনাক্তকরণ, (ii) এর ভিজ্যুয়াল বিষয়বস্তু বর্ণনা করতে SentiBank বৈশিষ্ট্যের ব্যবহার একটি ভিডিও, (iii) ব্লাড ডিটেক্টর এবং ব্লাড মডেলটি ওয়েব থেকে ছবি ব্যবহার করে তৈরি করা হয়েছে এবং (iv) ভিডিও কোডেক থেকে তথ্য ব্যবহার করে গতি বৈশিষ্ট্য তৈরি করা হয়েছে। এই সিস্টেমটি বিকাশ করতে ব্যবহৃত প্রক্রিয়াটির একটি সংক্ষিপ্ত বিবরণ এখানে রয়েছে।


যেহেতু সহিংসতা একটি শারীরিক সত্তা নয়, ভিডিওতে এটি সনাক্ত করা একটি তুচ্ছ কাজ নয়। সহিংসতা একটি চাক্ষুষ ধারণা এবং এটি সনাক্ত করতে একাধিক বৈশিষ্ট্য ব্যবহার করতে হবে। এই কাজে, MFCC বৈশিষ্ট্যগুলি অডিও বিষয়বস্তু বর্ণনা করতে এবং রক্ত, গতি এবং সেন্টিব্যাঙ্ক বৈশিষ্ট্যগুলি ভিজ্যুয়াল বিষয়বস্তু বর্ণনা করতে ব্যবহৃত হয়। SVM ক্লাসিফায়ারদের প্রতিটি নির্বাচিত বৈশিষ্ট্যের জন্য প্রশিক্ষিত করা হয়েছিল এবং প্রতিটি সহিংসতার ক্লাসের জন্য চূড়ান্ত শ্রেণীবিভাগ স্কোর পেতে ওজনযুক্ত যোগফল দ্বারা পৃথক শ্রেণীবদ্ধ স্কোরগুলিকে একত্রিত করা হয়েছিল। সর্বনিম্ন EER হওয়ার জন্য অপ্টিমাইজ করার মানদণ্ডের সাথে গ্রিড-অনুসন্ধান পদ্ধতি ব্যবহার করে প্রতিটি শ্রেণীর ওজন পাওয়া যায়। এই কাজে বিভিন্ন ডেটাসেট ব্যবহার করা হয়, তবে সবচেয়ে গুরুত্বপূর্ণ হল ভিএসডি ডেটাসেট, যা ক্লাসিফায়ারদের প্রশিক্ষণ, ক্লাসিফায়ারের ওজন গণনা এবং সিস্টেম পরীক্ষা করার জন্য ব্যবহৃত হয়।


সিস্টেমের কর্মক্ষমতা দুটি ভিন্ন শ্রেণীবিভাগের কাজ, মাল্টিক্লাস এবং বাইনারি শ্রেণীবিভাগের উপর মূল্যায়ন করা হয়। মাল্টি-ক্লাস ক্লাসিফিকেশন টাস্কে, সিস্টেমটিকে একটি ভিডিও সেগমেন্টে উপস্থিত সহিংসতার শ্রেণি সনাক্ত করতে হবে। এটি শুধুমাত্র সহিংসতার উপস্থিতি সনাক্ত করার চেয়ে অনেক বেশি কঠিন কাজ এবং এখানে উপস্থাপিত সিস্টেমটি এই সমস্যাটি মোকাবেলা করার প্রথম একটি। বাইনারি শ্রেণীবিভাগের কাজটি হল যেখানে সিস্টেমটিকে সহিংসতার শ্রেণী খুঁজে না পেয়ে সহিংসতার উপস্থিতি সনাক্ত করতে হবে। এই টাস্কে, যেকোনও সহিংসতার ক্লাসের জন্য মাল্টি-ক্লাস ক্লাসিফিকেশন টাস্ক থেকে চূড়ান্ত শ্রেণীবিভাগ স্কোর যদি 0.5-এর বেশি হয়, তাহলে ভিডিও সেগমেন্টটিকে "হিংসা" হিসাবে শ্রেণীবদ্ধ করা হয়, অন্যথায় এটি "কোনও সহিংসতা" হিসাবে শ্রেণীবদ্ধ করা হয়। মাল্টি-ক্লাস ক্লাসিফিকেশন টাস্কের ফলাফলগুলি নিখুঁত থেকে অনেক দূরে এবং উন্নতির জন্য জায়গা রয়েছে, যেখানে, বাইনারি শ্রেণীবিভাগের কাজগুলির ফলাফলগুলি MediaEval-2014-এর বিদ্যমান বেঞ্চমার্ক ফলাফলগুলির চেয়ে ভাল। যাইহোক, এই ফলাফল অবশ্যই উত্সাহজনক। অনুচ্ছেদ 5.2-এ, বর্তমান কাজ সম্প্রসারিত করা যেতে পারে এমন সম্ভাব্য নির্দেশাবলীর উপর একটি বিস্তারিত আলোচনা উপস্থাপন করা হয়েছে।

5.2। ভবিষ্যতে কাজ

বর্তমান কাজ প্রসারিত করা যেতে পারে যে অনেক সম্ভাব্য দিক আছে. একটি দিক হবে বিদ্যমান সিস্টেমের কর্মক্ষমতা উন্নত করা। তার জন্য, পৃথক শ্রেণীবদ্ধকারীদের কর্মক্ষমতা উন্নত করতে হবে। মোশন এবং ব্লাড হল দুটি বৈশিষ্ট্য যার ক্লাসিফায়ার কর্মক্ষমতা অনুরণীয় উন্নতির প্রয়োজন। ধারা 4.4-এ যেমন ব্যাখ্যা করা হয়েছে, মোশন ক্লাসিফায়ারের কর্মক্ষমতা উন্নত করার জন্য গতি বৈশিষ্ট্যগুলি বের করার জন্য ব্যবহৃত পদ্ধতির পরিবর্তন করতে হবে। রক্তের জন্য, সমস্যাটি ক্লাসিফায়ারকে প্রশিক্ষণের জন্য ব্যবহৃত ডেটাসেটের সাথে কিন্তু বৈশিষ্ট্য নিষ্কাশনকারীর নয়। প্রশিক্ষণের জন্য রক্তযুক্ত ফ্রেমগুলির একটি উপযুক্ত ডেটাসেট ব্যবহার করা উচিত। এই উন্নতিগুলি করা একটি ভাল সিস্টেম তৈরির প্রথম পদক্ষেপ হওয়া উচিত। ভবিষ্যত কাজের জন্য আরেকটি দিক হবে এই সিস্টেমটিকে মানিয়ে নেওয়া এবং বিভিন্ন অ্যাপ্লিকেশনের জন্য বিভিন্ন টুলস ডেভেলপ করা। উদাহরণস্বরূপ, (i) একটি টুল তৈরি করা যেতে পারে যা প্রদত্ত ইনপুট ভিডিও থেকে সহিংসতা ধারণকারী ভিডিও বিভাগগুলিকে বের করতে পারে। এটি ভিডিও ট্যাগিং সহায়ক হতে পারে. (ii) অভিভাবকীয় নিয়ন্ত্রণের জন্য একটি অনুরূপ সরঞ্জাম তৈরি করা যেতে পারে যেখানে সিস্টেমটি একটি চলচ্চিত্রের হিংসাত্মক বিষয়বস্তুর পরিমাণের উপর নির্ভর করে রেট দিতে ব্যবহার করা যেতে পারে। ভবিষ্যতের কাজের জন্য আরেকটি সম্ভাব্য দিক হল, সিস্টেমের গতি উন্নত করা যাতে এটি নিরাপত্তা ক্যামেরার ভিডিও ফিড থেকে সহিংসতার রিয়েল-টাইম সনাক্তকরণে ব্যবহার করা যেতে পারে। এই ধরনের একটি সিস্টেম বিকাশের জন্য প্রয়োজনীয় উন্নতিগুলি তুচ্ছ হবে না।


এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ