লেখক:
(1) প্রবীণ তিরুপত্তুর, সেন্ট্রাল ফ্লোরিডা বিশ্ববিদ্যালয়।
এই অধ্যায়ে, উপসংহার এবং নির্দেশাবলী যেখানে বিদ্যমান কাজ বাড়ানো যেতে পারে সেগুলি যথাক্রমে ধারা 5.1 এবং 5.2 ধারায় আলোচনা করা হয়েছে৷
এই কাজে, ভিজ্যুয়াল এবং অডিও উভয় বৈশিষ্ট্য ব্যবহার করে ভিডিওতে হিংসাত্মক বিষয়বস্তু সনাক্ত করার জন্য একটি সিস্টেম তৈরি করার চেষ্টা করা হয়েছে। যদিও এই কাজে ব্যবহৃত পদ্ধতিটি এই এলাকায় আগের কাজগুলি দ্বারা অনুপ্রাণিত, নিম্নলিখিতগুলি এর অনন্য দিকগুলি: (i) বিভিন্ন শ্রেণীর সহিংসতা সনাক্তকরণ, (ii) এর ভিজ্যুয়াল বিষয়বস্তু বর্ণনা করতে SentiBank বৈশিষ্ট্যের ব্যবহার একটি ভিডিও, (iii) ব্লাড ডিটেক্টর এবং ব্লাড মডেলটি ওয়েব থেকে ছবি ব্যবহার করে তৈরি করা হয়েছে এবং (iv) ভিডিও কোডেক থেকে তথ্য ব্যবহার করে গতি বৈশিষ্ট্য তৈরি করা হয়েছে। এই সিস্টেমটি বিকাশ করতে ব্যবহৃত প্রক্রিয়াটির একটি সংক্ষিপ্ত বিবরণ এখানে রয়েছে।
যেহেতু সহিংসতা একটি শারীরিক সত্তা নয়, ভিডিওতে এটি সনাক্ত করা একটি তুচ্ছ কাজ নয়। সহিংসতা একটি চাক্ষুষ ধারণা এবং এটি সনাক্ত করতে একাধিক বৈশিষ্ট্য ব্যবহার করতে হবে। এই কাজে, MFCC বৈশিষ্ট্যগুলি অডিও বিষয়বস্তু বর্ণনা করতে এবং রক্ত, গতি এবং সেন্টিব্যাঙ্ক বৈশিষ্ট্যগুলি ভিজ্যুয়াল বিষয়বস্তু বর্ণনা করতে ব্যবহৃত হয়। SVM ক্লাসিফায়ারদের প্রতিটি নির্বাচিত বৈশিষ্ট্যের জন্য প্রশিক্ষিত করা হয়েছিল এবং প্রতিটি সহিংসতার ক্লাসের জন্য চূড়ান্ত শ্রেণীবিভাগ স্কোর পেতে ওজনযুক্ত যোগফল দ্বারা পৃথক শ্রেণীবদ্ধ স্কোরগুলিকে একত্রিত করা হয়েছিল। সর্বনিম্ন EER হওয়ার জন্য অপ্টিমাইজ করার মানদণ্ডের সাথে গ্রিড-অনুসন্ধান পদ্ধতি ব্যবহার করে প্রতিটি শ্রেণীর ওজন পাওয়া যায়। এই কাজে বিভিন্ন ডেটাসেট ব্যবহার করা হয়, তবে সবচেয়ে গুরুত্বপূর্ণ হল ভিএসডি ডেটাসেট, যা ক্লাসিফায়ারদের প্রশিক্ষণ, ক্লাসিফায়ারের ওজন গণনা এবং সিস্টেম পরীক্ষা করার জন্য ব্যবহৃত হয়।
সিস্টেমের কর্মক্ষমতা দুটি ভিন্ন শ্রেণীবিভাগের কাজ, মাল্টিক্লাস এবং বাইনারি শ্রেণীবিভাগের উপর মূল্যায়ন করা হয়। মাল্টি-ক্লাস ক্লাসিফিকেশন টাস্কে, সিস্টেমটিকে একটি ভিডিও সেগমেন্টে উপস্থিত সহিংসতার শ্রেণি সনাক্ত করতে হবে। এটি শুধুমাত্র সহিংসতার উপস্থিতি সনাক্ত করার চেয়ে অনেক বেশি কঠিন কাজ এবং এখানে উপস্থাপিত সিস্টেমটি এই সমস্যাটি মোকাবেলা করার প্রথম একটি। বাইনারি শ্রেণীবিভাগের কাজটি হল যেখানে সিস্টেমটিকে সহিংসতার শ্রেণী খুঁজে না পেয়ে সহিংসতার উপস্থিতি সনাক্ত করতে হবে। এই টাস্কে, যেকোনও সহিংসতার ক্লাসের জন্য মাল্টি-ক্লাস ক্লাসিফিকেশন টাস্ক থেকে চূড়ান্ত শ্রেণীবিভাগ স্কোর যদি 0.5-এর বেশি হয়, তাহলে ভিডিও সেগমেন্টটিকে "হিংসা" হিসাবে শ্রেণীবদ্ধ করা হয়, অন্যথায় এটি "কোনও সহিংসতা" হিসাবে শ্রেণীবদ্ধ করা হয়। মাল্টি-ক্লাস ক্লাসিফিকেশন টাস্কের ফলাফলগুলি নিখুঁত থেকে অনেক দূরে এবং উন্নতির জন্য জায়গা রয়েছে, যেখানে, বাইনারি শ্রেণীবিভাগের কাজগুলির ফলাফলগুলি MediaEval-2014-এর বিদ্যমান বেঞ্চমার্ক ফলাফলগুলির চেয়ে ভাল। যাইহোক, এই ফলাফল অবশ্যই উত্সাহজনক। অনুচ্ছেদ 5.2-এ, বর্তমান কাজ সম্প্রসারিত করা যেতে পারে এমন সম্ভাব্য নির্দেশাবলীর উপর একটি বিস্তারিত আলোচনা উপস্থাপন করা হয়েছে।
বর্তমান কাজ প্রসারিত করা যেতে পারে যে অনেক সম্ভাব্য দিক আছে. একটি দিক হবে বিদ্যমান সিস্টেমের কর্মক্ষমতা উন্নত করা। তার জন্য, পৃথক শ্রেণীবদ্ধকারীদের কর্মক্ষমতা উন্নত করতে হবে। মোশন এবং ব্লাড হল দুটি বৈশিষ্ট্য যার ক্লাসিফায়ার কর্মক্ষমতা অনুরণীয় উন্নতির প্রয়োজন। ধারা 4.4-এ যেমন ব্যাখ্যা করা হয়েছে, মোশন ক্লাসিফায়ারের কর্মক্ষমতা উন্নত করার জন্য গতি বৈশিষ্ট্যগুলি বের করার জন্য ব্যবহৃত পদ্ধতির পরিবর্তন করতে হবে। রক্তের জন্য, সমস্যাটি ক্লাসিফায়ারকে প্রশিক্ষণের জন্য ব্যবহৃত ডেটাসেটের সাথে কিন্তু বৈশিষ্ট্য নিষ্কাশনকারীর নয়। প্রশিক্ষণের জন্য রক্তযুক্ত ফ্রেমগুলির একটি উপযুক্ত ডেটাসেট ব্যবহার করা উচিত। এই উন্নতিগুলি করা একটি ভাল সিস্টেম তৈরির প্রথম পদক্ষেপ হওয়া উচিত। ভবিষ্যত কাজের জন্য আরেকটি দিক হবে এই সিস্টেমটিকে মানিয়ে নেওয়া এবং বিভিন্ন অ্যাপ্লিকেশনের জন্য বিভিন্ন টুলস ডেভেলপ করা। উদাহরণস্বরূপ, (i) একটি টুল তৈরি করা যেতে পারে যা প্রদত্ত ইনপুট ভিডিও থেকে সহিংসতা ধারণকারী ভিডিও বিভাগগুলিকে বের করতে পারে। এটি ভিডিও ট্যাগিং সহায়ক হতে পারে. (ii) অভিভাবকীয় নিয়ন্ত্রণের জন্য একটি অনুরূপ সরঞ্জাম তৈরি করা যেতে পারে যেখানে সিস্টেমটি একটি চলচ্চিত্রের হিংসাত্মক বিষয়বস্তুর পরিমাণের উপর নির্ভর করে রেট দিতে ব্যবহার করা যেতে পারে। ভবিষ্যতের কাজের জন্য আরেকটি সম্ভাব্য দিক হল, সিস্টেমের গতি উন্নত করা যাতে এটি নিরাপত্তা ক্যামেরার ভিডিও ফিড থেকে সহিংসতার রিয়েল-টাইম সনাক্তকরণে ব্যবহার করা যেতে পারে। এই ধরনের একটি সিস্টেম বিকাশের জন্য প্রয়োজনীয় উন্নতিগুলি তুচ্ছ হবে না।
এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।