paint-brush
ভিডিওতে সহিংসতা সনাক্তকরণ: সম্পর্কিত কাজ দ্বারা@kinetograph

ভিডিওতে সহিংসতা সনাক্তকরণ: সম্পর্কিত কাজ

অতিদীর্ঘ; পড়তে

এই কাগজে, গবেষকরা ভিডিওতে সহিংসতার স্বয়ংক্রিয় সনাক্তকরণের জন্য একটি সিস্টেমের প্রস্তাব করেছেন, শ্রেণিবিন্যাসের জন্য অডিও এবং ভিজ্যুয়াল সংকেত ব্যবহার করে।
featured image - ভিডিওতে সহিংসতা সনাক্তকরণ: সম্পর্কিত কাজ
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item


লেখক:

(1) প্রবীণ তিরুপত্তুর, সেন্ট্রাল ফ্লোরিডা বিশ্ববিদ্যালয়।

লিঙ্কের টেবিল

2. সম্পর্কিত কাজ

ভায়োলেন্স ডিটেকশন হল অ্যাক্টিভিটি রিকগনিশনের একটি সাব-টাস্ক যেখানে ভিডিও থেকে হিংসাত্মক কার্যকলাপ শনাক্ত করতে হয়। এটি এক ধরণের মাল্টিমিডিয়া ইভেন্ট সনাক্তকরণ হিসাবেও বিবেচিত হতে পারে। এই সমস্যা সমাধানের জন্য ইতিমধ্যে কিছু পন্থা প্রস্তাব করা হয়েছে। এই প্রস্তাবিত পন্থাগুলিকে তিনটি বিভাগে শ্রেণীবদ্ধ করা যেতে পারে: (i) পন্থা যেখানে শুধুমাত্র চাক্ষুষ বৈশিষ্ট্যগুলি ব্যবহার করা হয়৷ (ii) পদ্ধতি যেখানে শুধুমাত্র অডিও বৈশিষ্ট্য ব্যবহার করা হয়। (iii) পদ্ধতি যেখানে অডিও এবং ভিজ্যুয়াল উভয় বৈশিষ্ট্যই ব্যবহার করা হয়। এখানে আগ্রহের বিভাগটি তৃতীয়টি, যেখানে ভিডিও এবং অডিও উভয়ই ব্যবহার করা হয়েছে৷ এই অধ্যায়টি এই বিভাগের প্রতিটির সাথে সম্পর্কিত পূর্ববর্তী কিছু পদ্ধতির একটি ওভারভিউ প্রদান করে।

2.1। অডিও এবং ভিডিও ব্যবহার করে

অডিও এবং ভিজ্যুয়াল উভয় ইঙ্গিত ব্যবহার করে সহিংসতা সনাক্ত করার প্রাথমিক প্রচেষ্টা ন্যাম এট আল দ্বারা। [৪১]। তাদের কাজে, অডিও এবং ভিজ্যুয়াল উভয় বৈশিষ্ট্যই হিংসাত্মক দৃশ্য সনাক্ত করতে এবং সূচী তৈরি করতে ব্যবহার করা হয় যাতে ভিডিওগুলির বিষয়বস্তু-ভিত্তিক অনুসন্ধানের অনুমতি দেওয়া হয়। এখানে, স্প্যাটিও-টেম্পোরাল ডাইনামিক অ্যাক্টিভিটি সিগনেচারটি প্রতিটি শটের জন্য বের করা হয় যাতে এটিকে হিংসাত্মক বা অহিংস বলে শ্রেণীবদ্ধ করা হয়। এই স্প্যাটিও-টেম্পোরাল ডাইনামিক অ্যাক্টিভিটি বৈশিষ্ট্যটি শটে উপস্থিত গতিশীল গতির পরিমাণের উপর ভিত্তি করে।


শটে ফ্রেমের মধ্যে স্থানিক গতি যত বেশি, বৈশিষ্ট্যটি তত বেশি তাৎপর্যপূর্ণ। এই পদ্ধতির পিছনে যুক্তি হল যে বেশিরভাগ অ্যাকশন দৃশ্যে মানুষ বা বস্তুর দ্রুত এবং উল্লেখযোগ্য পরিমাণ চলাচল জড়িত। একটি শটের জন্য স্প্যাটিও-টেম্পোরাল অ্যাক্টিভিটি বৈশিষ্ট্য গণনা করার জন্য, শট থেকে গতির ক্রমগুলি প্রাপ্ত করা হয় এবং শটের দৈর্ঘ্য দ্বারা স্বাভাবিক করা হয় যাতে নিশ্চিত করা হয় যে কেবলমাত্র ছোট দৈর্ঘ্যের শটগুলির এবং ফ্রেমের মধ্যে উচ্চ স্থানিক গতির উচ্চ মূল্য রয়েছে। কার্যকলাপ বৈশিষ্ট্য.


এছাড়াও, বন্দুকের গুলি বা বিস্ফোরণ থেকে অগ্নিশিখা সনাক্ত করতে, ফ্রেমের মধ্যে পিক্সেলগুলির তীব্রতার মানগুলির একটি আকস্মিক পরিবর্তন পরীক্ষা করা হয়। মিথ্যা ইতিবাচক বিষয়গুলি দূর করতে, যেমন ক্যামেরার ফ্ল্যাশলাইটের কারণে তীব্রতার ভিন্নতা, হলুদ, কমলা এবং লালের মতো শিখার রঙের কাছাকাছি রঙের মান সহ একটি পূর্ব-নির্ধারিত রঙ টেবিল ব্যবহার করা হয়। একইভাবে রক্ত শনাক্ত করার জন্য, যা বেশিরভাগ হিংসাত্মক দৃশ্যে সাধারণ, একটি ফ্রেমের মধ্যে পিক্সেল রঙগুলি রক্তের মতো রং ধারণকারী একটি পূর্ব-নির্ধারিত রঙের টেবিলের সাথে মিলিত হয়। কার্যকরভাবে সহিংসতা সনাক্ত করার জন্য এই চাক্ষুষ বৈশিষ্ট্যগুলি নিজেই যথেষ্ট নয়। সুতরাং, অডিও বৈশিষ্ট্যগুলিও বিবেচনা করা হয়।


অডিও সিগন্যালের শক্তি স্তরে হঠাৎ পরিবর্তন একটি অডিও কিউ হিসাবে ব্যবহৃত হয়। প্রতিটি ফ্রেমের জন্য শক্তি এনট্রপি গণনা করা হয় এবং এই মানটির আকস্মিক পরিবর্তন বিস্ফোরণ বা বন্দুকের গুলির মতো হিংসাত্মক ঘটনা চিহ্নিত করতে ব্যবহৃত হয়। অডিও এবং ভিজ্যুয়াল ক্লুগুলি উচ্চতর নির্ভুলতার সাথে সহিংসতা ধারণকারী শটগুলি পাওয়ার জন্য সিঙ্ক্রোনাইজ করা হয়। এই কাগজের প্রধান অবদানগুলির মধ্যে একটি হল সহিংসতা সনাক্ত করতে অডিও এবং ভিজ্যুয়াল উভয় ইঙ্গিতের প্রয়োজনীয়তা তুলে ধরা।


গং এট আল। [২৭] চলচ্চিত্রে সহিংসতা সনাক্ত করতে ভিজ্যুয়াল এবং অডিও উভয় ইঙ্গিত ব্যবহার করা হয়েছে। সহিংসতা সনাক্ত করার জন্য একটি তিন-পর্যায়ের পদ্ধতি বর্ণনা করা হয়েছে। প্রথম পর্যায়ে, ভিডিওতে প্রতিটি শটের জন্য নিম্ন-স্তরের ভিজ্যুয়াল এবং শ্রবণ বৈশিষ্ট্যগুলি বের করা হয়। এই বৈশিষ্ট্যগুলি সম্ভাব্য হিংসাত্মক বিষয়বস্তু সহ প্রার্থীর শটগুলি সনাক্ত করতে একটি শ্রেণিবদ্ধকারীকে প্রশিক্ষণ দিতে ব্যবহৃত হয়। পরবর্তী পর্যায়ে, প্রার্থীর শট সনাক্ত করতে উচ্চ-স্তরের অডিও প্রভাব ব্যবহার করা হয়। এই পর্যায়ে, উচ্চ-স্তরের অডিও প্রভাব শনাক্ত করার জন্য, এসভিএম ক্লাসিফায়ারদের নিম্ন-স্তরের অডিও বৈশিষ্ট্যগুলি যেমন পাওয়ার স্পেকট্রাম, পিচ, এমএফসিসি (মেল-ফ্রিকোয়েন্সি সেপস্ট্রাল কোফিসিয়েন্ট) এবং সুরেলা বিশিষ্টতা (Cai) ব্যবহার করে অডিও প্রভাবের প্রতিটি বিভাগের জন্য প্রশিক্ষণ দেওয়া হয়। এট আল [7])। প্রতিটি SVM-এর আউটপুটকে একটি সিগমায়েডের সম্ভাব্যতা ম্যাপিং হিসাবে ব্যাখ্যা করা যেতে পারে, যা [0,1] (প্ল্যাট এট আল। [46]) এর মধ্যে একটি অবিচ্ছিন্ন মান। শেষ পর্যায়ে, প্রথম দুটি পর্যায়ের সম্ভাব্য আউটপুটগুলিকে বুস্টিং ব্যবহার করে একত্রিত করা হয় এবং একটি শটের জন্য চূড়ান্ত সহিংসতার স্কোরকে প্রথম দুটি ধাপের স্কোরের ওজনযুক্ত যোগফল হিসাবে গণনা করা হয়।


এই ওজনগুলি একটি বৈধতা ডেটাসেট ব্যবহার করে গণনা করা হয় এবং গড় নির্ভুলতা সর্বাধিক করার আশা করা হয়। গং এট আল দ্বারা কাজ. [২৭] শুধুমাত্র চলচ্চিত্রে সহিংসতা সনাক্তকরণে মনোনিবেশ করে যেখানে সর্বজনীন চলচ্চিত্র নির্মাণের নিয়ম অনুসরণ করা হয়। উদাহরণস্বরূপ, অ্যাকশন দৃশ্যের সময় দ্রুত গতির শব্দ। বিস্ফোরণ এবং গুলির মতো সহিংসতার সাথে যুক্ত দ্রুতগতির দৃশ্য এবং অডিও ইভেন্ট সনাক্ত করে হিংসাত্মক বিষয়বস্তু সনাক্ত করা হয়। ব্যবহৃত প্রশিক্ষণ এবং পরীক্ষার ডেটা হলিউডের চারটি অ্যাকশন সিনেমার সংগ্রহ থেকে নেওয়া হয়েছে যাতে অনেক হিংসাত্মক দৃশ্য রয়েছে। যদিও এই পদ্ধতিটি ভাল ফলাফল দেয় তবে এটি লক্ষ করা উচিত যে এটি শুধুমাত্র চলচ্চিত্রে সহিংসতা সনাক্ত করার জন্য অপ্টিমাইজ করা হয়েছে যা ফিল্ম তৈরির কিছু নিয়ম অনুসরণ করে এবং এটি ফেসবুক, ইউটিউবের মতো ওয়েবসাইটগুলিতে ব্যবহারকারীদের দ্বারা আপলোড করা ভিডিওগুলির সাথে কাজ করবে না। , ইত্যাদি


লিন এবং ওয়াং [৩৮] এর কাজটিতে, একটি ভিডিও সিকোয়েন্সকে শটে ভাগ করা হয়েছে এবং প্রতিটি শটের জন্য এতে অডিও এবং ভিডিও উভয় বৈশিষ্ট্যই হিংসাত্মক বা অহিংস হিসাবে শ্রেণীবদ্ধ করা হয়েছে এবং আউটপুটগুলি সহ-প্রশিক্ষণ ব্যবহার করে একত্রিত করা হয়েছে। একটি পরিবর্তিত pLSA অ্যালগরিদম (Hofmann [30]) অডিও সেগমেন্ট থেকে সহিংসতা সনাক্ত করতে ব্যবহৃত হয়। অডিও সেগমেন্টটি প্রতিটি এক সেকেন্ডের অডিও ক্লিপগুলিতে বিভক্ত এবং একটি বৈশিষ্ট্য ভেক্টর দ্বারা প্রতিনিধিত্ব করা হয় যাতে নিম্ন স্তরের বৈশিষ্ট্য রয়েছে যেমন পাওয়ার স্পেকট্রাম, এমএফসিসি, পিচ, জিরো ক্রস রেট (জেডসিআর) অনুপাত এবং হারমোনিসিটি প্রমিনেন্স (Cai et al. [7]) . এই ভেক্টরগুলি ক্লাস্টার কেন্দ্রগুলি পেতে ক্লাস্টার করা হয় যা একটি অডিও শব্দভান্ডারকে বোঝায়। তারপর, প্রতিটি অডিও সেগমেন্ট একটি অডিও নথি হিসাবে এই শব্দভান্ডার ব্যবহার করে প্রতিনিধিত্ব করা হয়. এক্সপেক্টেশন ম্যাক্সিমাইজেশন অ্যালগরিদম (ডেম্পস্টার এট আল। [২০]) একটি অডিও মডেলের সাথে মানানসই করতে ব্যবহৃত হয় যা পরে অডিও বিভাগগুলির শ্রেণীবিভাগের জন্য ব্যবহৃত হয়। একটি ভিডিও বিভাগে সহিংসতা সনাক্ত করতে, তিনটি সাধারণ ভিজ্যুয়াল সহিংস ঘটনা: গতি, শিখা/বিস্ফোরণ এবং রক্ত ব্যবহার করা হয়। গতির তীব্রতা দ্রুত গতির এলাকা সনাক্ত করতে এবং প্রতিটি ফ্রেমের জন্য গতি বৈশিষ্ট্যগুলি বের করতে ব্যবহৃত হয়, যা একটি ফ্রেমকে হিংসাত্মক বা অহিংস হিসাবে শ্রেণীবদ্ধ করতে ব্যবহৃত হয়। রঙের মডেল এবং গতি মডেলগুলি একটি ফ্রেমে শিখা এবং বিস্ফোরণ সনাক্ত করতে এবং তাদের শ্রেণীবদ্ধ করতে ব্যবহৃত হয়। একইভাবে, রঙের মডেল এবং গতির তীব্রতা রক্তযুক্ত অঞ্চল সনাক্ত করতে ব্যবহৃত হয় এবং যদি এটি একটি ফ্রেমের জন্য পূর্ব-নির্ধারিত মানের চেয়ে বেশি হয় তবে এটি হিংস্র হিসাবে শ্রেণীবদ্ধ করা হয়। ভিডিও বিভাগের জন্য চূড়ান্ত সহিংসতা স্কোর উপরে উল্লিখিত তিনটি পৃথক স্কোরের ওজনযুক্ত যোগফল দ্বারা প্রাপ্ত হয়। এখানে ব্যবহৃত বৈশিষ্ট্যগুলি Nam et al দ্বারা ব্যবহৃত বৈশিষ্ট্যগুলির মতোই৷ [৪১]। ভিডিও এবং অডিও স্ট্রিম থেকে শ্রেণীবিভাগের স্কোর একত্রিত করার জন্য, সহ-প্রশিক্ষণ ব্যবহার করা হয়। প্রশিক্ষণ এবং পরীক্ষার জন্য, পাঁচটি হলিউড মুভি সমন্বিত একটি ডেটাসেট ব্যবহার করা হয় এবং হিংসাত্মক দৃশ্য শনাক্ত করতে প্রায় 0.85 এর নির্ভুলতা এবং প্রায় 0.90 রিকল পাওয়া যায়। এমনকি এই কাজটি শুধুমাত্র চলচ্চিত্রে সহিংসতা সনাক্তকরণকে লক্ষ্য করে কিন্তু ওয়েবে উপলব্ধ ভিডিওগুলিতে নয়। কিন্তু ফলাফলগুলি নির্দেশ করে যে চাক্ষুষ বৈশিষ্ট্য যেমন গতি এবং রক্ত সহিংসতা সনাক্তকরণের জন্য অত্যন্ত গুরুত্বপূর্ণ।

2.2। অডিও বা ভিডিও ব্যবহার করে

এখন পর্যন্ত উল্লিখিত সমস্ত পন্থাগুলি অডিও এবং ভিজ্যুয়াল উভয় ইঙ্গিত ব্যবহার করে, তবে আরও কিছু আছে যা সহিংসতা সনাক্ত করতে ভিডিও বা অডিও ব্যবহার করে এবং কিছু অন্য যা শুধুমাত্র একটি নির্দিষ্ট ধরণের সহিংসতা সনাক্ত করার চেষ্টা করে যেমন মুষ্টি মারামারি। এই পদ্ধতির একটি সংক্ষিপ্ত ওভারভিউ পরবর্তী উপস্থাপন করা হয়.


ভিডিওতে শব্দার্থিক প্রসঙ্গ সনাক্ত করতে অডিও ব্যবহার করা একমাত্র কাজগুলির মধ্যে একটি হল চেং এট আল। [১১], যেখানে গাউসিয়ান মিশ্রণ মডেল এবং হিডেন মার্কভ মডেলের উপর ভিত্তি করে একটি শ্রেণিবদ্ধ পদ্ধতি ব্যবহার করা হয় বন্দুকের গুলি, বিস্ফোরণ এবং গাড়ি-ব্রেকিং সনাক্ত করতে। দত্ত ইত্যাদি। [১৪] ভিডিওগুলিতে ব্যক্তি-পর-ব্যক্তি সহিংসতা শনাক্ত করার চেষ্টা করা হয়েছে যেগুলিতে শুধুমাত্র মুষ্টি মারা, লাথি মারা, বস্তুর সাথে আঘাত করা ইত্যাদি জড়িত, দৃশ্যের স্তরে সহিংসতা বিশ্লেষণ করে দৃশ্যের স্তরে না হয়ে বেশিরভাগ পদ্ধতির মতো। এখানে, একটি দৃশ্যে চলমান বস্তুগুলি সনাক্ত করা হয় এবং একটি ব্যক্তি মডেল শুধুমাত্র ব্যক্তিদের প্রতিনিধিত্বকারী বস্তুগুলি সনাক্ত করতে ব্যবহৃত হয়। এটি থেকে, একজন ব্যক্তির অঙ্গ-প্রত্যঙ্গের গতি ট্র্যাজেক্টোরি এবং ওরিয়েন্টেশন তথ্য ব্যক্তি-অপর-ব্যক্তি মারামারি সনাক্ত করতে ব্যবহৃত হয়।


ক্লারিন এট আল। [১২] মোশন পিকচারে হিংস্রতা শনাক্ত করার জন্য DOVE নামে একটি স্বয়ংক্রিয় সিস্টেম তৈরি করেছে। এখানে, হিংসাত্মক দৃশ্য সনাক্ত করতে শুধুমাত্র রক্ত ব্যবহার করা হয়। সিস্টেমটি প্রতিটি দৃশ্য থেকে মূল ফ্রেমগুলি বের করে এবং লেবেলগুলির সাথে পিক্সেলগুলিকে লেবেল করার জন্য একটি প্রশিক্ষিত স্ব-সংগঠিত মানচিত্রে প্রেরণ করে: ত্বক, রক্ত বা ননস্কিন/নন-ব্লাড। লেবেলযুক্ত পিক্সেলগুলি সংযুক্ত উপাদানগুলির মাধ্যমে একসাথে গোষ্ঠীভুক্ত করা হয় এবং সম্ভাব্য সহিংসতার জন্য পর্যবেক্ষণ করা হয়। ত্বক এবং রক্তের উপাদানগুলির সাথে পিক্সেল অঞ্চলে বিশাল পরিবর্তন হলে একটি দৃশ্যকে হিংসাত্মক বলে মনে করা হয়। যুদ্ধ সনাক্তকরণের উপর আরেকটি কাজ নিভাস এট আল দ্বারা। [৪২] যেখানে ব্যাগ-অফ-ওয়ার্ডস ফ্রেমওয়ার্ক ব্যবহার করা হয় অ্যাকশন বর্ণনাকারী স্পেস-টাইম ইন্টারেস্ট পয়েন্টস (STIP - Laptev [37]) এবং মোশন স্কেল-ইনভেরিয়েন্ট ফিচার ট্রান্সফর্ম (MoSIFT - Chen এবং Hauptmann [10]) সহ। লেখকরা 1,000টি ভিডিও সমন্বিত একটি নতুন ভিডিও ডেটাসেট প্রবর্তন করেছেন, দুটি গ্রুপ ফাইট এবং অ-ফাইট এ বিভক্ত। প্রতিটি গ্রুপে 500টি ভিডিও রয়েছে এবং প্রতিটি ভিডিওর সময়কাল এক সেকেন্ড। এই ডেটাসেটের সাথে পরীক্ষা-নিরীক্ষার ফলে অ্যাকশন মুভির লড়াইয়ের সাথে একটি ডেটাসেটে 90% নির্ভুলতা তৈরি হয়েছে।


ডেনিজ এট আল। [২১] প্রধান বৈশিষ্ট্য হিসাবে চরম ত্বরণ নিদর্শন ব্যবহার করে ভিডিওতে সহিংসতা সনাক্ত করার জন্য একটি অভিনব পদ্ধতির প্রস্তাব করেছে। এই পদ্ধতিটি অত্যাধুনিক অ্যাকশন রিকগনিশন সিস্টেমের তুলনায় 15 গুণ দ্রুত এবং মারামারি সম্বলিত দৃশ্যগুলি সনাক্ত করার ক্ষেত্রে খুব উচ্চ নির্ভুলতা রয়েছে। এই পদ্ধতিটি রিয়েল-টাইম সহিংসতা সনাক্তকরণ সিস্টেমে খুব দরকারী, যেখানে কেবল নির্ভুলতা নয়, গতিও গুরুত্বপূর্ণ। এই পদ্ধতিটি আকস্মিক গতি সনাক্ত করতে পরপর দুটি ফ্রেমের পাওয়ার স্পেকট্রামের তুলনা করে এবং গতির পরিমাণের উপর নির্ভর করে একটি দৃশ্যকে হিংসাত্মক বা অহিংস হিসাবে শ্রেণীবদ্ধ করা হয়। এই পদ্ধতিটি গতি শনাক্ত করার জন্য বৈশিষ্ট্য ট্র্যাকিং ব্যবহার করে না, যা এটিকে ঝাপসা থেকে অনাক্রম্য করে তোলে। হাসনার এট আল। [২৮] ভিড়ের দৃশ্যে সহিংসতার রিয়েল-টাইম সনাক্তকরণের জন্য একটি পদ্ধতি চালু করেছে। এই পদ্ধতি সময়ের সাথে প্রবাহ-ভেক্টর মাত্রার পরিবর্তন বিবেচনা করে। সংক্ষিপ্ত ফ্রেম সিকোয়েন্সের জন্য এই পরিবর্তনগুলিকে ভায়োলেন্ট ফ্লোস (ভিআইএফ) বর্ণনাকারী বলা হয়। এই বর্ণনাকারীগুলি একটি লিনিয়ার সাপোর্ট ভেক্টর মেশিন (SVM) ব্যবহার করে হিংসাত্মক এবং অহিংস দৃশ্য শ্রেণীবদ্ধ করতে ব্যবহৃত হয়। যেহেতু এই পদ্ধতিটি ফ্রেমের মধ্যে শুধুমাত্র প্রবাহের তথ্য ব্যবহার করে এবং উচ্চ-স্তরের আকৃতি এবং গতি বিশ্লেষণ ত্যাগ করে, তাই এটি রিয়েল-টাইমে কাজ করতে সক্ষম। এই কাজের জন্য, লেখকরা ইউটিউব থেকে হিংসাত্মক ভিড়ের আচরণ সম্বলিত ভিডিও ডাউনলোড করে তাদের নিজস্ব ডেটাসেট তৈরি করেছেন।


এই সমস্ত কাজ ভিডিও থেকে সহিংসতা শনাক্ত করতে বিভিন্ন পদ্ধতি ব্যবহার করে এবং তাদের সকলেই প্রশিক্ষণ এবং পরীক্ষার জন্য তাদের নিজস্ব ডেটাসেট ব্যবহার করে। তাদের সকলেরই সহিংসতার নিজস্ব সংজ্ঞা রয়েছে। এটি সহিংসতা সনাক্তকরণের জন্য একটি প্রধান সমস্যা প্রদর্শন করে, যা স্বাধীন বেসলাইন ডেটাসেটের অভাব এবং সহিংসতার একটি সাধারণ সংজ্ঞা, যা ছাড়া বিভিন্ন পদ্ধতির মধ্যে তুলনা অর্থহীন।


এই সমস্যা সমাধানের জন্য, Demarty et al. [১৬] মাল্টিমিডিয়া বেঞ্চমার্কিং উদ্যোগ MediaEval-2011 [1] এর অংশ হিসাবে চলচ্চিত্রে সহিংসতা বিভাগের স্বয়ংক্রিয় সনাক্তকরণের জন্য একটি বেঞ্চমার্ক উপস্থাপন করেছে। এই বেঞ্চমার্কটি খুবই কার্যকর কারণ এটি সহিংসতা এবং মূল্যায়ন প্রোটোকল এবং মেট্রিক্সের একটি সাধারণ সংজ্ঞা সহ একটি সামঞ্জস্যপূর্ণ এবং যথেষ্ট ডেটাসেট প্রদান করে। প্রদত্ত ডেটাসেটের বিবরণ বিভাগ 4.1-এ বিশদভাবে আলোচনা করা হয়েছে। ভিডিওতে সহিংসতার স্বীকৃতি সংক্রান্ত সাম্প্রতিক কাজগুলি এই ডেটাসেটটি ব্যবহার করেছে এবং সেগুলির কিছু সম্পর্কে বিশদ পরবর্তীতে দেওয়া হয়েছে৷

2.3। MediaEval VSD ব্যবহার করে

আকর এট আল। [১] এমন একটি পদ্ধতির প্রস্তাব করেছেন যা সিনেমায় সহিংসতা সনাক্তকরণের জন্য এক-শ্রেণী এবং দুই-শ্রেণীর SVM ব্যবহার করে তত্ত্বাবধানে ভিজ্যুয়াল এবং অডিও বৈশিষ্ট্যগুলিকে একত্রিত করে। নিম্ন-স্তরের ভিজ্যুয়াল এবং অডিও বৈশিষ্ট্যগুলি সিনেমার ভিডিও শটগুলি থেকে বের করা হয় এবং তারপর SVM-কে প্রশিক্ষণের জন্য প্রাথমিক ফিউশন পদ্ধতিতে একত্রিত করা হয়। MFCC বৈশিষ্ট্যগুলি অডিও বিষয়বস্তু বর্ণনা করার জন্য বের করা হয় এবং SIFT (স্কেল-ইনভেরিয়েন্ট ফিচার ট্রান্সফর্ম - লো [39]) ভিত্তিক ব্যাগ-অফ-ওয়ার্ডস পদ্ধতি ভিজ্যুয়াল সামগ্রীর জন্য ব্যবহার করা হয়।


জিয়াং এট আল। [৩৩] স্থানীয় প্যাচ ট্র্যাজেক্টোরিজের উপস্থিতি এবং গতি থেকে প্রাপ্ত বৈশিষ্ট্যগুলির একটি সেটের উপর ভিত্তি করে সহিংসতা সনাক্ত করার একটি পদ্ধতি প্রস্তাব করেছে (জিয়াং এট আল। [৩৪])। এই প্যাচ ট্রাজেক্টোরির পাশাপাশি, অন্যান্য বৈশিষ্ট্য যেমন SIFT, STIP, এবং MFCC বৈশিষ্ট্যগুলি বের করা হয় এবং বিভিন্ন শ্রেণীর সহিংসতা সনাক্ত করতে একটি SVM শ্রেণীবিভাগকে প্রশিক্ষণ দিতে ব্যবহৃত হয়। নির্ভুলতা বাড়ানোর জন্য স্কোর এবং বৈশিষ্ট্য মসৃণ করা হয়।


লাম এট আল। [৩৬] মিডিয়াইভাল দ্বারা প্রদত্ত ডেটাসেট এবং মূল্যায়ন প্রোটোকল ব্যবহার করে সহিংস দৃশ্য সনাক্তকরণ কাজের জন্য নিম্ন-স্তরের অডিও/ভিজ্যুয়াল বৈশিষ্ট্যগুলির কর্মক্ষমতা মূল্যায়ন করেছে। এই কাজে গতি এবং MFCC অডিও বৈশিষ্ট্যের সাথে স্থানীয় এবং বিশ্বব্যাপী উভয় ভিজ্যুয়াল বৈশিষ্ট্য ব্যবহার করা হয়। এই সমস্ত বৈশিষ্ট্যগুলি একটি শটে প্রতিটি কীফ্রেমের জন্য বের করা হয় এবং সেই শটের জন্য একটি একক বৈশিষ্ট্য ভেক্টর গঠনের জন্য পুল করা হয়। এই বৈশিষ্ট্য ভেক্টরের উপর ভিত্তি করে শটগুলিকে হিংসাত্মক বা অহিংস হতে শ্রেণীবদ্ধ করার জন্য একটি SVM শ্রেণীবদ্ধকারীকে প্রশিক্ষণ দেওয়া হয়। আইবেন এট আল। [২৩] সহিংসতা সনাক্তকরণের জন্য অডিওভিজ্যুয়াল শ্রেণীবিভাগের সাথে বৃহৎ-স্কেল সেগমেন্টাল বৈশিষ্ট্য নিষ্কাশন প্রয়োগ করা হয়েছে। অডিও বৈশিষ্ট্য নিষ্কাশন ওপেন-সোর্স বৈশিষ্ট্য নিষ্কাশন টুলকিট openSmile (Eyben এবং Schuller [22]) দিয়ে সম্পন্ন করা হয়। নিম্ন-স্তরের চাক্ষুষ বৈশিষ্ট্য যেমন হিউ-স্যাচুরেশন-ভ্যালু (HSV) হিস্টোগ্রাম, অপটিক্যাল ফ্লো অ্যানালাইসিস এবং ল্যাপ্লাসিয়ান এজ ডিটেকশন হিংস্রতা সনাক্তকরণের জন্য গণনা করা হয় এবং ব্যবহার করা হয়। লিনিয়ার SVM শ্রেণীবিভাগ শ্রেণীবিভাগের জন্য ব্যবহার করা হয় এবং ফিউশনের জন্য একটি সাধারণ স্কোর গড় ব্যবহার করা হয়।

2.4। সারসংক্ষেপ

সংক্ষেপে, উপরে বর্ণিত প্রায় সমস্ত পদ্ধতিই শুধুমাত্র একটি দম্পতির প্রত্যাশার সাথে বিভিন্ন অডিও এবং ভিজ্যুয়াল বৈশিষ্ট্য ব্যবহার করে চলচ্চিত্রে সহিংসতা সনাক্ত করার চেষ্টা করে [নিভাস এট আল। [৪২], হাসনার এট আল। [২৮]], যা নজরদারি ক্যামেরা বা অন্যান্য রিয়েল-টাইম ভিডিও সিস্টেম থেকে ভিডিও ডেটা ব্যবহার করে। এটিও লক্ষ্য করা যায় যে এই সমস্ত কাজ একই ডেটাসেট ব্যবহার করে না এবং প্রতিটিরই সহিংসতার নিজস্ব সংজ্ঞা রয়েছে। 2011 সালে ভায়োলেন্ট সিন ডিটেকশন (ভিএসডি) এর জন্য মিডিয়াইভাল ডেটাসেটের প্রবর্তন এই সমস্যার সমাধান করেছে। ডেটাসেটের সাম্প্রতিক সংস্করণ, VSD2014 হলিউড মুভি ছাড়াও ইউটিউবের ভিডিও বিষয়বস্তু অন্তর্ভুক্ত করে এবং গবেষকদের ব্যবহারকারী-উত্পাদিত ভিডিও সামগ্রীর উপর তাদের দৃষ্টিভঙ্গি পরীক্ষা করতে উত্সাহিত করে৷

2.5। অবদানসমূহ

অধ্যায় 3-এ উপস্থাপিত প্রস্তাবিত পদ্ধতিটি সহিংসতা সনাক্তকরণের পূর্ববর্তী কাজগুলির দ্বারা অনুপ্রাণিত, অধ্যায় 2 এ আলোচনা করা হয়েছে। প্রস্তাবিত পদ্ধতিতে, অডিও এবং ভিজ্যুয়াল উভয় ইঙ্গিত সহিংসতা সনাক্ত করতে ব্যবহৃত হয়। MFCC বৈশিষ্ট্যগুলি অডিও বিষয়বস্তু বর্ণনা করতে ব্যবহৃত হয় এবং রক্ত, গতি এবং SentiBank বৈশিষ্ট্যগুলি ভিডিও সামগ্রী বর্ণনা করতে ব্যবহৃত হয়। এসভিএম ক্লাসিফায়ারগুলি এই বৈশিষ্ট্যগুলির প্রতিটিকে শ্রেণীবদ্ধ করার জন্য ব্যবহার করা হয় এবং ক্লাসিফায়ার স্কোরগুলিকে ফিউজ করতে দেরী ফিউশন প্রয়োগ করা হয়।


যদিও এই পদ্ধতিটি সহিংসতা সনাক্তকরণের উপর পূর্ববর্তী কাজের উপর ভিত্তি করে, এর গুরুত্বপূর্ণ অবদানগুলি হল: (i) বিভিন্ন শ্রেণীর সহিংসতা সনাক্তকরণ। সহিংসতা সনাক্তকরণের পূর্ববর্তী কাজগুলি শুধুমাত্র একটি ভিডিওতে সহিংসতার উপস্থিতি সনাক্ত করার উপর কেন্দ্রীভূত ছিল। এই প্রস্তাবিত পদ্ধতি এই সমস্যা মোকাবেলা প্রথম এক. (ii) একটি ভিডিওর ভিজ্যুয়াল বিষয়বস্তু বর্ণনা করতে SentiBank বৈশিষ্ট্যের ব্যবহার। SentiBank হল একটি ভিজ্যুয়াল বৈশিষ্ট্য যা একটি চিত্রের অনুভূতি বর্ণনা করতে ব্যবহৃত হয়। এই বৈশিষ্ট্যটি আগে ভিডিওগুলিতে প্রাপ্তবয়স্কদের সামগ্রী সনাক্ত করতে ব্যবহার করা হয়েছিল (Schulze et al. [52])। এই কাজে, এটি প্রথমবারের মতো হিংসাত্মক বিষয়বস্তু সনাক্ত করতে ব্যবহৃত হয়। (iii) রক্তের প্রতিনিধিত্বকারী পিক্সেল সনাক্ত করতে 3-মাত্রিক রঙের মডেলের ব্যবহার, ওয়েব থেকে ছবি ব্যবহার করে তৈরি করা। এই রঙের মডেলটি খুবই মজবুত এবং রক্ত সনাক্তকরণে খুব ভালো ফলাফল দেখিয়েছে। (iv) গতি বৈশিষ্ট্য তৈরি করতে একটি ভিডিও কোডেকে এম্বেড করা তথ্যের ব্যবহার। অন্যদের সাথে তুলনা করলে এই পদ্ধতিটি খুব দ্রুত, কারণ প্রতিটি পিক্সেলের গতি ভেক্টরগুলি ভিডিও কোডেকে আগে থেকে গণনা করা হয় এবং সংরক্ষণ করা হয়। এই প্রস্তাবিত পদ্ধতির একটি বিস্তারিত ব্যাখ্যা পরবর্তী অধ্যায়, অধ্যায় 3-এ উপস্থাপন করা হয়েছে।



এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ


[১] http://www.multimediaeval.org