paint-brush
ভিডিওতে সহিংসতা সনাক্তকরণ: প্রস্তাবিত পদ্ধতিদ্বারা@kinetograph
144 পড়া

ভিডিওতে সহিংসতা সনাক্তকরণ: প্রস্তাবিত পদ্ধতি

অতিদীর্ঘ; পড়তে

এই কাগজে, গবেষকরা ভিডিওতে সহিংসতার স্বয়ংক্রিয় সনাক্তকরণের জন্য একটি সিস্টেমের প্রস্তাব করেছেন, শ্রেণিবিন্যাসের জন্য অডিও এবং ভিজ্যুয়াল সংকেত ব্যবহার করে।
featured image - ভিডিওতে সহিংসতা সনাক্তকরণ: প্রস্তাবিত পদ্ধতি
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item


লেখক:

(1) প্রবীণ তিরুপত্তুর, সেন্ট্রাল ফ্লোরিডা বিশ্ববিদ্যালয়।

লিঙ্কের টেবিল

3. প্রস্তাবিত পদ্ধতি

এই অধ্যায়টি এই কাজের জন্য অনুসরণ করা পদ্ধতির একটি বিশদ বিবরণ প্রদান করে। প্রস্তাবিত পদ্ধতির দুটি প্রধান পর্যায় রয়েছে: প্রশিক্ষণ এবং পরীক্ষা। প্রশিক্ষণ পর্বের সময়, সিস্টেমটি প্রশিক্ষণ ডেটাসেট থেকে নেওয়া ভিজ্যুয়াল এবং অডিও বৈশিষ্ট্য সহ ক্লাসিফায়ারদের প্রশিক্ষণের মাধ্যমে একটি ভিডিওতে উপস্থিত সহিংসতার বিভাগ সনাক্ত করতে শেখে। পরীক্ষার পর্যায়ে, প্রদত্ত ভিডিওর জন্য হিংস্রতা শনাক্ত করার ক্ষেত্রে সিস্টেমের নির্ভুলতা গণনা করে সিস্টেমটিকে মূল্যায়ন করা হয়। এই পর্যায়গুলির প্রতিটি নিম্নলিখিত বিভাগে বিশদভাবে ব্যাখ্যা করা হয়েছে। প্রস্তাবিত পদ্ধতির সংক্ষিপ্ত বিবরণের জন্য অনুগ্রহ করে চিত্র 3.1 দেখুন। পরিশেষে, সিস্টেমের মূল্যায়নের জন্য ব্যবহৃত মেট্রিক্স বর্ণনা করে একটি বিভাগ উপস্থাপন করা হয়েছে।

3.1। প্রশিক্ষণ

এই বিভাগে, প্রশিক্ষণ পর্বে জড়িত পদক্ষেপের বিস্তারিত আলোচনা করা হয়েছে। প্রস্তাবিত প্রশিক্ষণ পদ্ধতির তিনটি প্রধান ধাপ রয়েছে: বৈশিষ্ট্য নিষ্কাশন, বৈশিষ্ট্য শ্রেণীবিভাগ, এবং বৈশিষ্ট্য ফিউশন। এই তিনটি ধাপের প্রতিটি নিম্নলিখিত বিভাগে বিশদভাবে ব্যাখ্যা করা হয়েছে। এই পর্বের প্রথম দুটি ধাপে, সহিংসতা এবং কোনো সহিংসতা সম্বলিত ভিডিও বিভাগ থেকে অডিও এবং ভিজ্যুয়াল বৈশিষ্ট্যগুলি বের করা হয় এবং দুই-শ্রেণীর SVM শ্রেণীবিভাগকে প্রশিক্ষণ দিতে ব্যবহৃত হয়। তারপর ফিচার ফিউশন ধাপে, সিস্টেম দ্বারা লক্ষ্য করা প্রতিটি সহিংসতার জন্য বৈশিষ্ট্য ওজন গণনা করা হয়। এই বৈশিষ্ট্য ওজনগুলি সম্ভাব্য ওজনের সংমিশ্রণের উপর একটি গ্রিড অনুসন্ধান সম্পাদন করে এবং সর্বোত্তম সংমিশ্রণ খুঁজে বের করার মাধ্যমে প্রাপ্ত করা হয় যা বৈধতা সেটে সিস্টেমের কর্মক্ষমতাকে অপ্টিমাইজ করে। এখানে অপ্টিমাইজেশনের মানদণ্ড হল সিস্টেমের EER (সমান ত্রুটির হার) ন্যূনতমকরণ। এই ওজনগুলি খুঁজে বের করার জন্য, প্রশিক্ষণ সেট থেকে একটি ডেটাসেট ডিসজয়েন্ট ব্যবহার করা হয়, যাতে সমস্ত টার্গেট করা বিভাগের হিংসাত্মক ভিডিও রয়েছে৷ লক্ষ্যযুক্ত বিভাগগুলির বিশদ বিবরণের জন্য অনুগ্রহ করে অধ্যায় 1 দেখুন।


চিত্র 3.1: চিত্রটি সিস্টেমের ওভারভিউ দেখাচ্ছে। অডিও, ব্লাড, মোশন এবং সেন্টিব্যাঙ্ক ফিচারের জন্য চারটি আলাদা এসভিএম ক্লাসিফায়ার প্রশিক্ষিত। ভিডিও ফ্রেমে রক্ত শনাক্ত করার জন্য একটি ব্লাড মডেল তৈরি করতে ওয়েব থেকে ছবি ব্যবহার করা হয়। সমস্ত বৈশিষ্ট্যের জন্য ক্লাসিফায়ারদের প্রশিক্ষণ দিতে, VSD2104 ডেটাসেট থেকে ডেটা ব্যবহার করা হয়। এই শ্রেণীবিভাগের প্রতিটি পৃথকভাবে সহিংসতা ধারণকারী একটি ভিডিও অংশের সম্ভাবনা দেয়। এই স্বতন্ত্র সম্ভাব্যতাগুলি তারপর দেরী ফিউশন কৌশল ব্যবহার করে একত্রিত করা হয় এবং চূড়ান্ত আউটপুট সম্ভাব্যতা, যা পৃথক সম্ভাব্যতার ওজনযুক্ত সমষ্টি, সিস্টেম দ্বারা আউটপুট হিসাবে উপস্থাপন করা হয়। সিস্টেমে ইনপুট হিসাবে দেওয়া ভিডিওটি এক-সেকেন্ডের সেগমেন্টে বিভক্ত এবং সহিংসতা সম্বলিত প্রতিটি সেগমেন্টের সম্ভাব্যতা আউটপুট হিসাবে পাওয়া যায়।

3.1.1। বৈশিষ্ট্য নিষ্কাশন

অনেক গবেষক বিভিন্ন অডিও এবং ভিজ্যুয়াল বৈশিষ্ট্য ব্যবহার করে সহিংসতা সনাক্তকরণ সমস্যা সমাধান করার চেষ্টা করেছেন। সহিংসতা সনাক্তকরণ সম্পর্কিত গবেষণার উপর একটি বিশদ তথ্য অধ্যায় 2 এ উপস্থাপন করা হয়েছে। পূর্ববর্তী কাজগুলিতে, সহিংসতা সনাক্ত করতে ব্যবহৃত সবচেয়ে সাধারণ ভিজ্যুয়াল বৈশিষ্ট্যগুলি হল গতি এবং রক্ত এবং ব্যবহৃত সবচেয়ে সাধারণ অডিও বৈশিষ্ট্য হল MFCC। এই তিনটি সাধারণ নিম্ন-স্তরের বৈশিষ্ট্যগুলির সাথে, এই প্রস্তাবিত পদ্ধতিতে সেন্টিব্যাঙ্ক (বোর্থ এট আল। [৪]) অন্তর্ভুক্ত রয়েছে, যা চিত্রগুলিতে অনুভূতির প্রতিনিধিত্বকারী একটি চাক্ষুষ বৈশিষ্ট্য। প্রতিটি বৈশিষ্ট্যের বিশদ বিবরণ এবং সহিংসতা সনাক্তকরণে এর গুরুত্ব এবং ব্যবহৃত নিষ্কাশন পদ্ধতিগুলি নিম্নলিখিত বিভাগে বর্ণিত হয়েছে।

3.1.1.1। MFCC- বৈশিষ্ট্য

বন্দুকের গুলি, বিস্ফোরণ ইত্যাদির মতো ঘটনা সনাক্ত করতে অডিও বৈশিষ্ট্যগুলি খুব গুরুত্বপূর্ণ ভূমিকা পালন করে, যা হিংসাত্মক দৃশ্যগুলিতে খুব সাধারণ। অনেক গবেষক সহিংসতা সনাক্তকরণের জন্য অডিও বৈশিষ্ট্য ব্যবহার করেছেন এবং ভাল ফলাফল দিয়েছেন। যদিও পূর্বের কিছু কাজ এনার্জি এনট্রপির দিকে নজর দিয়েছিল [Nam et al. [৪১]] অডিও সিগন্যালে, তাদের অধিকাংশই ভিডিওতে অডিও বিষয়বস্তু বর্ণনা করার জন্য MFCC বৈশিষ্ট্য ব্যবহার করেছে। এই MFCC বৈশিষ্ট্যগুলি সাধারণত ভয়েস এবং অডিও স্বীকৃতিতে ব্যবহৃত হয়।


এই কাজে, VSD2014 ডেটাসেটে প্রদত্ত MFCC বৈশিষ্ট্যগুলি সিস্টেমটি বিকাশ করার সময় SVM শ্রেণীবদ্ধকারীকে প্রশিক্ষণ দিতে ব্যবহৃত হয়। মূল্যায়নের সময়, MFCC বৈশিষ্ট্যগুলি ইনপুট ভিডিওর অডিও স্ট্রীম থেকে বের করা হয়, অডিও স্ট্রীমে প্রতি ফ্রেমের অডিও নমুনার সংখ্যায় উইন্ডোর আকার সেট করা হয়। ভিডিওর fps (ফ্রেম প্রতি সেকেন্ড) মান দিয়ে অডিও স্যাম্পলিং রেটকে ভাগ করে এটি গণনা করা হয়। উদাহরণস্বরূপ, যদি অডিও স্যাম্পলিং রেট 44,100 Hz হয় এবং ভিডিওটি 25 fps দিয়ে এনকোড করা হয়, তাহলে প্রতিটি উইন্ডোতে 1,764 অডিও নমুনা থাকে। উইন্ডো ওভারল্যাপ অঞ্চলটি শূন্যে সেট করা হয়েছে এবং প্রতিটি উইন্ডোর জন্য 22 MFCC গণনা করা হয়েছে। এই সেটআপের সাথে, প্রতিটি ভিডিও ফ্রেমের জন্য একটি 22-মাত্রিক MFCC বৈশিষ্ট্য ভেক্টর পাওয়া যায়।

3.1.1.2। রক্তের বৈশিষ্ট্য

চরম সহিংসতার সাথে দৃশ্যে রক্ত সবচেয়ে সাধারণ দৃশ্যমান উপাদান। উদাহরণস্বরূপ, মারধর, ছুরিকাঘাত, বন্দুকযুদ্ধ এবং বিস্ফোরণ সম্বলিত দৃশ্য। সহিংসতা সনাক্তকরণের অনেক আগের কাজগুলিতে, রক্তের প্রতিনিধিত্বকারী পিক্সেল সনাক্তকরণ ব্যবহার করা হয় কারণ এটি সহিংসতার একটি গুরুত্বপূর্ণ সূচক। একটি ফ্রেমে রক্ত শনাক্ত করতে, একটি পূর্বনির্ধারিত রঙের টেবিল ব্যবহার করা হয় আগের বেশিরভাগ কাজে, উদাহরণস্বরূপ, Nam et al। [৪১] এবং লিন এবং ওয়াং [৩৮]। রক্ত শনাক্ত করার অন্যান্য পন্থা, যেমন কোহোনেনের স্ব-সংগঠিত মানচিত্র (এসওএম)(ক্লারিন এট আল। [১২]) এর ব্যবহারও আগের কিছু কাজে ব্যবহৃত হয়।


এই কাজে, রক্তের প্রতিনিধিত্বকারী পিক্সেল সনাক্ত করতে একটি রঙের মডেল ব্যবহার করা হয়। এটি পিক্সেলের লাল, সবুজ এবং নীল মানের জন্য প্রতিটি একটি মাত্রা সহ একটি ত্রি-মাত্রিক হিস্টোগ্রাম ব্যবহার করে উপস্থাপন করা হয়। প্রতিটি ডাইমেনশনে, 32 টি বিন রয়েছে যার প্রতিটি বিনের প্রস্থ 8 (32 × 8 = 256)। এই রক্তের মডেল দুটি ধাপে তৈরি করা হয়। প্রথম ধাপে, রক্তের মডেলটি পিক্সেলের RGB (লাল, সবুজ, নীল) মান ব্যবহার করে বুটস্ট্র্যাপ করা হয়। 3 ডাইমেনশনাল binned হিস্টোগ্রাম এই পিক্সেলের RGB মান দিয়ে পরিপূর্ণ হয়। প্রতিবার মডেলে নতুন ব্লাড পিক্সেল যোগ করার সময় ব্লাড পিক্সেল যে বিনের সাথে সম্পর্কিত তার মান 1 দ্বারা বৃদ্ধি পায়। হিস্টোগ্রাম পূরণ করার জন্য পর্যাপ্ত সংখ্যক রক্তাক্ত পিক্সেল ব্যবহার করা হলে, বিনের মানগুলি সমস্ত মানের যোগফল দ্বারা স্বাভাবিক করা হয়। প্রতিটি বিনের মানগুলি এখন একটি পিক্সেলের RGB মান দিয়ে রক্ত দেখানোর সম্ভাবনার প্রতিনিধিত্ব করে। রক্তের মডেল পূরণ করার জন্য, রক্ত ধারণকারী পিক্সেল বিভিন্ন রক্তের ছবি থেকে ক্রপ করা হয় যা Google থেকে ডাউনলোড করা হয়। শুধুমাত্র রক্তের পিক্সেল রয়েছে এমন অঞ্চলের ক্রপিং ম্যানুয়ালি করা হয়। অনুগ্রহ করে ক্রপ করা অঞ্চলের নমুনার জন্য চিত্র 3.2 দেখুন, প্রতিটি আকার 20 পিক্সেল × 20 পিক্সেল।


চিত্র 3.2: চিত্রে 20 × 20 আকারের নমুনা ক্রপ করা অঞ্চল দেখানো হয়েছে যেখানে রক্ত রয়েছে।


মডেলটি বুটস্ট্র্যাপ হয়ে গেলে, এটি Google থেকে ডাউনলোড করা ছবিতে রক্ত সনাক্ত করতে ব্যবহৃত হয়। বুটস্ট্র্যাপড মডেলটিকে আরও প্রসারিত করতে শুধুমাত্র পিক্সেলগুলি ব্যবহার করা হয় যেগুলির রক্তের প্রতিনিধিত্ব করার উচ্চ সম্ভাবনা রয়েছে। ছবিগুলি ডাউনলোড করা এবং রক্তের মডেল প্রসারিত করা স্বয়ংক্রিয়ভাবে সম্পন্ন হয়। Google থেকে রক্তের ছবি ডাউনলোড করতে, "ব্লাডি ইমেজ", "ব্লাডি সিন", "ব্লিডিং", "রিয়েল ব্লাড স্প্ল্যাটার", "ব্লাড ড্রিপিং" এর মতো সার্চ শব্দ ব্যবহার করা হয়। ডাউনলোড করা ছবির কিছু নমুনা চিত্র 3.3-এ দেখা যাবে। উচ্চ রক্তের সম্ভাব্যতা সহ পিক্সেল মানগুলি রক্তের মডেলে যোগ করা হয় যতক্ষণ না এটি কমপক্ষে এক মিলিয়ন পিক্সেল মান থাকে৷


এই রক্তের মডেলটি সঠিকভাবে রক্ত সনাক্ত করার জন্য যথেষ্ট নয়। এই ব্লাড মডেলের পাশাপাশি একটি নন-ব্লাড মডেলেরও প্রয়োজন রয়েছে। এটি তৈরি করতে, আগের পদ্ধতির মতোই, Google থেকে এমন ছবি ডাউনলোড করা হয় যেগুলিতে রক্ত নেই এবং এই ছবিগুলি থেকে RGB পিক্সেল মানগুলি নন-ব্লাড মডেল তৈরি করতে ব্যবহৃত হয়। এই নন-ব্লাড মডেল তৈরি করতে ব্যবহৃত কিছু নমুনা চিত্র চিত্র 3.3-এ দেখানো হয়েছে। এখন এই রক্ত এবং নন-ব্লাড মডেলগুলি ব্যবহার করে, রক্তের প্রতিনিধিত্বকারী একটি পিক্সেলের সম্ভাব্যতা নিম্নরূপ গণনা করা হয়



চিত্র 3.3: ব্লাড এবং নন-ব্লাড মডেল তৈরি করতে Google থেকে ডাউনলোড করা নমুনা ছবি দেখানো চিত্র।


এই সূত্রটি ব্যবহার করে, একটি প্রদত্ত চিত্রের জন্য, রক্তের প্রতিনিধিত্বকারী প্রতিটি পিক্সেলের সম্ভাব্যতা গণনা করা হয় এবং রক্তের সম্ভাব্যতা মানচিত্র (BPM) তৈরি করা হয়। এই মানচিত্রের আকার ইনপুট চিত্রের সমান এবং এতে প্রতিটি পিক্সেলের জন্য রক্তের সম্ভাব্যতার মান রয়েছে। এই BPM চূড়ান্ত বাইনারিকৃত BPM তৈরি করতে একটি থ্রেশহোল্ড মান ব্যবহার করে বাইনারি করা হয়। BPM বাইনারাইজ করার জন্য ব্যবহৃত থ্রেশহোল্ড অনুমান করা হয় (জোনস এবং রেহগ [35])। এই বাইনারাইজড বিপিএম থেকে, দৈর্ঘ্য 14 এর একটি 1-মাত্রিক বৈশিষ্ট্য ভেক্টর তৈরি করা হয় যাতে রক্তের অনুপাত, রক্তের সম্ভাব্যতার অনুপাত, সবচেয়ে বড় সংযুক্ত উপাদানের আকার, গড়, প্রকরণ ইত্যাদির মতো মান রয়েছে। প্রতিটি ফ্রেমের জন্য এই বৈশিষ্ট্য ভেক্টরটি বের করা হয়। ভিডিওতে এবং SVM ক্লাসিফায়ার প্রশিক্ষণের জন্য ব্যবহৃত হয়। বিপিএম এবং বাইনারিকৃত বিপিএম সহ একটি নমুনা চিত্র চিত্র 3.4-এ উপস্থাপন করা হয়েছে। এই চিত্রটি থেকে লক্ষ্য করা যায় যে এই পদ্ধতিটি রক্তযুক্ত পিক্সেল সনাক্তকরণে খুব ভাল কাজ করেছে।


চিত্র 3.4: রক্ত শনাক্ত করার ক্ষেত্রে উত্পন্ন রক্তের মডেলের কার্যকারিতা দেখানো চিত্র। প্রথম কলামে ইনপুট ছবি, দ্বিতীয় কলামে রক্তের সম্ভাব্যতা মানচিত্র এবং শেষ কলামে বাইনারিকৃত রক্তের সম্ভাব্যতা মানচিত্র রয়েছে।

3.1.1.3। গতি-বৈশিষ্ট্য

গতি হ'ল সহিংসতা সনাক্তকরণের জন্য আরেকটি বহুল ব্যবহৃত চাক্ষুষ বৈশিষ্ট্য। Deniz et al এর কাজ। [২১], নিভাস এট আল। [৪২] এবং হাসনার এট আল। [২৮] সহিংসতা সনাক্তকরণের প্রধান বৈশিষ্ট্য হিসাবে গতি ব্যবহৃত হয় এমন কিছু উদাহরণ। এখানে, গতি বলতে একটি ভিডিওতে দুটি পরপর ফ্রেমের মধ্যে স্থান-কালের পরিবর্তনের পরিমাণ বোঝায়। গতিকে সহিংসতার একটি ভাল সূচক হিসাবে বিবেচনা করা হয় কারণ সহিংসতা রয়েছে এমন দৃশ্যগুলিতে যথেষ্ট পরিমাণ সহিংসতা প্রত্যাশিত। উদাহরণ স্বরূপ, যে দৃশ্যে ব্যক্তি-পর-ব্যক্তি মারামারি রয়েছে, সেখানে পা ও হাতের মতো মানুষের শরীরের অঙ্গগুলির দ্রুত নড়াচড়া রয়েছে এবং বিস্ফোরণ ধারণ করা দৃশ্যগুলিতে, যে সমস্ত অংশগুলি উড়ে যাচ্ছে সেগুলি থেকে প্রচুর নড়াচড়া হয়। বিস্ফোরণ.


কার্যকলাপ সনাক্তকরণের জন্য গতি তথ্য ব্যবহার করার ধারণা মনোবিজ্ঞান থেকে উদ্ভূত। মানুষের উপলব্ধির উপর গবেষণায় দেখা গেছে যে গতিবিধির গতিপ্রকৃতি ক্রিয়াকলাপের উপলব্ধির জন্য যথেষ্ট (ব্লেক এবং শিফারার [2])। কম্পিউটার ভিশনের গবেষণা গবেষণায় (সারবেক এবং বার্টনেক [৫০], ক্লার্ক এট আল। [১৩], এবং হিদাকা [২৯]) আরও দেখিয়েছে যে বেগ এবং ত্বরণের মতো অপেক্ষাকৃত সহজ গতিশীল বৈশিষ্ট্যগুলি একজন মানুষের দ্বারা অনুভূত আবেগের সাথে সম্পর্কযুক্ত।


এই কাজে, একটি ভিডিও সেগমেন্টে গতির পরিমাণ গণনা করার জন্য, দুটি ভিন্ন পদ্ধতির মূল্যায়ন করা হয়। প্রথম পদ্ধতিটি হল ভিডিও কোডেকের ভিতরে এমবেড করা গতির তথ্য ব্যবহার করা এবং পরবর্তী পদ্ধতিটি গতি সনাক্ত করতে অপটিক্যাল প্রবাহ ব্যবহার করা। এই উপায়গুলি পরবর্তী উপস্থাপন করা হয়.


3.1.1.3.1। কোডেক ব্যবহার করে

এই পদ্ধতিতে, ভিডিও কোডেক থেকে গতির তথ্য বের করা হয়। প্রতিটি পিক্সেল প্রতি ফ্রেমে গতির মাত্রা যাকে মোশন ভেক্টর বলা হয় কোডেক থেকে পুনরুদ্ধার করা হয়। এই গতি ভেক্টরটি একটি দ্বি-মাত্রিক ভেক্টর এবং ভিডিও ক্রম থেকে একটি ফ্রেমের আকারের সমান। এই গতি ভেক্টর থেকে, একটি গতি বৈশিষ্ট্য যা ফ্রেমের গতির পরিমাণকে উপস্থাপন করে উত্পন্ন হয়। এই গতি বৈশিষ্ট্য তৈরি করতে, প্রথমে গতি ভেক্টরটিকে x এবং y-অক্ষ বরাবর যথাক্রমে তিন এবং চারটি অঞ্চলে স্লাইস করে সমান আকারের বারোটি উপ-অঞ্চলে বিভক্ত করা হয়। এই প্রতিটি উপ-অঞ্চলের প্রতিটি পিক্সেলে x এবং y-অক্ষ বরাবর গতির পরিমাণ একত্রিত করা হয় এবং এই সমষ্টিগুলি প্রতিটি ফ্রেমের জন্য একটি দ্বি-মাত্রিক গতি হিস্টোগ্রাম তৈরি করতে ব্যবহৃত হয়। এই হিস্টোগ্রাম একটি ফ্রেমের জন্য গতি ভেক্টর প্রতিনিধিত্ব করে। একটি নমুনা ভিডিও থেকে একটি ফ্রেমের জন্য সমষ্টিগত গতি ভেক্টরের ভিজ্যুয়ালাইজেশন দেখতে চিত্র 3.5 এর বাম দিকের চিত্রটি দেখুন। এই ভিজ্যুয়ালাইজেশনে, গতি ভেক্টরগুলি 16 × 16 পিক্সেল আকারের উপ-অঞ্চলের জন্য একত্রিত হয়। এই অঞ্চলে গতির মাত্রা এবং দিক চিত্রের উপর আচ্ছাদিত সবুজ ড্যাশযুক্ত লাইনগুলির দৈর্ঘ্য এবং অভিযোজন ব্যবহার করে উপস্থাপন করা হয়।

3.1.1.3.2। অপটিক্যাল ফ্লো ব্যবহার করে

গতি সনাক্ত করার পরবর্তী পদ্ধতি অপটিক্যাল প্রবাহ ব্যবহার করে (উইকিপিডিয়া [57])। এখানে, একটি ফ্রেমের প্রতিটি পিক্সেলের গতি ঘন অপটিক্যাল ফ্লো ব্যবহার করে গণনা করা হয়। এর জন্য, ওপেনসিভি (ব্র্যাডস্কি [5]) দ্বারা প্রদত্ত গানার ফার্নব্যাকের অ্যালগরিদম (ফারনেব¨্যাক [24]) প্রয়োগ করা হয়। বাস্তবায়নটি ওপেনসিভি-তে একটি ফাংশন হিসাবে সরবরাহ করা হয়েছে এবং ফাংশন এবং পরামিতি সম্পর্কে আরও বিস্তারিত জানার জন্য, অনুগ্রহ করে OpenCV (OpticalFlow [43]) দ্বারা প্রদত্ত ডকুমেন্টেশন দেখুন। মান 0.5, 3, 15, 3, 5, 1.2 এবং 0 যথাক্রমে ফাংশন প্যারামিটার পিয়ার স্কেল, স্তর, উইন-সাইজ, পুনরাবৃত্তি, পলি এন, পলি সিগমা এবং পতাকাগুলিতে পাস করা হয়। একবার প্রতি পিক্সেলের গতি ভেক্টরগুলি অপটিক্যাল ফ্লো ব্যবহার করে গণনা করা হলে, উপরের সেকশন 3.1.1.3.1-এ উল্লিখিত একই প্রক্রিয়া ব্যবহার করে একটি ফ্রেম থেকে গতি বৈশিষ্ট্যটি বের করা হয়। একটি ফ্রেম থেকে নিষ্কাশিত সমষ্টিগত গতি ভেক্টরগুলির একটি ছাপ পেতে চিত্র 3.5-এর অধিকারগুলির চিত্রটি পড়ুন। কোডেক তথ্য এবং অপটিক্যাল প্রবাহ ব্যবহার করে নিষ্কাশিত বৈশিষ্ট্যগুলির মধ্যে একটি ভাল তুলনা প্রদান করার জন্য পূর্ববর্তী পদ্ধতির মতো 16×16 পিক্সেল আকারের উপ-অঞ্চলের জন্য গতি ভেক্টরগুলি একত্রিত করা হয়েছে।


ভিডিওগুলি থেকে গতির তথ্য বের করার জন্য এই উভয় পদ্ধতির মূল্যায়নের পরে, নিম্নলিখিত পর্যবেক্ষণগুলি করা হয়। প্রথমত, কোডেক থেকে গতি বের করা অপটিক্যাল ফ্লো ব্যবহার করার চেয়ে অনেক দ্রুত কারণ মোশন ভেক্টরগুলি ভিডিও কোডেক্সে পূর্বনির্ধারিত এবং সংরক্ষণ করা হয়। দ্বিতীয়ত, যখন একটি ফ্রেমে অস্পষ্ট অঞ্চল থাকে তখন অপটিক্যাল প্রবাহ ব্যবহার করে গতি নিষ্কাশন খুব কার্যকর হয় না। এই অস্পষ্টতা সাধারণত একটি দৃশ্যে আকস্মিক গতির কারণে ঘটে, যা সহিংসতা সম্বলিত দৃশ্যগুলিতে খুব সাধারণ। তাই, সহিংসতা সনাক্ত করতে গতির তথ্য বের করার জন্য অপটিক্যাল প্রবাহের ব্যবহার একটি প্রতিশ্রুতিশীল পদ্ধতি নয়। অতএব, এই কাজে ভিডিও কোডেকগুলিতে সংরক্ষিত তথ্যগুলি গতি বৈশিষ্ট্যগুলি বের করতে ব্যবহৃত হয়। ভিডিওর প্রতিটি ফ্রেম থেকে গতি বৈশিষ্ট্যগুলি বের করা হয় এবং একটি SVM শ্রেণীবদ্ধকারীকে প্রশিক্ষণ দিতে ব্যবহৃত হয়।


চিত্র 3.5: কোডেক বনাম অপটিক্যাল ফ্লো ব্যবহার করে বের করা ফ্রেম থেকে গতি সংক্রান্ত তথ্য।

3.1.1.4। SentiBank- বৈশিষ্ট্য

উপরে উল্লিখিত নিম্ন-স্তরের বৈশিষ্ট্যগুলি ছাড়াও, Borth et al দ্বারা প্রবর্তিত SentiBank বৈশিষ্ট্য। [৪]ও প্রয়োগ করা হয়। SentiBank হল বড় আকারের ভিজ্যুয়াল সেন্টিমেন্ট অন্টোলজি (VSO) [1] এর উপর ভিত্তি করে ভিজ্যুয়াল বিষয়বস্তুর মধ্য-স্তরের উপস্থাপনা। SentiBank 1,200টি শব্দার্থিক ধারণা এবং সংশ্লিষ্ট স্বয়ংক্রিয় শ্রেণীবিভাগ নিয়ে গঠিত, প্রত্যেকটিকে একটি বিশেষ্য বিশেষ্য যুগল (ANP) হিসাবে সংজ্ঞায়িত করা হয়েছে। এই ধরনের ANP গুলি বিশেষ্যের সাথে যুক্ত করার জন্য দৃঢ় মানসিক বিশেষণগুলিকে একত্রিত করে, যা বস্তু বা দৃশ্যের সাথে মিলে যায় (যেমন "সুন্দর আকাশ", "জঘন্য বাগ", বা "কিউট বেবি")। আরও, প্রতিটি ANP (1) একটি শক্তিশালী অনুভূতি প্রতিফলিত করে, (2) একটি আবেগের সাথে একটি লিঙ্ক রয়েছে, (3) প্রায়শই ফ্লিকার বা YouTube এর মতো প্ল্যাটফর্মগুলিতে ব্যবহৃত হয় এবং (4) একটি যুক্তিসঙ্গত সনাক্তকরণের নির্ভুলতা রয়েছে৷ অতিরিক্তভাবে, VSO-এর উদ্দেশ্য হল বিস্তৃত পরিসরের বিভিন্ন ধারণা শ্রেণি যেমন মানুষ, প্রাণী, বস্তু, প্রাকৃতিক বা মনুষ্যসৃষ্ট স্থানগুলিকে কভার করার জন্য যথেষ্ট বিস্তৃত এবং বৈচিত্র্যময় এবং তাই, বিশ্লেষণ করা বিষয়বস্তুর ধরণ সম্পর্কে অতিরিক্ত অন্তর্দৃষ্টি প্রদান করে৷ কারণ সেন্টিব্যাঙ্ক সেন্টিমেন্ট বোর্থ এট আল-এর বিশ্লেষণে নিম্ন-স্তরের ভিজ্যুয়াল বৈশিষ্ট্যগুলির তুলনায় তার উচ্চতর কর্মক্ষমতা প্রদর্শন করেছে। [৪], এটি এখন ভিডিও ফ্রেম থেকে সহিংসতার মতো জটিল আবেগ সনাক্ত করতে প্রথমবারের মতো ব্যবহার করা হয়।


SentiBank 1,200 SVM নিয়ে গঠিত, প্রতিটি একটি চিত্র থেকে 1,200 শব্দার্থিক ধারণাগুলির মধ্যে একটি সনাক্ত করতে প্রশিক্ষিত। প্রতিটি SVM হল একটি বাইনারি ক্লাসিফায়ার যা একটি বাইনারি আউটপুট দেয় 0/1 ইমেজ একটি নির্দিষ্ট অনুভূতি ধারণ করে কিনা তার উপর নির্ভর করে। একটি ভিডিওতে একটি প্রদত্ত ফ্রেমের জন্য, সমস্ত 1,200 SVM-এর আউটপুট ধারণকারী একটি ভেক্টরকে SentiBank বৈশিষ্ট্য হিসাবে বিবেচনা করা হয়। এই বৈশিষ্ট্যটি বের করতে, একটি পাইথন-ভিত্তিক বাস্তবায়ন ব্যবহার করা হয়। SVM ক্লাসিফায়ারকে প্রশিক্ষণের জন্য, প্রশিক্ষণ ভিডিওতে প্রতিটি ফ্রেম থেকে বের করা SentiBank বৈশিষ্ট্যগুলি ব্যবহার করা হয়। SentiBank বৈশিষ্ট্য নিষ্কাশন করতে কয়েক সেকেন্ড সময় লাগে কারণ এতে 1,200টি প্রাক-প্রশিক্ষিত SVM থেকে আউটপুট সংগ্রহ করা হয়। বৈশিষ্ট্য নিষ্কাশনের জন্য সময় কমাতে, প্রতিটি ফ্রেমের জন্য SentiBank বৈশিষ্ট্যটি মাল্টিপ্রসেসিং ব্যবহার করে সমান্তরালভাবে বের করা হয়।

3.1.2। বৈশিষ্ট্য শ্রেণীবিভাগ

বৈশিষ্ট্য নিষ্কাশনের পরে পাইপলাইনের পরবর্তী ধাপ হল বৈশিষ্ট্য শ্রেণিবিন্যাস এবং এই বিভাগটি এই ধাপের বিশদ বিবরণ প্রদান করে। শ্রেণিবিন্যাসকারী নির্বাচন এবং ব্যবহৃত প্রশিক্ষণের কৌশলগুলি ভাল শ্রেণীবিভাগের ফলাফল পেতে খুব গুরুত্বপূর্ণ ভূমিকা পালন করে। এই কাজে, SVM শ্রেণীবিভাগের জন্য ব্যবহার করা হয়। এই পছন্দের পিছনে প্রধান কারণ হল যে সহিংসতা সনাক্তকরণের উপর আগের কাজগুলি অডিও এবং ভিজ্যুয়াল বৈশিষ্ট্যগুলিকে শ্রেণিবদ্ধ করতে SVM ব্যবহার করেছে এবং ভাল ফলাফল দিয়েছে৷ অধ্যায় 2-এ উল্লিখিত প্রায় সমস্ত কাজগুলিতে SVM শ্রেণীবিভাগের জন্য ব্যবহৃত হয়, যদিও তারা ব্যবহৃত কার্নেল ফাংশনগুলির মধ্যে ভিন্ন হতে পারে।


প্রশিক্ষণ সেটে উপলব্ধ সমস্ত ভিডিও থেকে, অডিও এবং ভিজ্যুয়াল বৈশিষ্ট্যগুলি 3.1.1 বিভাগে বর্ণিত প্রক্রিয়া ব্যবহার করে বের করা হয়েছে। এই বৈশিষ্ট্যগুলিকে তারপরে দুটি সেটে বিভক্ত করা হয়, একটি শ্রেণিবিন্যাসকারীকে প্রশিক্ষণ দেওয়ার জন্য এবং অন্যটি প্রশিক্ষিত শ্রেণিবিন্যাসকারীর শ্রেণিবিন্যাস নির্ভুলতা পরীক্ষা করার জন্য। যেহেতু এখানে ব্যবহৃত ক্লাসিফায়ারগুলি হল SVM, তাই কোন কার্নেল ব্যবহার করতে হবে এবং কোন কার্নেল প্যারামিটার সেট করতে হবে সে সম্পর্কে একটি পছন্দ করতে হবে। সেরা কার্নেল প্রকার এবং কার্নেল পরামিতি খুঁজে পেতে, একটি গ্রিড অনুসন্ধান কৌশল ব্যবহার করা হয়। এই গ্রিড অনুসন্ধানে, লিনিয়ার, আরবিএফ (রেডিয়াল বেসিস ফাংশন), এবং চি-স্কয়ার কার্নেলগুলি তাদের প্যারামিটারগুলির জন্য মানগুলির একটি পরিসীমা সহ পরীক্ষা করা হয়, সর্বোত্তম সংমিশ্রণ খুঁজে বের করতে যা সর্বোত্তম শ্রেণিবিন্যাসের ফলাফল দেয়। এই পদ্ধতি ব্যবহার করে, চারটি ভিন্ন শ্রেণিবিন্যাসকারীকে প্রশিক্ষিত করা হয়, প্রতিটি বৈশিষ্ট্যের জন্য একটি করে। এই প্রশিক্ষিত ক্লাসিফায়ারগুলি পরবর্তী ধাপে বৈশিষ্ট্যের ওজন খুঁজে বের করতে ব্যবহৃত হয়। এই কাজে, scikit-learn (Pedregosa et al. [45]) এবং LibSVM (Chang এবং Lin [9]) দ্বারা প্রদত্ত SVM বাস্তবায়ন ব্যবহার করা হয়।

3.1.3। ফিচার ফিউশন

ফিচার ফিউশন ধাপে, ফিচার ক্লাসিফায়ারগুলির প্রতিটি থেকে আউটপুট সম্ভাব্যতাগুলি একটি ভিডিও সেগমেন্টে সহিংসতার চূড়ান্ত স্কোর এবং এতে উপস্থিত সহিংসতার শ্রেণী পেতে একত্রিত করা হয়। এই ফিউশনটি বৈশিষ্ট্য শ্রেণীবদ্ধকারীর প্রতিটি থেকে সম্ভাব্যতার ওজনযুক্ত যোগফল গণনা করে করা হয়। একটি ভিডিও কোন শ্রেণীর সহিংসতা সনাক্ত করতে, পদ্ধতিটি নিম্নরূপ। প্রথমত, অডিও এবং ভিজ্যুয়াল বৈশিষ্ট্যগুলি প্রতিটি টার্গেট করা সহিংসতার ক্লাসের ভিডিওগুলি থেকে নেওয়া হয়৷ এই বৈশিষ্ট্যগুলি তারপর প্রশিক্ষিত বাইনারি SVM ক্লাসিফায়ারদের কাছে পাঠানো হয় যাতে সহিংসতা সম্বলিত প্রতিটি ভিডিওর সম্ভাব্যতা পাওয়া যায়। এখন, প্রতিটি বৈশিষ্ট্য শ্রেণীবদ্ধকারীর থেকে এই আউটপুট সম্ভাব্যতাগুলি প্রতিটি বৈশিষ্ট্য শ্রেণীবদ্ধকারীকে সহিংসতার প্রতিটি শ্রেণীর জন্য একটি ওজন নির্ধারণ করে এবং ওজনযুক্ত যোগফল গণনা করে একত্রিত করা হয়। প্রতিটি বৈশিষ্ট্যের শ্রেণীবিভাগের জন্য নির্ধারিত ওজন একটি নির্দিষ্ট শ্রেণীর সহিংসতা সনাক্ত করার ক্ষেত্রে একটি বৈশিষ্ট্যের গুরুত্বকে উপস্থাপন করে। এই বৈশিষ্ট্যের ওজনগুলি সঠিকভাবে সহিংসতার শ্রেণি সনাক্ত করতে সিস্টেমের জন্য প্রতিটি সহিংসতার শ্রেণির জন্য যথাযথভাবে সামঞ্জস্য করতে হবে।


ওজন খুঁজে বের করার দুটি পদ্ধতি আছে। প্রথম পদ্ধতিটি হ'ল প্রতিটি সহিংসতার প্রকারের জন্য একটি বৈশিষ্ট্য শ্রেণিবদ্ধকারীর ওজন ম্যানুয়ালি সামঞ্জস্য করা। এক শ্রেণীর সহিংসতা সনাক্ত করার ক্ষেত্রে একটি বৈশিষ্ট্যের গুরুত্ব সম্পর্কে এই পদ্ধতির অনেক অন্তর্দৃষ্টি প্রয়োজন এবং এটি খুব ত্রুটি প্রবণ। অন্য পদ্ধতি হল একটি গ্রিড-সার্চ মেকানিজম ব্যবহার করে ওজন খুঁজে বের করা যেখানে সম্ভাব্য ওজনের পরিসর থেকে ওজনের একটি সেট নমুনা করা হয়। এই ক্ষেত্রে, প্রতিটি বৈশিষ্ট্য শ্রেণিবিন্যাসকারীর সম্ভাব্য ওজনের পরিসর হল [0,1], সমস্ত বৈশিষ্ট্য শ্রেণীবদ্ধকারীর ওজনের যোগফল 1 এর সীমাবদ্ধতার সাপেক্ষে। এই কাজে, পরবর্তী পদ্ধতিটি ব্যবহার করা হয় এবং সমস্ত ওজন সমন্বয় যার পরিমাণ 1 গণনা করা হয়। এই ওজন সংমিশ্রণগুলির প্রতিটি একটি শ্রেণীর সহিংসতার জন্য শ্রেণীবদ্ধ সম্ভাব্যতার ওজনযুক্ত যোগফল গণনা করতে ব্যবহৃত হয় এবং ওজন সংমিশ্রণ থেকে ওজন যা সর্বোচ্চ যোগফল উৎপন্ন করে তা সহিংসতার সংশ্লিষ্ট শ্রেণীর জন্য প্রতিটি শ্রেণীবিভাগকে বরাদ্দ করা হয়। এই ওজনগুলি গণনা করার জন্য, প্রশিক্ষণ সেটে ওজনের অতিরিক্ত ফিটিং এড়াতে প্রশিক্ষণ সেট থেকে আলাদা একটি ডেটাসেট ব্যবহার করা হয়। ওজন গণনার জন্য ব্যবহৃত ডেটাসেটে এই কাজের লক্ষ্যবস্তু সহিংসতার সমস্ত শ্রেণীর ভিডিও রয়েছে। এটি লক্ষ করা গুরুত্বপূর্ণ যে, যদিও প্রতিটি প্রশিক্ষিত SVM শ্রেণীবিভাগ বাইনারি প্রকৃতির, এই ক্লাসিফায়ারগুলির আউটপুট মানগুলিকে ওজনযুক্ত যোগফল ব্যবহার করে একত্রিত করা যেতে পারে যাতে একটি ভিডিওর অন্তর্গত সহিংসতার নির্দিষ্ট শ্রেণী খুঁজে পাওয়া যায়।

3.2। পরীক্ষামূলক

এই পর্যায়ে, একটি প্রদত্ত ইনপুট ভিডিওর জন্য, সহিংসতা সম্বলিত প্রতিটি অংশে উপস্থিত সহিংসতার শ্রেণী সহ সনাক্ত করা হয়। একটি প্রদত্ত ভিডিওর জন্য, সহিংসতা এবং এতে সহিংসতার শ্রেণীবিভাগ রয়েছে তা সনাক্ত করতে নিম্নলিখিত পদ্ধতি ব্যবহার করা হয়। প্রথমত, প্রতি 1-সেকেন্ডে একটি ফ্রেম থেকে ভিজ্যুয়াল এবং অডিও বৈশিষ্ট্যগুলি ভিডিওর প্রথম ফ্রেম থেকে শুরু করে, প্রতিটি ফ্রেম থেকে বৈশিষ্ট্যগুলি বের করার পরিবর্তে বের করা হয়৷ এই ফ্রেমগুলি যেগুলি থেকে বৈশিষ্ট্যগুলি বের করা হয়েছে, ভিডিওটির একটি 1-সেকেন্ডের অংশকে উপস্থাপন করে৷ এই 1-সেকেন্ডের ভিডিও সেগমেন্টের বৈশিষ্ট্যগুলি তারপর প্রশিক্ষিত বাইনারি SVM ক্লাসিফায়ারদের কাছে পাঠানো হয় যাতে প্রতিটি ভিডিও সেগমেন্ট হিংসাত্মক বা অহিংস হতে পারে। তারপর, ফিউশন ধাপের সময় পাওয়া সংশ্লিষ্ট ওজন ব্যবহার করে প্রতিটি সহিংসতার বিভাগের জন্য পৃথক শ্রেণীবিভাগ থেকে আউটপুট মানগুলির ওজনযুক্ত যোগফল গণনা করা হয়। তাই, 'X' সেকেন্ড দৈর্ঘ্যের একটি প্রদত্ত ভিডিওর জন্য, সিস্টেমটি 'X' দৈর্ঘ্যের একটি ভেক্টর আউটপুট করে। এই ভেক্টরের প্রতিটি উপাদান একটি অভিধান যা প্রতিটি সহিংসতার শ্রেণীকে একটি স্কোর মান সহ মানচিত্র করে। এই পদ্ধতিটি ব্যবহার করার কারণ দুটি গুণ, প্রথমত ভিডিওতে সহিংসতা আছে এমন সময়ের ব্যবধান সনাক্ত করা এবং সহিংসতা সনাক্তকরণে সিস্টেমের গতি বাড়ানো। বৈশিষ্ট্য নিষ্কাশন, বিশেষ করে Sentibank বৈশিষ্ট্য নিষ্কাশন, সময়সাপেক্ষ এবং প্রতিটি ফ্রেমের জন্য এটি করা সিস্টেমকে ধীর করে দেবে। কিন্তু এই পদ্ধতির সিস্টেমের নির্ভুলতার উপর নেতিবাচক প্রভাব রয়েছে কারণ এটি প্রতিটি ফ্রেমের জন্য নয় বরং প্রতি সেকেন্ডের জন্য সহিংসতা সনাক্ত করে।

3.3। মূল্যায়ন মেট্রিক্স

একটি শ্রেণীবিভাগ সিস্টেমের কর্মক্ষমতা পরিমাপ করতে ব্যবহার করা যেতে পারে যে অনেক মেট্রিক আছে. বাইনারি শ্রেণীবিভাগের জন্য ব্যবহৃত কিছু ব্যবস্থা হল যথার্থতা, যথার্থতা, স্মরণ (সংবেদনশীলতা), নির্দিষ্টতা, F-স্কোর, সমান ত্রুটি হার (EER), এবং এরিয়া আন্ডার দ্য কার্ভ (AUC)। কিছু অন্যান্য ব্যবস্থা যেমন গড় যথার্থতা (AP) এবং গড় গড় যথার্থতা (MAP) এমন সিস্টেমগুলির জন্য ব্যবহৃত হয় যা একটি প্রশ্নের ফলাফল হিসাবে একটি র‌্যাঙ্ক করা তালিকা ফিরিয়ে দেয়। মেশিন লার্নিং এবং ডেটা মাইনিং গবেষণায় ক্রমবর্ধমানভাবে ব্যবহৃত এই ব্যবস্থাগুলির বেশিরভাগই তথ্য পুনরুদ্ধার (Rijsbergen [49]) এবং বায়োমেট্রিক্সের মতো অন্যান্য শাখা থেকে ধার করা হয়েছে। এই ব্যবস্থাগুলির উপর বিস্তারিত আলোচনার জন্য, পার্কার [44] এবং সোকোলোভা এবং ল্যাপালমে [53] এর কাজগুলি পড়ুন। ROC (রিসিভার অপারেটিং চারিত্রিক বৈশিষ্ট্য) বক্ররেখা বাইনারি শ্রেণীবিন্যাস সিস্টেমের মূল্যায়ন বা তুলনা করার জন্য আরেকটি ব্যাপকভাবে ব্যবহৃত পদ্ধতি। AUC এবং EER এর মতো পরিমাপগুলি ROC বক্ররেখা থেকে গণনা করা যেতে পারে।


এই কাজে, ROC বক্ররেখা ব্যবহার করা হয়: (i) পৃথক শ্রেণীবিভাগের কর্মক্ষমতা তুলনা করুন। (ii) মাল্টি-ক্লাস শ্রেণীবিভাগের টাস্কে বিভিন্ন শ্রেণীর সহিংসতা সনাক্ত করার ক্ষেত্রে সিস্টেমের কর্মক্ষমতা তুলনা করুন। (iii) বাইনারি শ্রেণিবিন্যাস টাস্কে ইউটিউব এবং হলিউড-টেস্ট ডেটাসেটে সিস্টেমের কর্মক্ষমতা তুলনা করুন। এখানে ব্যবহৃত অন্যান্য মেট্রিক্স হল, যথার্থতা, স্মরণ এবং EER। এই ব্যবস্থাগুলি ব্যবহার করা হয় কারণ এইগুলি সহিংসতা সনাক্তকরণের পূর্ববর্তী কাজগুলিতে সর্বাধিক ব্যবহৃত ব্যবস্থা। এই সিস্টেমে, পরামিতি (ফিউশন ওজন) EER কমানোর জন্য সমন্বয় করা হয়।

3.4। সারসংক্ষেপ

এই অধ্যায়ে, সহিংসতা শনাক্ত করার জন্য এই কাজে অনুসরণ করা পদ্ধতির একটি বিশদ বিবরণ উপস্থাপন করা হয়েছে। প্রথম বিভাগটি প্রশিক্ষণ পর্বের সাথে সম্পর্কিত এবং দ্বিতীয় বিভাগটি পরীক্ষা পর্বের সাথে সম্পর্কিত। প্রথম বিভাগে, প্রশিক্ষণ পর্বের সাথে জড়িত বিভিন্ন ধাপগুলি বিস্তারিতভাবে ব্যাখ্যা করা হয়েছে। প্রথমে অডিও এবং ভিজ্যুয়াল বৈশিষ্ট্যগুলির নিষ্কাশন নিয়ে আলোচনা করা হয় এবং কী কী বৈশিষ্ট্যগুলি ব্যবহার করা হয় এবং কীভাবে সেগুলি নিষ্কাশন করা হয় তার বিশদ বিবরণ উপস্থাপন করা হয়। এর পরে, নিষ্কাশিত বৈশিষ্ট্যগুলিকে শ্রেণীবদ্ধ করতে ব্যবহৃত শ্রেণীবিন্যাস কৌশলগুলি নিয়ে আলোচনা করা হয়েছে। অবশেষে, বৈশিষ্ট্য ফিউশনের জন্য বৈশিষ্ট্য ওজন গণনা করতে ব্যবহৃত প্রক্রিয়া আলোচনা করা হয়েছে। দ্বিতীয় বিভাগে, সহিংসতা সম্বলিত ভিডিও অংশগুলি বের করতে এবং এই বিভাগে সহিংসতার শ্রেণি সনাক্ত করতে পরীক্ষার পর্যায়ে ব্যবহৃত প্রক্রিয়াটি আলোচনা করা হয়েছে।


সংক্ষেপে বলতে গেলে, এই পদ্ধতিতে অনুসরণ করা পদক্ষেপগুলি হল বৈশিষ্ট্য নিষ্কাশন, বৈশিষ্ট্য শ্রেণীবিভাগ, বৈশিষ্ট্য ফিউশন এবং পরীক্ষা। প্রথম তিনটি ধাপ প্রশিক্ষণ পর্ব গঠন করে এবং চূড়ান্ত ধাপ হল পরীক্ষার পর্যায়। প্রশিক্ষণ পর্বে, ভিডিও থেকে অডিও এবং ভিজ্যুয়াল বৈশিষ্ট্যগুলি বের করা হয় এবং প্রতিটি বৈশিষ্ট্যের জন্য একটি বাইনারি SVM শ্রেণীবিভাগকে প্রশিক্ষণ দিতে ব্যবহার করা হয়। তারপরে, একটি পৃথক ডেটাসেট ব্যবহার করা হয় বৈশিষ্ট্যের ওজনগুলি খুঁজে বের করার জন্য যা ডেটাসেটের বৈধতাকরণে সিস্টেমের EER কমিয়ে দেয়। চূড়ান্ত পরীক্ষার পর্যায়ে, প্রথমে ভিজ্যুয়াল এবং অডিও বৈশিষ্ট্যগুলি ইনপুট পরীক্ষার ভিডিওর 1-সেকেন্ডের ভিডিও বিভাগে একটি করে নেওয়া হয়। তারপরে, সহিংসতার প্রতিনিধিত্বকারী এই বৈশিষ্ট্যগুলির সম্ভাব্যতা পেতে এই বৈশিষ্ট্যগুলি প্রশিক্ষিত SVM শ্রেণীবদ্ধকারীদের কাছে প্রেরণ করা হয়। বৈশিষ্ট্য ফিউশন ধাপে প্রাপ্ত ওজন ব্যবহার করে প্রতিটি সহিংসতার প্রকারের জন্য এই আউটপুট সম্ভাব্যতার একটি ওজনযুক্ত যোগফল গণনা করা হয়। সহিংসতার ধরন যার জন্য ওজনযুক্ত যোগফল সর্বাধিক তা সংশ্লিষ্ট 1-সেকেন্ডের ভিডিও বিভাগে একটি লেবেল হিসাবে বরাদ্দ করা হয়েছে৷ এই লেবেলগুলি ব্যবহার করে সহিংসতা সম্বলিত অংশগুলি এবং সেগুলির মধ্যে থাকা সহিংসতার শ্রেণীগুলি সিস্টেম দ্বারা একটি আউটপুট হিসাবে উপস্থাপন করা হয়। এই সিস্টেমের পরীক্ষামূলক সেটআপ এবং মূল্যায়ন পরবর্তী অধ্যায়ে উপস্থাপন করা হয়েছে।



এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ


[১] http://visual-sentiment-ontology.appspot.com