paint-brush
পরিস্থিতি এবং সংলাপ-ভিত্তিক গভীর নেটওয়ার্কের মাল্টিলেভেল প্রোফাইলিং: পটভূমি এবং সম্পর্কিত কাজদ্বারা@kinetograph

পরিস্থিতি এবং সংলাপ-ভিত্তিক গভীর নেটওয়ার্কের মাল্টিলেভেল প্রোফাইলিং: পটভূমি এবং সম্পর্কিত কাজ

অতিদীর্ঘ; পড়তে

এই গবেষণাপত্রে, গবেষকরা মুভি জেনার শ্রেণীবিভাগ, পরিস্থিতি, সংলাপ, এবং মেটাডেটা বৈশিষ্ট্যগুলি ব্যবহার করার জন্য একটি মাল্টি-মডালিটি কাঠামোর প্রস্তাব করেছেন।
featured image - পরিস্থিতি এবং সংলাপ-ভিত্তিক গভীর নেটওয়ার্কের মাল্টিলেভেল প্রোফাইলিং: পটভূমি এবং সম্পর্কিত কাজ
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

লেখক:

(1) দীনেশ কুমার বিশ্বকর্মা, বায়োমেট্রিক রিসার্চ ল্যাবরেটরি, তথ্য প্রযুক্তি বিভাগ, দিল্লি প্রযুক্তি বিশ্ববিদ্যালয়, দিল্লি, ভারত;

(2) মায়াঙ্ক জিন্দাল, বায়োমেট্রিক রিসার্চ ল্যাবরেটরি, তথ্য প্রযুক্তি বিভাগ, দিল্লি প্রযুক্তি বিশ্ববিদ্যালয়, দিল্লি, ভারত

(3) আয়ুষ মিত্তল, বায়োমেট্রিক রিসার্চ ল্যাবরেটরি, তথ্য প্রযুক্তি বিভাগ, দিল্লি প্রযুক্তি বিশ্ববিদ্যালয়, দিল্লি, ভারত

(৪) আদিত্য শর্মা, বায়োমেট্রিক রিসার্চ ল্যাবরেটরি, তথ্য প্রযুক্তি বিভাগ, দিল্লি প্রযুক্তি বিশ্ববিদ্যালয়, দিল্লি, ভারত।

লিঙ্কের টেবিল

2. পটভূমি এবং সম্পর্কিত কাজ

এই বিভাগে মুভি জেনার শ্রেণীবিভাগের অতীত পদ্ধতি এবং আমাদের অধ্যয়নের পিছনে প্রেরণা নিয়ে আলোচনা করা হয়েছে। ভিডিও বিষয়বস্তু প্রধানত (1) ভিডিও ফ্রেম (ছবি) এবং (2) অডিও (স্পিচ {সংলাপ} + নন স্পিচ {ভোকাল}) এ বিভক্ত করা হয়েছে। ভিডিও বিষয়বস্তু বিশ্লেষণ করার জন্য, অতীতে বিভিন্ন অধ্যয়ন করা হয়েছে, মূলত জ্ঞানীয় [3]–[7] বা অনুভূতিশীল [8] স্তরের উপর পৃথকভাবে ফোকাস করে। আরও কার্যকরী অধ্যয়নের জন্য, একটি জেনার শ্রেণীবিভাগের টাস্কে আরও ভাল পারফর্ম করার জন্য উভয় স্তরকেই বিবেচনায় নেওয়া দরকার।


অতীতের গবেষণায়, দৃশ্যের উপাদানগুলি ক্যাপচার করার জন্য, দৃশ্যমান ব্যাঘাত, গড় শট দৈর্ঘ্য, ভিডিও ফ্রেমে আলোর তীব্রতায় ধীরে ধীরে পরিবর্তন এবং অডিও ওয়েভফর্মের শিখর [3] সহ নিম্ন-স্তরের বৈশিষ্ট্যগুলির উপর ভিত্তি করে অনেক জ্ঞান-ভিত্তিক পদ্ধতির প্রস্তাব করা হয়েছে। [৪]। জ্ঞানীয় শ্রেণীবিভাগের জন্য ব্যবহৃত অন্যান্য বৈশিষ্ট্যগুলির মধ্যে রয়েছে ফ্রেমের মধ্যে আরজিবি রঙ [৬], ফিল্ম শট [৭], শটের দৈর্ঘ্য [৯], দৃশ্যের পটভূমির ধরন (গাঢ়/অ-অন্ধকার) [৬] ইত্যাদি। একইভাবে, কিছু পন্থা হল শুধুমাত্র অনুভূতিমূলক বিশ্লেষণের জন্য প্রস্তাবিত [8]।


একটি চলচ্চিত্রের একাধিক ঘরানা থাকতে পারে যা দর্শকদের কাছে অনেক তথ্য চিত্রিত করে তাই এটি একটি দর্শকের কাছে একটি চলচ্চিত্রের সুপারিশ করার কাজ হিসাবে কাজ করে। জৈন ইত্যাদি। [৫] 4টি ভিডিও বৈশিষ্ট্য (শট দৈর্ঘ্য, গতি, রঙের আধিপত্য, আলো কী) এবং 5টি অডিও বৈশিষ্ট্য শুধুমাত্র 200টি প্রশিক্ষণের নমুনা ব্যবহার করে মুভি ক্লিপগুলিকে শ্রেণীবদ্ধ করতে ব্যবহার করেছে। তারা জেনার ভবিষ্যদ্বাণী করতে সম্পূর্ণ মুভি ক্লিপ ব্যবহার করে। যাইহোক, গবেষণা তাদের মডেল প্রশিক্ষণের জন্য শুধুমাত্র 200 প্রশিক্ষণ নমুনা ব্যবহার করে। তদনুসারে, তাদের দ্বারা রিপোর্ট করা নির্ভুলতা অতিরিক্ত ফিটিং এর কারণে হতে পারে। এছাড়াও, গবেষণাটি শুধুমাত্র একক-লেবেল শ্রেণীবিভাগের উপর দৃষ্টি নিবদ্ধ করে। হুয়াং এট আল। [৪] সেল্ফ অ্যাডাপ্টিভ হারমনি সার্চ অ্যালগরিদম 7টি স্ট্যাক করা SVM-এর সাথে প্রস্তাব করেছে যেটি 223 আকারের ডেটাসেটে অডিও এবং ভিজ্যুয়াল উভয় বৈশিষ্ট্য (মোট প্রায় 277টি বৈশিষ্ট্য) ব্যবহার করেছে। এরতুগ্রুল ইত্যাদি। [১০] সিনেমার প্লট সহ নিম্ন-স্তরের বৈশিষ্ট্যগুলি ব্যবহার করে, প্লটকে বাক্যে বিভক্ত করে এবং বাক্যগুলিকে জেনারে শ্রেণীবদ্ধ করে এবং চূড়ান্ত জেনারটিকে সর্বাধিক সংঘটন সহ এক হিসাবে গ্রহণ করে। পাইস এট আল। [১১] সামগ্রিক সংক্ষিপ্তসার থেকে কিছু গুরুত্বপূর্ণ শব্দের উপর নির্ভর করে ইমেজ-টেক্সট বৈশিষ্ট্যগুলিকে ফিউজ করার প্রস্তাব করা হয়েছে এবং সেই বৈশিষ্ট্যগুলির উপর ভিত্তি করে চলচ্চিত্রের শ্রেণীবিভাগ করা হয়েছে। মডেলটি 107টি সিনেমার ট্রেলারের সেটে পরীক্ষা করা হয়েছিল। শাহিন প্রমুখ। [১২] সিনেমার প্লট এবং উদ্ধৃতিগুলি ব্যবহার করা হয়েছে এবং জেনারগুলিকে শ্রেণিবদ্ধ করার জন্য প্রস্তাবিত হায়ারার্কিক্যাল অ্যাটেনশন নেটওয়ার্ক। একইভাবে, কুমার এট আল। [১৩] সামগ্রিক সময়ের জটিলতা হ্রাস করার উপর দৃষ্টি নিবদ্ধ করে হ্যাশ ভেক্টরাইজেশন ব্যবহার করে জেনারকে শ্রেণীবদ্ধ করতে চলচ্চিত্রের প্লট ব্যবহার করার প্রস্তাব করা হয়েছে। উপরে উল্লিখিত অধ্যয়নগুলি নিম্ন-স্তরের বৈশিষ্ট্যগুলির উপর নির্ভর করে এবং চলচ্চিত্রের ট্রেলারগুলি থেকে কোনও উচ্চ-স্তরের বৈশিষ্ট্যগুলি ক্যাপচার করে না, এইভাবে একটি ভাল স্তরের স্বীকৃতি সিস্টেমের জন্য নির্ভর করা যায় না।


আরো সাম্প্রতিক গবেষণা থেকে, অনেক গবেষক মুভি জেনার শ্রেণীবিভাগের কাজের জন্য গভীর নেটওয়ার্ক ব্যবহার করেছেন। শম্ভরকর প্রমুখ। [১৪] স্থানিক এবং অস্থায়ী বৈশিষ্ট্যগুলিকে জব্দ করার জন্য একটি একক লেবেল 3D সিএনএন-ভিত্তিক আর্কিটেকচারের প্রস্তাব করেছে। যদিও এতে স্থানিক এবং অস্থায়ী বৈশিষ্ট্যগুলি ধরা হয়েছে, তবে একক-লেবেল শ্রেণিবিন্যাসের কারণে মডেলটি শক্তিশালী নয়। কিছু গবেষক মুভি জেনার শ্রেণীবদ্ধ করতে সিনেমা পোস্টার উপর কাজ করেছেন. চু এট আল। [15] বস্তু সনাক্তকরণ এবং চাক্ষুষ উপস্থিতি সহজতর করার জন্য একটি গভীর নিউরাল নেটওয়ার্ক প্রণয়ন. যদিও কাজ পোস্টার থেকে অনেক তথ্য ধারণ করেছে, পোস্টার নিজেই একটি সিনেমাকে সম্পূর্ণরূপে বর্ণনা করার জন্য যথেষ্ট নয়। সিমোস এট আল। [১৬] একটি সিএনএন-মোশন প্রস্তাব করেছে যাতে তত্ত্বাবধান না করা ক্লাস্টারিং অ্যালগরিদম দ্বারা প্রদত্ত দৃশ্য হিস্টোগ্রাম, প্রতিটি ট্রেলারের জন্য ওয়েটেড জেনার পূর্বাভাস, কিছু নিম্ন-স্তরের ভিডিও বৈশিষ্ট্য সহ। এটি একটি ভিডিও থেকে বৈশিষ্ট্যগুলির একটি প্রধান গোষ্ঠী সরবরাহ করে তবে জেনারকে শ্রেণিবদ্ধ করার জন্য কিছু অনুভূতিমূলক এবং জ্ঞানীয়-ভিত্তিক বৈশিষ্ট্যের অভাব ছিল।


এইভাবে, অতীত সাহিত্য থেকে, এটি স্পষ্ট যে জ্ঞানীয় এবং সেইসাথে আবেগপূর্ণ অধ্যয়নের জন্য ভিডিও ট্রেলারগুলি থেকে প্রধান তথ্য বের করা উচিত। সুতরাং, কাজের পিছনে আমাদের অনুপ্রেরণা হল ভিডিও বিষয়বস্তু বিশ্লেষণের উভয় স্তরের উপর নির্ভর করে এমন একটি পদ্ধতি তৈরি করা যেমন [1]। আমরা বিশ্বাস করি যে প্রস্তাবিত স্থাপত্য এবং মডেলটি অভিনব এবং শক্তিশালী এবং ভবিষ্যতে বিভিন্ন গবেষণা দৃষ্টিভঙ্গির জন্য ব্যবহার করা যেতে পারে।


এই কাগজটি CC BY-NC-SA 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ