লেখক:
(1) দীনেশ কুমার বিশ্বকর্মা, বায়োমেট্রিক রিসার্চ ল্যাবরেটরি, তথ্য প্রযুক্তি বিভাগ, দিল্লি প্রযুক্তি বিশ্ববিদ্যালয়, দিল্লি, ভারত;
(2) মায়াঙ্ক জিন্দাল, বায়োমেট্রিক রিসার্চ ল্যাবরেটরি, তথ্য প্রযুক্তি বিভাগ, দিল্লি প্রযুক্তি বিশ্ববিদ্যালয়, দিল্লি, ভারত
(3) আয়ুষ মিত্তল, বায়োমেট্রিক রিসার্চ ল্যাবরেটরি, তথ্য প্রযুক্তি বিভাগ, দিল্লি প্রযুক্তি বিশ্ববিদ্যালয়, দিল্লি, ভারত
(৪) আদিত্য শর্মা, বায়োমেট্রিক রিসার্চ ল্যাবরেটরি, তথ্য প্রযুক্তি বিভাগ, দিল্লি প্রযুক্তি বিশ্ববিদ্যালয়, দিল্লি, ভারত।
এই অংশে, আমরা বিভিন্ন মডেলের আর্কিটেকচার এবং প্রিফিচার ফিউজড মডেলের উপর পরীক্ষা করব। পরবর্তীতে, আমরা আমাদের কাজটিকে স্ট্যান্ডার্ড LMTD-9 ডেটাসেটের পাশাপাশি আমাদের প্রস্তাবিত ডেটাসেটে যাচাই করে যাচাই করি। পরিশেষে, আমাদের মডেল দৃঢ়তা অন্বেষণ করার জন্য একটি তুলনামূলক অধ্যয়ন আলোচনা করা হয়েছে। সমস্ত পরীক্ষা 128 GB DDR4 RAM এবং Nvidia Titan RTX (24 GB) GPU কনফিগারেশন সহ GPU ওয়ার্কস্টেশনে সঞ্চালিত হয়।
আমাদের ফ্রেমওয়ার্ক যাচাই করতে, আমরা আমাদের প্রস্তাবিত ডেটাসেট এবং স্ট্যান্ডার্ড LMTD-9 [2] ডেটাসেট ব্যবহার করি। বিস্তৃত বিবরণ নিম্নরূপ উল্লেখ করা হয়েছে:
EMTD: আমাদের প্রস্তাবিত ডেটাসেটে 1700টি অনন্য ট্রেলারের একটি পৃথক প্রশিক্ষণ সেট এবং 300টি অনন্য ট্রেলারের একটি বৈধতা সেট রয়েছে, সবগুলোই IMDB থেকে নেওয়া হয়েছে, যেমনটি ধারা 3 এ উল্লিখিত হয়েছে।
LMTD [16], [20] হল একটি মাল্টি-লেবেল বৃহৎ-স্কেল মুভি ট্রেলার ডেটাসেট যার মধ্যে রয়েছে ট্রেলার লিঙ্ক, ট্রেলার মেটাডেটা, প্লট/সারাংশ, অনন্য ট্রেলার আইডি যা 22টি আলাদা লেবেল/জেনারের প্রায় 9k মুভি ট্রেলার নিয়ে গঠিত। যাচাইকরণের উদ্দেশ্যে, LMTD-9 [2] এর একটি বৈধতা সেট (সাবপার্ট) ব্যবহার করা হয় যাতে শুধুমাত্র 1980 সালের পরে প্রকাশিত হলিউড ট্রেলার এবং আমাদের জেনার তালিকার নির্দিষ্ট ট্রেলার অন্তর্ভুক্ত থাকে। ডেটাসেটে বিভিন্ন ভিডিও গুণমান এবং আকৃতির অনুপাত সহ বিভিন্ন দৈর্ঘ্যের ট্রেলার রয়েছে৷
এই বিভাগে, আমরা বিভিন্ন কাঠামোর ভিন্নতা নিয়ে আমাদের পরীক্ষাগুলি নিয়ে আলোচনা করব। আমরা পৃথক পদ্ধতি এবং প্রাক-মিশ্রিত বৈশিষ্ট্যের উপর ভিত্তি করে 3টি ভিন্ন ফ্রেমওয়ার্ক নিয়ে পরীক্ষা করেছি।
MS (ভিডিও ফ্রেম বিশ্লেষণ): ভিডিও ফ্রেম থেকে একমাত্র পরিস্থিতি ভিত্তিক বৈশিষ্ট্য বিবেচনা করে মডেল।
MD (ডায়ালগ-মেটাডেটা বিশ্লেষণ): অডিও থেকে সংলাপ এবং মেটাডেটা থেকে বর্ণনাকে বৈশিষ্ট্য হিসেবে বিবেচনা করে মডেল।
MSD (মাল্টি-মডালিটি অ্যানালাইসিস): ভিডিও ফ্রেম থেকে পরিস্থিতি-ভিত্তিক বৈশিষ্ট্য, অডিও থেকে সংলাপ এবং মেটাডেটা থেকে বর্ণনাকে বৈশিষ্ট্য হিসেবে বিবেচনা করে মডেল।
প্রি-ফিউজড বৈশিষ্ট্য সহ বিভাগ 4.2.3-এ প্রস্তাবিত আর্কিটেকচার MSD-এর জন্য ব্যবহার করা হয়েছে। যাইহোক, ইনপুট কর্পাস সামান্য পরিবর্তিত হয়. বিভাগ 4.4-এ সংজ্ঞায়িত কর্পাস MSD-এর জন্য ব্যবহৃত হয়। LMTD-9 এবং EMTD-এ MSD-এর জন্য যথার্থতা, স্মরণ এবং F1-স্কোর সারণি 5-এ দেখানো হয়েছে। যাইহোক, MS এবং MD-এর সাথে MSD-এর AU (PRC) তুলনা আসন্ন বিভাগে আলোচনা করা হয়েছে।
বিভিন্ন ঘরানার পারফরম্যান্সের মধ্যে কিছু বৈচিত্র দেখা যায়। প্রধান ঘরানার অন্তর্গত বেশিরভাগ ট্রেলারগুলিকে সুনির্দিষ্টভাবে শ্রেণীবদ্ধ করা হচ্ছে (0.84 এবং তার উপরে F1 স্কোর সহ), যা দেখায় যে প্রস্তাবিত মডেলটি ভাল পারফর্ম করছে৷ EMTD এবং LMTD-9-এ যথাক্রমে 0.88 এবং 0.89-এর F1-স্কোর সহ পাঁচজনের মধ্যে অ্যাকশন জেনারটি সেরা পারফরম্যান্স জেনার ছিল। F1-স্কোরের পরিপ্রেক্ষিতে সব জেনারের মধ্যে রোম্যান্স জেনারকে সবচেয়ে কম পারফর্মিং জেনার হিসেবে দেখা গেছে। এটা লক্ষ্য করা যায় যে অনেক রোম্যান্স ঘরানার ট্রেলারগুলিকে কমেডিতে ভুল শ্রেণিবদ্ধ করা হচ্ছে কারণ এই উভয় ধারাতেই সুখী, হাসি, হাসি ইত্যাদির মতো একই শব্দের প্রাধান্য রয়েছে।
AU (PRC) অর্থাৎ, নির্ভুল-রিকল বক্ররেখার অধীনে এলাকা, আমাদের শ্রেণীবিভাগের ফলাফলের তুলনা করার জন্য গণনা করা হয়, কারণ আমরা বহু-লেবেল শ্রেণিবিন্যাসের সমস্যা নিয়ে কাজ করছি। AU (PRC) পরিমাপ আমাদের মডেলের প্রকৃত কর্মক্ষমতা তুলনা করতে সাহায্য করে, মাল্টি-লেবেল ডেটাসেটে ক্লাস ভারসাম্যহীনতার কারণে নয়েজ প্রভাবের জন্য ক্ষতিপূরণ দেয়। AU (PRC) বক্ররেখাগুলি উভয় ডেটাসেটের সমস্ত 3 মডেলের জন্য তৈরি করা হয়েছে যেমন চিত্র 5, চিত্র 6 এবং চিত্র 7 এ চিত্রিত করা হয়েছে। EMTD-এর বৈধতা সেটে, আমরা প্রায় একই AU (PRC) মান 92% পেয়েছি, MSD, MD, এবং MS-এ যথাক্রমে 91%, 88%। যাইহোক, আমরা দেখেছি যে আমাদের MSD LMTD9 ডেটাসেটে 82% AU (PRC) মান দেয়, যা অন্য দুটি মডেলের চেয়ে বড়, যথাক্রমে MD এবং MS-এর 72% এবং 80% AU (PRC) সারণি 6-এর মতো।
যাইহোক, আমাদের অধ্যয়নের মধ্যে আমরা পরীক্ষা করেছি এমন কিছু মডেলের সাথে সামগ্রিক তুলনা করার জন্য, আমরা তাদের ফলাফলগুলি সারণি 6-এ উল্লেখ করেছি। সেরা স্থাপত্য চয়ন করার জন্য, মডেলগুলিকে উভয় বৈধতা ডেটাসেটে AU (PRC) এর পরিপ্রেক্ষিতে তুলনা করা হয়। ফিচার মডেল ডেটাসেট EMTD LMTD-9 ডায়ালগ (MD) E-Bi LSTM 0.87 0.66 ECnet 0.91 0.72 সিচুয়েশন (MS) ECnet 0.86 0.75 TFAnet 0.88 0.80 ফিউজড ফিচারগুলিকে বাস্তবায়ন করা হয়েছে দ ফিউজড ফিচারের জন্য সেরা মডেল। যদিও MD-এর EMTD-তে MSD-এর সাথে তুলনামূলক AU (PRC) মান রয়েছে কিন্তু LMTD-9-তে MSD-এর MD-কে ছাড়িয়ে গেছে। LMTD-9-এ MS-এর ক্ষেত্রেও একই রকম। যদিও MSD উভয় ডেটাসেটে একই সাথে ভাল পারফর্ম করেছে, যা MS এবং MD এর ক্ষেত্রে পৃথকভাবে সত্য নয়। সুতরাং, ক্রস ডেটাসেট যাচাইকরণের মাধ্যমে MSD আরও শক্তিশালী প্রমাণিত হয়। আমরা উপসংহারে পৌঁছেছি যে প্রস্তাবিত MSD হল সেরা পারফর্মিং মডেল।
এই বিভাগে, আমরা সারণি 7 এ চিত্রিত প্রতিটি ঘরানার জন্য পৃথকভাবে AU (PRC) মেট্রিক ব্যবহার করে চলচ্চিত্রের জেনার শ্রেণীবিভাগের জন্য পূর্ববর্তী পদ্ধতির সাথে শিল্পের তুলনা করার মাধ্যমে আমাদের প্রস্তাবিত মডেলের কর্মক্ষমতা যাচাই করি। সারণিতে উল্লিখিত সমস্ত ফলাফল 7 দুটি দশমিক স্থান পর্যন্ত দেখানো হয়েছে এবং Fish et ব্যতীত স্ট্যান্ডার্ড LMTD-9 ডেটাসেটের উপর ভিত্তি করে। আল [22], যার ফলাফল MMX ট্রেলার-20 ডেটাসেটের উপর ভিত্তি করে। এটি তার গবেষণায় রোম্যান্সের ধরণকে বিবেচনা করে না। যাইহোক, অন্যান্য ঘরানার জন্য, Fish et এর AU (PRC) মানগুলির পার্থক্য। al [22] এবং MSD লক্ষণীয়। MSD গড়ে 20% দ্বারা এটিকে ছাড়িয়ে যায়। নিম্ন-স্তরের চাক্ষুষ বৈশিষ্ট্য ভিত্তিক শ্রেণিবিন্যাস [২৩] 24টি নিম্ন-স্তরের চাক্ষুষ বৈশিষ্ট্যের উপর ভিত্তি করে, SAS-MC-v2 [24] শুধুমাত্র ট্রেলার শ্রেণিবিন্যাসের জন্য সারসংক্ষেপ ব্যবহার করে, ফিশ এট। আল [22] এবং CTT-MMC-TN [25] উচ্চ-স্তরের বৈশিষ্ট্যের উপর ভিত্তি করে। নিম্ন-স্তরের বৈশিষ্ট্যগুলির সাথে তুলনা করে [২৩], [২৪], MSD গড়ে 10% বেশি পারফর্ম করে এবং উচ্চ-স্তরের বৈশিষ্ট্যগুলি ব্যবহার করে পন্থাগুলির তুলনা করে [22], [25], এটি গড়ে 8% বেশি পারফর্ম করে প্রতিটি ঘরানার জন্য। এটিও দেখা যায় যে কমেডি ধারাটি অন্যান্য চারটি ঘরানার তুলনায় বেশির ভাগ রচনায় ভাল পারফর্ম করেছে যখন বিজ্ঞান-কল্পকাহিনীর তুলনামূলকভাবে কম AU (PRC) মান রয়েছে। এটি বিজ্ঞান-কল্পকাহিনী ঘরানার সঠিক পার্থক্যের অনুপলব্ধতার কারণে হতে পারে, কারণ এর বৈশিষ্ট্যগুলি অন্য কিছু অনুরূপ ঘরানার (যেমন অ্যাকশন) সাথে ওভারল্যাপ করে।
তুলনামূলক অধ্যয়নটি দেখায় যে প্রস্তাবিত মডেলটি শক্তিশালী কারণ এটি বিদ্যমান পদ্ধতিকে ছাড়িয়ে যায় এবং চমৎকার ফলাফল দেয়। আরও ভাল কার্যকারিতা এই কারণে যে প্রস্তাবিত আর্কিটেকচারে জ্ঞানীয় এবং অনুভূতিমূলক উভয় বৈশিষ্ট্যই অন্তর্ভুক্ত রয়েছে, যা মডেলটিকে প্রতিটি ঘরানার উল্লেখযোগ্য বৈশিষ্ট্যগুলি শিখতে সহায়তা করে, তাই আরও সুনির্দিষ্টভাবে জেনারগুলির পূর্বাভাস দেয়।
এই কাগজটি CC BY-NC-SA 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।