paint-brush
পরিস্থিতি এবং সংলাপ-ভিত্তিক গভীর নেটওয়ার্কগুলির মাল্টিলেভেল প্রোফাইলিং: পরীক্ষা-নিরীক্ষাদ্বারা@kinetograph
101 পড়া

পরিস্থিতি এবং সংলাপ-ভিত্তিক গভীর নেটওয়ার্কগুলির মাল্টিলেভেল প্রোফাইলিং: পরীক্ষা-নিরীক্ষা

অতিদীর্ঘ; পড়তে

এই কাগজে, গবেষকরা মুভি জেনার শ্রেণীবিভাগের জন্য একটি মাল্টি-মডালিটি ফ্রেমওয়ার্কের প্রস্তাব করেছেন, পরিস্থিতি, সংলাপ এবং মেটাডেটা বৈশিষ্ট্যগুলি ব্যবহার করছেন।
featured image - পরিস্থিতি এবং সংলাপ-ভিত্তিক গভীর নেটওয়ার্কগুলির মাল্টিলেভেল প্রোফাইলিং: পরীক্ষা-নিরীক্ষা
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

লেখক:

(1) দীনেশ কুমার বিশ্বকর্মা, বায়োমেট্রিক রিসার্চ ল্যাবরেটরি, তথ্য প্রযুক্তি বিভাগ, দিল্লি প্রযুক্তি বিশ্ববিদ্যালয়, দিল্লি, ভারত;

(2) মায়াঙ্ক জিন্দাল, বায়োমেট্রিক রিসার্চ ল্যাবরেটরি, তথ্য প্রযুক্তি বিভাগ, দিল্লি প্রযুক্তি বিশ্ববিদ্যালয়, দিল্লি, ভারত

(3) আয়ুষ মিত্তল, বায়োমেট্রিক রিসার্চ ল্যাবরেটরি, তথ্য প্রযুক্তি বিভাগ, দিল্লি প্রযুক্তি বিশ্ববিদ্যালয়, দিল্লি, ভারত

(৪) আদিত্য শর্মা, বায়োমেট্রিক রিসার্চ ল্যাবরেটরি, তথ্য প্রযুক্তি বিভাগ, দিল্লি প্রযুক্তি বিশ্ববিদ্যালয়, দিল্লি, ভারত।

লিঙ্কের টেবিল

5. পরীক্ষা

এই অংশে, আমরা বিভিন্ন মডেলের আর্কিটেকচার এবং প্রিফিচার ফিউজড মডেলের উপর পরীক্ষা করব। পরবর্তীতে, আমরা আমাদের কাজটিকে স্ট্যান্ডার্ড LMTD-9 ডেটাসেটের পাশাপাশি আমাদের প্রস্তাবিত ডেটাসেটে যাচাই করে যাচাই করি। পরিশেষে, আমাদের মডেল দৃঢ়তা অন্বেষণ করার জন্য একটি তুলনামূলক অধ্যয়ন আলোচনা করা হয়েছে। সমস্ত পরীক্ষা 128 GB DDR4 RAM এবং Nvidia Titan RTX (24 GB) GPU কনফিগারেশন সহ GPU ওয়ার্কস্টেশনে সঞ্চালিত হয়।

5.1। ডেটাসেট

আমাদের ফ্রেমওয়ার্ক যাচাই করতে, আমরা আমাদের প্রস্তাবিত ডেটাসেট এবং স্ট্যান্ডার্ড LMTD-9 [2] ডেটাসেট ব্যবহার করি। বিস্তৃত বিবরণ নিম্নরূপ উল্লেখ করা হয়েছে:

5.1.1। ইংরেজি সিনেমা ট্রেলার ডেটাসেট (EMTD)

EMTD: আমাদের প্রস্তাবিত ডেটাসেটে 1700টি অনন্য ট্রেলারের একটি পৃথক প্রশিক্ষণ সেট এবং 300টি অনন্য ট্রেলারের একটি বৈধতা সেট রয়েছে, সবগুলোই IMDB থেকে নেওয়া হয়েছে, যেমনটি ধারা 3 এ উল্লিখিত হয়েছে।

5.1.2। লেবেলযুক্ত মুভি ট্রেলার ডেটাসেট (LMTD-9)

LMTD [16], [20] হল একটি মাল্টি-লেবেল বৃহৎ-স্কেল মুভি ট্রেলার ডেটাসেট যার মধ্যে রয়েছে ট্রেলার লিঙ্ক, ট্রেলার মেটাডেটা, প্লট/সারাংশ, অনন্য ট্রেলার আইডি যা 22টি আলাদা লেবেল/জেনারের প্রায় 9k মুভি ট্রেলার নিয়ে গঠিত। যাচাইকরণের উদ্দেশ্যে, LMTD-9 [2] এর একটি বৈধতা সেট (সাবপার্ট) ব্যবহার করা হয় যাতে শুধুমাত্র 1980 সালের পরে প্রকাশিত হলিউড ট্রেলার এবং আমাদের জেনার তালিকার নির্দিষ্ট ট্রেলার অন্তর্ভুক্ত থাকে। ডেটাসেটে বিভিন্ন ভিডিও গুণমান এবং আকৃতির অনুপাত সহ বিভিন্ন দৈর্ঘ্যের ট্রেলার রয়েছে৷

5.2। বিভিন্ন মডেলের উপর শ্রেণীবিভাগ ফলাফল

এই বিভাগে, আমরা বিভিন্ন কাঠামোর ভিন্নতা নিয়ে আমাদের পরীক্ষাগুলি নিয়ে আলোচনা করব। আমরা পৃথক পদ্ধতি এবং প্রাক-মিশ্রিত বৈশিষ্ট্যের উপর ভিত্তি করে 3টি ভিন্ন ফ্রেমওয়ার্ক নিয়ে পরীক্ষা করেছি।


  • MS (ভিডিও ফ্রেম বিশ্লেষণ): ভিডিও ফ্রেম থেকে একমাত্র পরিস্থিতি ভিত্তিক বৈশিষ্ট্য বিবেচনা করে মডেল।


  • MD (ডায়ালগ-মেটাডেটা বিশ্লেষণ): অডিও থেকে সংলাপ এবং মেটাডেটা থেকে বর্ণনাকে বৈশিষ্ট্য হিসেবে বিবেচনা করে মডেল।


  • MSD (মাল্টি-মডালিটি অ্যানালাইসিস): ভিডিও ফ্রেম থেকে পরিস্থিতি-ভিত্তিক বৈশিষ্ট্য, অডিও থেকে সংলাপ এবং মেটাডেটা থেকে বর্ণনাকে বৈশিষ্ট্য হিসেবে বিবেচনা করে মডেল।





প্রি-ফিউজড বৈশিষ্ট্য সহ বিভাগ 4.2.3-এ প্রস্তাবিত আর্কিটেকচার MSD-এর জন্য ব্যবহার করা হয়েছে। যাইহোক, ইনপুট কর্পাস সামান্য পরিবর্তিত হয়. বিভাগ 4.4-এ সংজ্ঞায়িত কর্পাস MSD-এর জন্য ব্যবহৃত হয়। LMTD-9 এবং EMTD-এ MSD-এর জন্য যথার্থতা, স্মরণ এবং F1-স্কোর সারণি 5-এ দেখানো হয়েছে। যাইহোক, MS এবং MD-এর সাথে MSD-এর AU (PRC) তুলনা আসন্ন বিভাগে আলোচনা করা হয়েছে।


বিভিন্ন ঘরানার পারফরম্যান্সের মধ্যে কিছু বৈচিত্র দেখা যায়। প্রধান ঘরানার অন্তর্গত বেশিরভাগ ট্রেলারগুলিকে সুনির্দিষ্টভাবে শ্রেণীবদ্ধ করা হচ্ছে (0.84 এবং তার উপরে F1 স্কোর সহ), যা দেখায় যে প্রস্তাবিত মডেলটি ভাল পারফর্ম করছে৷ EMTD এবং LMTD-9-এ যথাক্রমে 0.88 এবং 0.89-এর F1-স্কোর সহ পাঁচজনের মধ্যে অ্যাকশন জেনারটি সেরা পারফরম্যান্স জেনার ছিল। F1-স্কোরের পরিপ্রেক্ষিতে সব জেনারের মধ্যে রোম্যান্স জেনারকে সবচেয়ে কম পারফর্মিং জেনার হিসেবে দেখা গেছে। এটা লক্ষ্য করা যায় যে অনেক রোম্যান্স ঘরানার ট্রেলারগুলিকে কমেডিতে ভুল শ্রেণিবদ্ধ করা হচ্ছে কারণ এই উভয় ধারাতেই সুখী, হাসি, হাসি ইত্যাদির মতো একই শব্দের প্রাধান্য রয়েছে।


চিত্র 5: MD A) EMTD B) LMTD-9 এর জন্য যথার্থ রিকল কার্ভ


চিত্র 6: MS A) EMTD B) LMTD-9 এর জন্য যথার্থ রিকল কার্ভ


চিত্র 7: যথার্থ-রিকল কার্ভস MSD A) EMTD B) LMTD-9

5.3। AU (PRC) তুলনা

AU (PRC) অর্থাৎ, নির্ভুল-রিকল বক্ররেখার অধীনে এলাকা, আমাদের শ্রেণীবিভাগের ফলাফলের তুলনা করার জন্য গণনা করা হয়, কারণ আমরা বহু-লেবেল শ্রেণিবিন্যাসের সমস্যা নিয়ে কাজ করছি। AU (PRC) পরিমাপ আমাদের মডেলের প্রকৃত কর্মক্ষমতা তুলনা করতে সাহায্য করে, মাল্টি-লেবেল ডেটাসেটে ক্লাস ভারসাম্যহীনতার কারণে নয়েজ প্রভাবের জন্য ক্ষতিপূরণ দেয়। AU (PRC) বক্ররেখাগুলি উভয় ডেটাসেটের সমস্ত 3 মডেলের জন্য তৈরি করা হয়েছে যেমন চিত্র 5, চিত্র 6 এবং চিত্র 7 এ চিত্রিত করা হয়েছে। EMTD-এর বৈধতা সেটে, আমরা প্রায় একই AU (PRC) মান 92% পেয়েছি, MSD, MD, এবং MS-এ যথাক্রমে 91%, 88%। যাইহোক, আমরা দেখেছি যে আমাদের MSD LMTD9 ডেটাসেটে 82% AU (PRC) মান দেয়, যা অন্য দুটি মডেলের চেয়ে বড়, যথাক্রমে MD এবং MS-এর 72% এবং 80% AU (PRC) সারণি 6-এর মতো।


সারণি 6: বিভিন্ন মডেলে AU (PRC)


যাইহোক, আমাদের অধ্যয়নের মধ্যে আমরা পরীক্ষা করেছি এমন কিছু মডেলের সাথে সামগ্রিক তুলনা করার জন্য, আমরা তাদের ফলাফলগুলি সারণি 6-এ উল্লেখ করেছি। সেরা স্থাপত্য চয়ন করার জন্য, মডেলগুলিকে উভয় বৈধতা ডেটাসেটে AU (PRC) এর পরিপ্রেক্ষিতে তুলনা করা হয়। ফিচার মডেল ডেটাসেট EMTD LMTD-9 ডায়ালগ (MD) E-Bi LSTM 0.87 0.66 ECnet 0.91 0.72 সিচুয়েশন (MS) ECnet 0.86 0.75 TFAnet 0.88 0.80 ফিউজড ফিচারগুলিকে বাস্তবায়ন করা হয়েছে দ ফিউজড ফিচারের জন্য সেরা মডেল। যদিও MD-এর EMTD-তে MSD-এর সাথে তুলনামূলক AU (PRC) মান রয়েছে কিন্তু LMTD-9-তে MSD-এর MD-কে ছাড়িয়ে গেছে। LMTD-9-এ MS-এর ক্ষেত্রেও একই রকম। যদিও MSD উভয় ডেটাসেটে একই সাথে ভাল পারফর্ম করেছে, যা MS এবং MD এর ক্ষেত্রে পৃথকভাবে সত্য নয়। সুতরাং, ক্রস ডেটাসেট যাচাইকরণের মাধ্যমে MSD আরও শক্তিশালী প্রমাণিত হয়। আমরা উপসংহারে পৌঁছেছি যে প্রস্তাবিত MSD হল সেরা পারফর্মিং মডেল।

5.4। বেসলাইন তুলনা

এই বিভাগে, আমরা সারণি 7 এ চিত্রিত প্রতিটি ঘরানার জন্য পৃথকভাবে AU (PRC) মেট্রিক ব্যবহার করে চলচ্চিত্রের জেনার শ্রেণীবিভাগের জন্য পূর্ববর্তী পদ্ধতির সাথে শিল্পের তুলনা করার মাধ্যমে আমাদের প্রস্তাবিত মডেলের কর্মক্ষমতা যাচাই করি। সারণিতে উল্লিখিত সমস্ত ফলাফল 7 দুটি দশমিক স্থান পর্যন্ত দেখানো হয়েছে এবং Fish et ব্যতীত স্ট্যান্ডার্ড LMTD-9 ডেটাসেটের উপর ভিত্তি করে। আল [22], যার ফলাফল MMX ট্রেলার-20 ডেটাসেটের উপর ভিত্তি করে। এটি তার গবেষণায় রোম্যান্সের ধরণকে বিবেচনা করে না। যাইহোক, অন্যান্য ঘরানার জন্য, Fish et এর AU (PRC) মানগুলির পার্থক্য। al [22] এবং MSD লক্ষণীয়। MSD গড়ে 20% দ্বারা এটিকে ছাড়িয়ে যায়। নিম্ন-স্তরের চাক্ষুষ বৈশিষ্ট্য ভিত্তিক শ্রেণিবিন্যাস [২৩] 24টি নিম্ন-স্তরের চাক্ষুষ বৈশিষ্ট্যের উপর ভিত্তি করে, SAS-MC-v2 [24] শুধুমাত্র ট্রেলার শ্রেণিবিন্যাসের জন্য সারসংক্ষেপ ব্যবহার করে, ফিশ এট। আল [22] এবং CTT-MMC-TN [25] উচ্চ-স্তরের বৈশিষ্ট্যের উপর ভিত্তি করে। নিম্ন-স্তরের বৈশিষ্ট্যগুলির সাথে তুলনা করে [২৩], [২৪], MSD গড়ে 10% বেশি পারফর্ম করে এবং উচ্চ-স্তরের বৈশিষ্ট্যগুলি ব্যবহার করে পন্থাগুলির তুলনা করে [22], [25], এটি গড়ে 8% বেশি পারফর্ম করে প্রতিটি ঘরানার জন্য। এটিও দেখা যায় যে কমেডি ধারাটি অন্যান্য চারটি ঘরানার তুলনায় বেশির ভাগ রচনায় ভাল পারফর্ম করেছে যখন বিজ্ঞান-কল্পকাহিনীর তুলনামূলকভাবে কম AU (PRC) মান রয়েছে। এটি বিজ্ঞান-কল্পকাহিনী ঘরানার সঠিক পার্থক্যের অনুপলব্ধতার কারণে হতে পারে, কারণ এর বৈশিষ্ট্যগুলি অন্য কিছু অনুরূপ ঘরানার (যেমন অ্যাকশন) সাথে ওভারল্যাপ করে।


সারণি 7: AU (PRC) ব্যবহার করে অনুরূপ অত্যাধুনিক শিল্পের সাথে প্রস্তাবিত মডেলের তুলনা


তুলনামূলক অধ্যয়নটি দেখায় যে প্রস্তাবিত মডেলটি শক্তিশালী কারণ এটি বিদ্যমান পদ্ধতিকে ছাড়িয়ে যায় এবং চমৎকার ফলাফল দেয়। আরও ভাল কার্যকারিতা এই কারণে যে প্রস্তাবিত আর্কিটেকচারে জ্ঞানীয় এবং অনুভূতিমূলক উভয় বৈশিষ্ট্যই অন্তর্ভুক্ত রয়েছে, যা মডেলটিকে প্রতিটি ঘরানার উল্লেখযোগ্য বৈশিষ্ট্যগুলি শিখতে সহায়তা করে, তাই আরও সুনির্দিষ্টভাবে জেনারগুলির পূর্বাভাস দেয়।


এই কাগজটি CC BY-NC-SA 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ


L O A D I N G
. . . comments & more!

About Author

Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
Kinetograph: The Video Editing Technology Publication@kinetograph
The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover cutting edge tech for video editing.

আসে ট্যাগ

এই নিবন্ধটি উপস্থাপন করা হয়েছে...