paint-brush
পরিস্থিতি এবং সংলাপ-ভিত্তিক গভীর নেটওয়ার্কগুলির মাল্টিলেভেল প্রোফাইলিং: উপসংহার এবং উল্লেখদ্বারা@kinetograph

পরিস্থিতি এবং সংলাপ-ভিত্তিক গভীর নেটওয়ার্কগুলির মাল্টিলেভেল প্রোফাইলিং: উপসংহার এবং উল্লেখ

অতিদীর্ঘ; পড়তে

এই গবেষণাপত্রে, গবেষকরা মুভি জেনার শ্রেণীবিভাগ, পরিস্থিতি, সংলাপ, এবং মেটাডেটা বৈশিষ্ট্যগুলি ব্যবহার করার জন্য একটি মাল্টি-মডালিটি কাঠামোর প্রস্তাব করেছেন।
featured image - পরিস্থিতি এবং সংলাপ-ভিত্তিক গভীর নেটওয়ার্কগুলির মাল্টিলেভেল প্রোফাইলিং: উপসংহার এবং উল্লেখ
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

লেখক:

(1) দীনেশ কুমার বিশ্বকর্মা, বায়োমেট্রিক রিসার্চ ল্যাবরেটরি, তথ্য প্রযুক্তি বিভাগ, দিল্লি প্রযুক্তি বিশ্ববিদ্যালয়, দিল্লি, ভারত;

(2) মায়াঙ্ক জিন্দাল, বায়োমেট্রিক রিসার্চ ল্যাবরেটরি, তথ্য প্রযুক্তি বিভাগ, দিল্লি প্রযুক্তি বিশ্ববিদ্যালয়, দিল্লি, ভারত

(3) আয়ুষ মিত্তল, বায়োমেট্রিক রিসার্চ ল্যাবরেটরি, তথ্য প্রযুক্তি বিভাগ, দিল্লি প্রযুক্তি বিশ্ববিদ্যালয়, দিল্লি, ভারত

(৪) আদিত্য শর্মা, বায়োমেট্রিক রিসার্চ ল্যাবরেটরি, তথ্য প্রযুক্তি বিভাগ, দিল্লি প্রযুক্তি বিশ্ববিদ্যালয়, দিল্লি, ভারত।

লিঙ্কের টেবিল

6। উপসংহার

এই কাজটি চলচ্চিত্রের শ্রেণীবিন্যাসের সমস্যাটির জন্য একটি অভিনব সামগ্রিক পদ্ধতির ধারণাকে প্রসারিত করে যা ফ্রেমের পরিস্থিতি, বক্তৃতা থেকে সংলাপ এবং মেটা-ডেটা (মুভির প্লট এবং বিবরণ) সহ একাধিক পদ্ধতি বিবেচনা করে অনুভূতিশীল এবং জ্ঞানীয় স্তরগুলি অন্তর্ভুক্ত করে। আমরা একটি হলিউড ইংলিশ মুভি ট্রেলার ডেটাসেট EMTDও তৈরি করেছি যাতে এই অধ্যয়নটি চালিয়ে যাওয়ার জন্য অ্যাকশন, কমেডি, হরর, রোমান্স, সায়েন্স ফিকশন নামে 5 টি জেনার থেকে প্রায় 2000 টি ট্রেলার রয়েছে৷ আমরা সেকশন 5.2-এ আলোচিত বিভিন্ন মডেল আর্কিটেকচার নিয়ে পরীক্ষা-নিরীক্ষা করেছি এবং EMTD এবং স্ট্যান্ডার্ড LMTD-9 [2]-এ আমাদের চূড়ান্ত কাঠামো যাচাই করেছি যা যথাক্রমে 0.92 এবং 0.82 এর AU (PRC) মান অর্জন করে। আমাদের অধ্যয়নের মূল লক্ষ্য হল একটি মজবুত ফ্রেমওয়ার্ক তৈরি করা যাতে একটি মুভি জেনারকে এর ছোট ক্লিপ অর্থাৎ ট্রেলার থেকে শ্রেণীবদ্ধ করা যায়। যদিও আমাদের অধ্যয়ন একটি বৈশিষ্ট্য হিসাবে ইংরেজি বক্তৃতা অন্তর্ভুক্ত করে, এটি কিছু অ-ইংরেজি ট্রেলারগুলিতেও প্রয়োগ করা যেতে পারে। অ-ইংরেজিদের জন্য, আমাদের মডেল শুধুমাত্র ভিডিও বৈশিষ্ট্যগুলিকে অন্তর্ভুক্ত করতে পারে, তাই এর ভিত্তিতে, আমাদের স্থাপত্য দ্বারা ভবিষ্যদ্বাণী করা যেতে পারে৷


আমাদের প্রস্তাবিত মডেলের সম্প্রসারণের জন্য, কণ্ঠের উপর ভিত্তি করে ব্যাকগ্রাউন্ড অডিও অধ্যয়নগুলিও অন্তর্ভুক্ত করা যেতে পারে। তাই, ভবিষ্যতে, আমরা আমাদের বর্তমান ফ্রেমওয়ার্কের সাথে অডিওতে ব্যাকগ্রাউন্ড ভোকাল বিবেচনা করে একটি ফ্রেমওয়ার্ক তৈরি করার পরিকল্পনা করছি যাতে মুভির ট্রেলার থেকে বেশির ভাগ বৈশিষ্ট্য ভালোভাবে বের করা যায় এবং ব্যবহার করা যায়। আমরা বহু-লেবেল শ্রেণিবিন্যাসের জন্য আমাদের গবেষণায় আরও কিছু জেনার যোগ করার পরিকল্পনা করছি।

7. তথ্যসূত্র

[১] এ. হানজালিক এবং এলকিউ জু, "প্রভাবমূলক ভিডিও বিষয়বস্তু উপস্থাপনা এবং মডেলিং," IEEE ট্রান্স। Multimed., vol. 7, না। 1, 2005।


[২] জে. ওয়েহরম্যান এবং আরসি ব্যারোস, "মাল্টি-লেবেল মুভি জেনার ক্লাসিফিকেশনের জন্য সময়ের মাধ্যমে কনভোল্যুশনস," প্রসিডিংস অফ দ্য এসিএম সিম্পোজিয়াম অন অ্যাপ্লাইড কম্পিউটিং, 2017, ভলিউম। পার্ট F1280, পৃষ্ঠা 114-119।


[৩] জেড. রাশেদ, ওয়াই. শেখ, এবং এম. শাহ, "চলচ্চিত্র শ্রেণিবিন্যাসের জন্য গণনাযোগ্য বৈশিষ্ট্যের ব্যবহার সম্পর্কে," IEEE ট্রান্স। সার্কিট সিস্টেম ভিডিও প্রযুক্তি।, ভলিউম। 15, না। 1, পৃ. 52-64, জানুয়ারী 2005।


[৪] এলএইচ চেন, ওয়াইসি লাই, এবং এইচওয়াই মার্ক লিয়াও, "পটভূমির তথ্য ব্যবহার করে সিনেমার দৃশ্য বিভাজন," প্যাটার্ন রিকগনিট।, ভলিউম। 41, না। 3, 2008।


[৫] এসকে জৈন এবং আরএস জাদন, "নিউরাল নেটওয়ার্ক ব্যবহার করে সিনেমার জেনার ক্লাসিফায়ার," 2009।


[৬] এল. ক্যানিনি, এস. বেনিনি এবং আর. লিওনার্দি, "নির্বাচিত সংজ্ঞামূলক বৈশিষ্ট্যের উপর ভিত্তি করে চলচ্চিত্রের কার্যকর সুপারিশ," IEEE ট্রান্স। সার্কিট সিস্টেম ভিডিও প্রযুক্তি।, ভলিউম। 23, না। 4, 2013।


[৭] M. Xu, C. Xu, X. He, JS Jin, S. Luo, এবং Y. Rui, "উত্তেজনা এবং ভ্যালেন্স মাত্রায় অনুক্রমিক অনুভূতিমূলক বিষয়বস্তু বিশ্লেষণ," সংকেত প্রক্রিয়াকরণ, ভলিউম। 93, না। 8, 2013।


[৮] এ. যাদব এবং ডি কে বিশ্বকর্মা, "মুভির ট্রেলার ব্যবহার করে জেনার শ্রেণীবিভাগের জন্য গভীর নেটওয়ার্কের একীভূত কাঠামো," অ্যাপল। সফট কম্পিউট। জে., ভলিউম। 96, 2020।


[৯] কে. চোরোস, কম্পিউটার সায়েন্সে লেকচার নোটস ইন (কৃত্রিম বুদ্ধিমত্তার লেকচার নোটস এবং বায়োইনফরমেটিক্সে লেকচার নোট সহ), 2018, ভলিউম। 11056 LNAI, পৃষ্ঠা 509-518।


[১০] এএম এরতুগ্রুল এবং পি. কারাগোজ, “বাইডাইরেশনাল LSTM ব্যবহার করে প্লট সারাংশ থেকে মুভির জেনার ক্লাসিফিকেশন,” প্রসিডিংসে - 12 তম IEEE ইন্টারন্যাশনাল কনফারেন্স অন সিমেন্টিক কম্পিউটিং, ICSC 2018, 2018, vol. 2018-জানুয়ারি।


[১১] G. Païs, P. Lambert, D. Beauchêne, F. Deloule, এবং B. Ionescu, "টেক্সট এবং ইমেজ বর্ণনাকারীর প্রতীকী ফিউশন ব্যবহার করে অ্যানিমেটেড মুভি জেনার সনাক্তকরণ," 2012।


[১২] এ. শাহিন এবং এ. ক্রজিজাক, "জেনার-অস: দ্য মুভি জেনার ডিটেক্টর," কমিউনিকেশনস ইন কম্পিউটার অ্যান্ড ইনফরমেশন সায়েন্স, 2020, ভলিউম। 1178 CCIS।


[১৩] এন. কুমার, এ. হরিকৃষ্ণান, এবং আর. শ্রীধর, "হ্যাশ ভেক্টরাইজার ভিত্তিক মুভি জেনার আইডেন্টিফিকেশন," লেকচার নোট ইন ইলেকট্রিক্যাল ইঞ্জিনিয়ারিং, 2020, ভলিউম। 605।


[১৪] পিজি শম্ভরকর, পি. ঠাকুর, এস. ইমাদোদ্দিন, এস. চৌহান, এবং এমএন দোজা, "থ্রিডি কনভোলিউশনাল নিউরাল নেটওয়ার্ক ব্যবহার করে মুভি ট্রেলারের জেনার ক্লাসিফিকেশন," 2020।


[১৫] ডব্লিউটি চু এবং এইচজে গুও, “ডিপ নিউরাল নেটওয়ার্ক সহ পোস্টার ইমেজের উপর ভিত্তি করে মুভি জেনার শ্রেণীবিভাগ,” 2017।


[১৬] GS Simões, J. Wehrmann, RC Barros, এবং DD Ruiz, "Convolutional Neural Networks এর সাথে মুভি জেনার শ্রেণীবিভাগ," Proceedings of the International Joint Conference on Neural Networks, 2016, vol. 2016-অক্টোবর।


[১৭] জে. লি, এল. দেং, আর. হায়েব-উম্বাচ, এবং ওয়াই. গং, "অধ্যায় 2 - বক্তৃতা স্বীকৃতির মৌলিক বিষয়গুলি," জোরালো স্বয়ংক্রিয় বক্তৃতা স্বীকৃতিতে, জে. লি, এল. ডেং, আর. হেবউম্বাচ, এবং ওয়াই গং, এডস। অক্সফোর্ড: একাডেমিক প্রেস, 2016, পৃষ্ঠা 9-40।


[১৮] এস. প্র্যাট, এম. ইয়াতসকার, এল. উইহস, এ. ফারহাদি, এবং এ. কেমভাভি, "গ্রাউন্ডেড সিচুয়েশন রিকগনিশন," কম্পিউটার ভিশনে -- ECCV 2020, 2020, পৃষ্ঠা 314-332।


[১৯] B. Beel, Joeran এবং Langer, Stefan and Gipp, "TF-IDuF: ব্যবহারকারীর ব্যক্তিগত নথি সংগ্রহের উপর ভিত্তি করে ব্যবহারকারী মডেলিংয়ের জন্য একটি অভিনব টার্ম-ওয়েটিং শেম," Proc. iConference 2017, 2017।


[২০] জে. ওয়েহরম্যান, আরসি ব্যারোস, জিএস সিমোস, টিএস পাওলা এবং ডিডি রুইজ, "(ডিপ) ফ্রেম থেকে শিক্ষা," 2017।


[২১] ডিপি কিংমা এবং জেএল বা, "আদম: স্টোকাস্টিক অপ্টিমাইজেশানের জন্য একটি পদ্ধতি," 2015।


[২২] ই. ফিশ, এ. গিলবার্ট, এবং জে. ওয়েইনব্রেন, "সূক্ষ্ম শব্দার্থিক ক্লাস্টারিংয়ের সাথে মুভির শ্রেণীবিন্যাস পুনর্বিবেচনা," আরএক্সিভ প্রিপ্র। arXiv2012.02639, 2020।


[২৩] এফ. আলভারেজ, এফ. সানচেজ, জি. হার্নান্দেজ-পেনালোজা, ডি. জিমেনেজ, জেএম মেনেন্দেজ, এবং জি. সিসনেরোস, "চলচ্চিত্র শ্রেণিবিন্যাসে নিম্ন-স্তরের ভিজ্যুয়াল বৈশিষ্ট্যের প্রভাবের উপর," PLoS One, vol. 14, না। 2, 2019।


[২৪] জে. ওয়েহরম্যান, এমএ লোপেস এবং আরসি ব্যারোস, "সারসংক্ষেপ-ভিত্তিক মাল্টিলেবেল মুভির শ্রেণীবিভাগের জন্য স্ব-মনোযোগ," 2018।


[২৫] জে. ওয়েহরম্যান এবং আরসি ব্যারোস, "চলচ্চিত্রের শ্রেণীবিন্যাস: সময়ের মাধ্যমে আবর্তনের উপর ভিত্তি করে একটি বহু-লেবেল পদ্ধতি," অ্যাপল। সফট কম্পিউট। জে., ভলিউম। 61, 2017।


এই কাগজটি CC BY-NC-SA 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ