লেখক:
(1) Pinelopi Papalampidi, Institute for Language, Cognition and Computation, School of Informatics, University of Edinburgh;
(2) ফ্র্যাঙ্ক কেলার, ভাষা, জ্ঞান ও গণনার ইনস্টিটিউট, স্কুল অফ ইনফরমেটিক্স, এডিনবার্গ বিশ্ববিদ্যালয়;
(৩) মিরেলা লাপাতা, ইনস্টিটিউট ফর ল্যাঙ্গুয়েজ, কগনিশন অ্যান্ড কম্পিউটেশন, স্কুল অফ ইনফরমেটিক্স, ইউনিভার্সিটি অফ এডিনবার্গ।
ট্রেলার জেনারেশনের জন্য এম শট (LM) এর একটি পূর্ণ-দৈর্ঘ্য চলচ্চিত্র থেকে L শট নির্বাচন করা প্রয়োজন। মুভিগুলি এমন জটিল গল্পগুলি উপস্থাপন করে যেগুলিতে আলাদা সাবপ্লট বা ঘটনাগুলি থাকতে পারে যা অ-রৈখিকভাবে উন্মোচিত হয়, যখন অপ্রয়োজনীয় ঘটনাগুলিকে "ফিলার" বলা হয় মূল গল্পকে সমৃদ্ধ করে। অতএব, আমরা অনুমান করতে পারি না যে ধারাবাহিক শটগুলি অগত্যা অর্থগতভাবে সম্পর্কিত। ইভেন্টগুলির মধ্যে সম্পর্ক আরও ভালভাবে অন্বেষণ করতে, আমরা গ্রাফ হিসাবে চলচ্চিত্রগুলিকে উপস্থাপন করি [42]। ধরুন G = (V, E) একটি গ্রাফ নির্দেশ করুন যেখানে শীর্ষবিন্দু V শট এবং প্রান্ত E তাদের শব্দার্থিক সাদৃশ্য উপস্থাপন করে। আমরা G-তে শটের আসল সাময়িক ক্রম বিবেচনা করি শুধুমাত্র পূর্ববর্তী থেকে ভবিষ্যত শট পর্যন্ত নির্দেশিত প্রান্তগুলিকে অনুমতি দিয়ে। G-কে একটি উপরের ত্রিভুজাকার ট্রানজিশন ম্যাট্রিক্স T দ্বারা বর্ণনা করা হয়েছে, যা শট i থেকে প্রতিটি ভবিষ্যৎ শট j-এ রূপান্তরের সম্ভাবনা রেকর্ড করে।
G-এর মধ্যে, আমরা অনুমান করি যে কিছু শট মুভির মূল ঘটনাগুলি বর্ণনা করে (চিত্র 2-এ ঘন বৃত্ত) যখন সমস্ত শটে একটি অনুভূতি (ইতিবাচক বা নেতিবাচক) থাকে, যার তীব্রতা একটি স্কোর দ্বারা চিহ্নিত করা হয় (চিত্র 2-এ সবুজ/লালের ছায়া) . আমরা জি ট্রাভার্সিং এবং ট্রেলার শটগুলির ক্রম নির্বাচন করার জন্য একটি অ্যালগরিদম প্রস্তাব করি৷ নিম্নলিখিতটিতে, আমরা প্রথমে এই অ্যালগরিদমটি বর্ণনা করি (বিভাগ 3.1) এবং তারপর আলোচনা করি কীভাবে গ্রাফ G শেখা হয় এবং মূল ঘটনাগুলি টিপি সনাক্তকরণের মাধ্যমে সনাক্ত করা হয় [41] (বিভাগ 3.2)। পরিশেষে, আমরা এটাও ব্যাখ্যা করি কিভাবে শট-ভিত্তিক সেন্টিমেন্ট স্কোর পূর্বাভাস করা হয় (বিভাগ 3.5)।
আমরা মোট L শটগুলি নির্বাচন করি (একটি লক্ষ্য ট্রেলারের দৈর্ঘ্যের উপর নির্ভর করে) এবং চিত্র 2 (বোল্ড লাইন) হিসাবে চিত্রিত একটি প্রস্তাব ট্রেলার ক্রম পুনরুদ্ধার করি৷ প্রতিটি ধাপে, আমরা সৃষ্ট অনুভূতির প্রবাহ এবং এই পর্যন্ত চিহ্নিত টিপিগুলির ট্র্যাক রাখি (অ্যালগরিদম 1 এ যথাক্রমে লাইন 10 এবং 13-14)। একটি TP ইভেন্ট ট্রেলারে উপস্থাপনার জন্য নির্বাচন করা হয়েছে যদি একটি শট বা তার নিকটবর্তী প্রতিবেশীদের পথ যোগ করা হয়।
ভিডিও-ভিত্তিক মডেলটি শট-স্তরের TP লেবেলগুলিতে অ্যাক্সেস অনুমান করে। যাইহোক, TP শনাক্তকরণের জন্য একমাত্র ডেটাসেট যা আমরা জানি তা হল TRIPOD [41], যা চিত্রনাট্যের উপর ভিত্তি করে দৃশ্য-স্তরের লেবেল ধারণ করে। আরও সূক্ষ্ম-দানাযুক্ত লেবেল পেতে, আমরা দৃশ্য-ভিত্তিক টীকাগুলিকে একটি সাধারণ এক-থেকে-অনেক ম্যাপিং অনুসরণ করে শটগুলিতে প্রজেক্ট করি (বিশদ বিবরণের জন্য বিভাগ 4 দেখুন)। যেহেতু আমাদের প্রশিক্ষণ সংকেত অনিবার্যভাবে কোলাহলপূর্ণ, আমরা অনুমান করি যে চিত্রনাট্যগুলিতে অ্যাক্সেস ভিডিও ভিত্তিক মডেলকে শট নির্বাচন করতে উত্সাহিত করবে যা প্রতিটি TP-এর জন্য আরও প্রতিনিধিত্বমূলক। অন্য কথায়, চিত্রনাট্যগুলি বিশেষাধিকারপ্রাপ্ত জ্ঞান এবং একটি অন্তর্নিহিত তত্ত্বাবধানের সংকেত উপস্থাপন করে, যখন অনুমানের সময় অতিরিক্ত প্রাক-প্রক্রিয়াকরণের প্রয়োজনীয়তা হ্রাস করে। তাছাড়া, চিত্রনাট্যগুলি অতিরিক্ত তথ্যের একটি সম্পদ প্রদান করে, যেমন, একটি দৃশ্যে চরিত্র এবং তাদের ভূমিকা সম্পর্কে, বা তাদের ক্রিয়া এবং আবেগ (ক্যামেরা যা দেখে তা বর্ণনা করে লাইন দ্বারা প্রকাশ করা হয়)। এই তথ্য অন্যথায় ভিডিওতে সঠিকভাবে স্থানীয়করণ করা কঠিন হতে পারে। এছাড়াও, চিত্রনাট্যের লেবেলবিহীন পাঠ্য কর্পোরা প্রাপ্ত করা তুলনামূলকভাবে সহজ এবং আমাদের নেটওয়ার্ককে প্রাক-প্রশিক্ষণ দিতে ব্যবহার করা যেতে পারে।
আমরা এখন দুটি নেটওয়ার্কের জন্য আমাদের যৌথ প্রশিক্ষণ ব্যবস্থা বর্ণনা করি যা ডেটা স্ট্রিম (মাল্টিমোডাল বনাম পাঠ্য-শুধুমাত্র) এবং শব্দার্থিক ইউনিটে (শট বনাম দৃশ্য) এর পরিপ্রেক্ষিতে চলচ্চিত্রের বিভিন্ন দৃষ্টিভঙ্গিকে অন্তর্ভুক্ত করে।
রিপ্রেজেন্টেশন কনসিসটেন্সি লস আমরা দুটি নেটওয়ার্কের মধ্যে দ্বিতীয় রেগুলারাইজেশন লস ব্যবহার করার প্রস্তাব দিই যাতে দুটি গ্রাফবেসড রিপ্রেজেন্টেশনের (অর্থাৎ, ভিডিও শট এবং চিত্রনাট্যের দৃশ্যে) মধ্যে সামঞ্জস্য বজায় থাকে। এই ক্ষতির উদ্দেশ্য দ্বিগুণ: দুটি নেটওয়ার্কের জন্য TP পূর্বাভাস উন্নত করা, যেমনটি বিপরীত প্রতিনিধিত্ব শেখার পূর্ববর্তী কাজগুলিতে দেখানো হয়েছে [38, 39, 48], এবং শটগুলির মধ্যে আরও সঠিক সংযোগ শিখতে সাহায্য করা (মনে রাখবেন যে শট- ভিত্তিক গ্রাফ আমাদের ট্রেলার জেনারেশন অ্যালগরিদমে ইনপুট হিসাবে কাজ করে 3.1)। চিত্রনাট্যের দৃশ্যের সাথে তুলনা করে, যা একটি চলচ্চিত্রের স্বয়ংসম্পূর্ণ ঘটনা বর্ণনা করে, ভিডিও শটগুলি মাত্র কয়েক সেকেন্ড দীর্ঘ এবং তাদের অর্থের জন্য আশেপাশের প্রেক্ষাপটের উপর নির্ভর করে। আমরা অনুমান করি যে সংশ্লিষ্ট চিত্রনাট্যের দৃশ্যের মতো শব্দার্থ সংরক্ষণের জন্য একটি শটের জন্য গ্রাফ আশেপাশের এলাকা প্রয়োগ করে, আমরা শট-ভিত্তিক গ্রাফে উপযুক্ত প্রতিবেশীদের নির্বাচনকে উত্সাহিত করব।
প্রাক-প্রশিক্ষণের লক্ষ্য হল চিত্রনাট্য থেকে আরও ভাল দৃশ্যের উপস্থাপনা শিখতে যা মুভি ভিডিওগুলির চেয়ে বেশি অ্যাক্সেসযোগ্য (যেমন, কম কপিরাইট সমস্যা এবং কম গণনামূলক ওভারহেড) এই আশায় যে এই জ্ঞান আমাদের ধারাবাহিকতার ক্ষতির মাধ্যমে ভিডিও-ভিত্তিক নেটওয়ার্কে স্থানান্তরিত হবে।
অবশেষে, আমাদের মডেল বিবেচনা করে কিভাবে অনুভূতি এক শট থেকে পরের দিকে প্রবাহিত হয়। আমরা একই যৌথ স্থাপত্য (বিভাগ 3.3) এবং টিপি শনাক্তকরণের জন্য যে প্রশিক্ষণ ব্যবস্থা ব্যবহার করি তার সাহায্যে প্রতি শটে সেন্টিমেন্ট স্কোরের পূর্বাভাস করি। ভিডিও-ভিত্তিক নেটওয়ার্ককে সেন্টিমেন্ট লেবেল সহ শটগুলিতে প্রশিক্ষণ দেওয়া হয় (অর্থাৎ, ইতিবাচক, নেতিবাচক, নিরপেক্ষ), যখন চিত্রনাট্য-ভিত্তিক নেটওয়ার্কটি সেন্টিমেন্ট লেবেল সহ দৃশ্যগুলিতে প্রশিক্ষিত হয় (বিভাগ 4 লেবেলগুলি কীভাবে প্রাপ্ত হয় তা ব্যাখ্যা করে)। প্রশিক্ষণের পরে, আমরা অনুভূতির প্রবাহকে ক্যাপচার করতে এবং উচ্চ- এবং নিম্ন-তীব্রতার শটগুলির মধ্যে বৈষম্য করার জন্য প্রতি শটে সেন্টিমেন্ট লেবেলের উপর একটি সম্ভাব্যতা বিতরণের পূর্বাভাস দিই (বিশদ বিবরণের জন্য পরিশিষ্ট দেখুন)।
এই কাগজটি CC BY-SA 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।