paint-brush
টাস্ক পচনের মাধ্যমে ফিল্ম ট্রেলার জেনারেশন: সমস্যা প্রণয়নদ্বারা@kinetograph
101 পড়া

টাস্ক পচনের মাধ্যমে ফিল্ম ট্রেলার জেনারেশন: সমস্যা প্রণয়ন

অতিদীর্ঘ; পড়তে

এই গবেষণাপত্রে, গবেষকরা ট্রেলার তৈরি করার জন্য গ্রাফ হিসাবে চলচ্চিত্রগুলিকে মডেল করেন, আখ্যানের কাঠামো সনাক্ত করে এবং অনুভূতির পূর্বাভাস দেয়, তত্ত্বাবধানে থাকা পদ্ধতিগুলিকে ছাড়িয়ে যায়।
featured image - টাস্ক পচনের মাধ্যমে ফিল্ম ট্রেলার জেনারেশন: সমস্যা প্রণয়ন
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

লেখক:

(1) Pinelopi Papalampidi, Institute for Language, Cognition and Computation, School of Informatics, University of Edinburgh;

(2) ফ্র্যাঙ্ক কেলার, ভাষা, জ্ঞান ও গণনার ইনস্টিটিউট, স্কুল অফ ইনফরমেটিক্স, এডিনবার্গ বিশ্ববিদ্যালয়;

(৩) মিরেলা লাপাতা, ইনস্টিটিউট ফর ল্যাঙ্গুয়েজ, কগনিশন অ্যান্ড কম্পিউটেশন, স্কুল অফ ইনফরমেটিক্স, ইউনিভার্সিটি অফ এডিনবার্গ।

লিঙ্কের টেবিল

3. সমস্যা প্রণয়ন

ট্রেলার জেনারেশনের জন্য এম শট (LM) এর একটি পূর্ণ-দৈর্ঘ্য চলচ্চিত্র থেকে L শট নির্বাচন করা প্রয়োজন। মুভিগুলি এমন জটিল গল্পগুলি উপস্থাপন করে যেগুলিতে আলাদা সাবপ্লট বা ঘটনাগুলি থাকতে পারে যা অ-রৈখিকভাবে উন্মোচিত হয়, যখন অপ্রয়োজনীয় ঘটনাগুলিকে "ফিলার" বলা হয় মূল গল্পকে সমৃদ্ধ করে। অতএব, আমরা অনুমান করতে পারি না যে ধারাবাহিক শটগুলি অগত্যা অর্থগতভাবে সম্পর্কিত। ইভেন্টগুলির মধ্যে সম্পর্ক আরও ভালভাবে অন্বেষণ করতে, আমরা গ্রাফ হিসাবে চলচ্চিত্রগুলিকে উপস্থাপন করি [42]। ধরুন G = (V, E) একটি গ্রাফ নির্দেশ করুন যেখানে শীর্ষবিন্দু V শট এবং প্রান্ত E তাদের শব্দার্থিক সাদৃশ্য উপস্থাপন করে। আমরা G-তে শটের আসল সাময়িক ক্রম বিবেচনা করি শুধুমাত্র পূর্ববর্তী থেকে ভবিষ্যত শট পর্যন্ত নির্দেশিত প্রান্তগুলিকে অনুমতি দিয়ে। G-কে একটি উপরের ত্রিভুজাকার ট্রানজিশন ম্যাট্রিক্স T দ্বারা বর্ণনা করা হয়েছে, যা শট i থেকে প্রতিটি ভবিষ্যৎ শট j-এ রূপান্তরের সম্ভাবনা রেকর্ড করে।


G-এর মধ্যে, আমরা অনুমান করি যে কিছু শট মুভির মূল ঘটনাগুলি বর্ণনা করে (চিত্র 2-এ ঘন বৃত্ত) যখন সমস্ত শটে একটি অনুভূতি (ইতিবাচক বা নেতিবাচক) থাকে, যার তীব্রতা একটি স্কোর দ্বারা চিহ্নিত করা হয় (চিত্র 2-এ সবুজ/লালের ছায়া) . আমরা জি ট্রাভার্সিং এবং ট্রেলার শটগুলির ক্রম নির্বাচন করার জন্য একটি অ্যালগরিদম প্রস্তাব করি৷ নিম্নলিখিতটিতে, আমরা প্রথমে এই অ্যালগরিদমটি বর্ণনা করি (বিভাগ 3.1) এবং তারপর আলোচনা করি কীভাবে গ্রাফ G শেখা হয় এবং মূল ঘটনাগুলি টিপি সনাক্তকরণের মাধ্যমে সনাক্ত করা হয় [41] (বিভাগ 3.2)। পরিশেষে, আমরা এটাও ব্যাখ্যা করি কিভাবে শট-ভিত্তিক সেন্টিমেন্ট স্কোর পূর্বাভাস করা হয় (বিভাগ 3.5)।

3.1। মুভি গ্রাফ ট্রাভার্সাল




আমরা মোট L শটগুলি নির্বাচন করি (একটি লক্ষ্য ট্রেলারের দৈর্ঘ্যের উপর নির্ভর করে) এবং চিত্র 2 (বোল্ড লাইন) হিসাবে চিত্রিত একটি প্রস্তাব ট্রেলার ক্রম পুনরুদ্ধার করি৷ প্রতিটি ধাপে, আমরা সৃষ্ট অনুভূতির প্রবাহ এবং এই পর্যন্ত চিহ্নিত টিপিগুলির ট্র্যাক রাখি (অ্যালগরিদম 1 এ যথাক্রমে লাইন 10 এবং 13-14)। একটি TP ইভেন্ট ট্রেলারে উপস্থাপনার জন্য নির্বাচন করা হয়েছে যদি একটি শট বা তার নিকটবর্তী প্রতিবেশীদের পথ যোগ করা হয়।

3.2। টিপি আইডেন্টিফিকেশন





ভিডিও-ভিত্তিক মডেলটি শট-স্তরের TP লেবেলগুলিতে অ্যাক্সেস অনুমান করে। যাইহোক, TP শনাক্তকরণের জন্য একমাত্র ডেটাসেট যা আমরা জানি তা হল TRIPOD [41], যা চিত্রনাট্যের উপর ভিত্তি করে দৃশ্য-স্তরের লেবেল ধারণ করে। আরও সূক্ষ্ম-দানাযুক্ত লেবেল পেতে, আমরা দৃশ্য-ভিত্তিক টীকাগুলিকে একটি সাধারণ এক-থেকে-অনেক ম্যাপিং অনুসরণ করে শটগুলিতে প্রজেক্ট করি (বিশদ বিবরণের জন্য বিভাগ 4 দেখুন)। যেহেতু আমাদের প্রশিক্ষণ সংকেত অনিবার্যভাবে কোলাহলপূর্ণ, আমরা অনুমান করি যে চিত্রনাট্যগুলিতে অ্যাক্সেস ভিডিও ভিত্তিক মডেলকে শট নির্বাচন করতে উত্সাহিত করবে যা প্রতিটি TP-এর জন্য আরও প্রতিনিধিত্বমূলক। অন্য কথায়, চিত্রনাট্যগুলি বিশেষাধিকারপ্রাপ্ত জ্ঞান এবং একটি অন্তর্নিহিত তত্ত্বাবধানের সংকেত উপস্থাপন করে, যখন অনুমানের সময় অতিরিক্ত প্রাক-প্রক্রিয়াকরণের প্রয়োজনীয়তা হ্রাস করে। তাছাড়া, চিত্রনাট্যগুলি অতিরিক্ত তথ্যের একটি সম্পদ প্রদান করে, যেমন, একটি দৃশ্যে চরিত্র এবং তাদের ভূমিকা সম্পর্কে, বা তাদের ক্রিয়া এবং আবেগ (ক্যামেরা যা দেখে তা বর্ণনা করে লাইন দ্বারা প্রকাশ করা হয়)। এই তথ্য অন্যথায় ভিডিওতে সঠিকভাবে স্থানীয়করণ করা কঠিন হতে পারে। এছাড়াও, চিত্রনাট্যের লেবেলবিহীন পাঠ্য কর্পোরা প্রাপ্ত করা তুলনামূলকভাবে সহজ এবং আমাদের নেটওয়ার্ককে প্রাক-প্রশিক্ষণ দিতে ব্যবহার করা যেতে পারে।


চিত্র 2. গ্রাফট্রেলার: একটি চলচ্চিত্র হল একটি গ্রাফ যার নোডগুলি শট এবং প্রান্তগুলি তাদের মধ্যে সম্পর্ক নির্দেশ করে৷ প্রতিটি শট একটি সেন্টিমেন্ট স্কোর (ইতিবাচক/নেতিবাচক মানের জন্য সবুজ/লাল শেড) এবং গুরুত্বপূর্ণ ঘটনা বর্ণনাকারী লেবেল (ঘন বৃত্ত) দ্বারা চিহ্নিত করা হয়। আমাদের অ্যালগরিদম প্রস্তাব ট্রেলার সিকোয়েন্স তৈরি করতে গ্রাফে (বোল্ড লাইন) হাঁটা সঞ্চালন করে।

3.3। জ্ঞান পাতন

আমরা এখন দুটি নেটওয়ার্কের জন্য আমাদের যৌথ প্রশিক্ষণ ব্যবস্থা বর্ণনা করি যা ডেটা স্ট্রিম (মাল্টিমোডাল বনাম পাঠ্য-শুধুমাত্র) এবং শব্দার্থিক ইউনিটে (শট বনাম দৃশ্য) এর পরিপ্রেক্ষিতে চলচ্চিত্রের বিভিন্ন দৃষ্টিভঙ্গিকে অন্তর্ভুক্ত করে।



চিত্র 3. দুটি নেটওয়ার্ক বিভিন্ন ডিগ্রী গ্রানুলারিটির সাথে মুভির বিভিন্ন ভিউ প্রক্রিয়া করে। ভিডিও-ভিত্তিক নেটওয়ার্কটি সিনেমার ভিডিও স্ট্রিমের উপর ভিত্তি করে ইনপুট মাল্টিমডাল সূক্ষ্ম শট উপস্থাপনা হিসাবে নেয়। চিত্রনাট্য-ভিত্তিক নেটওয়ার্ক পাঠ্য দৃশ্য উপস্থাপনা প্রক্রিয়া করে যা মোটা দানাদার এবং চলচ্চিত্রের চিত্রনাট্যের উপর ভিত্তি করে। নেটওয়ার্কগুলি তাদের মধ্যে ভবিষ্যদ্বাণী এবং প্রতিনিধিত্বের সামঞ্জস্যতা প্রয়োগকারী ক্ষতি সহ TP সনাক্তকরণের উপর যৌথভাবে প্রশিক্ষিত হয়।


রিপ্রেজেন্টেশন কনসিসটেন্সি লস আমরা দুটি নেটওয়ার্কের মধ্যে দ্বিতীয় রেগুলারাইজেশন লস ব্যবহার করার প্রস্তাব দিই যাতে দুটি গ্রাফবেসড রিপ্রেজেন্টেশনের (অর্থাৎ, ভিডিও শট এবং চিত্রনাট্যের দৃশ্যে) মধ্যে সামঞ্জস্য বজায় থাকে। এই ক্ষতির উদ্দেশ্য দ্বিগুণ: দুটি নেটওয়ার্কের জন্য TP পূর্বাভাস উন্নত করা, যেমনটি বিপরীত প্রতিনিধিত্ব শেখার পূর্ববর্তী কাজগুলিতে দেখানো হয়েছে [38, 39, 48], এবং শটগুলির মধ্যে আরও সঠিক সংযোগ শিখতে সাহায্য করা (মনে রাখবেন যে শট- ভিত্তিক গ্রাফ আমাদের ট্রেলার জেনারেশন অ্যালগরিদমে ইনপুট হিসাবে কাজ করে 3.1)। চিত্রনাট্যের দৃশ্যের সাথে তুলনা করে, যা একটি চলচ্চিত্রের স্বয়ংসম্পূর্ণ ঘটনা বর্ণনা করে, ভিডিও শটগুলি মাত্র কয়েক সেকেন্ড দীর্ঘ এবং তাদের অর্থের জন্য আশেপাশের প্রেক্ষাপটের উপর নির্ভর করে। আমরা অনুমান করি যে সংশ্লিষ্ট চিত্রনাট্যের দৃশ্যের মতো শব্দার্থ সংরক্ষণের জন্য একটি শটের জন্য গ্রাফ আশেপাশের এলাকা প্রয়োগ করে, আমরা শট-ভিত্তিক গ্রাফে উপযুক্ত প্রতিবেশীদের নির্বাচনকে উত্সাহিত করব।



3.4। স্ব-তত্ত্বাবধানে প্রিট্রেইনিং

প্রাক-প্রশিক্ষণের লক্ষ্য হল চিত্রনাট্য থেকে আরও ভাল দৃশ্যের উপস্থাপনা শিখতে যা মুভি ভিডিওগুলির চেয়ে বেশি অ্যাক্সেসযোগ্য (যেমন, কম কপিরাইট সমস্যা এবং কম গণনামূলক ওভারহেড) এই আশায় যে এই জ্ঞান আমাদের ধারাবাহিকতার ক্ষতির মাধ্যমে ভিডিও-ভিত্তিক নেটওয়ার্কে স্থানান্তরিত হবে।


3.5। সেন্টিমেন্ট প্রেডিকশন

অবশেষে, আমাদের মডেল বিবেচনা করে কিভাবে অনুভূতি এক শট থেকে পরের দিকে প্রবাহিত হয়। আমরা একই যৌথ স্থাপত্য (বিভাগ 3.3) এবং টিপি শনাক্তকরণের জন্য যে প্রশিক্ষণ ব্যবস্থা ব্যবহার করি তার সাহায্যে প্রতি শটে সেন্টিমেন্ট স্কোরের পূর্বাভাস করি। ভিডিও-ভিত্তিক নেটওয়ার্ককে সেন্টিমেন্ট লেবেল সহ শটগুলিতে প্রশিক্ষণ দেওয়া হয় (অর্থাৎ, ইতিবাচক, নেতিবাচক, নিরপেক্ষ), যখন চিত্রনাট্য-ভিত্তিক নেটওয়ার্কটি সেন্টিমেন্ট লেবেল সহ দৃশ্যগুলিতে প্রশিক্ষিত হয় (বিভাগ 4 লেবেলগুলি কীভাবে প্রাপ্ত হয় তা ব্যাখ্যা করে)। প্রশিক্ষণের পরে, আমরা অনুভূতির প্রবাহকে ক্যাপচার করতে এবং উচ্চ- এবং নিম্ন-তীব্রতার শটগুলির মধ্যে বৈষম্য করার জন্য প্রতি শটে সেন্টিমেন্ট লেবেলের উপর একটি সম্ভাব্যতা বিতরণের পূর্বাভাস দিই (বিশদ বিবরণের জন্য পরিশিষ্ট দেখুন)।



এই কাগজটি CC BY-SA 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ