paint-brush
টাস্ক পচনের মাধ্যমে ফিল্ম ট্রেলার জেনারেশন: সমস্যা প্রণয়ন দ্বারা@kinetograph
103 পড়া

টাস্ক পচনের মাধ্যমে ফিল্ম ট্রেলার জেনারেশন: সমস্যা প্রণয়ন

দ্বারা Kinetograph: The Video Editing Technology Publication
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture

Kinetograph: The Video Editing Technology Publication

@kinetograph

The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover...

5 মিনিট read2024/06/07
Read on Terminal Reader
Read this story in a terminal
Print this story

অতিদীর্ঘ; পড়তে

এই গবেষণাপত্রে, গবেষকরা ট্রেলার তৈরি করার জন্য গ্রাফ হিসাবে চলচ্চিত্রগুলিকে মডেল করেন, আখ্যানের কাঠামো সনাক্ত করে এবং অনুভূতির পূর্বাভাস দেয়, তত্ত্বাবধানে থাকা পদ্ধতিগুলিকে ছাড়িয়ে যায়।
featured image - টাস্ক পচনের মাধ্যমে ফিল্ম ট্রেলার জেনারেশন: সমস্যা প্রণয়ন
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
Kinetograph: The Video Editing Technology Publication

Kinetograph: The Video Editing Technology Publication

@kinetograph

The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover cutting edge tech for video editing.

0-item

STORY’S CREDIBILITY

Academic Research Paper

Academic Research Paper

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

লেখক:

(1) Pinelopi Papalampidi, Institute for Language, Cognition and Computation, School of Informatics, University of Edinburgh;

(2) ফ্র্যাঙ্ক কেলার, ভাষা, জ্ঞান ও গণনার ইনস্টিটিউট, স্কুল অফ ইনফরমেটিক্স, এডিনবার্গ বিশ্ববিদ্যালয়;

(৩) মিরেলা লাপাতা, ইনস্টিটিউট ফর ল্যাঙ্গুয়েজ, কগনিশন অ্যান্ড কম্পিউটেশন, স্কুল অফ ইনফরমেটিক্স, ইউনিভার্সিটি অফ এডিনবার্গ।

লিঙ্কের টেবিল

3. সমস্যা প্রণয়ন

ট্রেলার জেনারেশনের জন্য এম শট (LM) এর একটি পূর্ণ-দৈর্ঘ্য চলচ্চিত্র থেকে L শট নির্বাচন করা প্রয়োজন। মুভিগুলি এমন জটিল গল্পগুলি উপস্থাপন করে যেগুলিতে আলাদা সাবপ্লট বা ঘটনাগুলি থাকতে পারে যা অ-রৈখিকভাবে উন্মোচিত হয়, যখন অপ্রয়োজনীয় ঘটনাগুলিকে "ফিলার" বলা হয় মূল গল্পকে সমৃদ্ধ করে। অতএব, আমরা অনুমান করতে পারি না যে ধারাবাহিক শটগুলি অগত্যা অর্থগতভাবে সম্পর্কিত। ইভেন্টগুলির মধ্যে সম্পর্ক আরও ভালভাবে অন্বেষণ করতে, আমরা গ্রাফ হিসাবে চলচ্চিত্রগুলিকে উপস্থাপন করি [42]। ধরুন G = (V, E) একটি গ্রাফ নির্দেশ করুন যেখানে শীর্ষবিন্দু V শট এবং প্রান্ত E তাদের শব্দার্থিক সাদৃশ্য উপস্থাপন করে। আমরা G-তে শটের আসল সাময়িক ক্রম বিবেচনা করি শুধুমাত্র পূর্ববর্তী থেকে ভবিষ্যত শট পর্যন্ত নির্দেশিত প্রান্তগুলিকে অনুমতি দিয়ে। G-কে একটি উপরের ত্রিভুজাকার ট্রানজিশন ম্যাট্রিক্স T দ্বারা বর্ণনা করা হয়েছে, যা শট i থেকে প্রতিটি ভবিষ্যৎ শট j-এ রূপান্তরের সম্ভাবনা রেকর্ড করে।


G-এর মধ্যে, আমরা অনুমান করি যে কিছু শট মুভির মূল ঘটনাগুলি বর্ণনা করে (চিত্র 2-এ ঘন বৃত্ত) যখন সমস্ত শটে একটি অনুভূতি (ইতিবাচক বা নেতিবাচক) থাকে, যার তীব্রতা একটি স্কোর দ্বারা চিহ্নিত করা হয় (চিত্র 2-এ সবুজ/লালের ছায়া) . আমরা জি ট্রাভার্সিং এবং ট্রেলার শটগুলির ক্রম নির্বাচন করার জন্য একটি অ্যালগরিদম প্রস্তাব করি৷ নিম্নলিখিতটিতে, আমরা প্রথমে এই অ্যালগরিদমটি বর্ণনা করি (বিভাগ 3.1) এবং তারপর আলোচনা করি কীভাবে গ্রাফ G শেখা হয় এবং মূল ঘটনাগুলি টিপি সনাক্তকরণের মাধ্যমে সনাক্ত করা হয় [41] (বিভাগ 3.2)। পরিশেষে, আমরা এটাও ব্যাখ্যা করি কিভাবে শট-ভিত্তিক সেন্টিমেন্ট স্কোর পূর্বাভাস করা হয় (বিভাগ 3.5)।

3.1। মুভি গ্রাফ ট্রাভার্সাল

image


image


image


আমরা মোট L শটগুলি নির্বাচন করি (একটি লক্ষ্য ট্রেলারের দৈর্ঘ্যের উপর নির্ভর করে) এবং চিত্র 2 (বোল্ড লাইন) হিসাবে চিত্রিত একটি প্রস্তাব ট্রেলার ক্রম পুনরুদ্ধার করি৷ প্রতিটি ধাপে, আমরা সৃষ্ট অনুভূতির প্রবাহ এবং এই পর্যন্ত চিহ্নিত টিপিগুলির ট্র্যাক রাখি (অ্যালগরিদম 1 এ যথাক্রমে লাইন 10 এবং 13-14)। একটি TP ইভেন্ট ট্রেলারে উপস্থাপনার জন্য নির্বাচন করা হয়েছে যদি একটি শট বা তার নিকটবর্তী প্রতিবেশীদের পথ যোগ করা হয়।

3.2। টিপি আইডেন্টিফিকেশন

image


image


image


image


ভিডিও-ভিত্তিক মডেলটি শট-স্তরের TP লেবেলগুলিতে অ্যাক্সেস অনুমান করে। যাইহোক, TP শনাক্তকরণের জন্য একমাত্র ডেটাসেট যা আমরা জানি তা হল TRIPOD [41], যা চিত্রনাট্যের উপর ভিত্তি করে দৃশ্য-স্তরের লেবেল ধারণ করে। আরও সূক্ষ্ম-দানাযুক্ত লেবেল পেতে, আমরা দৃশ্য-ভিত্তিক টীকাগুলিকে একটি সাধারণ এক-থেকে-অনেক ম্যাপিং অনুসরণ করে শটগুলিতে প্রজেক্ট করি (বিশদ বিবরণের জন্য বিভাগ 4 দেখুন)। যেহেতু আমাদের প্রশিক্ষণ সংকেত অনিবার্যভাবে কোলাহলপূর্ণ, আমরা অনুমান করি যে চিত্রনাট্যগুলিতে অ্যাক্সেস ভিডিও ভিত্তিক মডেলকে শট নির্বাচন করতে উত্সাহিত করবে যা প্রতিটি TP-এর জন্য আরও প্রতিনিধিত্বমূলক। অন্য কথায়, চিত্রনাট্যগুলি বিশেষাধিকারপ্রাপ্ত জ্ঞান এবং একটি অন্তর্নিহিত তত্ত্বাবধানের সংকেত উপস্থাপন করে, যখন অনুমানের সময় অতিরিক্ত প্রাক-প্রক্রিয়াকরণের প্রয়োজনীয়তা হ্রাস করে। তাছাড়া, চিত্রনাট্যগুলি অতিরিক্ত তথ্যের একটি সম্পদ প্রদান করে, যেমন, একটি দৃশ্যে চরিত্র এবং তাদের ভূমিকা সম্পর্কে, বা তাদের ক্রিয়া এবং আবেগ (ক্যামেরা যা দেখে তা বর্ণনা করে লাইন দ্বারা প্রকাশ করা হয়)। এই তথ্য অন্যথায় ভিডিওতে সঠিকভাবে স্থানীয়করণ করা কঠিন হতে পারে। এছাড়াও, চিত্রনাট্যের লেবেলবিহীন পাঠ্য কর্পোরা প্রাপ্ত করা তুলনামূলকভাবে সহজ এবং আমাদের নেটওয়ার্ককে প্রাক-প্রশিক্ষণ দিতে ব্যবহার করা যেতে পারে।


চিত্র 2. গ্রাফট্রেলার: একটি চলচ্চিত্র হল একটি গ্রাফ যার নোডগুলি শট এবং প্রান্তগুলি তাদের মধ্যে সম্পর্ক নির্দেশ করে৷ প্রতিটি শট একটি সেন্টিমেন্ট স্কোর (ইতিবাচক/নেতিবাচক মানের জন্য সবুজ/লাল শেড) এবং গুরুত্বপূর্ণ ঘটনা বর্ণনাকারী লেবেল (ঘন বৃত্ত) দ্বারা চিহ্নিত করা হয়। আমাদের অ্যালগরিদম প্রস্তাব ট্রেলার সিকোয়েন্স তৈরি করতে গ্রাফে (বোল্ড লাইন) হাঁটা সঞ্চালন করে।

চিত্র 2. গ্রাফট্রেলার: একটি চলচ্চিত্র হল একটি গ্রাফ যার নোডগুলি শট এবং প্রান্তগুলি তাদের মধ্যে সম্পর্ক নির্দেশ করে৷ প্রতিটি শট একটি সেন্টিমেন্ট স্কোর (ইতিবাচক/নেতিবাচক মানের জন্য সবুজ/লাল শেড) এবং গুরুত্বপূর্ণ ঘটনা বর্ণনাকারী লেবেল (ঘন বৃত্ত) দ্বারা চিহ্নিত করা হয়। আমাদের অ্যালগরিদম প্রস্তাব ট্রেলার সিকোয়েন্স তৈরি করতে গ্রাফে (বোল্ড লাইন) হাঁটা সঞ্চালন করে।

3.3। জ্ঞান পাতন

আমরা এখন দুটি নেটওয়ার্কের জন্য আমাদের যৌথ প্রশিক্ষণ ব্যবস্থা বর্ণনা করি যা ডেটা স্ট্রিম (মাল্টিমোডাল বনাম পাঠ্য-শুধুমাত্র) এবং শব্দার্থিক ইউনিটে (শট বনাম দৃশ্য) এর পরিপ্রেক্ষিতে চলচ্চিত্রের বিভিন্ন দৃষ্টিভঙ্গিকে অন্তর্ভুক্ত করে।


image


চিত্র 3. দুটি নেটওয়ার্ক বিভিন্ন ডিগ্রী গ্রানুলারিটির সাথে মুভির বিভিন্ন ভিউ প্রক্রিয়া করে। ভিডিও-ভিত্তিক নেটওয়ার্কটি সিনেমার ভিডিও স্ট্রিমের উপর ভিত্তি করে ইনপুট মাল্টিমডাল সূক্ষ্ম শট উপস্থাপনা হিসাবে নেয়। চিত্রনাট্য-ভিত্তিক নেটওয়ার্ক পাঠ্য দৃশ্য উপস্থাপনা প্রক্রিয়া করে যা মোটা দানাদার এবং চলচ্চিত্রের চিত্রনাট্যের উপর ভিত্তি করে। নেটওয়ার্কগুলি তাদের মধ্যে ভবিষ্যদ্বাণী এবং প্রতিনিধিত্বের সামঞ্জস্যতা প্রয়োগকারী ক্ষতি সহ TP সনাক্তকরণের উপর যৌথভাবে প্রশিক্ষিত হয়।

চিত্র 3. দুটি নেটওয়ার্ক বিভিন্ন ডিগ্রী গ্রানুলারিটির সাথে মুভির বিভিন্ন ভিউ প্রক্রিয়া করে। ভিডিও-ভিত্তিক নেটওয়ার্কটি সিনেমার ভিডিও স্ট্রিমের উপর ভিত্তি করে ইনপুট মাল্টিমডাল সূক্ষ্ম শট উপস্থাপনা হিসাবে নেয়। চিত্রনাট্য-ভিত্তিক নেটওয়ার্ক পাঠ্য দৃশ্য উপস্থাপনা প্রক্রিয়া করে যা মোটা দানাদার এবং চলচ্চিত্রের চিত্রনাট্যের উপর ভিত্তি করে। নেটওয়ার্কগুলি তাদের মধ্যে ভবিষ্যদ্বাণী এবং প্রতিনিধিত্বের সামঞ্জস্যতা প্রয়োগকারী ক্ষতি সহ TP সনাক্তকরণের উপর যৌথভাবে প্রশিক্ষিত হয়।


রিপ্রেজেন্টেশন কনসিসটেন্সি লস আমরা দুটি নেটওয়ার্কের মধ্যে দ্বিতীয় রেগুলারাইজেশন লস ব্যবহার করার প্রস্তাব দিই যাতে দুটি গ্রাফবেসড রিপ্রেজেন্টেশনের (অর্থাৎ, ভিডিও শট এবং চিত্রনাট্যের দৃশ্যে) মধ্যে সামঞ্জস্য বজায় থাকে। এই ক্ষতির উদ্দেশ্য দ্বিগুণ: দুটি নেটওয়ার্কের জন্য TP পূর্বাভাস উন্নত করা, যেমনটি বিপরীত প্রতিনিধিত্ব শেখার পূর্ববর্তী কাজগুলিতে দেখানো হয়েছে [38, 39, 48], এবং শটগুলির মধ্যে আরও সঠিক সংযোগ শিখতে সাহায্য করা (মনে রাখবেন যে শট- ভিত্তিক গ্রাফ আমাদের ট্রেলার জেনারেশন অ্যালগরিদমে ইনপুট হিসাবে কাজ করে 3.1)। চিত্রনাট্যের দৃশ্যের সাথে তুলনা করে, যা একটি চলচ্চিত্রের স্বয়ংসম্পূর্ণ ঘটনা বর্ণনা করে, ভিডিও শটগুলি মাত্র কয়েক সেকেন্ড দীর্ঘ এবং তাদের অর্থের জন্য আশেপাশের প্রেক্ষাপটের উপর নির্ভর করে। আমরা অনুমান করি যে সংশ্লিষ্ট চিত্রনাট্যের দৃশ্যের মতো শব্দার্থ সংরক্ষণের জন্য একটি শটের জন্য গ্রাফ আশেপাশের এলাকা প্রয়োগ করে, আমরা শট-ভিত্তিক গ্রাফে উপযুক্ত প্রতিবেশীদের নির্বাচনকে উত্সাহিত করব।


image


image

3.4। স্ব-তত্ত্বাবধানে প্রিট্রেইনিং

প্রাক-প্রশিক্ষণের লক্ষ্য হল চিত্রনাট্য থেকে আরও ভাল দৃশ্যের উপস্থাপনা শিখতে যা মুভি ভিডিওগুলির চেয়ে বেশি অ্যাক্সেসযোগ্য (যেমন, কম কপিরাইট সমস্যা এবং কম গণনামূলক ওভারহেড) এই আশায় যে এই জ্ঞান আমাদের ধারাবাহিকতার ক্ষতির মাধ্যমে ভিডিও-ভিত্তিক নেটওয়ার্কে স্থানান্তরিত হবে।


image

3.5। সেন্টিমেন্ট প্রেডিকশন

অবশেষে, আমাদের মডেল বিবেচনা করে কিভাবে অনুভূতি এক শট থেকে পরের দিকে প্রবাহিত হয়। আমরা একই যৌথ স্থাপত্য (বিভাগ 3.3) এবং টিপি শনাক্তকরণের জন্য যে প্রশিক্ষণ ব্যবস্থা ব্যবহার করি তার সাহায্যে প্রতি শটে সেন্টিমেন্ট স্কোরের পূর্বাভাস করি। ভিডিও-ভিত্তিক নেটওয়ার্ককে সেন্টিমেন্ট লেবেল সহ শটগুলিতে প্রশিক্ষণ দেওয়া হয় (অর্থাৎ, ইতিবাচক, নেতিবাচক, নিরপেক্ষ), যখন চিত্রনাট্য-ভিত্তিক নেটওয়ার্কটি সেন্টিমেন্ট লেবেল সহ দৃশ্যগুলিতে প্রশিক্ষিত হয় (বিভাগ 4 লেবেলগুলি কীভাবে প্রাপ্ত হয় তা ব্যাখ্যা করে)। প্রশিক্ষণের পরে, আমরা অনুভূতির প্রবাহকে ক্যাপচার করতে এবং উচ্চ- এবং নিম্ন-তীব্রতার শটগুলির মধ্যে বৈষম্য করার জন্য প্রতি শটে সেন্টিমেন্ট লেবেলের উপর একটি সম্ভাব্যতা বিতরণের পূর্বাভাস দিই (বিশদ বিবরণের জন্য পরিশিষ্ট দেখুন)।


image


এই কাগজটি CC BY-SA 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ


L O A D I N G
. . . comments & more!

About Author

Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
Kinetograph: The Video Editing Technology Publication@kinetograph
The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover cutting edge tech for video editing.

আসে ট্যাগ

এই নিবন্ধটি উপস্থাপন করা হয়েছে...

Read on Terminal Reader
Read this story in a terminal
 Terminal
Read this story w/o Javascript
Read this story w/o Javascript
 Lite