লেখক:  (1) Pinelopi Papalampidi, Institute for Language, Cognition and Computation, School of Informatics, University of Edinburgh;  (2) ফ্র্যাঙ্ক কেলার, ভাষা, জ্ঞান ও গণনার ইনস্টিটিউট, স্কুল অফ ইনফরমেটিক্স, এডিনবার্গ বিশ্ববিদ্যালয়;  (৩) মিরেলা লাপাতা, ইনস্টিটিউট ফর ল্যাঙ্গুয়েজ, কগনিশন অ্যান্ড কম্পিউটেশন, স্কুল অফ ইনফরমেটিক্স, ইউনিভার্সিটি অফ এডিনবার্গ।  লিঙ্কের টেবিল   বিমূর্ত এবং ভূমিকা   সম্পর্কিত কাজ   সমস্যা তৈয়ার   পরীক্ষামূলক সেটআপ   ফলাফল এবং বিশ্লেষণ   উপসংহার এবং রেফারেন্স   উ: মডেলের বিবরণ   B. বাস্তবায়নের বিবরণ   C. ফলাফল: অ্যাবলেশন স্টাডিজ  3. সমস্যা প্রণয়ন  ট্রেলার জেনারেশনের জন্য এম শট (LM) এর একটি পূর্ণ-দৈর্ঘ্য চলচ্চিত্র থেকে L শট নির্বাচন করা প্রয়োজন। মুভিগুলি এমন জটিল গল্পগুলি উপস্থাপন করে যেগুলিতে আলাদা সাবপ্লট বা ঘটনাগুলি থাকতে পারে যা অ-রৈখিকভাবে উন্মোচিত হয়, যখন অপ্রয়োজনীয় ঘটনাগুলিকে "ফিলার" বলা হয় মূল গল্পকে সমৃদ্ধ করে। অতএব, আমরা অনুমান করতে পারি না যে ধারাবাহিক শটগুলি অগত্যা অর্থগতভাবে সম্পর্কিত। ইভেন্টগুলির মধ্যে সম্পর্ক আরও ভালভাবে অন্বেষণ করতে, আমরা গ্রাফ হিসাবে চলচ্চিত্রগুলিকে উপস্থাপন করি [42]। ধরুন G = (V, E) একটি গ্রাফ নির্দেশ করুন যেখানে শীর্ষবিন্দু V শট এবং প্রান্ত E তাদের শব্দার্থিক সাদৃশ্য উপস্থাপন করে। আমরা G-তে শটের আসল সাময়িক ক্রম বিবেচনা করি শুধুমাত্র পূর্ববর্তী থেকে ভবিষ্যত শট পর্যন্ত নির্দেশিত প্রান্তগুলিকে অনুমতি দিয়ে। G-কে একটি উপরের ত্রিভুজাকার ট্রানজিশন ম্যাট্রিক্স T দ্বারা বর্ণনা করা হয়েছে, যা শট i থেকে প্রতিটি ভবিষ্যৎ শট j-এ রূপান্তরের সম্ভাবনা রেকর্ড করে।  G-এর মধ্যে, আমরা অনুমান করি যে কিছু শট মুভির মূল ঘটনাগুলি বর্ণনা করে (চিত্র 2-এ ঘন বৃত্ত) যখন সমস্ত শটে একটি অনুভূতি (ইতিবাচক বা নেতিবাচক) থাকে, যার তীব্রতা একটি স্কোর দ্বারা চিহ্নিত করা হয় (চিত্র 2-এ সবুজ/লালের ছায়া) . আমরা জি ট্রাভার্সিং এবং ট্রেলার শটগুলির ক্রম নির্বাচন করার জন্য একটি অ্যালগরিদম প্রস্তাব করি৷ নিম্নলিখিতটিতে, আমরা প্রথমে এই অ্যালগরিদমটি বর্ণনা করি (বিভাগ 3.1) এবং তারপর আলোচনা করি কীভাবে গ্রাফ G শেখা হয় এবং মূল ঘটনাগুলি টিপি সনাক্তকরণের মাধ্যমে সনাক্ত করা হয় [41] (বিভাগ 3.2)। পরিশেষে, আমরা এটাও ব্যাখ্যা করি কিভাবে শট-ভিত্তিক সেন্টিমেন্ট স্কোর পূর্বাভাস করা হয় (বিভাগ 3.5)।  3.1। মুভি গ্রাফ ট্রাভার্সাল   আমরা মোট L শটগুলি নির্বাচন করি (একটি লক্ষ্য ট্রেলারের দৈর্ঘ্যের উপর নির্ভর করে) এবং চিত্র 2 (বোল্ড লাইন) হিসাবে চিত্রিত একটি প্রস্তাব ট্রেলার ক্রম পুনরুদ্ধার করি৷ প্রতিটি ধাপে, আমরা সৃষ্ট অনুভূতির প্রবাহ এবং এই পর্যন্ত চিহ্নিত টিপিগুলির ট্র্যাক রাখি (অ্যালগরিদম 1 এ যথাক্রমে লাইন 10 এবং 13-14)। একটি TP ইভেন্ট ট্রেলারে উপস্থাপনার জন্য নির্বাচন করা হয়েছে যদি একটি শট বা তার নিকটবর্তী প্রতিবেশীদের পথ যোগ করা হয়।  3.2। টিপি আইডেন্টিফিকেশন   ভিডিও-ভিত্তিক মডেলটি শট-স্তরের TP লেবেলগুলিতে অ্যাক্সেস অনুমান করে। যাইহোক, TP শনাক্তকরণের জন্য একমাত্র ডেটাসেট যা আমরা জানি তা হল TRIPOD [41], যা চিত্রনাট্যের উপর ভিত্তি করে দৃশ্য-স্তরের লেবেল ধারণ করে। আরও সূক্ষ্ম-দানাযুক্ত লেবেল পেতে, আমরা দৃশ্য-ভিত্তিক টীকাগুলিকে একটি সাধারণ এক-থেকে-অনেক ম্যাপিং অনুসরণ করে শটগুলিতে প্রজেক্ট করি (বিশদ বিবরণের জন্য বিভাগ 4 দেখুন)। যেহেতু আমাদের প্রশিক্ষণ সংকেত অনিবার্যভাবে কোলাহলপূর্ণ, আমরা অনুমান করি যে চিত্রনাট্যগুলিতে অ্যাক্সেস ভিডিও ভিত্তিক মডেলকে শট নির্বাচন করতে উত্সাহিত করবে যা প্রতিটি TP-এর জন্য আরও প্রতিনিধিত্বমূলক। অন্য কথায়, চিত্রনাট্যগুলি বিশেষাধিকারপ্রাপ্ত জ্ঞান এবং একটি অন্তর্নিহিত তত্ত্বাবধানের সংকেত উপস্থাপন করে, যখন অনুমানের সময় অতিরিক্ত প্রাক-প্রক্রিয়াকরণের প্রয়োজনীয়তা হ্রাস করে। তাছাড়া, চিত্রনাট্যগুলি অতিরিক্ত তথ্যের একটি সম্পদ প্রদান করে, যেমন, একটি দৃশ্যে চরিত্র এবং তাদের ভূমিকা সম্পর্কে, বা তাদের ক্রিয়া এবং আবেগ (ক্যামেরা যা দেখে তা বর্ণনা করে লাইন দ্বারা প্রকাশ করা হয়)। এই তথ্য অন্যথায় ভিডিওতে সঠিকভাবে স্থানীয়করণ করা কঠিন হতে পারে। এছাড়াও, চিত্রনাট্যের লেবেলবিহীন পাঠ্য কর্পোরা প্রাপ্ত করা তুলনামূলকভাবে সহজ এবং আমাদের নেটওয়ার্ককে প্রাক-প্রশিক্ষণ দিতে ব্যবহার করা যেতে পারে।   3.3। জ্ঞান পাতন  আমরা এখন দুটি নেটওয়ার্কের জন্য আমাদের যৌথ প্রশিক্ষণ ব্যবস্থা বর্ণনা করি যা ডেটা স্ট্রিম (মাল্টিমোডাল বনাম পাঠ্য-শুধুমাত্র) এবং শব্দার্থিক ইউনিটে (শট বনাম দৃশ্য) এর পরিপ্রেক্ষিতে চলচ্চিত্রের বিভিন্ন দৃষ্টিভঙ্গিকে অন্তর্ভুক্ত করে।     আমরা দুটি নেটওয়ার্কের মধ্যে দ্বিতীয় রেগুলারাইজেশন লস ব্যবহার করার প্রস্তাব দিই যাতে দুটি গ্রাফবেসড রিপ্রেজেন্টেশনের (অর্থাৎ, ভিডিও শট এবং চিত্রনাট্যের দৃশ্যে) মধ্যে সামঞ্জস্য বজায় থাকে। এই ক্ষতির উদ্দেশ্য দ্বিগুণ: দুটি নেটওয়ার্কের জন্য TP পূর্বাভাস উন্নত করা, যেমনটি বিপরীত প্রতিনিধিত্ব শেখার পূর্ববর্তী কাজগুলিতে দেখানো হয়েছে [38, 39, 48], এবং শটগুলির মধ্যে আরও সঠিক সংযোগ শিখতে সাহায্য করা (মনে রাখবেন যে শট- ভিত্তিক গ্রাফ আমাদের ট্রেলার জেনারেশন অ্যালগরিদমে ইনপুট হিসাবে কাজ করে 3.1)। চিত্রনাট্যের দৃশ্যের সাথে তুলনা করে, যা একটি চলচ্চিত্রের স্বয়ংসম্পূর্ণ ঘটনা বর্ণনা করে, ভিডিও শটগুলি মাত্র কয়েক সেকেন্ড দীর্ঘ এবং তাদের অর্থের জন্য আশেপাশের প্রেক্ষাপটের উপর নির্ভর করে। আমরা অনুমান করি যে সংশ্লিষ্ট চিত্রনাট্যের দৃশ্যের মতো শব্দার্থ সংরক্ষণের জন্য একটি শটের জন্য গ্রাফ আশেপাশের এলাকা প্রয়োগ করে, আমরা শট-ভিত্তিক গ্রাফে উপযুক্ত প্রতিবেশীদের নির্বাচনকে উত্সাহিত করব।  রিপ্রেজেন্টেশন কনসিসটেন্সি লস  3.4। স্ব-তত্ত্বাবধানে প্রিট্রেইনিং  প্রাক-প্রশিক্ষণের লক্ষ্য হল চিত্রনাট্য থেকে আরও ভাল দৃশ্যের উপস্থাপনা শিখতে যা মুভি ভিডিওগুলির চেয়ে বেশি অ্যাক্সেসযোগ্য (যেমন, কম কপিরাইট সমস্যা এবং কম গণনামূলক ওভারহেড) এই আশায় যে এই জ্ঞান আমাদের ধারাবাহিকতার ক্ষতির মাধ্যমে ভিডিও-ভিত্তিক নেটওয়ার্কে স্থানান্তরিত হবে।   3.5। সেন্টিমেন্ট প্রেডিকশন  অবশেষে, আমাদের মডেল বিবেচনা করে কিভাবে অনুভূতি এক শট থেকে পরের দিকে প্রবাহিত হয়। আমরা একই যৌথ স্থাপত্য (বিভাগ 3.3) এবং টিপি শনাক্তকরণের জন্য যে প্রশিক্ষণ ব্যবস্থা ব্যবহার করি তার সাহায্যে প্রতি শটে সেন্টিমেন্ট স্কোরের পূর্বাভাস করি। ভিডিও-ভিত্তিক নেটওয়ার্ককে সেন্টিমেন্ট লেবেল সহ শটগুলিতে প্রশিক্ষণ দেওয়া হয় (অর্থাৎ, ইতিবাচক, নেতিবাচক, নিরপেক্ষ), যখন চিত্রনাট্য-ভিত্তিক নেটওয়ার্কটি সেন্টিমেন্ট লেবেল সহ দৃশ্যগুলিতে প্রশিক্ষিত হয় (বিভাগ 4 লেবেলগুলি কীভাবে প্রাপ্ত হয় তা ব্যাখ্যা করে)। প্রশিক্ষণের পরে, আমরা অনুভূতির প্রবাহকে ক্যাপচার করতে এবং উচ্চ- এবং নিম্ন-তীব্রতার শটগুলির মধ্যে বৈষম্য করার জন্য প্রতি শটে সেন্টিমেন্ট লেবেলের উপর একটি সম্ভাব্যতা বিতরণের পূর্বাভাস দিই (বিশদ বিবরণের জন্য পরিশিষ্ট দেখুন)।   এই কাগজটি CC BY-SA 4.0 DEED লাইসেন্সের অধীনে   । arxiv-এ উপলব্ধ

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Kinetopgraph.TECH

Read My Stories

kinetograph

গল্পের মূল ভাষায় এই অডিও তৈরি!

টাস্ক পচনের মাধ্যমে ফিল্ম ট্রেলার জেনারেশন: সমস্যা প্রণয়ন

About Author

মন্তব্য

আসে ট্যাগ

এই নিবন্ধটি উপস্থাপন করা হয়েছে

Related Stories

বিটকয়েন UTXO এর মডেল, একটি অনন্য ইকোসিস্টেমকে শক্তিশালী করে

কিভাবে 10X দ্বারা আপনার কর্মপ্রবাহ উন্নত করবেন: 17টি প্রয়োজনীয় অ্যাপ

হ্যাকারনুন লেখার প্রতিযোগিতা জিততে চান? #crypto-api প্রতিযোগিতার বিজয়ীরা কী সুপারিশ করেন তা এখানে

ক্রিপ্টো গ্রোথ: কার্যকরী ব্যবহারকারী ব্যক্তিত্ব তৈরি করা

বিটকয়েন UTXO এর মডেল, একটি অনন্য ইকোসিস্টেমকে শক্তিশালী করে

কিভাবে 10X দ্বারা আপনার কর্মপ্রবাহ উন্নত করবেন: 17টি প্রয়োজনীয় অ্যাপ

হ্যাকারনুন লেখার প্রতিযোগিতা জিততে চান? #crypto-api প্রতিযোগিতার বিজয়ীরা কী সুপারিশ করেন তা এখানে

ক্রিপ্টো গ্রোথ: কার্যকরী ব্যবহারকারী ব্যক্তিত্ব তৈরি করা

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps