paint-brush
টাস্ক ডিকম্পোজিশনের মাধ্যমে ফিল্ম ট্রেলার জেনারেশন: বাস্তবায়নের বিবরণদ্বারা@kinetograph

টাস্ক ডিকম্পোজিশনের মাধ্যমে ফিল্ম ট্রেলার জেনারেশন: বাস্তবায়নের বিবরণ

অতিদীর্ঘ; পড়তে

এই গবেষণাপত্রে, গবেষকরা ট্রেলার তৈরি করার জন্য গ্রাফ হিসাবে চলচ্চিত্রগুলিকে মডেল করেন, আখ্যানের কাঠামো সনাক্ত করে এবং অনুভূতির পূর্বাভাস দেয়, তত্ত্বাবধানে থাকা পদ্ধতিগুলিকে ছাড়িয়ে যায়।
featured image - টাস্ক ডিকম্পোজিশনের মাধ্যমে ফিল্ম ট্রেলার জেনারেশন: বাস্তবায়নের বিবরণ
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

লেখক:

(1) Pinelopi Papalampidi, Institute for Language, Cognition and Computation, School of Informatics, University of Edinburgh;

(2) ফ্র্যাঙ্ক কেলার, ভাষা, জ্ঞান ও গণনার ইনস্টিটিউট, স্কুল অফ ইনফরমেটিক্স, এডিনবার্গ বিশ্ববিদ্যালয়;

(৩) মিরেলা লাপাতা, ইনস্টিটিউট ফর ল্যাঙ্গুয়েজ, কগনিশন অ্যান্ড কম্পিউটেশন, স্কুল অফ ইনফরমেটিক্স, ইউনিভার্সিটি অফ এডিনবার্গ।

লিঙ্কের টেবিল

B. বাস্তবায়নের বিবরণ

মূল্যায়ন মেট্রিক্স পূর্ববর্তী কাজ [৪১] তিনটি মেট্রিক্সের পরিপ্রেক্ষিতে টিপি সনাক্তকরণ মডেলগুলির কার্যকারিতা মূল্যায়ন করে: মোট চুক্তি (TA), অর্থাৎ, সঠিকভাবে চিহ্নিত TP দৃশ্যের শতাংশ, আংশিক চুক্তি (PA), অর্থাৎ, TP-এর শতাংশ যে ইভেন্টগুলির জন্য অন্তত একটি গোল্ড-স্ট্যান্ডার্ড দৃশ্য চিহ্নিত করা হয়েছে, এবং দূরত্ব (D), অর্থাৎ, প্রদত্ত TP-এর জন্য পূর্বাভাসিত এবং গোল্ড-স্ট্যান্ডার্ড সেটের মধ্যে দৃশ্যের সংখ্যার ন্যূনতম দূরত্ব, চিত্রনাট্যের দৈর্ঘ্য দ্বারা স্বাভাবিক করা হয়েছে। আমরা আংশিক চুক্তি মেট্রিকের সাথে ফলাফল রিপোর্ট করি। আমরা আর মোট চুক্তি ব্যবহার করতে পারি না, যেহেতু আমরা শটগুলির জন্য সিলভার স্ট্যান্ডার্ড (সোনার পরিবর্তে) লেবেলগুলির বিপরীতে মূল্যায়ন করি এবং ফলস্বরূপ একটি দৃশ্যের মধ্যে সমস্ত শটকে সমানভাবে গুরুত্বপূর্ণ বিবেচনা করি। আমরা দূরত্ব মেট্রিক ব্যবহার করি না কারণ এটি খুব একই রকম ফলাফল দেয় এবং মডেলের বৈকল্পিকগুলির মধ্যে বৈষম্য করতে সাহায্য করে না।


হাইপারপ্যারামিটার পূর্ববর্তী কাজ [৪২] অনুসরণ করে, আমরা সব ধরনের বৈশিষ্ট্য (যেমন, পাঠ্য, ভিজ্যুয়াল এবং অডিও) 128-এর একই নিম্ন মাত্রায় প্রজেক্ট করি। আমরা দেখতে পাই যে বৃহত্তর মাত্রা পরামিতিগুলির সংখ্যাকে যথেষ্ট পরিমাণে বাড়িয়ে দেয় এবং সম্ভবত নিম্নমানের ফলাফল দেয়। ছোট ডেটাসেটের আকার।


আমরা ট্রান্সফরমার এনকোডার ব্যবহার করে দৃশ্যগুলি (চিত্রনাট্যের সাপেক্ষে) এবং শটগুলি (ভিডিওর ক্ষেত্রে) প্রাসঙ্গিক করি। আমরা এনকোডারে 2, 3, 4, 5, এবং 6 স্তর নিয়ে পরীক্ষা করেছি এবং 3 স্তরের সাথে সেরা ফলাফল পেয়েছি। ফিড ফরোয়ার্ড (FF) মাত্রার জন্য, আমরা 2,048 এর একটি আদর্শ আকার এবং 1,024 এর ছোট আকারের উভয়ের সাথে পরীক্ষা করেছি এবং আগের কাজগুলিকে আরও ভাল খুঁজে পেয়েছি। ইনপুট বাক্য উপস্থাপনের একটি ক্রম থেকে একটি দৃশ্যের উপস্থাপনা গণনা করতে আমরা অন্য ট্রান্সফরমার এনকোডার ব্যবহার করি। এই এনকোডারে 4টি স্তর এবং 1,024 FF মাত্রা রয়েছে৷ উভয় এনকোডার, 8টি মনোযোগ প্রধান এবং 0.3 ড্রপআউট নিয়োগ করে।


গ্রাফ স্প্যার্সিফিকেশনের সময় (অর্থাৎ, টপ-কে প্রতিবেশীদের নির্বাচন), আমরা দৃশ্য- এবং শট-ভিত্তিক নেটওয়ার্কগুলির জন্য তাদের বিভিন্ন গ্রানুলারিটি এবং আকারের কারণে বিভিন্ন আশেপাশের বিকল্পগুলি বিবেচনা করি। [42] অনুসরণ করে, আমরা দৃশ্য নেটওয়ার্কের জন্য [1-6] প্রতিবেশীদের বিবেচনা করি এবং আমরা শট নেটওয়ার্কের জন্য প্রতিবেশীদের আকার [6-12] তে বৃদ্ধি করি।



চিত্র 4. TPs দ্বারা নির্ধারিত একটি চলচ্চিত্রের (উন্নয়ন সেট) বিভিন্ন বিভাগের সাথে সম্পর্কিত ট্রেলার শটগুলির বিতরণ। ট্রেলার শটগুলি মুভির সমস্ত অংশ থেকে আসে, এমনকি শেষ থেকে, যদিও বেশিরভাগই শুরু এবং মাঝামাঝি থেকে।


সারণী 7. ট্রেলারের শতাংশ (%) যাতে অন্তত একটি শট অন্তর্ভুক্ত থাকে যা ডেভেলপমেন্ট সেটে একটি নির্দিষ্ট ধরনের TP হিসাবে লেবেল করা হয়। প্রথম দুটি টিপি (যা গল্পের একটি ভূমিকা উপস্থাপন করে) ট্রেলারগুলিতে বেশি ঘন ঘন দেখা যায়, বিশেষ করে শেষ দুটির তুলনায়, যেগুলিতে প্রায়শই বড় স্পয়লার থাকে।


সারণী 8. ট্রেলার বিভাগে গড় পরম অনুভূতির তীব্রতা, যখন আমরা ট্রেলারগুলিকে তিনটি সমান অংশে ভাগ করি (উন্নয়ন সেট)।



এই কাগজটি CC BY-SA 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ