paint-brush
টাস্ক ডিকম্পোজিশনের মাধ্যমে ফিল্ম ট্রেলার জেনারেশন: পরীক্ষামূলক সেটআপদ্বারা@kinetograph
119 পড়া

টাস্ক ডিকম্পোজিশনের মাধ্যমে ফিল্ম ট্রেলার জেনারেশন: পরীক্ষামূলক সেটআপ

অতিদীর্ঘ; পড়তে

এই গবেষণাপত্রে, গবেষকরা ট্রেলার তৈরি করার জন্য গ্রাফ হিসাবে চলচ্চিত্রগুলিকে মডেল করেন, আখ্যানের কাঠামো সনাক্ত করে এবং অনুভূতির পূর্বাভাস দেয়, তত্ত্বাবধানে থাকা পদ্ধতিগুলিকে ছাড়িয়ে যায়।
featured image - টাস্ক ডিকম্পোজিশনের মাধ্যমে ফিল্ম ট্রেলার জেনারেশন: পরীক্ষামূলক সেটআপ
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

লেখক:

(1) Pinelopi Papalampidi, Institute for Language, Cognition and Computation, School of Informatics, University of Edinburgh;

(2) ফ্র্যাঙ্ক কেলার, ভাষা, জ্ঞান ও গণনার ইনস্টিটিউট, স্কুল অফ ইনফরমেটিক্স, এডিনবার্গ বিশ্ববিদ্যালয়;

(৩) মিরেলা লাপাতা, ইনস্টিটিউট ফর ল্যাঙ্গুয়েজ, কগনিশন অ্যান্ড কম্পিউটেশন, স্কুল অফ ইনফরমেটিক্স, ইউনিভার্সিটি অফ এডিনবার্গ।

লিঙ্কের টেবিল

4. পরীক্ষামূলক সেটআপ

ডেটাসেটগুলি আমাদের মডেলটি TRIPODL-এ প্রশিক্ষিত হয়েছিল, TRIPOD ডেটাসেটের একটি বর্ধিত সংস্করণ [41, 42] যাতে রয়েছে সিলভার-স্ট্যান্ডার্ড টিপি টীকা (দৃশ্য-স্তর)[3] এবং সংশ্লিষ্ট ভিডিওগুলির সাথে 122টি চিত্রনাট্য। প্রতিটি সিনেমার জন্য, আমরা YouTube থেকে যতটা সম্ভব ট্রেলার সংগ্রহ করেছি, যার মধ্যে রয়েছে অফিসিয়াল এবং (গুরুতর) ফ্যান-ভিত্তিক ছবি, অথবা পুরনো সিনেমার আধুনিক ট্রেলার। আমাদের অ্যালগরিদম দ্বারা উত্পাদিত ট্রেলারগুলি মূল্যায়ন করার জন্য, আমরা 41টি চলচ্চিত্রের একটি নতুন হোল্ড-আউট সেটও সংগ্রহ করেছি। এই মুভিগুলো মুভিস্কোপ ডেটাসেট থেকে নির্বাচন করা হয়েছে[5] [11], যেখানে অফিসিয়াল মুভি ট্রেলার রয়েছে। হোল্ড-আউট সেটে কোনো অতিরিক্ত তথ্য থাকে না, যেমন চিত্রনাট্য বা TP টীকা। TRIPODL এর পরিসংখ্যান সারণি 1 এ উপস্থাপন করা হয়েছে।


মুভি এবং ট্রেলার প্রসেসিং পূর্ববর্তী বিভাগে যে মডেলিং পদ্ধতির কথা বলা হয়েছে তা ধরে নেওয়া হয়েছে যে আমরা চিত্রনাট্যের দৃশ্য এবং সিনেমার শটগুলির মধ্যে সঙ্গতি জানি। ডায়নামিক টাইম ওয়ার্পিং (DTW; [36, 42]) ব্যবহার করে সাবটাইটেলগুলির সাথে চিত্রনাট্যে সংলাপগুলিকে স্বয়ংক্রিয়ভাবে সারিবদ্ধ করে আমরা এই ম্যাপিংটি পাই। আমরা প্রথমে এই ম্যাপিং এর উপর ভিত্তি করে ভিডিওটিকে দৃশ্যে ভাগ করি এবং তারপর PySceneDetect[6] ব্যবহার করে প্রতিটি দৃশ্যকে শটে ভাগ করি। মোট 100 টিরও কম ফ্রেমের শটগুলি ট্রেলারের অংশ হিসাবে প্রক্রিয়াকরণ এবং প্রদর্শন উভয়ের জন্য খুব ছোট এবং তাই বাতিল করা হয়৷


তদুপরি, প্রতিটি শটের জন্য আমরা ভিজ্যুয়াল এবং অডিও বৈশিষ্ট্যগুলি বের করি। আমরা তিনটি ভিন্ন ধরণের চাক্ষুষ বৈশিষ্ট্য বিবেচনা করি:


(1) আমরা প্রতি শটে একটি কী ফ্রেম নমুনা করি এবং ImageNet [14] এ অবজেক্ট রিকগনিশনের জন্য প্রাক-প্রশিক্ষিত ResNeXt-101 [56] ব্যবহার করে বৈশিষ্ট্যগুলি বের করি। (2) আমরা প্রতি 10 ফ্রেমের মধ্যে 1টির ফ্রিকোয়েন্সি সহ ফ্রেমের নমুনা করি (আমরা এই সময়ের ব্যবধানটি বড় সময়কালের শটগুলির জন্য বাড়াই যেহেতু আমরা মেমরির সমস্যাগুলির মুখোমুখি হই) এবং গতিবিদ্যার বৈশিষ্ট্যগুলি বের করি যা দুই-স্ট্রীম I3D নেটওয়ার্ক ব্যবহার করে কাইনেটিক্সে প্রাক-প্রশিক্ষিত। 10]। (3) আমরা Detectron2 [54]-এ বাস্তবায়িত Faster-RCNN [18] ব্যবহার করি প্রতিটি কী ফ্রেমে ব্যক্তির দৃষ্টান্ত সনাক্ত করতে এবং প্রতি শটে শীর্ষ চারটি বাউন্ডিং বক্স রাখতে যা সংশ্লিষ্ট আঞ্চলিক উপস্থাপনাগুলির পাশাপাশি সর্বোচ্চ আত্মবিশ্বাসী। আমরা প্রথমে সমস্ত স্বতন্ত্র উপস্থাপনাকে একই নিম্ন মাত্রায় প্রজেক্ট করি এবং L2-সাধারণকরণ সম্পাদন করি। এর পরে, আমরা ভিজ্যুয়াল শট উপস্থাপনাটিকে পৃথক ভেক্টরের যোগফল হিসাবে বিবেচনা করি। অডিও মোডালিটির জন্য, আমরা অডিও সেগমেন্টকে ৫২১টি অডিও ক্লাসে (যেমন, টুলস, মিউজিক, এক্সপ্লোশন) শ্রেণীবদ্ধ করার জন্য অডিওসেট-ইউটিউব কর্পাস [১৬]-এ প্রাক-প্রশিক্ষিত YAMNet ব্যবহার করি; দৃশ্যে থাকা প্রতিটি অডিও সেগমেন্টের জন্য, আমরা শেষ স্তর থেকে বৈশিষ্ট্যগুলি বের করি। অবশেষে, আমরা ইউনিভার্সাল সেন্টেন্স এনকোডার (ইউএসই; [12]) ব্যবহার করে সাবটাইটেল এবং চিত্রনাট্যের দৃশ্য থেকে পাঠ্য বৈশিষ্ট্যগুলি [42] বের করি।


মূল্যায়নের উদ্দেশ্যে, আমাদের জানতে হবে সিনেমার কোন শটগুলি ট্রেলার-যোগ্য বা না। আমরা সংশ্লিষ্ট ট্রেলারটিকে শটে ভাগ করে এবং প্রতিটি শটের জন্য মুভির সমস্ত শটের সাথে তার চাক্ষুষ মিলের কম্পিউটিং করে এটি করি। সর্বোচ্চ সাদৃশ্য মান সহ শটগুলি ইতিবাচক লেবেলগুলি পায় (অর্থাৎ, সেগুলি ট্রেলারে থাকা উচিত)৷ যাইহোক, যেহেতু ট্রেলারগুলিতে এমন শটও থাকে যা মুভিতে নেই (যেমন, টেক্সট সহ কালো স্ক্রিন, বা শুধুমাত্র উপাদান যা চূড়ান্ত মুভিতে তৈরি হয়নি), আমরা একটি থ্রেশহোল্ডও সেট করি যার নীচে আমরা ট্রেলার শটগুলিকে মুভিতে ম্যাপ করি না শট এইভাবে, আমরা সিনেমার শটগুলির জন্য সিলভার-স্ট্যান্ডার্ড বাইনারি লেবেল তৈরি করি।


সেন্টিমেন্ট লেবেল যেহেতু TRIPOD-এ সেন্টিমেন্টের টীকা নেই, তাই আমরা পরিবর্তে COSMIC [17] এর মাধ্যমে সিলভার-স্ট্যান্ডার্ড লেবেল প্রাপ্ত করি, প্রাকৃতিক ভাষা কথোপকথনে অনুভূতি এবং আবেগ শ্রেণীবিভাগের জন্য অত্যাধুনিক পারফরম্যান্স সহ একটি কমনসেন্স-নির্দেশিত কাঠামো। বিশেষত, আমরা MELD [43]-এ COSMIC-কে প্রশিক্ষণ দিই, যেটিতে টিভি সিরিজ ফ্রেন্ডস-এর পর্বগুলির সংলাপ রয়েছে এবং অন্যান্য সেন্টিমেন্ট ক্লাসিফিকেশন ডেটাসেটের (যেমন, [9, 29]) তুলনায় আমাদের ডোমেনের জন্য বেশি উপযুক্ত। প্রশিক্ষণের পরে, আমরা TRIPOD চিত্রনাট্যের জন্য বাক্য-স্তরের অনুভূতির পূর্বাভাস তৈরি করতে COSMIC ব্যবহার করি। একটি দৃশ্যের অনুভূতি তার বাক্যের সংখ্যাগরিষ্ঠ অনুভূতির সাথে মিলে যায়। আমরা TP-এর জন্য নিযুক্ত একই ওয়ান-টোমানি ম্যাপিং ব্যবহার করে শটগুলিতে দৃশ্যভিত্তিক সেন্টিমেন্ট লেবেলগুলি প্রজেক্ট করি।


এই কাগজটি CC BY-SA 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ


[৩] https://github.com/ppapalampidi/TRIPOD


[৪] https://datashare.ed.ac.uk/handle/10283/3819


[৫] http://www.cs.virginia.edu/ pc9za/research/moviescope.html


[৬] https://github.com/Breakthrough/PySceneDetect