লেখক:  (1) Pinelopi Papalampidi, Institute for Language, Cognition and Computation, School of Informatics, University of Edinburgh;  (2) ফ্র্যাঙ্ক কেলার, ভাষা, জ্ঞান ও গণনার ইনস্টিটিউট, স্কুল অফ ইনফরমেটিক্স, এডিনবার্গ বিশ্ববিদ্যালয়;  (৩) মিরেলা লাপাতা, ইনস্টিটিউট ফর ল্যাঙ্গুয়েজ, কগনিশন অ্যান্ড কম্পিউটেশন, স্কুল অফ ইনফরমেটিক্স, ইউনিভার্সিটি অফ এডিনবার্গ।  লিঙ্কের টেবিল   বিমূর্ত এবং ভূমিকা   সম্পর্কিত কাজ   সমস্যা তৈয়ার   পরীক্ষামূলক সেটআপ   ফলাফল এবং বিশ্লেষণ   উপসংহার এবং রেফারেন্স   উ: মডেলের বিবরণ   B. বাস্তবায়নের বিবরণ   C. ফলাফল: অ্যাবলেশন স্টাডিজ  4. পরীক্ষামূলক সেটআপ    আমাদের মডেলটি TRIPODL-এ প্রশিক্ষিত হয়েছিল, TRIPOD ডেটাসেটের একটি বর্ধিত সংস্করণ [41, 42] যাতে রয়েছে সিলভার-স্ট্যান্ডার্ড টিপি টীকা (দৃশ্য-স্তর)[3] এবং সংশ্লিষ্ট ভিডিওগুলির সাথে 122টি চিত্রনাট্য। প্রতিটি সিনেমার জন্য, আমরা YouTube থেকে যতটা সম্ভব ট্রেলার সংগ্রহ করেছি, যার মধ্যে রয়েছে অফিসিয়াল এবং (গুরুতর) ফ্যান-ভিত্তিক ছবি, অথবা পুরনো সিনেমার আধুনিক ট্রেলার। আমাদের অ্যালগরিদম দ্বারা উত্পাদিত ট্রেলারগুলি মূল্যায়ন করার জন্য, আমরা 41টি চলচ্চিত্রের একটি নতুন হোল্ড-আউট সেটও সংগ্রহ করেছি। এই মুভিগুলো মুভিস্কোপ ডেটাসেট থেকে নির্বাচন করা হয়েছে[5] [11], যেখানে অফিসিয়াল মুভি ট্রেলার রয়েছে। হোল্ড-আউট সেটে কোনো অতিরিক্ত তথ্য থাকে না, যেমন চিত্রনাট্য বা TP টীকা। TRIPODL এর পরিসংখ্যান সারণি 1 এ উপস্থাপন করা হয়েছে। ডেটাসেটগুলি  মুভি এবং ট্রেলার প্রসেসিং পূর্ববর্তী বিভাগে যে মডেলিং পদ্ধতির কথা বলা হয়েছে তা ধরে নেওয়া হয়েছে যে আমরা চিত্রনাট্যের দৃশ্য এবং সিনেমার শটগুলির মধ্যে সঙ্গতি জানি। ডায়নামিক টাইম ওয়ার্পিং (DTW; [36, 42]) ব্যবহার করে সাবটাইটেলগুলির সাথে চিত্রনাট্যে সংলাপগুলিকে স্বয়ংক্রিয়ভাবে সারিবদ্ধ করে আমরা এই ম্যাপিংটি পাই। আমরা প্রথমে এই ম্যাপিং এর উপর ভিত্তি করে ভিডিওটিকে দৃশ্যে ভাগ করি এবং তারপর PySceneDetect[6] ব্যবহার করে প্রতিটি দৃশ্যকে শটে ভাগ করি। মোট 100 টিরও কম ফ্রেমের শটগুলি ট্রেলারের অংশ হিসাবে প্রক্রিয়াকরণ এবং প্রদর্শন উভয়ের জন্য খুব ছোট এবং তাই বাতিল করা হয়৷  তদুপরি, প্রতিটি শটের জন্য আমরা ভিজ্যুয়াল এবং অডিও বৈশিষ্ট্যগুলি বের করি। আমরা তিনটি ভিন্ন ধরণের চাক্ষুষ বৈশিষ্ট্য বিবেচনা করি:  (1) আমরা প্রতি শটে একটি কী ফ্রেম নমুনা করি এবং ImageNet [14] এ অবজেক্ট রিকগনিশনের জন্য প্রাক-প্রশিক্ষিত ResNeXt-101 [56] ব্যবহার করে বৈশিষ্ট্যগুলি বের করি। (2) আমরা প্রতি 10 ফ্রেমের মধ্যে 1টির ফ্রিকোয়েন্সি সহ ফ্রেমের নমুনা করি (আমরা এই সময়ের ব্যবধানটি বড় সময়কালের শটগুলির জন্য বাড়াই যেহেতু আমরা মেমরির সমস্যাগুলির মুখোমুখি হই) এবং গতিবিদ্যার বৈশিষ্ট্যগুলি বের করি যা দুই-স্ট্রীম I3D নেটওয়ার্ক ব্যবহার করে কাইনেটিক্সে প্রাক-প্রশিক্ষিত। 10]। (3) আমরা Detectron2 [54]-এ বাস্তবায়িত Faster-RCNN [18] ব্যবহার করি প্রতিটি কী ফ্রেমে ব্যক্তির দৃষ্টান্ত সনাক্ত করতে এবং প্রতি শটে শীর্ষ চারটি বাউন্ডিং বক্স রাখতে যা সংশ্লিষ্ট আঞ্চলিক উপস্থাপনাগুলির পাশাপাশি সর্বোচ্চ আত্মবিশ্বাসী। আমরা প্রথমে সমস্ত স্বতন্ত্র উপস্থাপনাকে একই নিম্ন মাত্রায় প্রজেক্ট করি এবং L2-সাধারণকরণ সম্পাদন করি। এর পরে, আমরা ভিজ্যুয়াল শট উপস্থাপনাটিকে পৃথক ভেক্টরের যোগফল হিসাবে বিবেচনা করি। অডিও মোডালিটির জন্য, আমরা অডিও সেগমেন্টকে ৫২১টি অডিও ক্লাসে (যেমন, টুলস, মিউজিক, এক্সপ্লোশন) শ্রেণীবদ্ধ করার জন্য অডিওসেট-ইউটিউব কর্পাস [১৬]-এ প্রাক-প্রশিক্ষিত YAMNet ব্যবহার করি; দৃশ্যে থাকা প্রতিটি অডিও সেগমেন্টের জন্য, আমরা শেষ স্তর থেকে বৈশিষ্ট্যগুলি বের করি। অবশেষে, আমরা ইউনিভার্সাল সেন্টেন্স এনকোডার (ইউএসই; [12]) ব্যবহার করে সাবটাইটেল এবং চিত্রনাট্যের দৃশ্য থেকে পাঠ্য বৈশিষ্ট্যগুলি [42] বের করি।  মূল্যায়নের উদ্দেশ্যে, আমাদের জানতে হবে সিনেমার কোন শটগুলি ট্রেলার-যোগ্য বা না। আমরা সংশ্লিষ্ট ট্রেলারটিকে শটে ভাগ করে এবং প্রতিটি শটের জন্য মুভির সমস্ত শটের সাথে তার চাক্ষুষ মিলের কম্পিউটিং করে এটি করি। সর্বোচ্চ সাদৃশ্য মান সহ শটগুলি ইতিবাচক লেবেলগুলি পায় (অর্থাৎ, সেগুলি ট্রেলারে থাকা উচিত)৷ যাইহোক, যেহেতু ট্রেলারগুলিতে এমন শটও থাকে যা মুভিতে নেই (যেমন, টেক্সট সহ কালো স্ক্রিন, বা শুধুমাত্র উপাদান যা চূড়ান্ত মুভিতে তৈরি হয়নি), আমরা একটি থ্রেশহোল্ডও সেট করি যার নীচে আমরা ট্রেলার শটগুলিকে মুভিতে ম্যাপ করি না শট এইভাবে, আমরা সিনেমার শটগুলির জন্য সিলভার-স্ট্যান্ডার্ড বাইনারি লেবেল তৈরি করি।    যেহেতু TRIPOD-এ সেন্টিমেন্টের টীকা নেই, তাই আমরা পরিবর্তে COSMIC [17] এর মাধ্যমে সিলভার-স্ট্যান্ডার্ড লেবেল প্রাপ্ত করি, প্রাকৃতিক ভাষা কথোপকথনে অনুভূতি এবং আবেগ শ্রেণীবিভাগের জন্য অত্যাধুনিক পারফরম্যান্স সহ একটি কমনসেন্স-নির্দেশিত কাঠামো। বিশেষত, আমরা MELD [43]-এ COSMIC-কে প্রশিক্ষণ দিই, যেটিতে টিভি সিরিজ ফ্রেন্ডস-এর পর্বগুলির সংলাপ রয়েছে এবং অন্যান্য সেন্টিমেন্ট ক্লাসিফিকেশন ডেটাসেটের (যেমন, [9, 29]) তুলনায় আমাদের ডোমেনের জন্য বেশি উপযুক্ত। প্রশিক্ষণের পরে, আমরা TRIPOD চিত্রনাট্যের জন্য বাক্য-স্তরের অনুভূতির পূর্বাভাস তৈরি করতে COSMIC ব্যবহার করি। একটি দৃশ্যের অনুভূতি তার বাক্যের সংখ্যাগরিষ্ঠ অনুভূতির সাথে মিলে যায়। আমরা TP-এর জন্য নিযুক্ত একই ওয়ান-টোমানি ম্যাপিং ব্যবহার করে শটগুলিতে দৃশ্যভিত্তিক সেন্টিমেন্ট লেবেলগুলি প্রজেক্ট করি। সেন্টিমেন্ট লেবেল  এই কাগজটি CC BY-SA 4.0 DEED লাইসেন্সের অধীনে   । arxiv-এ উপলব্ধ  [৩] https://github.com/ppapalampidi/TRIPOD  [৪] https://datashare.ed.ac.uk/handle/10283/3819  [৫] http://www.cs.virginia.edu/ pc9za/research/moviescope.html  [৬] https://github.com/Breakthrough/PySceneDetect

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Kinetopgraph.TECH

Read My Stories

kinetograph

গল্পের মূল ভাষায় এই অডিও তৈরি!

টাস্ক ডিকম্পোজিশনের মাধ্যমে ফিল্ম ট্রেলার জেনারেশন: পরীক্ষামূলক সেটআপ

About Author

মন্তব্য

আসে ট্যাগ

এই নিবন্ধটি উপস্থাপন করা হয়েছে

Related Stories

ক্লাউড সনেট 3.5 সিস্টেম প্রম্পট লিক: একটি ফরেনসিক বিশ্লেষণ

ব্যবহারকারী-কেন্দ্রিক ক্রিপ্টো পণ্য তৈরি করা: গ্রাহক প্রতিক্রিয়ার গুরুত্ব

আয় করতে ট্যাপ করুন: টেলিগ্রাম সোলানার আগে পরবর্তী 10 বিলিয়ন ক্রিপ্টো ব্যবহারকারীদের অনবোর্ড করতে পারে

AI এর শক্তি উন্মুক্ত করা। কাটিং-এজ টেকনিকের একটি পদ্ধতিগত পর্যালোচনা: বিমূর্ত ও ভূমিকা

ক্লাউড সনেট 3.5 সিস্টেম প্রম্পট লিক: একটি ফরেনসিক বিশ্লেষণ

ব্যবহারকারী-কেন্দ্রিক ক্রিপ্টো পণ্য তৈরি করা: গ্রাহক প্রতিক্রিয়ার গুরুত্ব

আয় করতে ট্যাপ করুন: টেলিগ্রাম সোলানার আগে পরবর্তী 10 বিলিয়ন ক্রিপ্টো ব্যবহারকারীদের অনবোর্ড করতে পারে

AI এর শক্তি উন্মুক্ত করা। কাটিং-এজ টেকনিকের একটি পদ্ধতিগত পর্যালোচনা: বিমূর্ত ও ভূমিকা

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps