লেখক:
(1) Pinelopi Papalampidi, Institute for Language, Cognition and Computation, School of Informatics, University of Edinburgh;
(2) ফ্র্যাঙ্ক কেলার, ভাষা, জ্ঞান ও গণনার ইনস্টিটিউট, স্কুল অফ ইনফরমেটিক্স, এডিনবার্গ বিশ্ববিদ্যালয়;
(৩) মিরেলা লাপাতা, ইনস্টিটিউট ফর ল্যাঙ্গুয়েজ, কগনিশন অ্যান্ড কম্পিউটেশন, স্কুল অফ ইনফরমেটিক্স, ইউনিভার্সিটি অফ এডিনবার্গ।
মূল্যায়ন মেট্রিক্স পূর্ববর্তী কাজ [৪১] তিনটি মেট্রিক্সের পরিপ্রেক্ষিতে টিপি সনাক্তকরণ মডেলগুলির কার্যকারিতা মূল্যায়ন করে: মোট চুক্তি (TA), অর্থাৎ, সঠিকভাবে চিহ্নিত TP দৃশ্যের শতাংশ, আংশিক চুক্তি (PA), অর্থাৎ, TP-এর শতাংশ যে ইভেন্টগুলির জন্য অন্তত একটি গোল্ড-স্ট্যান্ডার্ড দৃশ্য চিহ্নিত করা হয়েছে, এবং দূরত্ব (D), অর্থাৎ, প্রদত্ত TP-এর জন্য পূর্বাভাসিত এবং গোল্ড-স্ট্যান্ডার্ড সেটের মধ্যে দৃশ্যের সংখ্যার ন্যূনতম দূরত্ব, চিত্রনাট্যের দৈর্ঘ্য দ্বারা স্বাভাবিক করা হয়েছে। আমরা আংশিক চুক্তি মেট্রিকের সাথে ফলাফল রিপোর্ট করি। আমরা আর মোট চুক্তি ব্যবহার করতে পারি না, যেহেতু আমরা শটগুলির জন্য সিলভার স্ট্যান্ডার্ড (সোনার পরিবর্তে) লেবেলগুলির বিপরীতে মূল্যায়ন করি এবং ফলস্বরূপ একটি দৃশ্যের মধ্যে সমস্ত শটকে সমানভাবে গুরুত্বপূর্ণ বিবেচনা করি। আমরা দূরত্ব মেট্রিক ব্যবহার করি না কারণ এটি খুব একই রকম ফলাফল দেয় এবং মডেলের বৈকল্পিকগুলির মধ্যে বৈষম্য করতে সাহায্য করে না।
হাইপারপ্যারামিটার পূর্ববর্তী কাজ [৪২] অনুসরণ করে, আমরা সব ধরনের বৈশিষ্ট্য (যেমন, পাঠ্য, ভিজ্যুয়াল এবং অডিও) 128-এর একই নিম্ন মাত্রায় প্রজেক্ট করি। আমরা দেখতে পাই যে বৃহত্তর মাত্রা পরামিতিগুলির সংখ্যাকে যথেষ্ট পরিমাণে বাড়িয়ে দেয় এবং সম্ভবত নিম্নমানের ফলাফল দেয়। ছোট ডেটাসেটের আকার।
আমরা ট্রান্সফরমার এনকোডার ব্যবহার করে দৃশ্যগুলি (চিত্রনাট্যের সাপেক্ষে) এবং শটগুলি (ভিডিওর ক্ষেত্রে) প্রাসঙ্গিক করি। আমরা এনকোডারে 2, 3, 4, 5, এবং 6 স্তর নিয়ে পরীক্ষা করেছি এবং 3 স্তরের সাথে সেরা ফলাফল পেয়েছি। ফিড ফরোয়ার্ড (FF) মাত্রার জন্য, আমরা 2,048 এর একটি আদর্শ আকার এবং 1,024 এর ছোট আকারের উভয়ের সাথে পরীক্ষা করেছি এবং আগের কাজগুলিকে আরও ভাল খুঁজে পেয়েছি। ইনপুট বাক্য উপস্থাপনের একটি ক্রম থেকে একটি দৃশ্যের উপস্থাপনা গণনা করতে আমরা অন্য ট্রান্সফরমার এনকোডার ব্যবহার করি। এই এনকোডারে 4টি স্তর এবং 1,024 FF মাত্রা রয়েছে৷ উভয় এনকোডার, 8টি মনোযোগ প্রধান এবং 0.3 ড্রপআউট নিয়োগ করে।
গ্রাফ স্প্যার্সিফিকেশনের সময় (অর্থাৎ, টপ-কে প্রতিবেশীদের নির্বাচন), আমরা দৃশ্য- এবং শট-ভিত্তিক নেটওয়ার্কগুলির জন্য তাদের বিভিন্ন গ্রানুলারিটি এবং আকারের কারণে বিভিন্ন আশেপাশের বিকল্পগুলি বিবেচনা করি। [42] অনুসরণ করে, আমরা দৃশ্য নেটওয়ার্কের জন্য [1-6] প্রতিবেশীদের বিবেচনা করি এবং আমরা শট নেটওয়ার্কের জন্য প্রতিবেশীদের আকার [6-12] তে বৃদ্ধি করি।
এই কাগজটি CC BY-SA 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ ।