paint-brush
টাস্ক ডিকম্পোজিশনের মাধ্যমে ফিল্ম ট্রেলার জেনারেশন: উপসংহার এবং রেফারেন্সদ্বারা@kinetograph

টাস্ক ডিকম্পোজিশনের মাধ্যমে ফিল্ম ট্রেলার জেনারেশন: উপসংহার এবং রেফারেন্স

অতিদীর্ঘ; পড়তে

এই গবেষণাপত্রে, গবেষকরা ট্রেলার তৈরি করার জন্য গ্রাফ হিসাবে চলচ্চিত্রগুলিকে মডেল করেন, আখ্যানের কাঠামো সনাক্ত করে এবং অনুভূতির পূর্বাভাস দেয়, তত্ত্বাবধানে থাকা পদ্ধতিগুলিকে ছাড়িয়ে যায়।
featured image - টাস্ক ডিকম্পোজিশনের মাধ্যমে ফিল্ম ট্রেলার জেনারেশন: উপসংহার এবং রেফারেন্স
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

লেখক:

(1) Pinelopi Papalampidi, Institute for Language, Cognition and Computation, School of Informatics, University of Edinburgh;

(2) ফ্র্যাঙ্ক কেলার, ভাষা, জ্ঞান ও গণনার ইনস্টিটিউট, স্কুল অফ ইনফরমেটিক্স, এডিনবার্গ বিশ্ববিদ্যালয়;

(৩) মিরেলা লাপাতা, ইনস্টিটিউট ফর ল্যাঙ্গুয়েজ, কগনিশন অ্যান্ড কম্পিউটেশন, স্কুল অফ ইনফরমেটিক্স, ইউনিভার্সিটি অফ এডিনবার্গ।

লিঙ্কের টেবিল

6। উপসংহার

এই কাজে, আমরা একটি ট্রেলার প্রজন্মের পদ্ধতির প্রস্তাব করেছি যা সিনেমাগুলির একটি গ্রাফ-ভিত্তিক উপস্থাপনা গ্রহণ করে এবং শট নির্বাচনের জন্য ব্যাখ্যাযোগ্য মানদণ্ড ব্যবহার করে। আমরা এটিও দেখাই যে চিত্রনাট্য থেকে বিশেষ সুবিধাপ্রাপ্ত তথ্যগুলি কীভাবে বিপরীত শিক্ষার মাধ্যমে ব্যবহার করা যেতে পারে, যার ফলে একটি মডেল যা টার্নিং পয়েন্ট সনাক্তকরণ এবং ট্রেলার তৈরির জন্য ব্যবহার করা যেতে পারে। আমাদের মডেল দ্বারা উত্পন্ন ট্রেলারগুলি তাদের বিষয়বস্তু এবং আকর্ষণীয়তার পরিপ্রেক্ষিতে অনুকূলভাবে বিচার করা হয়েছিল৷


ভবিষ্যতে আমরা চলচ্চিত্রে সূক্ষ্ম আবেগ (যেমন, দুঃখ, ঘৃণা, সন্ত্রাস, আনন্দ) ভবিষ্যদ্বাণী করার পদ্ধতিগুলির উপর ফোকাস করতে চাই। এই কাজে, ইন-ডোমেন লেবেলযুক্ত ডেটাসেটের অনুপস্থিতির কারণে আমরা ইতিবাচক/নেতিবাচক অনুভূতিকে আবেগের জন্য স্ট্যান্ড-ইন হিসাবে বিবেচনা করি। পূর্ববর্তী প্রচেষ্টাগুলি টুইটগুলি [1], ইউটিউব মতামত ভিডিও [4], টকশো [20] এবং মানুষের মিথস্ক্রিয়াগুলির রেকর্ডিংয়ের উপর দৃষ্টি নিবদ্ধ করেছে [8]। প্রাথমিক পরীক্ষায় দেখা গেছে যে অন্যান্য ডোমেন থেকে আমাদের কাছে সূক্ষ্ম-দানাযুক্ত আবেগ জ্ঞান স্থানান্তর করার ফলে অনুভূতির তুলনায় অবিশ্বাস্য ভবিষ্যদ্বাণী হয় যা আরও স্থিতিশীল এবং ট্রেলার প্রজন্মের কর্মক্ষমতা উন্নত করে। ভবিষ্যতের কাজের পথের মধ্যে রয়েছে চলচ্চিত্রের জন্য নতুন আবেগ ডেটাসেট, সেইসাথে পাঠ্য এবং অডিওভিজ্যুয়াল সংকেতের উপর ভিত্তি করে আবেগ সনাক্তকরণ মডেল।

তথ্যসূত্র

[১] মুহাম্মদ আবদুল-মাগিদ এবং লাইল উঙ্গার। ইমোনেট: গেটেড পুনরাবৃত্ত নিউরাল নেটওয়ার্কের সাথে সূক্ষ্ম আবেগ সনাক্তকরণ। অ্যাসোসিয়েশন ফর কম্পিউটেশনাল লিঙ্গুইস্টিকসের 55 তম বার্ষিক সভার কার্যপ্রণালীতে (ভলিউম 1: লং পেপারস), পৃষ্ঠা 718–728, ভ্যাঙ্কুভার, কানাডা, জুলাই 2017। অ্যাসোসিয়েশন ফর কম্পিউটেশনাল ভাষাবিজ্ঞান। 8


[2] উরি আলন ও এরান ইয়াহভ। গ্রাফ নিউরাল নেটওয়ার্ক এবং এর ব্যবহারিক প্রভাবগুলির বাধার উপর। শেখার প্রতিনিধিত্বের আন্তর্জাতিক সম্মেলনে, 2020। 12


[৩] জিমি বা এবং রিচ কারুয়ানা। গভীর জাল কি সত্যিই গভীর হতে হবে? নিউরাল ইনফরমেশন প্রসেসিং সিস্টেমে অগ্রগতির প্রক্রিয়ায়, পৃষ্ঠা 2654-2662, মন্ট্রিল, কুইবেক, কানাডা, 2014। 2, 4


[৪] আমিরআলি বাঘের জাদেহ, পল পু লিয়াং, সৌজন্যা পোরিয়া, এরিক ক্যামব্রিয়া এবং লুই-ফিলিপ মরেন্সি। বন্য মধ্যে মাল্টিমোডাল ভাষা বিশ্লেষণ: CMU-MOSEI ডেটাসেট এবং ব্যাখ্যাযোগ্য গতিশীল ফিউশন গ্রাফ। অ্যাসোসিয়েশন ফর কম্পিউটেশনাল লিঙ্গুইস্টিকসের 56 তম বার্ষিক সভার কার্যক্রমে (ভলিউম 1: লং পেপারস), পৃষ্ঠা 2236–2246, মেলবোর্ন, অস্ট্রেলিয়া, জুলাই 2018। অ্যাসোসিয়েশন ফর কম্পিউটেশনাল লিঙ্গুইস্টিকস। 8


[৫] ম্যাক্স বেইন, আরশা নাগরানি, অ্যান্ড্রু ব্রাউন এবং অ্যান্ড্রু জিসারম্যান। ঘনীভূত চলচ্চিত্র: প্রাসঙ্গিক এম্বেডিং সহ গল্প ভিত্তিক পুনরুদ্ধার। কম্পিউটার ভিশন, 2020-এ এশিয়ান কনফারেন্সের কার্যক্রমে। 2


[৬] পাবলো বার্সেলো, এগর ভি কোস্টাইলভ, মিকেল মোনেট, জর্জ পি ´ এরেজ, ´ জুয়ান রয়টার এবং জুয়ান পাবলো সিলভা। গ্রাফ নিউরাল নেটওয়ার্কের যৌক্তিক অভিব্যক্তি। শেখার প্রতিনিধিত্বের আন্তর্জাতিক সম্মেলনে, 2019। 12


[৭] ইয়োশুয়া বেঙ্গিও, নিকোলাস লিওনার্ড এবং অ্যারন কোরভিল। শর্তসাপেক্ষ গণনার জন্য স্টোকাস্টিক নিউরনের মাধ্যমে গ্রেডিয়েন্টের অনুমান বা প্রচার করা। arXiv প্রিপ্রিন্ট arXiv:1308.3432, 2013। 11


[৮] সঞ্জয় বিলাকিয়া, স্ট্যাভ্রস পেট্রিডিস, আন্তন নিজহোল্ট এবং মাজা প্যান্টিক। MAHNOB মিমিক্রি ডাটাবেস: প্রাকৃতিক মানবিক মিথস্ক্রিয়াগুলির একটি ডাটাবেস। প্যাটার্ন রিকগনিশন লেটারস, 66:52–61, 2015। হিউম্যান কম্পিউটার ইন্টারঅ্যাকশনে প্যাটার্ন রিকগনিশন। 8


[৯] কার্লোস বুসো, মুর্তজা বুলুট, চি-চুন লি, আবে কাজেমজাদেহ, এমিলি মাওয়ার, স্যামুয়েল কিম, জিনেট এন চ্যাং, সুংবোক লি, এবং শ্রীকান্ত এস নারায়ণন। আইমোক্যাপ: ইন্টারেক্টিভ ইমোশনাল ডায়াডিক মোশন ক্যাপচার ডাটাবেস। ভাষা সম্পদ এবং মূল্যায়ন, 42(4):335, 2008। 6


[১০] জোয়াও ক্যারেরা এবং অ্যান্ড্রু জিসারম্যান। কোন বাদি, কর্মের স্বীকৃতি? একটি নতুন মডেল এবং গতিবিদ্যা ডেটাসেট। 2017 সালে IEEE কনফারেন্স অন কম্পিউটার ভিশন অ্যান্ড প্যাটার্ন রিকগনিশন (CVPR), পৃষ্ঠা 4724–4733। IEEE কম্পিউটার সোসাইটি, 2017. 6


[১১] পাওলা ক্যাসকান্তে-বনিলা, কালপ্যাথি সীতারামন, মেংজিয়া লুও এবং ভিসেন্তে অর্ডোনেজ। মুভিস্কোপ: একাধিক পদ্ধতি ব্যবহার করে সিনেমার বৃহৎ-স্কেল বিশ্লেষণ। arXiv প্রিপ্রিন্ট arXiv:1908.03180, 2019. 5


[১২] ড্যানিয়েল সের, ইয়ানফেই ইয়াং, শেং-ই কং, নান হুয়া, নিকোল লিমতিয়াকো, রমনি সেন্ট জন, নোয়া কনস্ট্যান্ট, মারিও গুয়াজার্ডোসেপেডিস, স্টিভ ইউয়ান, ক্রিস টার, এট আল। সর্বজনীন বাক্য এনকোডার। arXiv প্রিপ্রিন্ট arXiv:1803.11175, 2018. 6


[১৩] জেমস ই কাটিং। বর্ণনামূলক তত্ত্ব এবং জনপ্রিয় চলচ্চিত্রের গতিবিদ্যা। সাইকোনমিক বুলেটিন এবং পর্যালোচনা, 23(6):1713– 1743, 2016। 1 [14] জিয়া ডেং, ওয়েই ডং, রিচার্ড সোচার, লি-জিয়া লি, কাই লি, এবং লি ফেই-ফেই। ইমেজনেট: একটি বৃহৎ আকারের শ্রেণিবদ্ধ চিত্র ডাটাবেস। 2009 সালে IEEE কনফারেন্স অন কম্পিউটার ভিশন এবং প্যাটার্ন রিকগনিশন, পৃষ্ঠা 248-255। আইইইই, 2009। 6


[১৫] ডেভিড কে ডুভেনাউড, ডগাল ম্যাকলরিন, জর্জ ইপাররাগুইরে, রাফায়েল বোম্বারেল, টিমোথি হিরজেল, অ্যালান অ্যাসপুরু-গুজিক এবং রায়ান পি অ্যাডামস। আণবিক আঙ্গুলের ছাপ শেখার জন্য গ্রাফে কনভোল্যুশনাল নেটওয়ার্ক। নিউরাল ইনফরমেশন প্রসেসিং সিস্টেমে অগ্রগতি, 28:2224-2232, 2015। 3


[১৬] জর্ট এফ গেমেকে, ড্যানিয়েল পিডব্লিউ এলিস, ডিলান ফ্রিডম্যান, আরেন জ্যানসেন, ওয়েড লরেন্স, আর চ্যানিং মুর, মনোজ প্লাকাল এবং মারভিন রিটার। অডিও সেট: অডিও ইভেন্টের জন্য একটি অন্টোলজি এবং মানব লেবেলযুক্ত ডেটাসেট। 2017 সালে IEEE ইন্টারন্যাশনাল কনফারেন্স অন অ্যাকোস্টিকস, স্পিচ অ্যান্ড সিগন্যাল প্রসেসিং (ICASSP), পৃষ্ঠা 776–780। IEEE, 2017. 6


[১৭] দীপানওয়ে ঘোষাল, নভোনীল মজুমদার, আলেকজান্ডার গেলবুখ, রাদা মিহালসিয়া এবং সৃজন্যা পোরিয়া। মহাজাগতিক: কথোপকথনে আবেগ সনাক্তকরণের জন্য সাধারণ জ্ঞান। প্রাকৃতিক ভাষা প্রক্রিয়াকরণে অভিজ্ঞতামূলক পদ্ধতির 2020 সম্মেলনের কার্যপ্রণালীতে: অনুসন্ধান, পৃষ্ঠা 2470-2481, 2020। 6 [18] রস গিরশিক। দ্রুত r-cnn. কম্পিউটার ভিশনের উপর IEEE আন্তর্জাতিক সম্মেলনের কার্যক্রমে, পৃষ্ঠা 1440–1448, 2015। 6


[১৯] ফিলিপ জন গোরিনস্কি এবং মিরেলা লাপাতা। গ্রাফ-ভিত্তিক দৃশ্য নিষ্কাশন হিসাবে মুভি স্ক্রিপ্ট সংক্ষিপ্তকরণ. কম্পিউটেশনাল ভাষাবিজ্ঞানের জন্য অ্যাসোসিয়েশনের উত্তর আমেরিকান অধ্যায়ের 2015 সম্মেলনের কার্যক্রমে: হিউম্যান ল্যাঙ্গুয়েজ টেকনোলজিস, পৃষ্ঠা 1066–1076, ডেনভার, কলোরাডো, মে-জুন 2015। অ্যাসোসিয়েশন ফর কম্পিউটেশনাল ভাষাবিজ্ঞান। 5, 12


[২০] মাইকেল গ্রিম, ক্রিস্টিয়ান ক্রোশেল এবং শ্রীকান্ত নারায়ণন। The Vera am Mittag জার্মান অডিও-ভিজ্যুয়াল ইমোশনাল বক্তৃতা ডাটাবেস। ICME-তে, পৃষ্ঠা 865-868। IEEE, 2008. 8


[২১] মাইকেল গুটম্যান এবং আপো হাইভারিনেন। নয়েজ-কন্ট্রাস্টিভ ¨ অনুমান: অস্বাভাবিক পরিসংখ্যান মডেলের জন্য একটি নতুন অনুমান নীতি। কৃত্রিম বুদ্ধিমত্তা এবং পরিসংখ্যান সম্পর্কিত ত্রয়োদশ আন্তর্জাতিক সম্মেলনের কার্যপ্রণালীতে, পৃষ্ঠা 297-304, 2010। 4


[২২] মাইকেল হাউজ। গল্প বলা সহজ হয়েছে: আপনার শ্রোতা, ক্রেতা এবং ক্লায়েন্টদের বোঝান এবং রূপান্তর করুন - সহজভাবে, দ্রুত এবং লাভজনকভাবে। ইন্ডি বুকস ইন্টারন্যাশনাল, 2017। 1, 3, 13


[২৩] জিওফ্রে হিন্টন, ওরিওল ভিনিয়ালস এবং জেফ ডিন। একটি নিউরাল নেটওয়ার্কে জ্ঞান পাতন করা। arXiv প্রিপ্রিন্ট arXiv:1503.02531, 2015। 2, 4


[২৪] গো ইরি, তাকাশি সাতৌ, আকিরা কোজিমা, তোশিহিকো ইয়ামাসাকি এবং কিয়োহারু আইজাওয়া। স্বয়ংক্রিয় ট্রেলার প্রজন্ম। মাল্টিমিডিয়ার উপর 18 তম ACM আন্তর্জাতিক সম্মেলনের কার্যক্রমে, পৃষ্ঠা 839–842, 2010। 1, 2


[২৫] এরিক জ্যাং, শিকিয়াং গু এবং বেন পুল। গাম্বল-সফ্টম্যাক্সের সাথে ক্যাটাগরিকাল রিপ্যারামেট্রাইজেশন। ইন্টারন্যাশনাল কনফারেন্স অন লার্নিং রিপ্রেজেন্টেশনে (ICLR 2017), 2017। 11


[২৬] স্টিভেন কিয়ারনেস, কেভিন ম্যাকক্লোস্কি, মার্ক বার্ন্ডল, বিজয় পান্ডে এবং প্যাট্রিক রিলি। আণবিক গ্রাফ আবর্তন: আঙ্গুলের ছাপের বাইরে চলে যাওয়া। কম্পিউটার-এডেড মলিকুলার ডিজাইনের জার্নাল, 30(8):595–608, 2016। 3


[২৭] হিউংহুন কিম, জিনেং তাং এবং মোহিত বনসাল। ভিডিওকা-তে অস্থায়ী স্থানীয়করণের জন্য ডেনসেকপশন ম্যাচিং এবং ফ্রেম-সিলেকশন গেটিং। অ্যাসোসিয়েশন ফর কম্পিউটেশনাল লিঙ্গুইস্টিকসের 58তম বার্ষিক সভার কার্যপ্রণালীতে, পৃষ্ঠা 4812–4822, 2020। 3


[২৮] টমাস এন. কিপফ এবং ম্যাক্স ওয়েলিং। গ্রাফ কনভোলিউশনাল নেটওয়ার্কের সাথে আধা-তত্ত্বাবধানে শ্রেণীবিভাগ। ইন্টারন্যাশনাল কনফারেন্স অন লার্নিং রিপ্রেজেন্টেশনে (ICLR), 2017। 3


[২৯] ইয়ানরান লি, হুই সু, জিয়াওয়ু শেন, ওয়েনজি লি, জিকিয়াং কাও এবং শুজি নিউ। দৈনিক ডায়ালগ: একটি ম্যানুয়ালি লেবেলযুক্ত মাল্টি-টার্ন ডায়ালগ ডেটাসেট৷ প্রাকৃতিক ভাষা প্রক্রিয়াকরণের উপর অষ্টম আন্তর্জাতিক যৌথ সম্মেলনের কার্যক্রমে (ভলিউম 1: লং পেপারস), পৃষ্ঠা 986-995, 2017। 6


[৩০] ডেভিড লোপেজ-পাজ, লিওন বোটৌ, বার্নহার্ড শ ´ ওলকপফ, এবং ¨ ভ্লাদিমির ভ্যাপনিক। একীকরণ পাতন এবং সুবিধাপ্রাপ্ত তথ্য. arXiv প্রিপ্রিন্ট arXiv:1511.03643, 2015। 2


[৩১] জর্ডান লুভিয়ের, টিএন ফ্লিন এবং এএজে মার্লে। সবচেয়ে খারাপ স্কেলিং: তত্ত্ব, পদ্ধতি এবং অ্যাপ্লিকেশন। 01 2015. 8


[৩২] ক্রিস জে ম্যাডিসন, অ্যান্ড্রি মনিহ এবং ইয়ে হোয়াই তেহ। কংক্রিট বন্টন: বিচ্ছিন্ন এলোমেলো ভেরিয়েবলের একটি ক্রমাগত শিথিলকরণ। শেখার প্রতিনিধিত্বের উপর 5ম আন্তর্জাতিক সম্মেলনে, ICLR 2017, Toulon, France, এপ্রিল 24- 26, 2017, Conference Track Proceedings, 2017। 11


[৩৩] অ্যান্টোইন মিচ, জিন-ব্যাপটিস্ট অ্যালেরাক, লুকাস স্মাইরা, ইভান ল্যাপ্টেভ, জোসেফ সিভিক এবং অ্যান্ড্রু জিসারম্যান। অপ্রচলিত নির্দেশমূলক ভিডিও থেকে ভিজ্যুয়াল উপস্থাপনাগুলির এন্ড-টু-এন্ড লার্নিং। IEEE/CVF কনফারেন্স অন কম্পিউটার ভিশন এবং প্যাটার্ন রিকগনিশনের কার্যপ্রণালীতে, পৃষ্ঠা 9879-9889, 2020। 2


[৩৪] অ্যান্টোইন মিচ, দিমিত্রি ঝুকভ, জিন-ব্যাপটিস্ট অ্যালেরাক, মকরন্দ তাপস্বি, ইভান ল্যাপটেভ এবং জোসেফ সিভিক। Howto100m: শত মিলিয়ন বর্ণিত ভিডিও ক্লিপ দেখে একটি পাঠ্য-ভিডিও এম্বেডিং শেখা। IEEE/CVF ইন্টারন্যাশনাল কনফারেন্স অন কম্পিউটার ভিশন, পৃষ্ঠা 2630–2640, 2019 এর কার্যপ্রণালীতে। 2


[৩৫] রাদা মিহালসিয়া এবং পল তারাউ। টেক্সট্র্যাঙ্ক: টেক্সটে অর্ডার আনা। প্রাকৃতিক ভাষা প্রক্রিয়াকরণে অভিজ্ঞতামূলক পদ্ধতির উপর 2004 সালের সম্মেলনের কার্যপ্রণালীতে, পৃষ্ঠা 404-411, 2004। 7


[৩৬] কোরি এস মায়ার্স এবং লরেন্স আর রাবিনার। সংযুক্ত-শব্দ স্বীকৃতির জন্য বেশ কয়েকটি গতিশীল সময়-ওয়ার্পিং অ্যালগরিদমের একটি তুলনামূলক অধ্যয়ন। বেল সিস্টেম টেকনিক্যাল জার্নাল, 60(7):1389–1409, 1981। 5


[৩৭] কেনটা ওনো এবং তাইজি সুজুকি। গ্রাফ নিউরাল নেটওয়ার্ক নোড শ্রেণীবিভাগের জন্য দ্রুতগতিতে অভিব্যক্তিমূলক শক্তি হারায়। শেখার প্রতিনিধিত্বের আন্তর্জাতিক সম্মেলনে, 2019। 12


[৩৮] অ্যারন ভ্যান ডেন ওর্ড, ইয়াজে লি এবং ওরিওল ভিনিয়ালস। বিপরীত ভবিষ্যদ্বাণীমূলক কোডিং সহ প্রতিনিধিত্ব শিক্ষা। arXiv প্রিপ্রিন্ট arXiv:1807.03748, 2018. 4, 5, 11


[৩৯] বক্সিয়াও প্যান, হাওয়ে কাই, দে-আন হুয়াং, কুয়ান-হুই লি, অ্যাড্রিয়েন গেইডন, এহসান অ্যাডেলি, এবং জুয়ান কার্লোস নিবলস। নলেজ ডিস্টিলেশন সহ ভিডিও ক্যাপশনের জন্য স্পেটিও-টেম্পোরাল গ্রাফ। কম্পিউটার ভিশন এবং প্যাটার্ন রিকগনিশনের উপর IEEE/CVF কনফারেন্সের কার্যপ্রণালীতে, পৃষ্ঠা 10870-10879, 2020। 4


[৪০] পিনেলোপি পাপলাম্পিডি, ফ্রাঙ্ক কেলার, লিয়া ফ্রেম্যান এবং মিরেলা লাপাতা। সুপ্ত বর্ণনামূলক কাঠামো ব্যবহার করে চিত্রনাট্যের সংক্ষিপ্তকরণ। অ্যাসোসিয়েশন ফর কম্পিউটেশনাল লিঙ্গুইস্টিকসের 58তম বার্ষিক সভার কার্যপ্রণালীতে, পৃষ্ঠা 1920-1933, 2020। 2


[৪১] পিনেলোপি পাপলাম্পিডি, ফ্রাঙ্ক কেলার এবং মিরেলা লাপাতা। টার্নিং পয়েন্ট সনাক্তকরণের মাধ্যমে মুভি প্লট বিশ্লেষণ। প্রাকৃতিক ভাষা প্রক্রিয়াকরণে অভিজ্ঞতামূলক পদ্ধতির 2019 সম্মেলনের কার্যপ্রণালী এবং প্রাকৃতিক ভাষা প্রক্রিয়াকরণের উপর 9তম আন্তর্জাতিক যৌথ সম্মেলন (EMNLPIJCNLP), পৃষ্ঠা 1707–1717, 2019। 2, 3, 5, 6, 11, 12


[৪২] পিনেলোপি পাপলাম্পিডি, ফ্রাঙ্ক কেলার এবং মিরেলা লাপাতা। স্পার্স গ্রাফ নির্মাণের মাধ্যমে মুভির সারাংশ। কৃত্রিম বুদ্ধিমত্তার উপর পঁয়ত্রিশতম AAAI সম্মেলনে, 2021। 2, 3, 5, 6, 12


[৪৩] সৌজন্য পোরিয়া, দেবমন্যু হাজারিকা, নভোনীল মজুমদার, গৌতম নায়েক, এরিক ক্যামব্রিয়া, এবং রাদা মিহালসিয়া। মেলড: কথোপকথনে আবেগ স্বীকৃতির জন্য একটি মাল্টিমোডাল মাল্টি-পার্টি ডেটাসেট। অ্যাসোসিয়েশন ফর কম্পিউটেশনাল লিঙ্গুইস্টিকসের 57তম বার্ষিক সভার কার্যপ্রণালীতে, পৃষ্ঠা 527– 536, 2019। 6


[৪৪] আনা রোহরবাচ, মার্কাস রোহরবাচ, নিকেত ট্যান্ডন, এবং বার্ন্ট শিয়েল। চলচ্চিত্রের বর্ণনার জন্য একটি ডেটাসেট। কম্পিউটার ভিশন এবং প্যাটার্ন রিকগনিশনের উপর IEEE সম্মেলনের কার্যপ্রণালীতে, পৃষ্ঠা 3202–3212, 2015। 2


[৪৫] মিনজুন সিও, অনিরুদ্ধ কেমভাভি, আলী ফারহাদি, এবং হান্নানেহ হাজিশিরজি। মেশিন বোঝার জন্য দ্বিমুখী মনোযোগ প্রবাহ। শেখার প্রতিনিধিত্বের আন্তর্জাতিক সম্মেলনে, 2017। 3


[৪৬] অ্যালান এফ স্মিটন, বার্ট লেহান, নোয়েল ই ও'কনর, কনর ব্র্যাডি এবং গ্যারি ক্রেগ। অ্যাকশন মুভি ট্রেলারের জন্য স্বয়ংক্রিয়ভাবে শট নির্বাচন করা হচ্ছে। মাল্টিমিডিয়া তথ্য পুনরুদ্ধারের উপর 8 তম ACM আন্তর্জাতিক কর্মশালার কার্যপ্রণালীতে, পৃষ্ঠা 231-238, 2006। 1, 2


[৪৭] জন আর স্মিথ, ধীরাজ জোশি, বেনোইট হুয়েট, উইনস্টন হু, এবং জোজেফ কোটা। সৃজনশীলতা বৃদ্ধির জন্য AI ব্যবহার করা: সিনেমার ট্রেলার তৈরিতে আবেদন। মাল্টিমিডিয়ার উপর 25 তম ACM আন্তর্জাতিক সম্মেলনের কার্যক্রমে, পৃষ্ঠা 1799– 1808, 2017। 2, 7


[৪৮] সিকি সান, জে গান, ইউওয়েই ফাং, ইউ চেং, শুওহাং ওয়াং এবং জিংজিং লিউ। ভাষা মডেল কম্প্রেশন জন্য মধ্যবর্তী উপস্থাপনা উপর বিপরীত পাতন. প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (EMNLP) বিষয়ে 2020 সম্মেলনের কার্যপ্রণালীতে, পৃষ্ঠা 498-508, 2020। 4


[৪৯] মকরন্দ তপস্বী, মার্টিন বাউমল এবং রেনার স্টিফেলহেগেন। Book2movie: বইয়ের অধ্যায়গুলির সাথে ভিডিও দৃশ্যগুলি সারিবদ্ধ করা৷ কম্পিউটার ভিশন এবং প্যাটার্ন রিকগনিশনের উপর IEEE সম্মেলনের কার্যপ্রণালীতে, পৃষ্ঠা 1827-1835, 2015। 2


[৫০] মকরন্দ তপস্বী, ইউকুন ঝু, রেনার স্টিফেলহেগেন, আন্তোনিও তোরালবা, রাকেল উরতাসুন এবং সানজা ফিডলার। মুভিকা: প্রশ্নোত্তরের মাধ্যমে সিনেমার গল্প বোঝা। কম্পিউটার ভিশন এবং প্যাটার্ন রিকগনিশনের উপর IEEE সম্মেলনের কার্যপ্রণালীতে, পৃষ্ঠা 4631–4640, 2016। 2


[৫১] ক্রিস্টিন থম্পসন। নতুন হলিউডে গল্প বলা: ক্লাসিক্যাল বর্ণনার কৌশল বোঝা। হার্ভার্ড ইউনিভার্সিটি প্রেস, 1999। 1


[৫২] আশিস ভাসওয়ানি, নোম শাজির, নিকি পারমার, জ্যাকব উসকোরিট, লিয়ন জোন্স, আইডান এন গোমেজ, লুকাস কায়সার এবং ইলিয়া পোলোসুখিন। মনোযোগ আপনার প্রয়োজন সব. নিউরাল ইনফরমেশন প্রসেসিং সিস্টেমের অগ্রগতিতে, পৃষ্ঠা 5998-6008, 2017। 3


[৫৩] লেজি ওয়াং, ডং লিউ, রোহিত পুরি, এবং দিমিত্রিস এন মেটাক্সাস। পূর্ণ-দৈর্ঘ্যের চলচ্চিত্রে ট্রেলারের মুহূর্তগুলি সহ-অনুরোধী মনোযোগ সহ শেখা। কম্পিউটার ভিশনে ইউরোপীয় সম্মেলনে, পৃষ্ঠা 300-316। স্প্রিংগার, 2020। 1, 2, 7


[৫৪] ইউক্সিন উ, আলেকজান্ডার কিরিলোভ, ফ্রান্সিসকো মাসা, ওয়ান-ইয়েন লো এবং রস গিরশিক। ডিটেকট্রন2। https://github. com/facebookresearch/detectron2, 2019। 6


[৫৫] ঝিরং উ, ইউয়ানজুন জিওং, স্টেলা এক্স ইউ, এবং ডাহুয়া লিন। নন-প্যারামেট্রিক ইনস্ট্যান্স ডিসক্রিমিনেশনের মাধ্যমে তত্ত্বাবধানহীন বৈশিষ্ট্য শিক্ষা। কম্পিউটার ভিশন এবং প্যাটার্ন রিকগনিশনের উপর IEEE সম্মেলনের কার্যপ্রণালীতে, পৃষ্ঠা 3733– 3742, 2018। 4


[৫৬] সেনিং জি, রস গিরশিক, পিওর ডলার, ঝুওয়েন তু এবং ´কাইমিং হে। গভীর নিউরাল নেটওয়ার্কের জন্য সমষ্টিগত অবশিষ্ট রূপান্তর। কম্পিউটার ভিশন এবং প্যাটার্ন স্বীকৃতির উপর IEEE সম্মেলনের কার্যপ্রণালীতে, পৃষ্ঠা 1492–1500, 2017। 6


[৫৭] হংটেং জু, ই জেন এবং হংইয়ুয়ান ঝা। একটি পয়েন্ট প্রক্রিয়া-ভিত্তিক ভিজ্যুয়াল আকর্ষণীয় মডেলের মাধ্যমে ট্রেলার প্রজন্ম। কৃত্রিম বুদ্ধিমত্তা সংক্রান্ত 24 তম আন্তর্জাতিক সম্মেলনের কার্যক্রমে, পৃষ্ঠা 2198-2204, 2015। 2, 7


এই কাগজটি CC BY-SA 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ