paint-brush
টাস্ক ডিকম্পোজিশনের মাধ্যমে ফিল্ম ট্রেলার জেনারেশন: উপসংহার এবং রেফারেন্সদ্বারা@kinetograph

টাস্ক ডিকম্পোজিশনের মাধ্যমে ফিল্ম ট্রেলার জেনারেশন: উপসংহার এবং রেফারেন্স

অতিদীর্ঘ; পড়তে

এই গবেষণাপত্রে, গবেষকরা ট্রেলার তৈরি করার জন্য গ্রাফ হিসাবে চলচ্চিত্রগুলিকে মডেল করেন, আখ্যানের কাঠামো সনাক্ত করে এবং অনুভূতির পূর্বাভাস দেয়, তত্ত্বাবধানে থাকা পদ্ধতিগুলিকে ছাড়িয়ে যায়।
featured image - টাস্ক ডিকম্পোজিশনের মাধ্যমে ফিল্ম ট্রেলার জেনারেশন: উপসংহার এবং রেফারেন্স
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

লেখক:

(1) Pinelopi Papalampidi, Institute for Language, Cognition and Computation, School of Informatics, University of Edinburgh;

(2) ফ্র্যাঙ্ক কেলার, ভাষা, জ্ঞান ও গণনার ইনস্টিটিউট, স্কুল অফ ইনফরমেটিক্স, এডিনবার্গ বিশ্ববিদ্যালয়;

(৩) মিরেলা লাপাতা, ইনস্টিটিউট ফর ল্যাঙ্গুয়েজ, কগনিশন অ্যান্ড কম্পিউটেশন, স্কুল অফ ইনফরমেটিক্স, ইউনিভার্সিটি অফ এডিনবার্গ।

লিঙ্কের টেবিল

6। উপসংহার

এই কাজে, আমরা একটি ট্রেলার প্রজন্মের পদ্ধতির প্রস্তাব করেছি যা সিনেমাগুলির একটি গ্রাফ-ভিত্তিক উপস্থাপনা গ্রহণ করে এবং শট নির্বাচনের জন্য ব্যাখ্যাযোগ্য মানদণ্ড ব্যবহার করে। আমরা এটিও দেখাই যে চিত্রনাট্য থেকে বিশেষ সুবিধাপ্রাপ্ত তথ্যগুলি কীভাবে বিপরীত শিক্ষার মাধ্যমে ব্যবহার করা যেতে পারে, যার ফলে একটি মডেল যা টার্নিং পয়েন্ট সনাক্তকরণ এবং ট্রেলার তৈরির জন্য ব্যবহার করা যেতে পারে। আমাদের মডেল দ্বারা উত্পন্ন ট্রেলারগুলি তাদের বিষয়বস্তু এবং আকর্ষণীয়তার পরিপ্রেক্ষিতে অনুকূলভাবে বিচার করা হয়েছিল৷


ভবিষ্যতে আমরা চলচ্চিত্রে সূক্ষ্ম আবেগ (যেমন, দুঃখ, ঘৃণা, সন্ত্রাস, আনন্দ) ভবিষ্যদ্বাণী করার পদ্ধতিগুলির উপর ফোকাস করতে চাই। এই কাজে, ইন-ডোমেন লেবেলযুক্ত ডেটাসেটের অনুপস্থিতির কারণে আমরা ইতিবাচক/নেতিবাচক অনুভূতিকে আবেগের জন্য স্ট্যান্ড-ইন হিসাবে বিবেচনা করি। পূর্ববর্তী প্রচেষ্টাগুলি টুইটগুলি [1], ইউটিউব মতামত ভিডিও [4], টকশো [20] এবং মানুষের মিথস্ক্রিয়াগুলির রেকর্ডিংয়ের উপর দৃষ্টি নিবদ্ধ করেছে [8]। প্রাথমিক পরীক্ষায় দেখা গেছে যে অন্যান্য ডোমেন থেকে আমাদের কাছে সূক্ষ্ম-দানাযুক্ত আবেগ জ্ঞান স্থানান্তর করার ফলে অনুভূতির তুলনায় অবিশ্বাস্য ভবিষ্যদ্বাণী হয় যা আরও স্থিতিশীল এবং ট্রেলার প্রজন্মের কর্মক্ষমতা উন্নত করে। ভবিষ্যতের কাজের পথের মধ্যে রয়েছে চলচ্চিত্রের জন্য নতুন আবেগ ডেটাসেট, সেইসাথে পাঠ্য এবং অডিওভিজ্যুয়াল সংকেতের উপর ভিত্তি করে আবেগ সনাক্তকরণ মডেল।

তথ্যসূত্র

[১] মুহাম্মদ আবদুল-মাগিদ এবং লাইল উঙ্গার। ইমোনেট: গেটেড পুনরাবৃত্ত নিউরাল নেটওয়ার্কের সাথে সূক্ষ্ম আবেগ সনাক্তকরণ। অ্যাসোসিয়েশন ফর কম্পিউটেশনাল লিঙ্গুইস্টিকসের 55 তম বার্ষিক সভার কার্যপ্রণালীতে (ভলিউম 1: লং পেপারস), পৃষ্ঠা 718–728, ভ্যাঙ্কুভার, কানাডা, জুলাই 2017। অ্যাসোসিয়েশন ফর কম্পিউটেশনাল ভাষাবিজ্ঞান। 8


[2] উরি আলন ও এরান ইয়াহভ। গ্রাফ নিউরাল নেটওয়ার্ক এবং এর ব্যবহারিক প্রভাবগুলির বাধার উপর। শেখার প্রতিনিধিত্বের আন্তর্জাতিক সম্মেলনে, 2020। 12


[৩] জিমি বা এবং রিচ কারুয়ানা। গভীর জাল কি সত্যিই গভীর হতে হবে? নিউরাল ইনফরমেশন প্রসেসিং সিস্টেমে অগ্রগতির প্রক্রিয়ায়, পৃষ্ঠা 2654-2662, মন্ট্রিল, কুইবেক, কানাডা, 2014। 2, 4


[৪] আমিরআলি বাঘের জাদেহ, পল পু লিয়াং, সৌজন্যা পোরিয়া, এরিক ক্যামব্রিয়া এবং লুই-ফিলিপ মরেন্সি। বন্য মধ্যে মাল্টিমোডাল ভাষা বিশ্লেষণ: CMU-MOSEI ডেটাসেট এবং ব্যাখ্যাযোগ্য গতিশীল ফিউশন গ্রাফ। অ্যাসোসিয়েশন ফর কম্পিউটেশনাল লিঙ্গুইস্টিকসের 56 তম বার্ষিক সভার কার্যক্রমে (ভলিউম 1: লং পেপারস), পৃষ্ঠা 2236–2246, মেলবোর্ন, অস্ট্রেলিয়া, জুলাই 2018। অ্যাসোসিয়েশন ফর কম্পিউটেশনাল লিঙ্গুইস্টিকস। 8


[৫] ম্যাক্স বেইন, আরশা নাগরানি, অ্যান্ড্রু ব্রাউন এবং অ্যান্ড্রু জিসারম্যান। ঘনীভূত চলচ্চিত্র: প্রাসঙ্গিক এম্বেডিং সহ গল্প ভিত্তিক পুনরুদ্ধার। কম্পিউটার ভিশন, 2020-এ এশিয়ান কনফারেন্সের কার্যক্রমে। 2


[৬] পাবলো বার্সেলো, এগর ভি কোস্টাইলভ, মিকেল মোনেট, জর্জ পি ´ এরেজ, ´ জুয়ান রয়টার এবং জুয়ান পাবলো সিলভা। গ্রাফ নিউরাল নেটওয়ার্কের যৌক্তিক অভিব্যক্তি। শেখার প্রতিনিধিত্বের আন্তর্জাতিক সম্মেলনে, 2019। 12


[৭] ইয়োশুয়া বেঙ্গিও, নিকোলাস লিওনার্ড এবং অ্যারন কোরভিল। শর্তসাপেক্ষ গণনার জন্য স্টোকাস্টিক নিউরনের মাধ্যমে গ্রেডিয়েন্টের অনুমান বা প্রচার করা। arXiv প্রিপ্রিন্ট arXiv:1308.3432, 2013। 11


[৮] সঞ্জয় বিলাকিয়া, স্ট্যাভ্রস পেট্রিডিস, আন্তন নিজহোল্ট এবং মাজা প্যান্টিক। MAHNOB মিমিক্রি ডাটাবেস: প্রাকৃতিক মানবিক মিথস্ক্রিয়াগুলির একটি ডাটাবেস। প্যাটার্ন রিকগনিশন লেটারস, 66:52–61, 2015। হিউম্যান কম্পিউটার ইন্টারঅ্যাকশনে প্যাটার্ন রিকগনিশন। 8


[৯] কার্লোস বুসো, মুর্তজা বুলুট, চি-চুন লি, আবে কাজেমজাদেহ, এমিলি মাওয়ার, স্যামুয়েল কিম, জিনেট এন চ্যাং, সুংবোক লি, এবং শ্রীকান্ত এস নারায়ণন। আইমোক্যাপ: ইন্টারেক্টিভ ইমোশনাল ডায়াডিক মোশন ক্যাপচার ডাটাবেস। ভাষা সম্পদ এবং মূল্যায়ন, 42(4):335, 2008। 6


[১০] জোয়াও ক্যারেরা এবং অ্যান্ড্রু জিসারম্যান। কোন বাদি, কর্মের স্বীকৃতি? একটি নতুন মডেল এবং গতিবিদ্যা ডেটাসেট। 2017 সালে IEEE কনফারেন্স অন কম্পিউটার ভিশন অ্যান্ড প্যাটার্ন রিকগনিশন (CVPR), পৃষ্ঠা 4724–4733। IEEE কম্পিউটার সোসাইটি, 2017. 6


[১১] পাওলা ক্যাসকান্তে-বনিলা, কালপ্যাথি সীতারামন, মেংজিয়া লুও এবং ভিসেন্তে অর্ডোনেজ। মুভিস্কোপ: একাধিক পদ্ধতি ব্যবহার করে সিনেমার বৃহৎ-স্কেল বিশ্লেষণ। arXiv প্রিপ্রিন্ট arXiv:1908.03180, 2019. 5


[১২] ড্যানিয়েল সের, ইয়ানফেই ইয়াং, শেং-ই কং, নান হুয়া, নিকোল লিমতিয়াকো, রমনি সেন্ট জন, নোয়া কনস্ট্যান্ট, মারিও গুয়াজার্ডোসেপেডিস, স্টিভ ইউয়ান, ক্রিস টার, এট আল। সর্বজনীন বাক্য এনকোডার। arXiv প্রিপ্রিন্ট arXiv:1803.11175, 2018. 6


[১৩] জেমস ই কাটিং। বর্ণনামূলক তত্ত্ব এবং জনপ্রিয় চলচ্চিত্রের গতিবিদ্যা। সাইকোনমিক বুলেটিন এবং পর্যালোচনা, 23(6):1713– 1743, 2016। 1 [14] জিয়া ডেং, ওয়েই ডং, রিচার্ড সোচার, লি-জিয়া লি, কাই লি, এবং লি ফেই-ফেই। ইমেজনেট: একটি বৃহৎ আকারের শ্রেণিবদ্ধ চিত্র ডাটাবেস। 2009 সালে IEEE কনফারেন্স অন কম্পিউটার ভিশন এবং প্যাটার্ন রিকগনিশন, পৃষ্ঠা 248-255। আইইইই, 2009। 6


[১৫] ডেভিড কে ডুভেনাউড, ডগাল ম্যাকলরিন, জর্জ ইপাররাগুইরে, রাফায়েল বোম্বারেল, টিমোথি হিরজেল, অ্যালান অ্যাসপুরু-গুজিক এবং রায়ান পি অ্যাডামস। আণবিক আঙ্গুলের ছাপ শেখার জন্য গ্রাফে কনভোল্যুশনাল নেটওয়ার্ক। নিউরাল ইনফরমেশন প্রসেসিং সিস্টেমে অগ্রগতি, 28:2224-2232, 2015। 3


[১৬] জর্ট এফ গেমেকে, ড্যানিয়েল পিডব্লিউ এলিস, ডিলান ফ্রিডম্যান, আরেন জ্যানসেন, ওয়েড লরেন্স, আর চ্যানিং মুর, মনোজ প্লাকাল এবং মারভিন রিটার। অডিও সেট: অডিও ইভেন্টের জন্য একটি অন্টোলজি এবং মানব লেবেলযুক্ত ডেটাসেট। 2017 সালে IEEE ইন্টারন্যাশনাল কনফারেন্স অন অ্যাকোস্টিকস, স্পিচ অ্যান্ড সিগন্যাল প্রসেসিং (ICASSP), পৃষ্ঠা 776–780। IEEE, 2017. 6


[১৭] দীপানওয়ে ঘোষাল, নভোনীল মজুমদার, আলেকজান্ডার গেলবুখ, রাদা মিহালসিয়া এবং সৃজন্যা পোরিয়া। মহাজাগতিক: কথোপকথনে আবেগ সনাক্তকরণের জন্য সাধারণ জ্ঞান। প্রাকৃতিক ভাষা প্রক্রিয়াকরণে অভিজ্ঞতামূলক পদ্ধতির 2020 সম্মেলনের কার্যপ্রণালীতে: অনুসন্ধান, পৃষ্ঠা 2470-2481, 2020। 6 [18] রস গিরশিক। দ্রুত r-cnn. কম্পিউটার ভিশনের উপর IEEE আন্তর্জাতিক সম্মেলনের কার্যক্রমে, পৃষ্ঠা 1440–1448, 2015। 6


[১৯] ফিলিপ জন গোরিনস্কি এবং মিরেলা লাপাতা। গ্রাফ-ভিত্তিক দৃশ্য নিষ্কাশন হিসাবে মুভি স্ক্রিপ্ট সংক্ষিপ্তকরণ. কম্পিউটেশনাল ভাষাবিজ্ঞানের জন্য অ্যাসোসিয়েশনের উত্তর আমেরিকান অধ্যায়ের 2015 সম্মেলনের কার্যক্রমে: হিউম্যান ল্যাঙ্গুয়েজ টেকনোলজিস, পৃষ্ঠা 1066–1076, ডেনভার, কলোরাডো, মে-জুন 2015। অ্যাসোসিয়েশন ফর কম্পিউটেশনাল ভাষাবিজ্ঞান। 5, 12


[২০] মাইকেল গ্রিম, ক্রিস্টিয়ান ক্রোশেল এবং শ্রীকান্ত নারায়ণন। The Vera am Mittag জার্মান অডিও-ভিজ্যুয়াল ইমোশনাল বক্তৃতা ডাটাবেস। ICME-তে, পৃষ্ঠা 865-868। IEEE, 2008. 8


[২১] মাইকেল গুটম্যান এবং আপো হাইভারিনেন। নয়েজ-কন্ট্রাস্টিভ ¨ অনুমান: অস্বাভাবিক পরিসংখ্যান মডেলের জন্য একটি নতুন অনুমান নীতি। কৃত্রিম বুদ্ধিমত্তা এবং পরিসংখ্যান সম্পর্কিত ত্রয়োদশ আন্তর্জাতিক সম্মেলনের কার্যপ্রণালীতে, পৃষ্ঠা 297-304, 2010। 4


[২২] মাইকেল হাউজ। গল্প বলা সহজ হয়েছে: আপনার শ্রোতা, ক্রেতা এবং ক্লায়েন্টদের বোঝান এবং রূপান্তর করুন - সহজভাবে, দ্রুত এবং লাভজনকভাবে। ইন্ডি বুকস ইন্টারন্যাশনাল, 2017। 1, 3, 13


[২৩] জিওফ্রে হিন্টন, ওরিওল ভিনিয়ালস এবং জেফ ডিন। একটি নিউরাল নেটওয়ার্কে জ্ঞান পাতন করা। arXiv প্রিপ্রিন্ট arXiv:1503.02531, 2015। 2, 4


[২৪] গো ইরি, তাকাশি সাতৌ, আকিরা কোজিমা, তোশিহিকো ইয়ামাসাকি এবং কিয়োহারু আইজাওয়া। স্বয়ংক্রিয় ট্রেলার প্রজন্ম। মাল্টিমিডিয়ার উপর 18 তম ACM আন্তর্জাতিক সম্মেলনের কার্যক্রমে, পৃষ্ঠা 839–842, 2010। 1, 2


[২৫] এরিক জ্যাং, শিকিয়াং গু এবং বেন পুল। গাম্বল-সফ্টম্যাক্সের সাথে ক্যাটাগরিকাল রিপ্যারামেট্রাইজেশন। ইন্টারন্যাশনাল কনফারেন্স অন লার্নিং রিপ্রেজেন্টেশনে (ICLR 2017), 2017। 11


[২৬] স্টিভেন কিয়ারনেস, কেভিন ম্যাকক্লোস্কি, মার্ক বার্ন্ডল, বিজয় পান্ডে এবং প্যাট্রিক রিলি। আণবিক গ্রাফ আবর্তন: আঙ্গুলের ছাপের বাইরে চলে যাওয়া। কম্পিউটার-এডেড মলিকুলার ডিজাইনের জার্নাল, 30(8):595–608, 2016। 3


[২৭] হিউংহুন কিম, জিনেং তাং এবং মোহিত বনসাল। ভিডিওকা-তে অস্থায়ী স্থানীয়করণের জন্য ডেনসেকপশন ম্যাচিং এবং ফ্রেম-সিলেকশন গেটিং। অ্যাসোসিয়েশন ফর কম্পিউটেশনাল লিঙ্গুইস্টিকসের 58তম বার্ষিক সভার কার্যপ্রণালীতে, পৃষ্ঠা 4812–4822, 2020। 3


[২৮] টমাস এন. কিপফ এবং ম্যাক্স ওয়েলিং। গ্রাফ কনভোলিউশনাল নেটওয়ার্কের সাথে আধা-তত্ত্বাবধানে শ্রেণীবিভাগ। ইন্টারন্যাশনাল কনফারেন্স অন লার্নিং রিপ্রেজেন্টেশনে (ICLR), 2017। 3


[২৯] ইয়ানরান লি, হুই সু, জিয়াওয়ু শেন, ওয়েনজি লি, জিকিয়াং কাও এবং শুজি নিউ। দৈনিক ডায়ালগ: একটি ম্যানুয়ালি লেবেলযুক্ত মাল্টি-টার্ন ডায়ালগ ডেটাসেট৷ প্রাকৃতিক ভাষা প্রক্রিয়াকরণের উপর অষ্টম আন্তর্জাতিক যৌথ সম্মেলনের কার্যক্রমে (ভলিউম 1: লং পেপারস), পৃষ্ঠা 986-995, 2017। 6


[৩০] ডেভিড লোপেজ-পাজ, লিওন বোটৌ, বার্নহার্ড শ ´ ওলকপফ, এবং ¨ ভ্লাদিমির ভ্যাপনিক। একীকরণ পাতন এবং সুবিধাপ্রাপ্ত তথ্য. arXiv প্রিপ্রিন্ট arXiv:1511.03643, 2015। 2


[৩১] জর্ডান লুভিয়ের, টিএন ফ্লিন এবং এএজে মার্লে। সবচেয়ে খারাপ স্কেলিং: তত্ত্ব, পদ্ধতি এবং অ্যাপ্লিকেশন। 01 2015. 8


[৩২] ক্রিস জে ম্যাডিসন, অ্যান্ড্রি মনিহ এবং ইয়ে হোয়াই তেহ। কংক্রিট বন্টন: বিচ্ছিন্ন এলোমেলো ভেরিয়েবলের একটি ক্রমাগত শিথিলকরণ। শেখার প্রতিনিধিত্বের উপর 5ম আন্তর্জাতিক সম্মেলনে, ICLR 2017, Toulon, France, এপ্রিল 24- 26, 2017, Conference Track Proceedings, 2017। 11


[৩৩] অ্যান্টোইন মিচ, জিন-ব্যাপটিস্ট অ্যালেরাক, লুকাস স্মাইরা, ইভান ল্যাপ্টেভ, জোসেফ সিভিক এবং অ্যান্ড্রু জিসারম্যান। অপ্রচলিত নির্দেশমূলক ভিডিও থেকে ভিজ্যুয়াল উপস্থাপনাগুলির এন্ড-টু-এন্ড লার্নিং। IEEE/CVF কনফারেন্স অন কম্পিউটার ভিশন এবং প্যাটার্ন রিকগনিশনের কার্যপ্রণালীতে, পৃষ্ঠা 9879-9889, 2020। 2


[৩৪] অ্যান্টোইন মিচ, দিমিত্রি ঝুকভ, জিন-ব্যাপটিস্ট অ্যালেরাক, মকরন্দ তাপস্বি, ইভান ল্যাপটেভ এবং জোসেফ সিভিক। Howto100m: শত মিলিয়ন বর্ণিত ভিডিও ক্লিপ দেখে একটি পাঠ্য-ভিডিও এম্বেডিং শেখা। IEEE/CVF ইন্টারন্যাশনাল কনফারেন্স অন কম্পিউটার ভিশন, পৃষ্ঠা 2630–2640, 2019 এর কার্যপ্রণালীতে। 2


[৩৫] রাদা মিহালসিয়া এবং পল তারাউ। টেক্সট্র্যাঙ্ক: টেক্সটে অর্ডার আনা। প্রাকৃতিক ভাষা প্রক্রিয়াকরণে অভিজ্ঞতামূলক পদ্ধতির উপর 2004 সালের সম্মেলনের কার্যপ্রণালীতে, পৃষ্ঠা 404-411, 2004। 7


[৩৬] কোরি এস মায়ার্স এবং লরেন্স আর রাবিনার। সংযুক্ত-শব্দ স্বীকৃতির জন্য বেশ কয়েকটি গতিশীল সময়-ওয়ার্পিং অ্যালগরিদমের একটি তুলনামূলক অধ্যয়ন। বেল সিস্টেম টেকনিক্যাল জার্নাল, 60(7):1389–1409, 1981। 5


[৩৭] কেনটা ওনো এবং তাইজি সুজুকি। গ্রাফ নিউরাল নেটওয়ার্ক নোড শ্রেণীবিভাগের জন্য দ্রুতগতিতে অভিব্যক্তিমূলক শক্তি হারায়। শেখার প্রতিনিধিত্বের আন্তর্জাতিক সম্মেলনে, 2019। 12


[৩৮] অ্যারন ভ্যান ডেন ওর্ড, ইয়াজে লি এবং ওরিওল ভিনিয়ালস। বিপরীত ভবিষ্যদ্বাণীমূলক কোডিং সহ প্রতিনিধিত্ব শিক্ষা। arXiv প্রিপ্রিন্ট arXiv:1807.03748, 2018. 4, 5, 11


[৩৯] বক্সিয়াও প্যান, হাওয়ে কাই, দে-আন হুয়াং, কুয়ান-হুই লি, অ্যাড্রিয়েন গেইডন, এহসান অ্যাডেলি, এবং জুয়ান কার্লোস নিবলস। নলেজ ডিস্টিলেশন সহ ভিডিও ক্যাপশনের জন্য স্পেটিও-টেম্পোরাল গ্রাফ। কম্পিউটার ভিশন এবং প্যাটার্ন রিকগনিশনের উপর IEEE/CVF কনফারেন্সের কার্যপ্রণালীতে, পৃষ্ঠা 10870-10879, 2020। 4


[৪০] পিনেলোপি পাপলাম্পিডি, ফ্রাঙ্ক কেলার, লিয়া ফ্রেম্যান এবং মিরেলা লাপাতা। সুপ্ত বর্ণনামূলক কাঠামো ব্যবহার করে চিত্রনাট্যের সংক্ষিপ্তকরণ। অ্যাসোসিয়েশন ফর কম্পিউটেশনাল লিঙ্গুইস্টিকসের 58তম বার্ষিক সভার কার্যপ্রণালীতে, পৃষ্ঠা 1920-1933, 2020। 2


[৪১] পিনেলোপি পাপলাম্পিডি, ফ্রাঙ্ক কেলার এবং মিরেলা লাপাতা। টার্নিং পয়েন্ট সনাক্তকরণের মাধ্যমে মুভি প্লট বিশ্লেষণ। প্রাকৃতিক ভাষা প্রক্রিয়াকরণে অভিজ্ঞতামূলক পদ্ধতির 2019 সম্মেলনের কার্যপ্রণালী এবং প্রাকৃতিক ভাষা প্রক্রিয়াকরণের উপর 9তম আন্তর্জাতিক যৌথ সম্মেলন (EMNLPIJCNLP), পৃষ্ঠা 1707–1717, 2019। 2, 3, 5, 6, 11, 12


[৪২] পিনেলোপি পাপলাম্পিডি, ফ্রাঙ্ক কেলার এবং মিরেলা লাপাতা। স্পার্স গ্রাফ নির্মাণের মাধ্যমে মুভির সারাংশ। কৃত্রিম বুদ্ধিমত্তার উপর পঁয়ত্রিশতম AAAI সম্মেলনে, 2021। 2, 3, 5, 6, 12


[৪৩] সৌজন্য পোরিয়া, দেবমন্যু হাজারিকা, নভোনীল মজুমদার, গৌতম নায়েক, এরিক ক্যামব্রিয়া, এবং রাদা মিহালসিয়া। মেলড: কথোপকথনে আবেগ স্বীকৃতির জন্য একটি মাল্টিমোডাল মাল্টি-পার্টি ডেটাসেট। অ্যাসোসিয়েশন ফর কম্পিউটেশনাল লিঙ্গুইস্টিকসের 57তম বার্ষিক সভার কার্যপ্রণালীতে, পৃষ্ঠা 527– 536, 2019। 6


[৪৪] আনা রোহরবাচ, মার্কাস রোহরবাচ, নিকেত ট্যান্ডন, এবং বার্ন্ট শিয়েল। চলচ্চিত্রের বর্ণনার জন্য একটি ডেটাসেট। কম্পিউটার ভিশন এবং প্যাটার্ন রিকগনিশনের উপর IEEE সম্মেলনের কার্যপ্রণালীতে, পৃষ্ঠা 3202–3212, 2015। 2


[৪৫] মিনজুন সিও, অনিরুদ্ধ কেমভাভি, আলী ফারহাদি, এবং হান্নানেহ হাজিশিরজি। মেশিন বোঝার জন্য দ্বিমুখী মনোযোগ প্রবাহ। শেখার প্রতিনিধিত্বের আন্তর্জাতিক সম্মেলনে, 2017। 3


[৪৬] অ্যালান এফ স্মিটন, বার্ট লেহান, নোয়েল ই ও'কনর, কনর ব্র্যাডি এবং গ্যারি ক্রেগ। অ্যাকশন মুভি ট্রেলারের জন্য স্বয়ংক্রিয়ভাবে শট নির্বাচন করা হচ্ছে। মাল্টিমিডিয়া তথ্য পুনরুদ্ধারের উপর 8 তম ACM আন্তর্জাতিক কর্মশালার কার্যপ্রণালীতে, পৃষ্ঠা 231-238, 2006। 1, 2


[৪৭] জন আর স্মিথ, ধীরাজ জোশি, বেনোইট হুয়েট, উইনস্টন হু, এবং জোজেফ কোটা। সৃজনশীলতা বৃদ্ধির জন্য AI ব্যবহার করা: সিনেমার ট্রেলার তৈরিতে আবেদন। মাল্টিমিডিয়ার উপর 25 তম ACM আন্তর্জাতিক সম্মেলনের কার্যক্রমে, পৃষ্ঠা 1799– 1808, 2017। 2, 7


[৪৮] সিকি সান, জে গান, ইউওয়েই ফাং, ইউ চেং, শুওহাং ওয়াং এবং জিংজিং লিউ। ভাষা মডেল কম্প্রেশন জন্য মধ্যবর্তী উপস্থাপনা উপর বিপরীত পাতন. প্রাকৃতিক ভাষা প্রক্রিয়াকরণ (EMNLP) বিষয়ে 2020 সম্মেলনের কার্যপ্রণালীতে, পৃষ্ঠা 498-508, 2020। 4


[৪৯] মকরন্দ তপস্বী, মার্টিন বাউমল এবং রেনার স্টিফেলহেগেন। Book2movie: বইয়ের অধ্যায়গুলির সাথে ভিডিও দৃশ্যগুলি সারিবদ্ধ করা৷ কম্পিউটার ভিশন এবং প্যাটার্ন রিকগনিশনের উপর IEEE সম্মেলনের কার্যপ্রণালীতে, পৃষ্ঠা 1827-1835, 2015। 2


[৫০] মকরন্দ তপস্বী, ইউকুন ঝু, রেনার স্টিফেলহেগেন, আন্তোনিও তোরালবা, রাকেল উরতাসুন এবং সানজা ফিডলার। মুভিকা: প্রশ্নোত্তরের মাধ্যমে সিনেমার গল্প বোঝা। কম্পিউটার ভিশন এবং প্যাটার্ন রিকগনিশনের উপর IEEE সম্মেলনের কার্যপ্রণালীতে, পৃষ্ঠা 4631–4640, 2016। 2


[৫১] ক্রিস্টিন থম্পসন। নতুন হলিউডে গল্প বলা: ক্লাসিক্যাল বর্ণনার কৌশল বোঝা। হার্ভার্ড ইউনিভার্সিটি প্রেস, 1999। 1


[৫২] আশিস ভাসওয়ানি, নোম শাজির, নিকি পারমার, জ্যাকব উসকোরিট, লিয়ন জোন্স, আইডান এন গোমেজ, লুকাস কায়সার এবং ইলিয়া পোলোসুখিন। মনোযোগ আপনার প্রয়োজন সব. নিউরাল ইনফরমেশন প্রসেসিং সিস্টেমের অগ্রগতিতে, পৃষ্ঠা 5998-6008, 2017। 3


[৫৩] লেজি ওয়াং, ডং লিউ, রোহিত পুরি, এবং দিমিত্রিস এন মেটাক্সাস। পূর্ণ-দৈর্ঘ্যের চলচ্চিত্রে ট্রেলারের মুহূর্তগুলি সহ-অনুরোধী মনোযোগ সহ শেখা। কম্পিউটার ভিশনে ইউরোপীয় সম্মেলনে, পৃষ্ঠা 300-316। স্প্রিংগার, 2020। 1, 2, 7


[৫৪] ইউক্সিন উ, আলেকজান্ডার কিরিলোভ, ফ্রান্সিসকো মাসা, ওয়ান-ইয়েন লো এবং রস গিরশিক। ডিটেকট্রন2। https://github. com/facebookresearch/detectron2, 2019। 6


[৫৫] ঝিরং উ, ইউয়ানজুন জিওং, স্টেলা এক্স ইউ, এবং ডাহুয়া লিন। নন-প্যারামেট্রিক ইনস্ট্যান্স ডিসক্রিমিনেশনের মাধ্যমে তত্ত্বাবধানহীন বৈশিষ্ট্য শিক্ষা। কম্পিউটার ভিশন এবং প্যাটার্ন রিকগনিশনের উপর IEEE সম্মেলনের কার্যপ্রণালীতে, পৃষ্ঠা 3733– 3742, 2018। 4


[৫৬] সেনিং জি, রস গিরশিক, পিওর ডলার, ঝুওয়েন তু এবং ´কাইমিং হে। গভীর নিউরাল নেটওয়ার্কের জন্য সমষ্টিগত অবশিষ্ট রূপান্তর। কম্পিউটার ভিশন এবং প্যাটার্ন স্বীকৃতির উপর IEEE সম্মেলনের কার্যপ্রণালীতে, পৃষ্ঠা 1492–1500, 2017। 6


[৫৭] হংটেং জু, ই জেন এবং হংইয়ুয়ান ঝা। একটি পয়েন্ট প্রক্রিয়া-ভিত্তিক ভিজ্যুয়াল আকর্ষণীয় মডেলের মাধ্যমে ট্রেলার প্রজন্ম। কৃত্রিম বুদ্ধিমত্তা সংক্রান্ত 24 তম আন্তর্জাতিক সম্মেলনের কার্যক্রমে, পৃষ্ঠা 2198-2204, 2015। 2, 7


এই কাগজটি CC BY-SA 4.0 DEED লাইসেন্সের অধীনে arxiv-এ উপলব্ধ


L O A D I N G
. . . comments & more!

About Author

Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
Kinetograph: The Video Editing Technology Publication@kinetograph
The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover cutting edge tech for video editing.

আসে ট্যাগ

এই নিবন্ধটি উপস্থাপন করা হয়েছে...