এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ।
লেখক:
(1) জিওয়ান চুং, এমআইআর ল্যাব ইয়নসেই বিশ্ববিদ্যালয় ( https://jiwanchung.github.io/ );
(2) Youngjae Yu, MIR ল্যাব Yonsei University ( https://jiwanchung.github.io/ )।
আমাদের অধ্যয়নের কিছু সীমাবদ্ধতা রয়েছে, যার মধ্যে রয়েছে:
আমরা শুধুমাত্র ইংরেজি সাবটাইটেল সহ ভিডিও নিয়ে পরীক্ষা করি। যাইহোক, আমাদের পদ্ধতি একটি শক্তিশালী বহুভাষিক ভাষার মডেল দেওয়া বহু-ভাষিক প্রসঙ্গ অন্তর্ভুক্ত করার জন্য প্রসারিত করা যেতে পারে।
বৃহৎ ভাষা মডেল, GPT-3-এর উপর অত্যধিক নির্ভরতার কারণে আমাদের পদ্ধতির গণনা এবং মেমরির প্রয়োজনীয়তা যথেষ্ট।
আমরা LLM (GPT-3) এর একটি মাত্র উদাহরণ দিয়ে লং স্টোরি শর্ট মূল্যায়ন করি।
সম্ভাব্য ঝুঁকি। GPT-3 এর সাথে দীর্ঘ ভিডিও প্রসঙ্গের সংক্ষিপ্তকরণ ভাষা মডেলের উন্মুক্ত প্রকৃতির সাথে সম্পর্কিত নৈতিক ঝুঁকি বহন করে। GPT-3 (ক) বিষয়বস্তু সম্পর্কে জাল তথ্যকে হ্যালুসিনেট করতে পারে, (খ) বিষাক্ত উচ্চারণ তৈরি করতে পারে, বা (গ) সারাংশ এবং উত্তরের সম্ভাবনাগুলিতে অন্তর্নিহিতভাবে সামাজিক পক্ষপাতগুলি এম্বেড করতে পারে৷
[১] টম ব্রাউন, বেঞ্জামিন মান, নিক রাইডার, মেলানি সুব্বিয়া, জারেড ডি কাপলান, প্রফুল্ল ধারিওয়াল, অরবিন্দ নীলাকান্তন, প্রণব শ্যাম, গিরিশ শাস্ত্রী, আমান্ডা অ্যাস্কেল, এবং অন্যান্য। ভাষার মডেল অল্প-শট লার্নার্স। নিউরাল ইনফরমেশন প্রসেসিং সিস্টেমে অগ্রগতি, 33:1877-1901, 2020।
[২] সেওংহো চোই, কিয়ং-উন অন, ইউ-জুং হিও, আহজেওং সিও, ইউওন জ্যাং, সেউংচান লি, মিনসু লি, এবং ব্যয়ং-তাক ঝাং। DramaQA: শ্রেণীবদ্ধ qa সহ চরিত্র-কেন্দ্রিক ভিডিও গল্প বোঝার। arXiv প্রিপ্রিন্ট arXiv:2005.03356, 2020।
[৩] সেওংহো চোই, কিয়ং-উন অন, ইউ-জুং হিও, আহজেওং সিও, ইউওন জ্যাং, মিনসু লি, এবং বিয়ং-তাক ঝাং। ড্রামাকা: শ্রেণীবদ্ধ qa সহ চরিত্র-কেন্দ্রিক ভিডিও গল্প বোঝার। কৃত্রিম বুদ্ধিমত্তা সম্পর্কিত AAAI সম্মেলনের কার্যপ্রণালীতে, ভলিউম 35, পৃষ্ঠা 1166–1174, 2021।
[৪] চেনইউ ফ্যান, জিয়াওফান ঝাং, শু ঝাং, ওয়েনশেং ওয়াং, চি ঝাং এবং হেং হুয়াং। ভিডিও প্রশ্নের উত্তর দেওয়ার জন্য ভিন্নধর্মী মেমরি উন্নত মাল্টিমডাল মনোযোগ মডেল। কম্পিউটার ভিশন এবং প্যাটার্ন স্বীকৃতির উপর IEEE/CVF সম্মেলনের কার্যপ্রণালীতে, পৃষ্ঠা 1999–2007, 2019।
[৫] সু-জুই ফু, লিনজি লি, জে গান, কেভিন লিন, উইলিয়াম ইয়াং ওয়াং, লিজুয়ান ওয়াং এবং জিচেং লিউ। ভায়োলেট: মুখোশযুক্ত ভিজ্যুয়াল-টোকেন মডেলিং সহ এন্ড-টু-এন্ড ভিডিও-ভাষা ট্রান্সফরমার। arXiv প্রিপ্রিন্ট arXiv:2111.12681, 2021।
[৬] জিয়াং গাও, রুনঝো জি, কান চেন এবং রাম নেভাতিয়া। ভিডিও প্রশ্নের উত্তর দেওয়ার জন্য গতি-আদর্শ সহ-মেমরি নেটওয়ার্ক। কম্পিউটার ভিশন এবং প্যাটার্ন রিকগনিশনের উপর IEEE সম্মেলনের কার্যপ্রণালীতে, পৃষ্ঠা 6576–6585, 2018।
[৭] ফিলিপ জন গোরিনস্কি এবং মিরেলা লাপাতা। গ্রাফ-ভিত্তিক দৃশ্য নিষ্কাশন হিসাবে মুভি স্ক্রিপ্ট সংক্ষিপ্তকরণ. NAACL, 2015-এ।
[৮] পেংচেং হে, বাওলিন পেং, লিয়াং লু, সংঘে ওয়াং, জি মেই, ইয়াং লিউ, রুওচেন জু, হ্যানি হাসান আওয়াদাল্লা, ইউ শি, চেংগুয়াং ঝু, ওয়েন জিওং, মাইকেল জেং, জিয়ানফেং গাও এবং জুয়েডং হুয়াং। Z-code++: বিমূর্ত সংক্ষিপ্তসারের জন্য অপ্টিমাইজ করা একটি প্রাক-প্রশিক্ষিত ভাষা মডেল। ArXiv, abs/2208.09770, 2022।
[৯] ইউনসেওক জ্যাং, ইয়েল সং, ইয়ংজাই ইউ, ইয়ংজিন কিম, এবং গুনহি কিম। Tgif-qa: চাক্ষুষ প্রশ্নের উত্তরে স্থানিক-অস্থায়ী যুক্তির দিকে। কম্পিউটার ভিশন এবং প্যাটার্ন স্বীকৃতির উপর IEEE সম্মেলনের কার্যপ্রণালীতে, পৃষ্ঠা 2758–2766, 2017।
[১০] ভবন জাসানি, রোহিত গিরধর, এবং দেব রমনন। আমরা কি মুভিকাতে সঠিক প্রশ্ন করছি? IEEE/CVF ইন্টারন্যাশনাল কনফারেন্স অন কম্পিউটার ভিশন ওয়ার্কশপের কার্যক্রমে, পৃষ্ঠা 0-0, 2019।
[১১] জুনিয়ং কিম, মিনুক মা, কিয়ংসু কিম, সুংজিন কিম এবং চ্যাং ডি ইউ। মুভি গল্প প্রশ্নের উত্তর জন্য প্রগতিশীল মনোযোগ মেমরি নেটওয়ার্ক. IEEE/CVF কনফারেন্স অন কম্পিউটার ভিশন এবং প্যাটার্ন রিকগনিশনের কার্যপ্রণালীতে, পৃষ্ঠা 8337–8346, 2019।
[১২] জুনিয়ং কিম, মিনুক মা, কিয়ংসু কিম, সুংজিন কিম এবং চ্যাং ডি ইউ। মুভি গল্প প্রশ্নের উত্তর জন্য প্রগতিশীল মনোযোগ মেমরি নেটওয়ার্ক. IEEE/CVF কনফারেন্স অন কম্পিউটার ভিশন এবং প্যাটার্ন রিকগনিশনের কার্যপ্রণালীতে, পৃষ্ঠা 8337–8346, 2019।
[১৩] কিয়ং-মিন কিম, মিন-ওহ হিও, সেওং-হো চোই, এবং বাইউং-টাক ঝাং। ডিপস্টোরি: গভীর এমবেডেড মেমরি নেটওয়ার্ক দ্বারা ভিডিও স্টোরি qa। কৃত্রিম বুদ্ধিমত্তার উপর 26 তম আন্তর্জাতিক যৌথ সম্মেলনের কার্যপ্রণালীতে, পৃষ্ঠা 2016-2022, 2017।
[১৪] সিওনহুন কিম, সিওহেয়ং জিওং, ইউনবিউল কিম, ইনহো কাং এবং নোজুন কোয়াক। একাধিক-পছন্দের ভিডিও qa-এর জন্য স্ব-তত্ত্বাবধানে প্রাক-প্রশিক্ষণ এবং বিপরীত প্রতিনিধিত্ব শিক্ষা। AAAI, 2021-এ।
[১৫] মিউংজি লি, হং-সিওক কওন, জাহেহুন শিন, ওয়ানকি লি, বাইকজিন জং এবং জংহাইওক লি। ট্রান্সফরমার-ভিত্তিক চিত্রনাট্যের সংক্ষিপ্তকরণ সংলাপের তথ্য সহ অগমেন্টেড লার্নিং উপস্থাপনা ব্যবহার করে। NUSE, 2021-এ।
[১৬] জি লেই, লিচেং ইউ, মোহিত বনসাল, এবং তামারা এল বার্গ। Tvqa: স্থানীয়, রচনামূলক ভিডিও প্রশ্নের উত্তর। EMNLP, 2018-এ।
[১৭] জি লেই, লিচেং ইউ, তামারা এল বার্গ এবং মোহিত বনসাল। Tvqa+: ভিডিও প্রশ্নের উত্তর দেওয়ার জন্য স্প্যাটিও-টেম্পোরাল গ্রাউন্ডিং। টেক রিপোর্টে, arXiv, 2019।
[১৮] জুনান লি, ডংজু লি, কাইমিং জিওং এবং স্টিভেন হোই। ব্লিপ: একীভূত দৃষ্টি-ভাষা বোঝা এবং প্রজন্মের জন্য বুটস্ট্র্যাপিং ভাষা চিত্র প্রাক-প্রশিক্ষণ। ICML, 2022-এ।
[১৯] চিন-ইউ লিন। ROUGE: সারাংশের স্বয়ংক্রিয় মূল্যায়নের জন্য একটি প্যাকেজ। ইন টেক্সট সামারাইজেশন ব্রাঞ্চস আউট, পৃষ্ঠা 74-81, বার্সেলোনা, স্পেন, জুলাই 2004। অ্যাসোসিয়েশন ফর কম্পিউটেশনাল লিঙ্গুইস্টিকস। URL https://aclanthology.org/W04-1013।
[20] চাও-নিং লিউ, ডিং-জি চেন, হোয়ান-তজং চেন এবং টাইং-লুহ লিউ। A2a: মুভি প্রশ্নের উত্তরের জন্য মনোযোগ যুক্তির প্রতি মনোযোগ। In Computer Vision–ACCV 2018: 14তম এশিয়ান কনফারেন্স অন কম্পিউটার ভিশন, পার্থ, অস্ট্রেলিয়া, 2-6 ডিসেম্বর, 2018, সংশোধিত নির্বাচিত কাগজপত্র, পার্ট VI 14, পৃষ্ঠা 404–419। স্প্রিংগার, 2019।
[২১] ফেই লিউ, জিং লিউ, জিনসিন ঝু, রিচাং হং এবং হানকিং লু। ভিডিও গল্প প্রশ্নের উত্তরের জন্য qa-সচেতন গতিশীল স্বাভাবিককরণ সহ দ্বৈত শ্রেণিবিন্যাস টেম্পোরাল কনভোলিউশনাল নেটওয়ার্ক। মাল্টিমিডিয়ার উপর 28তম ACM আন্তর্জাতিক সম্মেলনের কার্যক্রমে, পৃষ্ঠা 4253–4261, 2020।
[২২] সিল না, সাংহো লি, জিসুং কিম এবং গুনহি কিম। সিনেমার গল্প বোঝার জন্য একটি রিড-রাইট মেমরি নেটওয়ার্ক। IEEE ইন্টারন্যাশনাল কনফারেন্স অন কম্পিউটার ভিশন, পৃষ্ঠা 677–685, 2017 এর কার্যপ্রণালীতে।
[২৩] পিনেলোপি পাপলাম্পিডি, ফ্রাঙ্ক কেলার এবং মিরেলা লাপাতা। টার্নিং পয়েন্ট সনাক্তকরণের মাধ্যমে মুভি প্লট বিশ্লেষণ। ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং-এ অভিজ্ঞতামূলক পদ্ধতির 2019 সম্মেলনের কার্যক্রম এবং 9ম আন্তর্জাতিক যৌথ সম্মেলন অন ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং (EMNLP-IJCNLP), নভেম্বর 2019।
[২৪] পিনেলোপি পাপলাম্পিডি, ফ্রাঙ্ক কেলার, লিয়া ফ্রেম্যান এবং মিরেলা লাপাতা। সুপ্ত বর্ণনামূলক কাঠামো ব্যবহার করে চিত্রনাট্যের সংক্ষিপ্তকরণ। অ্যাসোসিয়েশন ফর কম্পিউটেশনাল লিঙ্গুইস্টিকস, 2020-এর বার্ষিক সভায়।
[২৫] অ্যালেক র্যাডফোর্ড, জং উক কিম, ক্রিস হ্যালাসি, আদিত্য রমেশ, গ্যাব্রিয়েল গো, সন্ধ্যা আগারওয়াল, গিরিশ শাস্ত্রী, আমান্ডা অ্যাস্কেল, পামেলা মিশকিন, জ্যাক ক্লার্ক, এবং অন্যান্য। প্রাকৃতিক ভাষা তত্ত্বাবধান থেকে স্থানান্তরযোগ্য ভিজ্যুয়াল মডেল শেখা। মেশিন লার্নিং-এর আন্তর্জাতিক সম্মেলনে, পৃষ্ঠা 8748-8763। PMLR, 2021।
[২৬] আনা রোহরবাখ, আতুসা তোরাবি, মার্কাস রোহরবাচ, নিকেত ট্যান্ডন, ক্রিস্টোফার পাল, হুগো লারোচেল, অ্যারন কোরভিল এবং বার্ন্ট শিয়েল। মুভির বিবরণ। IJCV, 2017।
[২৭] মকরন্দ তপস্বী, ইউকুন ঝু, রেনার স্টিফেলহেগেন, আন্তোনিও তোরালবা, রাকেল উরতাসুন এবং সানজা ফিডলার। মুভিকা: প্রশ্ন-উত্তর দিয়ে সিনেমার গল্প বোঝা। কম্পিউটার ভিশন এবং প্যাটার্ন স্বীকৃতির উপর IEEE সম্মেলনের কার্যপ্রণালীতে, পৃষ্ঠা 4631–4640, 2016।
[২৮] বো উ, শোবিন ইউ, জেনফাং চেন, জোশুয়া বি টেনেনবাউম এবং চুয়াং গান। তারকা: বাস্তব-বিশ্বের ভিডিওতে অবস্থিত যুক্তির জন্য একটি মানদণ্ড। নিউরাল ইনফরমেশন প্রসেসিং সিস্টেম ডেটাসেট এবং বেঞ্চমার্কস ট্র্যাক (রাউন্ড 2), 2021-এর পঁয়ত্রিশতম সম্মেলনে।
[২৯] জুনবিন জিয়াও, জিন্দি শাং, অ্যাঞ্জেলা ইয়াও এবং তাত-সেং চুয়া। Next-qa: সাময়িক ক্রিয়া ব্যাখ্যা করার জন্য প্রশ্ন-উত্তরের পরবর্তী ধাপ। IEEE/CVF কনফারেন্স অন কম্পিউটার ভিশন এবং প্যাটার্ন রিকগনিশনের কার্যপ্রণালীতে, পৃষ্ঠা 9777–9786, 2021।
[৩০] দেজিং জু, ঝাউ ঝাও, জুন জিয়াও, ফেই উ, হানওয়াং ঝাং, জিয়াংনান হে এবং ইউয়েটিং ঝুয়াং। চেহারা এবং গতির উপর ধীরে ধীরে পরিশ্রুত মনোযোগের মাধ্যমে ভিডিও প্রশ্নের উত্তর। মাল্টিমিডিয়ার উপর 25তম ACM আন্তর্জাতিক সম্মেলনের কার্যক্রমে, পৃষ্ঠা 1645–1653, 2017।
[৩১] অ্যান্টোইন ইয়াং, অ্যান্টোইন মিচ, জোসেফ সিভিক, ইভান ল্যাপ্টেভ এবং কর্ডেলিয়া স্মিড। শুধু জিজ্ঞাসা করুন: লক্ষাধিক বর্ণিত ভিডিও থেকে প্রশ্নের উত্তর দিতে শেখা। IEEE/CVF ইন্টারন্যাশনাল কনফারেন্স অন কম্পিউটার ভিশন, পৃষ্ঠা 1686–1697, 2021 এর কার্যপ্রণালীতে।
[৩২] ঝেংগুয়ান ইয়াং, ঝে গান, জিয়ানফেং ওয়াং, জিয়াওই হু, ইউমাও লু, জিচেং লিউ এবং লিজুয়ান ওয়াং। অল্প-শট জ্ঞান-ভিত্তিক vqa-এর জন্য gpt-3-এর একটি অভিজ্ঞতামূলক অধ্যয়ন। arXiv প্রিপ্রিন্ট arXiv:2109.05014, 2021।
[৩৩] রোয়ান জেলার্স, জিমিং লু, জ্যাক হেসেল, ইয়ংজাই ইউ, জে সুং পার্ক, জিজে কাও, আলী ফারহাদি এবং ইয়েজিন চোই। Merlot: মাল্টিমোডাল নিউরাল স্ক্রিপ্ট জ্ঞান মডেল। M. Ranzato, A. Beygelzimer, Y. Dauphin, PS Liang, এবং J. Wortman Vaughan, সম্পাদক, অ্যাডভান্সেস ইন নিউরাল ইনফরমেশন প্রসেসিং সিস্টেম, ভলিউম 34, পৃষ্ঠা 23634–23651। Curran Associates, Inc., 2021. URL https://proceedings.neurips.cc/paper/ 2021/file/c6d4eb15f1e84a36eff58eca3627c82e-Paper.pdf.
[৩৪] রোয়ান জেলার্স, জিয়াসেন লু, জিমিং লু, ইয়ংজাই ইউ, ইয়ানপেং ঝাও, মোহাম্মদরেজা সালেহি, আদিত্য কুসুপাতি, জ্যাক হেসেল, আলী ফারহাদি, এবং ইয়েজিন চোই। মেরলট রিজার্ভ: দৃষ্টি এবং ভাষা এবং শব্দের মাধ্যমে নিউরাল স্ক্রিপ্ট জ্ঞান। IEEE/CVF কনফারেন্স অন কম্পিউটার ভিশন অ্যান্ড প্যাটার্ন রিকগনিশন (CVPR), 2022 এর কার্যক্রমে।
[৩৫] অ্যান্ডি জেং, অ্যাড্রিয়ান ওং, স্টেফান ওয়েল্কার, ক্রজিসটফ চোরোমানস্কি, ফেদেরিকো তোমবারি, আভিক পুরোহিত, মাইকেল এস রিও, বিকাশ সিন্ধওয়ানি, জনি লি, ভিনসেন্ট ভ্যানহুকে, এবং অন্যান্য। সক্রেটিক মডেল: ভাষার সাথে শূন্য-শট মাল্টিমোডাল যুক্তি রচনা করা। 2022।
[৩৬] কুও-হাও জেং, সেং-হাং চেন, চিং-ইয়াও চুয়াং, ইউয়ান-হং লিয়াও, জুয়ান কার্লোস নিবেলস এবং মিন সান। ভিডিও প্রশ্নের উত্তর শেখার জন্য ভিডিও বিবরণের ব্যবহার। কৃত্রিম বুদ্ধিমত্তা সম্পর্কিত AAAI সম্মেলনের কার্যপ্রণালীতে, ভলিউম 31, 2017।
[৩৭] জিংকিং ঝাং, ইয়াও ঝাও, মোহাম্মদ সালেহ এবং পিটার লিউ। পেগাসাস: বিমূর্ত সারাংশের জন্য নিষ্কাশিত ফাঁক-বাক্য সহ প্রাক-প্রশিক্ষণ। মেশিন লার্নিং-এর আন্তর্জাতিক সম্মেলনে, পৃষ্ঠা 11328-11339। PMLR, 2020।
[৩৮] ঝাউ ঝাও, জিংহাও লিন, জিংহুয়া জিয়াং, দেং কাই, জিয়াওফি হে এবং ইউয়েটিং ঝুয়াং। শ্রেণীবদ্ধ দ্বৈত-স্তরের মনোযোগ নেটওয়ার্ক শিক্ষার মাধ্যমে ভিডিও প্রশ্নের উত্তর। মাল্টিমিডিয়ার উপর 25 তম ACM আন্তর্জাতিক সম্মেলনের কার্যক্রমে, পৃষ্ঠা 1050-1058, 2017।