paint-brush
দীর্ঘ ভিডিও প্রশ্নের উত্তরের জন্য একটি সংক্ষিপ্ত-পরে অনুসন্ধান পদ্ধতি: সীমাবদ্ধতা এবং উল্লেখ দ্বারা@kinetograph

দীর্ঘ ভিডিও প্রশ্নের উত্তরের জন্য একটি সংক্ষিপ্ত-পরে অনুসন্ধান পদ্ধতি: সীমাবদ্ধতা এবং উল্লেখ

দ্বারা Kinetograph: The Video Editing Technology Publication
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture

Kinetograph: The Video Editing Technology Publication

@kinetograph

The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover...

6 মিনিট read2024/05/26
Read on Terminal Reader
Read this story in a terminal
Print this story

অতিদীর্ঘ; পড়তে

এই গবেষণাপত্রে, গবেষকরা GPT-3 ব্যবহার করে শূন্য-শট ভিডিও QA অন্বেষণ করেন, তত্ত্বাবধানে মডেলগুলিকে ছাড়িয়ে যায়, বর্ণনামূলক সারাংশ এবং ভিজ্যুয়াল ম্যাচিং ব্যবহার করে।
featured image - দীর্ঘ ভিডিও প্রশ্নের উত্তরের জন্য একটি সংক্ষিপ্ত-পরে অনুসন্ধান পদ্ধতি: সীমাবদ্ধতা এবং উল্লেখ
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
Kinetograph: The Video Editing Technology Publication

Kinetograph: The Video Editing Technology Publication

@kinetograph

The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover cutting edge tech for video editing.

0-item

STORY’S CREDIBILITY

Academic Research Paper

Academic Research Paper

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ।

লেখক:

(1) জিওয়ান চুং, এমআইআর ল্যাব ইয়নসেই বিশ্ববিদ্যালয় ( https://jiwanchung.github.io/ );

(2) Youngjae Yu, MIR ল্যাব Yonsei University ( https://jiwanchung.github.io/ )।

লিঙ্কের টেবিল

6. সীমাবদ্ধতা

আমাদের অধ্যয়নের কিছু সীমাবদ্ধতা রয়েছে, যার মধ্যে রয়েছে:


  1. আমরা শুধুমাত্র ইংরেজি সাবটাইটেল সহ ভিডিও নিয়ে পরীক্ষা করি। যাইহোক, আমাদের পদ্ধতি একটি শক্তিশালী বহুভাষিক ভাষার মডেল দেওয়া বহু-ভাষিক প্রসঙ্গ অন্তর্ভুক্ত করার জন্য প্রসারিত করা যেতে পারে।


  2. বৃহৎ ভাষা মডেল, GPT-3-এর উপর অত্যধিক নির্ভরতার কারণে আমাদের পদ্ধতির গণনা এবং মেমরির প্রয়োজনীয়তা যথেষ্ট।


  3. আমরা LLM (GPT-3) এর একটি মাত্র উদাহরণ দিয়ে লং স্টোরি শর্ট মূল্যায়ন করি।


সম্ভাব্য ঝুঁকি। GPT-3 এর সাথে দীর্ঘ ভিডিও প্রসঙ্গের সংক্ষিপ্তকরণ ভাষা মডেলের উন্মুক্ত প্রকৃতির সাথে সম্পর্কিত নৈতিক ঝুঁকি বহন করে। GPT-3 (ক) বিষয়বস্তু সম্পর্কে জাল তথ্যকে হ্যালুসিনেট করতে পারে, (খ) বিষাক্ত উচ্চারণ তৈরি করতে পারে, বা (গ) সারাংশ এবং উত্তরের সম্ভাবনাগুলিতে অন্তর্নিহিতভাবে সামাজিক পক্ষপাতগুলি এম্বেড করতে পারে৷

তথ্যসূত্র

[১] টম ব্রাউন, বেঞ্জামিন মান, নিক রাইডার, মেলানি সুব্বিয়া, জারেড ডি কাপলান, প্রফুল্ল ধারিওয়াল, অরবিন্দ নীলাকান্তন, প্রণব শ্যাম, গিরিশ শাস্ত্রী, আমান্ডা অ্যাস্কেল, এবং অন্যান্য। ভাষার মডেল অল্প-শট লার্নার্স। নিউরাল ইনফরমেশন প্রসেসিং সিস্টেমে অগ্রগতি, 33:1877-1901, 2020।


[২] সেওংহো চোই, কিয়ং-উন অন, ইউ-জুং হিও, আহজেওং সিও, ইউওন জ্যাং, সেউংচান লি, মিনসু লি, এবং ব্যয়ং-তাক ঝাং। DramaQA: শ্রেণীবদ্ধ qa সহ চরিত্র-কেন্দ্রিক ভিডিও গল্প বোঝার। arXiv প্রিপ্রিন্ট arXiv:2005.03356, 2020।


[৩] সেওংহো চোই, কিয়ং-উন অন, ইউ-জুং হিও, আহজেওং সিও, ইউওন জ্যাং, মিনসু লি, এবং বিয়ং-তাক ঝাং। ড্রামাকা: শ্রেণীবদ্ধ qa সহ চরিত্র-কেন্দ্রিক ভিডিও গল্প বোঝার। কৃত্রিম বুদ্ধিমত্তা সম্পর্কিত AAAI সম্মেলনের কার্যপ্রণালীতে, ভলিউম 35, পৃষ্ঠা 1166–1174, 2021।


[৪] চেনইউ ফ্যান, জিয়াওফান ঝাং, শু ঝাং, ওয়েনশেং ওয়াং, চি ঝাং এবং হেং হুয়াং। ভিডিও প্রশ্নের উত্তর দেওয়ার জন্য ভিন্নধর্মী মেমরি উন্নত মাল্টিমডাল মনোযোগ মডেল। কম্পিউটার ভিশন এবং প্যাটার্ন স্বীকৃতির উপর IEEE/CVF সম্মেলনের কার্যপ্রণালীতে, পৃষ্ঠা 1999–2007, 2019।


[৫] সু-জুই ফু, লিনজি লি, জে গান, কেভিন লিন, উইলিয়াম ইয়াং ওয়াং, লিজুয়ান ওয়াং এবং জিচেং লিউ। ভায়োলেট: মুখোশযুক্ত ভিজ্যুয়াল-টোকেন মডেলিং সহ এন্ড-টু-এন্ড ভিডিও-ভাষা ট্রান্সফরমার। arXiv প্রিপ্রিন্ট arXiv:2111.12681, 2021।


[৬] জিয়াং গাও, রুনঝো জি, কান চেন এবং রাম নেভাতিয়া। ভিডিও প্রশ্নের উত্তর দেওয়ার জন্য গতি-আদর্শ সহ-মেমরি নেটওয়ার্ক। কম্পিউটার ভিশন এবং প্যাটার্ন রিকগনিশনের উপর IEEE সম্মেলনের কার্যপ্রণালীতে, পৃষ্ঠা 6576–6585, 2018।


[৭] ফিলিপ জন গোরিনস্কি এবং মিরেলা লাপাতা। গ্রাফ-ভিত্তিক দৃশ্য নিষ্কাশন হিসাবে মুভি স্ক্রিপ্ট সংক্ষিপ্তকরণ. NAACL, 2015-এ।


[৮] পেংচেং হে, বাওলিন পেং, লিয়াং লু, সংঘে ওয়াং, জি মেই, ইয়াং লিউ, রুওচেন জু, হ্যানি হাসান আওয়াদাল্লা, ইউ শি, চেংগুয়াং ঝু, ওয়েন জিওং, মাইকেল জেং, জিয়ানফেং গাও এবং জুয়েডং হুয়াং। Z-code++: বিমূর্ত সংক্ষিপ্তসারের জন্য অপ্টিমাইজ করা একটি প্রাক-প্রশিক্ষিত ভাষা মডেল। ArXiv, abs/2208.09770, 2022।


[৯] ইউনসেওক জ্যাং, ইয়েল সং, ইয়ংজাই ইউ, ইয়ংজিন কিম, এবং গুনহি কিম। Tgif-qa: চাক্ষুষ প্রশ্নের উত্তরে স্থানিক-অস্থায়ী যুক্তির দিকে। কম্পিউটার ভিশন এবং প্যাটার্ন স্বীকৃতির উপর IEEE সম্মেলনের কার্যপ্রণালীতে, পৃষ্ঠা 2758–2766, 2017।


[১০] ভবন জাসানি, রোহিত গিরধর, এবং দেব রমনন। আমরা কি মুভিকাতে সঠিক প্রশ্ন করছি? IEEE/CVF ইন্টারন্যাশনাল কনফারেন্স অন কম্পিউটার ভিশন ওয়ার্কশপের কার্যক্রমে, পৃষ্ঠা 0-0, 2019।


[১১] জুনিয়ং কিম, মিনুক মা, কিয়ংসু কিম, সুংজিন কিম এবং চ্যাং ডি ইউ। মুভি গল্প প্রশ্নের উত্তর জন্য প্রগতিশীল মনোযোগ মেমরি নেটওয়ার্ক. IEEE/CVF কনফারেন্স অন কম্পিউটার ভিশন এবং প্যাটার্ন রিকগনিশনের কার্যপ্রণালীতে, পৃষ্ঠা 8337–8346, 2019।


[১২] জুনিয়ং কিম, মিনুক মা, কিয়ংসু কিম, সুংজিন কিম এবং চ্যাং ডি ইউ। মুভি গল্প প্রশ্নের উত্তর জন্য প্রগতিশীল মনোযোগ মেমরি নেটওয়ার্ক. IEEE/CVF কনফারেন্স অন কম্পিউটার ভিশন এবং প্যাটার্ন রিকগনিশনের কার্যপ্রণালীতে, পৃষ্ঠা 8337–8346, 2019।


[১৩] কিয়ং-মিন কিম, মিন-ওহ হিও, সেওং-হো চোই, এবং বাইউং-টাক ঝাং। ডিপস্টোরি: গভীর এমবেডেড মেমরি নেটওয়ার্ক দ্বারা ভিডিও স্টোরি qa। কৃত্রিম বুদ্ধিমত্তার উপর 26 তম আন্তর্জাতিক যৌথ সম্মেলনের কার্যপ্রণালীতে, পৃষ্ঠা 2016-2022, 2017।


[১৪] সিওনহুন কিম, সিওহেয়ং জিওং, ইউনবিউল কিম, ইনহো কাং এবং নোজুন কোয়াক। একাধিক-পছন্দের ভিডিও qa-এর জন্য স্ব-তত্ত্বাবধানে প্রাক-প্রশিক্ষণ এবং বিপরীত প্রতিনিধিত্ব শিক্ষা। AAAI, 2021-এ।


[১৫] মিউংজি লি, হং-সিওক কওন, জাহেহুন শিন, ওয়ানকি লি, বাইকজিন জং এবং জংহাইওক লি। ট্রান্সফরমার-ভিত্তিক চিত্রনাট্যের সংক্ষিপ্তকরণ সংলাপের তথ্য সহ অগমেন্টেড লার্নিং উপস্থাপনা ব্যবহার করে। NUSE, 2021-এ।


[১৬] জি লেই, লিচেং ইউ, মোহিত বনসাল, এবং তামারা এল বার্গ। Tvqa: স্থানীয়, রচনামূলক ভিডিও প্রশ্নের উত্তর। EMNLP, 2018-এ।


[১৭] জি লেই, লিচেং ইউ, তামারা এল বার্গ এবং মোহিত বনসাল। Tvqa+: ভিডিও প্রশ্নের উত্তর দেওয়ার জন্য স্প্যাটিও-টেম্পোরাল গ্রাউন্ডিং। টেক রিপোর্টে, arXiv, 2019।


[১৮] জুনান লি, ডংজু লি, কাইমিং জিওং এবং স্টিভেন হোই। ব্লিপ: একীভূত দৃষ্টি-ভাষা বোঝা এবং প্রজন্মের জন্য বুটস্ট্র্যাপিং ভাষা চিত্র প্রাক-প্রশিক্ষণ। ICML, 2022-এ।


[১৯] চিন-ইউ লিন। ROUGE: সারাংশের স্বয়ংক্রিয় মূল্যায়নের জন্য একটি প্যাকেজ। ইন টেক্সট সামারাইজেশন ব্রাঞ্চস আউট, পৃষ্ঠা 74-81, বার্সেলোনা, স্পেন, জুলাই 2004। অ্যাসোসিয়েশন ফর কম্পিউটেশনাল লিঙ্গুইস্টিকস। URL https://aclanthology.org/W04-1013।


[20] চাও-নিং লিউ, ডিং-জি চেন, হোয়ান-তজং চেন এবং টাইং-লুহ লিউ। A2a: মুভি প্রশ্নের উত্তরের জন্য মনোযোগ যুক্তির প্রতি মনোযোগ। In Computer Vision–ACCV 2018: 14তম এশিয়ান কনফারেন্স অন কম্পিউটার ভিশন, পার্থ, অস্ট্রেলিয়া, 2-6 ডিসেম্বর, 2018, সংশোধিত নির্বাচিত কাগজপত্র, পার্ট VI 14, পৃষ্ঠা 404–419। স্প্রিংগার, 2019।


[২১] ফেই লিউ, জিং লিউ, জিনসিন ঝু, রিচাং হং এবং হানকিং লু। ভিডিও গল্প প্রশ্নের উত্তরের জন্য qa-সচেতন গতিশীল স্বাভাবিককরণ সহ দ্বৈত শ্রেণিবিন্যাস টেম্পোরাল কনভোলিউশনাল নেটওয়ার্ক। মাল্টিমিডিয়ার উপর 28তম ACM আন্তর্জাতিক সম্মেলনের কার্যক্রমে, পৃষ্ঠা 4253–4261, 2020।


[২২] সিল না, সাংহো লি, জিসুং কিম এবং গুনহি কিম। সিনেমার গল্প বোঝার জন্য একটি রিড-রাইট মেমরি নেটওয়ার্ক। IEEE ইন্টারন্যাশনাল কনফারেন্স অন কম্পিউটার ভিশন, পৃষ্ঠা 677–685, 2017 এর কার্যপ্রণালীতে।


[২৩] পিনেলোপি পাপলাম্পিডি, ফ্রাঙ্ক কেলার এবং মিরেলা লাপাতা। টার্নিং পয়েন্ট সনাক্তকরণের মাধ্যমে মুভি প্লট বিশ্লেষণ। ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং-এ অভিজ্ঞতামূলক পদ্ধতির 2019 সম্মেলনের কার্যক্রম এবং 9ম আন্তর্জাতিক যৌথ সম্মেলন অন ন্যাচারাল ল্যাঙ্গুয়েজ প্রসেসিং (EMNLP-IJCNLP), নভেম্বর 2019।


[২৪] পিনেলোপি পাপলাম্পিডি, ফ্রাঙ্ক কেলার, লিয়া ফ্রেম্যান এবং মিরেলা লাপাতা। সুপ্ত বর্ণনামূলক কাঠামো ব্যবহার করে চিত্রনাট্যের সংক্ষিপ্তকরণ। অ্যাসোসিয়েশন ফর কম্পিউটেশনাল লিঙ্গুইস্টিকস, 2020-এর বার্ষিক সভায়।


[২৫] অ্যালেক র‌্যাডফোর্ড, জং উক কিম, ক্রিস হ্যালাসি, আদিত্য রমেশ, গ্যাব্রিয়েল গো, সন্ধ্যা আগারওয়াল, গিরিশ শাস্ত্রী, আমান্ডা অ্যাস্কেল, পামেলা মিশকিন, জ্যাক ক্লার্ক, এবং অন্যান্য। প্রাকৃতিক ভাষা তত্ত্বাবধান থেকে স্থানান্তরযোগ্য ভিজ্যুয়াল মডেল শেখা। মেশিন লার্নিং-এর আন্তর্জাতিক সম্মেলনে, পৃষ্ঠা 8748-8763। PMLR, 2021।


[২৬] আনা রোহরবাখ, আতুসা তোরাবি, মার্কাস রোহরবাচ, নিকেত ট্যান্ডন, ক্রিস্টোফার পাল, হুগো লারোচেল, অ্যারন কোরভিল এবং বার্ন্ট শিয়েল। মুভির বিবরণ। IJCV, 2017।


[২৭] মকরন্দ তপস্বী, ইউকুন ঝু, রেনার স্টিফেলহেগেন, আন্তোনিও তোরালবা, রাকেল উরতাসুন এবং সানজা ফিডলার। মুভিকা: প্রশ্ন-উত্তর দিয়ে সিনেমার গল্প বোঝা। কম্পিউটার ভিশন এবং প্যাটার্ন স্বীকৃতির উপর IEEE সম্মেলনের কার্যপ্রণালীতে, পৃষ্ঠা 4631–4640, 2016।


[২৮] বো উ, শোবিন ইউ, জেনফাং চেন, জোশুয়া বি টেনেনবাউম এবং চুয়াং গান। তারকা: বাস্তব-বিশ্বের ভিডিওতে অবস্থিত যুক্তির জন্য একটি মানদণ্ড। নিউরাল ইনফরমেশন প্রসেসিং সিস্টেম ডেটাসেট এবং বেঞ্চমার্কস ট্র্যাক (রাউন্ড 2), 2021-এর পঁয়ত্রিশতম সম্মেলনে।


[২৯] জুনবিন জিয়াও, জিন্দি শাং, অ্যাঞ্জেলা ইয়াও এবং তাত-সেং চুয়া। Next-qa: সাময়িক ক্রিয়া ব্যাখ্যা করার জন্য প্রশ্ন-উত্তরের পরবর্তী ধাপ। IEEE/CVF কনফারেন্স অন কম্পিউটার ভিশন এবং প্যাটার্ন রিকগনিশনের কার্যপ্রণালীতে, পৃষ্ঠা 9777–9786, 2021।


[৩০] দেজিং জু, ঝাউ ঝাও, জুন জিয়াও, ফেই উ, হানওয়াং ঝাং, জিয়াংনান হে এবং ইউয়েটিং ঝুয়াং। চেহারা এবং গতির উপর ধীরে ধীরে পরিশ্রুত মনোযোগের মাধ্যমে ভিডিও প্রশ্নের উত্তর। মাল্টিমিডিয়ার উপর 25তম ACM আন্তর্জাতিক সম্মেলনের কার্যক্রমে, পৃষ্ঠা 1645–1653, 2017।


[৩১] অ্যান্টোইন ইয়াং, অ্যান্টোইন মিচ, জোসেফ সিভিক, ইভান ল্যাপ্টেভ এবং কর্ডেলিয়া স্মিড। শুধু জিজ্ঞাসা করুন: লক্ষাধিক বর্ণিত ভিডিও থেকে প্রশ্নের উত্তর দিতে শেখা। IEEE/CVF ইন্টারন্যাশনাল কনফারেন্স অন কম্পিউটার ভিশন, পৃষ্ঠা 1686–1697, 2021 এর কার্যপ্রণালীতে।


[৩২] ঝেংগুয়ান ইয়াং, ঝে গান, জিয়ানফেং ওয়াং, জিয়াওই হু, ইউমাও লু, জিচেং লিউ এবং লিজুয়ান ওয়াং। অল্প-শট জ্ঞান-ভিত্তিক vqa-এর জন্য gpt-3-এর একটি অভিজ্ঞতামূলক অধ্যয়ন। arXiv প্রিপ্রিন্ট arXiv:2109.05014, 2021।


[৩৩] রোয়ান জেলার্স, জিমিং লু, জ্যাক হেসেল, ইয়ংজাই ইউ, জে সুং পার্ক, জিজে কাও, আলী ফারহাদি এবং ইয়েজিন চোই। Merlot: মাল্টিমোডাল নিউরাল স্ক্রিপ্ট জ্ঞান মডেল। M. Ranzato, A. Beygelzimer, Y. Dauphin, PS Liang, এবং J. Wortman Vaughan, সম্পাদক, অ্যাডভান্সেস ইন নিউরাল ইনফরমেশন প্রসেসিং সিস্টেম, ভলিউম 34, পৃষ্ঠা 23634–23651। Curran Associates, Inc., 2021. URL https://proceedings.neurips.cc/paper/ 2021/file/c6d4eb15f1e84a36eff58eca3627c82e-Paper.pdf.


[৩৪] রোয়ান জেলার্স, জিয়াসেন লু, জিমিং লু, ইয়ংজাই ইউ, ইয়ানপেং ঝাও, মোহাম্মদরেজা সালেহি, আদিত্য কুসুপাতি, জ্যাক হেসেল, আলী ফারহাদি, এবং ইয়েজিন চোই। মেরলট রিজার্ভ: দৃষ্টি এবং ভাষা এবং শব্দের মাধ্যমে নিউরাল স্ক্রিপ্ট জ্ঞান। IEEE/CVF কনফারেন্স অন কম্পিউটার ভিশন অ্যান্ড প্যাটার্ন রিকগনিশন (CVPR), 2022 এর কার্যক্রমে।


[৩৫] অ্যান্ডি জেং, অ্যাড্রিয়ান ওং, স্টেফান ওয়েল্কার, ক্রজিসটফ চোরোমানস্কি, ফেদেরিকো তোমবারি, আভিক পুরোহিত, মাইকেল এস রিও, বিকাশ সিন্ধওয়ানি, জনি লি, ভিনসেন্ট ভ্যানহুকে, এবং অন্যান্য। সক্রেটিক মডেল: ভাষার সাথে শূন্য-শট মাল্টিমোডাল যুক্তি রচনা করা। 2022।


[৩৬] কুও-হাও জেং, সেং-হাং চেন, চিং-ইয়াও চুয়াং, ইউয়ান-হং লিয়াও, জুয়ান কার্লোস নিবেলস এবং মিন সান। ভিডিও প্রশ্নের উত্তর শেখার জন্য ভিডিও বিবরণের ব্যবহার। কৃত্রিম বুদ্ধিমত্তা সম্পর্কিত AAAI সম্মেলনের কার্যপ্রণালীতে, ভলিউম 31, 2017।


[৩৭] জিংকিং ঝাং, ইয়াও ঝাও, মোহাম্মদ সালেহ এবং পিটার লিউ। পেগাসাস: বিমূর্ত সারাংশের জন্য নিষ্কাশিত ফাঁক-বাক্য সহ প্রাক-প্রশিক্ষণ। মেশিন লার্নিং-এর আন্তর্জাতিক সম্মেলনে, পৃষ্ঠা 11328-11339। PMLR, 2020।


[৩৮] ঝাউ ঝাও, জিংহাও লিন, জিংহুয়া জিয়াং, দেং কাই, জিয়াওফি হে এবং ইউয়েটিং ঝুয়াং। শ্রেণীবদ্ধ দ্বৈত-স্তরের মনোযোগ নেটওয়ার্ক শিক্ষার মাধ্যমে ভিডিও প্রশ্নের উত্তর। মাল্টিমিডিয়ার উপর 25 তম ACM আন্তর্জাতিক সম্মেলনের কার্যক্রমে, পৃষ্ঠা 1050-1058, 2017।

L O A D I N G
. . . comments & more!

About Author

Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
Kinetograph: The Video Editing Technology Publication@kinetograph
The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover cutting edge tech for video editing.

আসে ট্যাগ

এই নিবন্ধটি উপস্থাপন করা হয়েছে...

Read on Terminal Reader
Read this story in a terminal
 Terminal
Read this story w/o Javascript
Read this story w/o Javascript
 Lite
X REMOVE AD