108 পড়া

দীর্ঘ ভিডিও প্রশ্নের উত্তরের জন্য একটি সংক্ষিপ্ত-পরে অনুসন্ধান পদ্ধতি: পদ্ধতি

দ্বারা Kinetograph: The Video Editing Technology Publication2m2024/05/26

অতিদীর্ঘ; পড়তে

এই গবেষণাপত্রে, গবেষকরা GPT-3 ব্যবহার করে শূন্য-শট ভিডিও QA অন্বেষণ করেন, তত্ত্বাবধানে মডেলগুলিকে ছাড়িয়ে যান, বর্ণনামূলক সারাংশ এবং ভিজ্যুয়াল ম্যাচিং ব্যবহার করেন।

featured image - দীর্ঘ ভিডিও প্রশ্নের উত্তরের জন্য একটি সংক্ষিপ্ত-পরে অনুসন্ধান পদ্ধতি: পদ্ধতি

এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ।

লেখক:

(1) জিওয়ান চুং, এমআইআর ল্যাব ইয়নসেই বিশ্ববিদ্যালয় ( https://jiwanchung.github.io/ );

(2) Youngjae Yu, MIR ল্যাব Yonsei University ( https://jiwanchung.github.io/ )।

লিঙ্কের টেবিল

2. পদ্ধতি

2.1। প্লট জেনারেশন

2.2। আখ্যান অনুসন্ধান

সংক্ষিপ্ত বিবরণ এবং প্রশ্নের প্রেক্ষিতে, আমরা দীর্ঘ ভিডিও থেকে প্রশ্নের সাথে প্রাসঙ্গিক অপেক্ষাকৃত ছোট ক্লিপটি পুনরুদ্ধার করতে চাই। ভাষার মডেলগুলি ওপেন-এন্ডেড পাঠ্য তৈরি করে যা অনিয়মিত এবং প্রায়শই শোরগোল করে। ভিডিওর সঠিক অংশ পুনরুদ্ধার করতে, আমরা টেক্সট ফর্মের পরিবর্তে মডেলটিকে প্লটের আউটপুট সূচকে চালাই।

উত্পন্ন সূচকগুলি ভাষা মডেলগুলির উন্মুক্ত প্রকৃতির কারণে এখনও গোলমাল হতে পারে। যখন মডেলটি টেক্সট আকারে একটি উত্তর আউটপুট করে, তখন আমরা প্লট পিস প্রার্থীদের খুঁজে বের করতে রুজ-এল [19] স্কোর ব্যবহার করি যার উত্পন্ন বাক্যের সাথে সাদৃশ্য নির্দিষ্ট থ্রেশহোল্ড α ≥ 0.5 এর উপরে।

2.3। ভিজ্যুয়াল চেকিং

L O A D I N G
. . . comments & more!

About Author

Kinetograph: The Video Editing Technology Publication@kinetograph

The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover cutting edge tech for video editing.

Read my stories

আসে ট্যাগ

science #narrative-video-qa #long-story-short-framework #large-language-models #multimodal-narratives #zero-shot-reasoning #gpt-3 #clipcheck #long-story-short

এই নিবন্ধটি উপস্থাপন করা হয়েছে...

Terminal

Lite

Join HackerNoon

Latest technology trends. Customized Experience. Curated Stories. Publish Your Ideas