paint-brush
পরীক্ষার বিবরণে দীর্ঘ ভিডিও প্রশ্নের উত্তরের জন্য একটি সংক্ষিপ্ত-পরে অনুসন্ধান পদ্ধতিদ্বারা@kinetograph

পরীক্ষার বিবরণে দীর্ঘ ভিডিও প্রশ্নের উত্তরের জন্য একটি সংক্ষিপ্ত-পরে অনুসন্ধান পদ্ধতি

অতিদীর্ঘ; পড়তে

এই গবেষণাপত্রে, গবেষকরা GPT-3 ব্যবহার করে শূন্য-শট ভিডিও QA অন্বেষণ করেন, তত্ত্বাবধানে মডেলগুলিকে ছাড়িয়ে যায়, বর্ণনামূলক সারাংশ এবং ভিজ্যুয়াল ম্যাচিং ব্যবহার করে।
featured image - পরীক্ষার বিবরণে দীর্ঘ ভিডিও প্রশ্নের উত্তরের জন্য একটি সংক্ষিপ্ত-পরে অনুসন্ধান পদ্ধতি
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ।

লেখক:

(1) জিওয়ান চুং, এমআইআর ল্যাব ইয়নসেই বিশ্ববিদ্যালয় ( https://jiwanchung.github.io/ );

(2) Youngjae Yu, MIR ল্যাব Yonsei University ( https://jiwanchung.github.io/ )।

লিঙ্কের টেবিল

A. পরীক্ষার বিবরণ

কম্পিউটেশনাল বাজেট। লং স্টোরি শর্ট ব্যাকবোন হিসাবে OpenAI API এর মাধ্যমে GPT-3 (175B প্যারামিটার) ব্যবহার করে। একটি ভিডিও সেগমেন্টের সংক্ষিপ্তসারের জন্য একটি গড় প্রম্পট ∼ 3000 টোকেন প্রক্রিয়া করে, যখন একটি QA প্রম্পট সাধারণত ∼ 4000 টোকেন নেয়। CLIPCচেকের জন্য, আমরা CLIP বৈশিষ্ট্যগুলি বের করি এবং একটি একক NVIDIA A6000 GPU ব্যবহার করে কোসাইন সাদৃশ্য গণনা করি: MovieQA বৈধতা বিভাজনের জন্য ভিডিও ফ্রেমগুলি প্রক্রিয়া করতে 0.5 ঘন্টা সময় লাগে৷


হাইপারপ্যারামিটার । সমস্ত হাইপারপ্যারামিটার একটি একক প্রশিক্ষণ নমুনা বিশ্লেষণ করে পূর্ব-সংজ্ঞায়িত করা হয়। বর্ণনামূলক অনুসন্ধানের জন্য, যখন GPT-3 একটি একক সূচক আউটপুট করে না তখন আমরা প্লট টুকরো খুঁজে পেতে বাক্যের মিল থ্রেশহোল্ড α ≥ 0.5 ব্যবহার করি। আমরা CLIPCচেকে বাইনারি এনট্রপি থ্রেশহোল্ড E ′ ≥ 0.4 ব্যবহার করি। আমরা প্রতিটি পরীক্ষা শুধুমাত্র একবার চালাই, কারণ আমাদের পদ্ধতিটি নির্ধারক এবং শুরুতে এলোমেলোতার জন্য সংবেদনশীল নয়।


ভিডিও সেগমেন্টেশন স্কিম। আমরা এই কাগজে ব্যবহার করি এমন সমস্ত ডেটাসেটের জন্য পূর্বনির্ধারিত সেগমেন্ট বাউন্ডারি টীকা রয়েছে। এছাড়াও, সমস্ত প্লট অংশগুলি পালাক্রমে ক্লিপ অংশগুলিকে সারিবদ্ধ করেছে যেহেতু আমরা পূর্বনির্ধারিত সীমানাগুলির সাথে বিভক্ত প্রতিটি ক্লিপের সংক্ষিপ্তকরণ সম্পাদন করি৷ এছাড়াও, এলএসএস প্রয়োগ করার আগে আমরা ক্লিপ সেগমেন্টগুলি ফিল্টার আউট করি যেগুলি 1. খুব ছোট, 2. কোনও সারিবদ্ধ চিত্র ফ্রেম নেই, বা 3. প্লট সারাংশ ব্যবহার করে আমরা ক্লিপ বিভাগগুলি পুনরুদ্ধার করতে পারি তা নিশ্চিত করার জন্য কোনও পাঠ্য প্রসঙ্গ নেই।


বহিরাগত লাইব্রেরি। আমরা GPT-3 ভাষা মডেল অ্যাক্সেস করতে OpenAI API ব্যবহার করি। CLIP বৈশিষ্ট্যগুলি Huggingface বাস্তবায়নের সাথে গণনা করা হয় (https://huggingface. co/docs/transformers/main/en/model_doc/clip)৷