এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ।
লেখক:
(1) জিওয়ান চুং, এমআইআর ল্যাব ইয়নসেই বিশ্ববিদ্যালয় ( https://jiwanchung.github.io/ );
(2) Youngjae Yu, MIR ল্যাব Yonsei University ( https://jiwanchung.github.io/ )।
কম্পিউটেশনাল বাজেট। লং স্টোরি শর্ট ব্যাকবোন হিসাবে OpenAI API এর মাধ্যমে GPT-3 (175B প্যারামিটার) ব্যবহার করে। একটি ভিডিও সেগমেন্টের সংক্ষিপ্তসারের জন্য একটি গড় প্রম্পট ∼ 3000 টোকেন প্রক্রিয়া করে, যখন একটি QA প্রম্পট সাধারণত ∼ 4000 টোকেন নেয়। CLIPCচেকের জন্য, আমরা CLIP বৈশিষ্ট্যগুলি বের করি এবং একটি একক NVIDIA A6000 GPU ব্যবহার করে কোসাইন সাদৃশ্য গণনা করি: MovieQA বৈধতা বিভাজনের জন্য ভিডিও ফ্রেমগুলি প্রক্রিয়া করতে 0.5 ঘন্টা সময় লাগে৷
হাইপারপ্যারামিটার । সমস্ত হাইপারপ্যারামিটার একটি একক প্রশিক্ষণ নমুনা বিশ্লেষণ করে পূর্ব-সংজ্ঞায়িত করা হয়। বর্ণনামূলক অনুসন্ধানের জন্য, যখন GPT-3 একটি একক সূচক আউটপুট করে না তখন আমরা প্লট টুকরো খুঁজে পেতে বাক্যের মিল থ্রেশহোল্ড α ≥ 0.5 ব্যবহার করি। আমরা CLIPCচেকে বাইনারি এনট্রপি থ্রেশহোল্ড E ′ ≥ 0.4 ব্যবহার করি। আমরা প্রতিটি পরীক্ষা শুধুমাত্র একবার চালাই, কারণ আমাদের পদ্ধতিটি নির্ধারক এবং শুরুতে এলোমেলোতার জন্য সংবেদনশীল নয়।
ভিডিও সেগমেন্টেশন স্কিম। আমরা এই কাগজে ব্যবহার করি এমন সমস্ত ডেটাসেটের জন্য পূর্বনির্ধারিত সেগমেন্ট বাউন্ডারি টীকা রয়েছে। এছাড়াও, সমস্ত প্লট অংশগুলি পালাক্রমে ক্লিপ অংশগুলিকে সারিবদ্ধ করেছে যেহেতু আমরা পূর্বনির্ধারিত সীমানাগুলির সাথে বিভক্ত প্রতিটি ক্লিপের সংক্ষিপ্তকরণ সম্পাদন করি৷ এছাড়াও, এলএসএস প্রয়োগ করার আগে আমরা ক্লিপ সেগমেন্টগুলি ফিল্টার আউট করি যেগুলি 1. খুব ছোট, 2. কোনও সারিবদ্ধ চিত্র ফ্রেম নেই, বা 3. প্লট সারাংশ ব্যবহার করে আমরা ক্লিপ বিভাগগুলি পুনরুদ্ধার করতে পারি তা নিশ্চিত করার জন্য কোনও পাঠ্য প্রসঙ্গ নেই।
বহিরাগত লাইব্রেরি। আমরা GPT-3 ভাষা মডেল অ্যাক্সেস করতে OpenAI API ব্যবহার করি। CLIP বৈশিষ্ট্যগুলি Huggingface বাস্তবায়নের সাথে গণনা করা হয় (https://huggingface. co/docs/transformers/main/en/model_doc/clip)৷