এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ।   লেখক:  (1) জিওয়ান চুং, এমআইআর ল্যাব ইয়নসেই বিশ্ববিদ্যালয় (   ); https://jiwanchung.github.io/  (2) Youngjae Yu, MIR ল্যাব Yonsei University (   )। https://jiwanchung.github.io/  লিঙ্কের টেবিল   বিমূর্ত এবং ভূমিকা   পদ্ধতি   পরীক্ষা-নিরীক্ষা   সম্পর্কিত কাজ   উপসংহার   সীমাবদ্ধতা এবং রেফারেন্স   A. পরীক্ষার বিবরণ   বি প্রম্পট নমুনা  বিমূর্ত  GPT-3-এর মতো বড় ভাষার মডেলগুলি টাস্ক-নির্দিষ্ট প্রশিক্ষণ ডেটার প্রয়োজন ছাড়াই নতুন কাজের সাথে খাপ খাইয়ে নেওয়ার একটি চিত্তাকর্ষক ক্ষমতা প্রদর্শন করেছে। বর্ণনামূলক প্রশ্নের উত্তর দেওয়ার মতো সেটিংসে এই ক্ষমতা বিশেষভাবে কার্যকর হয়েছে, যেখানে কাজের বৈচিত্র্য অপরিসীম, কিন্তু উপলব্ধ তত্ত্বাবধানের ডেটা ছোট। এই কাজটিতে, আমরা তদন্ত করি যে এই ধরনের ভাষার মডেলগুলি নাটক, চলচ্চিত্র এবং অ্যানিমেশনের মতো মাল্টিমিডিয়া বিষয়বস্তুতে দীর্ঘ মাল্টিমোডাল বর্ণনায় তাদের শূন্য-শট যুক্তির ক্ষমতা প্রসারিত করতে পারে, যেখানে গল্পটি একটি অপরিহার্য ভূমিকা পালন করে। আমরা লং স্টোরি শর্ট প্রস্তাব করি, বর্ণনামূলক ভিডিও QA-এর জন্য একটি কাঠামো যা প্রথমে একটি ছোট প্লটে ভিডিওটির বর্ণনাকে সংক্ষিপ্ত করে এবং তারপর প্রশ্নের সাথে প্রাসঙ্গিক ভিডিওর অংশগুলি অনুসন্ধান করে৷ আমরা CLIPCheck-এর সাথে ভিজ্যুয়াল ম্যাচিং বাড়ানোরও প্রস্তাব করছি। আমাদের মডেল অত্যাধুনিক তত্ত্বাবধানে থাকা মডেলগুলিকে বড় ব্যবধানে ছাড়িয়ে যায়, দীর্ঘ ভিডিওগুলির জন্য শূন্য-শট QA-এর সম্ভাবনাকে হাইলাইট করে৷  1। পরিচিতি  সাম্প্রতিক ভিডিও QA মডেলগুলি ডেটা এবং টীকাগুলির সীমাবদ্ধতার কারণে দীর্ঘ ভিডিও বর্ণনামূলক QA কাজগুলি [2, 13, 27] (অর্থাৎ, চলচ্চিত্র, নাটক এবং YouTube ওয়েব ভিডিও) পরিচালনা করতে চ্যালেঞ্জের মুখোমুখি হয়। এর ফলে সংক্ষিপ্ত ভিডিও ক্লিপ [16, 17, 30]-এ প্রধানত ভিজ্যুয়াল প্রশ্নের উত্তর দেওয়ার বাইরে দীর্ঘ ভিডিও বর্ণনাগুলি বোঝার অক্ষমতা হয়। এই ধরনের দীর্ঘ ভিডিও QA-এর মাপগুলি একটি ভিডিওর মধ্যে জটিল বর্ণনামূলক কাঠামো সম্পূর্ণরূপে বোঝার জন্য মডেলদের প্রশিক্ষণের জন্য অপর্যাপ্ত, উপ-অনুকূল পারফরম্যান্স প্রদান করে। [১০] দেখান যে তত্ত্বাবধানে থাকা মডেলগুলি বর্ণনামূলক প্রসঙ্গের চেয়ে প্রশ্নে ভাষার পক্ষপাতের উপর বেশি নির্ভর করে: তারা কোনো ভিডিও প্রসঙ্গ না দেখেও একই ধরনের কর্মক্ষমতা পেতে পারে। এটি ছোট টাস্ক-নির্দিষ্ট তত্ত্বাবধানের বাইরে মাল্টিমডাল যুক্তি ক্ষমতার প্রয়োজনীয়তা তুলে ধরে।  কম সাধারণীকরণের কারণে সৃষ্ট চ্যালেঞ্জ মোকাবেলা করার জন্য, একটি শূন্য-শট পদ্ধতি ব্যবহার করে প্রি-ট্রেইনড লার্জ ল্যাঙ্গুয়েজ মডেল (এলএলএম) জটিল QA কাজগুলি মোকাবেলা করার জন্য একটি দক্ষ বিকল্প হতে পারে [32], এবং পাঠ্য প্রসঙ্গে সংক্ষিপ্তকরণ [8, 37]। তবুও, এই ধরনের LLM-এর বর্ণনামূলক QA ক্ষমতা কি ভিডিও ডোমেনে স্থানান্তরযোগ্য?   আমরা লং স্টোরি শর্ট (এলএসএস) প্রস্তাব করছি, চিত্র 1-এ চিত্রিত, যা ভিডিও ক্লিপগুলিকে সক্রেটিক মডেল [৩৫] দ্বারা অনুপ্রাণিত পাঠ্য চিত্রনাট্য বিন্যাসে অনুবাদ করে। GPT-3 [1] ব্যবহার করে, আমরা প্রথমে প্লটের একটি তালিকায় দীর্ঘ ভিডিওটির সংক্ষিপ্তসার করি এবং তারপরে প্রদত্ত প্রশ্নের সমাধান করার জন্য জেনারেট করা সারাংশ এবং কাঁচা ভিডিও প্রসঙ্গ উভয়ই নেভিগেট করি। আমাদের জিরো-শট পদ্ধতি মুভিকিউএ এবং ড্রামাকিউএ ডেটাসেটে অত্যাধুনিক তত্ত্বাবধান করা পদ্ধতির চেয়ে ভাল ফলাফল দেখায়। তদ্ব্যতীত, আমরা CLIPCcheck প্রস্তাব করছি, একটি ভিজ্যুয়াল-টেক্সট ম্যাচিং পদ্ধতি যা GPT-3 দ্বারা প্রদত্ত যুক্তি ফলাফলের ভিজ্যুয়াল সারিবদ্ধতা উন্নত করতে। সংক্ষেপে বলতে গেলে, আমাদের প্রধান অবদান তিনগুণ:  আমরা LSS উপস্থাপন করি, একটি কাঠামো যা প্লটের একটি তালিকায় একটি দীর্ঘ ভিডিও বর্ণনার সারসংক্ষেপ করে এবং প্রশ্নের সাথে প্রাসঙ্গিক সাবপ্লট পুনরুদ্ধার করে।  আমরা ভিজ্যুয়াল প্রম্পটিং-এ CLIP-ভিত্তিক ম্যাচিংয়ের মাধ্যমে ভিজ্যুয়াল অ্যালাইনমেন্ট শক্তি বিবেচনা করার গুরুত্ব প্রদর্শন করি।  আমাদের জিরো-শট অ্যাপ্রোচ মুভিকিউএ [২৭] এবং ড্রামাকিউএ [২]-এ অত্যাধুনিক পারফরম্যান্স অর্জন করে, তত্ত্বাবধানে বেসলাইনকে ছাড়িয়ে যায়।

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Kinetopgraph.TECH

Read My Stories

kinetograph

গল্পের মূল ভাষায় এই অডিও তৈরি!

দীর্ঘ ভিডিও প্রশ্নের উত্তরের জন্য একটি সংক্ষিপ্ত-পরে অনুসন্ধান পদ্ধতি: বিমূর্ত এবং ভূমিকা

About Author

মন্তব্য

আসে ট্যাগ

এই নিবন্ধটি উপস্থাপন করা হয়েছে

Related Stories

AI এর শক্তি উন্মুক্ত করা। কাটিং-এজ টেকনিকের একটি পদ্ধতিগত পর্যালোচনা: বিমূর্ত ও ভূমিকা

ফ্লোকির ভালহাল্লা ভারতের শ্রীলঙ্কা সফরের সহযোগী স্পনসর হিসেবে যোগ দিয়েছেন

ব্যবহারকারী-কেন্দ্রিক ক্রিপ্টো পণ্য তৈরি করা: গ্রাহক প্রতিক্রিয়ার গুরুত্ব

টেলিগ্রাম: ক্রিপ্টো দ্বীপের মূল ভূখণ্ডের সেতু

AI এর শক্তি উন্মুক্ত করা। কাটিং-এজ টেকনিকের একটি পদ্ধতিগত পর্যালোচনা: বিমূর্ত ও ভূমিকা

ফ্লোকির ভালহাল্লা ভারতের শ্রীলঙ্কা সফরের সহযোগী স্পনসর হিসেবে যোগ দিয়েছেন

ব্যবহারকারী-কেন্দ্রিক ক্রিপ্টো পণ্য তৈরি করা: গ্রাহক প্রতিক্রিয়ার গুরুত্ব

টেলিগ্রাম: ক্রিপ্টো দ্বীপের মূল ভূখণ্ডের সেতু

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps