paint-brush
দীর্ঘ ভিডিও প্রশ্নের উত্তরের জন্য একটি সংক্ষিপ্ত-পরে অনুসন্ধান পদ্ধতি: পরীক্ষা-নিরীক্ষাদ্বারা@kinetograph

দীর্ঘ ভিডিও প্রশ্নের উত্তরের জন্য একটি সংক্ষিপ্ত-পরে অনুসন্ধান পদ্ধতি: পরীক্ষা-নিরীক্ষা

দ্বারা Kinetograph: The Video Editing Technology Publication
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture

Kinetograph: The Video Editing Technology Publication

@kinetograph

The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover...

4 মিনিট read2024/05/26
Read on Terminal Reader
Read this story in a terminal
Print this story

অতিদীর্ঘ; পড়তে

এই গবেষণাপত্রে, গবেষকরা GPT-3 ব্যবহার করে শূন্য-শট ভিডিও QA অন্বেষণ করেন, তত্ত্বাবধানে মডেলগুলিকে ছাড়িয়ে যায়, বর্ণনামূলক সারাংশ এবং ভিজ্যুয়াল ম্যাচিং ব্যবহার করে।
featured image - দীর্ঘ ভিডিও প্রশ্নের উত্তরের জন্য একটি সংক্ষিপ্ত-পরে অনুসন্ধান পদ্ধতি: পরীক্ষা-নিরীক্ষা
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
Kinetograph: The Video Editing Technology Publication

Kinetograph: The Video Editing Technology Publication

@kinetograph

The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover cutting edge tech for video editing.

0-item

STORY’S CREDIBILITY

Academic Research Paper

Academic Research Paper

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ।

লেখক:

(1) জিওয়ান চুং, এমআইআর ল্যাব ইয়নসেই বিশ্ববিদ্যালয় ( https://jiwanchung.github.io/ );

(2) Youngjae Yu, MIR ল্যাব Yonsei University ( https://jiwanchung.github.io/ )।

লিঙ্কের টেবিল

3. পরীক্ষা

সমস্ত পরীক্ষার জন্য, আমরা ব্যাকবোন ভাষা মডেল হিসাবে GPT-3 [1] (টেক্সট-ডেভিন্সি-003) ব্যবহার করি। অন্যথায় বলা না থাকলে, আমরা ভিডিওগুলিকে ভাগ করতে গ্রাউন্ড ট্রুথ ক্লিপ বাউন্ডারি ব্যবহার করি। সমস্ত LSS ভেরিয়েন্ট কোনো প্রশিক্ষণ ডেটা ব্যবহার করে না এবং এইভাবে শূন্য-শট পদ্ধতি।


সারণী 1: MovieQA বৈধতা বিভাজনের উপর মূল্যায়ন। ডেটাসেটটি গড়ে 3 মিনিটের ভিডিও ক্লিপ সহ GT প্রান্তিককরণ সরবরাহ করে: আমরা আমাদের-অনুসন্ধানের প্রতিবেদনও করি যা GT প্রান্তিককরণ ছাড়াই পুরো সিনেমার প্রসঙ্গ অনুসন্ধান করে। (V) ভিডিও নির্দেশ করে এবং (S) সাবটাইটেল নির্দেশ করে।

সারণী 1: MovieQA বৈধতা বিভাজনের উপর মূল্যায়ন। ডেটাসেটটি গড়ে 3 মিনিটের ভিডিও ক্লিপ সহ GT প্রান্তিককরণ সরবরাহ করে: আমরা আমাদের-অনুসন্ধানের প্রতিবেদনও করি যা GT প্রান্তিককরণ ছাড়াই পুরো সিনেমার প্রসঙ্গ অনুসন্ধান করে। (V) ভিডিও নির্দেশ করে এবং (S) সাবটাইটেল নির্দেশ করে।


সারণি 2: PororoQA বৈধতা বিভাজনের উপর মূল্যায়ন। মেশিন দ্বারা তৈরি প্লট (+প্লট) মানুষের টীকা (বেস) এর কাছাকাছি কাজ করে।

সারণি 2: PororoQA বৈধতা বিভাজনের উপর মূল্যায়ন। মেশিন দ্বারা তৈরি প্লট (+প্লট) মানুষের টীকা (বেস) এর কাছাকাছি কাজ করে।


সারণি 3: DramaQA বৈধতা বিভক্তের তিন এবং চার স্তরের মূল্যায়ন। CLIPCcheck বেসলাইনগুলির উপর অত্যাধুনিক এবং ইমেজ বিবরণ ইনপুট করার একটি প্রম্পট-ভিত্তিক পদ্ধতি [35] অর্জন করে।

সারণি 3: DramaQA বৈধতা বিভক্তের তিন এবং চার স্তরের মূল্যায়ন। CLIPCcheck বেসলাইনগুলির উপর অত্যাধুনিক এবং ইমেজ বিবরণ ইনপুট করার একটি প্রম্পট-ভিত্তিক পদ্ধতি [35] অর্জন করে।


সারণি 4: মুভিকিউএ বৈধতা বিভাজনের উপর অ্যাবলেশন স্টাডি।

সারণি 4: মুভিকিউএ বৈধতা বিভাজনের উপর অ্যাবলেশন স্টাডি।

3.1। দীর্ঘ গল্প সংক্ষিপ্ত মূল্যায়ন

মুভিকিউএ [২৭] একটি বড় আকারের QA ডেটাসেট যা 408টি চলচ্চিত্র থেকে পাওয়া যায়। ডেটাসেটে তথ্যের একাধিক উৎস রয়েছে; সাবটাইটেল, স্ক্রিপ্ট, ডিভিএস, ভিডিও ক্লিপ এবং প্লট। আমরা চারটি অত্যাধুনিক তত্ত্বাবধানে বেসলাইন রিপোর্ট করি; A2A [20], PAMN [11], UniversalQA [10], এবং DHTCN [২১]।


সারণী 1 দেখায় যে শূন্য-শট LSS পূর্ববর্তী তত্ত্বাবধানে থাকা পদ্ধতির তুলনায় উন্নতি করেছে। এছাড়াও, আমাদের-সার্চ গ্রাউন্ড-ট্রুথ সেগমেন্ট সূচক লেবেল ছাড়াই শক্তিশালী কার্যক্ষমতা দেখায়। CLIPCচেক ভিডিও বিভাজনে নির্ভুলতাকে কিছুটা উন্নত করে। যাইহোক, পার্থক্যটি প্রান্তিক কারণ মুভিকিউএ-তে প্রায়শই সাধারণ ভিজ্যুয়াল মিলের পরিবর্তে চরিত্র-ভিত্তিক গ্রাউন্ডিং প্রয়োজন হয়। পরিশেষে, আমরা নাল হাইপোথিসিস নিয়ে পরীক্ষা করি: GPT-3 প্রতিটি সত্য মুখস্থ করে মুভিকিউএ সমাধান করে কিনা তা পরীক্ষা করে না। কোনো প্রসঙ্গ LSS এর চেয়ে খারাপ কাজ করে না, নাল হাইপোথিসিস প্রত্যাখ্যান করে।


পোরোরোকিউএ [১৩] একটি কার্টুন সিরিজ থেকে নির্মিত একটি ভিডিও স্টোরি QA ডেটাসেট। তত্ত্বাবধানে থাকা বেসলাইনটি মানব-উত্পাদিত প্লট এবং গ্রাউন্ড ট্রুথ ভিডিও সেগমেন্ট সূচক নেয়, যেখানে LSS +প্লট + অনুসন্ধান কোনটিই নেয় না।


সারণী 2 পোরোরোকিউএ ডেটাসেটে আমাদের ফলাফলের সংক্ষিপ্ত বিবরণ দেয়। গ্রাউন্ড-ট্রুথ এপিসোড এবং প্লট উভয়ই ব্যবহার করার সময়, GPT-3 তত্ত্বাবধানে থাকা বেসলাইনের সাথে প্রায় সমানে পারফর্ম করে। একটি মডেল-উত্পাদিত সারাংশের সাথে একটি মানব-উত্পাদিত সারাংশ প্রতিস্থাপনের ফলাফল শুধুমাত্র একটি প্রান্তিক কর্মক্ষমতা হ্রাস পায়। সম্ভবত আকর্ষণীয়ভাবে, মডেল-উত্পন্ন প্লট ব্যবহার করার সময় অনুসন্ধান প্রক্রিয়া আরও ভাল কাজ করে। আমরা এই ফলাফলটিকে দায়ী করি যে মানুষের টীকাগুলি পর্বের বৈষম্যের জন্য ডিজাইন করা হয়নি৷

3.2। CLIPcheck মূল্যায়ন করা হচ্ছে

DramaQA [3] হল ভিডিও QA ডেটাসেট যা গল্প বোঝার উপর ফোকাস করে। ডেটাসেটটি চারটি স্তরের শ্রেণীবদ্ধ অসুবিধা দিয়ে সাজানো হয়েছে, যা মানুষের জ্ঞানীয় বিকাশের পর্যায়গুলি অনুসরণ করে। আমরা প্লট বোঝার পরীক্ষা করার জন্য DramaQA-এর দুটি উচ্চ স্তরে LSS মূল্যায়ন করি। আমরা লেভেল-ভিত্তিক DramaQA-তে দুটি সর্বশেষ বেসলাইন রিপোর্ট করি; ক্যারেক্টার অ্যাটেনশন এবং কিম এট আল। [১৪]।


আমরা CLIPCচেক এবং ক্যাপশনের প্রভাব তুলনা করি, একটি প্রম্পট-ভিত্তিক পদ্ধতি যা BLIP [18] থেকে GPT-3-তে ইনপুট হিসাবে নেওয়া ইমেজ ফ্রেমের বর্ণনা অন্তর্ভুক্ত করে। সারণি 3 দেখায় যে CLIPCcheck চিত্রের বর্ণনার চেয়ে বেশি উন্নতির প্রস্তাব দেয়। এছাড়াও, ছবির ক্যাপশন যোগ করার সময় LSS উন্নত হয়, CLIPCcheck-এর সাথে যৌথভাবে ব্যবহার করলে লাভ অদৃশ্য হয়ে যায়। আমরা সন্দেহ করি যে এর কারণ হল ফ্রেম ক্যাপশনগুলি অনেক বেশি শোরগোল করার সময় CLIPCচেকের অনুরূপ তথ্য প্রদান করে৷ মনে রাখবেন যে এখানে স্বয়ংক্রিয় ক্যাপশনগুলি LSS এর একটি অবিচ্ছেদ্য উপাদান নয়৷ যেহেতু DramaQA ইতিমধ্যেই ভিজুয়ালি গ্রাউন্ডেড টীকা করেছে, তার উপরে স্বয়ংক্রিয় চিত্র ক্যাপশন যুক্ত করা অগত্যা মডেলের কার্যকারিতা উন্নত করবে না। বরং, আমরা ক্যাপশন ব্যবহার করি সুস্পষ্টভাবে প্রারম্ভিক বনাম দেরী ভিজ্যুয়াল অ্যালাইনমেন্ট পদ্ধতির তুলনা করতে।


চিত্র 3: LSS দ্বারা উত্পন্ন প্লট সারাংশ এবং উইকিপিডিয়া থেকে গ্রাউন্ড-ট্রুথ সারাংশের মধ্যে তুলনা। এখানে, স্থান সীমার কারণে আমরা পুরো প্লটের প্রথম দুটি অনুচ্ছেদ দেখাই।

চিত্র 3: LSS দ্বারা উত্পন্ন প্লট সারাংশ এবং উইকিপিডিয়া থেকে গ্রাউন্ড-ট্রুথ সারাংশের মধ্যে তুলনা। এখানে, স্থান সীমার কারণে আমরা পুরো প্লটের প্রথম দুটি অনুচ্ছেদ দেখাই।


অবশেষে, আমরা ভিজ্যুয়াল প্রসঙ্গ বোঝার পরিবর্তে CLIPCcheck ডেটাসেটের পক্ষপাতকে কাজে লাগায় কিনা তা পরীক্ষা করি। এই লক্ষ্যে, আমরা র্যান্ডম ভিজ্যুয়াল কনটেক্সট (CLIPC-Shuffle) সহ CLIPCcheck এর একটি রূপ তৈরি করি। CLIPCcheck-Shuffle কোনো CLIPCcheck ছাড়া LSS-এ উন্নতি করে না, পক্ষপাতের অনুমান অস্বীকার করে।

3.3। অবলেশন স্টাডি

সংক্ষিপ্তকরণ এবং অনুসন্ধান উভয়ই কি আখ্যান বোঝার জন্য গুরুত্বপূর্ণ? এখানে, আমরা ন্যারেটিভ সার্চ (এলএসএস-ফুল) বা ইনপুট হিসাবে প্লট সারাংশ এবং র্যান্ডম সেগমেন্ট (এলএসএস-র্যান্ডম) ছাড়াই সম্পূর্ণ প্রসঙ্গের সাথে LSS রূপগুলি মূল্যায়ন করি। সারণি 4 দেখায় যে LSS-Full এবং LSS-Random উভয়ই LSS-Search-এর পিছনে পড়ে, যা পুনরুদ্ধারের গুরুত্ব নির্দেশ করে। মনে রাখবেন যে টোকেন দৈর্ঘ্যের সীমাবদ্ধতার কারণে আমরা LSS-Full-এ সম্পূর্ণ প্রসঙ্গ ব্যবহার করতে পারিনি। পরিবর্তে, আমরা GPT3 গৃহীত সম্পূর্ণ প্রেক্ষাপটের দীর্ঘতম উপসর্গ ব্যবহার করি (নির্দেশের দৈর্ঘ্য বিয়োগ করে 4000 টোকেন)।


চিত্র 4: LSS-এ QA প্রক্রিয়ার নমুনা। অনুসন্ধান করা প্লট অংশে কন্ডিশনিং ভাষা মডেলের উত্তরের সম্ভাবনা বন্টনের উপর যথেষ্ট প্রভাব ফেলে।

চিত্র 4: LSS-এ QA প্রক্রিয়ার নমুনা। অনুসন্ধান করা প্লট অংশে কন্ডিশনিং ভাষা মডেলের উত্তরের সম্ভাবনা বন্টনের উপর যথেষ্ট প্রভাব ফেলে।

3.4। গুণগত ফলাফল

চিত্র 3 LSS ফ্রেমওয়ার্কের ভাষা মডেল ব্যবহার করে দীর্ঘ ভিডিও QA-এর মধ্যবর্তী প্রসঙ্গ হিসাবে তৈরি হওয়া স্বয়ংক্রিয় প্লট সারাংশ দেখায়। গুণগত নমুনায় যেমন দেখানো হয়েছে, উত্পন্ন প্লটগুলি উইকিপিডিয়া থেকে মানব-লিখিত প্লটের সাথে ভালভাবে সারিবদ্ধ। উদাহরণস্বরূপ, "হ্যারি পটার অ্যান্ড দ্য ডেথলি হ্যালোস" সিনেমার প্রথম দৃশ্যে এলএসএস সারাংশ সঠিকভাবে লিখেছেন যে হ্যারি পটার বর্তমানে 17 বছর বয়সী এবং মূল ঘটনা যেখানে মৃত্যু ভক্ষকরা নায়ককে আক্রমণ করে।


চিত্র 4 অনুসন্ধান করা প্লট অংশ এবং উত্তর সম্ভাবনার মধ্যে সংযোগ চিত্রিত করে। বাম দিকের উদাহরণে, পুনরুদ্ধার করা সারাংশ বলে যে ট্রেঞ্চ একটি অপরাধ করেছে এবং এইভাবে পলাতক রয়েছে, পরামর্শ দেয় যে তার প্রতি আগ্রহী অন্য চরিত্র তাকে তাড়া করবে। ভাষা মডেল সঠিক উপায়ে উত্তর সম্ভাবনা সংশোধন করতে এই প্রসঙ্গ বুঝতে পারে। সঠিক উদাহরণে, এলএসএস প্লট টুকরা পরামর্শ দেয় যে এডওয়ার্ড তার সিদ্ধান্তে আত্মবিশ্বাসী। যদিও এই প্রেক্ষাপটটি প্রশ্নটির সরাসরি সংকেত দেয় না, ভাষা মডেল এটিকে উত্তর পরিবর্তন করার জন্য যথেষ্ট শক্তিশালী তথ্য হিসাবে দেখে।

L O A D I N G
. . . comments & more!

About Author

Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
Kinetograph: The Video Editing Technology Publication@kinetograph
The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover cutting edge tech for video editing.

আসে ট্যাগ

এই নিবন্ধটি উপস্থাপন করা হয়েছে...

Read on Terminal Reader
Read this story in a terminal
 Terminal
Read this story w/o Javascript
Read this story w/o Javascript
 Lite
X REMOVE AD