مصنفین:
(1) شیہان مناسنگھے، محمد بن زید یونیورسٹی آف AI اور مساوی شراکت؛
(2) روسیرو تھشارا، محمد بن زید یونیورسٹی آف AI اور مساوی شراکت؛
(3) محمد معاذ، محمد بن زید یونیورسٹی آف AI؛
(4) ہنونہ عبدالرشید، محمد بن زید یونیورسٹی آف AI؛
(5) سلمان خان، محمد بن زید یونیورسٹی آف AI اور آسٹریلین نیشنل یونیورسٹی؛
(6) مبارک شاہ، سینٹرل فلوریڈا یونیورسٹی؛
(7) فہد خان، محمد بن زید یونیورسٹی آف AI اور Linköping یونیورسٹی۔
ایڈیٹر کا نوٹ: یہ ایک مطالعہ کا 10 حصہ 1 ہے جس میں ویڈیوز کے لیے ایک بہتر AI ماڈل کی ترقی کی تفصیل ہے۔ باقی نیچے پڑھیں۔
اضافی مواد
ویڈیو ڈیٹا کی موروثی پیچیدگی کی وجہ سے امیج پر مبنی بڑے ملٹی موڈل ماڈلز (LMMs) کو ویڈیوز تک بڑھانا مشکل ہے۔ تصویر پر مبنی LMMs کو ویڈیوز تک پھیلانے کے حالیہ طریقوں میں یا تو گراؤنڈنگ صلاحیتوں کی کمی ہے (مثال کے طور پر، VideoChat، Video-ChatGPT، Video-LLaMA) یا ویڈیو کو بہتر سمجھنے کے لیے آڈیو سگنلز کا استعمال نہیں کرتے ہیں (جیسے، ویڈیو-ChatGPT)۔ ان خلاء کو دور کرتے ہوئے، ہم PG-Video-LLaVA تجویز کرتے ہیں، جو پکسل لیول گراؤنڈنگ کی صلاحیت کے ساتھ پہلا LMM ہے، ویڈیو سیاق و سباق کی تفہیم کو تقویت دینے کے لیے آڈیو اشاروں کو متن میں نقل کرکے ان کو مربوط کرتا ہے۔ ہمارا فریم ورک ایک آف دی شیلف ٹریکر اور ایک نوول گراؤنڈنگ ماڈیول کا استعمال کرتا ہے، جو اسے صارف کی ہدایات پر عمل کرتے ہوئے ویڈیوز میں اشیاء کو مقامی طور پر مقامی بنانے کے قابل بناتا ہے۔ ہم ویڈیو پر مبنی جنریٹو اور سوال جواب دینے والے بینچ مارکس کا استعمال کرتے ہوئے PG-Video-LLaVA کا جائزہ لیتے ہیں اور نئے بینچ مارکس متعارف کراتے ہیں جو خاص طور پر ویڈیوز میں پرامپٹ پر مبنی آبجیکٹ گراؤنڈنگ کارکردگی کی پیمائش کرنے کے لیے بنائے گئے ہیں۔ مزید، ہم ویڈیو پر مبنی بات چیت کی بینچ مارکنگ کے لیے، جیسا کہ VideoChatGPT میں استعمال کیا گیا ہے، GPT-3.5 پر ویکونا کے استعمال کی تجویز پیش کرتے ہیں، جو کہ GPT-3.5 کی ملکیتی نوعیت کے ساتھ تعلق رکھنے والے نتائج کی تولیدی صلاحیت کو یقینی بناتے ہیں۔ ہمارا فریم ورک SoTA امیج پر مبنی LLaVA ماڈل پر بنا ہے اور اپنے فوائد کو ویڈیو ڈومین تک بڑھاتا ہے، جس سے ویڈیو پر مبنی گفتگو اور گراؤنڈنگ کاموں پر امید افزا فوائد حاصل ہوتے ہیں۔
GPT-4V [25] کی سربراہی میں بڑے ملٹی موڈل ماڈلز (LMMs) پر حالیہ کوششیں تصاویر کے بارے میں تفصیلی بات چیت کی اجازت دیتی ہیں لیکن عام طور پر ویڈیوز کے لحاظ سے اچھی طرح سے نہیں ہوتی ہیں۔ سوشل اور انٹرنیٹ میڈیا پر اس کے بڑے حجم کی وجہ سے ویڈیو ڈیٹا کی وسعت دیگر طریقوں سے کہیں زیادہ ہے۔ مزید برآں، طویل وقتی سیاق و سباق کے ساتھ ان کی پیچیدہ حرکیات کی وجہ سے LMMs کو ویڈیوز تک بڑھانا مشکل ہے جسے درست طریقے سے سمجھنے کی ضرورت ہے۔ اگرچہ حالیہ
ویڈیو-LMMs کی طرف نقطہ نظر جیسے VideoChat [15]، Video-LLaMA [45]، اور Video-ChatGPT [22] نے ویڈیو فہم اور مکالمے میں صلاحیتوں کا مظاہرہ کیا ہے، ان میں بصری بنیاد کی اہم خصوصیت کی کمی ہے۔ ویڈیوز میں بصری بنیاد کا مقصد ویڈیو ان پٹ کے اندر مخصوص اشیاء کے لیے LMM ردعمل کو منسلک کرنا ہے۔ اس خلا کو پورا کرتے ہوئے، ہم PG-Video-LLaVA متعارف کراتے ہیں، پہلا ویڈیو-LMM جو LMM ردعمل میں ظاہر ہونے والی اشیاء کو لوکلائز کرنے کی صلاحیت رکھتا ہے۔ یہ ٹاسک افزائش عدم قابلیت کا باعث بنتا ہے اور ویڈیو مواد کی گہری سمجھ کو ظاہر کرتا ہے۔
PG-Video-LLaVA میں، ہم ویڈیو ڈیٹا کے ذریعے درپیش انوکھے چیلنجوں سے نمٹتے ہیں۔ ماڈل کو چھوٹے ویڈیو کلپس کے اندر اشیاء کو ٹریک کرنے کے لیے ڈیزائن کیا گیا ہے جو کیمرے کے مسلسل نظارے کو برقرار رکھتے ہیں، جس سے مناظر اور حرکات میں درست بصری بنیاد کو فعال کیا جا سکتا ہے۔ یہ ٹریکنگ spatio-temporal segments کو براہ راست بات چیت کے عناصر سے جوڑتی ہے، جس سے ماڈل کی سیاق و سباق کی سمجھ میں اضافہ ہوتا ہے۔ PG-VideoLLaVA کی ایک نمایاں خصوصیت اس کا ماڈیولر ڈیزائن ہے، جو موجودہ گراؤنڈنگ ماڈیولز کے ساتھ آسان انضمام اور بصری گراؤنڈنگ ٹیکنالوجی میں مستقبل میں ہونے والی بہتری کے لیے لچک پیدا کرنے کی اجازت دیتا ہے۔ مزید برآں، PG-Video-LLaVA آڈیو سیاق و سباق کو شامل کر کے اپنی صلاحیتوں کو بہتر بناتا ہے۔ یہ LLM کے لیے قابل فہم شکل میں ویڈیو آڈیو کا فائدہ اٹھا کر یہ حاصل کرتا ہے، جو خاص طور پر ایسے حالات میں مفید ہے جہاں گفتگو کے لیے سمعی معلومات ضروری ہیں۔ یہ شمولیت ماڈل کی سمجھ کو وسیع کرتی ہے، جس سے یہ ویڈیو مواد کی ترجمانی میں زیادہ ہمہ گیر ہے۔
مزید برآں، یہ کام ویڈیو پر مبنی بات چیت کے ماڈلز کی بینچ مارکنگ کے لیے ایک بہتر فریم ورک متعارف کرایا گیا ہے، جو پچھلے طریقوں سے محور ہے [22] جو بنیادی طور پر تشخیص کے لیے ملکیتی GPT-3.5-Turbo ماڈل استعمال کرتا ہے۔ یہ دیکھتے ہوئے کہ GPT-3.5-Turbo کسی بھی وقت تبدیلیوں سے مشروط ہے اور اس کی بند سورس نوعیت کی وجہ سے شفافیت کا فقدان ہے، یہ قابل اعتماد اور تولیدی صلاحیت کے لحاظ سے چیلنجز پیش کرتا ہے۔ اس سے نمٹنے کے لیے، ہم بینچ مارکنگ کے لیے ایک اوپن سورس LLM Vicuna کے استعمال کی تجویز پیش کرتے ہیں۔ یہ تبدیلی نہ صرف تولیدی صلاحیت کو بڑھاتی ہے بلکہ تشخیص کے عمل میں شفافیت کو بھی بہتر بناتی ہے۔ ہم اپنے بہتر بینچ مارکس کا استعمال کرتے ہوئے PG-Video-LLaVA کا جائزہ لیتے ہیں اور ویڈیو چیٹ جی پی ٹی [22] اور ویڈیو-LLaMA [45] جیسے کہ بے بنیاد مکالموں میں جدید ترین (SoTA) کارکردگی کو حاصل کرتے ہوئے موجودہ ویڈیو گفتگو کے ماڈلز پر قابل ذکر بہتری دکھاتے ہیں۔
اس کام کی اہم شراکتیں یہ ہیں:
• ہم PG-Video-LLaVA تجویز کرتے ہیں، پکسل لیول گراؤنڈنگ صلاحیتوں کے ساتھ پہلا ویڈیو پر مبنی LMM، جس میں بہتر لچک کے لیے ایک ماڈیولر ڈیزائن شامل ہے۔
• آڈیو سیاق و سباق کو شامل کر کے، PG-Video-LLaVA ویڈیو مواد کے بارے میں اس کی سمجھ کو نمایاں طور پر بڑھاتا ہے، اسے زیادہ جامع اور مناسب طور پر ایسے منظرناموں کے لیے موزوں بناتا ہے جہاں ویڈیو کی تفہیم کے لیے آڈیو سگنل بہت اہم ہوتا ہے (مثلاً، مکالمے اور گفتگو، نیوز ویڈیوز، وغیرہ)۔ .
• ہم ویڈیو پر مبنی بات چیت کے ماڈلز کے لیے بہتر مقداری معیارات متعارف کراتے ہیں۔ ہمارے معیارات بہتر تولیدی صلاحیت اور شفافیت کو یقینی بنانے کے لیے اوپن سورس Vicuna LLM کا استعمال کرتے ہیں۔ ہم ویڈیو پر مبنی بات چیت کے ماڈلز کی زمینی صلاحیتوں کا جائزہ لینے کے لیے بینچ مارکس بھی تجویز کرتے ہیں۔
یہ کاغذ CC BY 4.0 DEED لائسنس کے تحت arxiv پر دستیاب ہے۔