著者:
(1)シェハン・ムナシンゲ、モハメド・ビン・ザイードAI・平等貢献大学
(2)ルシル・トゥシャラ、モハメド・ビン・ザイードAI・平等貢献大学
(3) モハメド・マーズ氏、モハメド・ビン・ザイードAI大学。
(4)ハヌーナ・アブドゥル・ラシード、モハメド・ビン・ザイードAI大学
(5)サルマン・カーン、モハメド・ビン・ザイードAI大学およびオーストラリア国立大学
(6)セントラルフロリダ大学のムバラク・シャー氏
(7) ファハド・カーン、モハメド・ビン・ザイードAI大学、リンシェーピング大学。
編集者注: これは、ビデオ用のよりスマートな AI モデルの開発を詳述する 10 部構成の研究の第 1 部です。続きは以下をご覧ください。
補足資料
画像ベースの大規模マルチモーダルモデル (LMM) をビデオに拡張することは、ビデオデータに固有の複雑さのため困難です。画像ベースの LMM をビデオに拡張する最近のアプローチには、グラウンディング機能が欠けているもの (例: VideoChat、Video-ChatGPT、Video-LLaMA) や、ビデオの理解を向上させるためにオーディオ信号を利用していないもの (例: Video-ChatGPT) があります。これらのギャップに対処するために、ピクセルレベルのグラウンディング機能を備えた最初の LMM である PG-Video-LLaVA を提案します。これは、オーディオキューをテキストに書き起こして統合し、ビデオのコンテキスト理解を深めます。私たちのフレームワークは、既製のトラッカーと新しいグラウンディングモジュールを使用して、ユーザーの指示に従ってビデオ内のオブジェクトを空間的に特定できるようにします。ビデオベースの生成および質問応答ベンチマークを使用して PG-Video-LLaVA を評価し、ビデオ内のプロンプトベースのオブジェクトグラウンディングパフォーマンスを測定するために特別に設計された新しいベンチマークを紹介します。さらに、VideoChatGPT で使用されているように、ビデオベースの会話ベンチマークには、GPT-3.5 ではなく Vicuna を使用することを提案し、GPT-3.5 の独自性に関する懸念事項である結果の再現性を保証します。私たちのフレームワークは、SoTA 画像ベースの LLaVA モデルに基づいて構築され、その利点をビデオ領域に拡張し、ビデオベースの会話とグラウンディング タスクで有望な成果をもたらします。
GPT-4V [25] が先導する大規模マルチモーダルモデル (LMM) に関する最近の取り組みでは、画像に関する詳細な会話が可能ですが、一般的にビデオにはうまく拡張できません。ビデオデータの規模は、ソーシャルメディアやインターネットメディアでの膨大な量のため、他のモダリティをはるかに超えています。さらに、LMM をビデオに拡張することは、正確に理解する必要がある長い時間的コンテキストを伴う複雑なダイナミクスのために困難です。最近の取り組みでは、ビデオの詳細な会話は、画像に関する詳細な会話よりも、ビデオに拡張することが一般的です。
VideoChat [15]、Video-LLaMA [45]、Video-ChatGPT [22]などのビデオLMMへのアプローチは、ビデオ理解と対話の能力を実証していますが、視覚的グラウンディングという重要な機能が欠けています。ビデオの視覚的グラウンディングは、LMM応答をビデオ入力内の特定のオブジェクトに関連付けることを目的としています。このギャップに対処するために、LMM応答に現れるオブジェクトをローカライズできる最初のビデオLMMであるPG-Video-LLaVAを紹介します。このタスクは、扱いやすさの向上につながり、ビデオコンテンツに対する深い理解を示します。
PG-Video-LLaVA では、ビデオ データ特有の課題に対処しています。このモデルは、カメラ ビューの一貫性を維持する短いビデオ クリップ内のオブジェクトを追跡するように設計されており、シーンや動き全体で正確なビジュアル グラウンディングを可能にします。この追跡により、時空間セグメントが会話要素に直接リンクされ、モデルのコンテキスト理解が向上します。PG-VideoLLaVA の顕著な特徴は、モジュール設計であるため、既存のグラウンディング モジュールとの統合が容易で、ビジュアル グラウンディング テクノロジの将来の機能強化に適応できる柔軟性があります。さらに、PG-Video-LLaVA は、オーディオ コンテキストを組み込むことで機能を強化しています。これは、LLM が理解できる形式でビデオ オーディオを活用することで実現します。これは、会話に聴覚情報が不可欠な状況で特に役立ちます。この組み込みにより、モデルの理解が広がり、ビデオ コンテンツの解釈がより多用途になります。
さらに、本研究では、主に独自のGPT-3.5-Turboモデルを評価に使用していた以前のアプローチ[22]から転換して、ビデオベースの会話モデルのベンチマークのための改良されたフレームワークを導入しています。GPT-3.5-Turboはいつでも変更される可能性があり、クローズドソースであるため透明性に欠けることを考えると、信頼性と再現性の点で課題があります。これに対処するために、ベンチマークにオープンソースのLLMであるVicunaの使用を提案します。この移行は再現性を高めるだけでなく、評価プロセスの透明性も向上させます。改良されたベンチマークを使用してPG-Video-LLaVAを評価し、非接地対話においてVideoChatGPT [22]やVideo-LLaMA [45]などの既存のビデオ会話モデルよりも顕著な改善を示し、最先端(SoTA)のパフォーマンスを達成しました。
この研究の主な貢献は次のとおりです。
• 柔軟性を高めるモジュール設計を特徴とする、ピクセルレベルのグラウンディング機能を備えた初のビデオベースの LMM である PG-Video-LLaVA を提案します。
• PG-Video-LLaVA は、オーディオ コンテキストを組み込むことで、ビデオ コンテンツの理解を大幅に強化し、より包括的になり、オーディオ信号がビデオの理解に不可欠なシナリオ (ダイアログや会話、ニュース ビデオなど) に適しています。
• ビデオベースの会話モデル向けに改良された定量的ベンチマークを紹介します。ベンチマークではオープンソースの Vicuna LLM を利用して、再現性と透明性を高めています。また、ビデオベースの会話モデルのグラウンディング機能を評価するベンチマークも提案しています。
この論文は、CC BY 4.0 DEED ライセンスの下でarxiv で公開されています。