この論文はCC 4.0ライセンスの下でarxivで公開されています。
著者:
(1) Jiwan Chung、延世大学MIRラボ( https://jiwanchung.github.io/ );
(2)Youngjae Yu、延世大学MIRラボ( https://jiwanchung.github.io/ )。
GPT-3 などの大規模言語モデルは、タスク固有のトレーニング データを必要とせずに新しいタスクに適応できる優れた能力を示しています。この機能は、タスクの多様性が非常に大きいが、利用可能な監督データが少ない、ナラティブ クエスチョン アンサーなどの設定で特に効果的です。本研究では、このような言語モデルがゼロ ショット推論能力を、ドラマ、映画、アニメーションなど、ストーリーが重要な役割を果たすマルチメディア コンテンツの長いマルチモーダル ナラティブに拡張できるかどうかを調査します。私たちは、最初にビデオのナラティブを短いプロットに要約し、次に質問に関連するビデオの部分を検索するナラティブ ビデオ QA のフレームワークである Long Story Short を提案します。また、CLIPCheck を使用して視覚的なマッチングを強化することも提案します。私たちのモデルは最先端の教師ありモデルを大幅に上回り、長いビデオに対するゼロ ショット QA の可能性を浮き彫りにしています。
最近のビデオQAモデルは、データと注釈の制限により、長いビデオの物語QAタスク[2、13、27](映画、ドラマ、YouTubeウェブビデオなど)の処理に課題を抱えています。その結果、短いビデオクリップ[16、17、30]で主に視覚的な質問に答える以外に、長いビデオの物語を理解することができません。このような長いビデオQAのサイズは、ビデオ内の複雑な物語構造を完全に理解するようにモデルをトレーニングするには不十分であり、最適ではないパフォーマンスをもたらします。[10]は、教師ありモデルが物語のコンテキストよりも質問の言語バイアスに依存していることを示しています。つまり、ビデオコンテキストを見なくても同様のパフォーマンスを得ることができます。これは、小さなタスク固有の教師を超えたマルチモーダル推論機能の必要性を強調しています。
一般化の低さによって引き起こされる課題に対処するために、事前学習済みの大規模言語モデル(LLM)を使用したゼロショットアプローチは、複雑なQAタスク[32]やテキストコンテキスト要約[8、37]に取り組むための効率的な代替手段となり得る。しかし、このようなLLMの物語QA機能はビデオ領域に転用できるのだろうか?
図1に示すように、我々はビデオクリップをソクラテスモデル[35]に触発されたテキスト脚本形式に変換するLong Story Short (LSS)を提案する。GPT-3 [1]を使用して、最初に長いビデオをプロットのリストに要約し、次に生成された要約と生のビデオコンテキストの両方をナビゲートして、与えられた質問を解決します。私たちのゼロショット法は、MovieQAとDramaQAデータセットで最先端の教師あり手法よりも優れた結果を示しています。さらに、GPT-3によって提供される推論結果の視覚的な整合を強化するための視覚テキストマッチング手法であるCLIPCheckを提案する。まとめると、私たちの主な貢献は次の3つです。
長いビデオの物語をプロットのリストに要約し、質問に関連するサブプロットを取得するフレームワークである LSS を紹介します。
視覚プロンプトにおける CLIP ベースのマッチングを通じて、視覚的なアライメントの強度を考慮することの重要性を示します。
私たちのゼロショットアプローチは、MovieQA [27]とDramaQA [2]で最先端のパフォーマンスを達成し、教師ありベースラインを上回りました。