この論文はCC 4.0ライセンスの下でarxivで公開されています。
著者:
(1)Jiwan Chung、延世大学MIRラボ( https://jiwanchung.github.io/ )
(2)Youngjae Yu、延世大学MIRラボ( https://jiwanchung.github.io/ )。
すべての実験では、バックボーン言語モデルとしてGPT-3 [1] (text-davinci-003) を使用します。特に明記しない限り、ビデオをセグメント化するためにグラウンドトゥルースクリップ境界を使用します。すべてのLSSバリアントはトレーニングデータを使用しないため、ゼロショット方式です。
MovieQA [27]は408本の映画から抽出した大規模なQAデータセットです。データセットには字幕、スクリプト、DVS、ビデオクリップ、プロットなど、複数の情報源が含まれています。私たちは最先端の教師ありベースラインであるA2A [20]、PAMN [11]、UniversalQA [10]、およびDHTCN [21]の4つを報告します。
表 1 は、ゼロショット LSS が以前の教師ありアプローチよりも優れていることを示しています。また、Ours-search は、グラウンド トゥルース セグメント インデックス ラベルがなくても優れたパフォーマンスを示します。CLIPCheck は、ビデオ分割の精度をわずかに向上させます。ただし、MovieQA では一般的な視覚的マッチングではなく、文字ベースのグラウンディングが必要になることが多いため、その差はわずかです。最後に、帰無仮説を試します。コンテキストなしでは、GPT-3 がすべての事実を単純に記憶するだけで MovieQA を解くかどうかをテストします。コンテキストなしでは LSS よりもパフォーマンスが悪く、帰無仮説が棄却されました。
PororoQA [13]は漫画シリーズから構築されたビデオストーリーQAデータセットです。教師ありベースラインは人間が生成したプロットと真実のビデオセグメントインデックスを使用しますが、LSS +Plot+Searchはどちらも使用しません。
表 2 は、PororoQA データセットでの結果をまとめたものです。グラウンドトゥルースのエピソードとプロットの両方を使用した場合、GPT-3 は教師ありベースラインとほぼ同等のパフォーマンスを発揮します。人間が生成したサマリーをモデルが生成したサマリーに置き換えても、パフォーマンスはわずかに低下するだけです。興味深いことに、モデルが生成したプロットを使用すると、検索プロセスがより適切に機能します。この結果は、人間による注釈がエピソードの識別可能性を考慮して設計されていないことに起因していると考えられます。
DramaQA [3]は、ストーリー理解に焦点を当てたビデオQAデータセットです。データセットは、人間の認知発達段階に従って、4つの階層的な難易度で構成されています。プロット理解をテストするために、DramaQAの2つの高レベルでLSSを評価します。レベルごとのDramaQAの最新のベースラインであるCharacterAttentionとKim et al. [14]を報告します。
CLIPCheckとCaptionの効果を比較します。Captionは、BLIP [18]から抽出された画像フレームの説明をGPT-3への入力として組み込むプロンプトベースの方法です。表3は、CLIPCheckが画像の説明よりも大きな改善を提供することを示しています。また、画像キャプションを追加するとLSSが向上しますが、CLIPCheckと併用するとゲインが消えます。これは、フレームキャプションがCLIPCheckと同様の情報を提供しながら、はるかにノイズが多いためだと思われます。ここでの自動キャプションはLSSの不可欠な要素ではないことに注意してください。DramaQAにはすでに視覚的に根拠のある注釈が付いているため、その上に自動画像キャプションを追加しても、必ずしもモデルのパフォーマンスが向上するわけではありません。むしろ、キャプションを使用して、早期視覚アライメント方法と後期視覚アライメント方法を明示的に比較します。
最後に、CLIPCheck が視覚的コンテキストを理解するのではなく、データセットのバイアスを利用しているかどうかを確認します。このために、ランダムな視覚的コンテキストを使用した CLIPCheck のバリエーション (CLIPCheck-Shuffle) を考案しました。CLIPCheck-Shuffle は、CLIPCheck のない LSS よりも改善されず、バイアス仮説を否定します。
要約と検索はどちらも物語理解にとって重要ですか? ここでは、物語検索なしのフルコンテキスト (LSS-Full) またはプロット要約とランダムセグメントを入力として使用した LSS バリアント (LSS-Random) を評価します。表 4 は、LSS-Full と LSS-Random の両方が LSS-Search より劣っていることを示しており、検索の重要性を示しています。トークンの長さの制限により、LSS-Full ではフルコンテキストを使用できなかったことに注意してください。代わりに、GPT3 が受け入れるフルコンテキストの最長プレフィックス (4000 トークンから命令の長さを引いたもの) を使用します。
図 3 は、LSS フレームワークの言語モデルを使用して、長いビデオ QA の中間コンテキストとして生成された自動プロット要約を示しています。定性サンプルに示されているように、生成されたプロットは、Wikipedia の人間が作成したプロットとよく一致しています。たとえば、映画「ハリー・ポッターと死の秘宝」の最初のシーンでは、LSS 要約では、ハリー・ポッターが現在 17 歳であり、死喰い人が主人公を襲うというメインイベントであることが正しく記述されています。
図 4 は、検索されたプロット ピースと回答の可能性の関係を示しています。左側の例では、取得された要約から、トレンチが犯罪を犯して逃亡中であることがわかり、トレンチに興味を持つ別のキャラクターが彼を追いかけていることを示唆しています。言語モデルはこのコンテキストを理解して、回答の可能性を正しく修正します。右側の例では、LSS プロット ピースから、エドワードが自分の決断に自信を持っていることが示唆されています。このコンテキストは質問への直接的な手がかりを提供しませんが、言語モデルはこれを回答を変更するのに十分な情報と見なします。