paint-brush
長いビデオの質問応答のための要約してから検索する方法:方法@kinetograph
107 測定値

長いビデオの質問応答のための要約してから検索する方法:方法

長すぎる; 読むには

この論文では、研究者らが、物語の要約と視覚的なマッチングを活用し、教師ありモデルよりも優れたパフォーマンスを発揮する GPT-3 を使用したゼロショット ビデオ QA を調査しています。
featured image - 長いビデオの質問応答のための要約してから検索する方法:方法
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

この論文はCC 4.0ライセンスの下でarxivで公開されています。

著者:

(1) Jiwan Chung、延世大学MIRラボ( https://jiwanchung.github.io/ );

(2)Youngjae Yu、延世大学MIRラボ( https://jiwanchung.github.io/ )。

リンク一覧

2. 方法


図 2: 生のビデオ映像のインデックスを生成して取得する、私たちが提案する Long Story Short (LSS) モデルを示す定性的な結果。モデルが (i) 生成された要約と (ii) 取得されたテキスト コンテキストから最終回答を予測すると、CLIPCheck は各候補者の回答を検証して、質問に対する最終回答を修正します。

2.1. プロット生成

2.2. 物語検索

要約された物語と質問が与えられたら、長いビデオから質問に関連する比較的短いクリップを取得したいと考えています。言語モデルは、不規則でノイズが多いことが多いオープンエンドのテキストを生成します。ビデオの正確な部分を取得するために、テキスト形式ではなくプロットのインデックスを出力するようにモデルを駆動します。



言語モデルのオープンエンドな性質のため、生成されたインデックスには依然としてノイズが含まれる可能性があります。モデルがテキスト形式で回答を出力する場合、生成された文との類似性が指定されたしきい値α ≥ 0.5を超えるプロットピース候補を見つけるために、rouge-l [19]スコアを使用します。


2.3. 目視による確認