paint-brush
長いビデオの質問応答のための要約してから検索する方法: 関連研究@kinetograph

長いビデオの質問応答のための要約してから検索する方法: 関連研究

長すぎる; 読むには

この論文では、研究者らが、物語の要約と視覚的なマッチングを活用し、教師ありモデルよりも優れたパフォーマンスを発揮する GPT-3 を使用したゼロショット ビデオ QA を調査しています。
featured image - 長いビデオの質問応答のための要約してから検索する方法: 関連研究
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

この論文はCC 4.0ライセンスの下でarxivで公開されています。

著者:

(1) Jiwan Chung、延世大学MIRラボ( https://jiwanchung.github.io/ );

(2)Youngjae Yu、延世大学MIRラボ( https://jiwanchung.github.io/ )。

リンク一覧

4. 関連研究

映画の要約映画は、明確な物語構造を持つ長いビデオの典型的な例です。Gorinskiら[7]は、映画のシーンの最適なグラフチェーンを見つけるタスクとして、脚本の短縮版を生成しました。TRIPOD[23]は、ターニングポイントの注釈を含む脚本データセットです。同じ研究で、映画の物語からターニングポイントを識別する自動モデルが提案されています。Papalampidiら[24]は、後にテレビシリーズCSIを使用して、自動映画要約におけるターニングポイントの有用性を実証しました。Leeら[15]は、ダイアログ機能とトランスフォーマーアーキテクチャを使用して、ターニングポイントの識別をさらに改善しました。


長時間ビデオQAビデオ質問応答のタスクは、オープンエンドQA [9]と複数選択問題[28, 29]の両方の形で文献で広く研究されてきました。このタスクに対処するために、RNNベースの注意ネットワーク[9, 30, 36, 38]からメモリネットワーク[12, 22, 27]、トランスフォーマー[4, 6]まで、いくつかのアプローチが提案されています。最近では、大規模なビデオデータセットで事前トレーニングされたマルチモーダルモデル(VideoQA [31]、VIOLET [5]、およびMERLOT [33]とMERLOT-Reserve [34])が、ビデオ質問応答でも有望なパフォーマンスを示しています。


しかし、長時間ビデオのQAは、その重要性にもかかわらず、比較的注目されていません。MovieQA [27]は、通常2時間にわたる映画全体に対してQAを作成します。DramaQA [3]は、単一のテレビシリーズを視覚的なコンテキストとして使用し、1分から20分の長さのビデオクリップを理解するようにソルバーに依頼します。