この論文はCC 4.0ライセンスの下でarxivで公開されています。
著者:
(1) Jiwan Chung、延世大学MIRラボ( https://jiwanchung.github.io/ );
(2)Youngjae Yu、延世大学MIRラボ( https://jiwanchung.github.io/ )。
映画の要約映画は、明確な物語構造を持つ長いビデオの典型的な例です。Gorinskiら[7]は、映画のシーンの最適なグラフチェーンを見つけるタスクとして、脚本の短縮版を生成しました。TRIPOD[23]は、ターニングポイントの注釈を含む脚本データセットです。同じ研究で、映画の物語からターニングポイントを識別する自動モデルが提案されています。Papalampidiら[24]は、後にテレビシリーズCSIを使用して、自動映画要約におけるターニングポイントの有用性を実証しました。Leeら[15]は、ダイアログ機能とトランスフォーマーアーキテクチャを使用して、ターニングポイントの識別をさらに改善しました。
長時間ビデオQAビデオ質問応答のタスクは、オープンエンドQA [9]と複数選択問題[28, 29]の両方の形で文献で広く研究されてきました。このタスクに対処するために、RNNベースの注意ネットワーク[9, 30, 36, 38]からメモリネットワーク[12, 22, 27]、トランスフォーマー[4, 6]まで、いくつかのアプローチが提案されています。最近では、大規模なビデオデータセットで事前トレーニングされたマルチモーダルモデル(VideoQA [31]、VIOLET [5]、およびMERLOT [33]とMERLOT-Reserve [34])が、ビデオ質問応答でも有望なパフォーマンスを示しています。
しかし、長時間ビデオのQAは、その重要性にもかかわらず、比較的注目されていません。MovieQA [27]は、通常2時間にわたる映画全体に対してQAを作成します。DramaQA [3]は、単一のテレビシリーズを視覚的なコンテキストとして使用し、1分から20分の長さのビデオクリップを理解するようにソルバーに依頼します。