paint-brush
長いビデオの質問応答のための要約してから検索する方法:結論@kinetograph
258 測定値

長いビデオの質問応答のための要約してから検索する方法:結論

長すぎる; 読むには

この論文では、研究者らが、物語の要約と視覚的なマッチングを活用し、教師ありモデルよりも優れたパフォーマンスを発揮する GPT-3 を使用したゼロショット ビデオ QA を調査しています。
featured image - 長いビデオの質問応答のための要約してから検索する方法:結論
Kinetograph: The Video Editing Technology Publication HackerNoon profile picture
0-item

この論文はCC 4.0ライセンスの下でarxivで公開されています。

著者:

(1) Jiwan Chung、延世大学MIRラボ( https://jiwanchung.github.io/ );

(2)Youngjae Yu、延世大学MIRラボ( https://jiwanchung.github.io/ )。

リンク一覧

5。結論

動画ナラティブQAの全体的なナラティブと関連する詳細の両方を理解するために、要約してから検索する方法であるLong Story Shortを導入しました。私たちのアプローチは、QAのコンテキストが広大で、そのようなコンテキストとの高レベルの相互作用が上記のQAを解決するために必要な場合に効果的であり、これは長い動画QAに当てはまります。また、CLIPCheckを使用して視覚的な配置を事後チェックすることにより、モデルによって生成された回答の視覚的なグラウンディングをさらに強化することを提案します。私たちのゼロショット法は、MovieQAおよびDramaQAベンチマークにおける教師ありの最先端のアプローチを改善します。コードと生成されたプロットデータを一般に公開する予定です。


この研究の先には、2 つの研究の方向性が考えられます。1 つ目は、キャラクターの再識別と共参照の解決により、ストーリーに沿った視覚的な説明を提供することで、GPT-3 への入力品質を向上させることです。2 つ目は、グローバル情報とローカル情報を階層的に組み合わせた、より動的なマルチホップ検索を考案することです。