Jan 01, 1970
この論文はCC 4.0ライセンスの下でarxivで公開されています。
著者:
(1) Jiwan Chung、延世大学MIRラボ( https://jiwanchung.github.io/ );
(2)Youngjae Yu、延世大学MIRラボ( https://jiwanchung.github.io/ )。
動画ナラティブQAの全体的なナラティブと関連する詳細の両方を理解するために、要約してから検索する方法であるLong Story Shortを導入しました。私たちのアプローチは、QAのコンテキストが広大で、そのようなコンテキストとの高レベルの相互作用が上記のQAを解決するために必要な場合に効果的であり、これは長い動画QAに当てはまります。また、CLIPCheckを使用して視覚的な配置を事後チェックすることにより、モデルによって生成された回答の視覚的なグラウンディングをさらに強化することを提案します。私たちのゼロショット法は、MovieQAおよびDramaQAベンチマークにおける教師ありの最先端のアプローチを改善します。コードと生成されたプロットデータを一般に公開する予定です。
この研究の先には、2 つの研究の方向性が考えられます。1 つ目は、キャラクターの再識別と共参照の解決により、ストーリーに沿った視覚的な説明を提供することで、GPT-3 への入力品質を向上させることです。2 つ目は、グローバル情報とローカル情報を階層的に組み合わせた、より動的なマルチホップ検索を考案することです。