この論文はCC 4.0ライセンスの下でarxivで公開されています。 著者:  (1) Jiwan Chung、延世大学MIRラボ（   ）; https://jiwanchung.github.io/  （２）Youngjae Yu、延世大学MIRラボ（   ）。 https://jiwanchung.github.io/ リンク一覧 概要と序文 方法 実験 関連作業 結論 制限事項と参考文献 A. 実験の詳細 B. プロンプトサンプル 5。結論 動画ナラティブQAの全体的なナラティブと関連する詳細の両方を理解するために、要約してから検索する方法であるLong Story Shortを導入しました。私たちのアプローチは、QAのコンテキストが広大で、そのようなコンテキストとの高レベルの相互作用が上記のQAを解決するために必要な場合に効果的であり、これは長い動画QAに当てはまります。また、CLIPCheckを使用して視覚的な配置を事後チェックすることにより、モデルによって生成された回答の視覚的なグラウンディングをさらに強化することを提案します。私たちのゼロショット法は、MovieQAおよびDramaQAベンチマークにおける教師ありの最先端のアプローチを改善します。コードと生成されたプロットデータを一般に公開する予定です。 この研究の先には、2 つの研究の方向性が考えられます。1 つ目は、キャラクターの再識別と共参照の解決により、ストーリーに沿った視覚的な説明を提供することで、GPT-3 への入力品質を向上させることです。2 つ目は、グローバル情報とローカル情報を階層的に組み合わせた、より動的なマルチホップ検索を考案することです。

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Kinetopgraph.TECH

Read My Stories

kinetograph

このオーディオは、ストーリーの元の言語で制作されています。

長いビデオの質問応答のための要約してから検索する方法：結論

About Author

コメント

ラベル

この記事は

Related Stories

フロキのヴァルハラがインドのスリランカツアーのアソシエイトスポンサーに加わる

18 種類の開発者ツールで生産性を向上しましょう 🚀🔥

海を航海する: データレイクを使用した本番環境レベルの RAG アプリケーションの開発

デジタルノマドの皆さん、タイの新しい DTV ビザについて知っておくべきこと

フロキのヴァルハラがインドのスリランカツアーのアソシエイトスポンサーに加わる

18 種類の開発者ツールで生産性を向上しましょう 🚀🔥

海を航海する: データレイクを使用した本番環境レベルの RAG アプリケーションの開発

デジタルノマドの皆さん、タイの新しい DTV ビザについて知っておくべきこと

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps