この論文はCC 4.0ライセンスの下でarxivで公開されています。 著者:  (1) Jiwan Chung、延世大学MIRラボ（   ）; https://jiwanchung.github.io/  （２）Youngjae Yu、延世大学MIRラボ（   ）。 https://jiwanchung.github.io/ リンク一覧 概要と序文 方法 実験 関連作業 結論 制限事項と参考文献 A. 実験の詳細 B. プロンプトサンプル 4. 関連研究 映画は、明確な物語構造を持つ長いビデオの典型的な例です。Gorinskiら[7]は、映画のシーンの最適なグラフチェーンを見つけるタスクとして、脚本の短縮版を生成しました。TRIPOD[23]は、ターニングポイントの注釈を含む脚本データセットです。同じ研究で、映画の物語からターニングポイントを識別する自動モデルが提案されています。Papalampidiら[24]は、後にテレビシリーズCSIを使用して、自動映画要約におけるターニングポイントの有用性を実証しました。Leeら[15]は、ダイアログ機能とトランスフォーマーアーキテクチャを使用して、ターニングポイントの識別をさらに改善しました。 映画の要約 ビデオ質問応答のタスクは、オープンエンドQA [9]と複数選択問題[28, 29]の両方の形で文献で広く研究されてきました。このタスクに対処するために、RNNベースの注意ネットワーク[9, 30, 36, 38]からメモリネットワーク[12, 22, 27]、トランスフォーマー[4, 6]まで、いくつかのアプローチが提案されています。最近では、大規模なビデオデータセットで事前トレーニングされたマルチモーダルモデル（VideoQA [31]、VIOLET [5]、およびMERLOT [33]とMERLOT-Reserve [34]）が、ビデオ質問応答でも有望なパフォーマンスを示しています。 長時間ビデオQA しかし、長時間ビデオのQAは、その重要性にもかかわらず、比較的注目されていません。MovieQA [27]は、通常2時間にわたる映画全体に対してQAを作成します。DramaQA [3]は、単一のテレビシリーズを視覚的なコンテキストとして使用し、1分から20分の長さのビデオクリップを理解するようにソルバーに依頼します。

Part of HackerNoon's growing list of open-source research papers, promoting free access to academic material.

Kinetopgraph.TECH

Read My Stories

kinetograph

このオーディオは、ストーリーの元の言語で制作されています。

長いビデオの質問応答のための要約してから検索する方法: 関連研究

About Author

コメント

ラベル

この記事は

Related Stories

フォーラムからフィードへ: ソーシャルメディアアルゴリズムがデジタルインタラクションを形作る仕組み

ユーザー中心の暗号通貨製品の作成: 顧客からのフィードバックの重要性

デジタルノマドの皆さん、タイの新しい DTV ビザについて知っておくべきこと

Claude Sonnet 3.5 システムプロンプトの漏洩: 法医学的分析

フォーラムからフィードへ: ソーシャルメディアアルゴリズムがデジタルインタラクションを形作る仕組み

ユーザー中心の暗号通貨製品の作成: 顧客からのフィードバックの重要性

デジタルノマドの皆さん、タイの新しい DTV ビザについて知っておくべきこと

Claude Sonnet 3.5 システムプロンプトの漏洩: 法医学的分析

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps