136 測定値

長いビデオの質問応答のための要約してから検索する方法: 概要と概要

に Kinetograph: The Video Editing Technology Publication3m2024/05/26

長すぎる; 読むには

この論文では、研究者らが、物語の要約と視覚的なマッチングを活用し、教師ありモデルよりも優れたパフォーマンスを発揮する GPT-3 を使用したゼロショットビデオ QA を調査しています。

featured image - 長いビデオの質問応答のための要約してから検索する方法: 概要と概要

この論文はCC 4.0ライセンスの下でarxivで公開されています。

著者:

(1) Jiwan Chung、延世大学MIRラボ（ https://jiwanchung.github.io/ ）;

（２）Youngjae Yu、延世大学MIRラボ（ https://jiwanchung.github.io/ ）。

リンク一覧

抽象的な

GPT-3 などの大規模言語モデルは、タスク固有のトレーニングデータを必要とせずに新しいタスクに適応できる優れた能力を示しています。この機能は、タスクの多様性が非常に大きいが、利用可能な監督データが少ない、ナラティブクエスチョンアンサーなどの設定で特に効果的です。本研究では、このような言語モデルがゼロショット推論能力を、ドラマ、映画、アニメーションなど、ストーリーが重要な役割を果たすマルチメディアコンテンツの長いマルチモーダルナラティブに拡張できるかどうかを調査します。私たちは、最初にビデオのナラティブを短いプロットに要約し、次に質問に関連するビデオの部分を検索するナラティブビデオ QA のフレームワークである Long Story Short を提案します。また、CLIPCheck を使用して視覚的なマッチングを強化することも提案します。私たちのモデルは最先端の教師ありモデルを大幅に上回り、長いビデオに対するゼロショット QA の可能性を浮き彫りにしています。

1. はじめに

最近のビデオQAモデルは、データと注釈の制限により、長いビデオの物語QAタスク[2、13、27]（映画、ドラマ、YouTubeウェブビデオなど）の処理に課題を抱えています。その結果、短いビデオクリップ[16、17、30]で主に視覚的な質問に答える以外に、長いビデオの物語を理解することができません。このような長いビデオQAのサイズは、ビデオ内の複雑な物語構造を完全に理解するようにモデルをトレーニングするには不十分であり、最適ではないパフォーマンスをもたらします。[10]は、教師ありモデルが物語のコンテキストよりも質問の言語バイアスに依存していることを示しています。つまり、ビデオコンテキストを見なくても同様のパフォーマンスを得ることができます。これは、小さなタスク固有の教師を超えたマルチモーダル推論機能の必要性を強調しています。

一般化の低さによって引き起こされる課題に対処するために、事前学習済みの大規模言語モデル（LLM）を使用したゼロショットアプローチは、複雑なQAタスク[32]やテキストコンテキスト要約[8、37]に取り組むための効率的な代替手段となり得る。しかし、このようなLLMの物語QA機能はビデオ領域に転用できるのだろうか？

図1に示すように、我々はビデオクリップをソクラテスモデル[35]に触発されたテキスト脚本形式に変換するLong Story Short (LSS)を提案する。GPT-3 [1]を使用して、最初に長いビデオをプロットのリストに要約し、次に生成された要約と生のビデオコンテキストの両方をナビゲートして、与えられた質問を解決します。私たちのゼロショット法は、MovieQAとDramaQAデータセットで最先端の教師あり手法よりも優れた結果を示しています。さらに、GPT-3によって提供される推論結果の視覚的な整合を強化するための視覚テキストマッチング手法であるCLIPCheckを提案する。まとめると、私たちの主な貢献は次の3つです。

長いビデオの物語をプロットのリストに要約し、質問に関連するサブプロットを取得するフレームワークである LSS を紹介します。
視覚プロンプトにおける CLIP ベースのマッチングを通じて、視覚的なアライメントの強度を考慮することの重要性を示します。
私たちのゼロショットアプローチは、MovieQA [27]とDramaQA [2]で最先端のパフォーマンスを達成し、教師ありベースラインを上回りました。

L O A D I N G
. . . comments & more!

About Author

Kinetograph: The Video Editing Technology Publication@kinetograph

The Kinetograph's the 1st motion-picture camera. At Kinetograph.Tech, we cover cutting edge tech for video editing.

Read my stories

ラベル

science #narrative-video-qa #long-story-short-framework #large-language-models #multimodal-narratives #zero-shot-reasoning #gpt-3 #clipcheck #long-story-short

この記事は...

Terminal

Lite

Join HackerNoon

Latest technology trends. Customized Experience. Curated Stories. Publish Your Ideas